ADAM Optimizer Second Order Moment의 고찰

사용자 문서
2021/08/22

ADAM Optimizer 에서 Second Order Moment는 $a = \nabla f(w_y)$ 의 형태로 다음의 형태이다.

$$
\text{RMS} (\nabla f^2)
$$

그리고 이것은 Hessian의 형태로 생각하는 데 이는 Fisher Information Matrix의 정의에서 타당하다.
그렇다면.. 이것의 보다 정확한 의미는 무엇인가를 생각해야 한다.

$(I + a a^T), \quad a \in \mathbf{R}^n$ 의 경우 First Order Estimation 으로 생각할 수 있다.
그런데, 이것을, 다음의 Second Order로 생각해 보자.

$$
(I + a a^T + b b^T)
$$

이때 $b b^T$ 를 $\sigma dW_t (\sigma dW_t)^T$ 로 생각하면 이는 Diagonal 항만 존재하는 어떤 것이 될 것이다. 그렇다면 이는

$$
(I + a a^T + b b^T) = (I + a a^T + \sigma \sigma^T dW dW^T) = (I + a a^T + \sigma_D^2 )
$$
의 형태가 되어 Transpose에도 완벽히 Symmetry가 유지되는 형태가 된다. (원래 Second Order Estimation도 마찬가지였다)

특히 $bb^T$ 가 Symmetry인데 Diagonal 이라는 특성은 많은 유리한 특징을 제공해 주게 될 것이다. 즉, 이는 이렇게 생각할 수 있다.

$$
a = \nabla f ds + \sigma dW
$$

파일

클립보드 이미지 추가 (최대 크기: 977.563 MB)