1. 앞서 활용해온 최적화 방법

- 예측값과 실제값의 차이인 손실값 계산 → 미분 → 그래디언트 g를 얻을 수 있음 → 여기에 학습률 곱하고 얻은 값을 기존 가중치 파라미터값에 뺌 → 다음 가중치 파라미터 값을 얻을 수 있음
- 이 때, t는 파라미터 업데이트 횟수를 뜻함. (이터레이션 의미)
2. 모멘텀의 수식
: 모멘텀은 예전 그래디언트를 누적해서 계산

- 모멘텀 그래디언트 g는 기존 그래디언트와 선형결합.
- 처음부터 현재까지의 디스카운트 파라미터($\gamma$)가 곱해진 그래디언트 누적 합

- 그리고 현재 파라미터에 모멘텀 g를 더해줌
- 결국 어떠한 타임스탬프가 되게 됨
- 수식에는 여전히 학습률 n이 남아있는 것을 확인할 수 있음
3. 아다그래드의 수식
: 적응형 학습률 그래디언트 수식.
- 초반에는 큰 학습률, 후반에는 작은 학습률
- 그래디언트의 제곱을 누적한 값을 계산해 활용