1. 학습률의 크기에 따른 특성과 동적 학습률의 필요성
- 학습률(n)
- 아래는 가중치 파라미터를 업데이트해주는 식
- 손실미분한거에 학습률 곱한거를 기존 가중치 파라미터에 빼줌→ 다음 가중치 파라미터

- 학습률이 클 때와 작을 때
- 작으면 너무 조금씩 움직임
- 크면 후반에 나은 손실 값 얻기 힘듦
→ 초반에는 크게 후반에는 작게 학습률을 변경시키는 방법이 좋음

: 동적 학습률 적용하는 것.
→ 가장 많이 쓰이는 알고리즘은 아담

2. 모멘텀
: 최적화 기법 중 하나
- 이점
- 지역최소점을 쉽게 탈출할 수 있음
- 학습 속도를 가속화
→ 모멘텀은 시작부터 매번 계산된 그래디언트를 누적하는 형태로 구현됨