
- 여기서 손실함수를 가중치 파라미터로 미분한 식 앞에 붙은 n같이 생긴 것 = 학습률
- 학습률은 보통 0에서 1사이 값을 가진다
- 가중치 파라미터가 업데이트 될 때, 기울기의 값을 얼만큼 반영할 것인지 설정하는 역할
- 0 에 가깝다면, 파라미터 업데이트 양은 줄어듬
- 1에 가깝다면, 파라미터 업데이트 양이 거의 그대로 보존됨
- 스텝 : 파라미터가 한번 업데이트 되는 것
- 학습률 크기에 따라 학습이 진행되는 정도, 성질이 다르게 나타남

- 학습률이 너무 크면 손실 값이 발산(무한으로 커짐)하는 상황이 있을 수 있다
→ 이 경우, 학습률을 50%나 10%로 줄여줘야 함
- 학습률이 너무 크면 지역최소점에 빠질 가능성이 커지고, 0에 가까우면 업데이트가 아예 안되는 경우가 생길 수 있음
- 이 학습률은 사용자가 임의로 바꿔줄 수 있음 = 하이퍼 파라미터라고 불림