SGD
- SGD는 비복원 추출을 통해 일부 샘플을 뽑아 미니배치를 구성하고 피드포워딩 및 파라미터 업데이트를 수행하는 방법
- 기존 전체 데이터셋을 활용하는 방식에 비해 파라미터 업데이트를 효율적으로 수행할 수 있음
- 용어설명
- 에포크 : 모델이 데이터 전체를 학습하는 것
- 이터레이션 : 모델의 파라미터 업데이트를 1회 수행하는 것
- 미니배치 크기에 따른 특징
- 미니배치가 작을 수록 한 에포크 내에서 파라미터를 업데이트하는 횟수는 증가
- 미니배치가 클수록 그래디언트에 노이즈가 줄어듦
- 메모리가 허용하는 한에서 큰 미니배치를 사용하면 좋음
- 미니배치 크기는 2의 제곱형태로 정해주는 것이 속도에 유리함