1. 데이터 나누기

- 보통 8:1:1이나 6:2:2로 구성
- 랜덤하게 나누어 구성하고 편향과 중복이 없도록 조정함
2. 정리
|
Train set |
Valid set |
Test set |
| Parameter |
결정 |
검증 |
검증 |
| Hyper-parameter |
|
결정 |
검증 |
| Algorithm |
|
|
결정 |
- 학습데이터셋을 통해 가중치 파라미터 값 결정
- 검증 데이터셋, 테스트 데이터셋을 통해 오버피팅같은 정합성 여부 확인
- 하이퍼파라미터는 검증 데이터셋을 통해 결정 → 수동이기 떄문에
- 알고리즘 결정은 여러 베이스라인 ~ 모델구조, 학습 기법 중 뭐가 제일 나은지 결정하는 것이기 때문에 테스트셋을 통해 마지막에 결정됨