평가
- 정성 평가
- 주로 사람이 직접 평가
- Human evaluation이라고 불림
- 가장 정확한 평가방법이지만 비용과 시간이 많이 소모
- 정량평가
- 평가 매트릭에 의해 자동으로 수행
- 속도가 빠르고 비용이 저렴
- 정성평가와 가장 비슷한 결과가 나올 수록 좋은 정량평가방법이라고 볼 수 있음
- 정량평가만으로는 부족할 수 있으므로 서비스 전에는 정성평가를 거치는 것이 바람직함
오버피팅
- 모델의 수용능력이 데이터에 비해 너무 충분할 때 발생
- 반면에 모델의 수용능력이 데이터에 비해 부족하면 언더피팅 발생
- 오버피팅이란 학습 데이터셋에서의 오차(손실값)가 일반화 오차에 비해 현격하게 낮아지는 현상으로 일반화 오차는 검증 데이터셋의 손실 값으로 알 수 있음
데이터 분할
- 사용자가 임의의 비율(6:2:2)로 학습/검증/테스트 데이터셋을 분할하여 학습과 평가를 수행
- 데이터가 분할된 이후에 학습 데이터를 기준으로 학습/검증/데이터셋에 대해 전처리를 수행
- 예를 들어, 학습 데이터의 평균과 표준편차를 활용하여 3개 데이터셋에 대해 표준 스케일링을 수행해야 함