: 오버피팅을 늦추고 모델이 학습 데이터로부터 적절한 특징들을 학습하여 일반화 오차를 낮춰줄 수 있는 기법

1. 가중치 감쇠
1. L2 노름 적용
- L2 노름 적용, 기존의 손실 함수와 함께 이 노름을 같이 최소화하기
- 편향 b는 가중치 감쇠에서 제외
- 이 손실 함수 때문에 가중치 파라미터가 학습 과정에서 점점 원점으로부터 멀어지는 것을 방지하는 효과가 발생

2. 이유
- 가중치 파라미터에서 W의 각 요소들은 선형 계층에서 입출력 노드 사이의 관계를 나타냄.
- W가 크다 = 관계가 강하다 → L2노름 적용해서 약하게 만들어줌 → 각 계층의 출력 노드가 다수의 입력 노드로부터 많이 학습하는 것을 제한함
3. L1노름 사용

- 가중치 파라미터의 값들이 희소하도록 제한(희소할 수록 많은 요소 값들이 0이 됨)
