- 앞서 살펴본 그래디언트 소실 문제는 시그모이드나 탄에이치 같은 활성화함수를 미분했을 때 양 끝단이 0에 한없이 가까워지고 이 0으로 인해 가중치 파라미터가 업데이트가 안되는 상황으로 인해 발생한다.
- 이 그래디언트 소실문제를 해결하기 위한 다른 활성함수가 렐루임.

- 렐루는 0보다 작으면 0을 반환하고 0보다 크면 기울기가 1인 형태가 됨
- 기울기가 1이다 = 빠른 최적화가 가능하다.
- 기울기가 1인 경우, 가중치 업데이트를 할 때 오차를 기울기 값에 곱해주는데, 이 때 기울기 값이 1이면 오차 그대로 전달되기 때문에 가중치 업데이트가 더 빠르게 이루어짐.
- 단, 모든 값이 0보다 작으면 똑같이 업데이트가 안됨. → 학습속도 느려짐
리키렐루

- 음수 구간에서 0은 아닌 값을 가짐.
- 아주 작은 $\alpha$를 곱해줘서.
- 이 리키렐루가 렐루보다 무조건 더 좋은 것은 아님!