드롭아웃 | Notion

: 임의의 노드를 일정 확률로 드롭 → 학습에 참여하지 않도록 함(역전파에서도 제외)

Untitled

1. 학습과 추론 방식의 차이

Untitled

추론에서는 드롭되는 노드 없이 모든 노드가 항상 추론에 참여
W에 (1-p)를 곱해줌
- 왜냐면, 만약 p가 0.33이면 3개의 노드중 2개만 살아남음
- 근데 추론에서는 드롭되는 노드 없음 → 학습과 추론은 1.5배 정도 차이남
- 그래서 학습에 1-p를 곱해줘서 맞춰줌

2. 드롭아웃의 구현

: 드롭아웃은 활성화 함수랑 다음 레이어 사이

train(), eval()이라는 메소드 사용.

Untitled

model = nn.Sequential(
    nn.Linear(300, 200),
    nn.LeakyReLU(),
		nn.Dropout(p)
    nn.Linear(200, 100),
    nn.LeakyReLU(),
		nn.Dropout(p)
    nn.Linear(100,50),
    nn.LeakyReLU(),
		nn.Dropout(p)
    nn.Linear(50, 10), #
)

train과 eval을 왔다갔다할 수 있음

for epoch_idx in range(n_epochs) :
		net.train()
		for iter_idx in range(n_train_iters) :

		net.eval()
		for iter_idx in range(n_valid_iters) :

따라서 학습과 검증으로 구성되는 에포크는 내부에 모델의 학습 모드와 추론 모드의 전환 과정이 포함되어 있어야 함

3. 드롭아웃의 의미와 한계

일반화 성능이 개선될 수는 있어도 손실 값의 수렴 속도가 저하될 수 있고 학습 오차가 증가할 수 있음