- 기존 시퀀스투시퀀스에선 인코더-디코더 구조의 단점을 보완하기 위해 어텐션을 적용함
- 그렇다면 이번에는 어텐션만으로 인코더와 디코더를 만들어보면 어떨까?에서 출발함
주요 하이퍼 파라미터
$$
d_{model} = 512
$$
- 트랜스포머의 인코더와 디코더에서 정해진 입력과 출력의 크기를 의미
- 임베딩 벡터의 차원도 512고 각 인코더와 디코더가 다음 층의 인코더, 디코더로 값을 보낼때도 512로 차원을 유지함
$$
num layers = 6
$$
- 트랜스포머 모델에서 인코더와 디코더가 총 몇층으로 구성되었는지
- 6개 쌓았다는 뜻
$$
numheads = 8
$$
- 트랜스포머 모델에서 어텐션을 사용할 때 한번 하는 것보다 여러개로 분할해서 병렬로 어텐션을 수행하고 결과값을 다시 합치는 방식을 선택함
- 그때의 병렬의 개수
$$
d_{ff} = 2048
$$
- 트랜스포머 내부에는 피드포워드 신경망이 존재하며 해당 신경망의 은닉층의 크기를 의미