주요 하이퍼 파라미터

$$ d_{model} = 512 $$

$$ num layers = 6 $$

$$ numheads = 8 $$

$$ d_{ff} = 2048 $$