<aside> 💡 Attention is All You Need
Attention is All You Need 논문에서는 RNN 및 CNN 레이어없이 오직 Attention만으로 모델을 구성하는 구조적인 혁신으로 훈련시간 단축과 성능의 비약적인 향상을 이끌어낸 Transformer 모델을 제시합니다. 특히나 구조적으로, 이전의 단순하고 선형적인 얕은 레이어 연결구조를 탈피하고, 보다 깊고 넓은 학습이 가능하도록 했다는 점에서 매우 고무적인 발전이라고 할 수 있습니다.
</aside>
이 논문에서는 현재 딥러닝 산업의 가장 큰 영향을 미친 Transformer를 소개합니다. Transformer 이전의 시퀀스 변환 모델들은 대부분 RNN 및 CNN 기반의 Encoder-Decoder 구조를 사용했습니다. 기존의 모델 구조 속에서 Attention을 활용해 긴 시퀀스의 처리 가능성을 제고시키는 등 소폭의 발전 사항이 있긴 했지만, 여전히 기울기 소실이나 병렬처리 불가능 같은 고질적인 문제점을 해결하지는 못했습니다.
논문의 연구진은 Attention에만 더욱 집중하여 RNN 및 CNN 레이어 없이, 오직 Attention Mechanism만으로 Transformer 아키텍처를 만들어 냈습니다. 덕분에 병렬 연산이 가능해져 학습 시간과 성능면에서 획기적인 개선이 이뤄졌습니다. Transformer의 상세 디자인은 아래 장에서 설명합니다.