이 논문에서는 기존 BERT와 GPT의 장점만을 취합해, 일반화 시킨 Sequence to Sequence 사전학습 방법론을 적용시킨 BART모델을 소개합니다. BART의 주요 학습 목표는 임의의 노이즈 함수로 손상된 텍스트를 원본 텍스트로 재구성하는 것 입니다. 이 과정에서 양방향 인코딩과 좌에서 우로 디코딩을 활용하며, BERT와 GPT의 장점을 적절하게 일반화 시켰습니다. 논문의 연구진들은 다양한 노이즈 접근 방식을 탐구했고, 최상의 결과를 찾아 냈습니다. 결과적으로 BART는 다양한 자연어 생성 과제에서 Sota를 기록했고, 자연어 이해에서 역시 좋은 성능을 보이며 그 범용성을 입증했습니다.
</aside>
자기지도 학습은 다양한 NLP Task에서 괄목할 만한 성과를 이뤄왔습니다. 그리고 가장 성공적인 방법론은 MLM에서 나왓지 ㅇㅇ. MLM이 뭐냐면, 무작위로 선택된 단어들을 masking하고, 이를 다시 복원하도록 학습된 Denoising AutoEncoder라고 볼 수 있지. 최근 MLM관련 연구들은 Masked Token들의 분포, 예측순서, 대체 문맥 MLM이라는 방법론 속 다양한 방식으로 발전을 도모해왔으.
하지만 MLM을 통한 사전학습방식은 범용적이라기 보단 특정 Task에 집중하고 있다는 점에서, 범용적 적용이 어렵다는 한계를 수반합니다.
MLM과 달리 보다 다양한 Task에 적용가능한 BART를 소개합니다. (MLM과 BART 모두 Denoising AutoEncoder)
Bidirectional and Auto-Regressive Transformers를 통합적으로 사용해 모델을 사전학습시킵니다.
BART의 사전학습은 두 단계로 이루어집니다. 1)Original Text를 임의의 Noising Function을 통해 Corrupt. 2) Sequence-to-Sequence Model은 원문을 복원하는 방향으로 학습.
BART는 Standard Transformer Neural Machine Translation Architecture를 차용합니다.
이 setup의 가장 큰 이점은 Noising Flexibility입니다.