<aside> 💡 **Improving Language Understanding by Generative Pre-Training** 이번 리뷰에서는 GPT에 대해서 알아봅니다. GPT는
</aside>
이 논문에서는 뛰어난 생성적 사전학습 언어 모델인 GPT와, GPT를 다양한 NLP Task에 간단하게 적용하기 위한 Framwork적 접근방식을 제시합니다. GPT-1 연구의 주안점은 두 가지입니다. 하나는 언어모델이 뛰어난 언어표현 능력을 함유할 수 있도록 사전학습시키는 것과, 다른 하나는 다양한 Task에서 사전학습 모델을 간편하게 사용할 수 있도록 하는 것입니다. 바꿔 말하자면 이전의 사전학습 언어모델들은 충분히 뛰어나지 못한 언어능력을 가졌으며, 이를 활용하는 방식 역시 사용자 편의성이 결여되어 있음을 시사합니다. 연구진은 목표 달성을 위해 기존에 없던 혁신적인 방안을 찾기보단, 기존 방법론의 Pros & Cons를 잘 파악하고 그 와중에 연구진의 인사이트를 반영합니다. 이를 정리해보자면 아래의 내용과 같습니다.
기존 연구와 GPT 연구진이 공유하는 아이디어 ————————————————————
GPT의 연구진은 이전의 다른 연구들과 마찬가지로, 다량의 Unlabeled Raw Dataset을 통해 언어모델을 사전학습 시키는 것과, 사전학습된 모델을 활용하는 것의 중요성을 인식합니다.
Specific Task를 위한 Labeled 데이터를 충분히 확보하는 것은 어려운 일이다. 반면 Raw Dataset는 풍부하다. Raw Dataset로 사전학습 시킨 언어모델을 활용하는 것은 Labeled 데이터가 부족할때 뿐만 아니라, 풍부한 경우에도 큰 도움이 된다. 따라서 대규모 Raw Dataset을 활용해 언어모델을 사전학습 시키고, 이를 활용해야한다.
기존 연구의 문제점과 GPT 연구진의 대안 ——————————————————
Unlabeled Corpus Dataset로 사전 학습 시, Word Level 이상의 Text Level Representation 학습이 어려움
Transformer Decoder기반의 모델을 활용해 문장 전체에 대한 표현 능력을 학습합니다. Transformer는 self attention mechanism를 통해 문장 전체에 대한 정보 취득이 용이하므로, 기존 RNN, LSTM에 보다 문장의 길이에 따른 제약이 덜하며, 결과적으로 Text Level Representation을 생성 할 수 있습니다.