<aside> 💡 **XLNet: Generalized Autoregressive Pretraining for Language Understanding**
BERT로 대표되는 Denoising Autoencoding 사전학습은 양방향 정보를 활용하며, Autoregressive Language Modeling 보다 좋은 성능을 보인다는 장점과 동시에 masked 토큰과 다른 토큰간의 관계성을 반영하지 못하고, 사전학습과 Fine Tuning간의 괴리가 존재한다는 단점이 존재합니다. 이 논문에서는 앞서 언급한 Denoising Autoencoding 사전학습 방식의 장단점을 모두 고려하며, 일반화된 Autoregressive Language Modeling 방식을 적용한 XLNet을 소개합니다.
</aside>
다량의 Unlabeled Text Corpus Dataset로 사전 학습 된 Unsupervised Representation를 Fine Tuning에서 활용하는 방법론은 다양한 연구를 통해 그 효용성이 입증되었습니다. Unsupervised Representation를 학습하기 위한 unsupervised pretraining objectives 중 가장 대표적인 것은 GPT로 대표되는 Auto Regressive 방식과 BERT로 대표되는 AutoEncoding 방식입니다.
Auto Regressive —————————
Auto Encoding ————————
Generalized Auto Regressive Method ———————————————————
AR, AE 방식 모두 각각의 장단점을 지니고 있습니다. 때문에 이 논문에서는 기존 방식의 장단점을 모두 고려한 Generalized Auto Regressive 방식을 제시하며, 그 특징은 다음과 같습니다.