<aside> 💡 **BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding**
Masked Language Modeling과 Next Sentence Prediction을 통한 사전학습으로 Deep Bi-Directionality를 강화시켜 강력한 자연어 이해 능력으로 다양한 자연어 이해 과제에서 사용가능한, Transformer 기반의 사전 학습 언어 모델 BERT(Bi-directional Encoder Representations from Transformer)를 소개합니다.
</aside>
언어 모델을 대규모 데이터셋을 통해 사전학습 시키고, 사전학습 된 모델을 Down Stream Task에서 사용하는 방법론의 효용성은 다양한 연구를 통해 입증 되어왔습니다. 이러한 연구 흐름의 대표적인 모델로는 ELMo와 GPT가 있으며, 이 논문에서 제시하는 BERT 역시 그 흐름의 궤를 같이 합니다. 비록 ELMo와 GPT가 좋은 성능을 보였지만, BERT 연구진은 아래와 같은 이유에서 이전 모델들의 한계점을 인식하고, 이를 개선시킨 BERT 모델을 소개합니다.
ELMo ———
GPT ———
BERT ————
Overview ——————
BERT의 학습은 위의 그림처럼 Pre Training 과 Fine Tuning이라는 두 단계를 거칩니다. Pre Training에서는 다량의 Unlabeled Dataset으로 모델을 학습시키고, Fine Tuning에서는 사전학습된 모델의 파라미터를 초기 시작점으로 사용합니다. BERT의 두드러지는 특징 중 하나는 Down Stream Task 종류에 관계없이 동일한 모델 구조를 유지한다는 것입니다. 덕분에 사전학습 모델과 Fine Tuning 모델 사이 차이가 거의 없습니다.
Model Architecture ——————————
BERT의 Model Architecture는 Transformer의 Encoder가 중첩된 구조로 이루어져 있습니다. BERT의 이런 모델 구조는 Transformer의 Decoder만을 사용했던 GPT의 구조와 극명하게 대비되며, 이는 LM만을 목적으로 했던 GPT와 Deep Bidirectionality를 함양시키기 위해 입력 시퀀스의 모든 정보를 활용하고자 하는 BERT의 목적성 차이에서 기인한 것으로 볼 수 있습니다.
BERT는 Model Size에 따라 Base & Large Model을 구분지으며, 각 모델 별 하이퍼 파라미터는 아래와 같습니다.