<aside> 💡 **ALBERT: A Lite BERT for Self-supervised Learning of Language Representations**

기존 대규모 사전학습 언어 모델들은 다량의 파라미터를 바탕으로 뛰어난 성취를 이뤄냈습니다. 하지만 모델 크기의 거대화는 학습 및 추론과정에서 과도하게 많은 컴퓨팅 자원을 사용합니다. 이 논문에서는 Factorized Embedding Parameterization과 Cross-Layer Parameter Sharing이라는 두 가지 기법을 통해 BERT 대비 18배 경량화함과 동시에, Sentence Order Prediction이라는 사전학습 Objective를 통해, 문장 간 이해도를 향상시킨 ALBERT(A Lite BERT)를 소개합니다.

</aside>


1. Introduction


최근 BERT와 같은 대규모 사전 학습 언어 모델들은 다량의 파라미터를 기반으로, 다양한 NLP 작업에서 뛰어난 성능을 보이고 있습니다. 하지만 다량의 파라미터는 성능향상이라는 장점과 동시에 아래와 같은 단점을 지닙니다.

이 논문에서는 BERT보다 가벼우면서도 뛰어난 성능을 제공하는 ALBERT(A Lite BERT) 모델을 소개합니다. ALBERT는 모델 경량화를 위해 Factorized Embedding Parameterization와 Cross Layer Parameter Sharing이라는 두 가지 기술을 사용하고, 성능 향상을 위해 사전 학습 목표로 Sentence Order Prediction을 사용합니다.

결과적으로, ALBERT는 BERT와 비교하여 모델 크기를 약 1.8배 줄이면서도 12개의 과제에서 Sota를 달성하며 BERT와 어느 정도 비견되거나 혹은 더 나은 성능을 보여줍니다.



2. The Elements of ALBERT


ALBERT architecture의 backbone은 transformer encoder와 GLEU activation function을 사용한다는 점에서 BERT와 유사하지만, 다음 세가지가 상이함.