T5 | Notion

<aside> 💡 Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

</aside>

전이 학습(Transfer learning)은 데이터가 풍부한 작업에서 모델이 먼저 사전 훈련을 받은 후에 하위 작업에서 세밀 조정되는 방법으로, 자연어 처리(NLP)에서 강력한 기술로 부상하고 있습니다. 전이 학습의 효과는 다양한 접근법, 방법론 및 실제적인 적용을 유발하였습니다. 본 논문에서는 텍스트 기반 언어 문제를 일관된 텍스트-텍스트 형식으로 변환하는 통합된 프레임워크를 소개함으로써, NLP를 위한 전이 학습 기법의 현황을 탐색합니다. 우리의 체계적인 연구는 사전 훈련 목표, 구조, 라벨이 없는 데이터 세트, 전이 접근 방식 및 기타 요인들을 수십 개의 언어 이해 작업에 대해 비교합니다. 우리의 탐색 결과를 규모와 새로운 "Colossal Clean Crawled Corpus"와 결합하여, 요약, 질의 응답, 텍스트 분류 등을 포함한 여러 벤치마크에서 최첨단 결과를 달성하였습니다. NLP에 대한 전이 학습 연구를 위해, 우리는 데이터 세트, 사전 훈련된 모델 및 코드를 공개합니다.

1. Introduction

Untitled

자연어 처리(NLP) 작업을 수행하기 위해 기계 학습 모델을 훈련시키는 것은 종종 모델이 하위 학습에 유리한 방식으로 텍스트를 처리할 수 있도록 해야 한다는 것을 요구합니다. 이는 모델이 텍스트를 "이해"할 수 있도록 하는 일반적인 지식을 개발하는 것으로 볼 수 있습니다. 이 지식은 단어의 철자나 의미와 같은 저수준 지식부터 대부분의 배낭에 들어가지 않는 것처럼 큰 튜바와 같은 고수준 지식까지 다양할 수 있습니다. 현대의 기계 학습 실무에서는 이러한 지식을 명시적으로 제공하는 경우는 드뭅니다. 대신, 이는 종종 보조 작업의 일부로 학습됩니다. 예를 들어, 과거에 일반적으로 사용되던 접근 방식은 단어 벡터를 사용하여 단어 식별자를 연속적인 표현에 매핑하는 것입니다. 이때 이상적으로는 유사한 단어가 유사한 벡터로 매핑됩니다. 이러한 벡터는 종종 연속 공간에서 동시에 발생하는 단어들이 가까운 위치에 배치되도록 장려하는 목적으로 학습됩니다.

최근에는 데이터 풍부한 작업에서 전체 모델을 사전 훈련하는 것이 점점 더 일반적으로 사용되고 있습니다. 이상적으로는 이 사전 훈련을 통해 모델이 일반적인 능력과 지식을 발전시키고 이를 하위 작업에 전달할 수 있도록 합니다. 컴퓨터 비전에 대한 전이 학습의 응용에서는 일반적으로 ImageNet과 같은 대규모 레이블 데이터 세트를 사용하여 지도 학습을 통해 사전 훈련을 수행합니다. 그러나 NLP의 전이 학습에 대한 현대적인 기술은 종종 레이블이 없는 데이터에 대해 비지도 학습을 사용하여 사전 훈련을 수행합니다. 이 접근 방식은 최근에 가장 일반적인 NLP 벤치마크에서 최첨단 결과를 얻기 위해 사용되었습니다. 경험적인 강점 이외에도 NLP의 비지도 사전 훈련은 특히 인터넷 덕분에 대량의 미분류 텍스트 데이터를 활용할 수 있어 매우 매력적입니다. 예를 들어, 웹 페이지에서 추출한 약 20TB의 텍스트 데이터를 매달 생성하는 Common Crawl 프로젝트2가 있습니다. 이는 신경망에 매우 적합한데, 큰 모델을 큰 데이터 세트로 훈련함으로써 더 나은 성능을 달성할 수 있는 경우가 종종 있기 때문입니다.

이러한 시너지는 최근 NLP의 전이 학습 방법론을 개발하는 데 많은 작업을 유발하여, 사전 훈련 목표, 미분류 데이터 세트, 벤치마크, 세밀 조정 방법 등 다양한 영역을 포괄하는 광범위한 연구 결과를 산출했습니다. 이 새로운 분야에서의 진전과 다양한 기술의 다양성은 서로 다른 알고리즘을 비교하기 어렵게 만들고, 새로운 기여의 영향을 구분하고, 전이 학습에 대한 기존 방법의 영역을 이해하는 데 어려움을 줄 수 있습니다. 보다 체계적인 이해의 필요성을 바탕으로, 우리는 전이 학습에 대한 통합 접근 방식을 활용하여 다양한 접근 방법을 체계적으로 연구하고 현재의 한계를 늘리는 데에 주력하고 있습니다.

우리 작업의 기본 아이디어는 모든 텍스트 처리 문제를 "Text-to-Text" 문제로 취급하는 것입니다. 즉, 텍스트를 입력으로 받아 새로운 텍스트를 출력으로 생성하는 것입니다. 이 접근 방식은 이전의 NLP 작업을 통합하는 프레임워크에서 영감을 받았으며, 이는 모든 텍스트 문제를 질문 응답, 언어 모델링 또는 구간 추출 작업으로 캐스팅하는 것을 포함합니다(Keskar 등, 2019b). 중요한 점은 텍스트-투-텍스트 프레임워크가 우리가 고려하는 모든 작업에 동일한 모델, 목적, 훈련 절차 및 디코딩 프로세스를 직접 적용할 수 있게 해준다는 것입니다. 우리는 이러한 유연성을 활용하여 질문 응답, 문서 요약, 감성 분류 등 다양한 영어 기반 NLP 문제에서 성능을 평가할 수 있습니다. 이 통합된 접근 방식을 통해 우리는 다양한 전이 학습 목표, 미분류 데이터 세트 및 기타 요소의 효과를 비교하고, 이전에 고려된 것보다 더 큰 모델과 데이터 세트로 전이 학습의 한계를 탐색할 수 있습니다.

우리의 목표는 새로운 방법을 제안하는 것이 아니라, 이 분야의 현황에 대한 포괄적인 시각을 제공하는 것입니다. 따라서 우리의 작업은 주로 기존 기술의 조사, 탐색 및 경험적 비교로 구성됩니다. 우리는 또한 체계적인 연구에서 얻은 통찰력을 확장하여 현재 방법의 한계를 탐구하기 위해 작업을 확장합니다(모델을 110억 개의 매개변수로 훈련). 이러한 규모의 실험을 수행하기 위해, 우리는 "Colossal Clean Crawled Corpus" (C4)라는 데이터 세트를 소개합니다. 이 데이터 세트는 웹에서 스크랩한 수백 기가바이트의 깨끗한 영어 텍스트로 구성되어 있습니다. 전이 학습의 주요 가치는 사전 훈련된 모델을 데이터가 부족한 환경에서 활용할 수 있는 가능성이라고 인식하고, 우리는 우리의 코드, 데이터 세트 및 사전 훈련된 모델을 공개합니다.

논문의 나머지는 다음과 같은 구조로 이루어져 있습니다: 다음 섹션에서는 기본 모델과 해당 구현, 텍스트 처리 문제를 텍스트-텍스트 작업으로 포장하는 절차, 그리고 고려하는 작업 세트에 대해 논의합니다. 섹션 3에서는 NLP를 위한 전이 학습 분야를 탐구하는 다양한 실험 세트를 제시합니다. 섹션 끝에서 (섹션 3.7), 체계적인 연구로부터 얻은 통찰력을 결합하여 다양한 벤치마크에서 최첨단 결과를 얻습니다. 마지막으로, 섹션 4에서 결과 요약을 제공하고 미래를 전망합니다.

2. Setup

대규모 경험적 연구 결과를 제시하기 전에, 우리의 결과를 이해하기 위해 필요한 배경 주제인 Transformer 모델 아키텍처와 평가하는 다운스트림 작업에 대해 설명합니다. 또한, 모든 문제를 텍스트-텍스트 작업으로 처리하는 접근법과 미분류 텍스트 데이터 원천으로 만든 "Colossal Clean Crawled Corpus" (C4)에 대해서도 설명합니다. 우리는 우리의 모델과 프레임워크를 "텍스트-텍스트 전이 Transformer"라고 지칭합니다.