<aside> πŸ’‘ Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

</aside>


전이 ν•™μŠ΅(Transfer learning)은 데이터가 ν’λΆ€ν•œ μž‘μ—…μ—μ„œ λͺ¨λΈμ΄ λ¨Όμ € 사전 ν›ˆλ ¨μ„ 받은 후에 ν•˜μœ„ μž‘μ—…μ—μ„œ μ„Έλ°€ μ‘°μ •λ˜λŠ” λ°©λ²•μœΌλ‘œ, μžμ—°μ–΄ 처리(NLP)μ—μ„œ κ°•λ ₯ν•œ 기술둜 λΆ€μƒν•˜κ³  μžˆμŠ΅λ‹ˆλ‹€. 전이 ν•™μŠ΅μ˜ νš¨κ³ΌλŠ” λ‹€μ–‘ν•œ 접근법, 방법둠 및 μ‹€μ œμ μΈ μ μš©μ„ μœ λ°œν•˜μ˜€μŠ΅λ‹ˆλ‹€. λ³Έ λ…Όλ¬Έμ—μ„œλŠ” ν…μŠ€νŠΈ 기반 μ–Έμ–΄ 문제λ₯Ό μΌκ΄€λœ ν…μŠ€νŠΈ-ν…μŠ€νŠΈ ν˜•μ‹μœΌλ‘œ λ³€ν™˜ν•˜λŠ” ν†΅ν•©λœ ν”„λ ˆμž„μ›Œν¬λ₯Ό μ†Œκ°œν•¨μœΌλ‘œμ¨, NLPλ₯Ό μœ„ν•œ 전이 ν•™μŠ΅ κΈ°λ²•μ˜ ν˜„ν™©μ„ νƒμƒ‰ν•©λ‹ˆλ‹€. 우리의 체계적인 μ—°κ΅¬λŠ” 사전 ν›ˆλ ¨ λͺ©ν‘œ, ꡬ쑰, 라벨이 μ—†λŠ” 데이터 μ„ΈνŠΈ, 전이 μ ‘κ·Ό 방식 및 기타 μš”μΈλ“€μ„ μˆ˜μ‹­ 개의 μ–Έμ–΄ 이해 μž‘μ—…μ— λŒ€ν•΄ λΉ„κ΅ν•©λ‹ˆλ‹€. 우리의 탐색 κ²°κ³Όλ₯Ό 규λͺ¨μ™€ μƒˆλ‘œμš΄ "Colossal Clean Crawled Corpus"와 κ²°ν•©ν•˜μ—¬, μš”μ•½, 질의 응닡, ν…μŠ€νŠΈ λΆ„λ₯˜ 등을 ν¬ν•¨ν•œ μ—¬λŸ¬ λ²€μΉ˜λ§ˆν¬μ—μ„œ μ΅œμ²¨λ‹¨ κ²°κ³Όλ₯Ό λ‹¬μ„±ν•˜μ˜€μŠ΅λ‹ˆλ‹€. NLP에 λŒ€ν•œ 전이 ν•™μŠ΅ 연ꡬλ₯Ό μœ„ν•΄, μš°λ¦¬λŠ” 데이터 μ„ΈνŠΈ, 사전 ν›ˆλ ¨λœ λͺ¨λΈ 및 μ½”λ“œλ₯Ό κ³΅κ°œν•©λ‹ˆλ‹€.

1. Introduction


Untitled

μžμ—°μ–΄ 처리(NLP) μž‘μ—…μ„ μˆ˜ν–‰ν•˜κΈ° μœ„ν•΄ 기계 ν•™μŠ΅ λͺ¨λΈμ„ ν›ˆλ ¨μ‹œν‚€λŠ” 것은 μ’…μ’… λͺ¨λΈμ΄ ν•˜μœ„ ν•™μŠ΅μ— μœ λ¦¬ν•œ λ°©μ‹μœΌλ‘œ ν…μŠ€νŠΈλ₯Ό μ²˜λ¦¬ν•  수 μžˆλ„λ‘ ν•΄μ•Ό ν•œλ‹€λŠ” 것을 μš”κ΅¬ν•©λ‹ˆλ‹€. μ΄λŠ” λͺ¨λΈμ΄ ν…μŠ€νŠΈλ₯Ό "이해"ν•  수 μžˆλ„λ‘ ν•˜λŠ” 일반적인 지식을 κ°œλ°œν•˜λŠ” κ²ƒμœΌλ‘œ λ³Ό 수 μžˆμŠ΅λ‹ˆλ‹€. 이 지식은 λ‹¨μ–΄μ˜ μ² μžλ‚˜ μ˜λ―Έμ™€ 같은 μ €μˆ˜μ€€ 지식뢀터 λŒ€λΆ€λΆ„μ˜ 배낭에 λ“€μ–΄κ°€μ§€ μ•ŠλŠ” κ²ƒμ²˜λŸΌ 큰 νŠœλ°”μ™€ 같은 κ³ μˆ˜μ€€ μ§€μ‹κΉŒμ§€ λ‹€μ–‘ν•  수 μžˆμŠ΅λ‹ˆλ‹€. ν˜„λŒ€μ˜ 기계 ν•™μŠ΅ μ‹€λ¬΄μ—μ„œλŠ” μ΄λŸ¬ν•œ 지식을 λͺ…μ‹œμ μœΌλ‘œ μ œκ³΅ν•˜λŠ” κ²½μš°λŠ” λ“œλ­…λ‹ˆλ‹€. λŒ€μ‹ , μ΄λŠ” μ’…μ’… 보쑰 μž‘μ—…μ˜ μΌλΆ€λ‘œ ν•™μŠ΅λ©λ‹ˆλ‹€. 예λ₯Ό λ“€μ–΄, 과거에 일반적으둜 μ‚¬μš©λ˜λ˜ μ ‘κ·Ό 방식은 단어 벑터λ₯Ό μ‚¬μš©ν•˜μ—¬ 단어 μ‹λ³„μžλ₯Ό 연속적인 ν‘œν˜„μ— λ§€ν•‘ν•˜λŠ” κ²ƒμž…λ‹ˆλ‹€. μ΄λ•Œ μ΄μƒμ μœΌλ‘œλŠ” μœ μ‚¬ν•œ 단어가 μœ μ‚¬ν•œ λ²‘ν„°λ‘œ λ§€ν•‘λ©λ‹ˆλ‹€. μ΄λŸ¬ν•œ λ²‘ν„°λŠ” μ’…μ’… 연속 κ³΅κ°„μ—μ„œ λ™μ‹œμ— λ°œμƒν•˜λŠ” 단어듀이 κ°€κΉŒμš΄ μœ„μΉ˜μ— λ°°μΉ˜λ˜λ„λ‘ μž₯λ €ν•˜λŠ” λͺ©μ μœΌλ‘œ ν•™μŠ΅λ©λ‹ˆλ‹€.

μ΅œκ·Όμ—λŠ” 데이터 ν’λΆ€ν•œ μž‘μ—…μ—μ„œ 전체 λͺ¨λΈμ„ 사전 ν›ˆλ ¨ν•˜λŠ” 것이 점점 더 일반적으둜 μ‚¬μš©λ˜κ³  μžˆμŠ΅λ‹ˆλ‹€. μ΄μƒμ μœΌλ‘œλŠ” 이 사전 ν›ˆλ ¨μ„ 톡해 λͺ¨λΈμ΄ 일반적인 λŠ₯λ ₯κ³Ό 지식을 λ°œμ „μ‹œν‚€κ³  이λ₯Ό ν•˜μœ„ μž‘μ—…μ— 전달할 수 μžˆλ„λ‘ ν•©λ‹ˆλ‹€. 컴퓨터 비전에 λŒ€ν•œ 전이 ν•™μŠ΅μ˜ μ‘μš©μ—μ„œλŠ” 일반적으둜 ImageNetκ³Ό 같은 λŒ€κ·œλͺ¨ λ ˆμ΄λΈ” 데이터 μ„ΈνŠΈλ₯Ό μ‚¬μš©ν•˜μ—¬ 지도 ν•™μŠ΅μ„ 톡해 사전 ν›ˆλ ¨μ„ μˆ˜ν–‰ν•©λ‹ˆλ‹€. κ·ΈλŸ¬λ‚˜ NLP의 전이 ν•™μŠ΅μ— λŒ€ν•œ ν˜„λŒ€μ μΈ κΈ°μˆ μ€ μ’…μ’… λ ˆμ΄λΈ”μ΄ μ—†λŠ” 데이터에 λŒ€ν•΄ 비지도 ν•™μŠ΅μ„ μ‚¬μš©ν•˜μ—¬ 사전 ν›ˆλ ¨μ„ μˆ˜ν–‰ν•©λ‹ˆλ‹€. 이 μ ‘κ·Ό 방식은 μ΅œκ·Όμ— κ°€μž₯ 일반적인 NLP λ²€μΉ˜λ§ˆν¬μ—μ„œ μ΅œμ²¨λ‹¨ κ²°κ³Όλ₯Ό μ–»κΈ° μœ„ν•΄ μ‚¬μš©λ˜μ—ˆμŠ΅λ‹ˆλ‹€. κ²½ν—˜μ μΈ 강점 이외에도 NLP의 비지도 사전 ν›ˆλ ¨μ€ 특히 인터넷 덕뢄에 λŒ€λŸ‰μ˜ λ―ΈλΆ„λ₯˜ ν…μŠ€νŠΈ 데이터λ₯Ό ν™œμš©ν•  수 μžˆμ–΄ 맀우 λ§€λ ₯μ μž…λ‹ˆλ‹€. 예λ₯Ό λ“€μ–΄, μ›Ή νŽ˜μ΄μ§€μ—μ„œ μΆ”μΆœν•œ μ•½ 20TB의 ν…μŠ€νŠΈ 데이터λ₯Ό 맀달 μƒμ„±ν•˜λŠ” Common Crawl ν”„λ‘œμ νŠΈ2κ°€ μžˆμŠ΅λ‹ˆλ‹€. μ΄λŠ” 신경망에 맀우 μ ν•©ν•œλ°, 큰 λͺ¨λΈμ„ 큰 데이터 μ„ΈνŠΈλ‘œ ν›ˆλ ¨ν•¨μœΌλ‘œμ¨ 더 λ‚˜μ€ μ„±λŠ₯을 달성할 수 μžˆλŠ” κ²½μš°κ°€ μ’…μ’… 있기 λ•Œλ¬Έμž…λ‹ˆλ‹€.

μ΄λŸ¬ν•œ μ‹œλ„ˆμ§€λŠ” 졜근 NLP의 전이 ν•™μŠ΅ 방법둠을 κ°œλ°œν•˜λŠ” 데 λ§Žμ€ μž‘μ—…μ„ μœ λ°œν•˜μ—¬, 사전 ν›ˆλ ¨ λͺ©ν‘œ, λ―ΈλΆ„λ₯˜ 데이터 μ„ΈνŠΈ, 벀치마크, μ„Έλ°€ μ‘°μ • 방법 λ“± λ‹€μ–‘ν•œ μ˜μ—­μ„ ν¬κ΄„ν•˜λŠ” κ΄‘λ²”μœ„ν•œ 연ꡬ κ²°κ³Όλ₯Ό μ‚°μΆœν–ˆμŠ΅λ‹ˆλ‹€. 이 μƒˆλ‘œμš΄ λΆ„μ•Όμ—μ„œμ˜ μ§„μ „κ³Ό λ‹€μ–‘ν•œ 기술의 닀양성은 μ„œλ‘œ λ‹€λ₯Έ μ•Œκ³ λ¦¬μ¦˜μ„ λΉ„κ΅ν•˜κΈ° μ–΄λ ΅κ²Œ λ§Œλ“€κ³ , μƒˆλ‘œμš΄ κΈ°μ—¬μ˜ 영ν–₯을 κ΅¬λΆ„ν•˜κ³ , 전이 ν•™μŠ΅μ— λŒ€ν•œ κΈ°μ‘΄ λ°©λ²•μ˜ μ˜μ—­μ„ μ΄ν•΄ν•˜λŠ” 데 어렀움을 쀄 수 μžˆμŠ΅λ‹ˆλ‹€. 보닀 체계적인 μ΄ν•΄μ˜ ν•„μš”μ„±μ„ λ°”νƒ•μœΌλ‘œ, μš°λ¦¬λŠ” 전이 ν•™μŠ΅μ— λŒ€ν•œ 톡합 μ ‘κ·Ό 방식을 ν™œμš©ν•˜μ—¬ λ‹€μ–‘ν•œ μ ‘κ·Ό 방법을 μ²΄κ³„μ μœΌλ‘œ μ—°κ΅¬ν•˜κ³  ν˜„μž¬μ˜ ν•œκ³„λ₯Ό λŠ˜λ¦¬λŠ” 데에 μ£Όλ ₯ν•˜κ³  μžˆμŠ΅λ‹ˆλ‹€.

우리 μž‘μ—…μ˜ κΈ°λ³Έ μ•„μ΄λ””μ–΄λŠ” λͺ¨λ“  ν…μŠ€νŠΈ 처리 문제λ₯Ό "Text-to-Text" 문제둜 μ·¨κΈ‰ν•˜λŠ” κ²ƒμž…λ‹ˆλ‹€. 즉, ν…μŠ€νŠΈλ₯Ό μž…λ ₯으둜 λ°›μ•„ μƒˆλ‘œμš΄ ν…μŠ€νŠΈλ₯Ό 좜λ ₯으둜 μƒμ„±ν•˜λŠ” κ²ƒμž…λ‹ˆλ‹€. 이 μ ‘κ·Ό 방식은 μ΄μ „μ˜ NLP μž‘μ—…μ„ ν†΅ν•©ν•˜λŠ” ν”„λ ˆμž„μ›Œν¬μ—μ„œ μ˜κ°μ„ λ°›μ•˜μœΌλ©°, μ΄λŠ” λͺ¨λ“  ν…μŠ€νŠΈ 문제λ₯Ό 질문 응닡, μ–Έμ–΄ λͺ¨λΈλ§ λ˜λŠ” ꡬ간 μΆ”μΆœ μž‘μ—…μœΌλ‘œ μΊμŠ€νŒ…ν•˜λŠ” 것을 ν¬ν•¨ν•©λ‹ˆλ‹€(Keskar λ“±, 2019b). μ€‘μš”ν•œ 점은 ν…μŠ€νŠΈ-투-ν…μŠ€νŠΈ ν”„λ ˆμž„μ›Œν¬κ°€ μš°λ¦¬κ°€ κ³ λ €ν•˜λŠ” λͺ¨λ“  μž‘μ—…μ— λ™μΌν•œ λͺ¨λΈ, λͺ©μ , ν›ˆλ ¨ 절차 및 λ””μ½”λ”© ν”„λ‘œμ„ΈμŠ€λ₯Ό 직접 μ μš©ν•  수 있게 ν•΄μ€€λ‹€λŠ” κ²ƒμž…λ‹ˆλ‹€. μš°λ¦¬λŠ” μ΄λŸ¬ν•œ μœ μ—°μ„±μ„ ν™œμš©ν•˜μ—¬ 질문 응닡, λ¬Έμ„œ μš”μ•½, 감성 λΆ„λ₯˜ λ“± λ‹€μ–‘ν•œ μ˜μ–΄ 기반 NLP λ¬Έμ œμ—μ„œ μ„±λŠ₯을 평가할 수 μžˆμŠ΅λ‹ˆλ‹€. 이 ν†΅ν•©λœ μ ‘κ·Ό 방식을 톡해 μš°λ¦¬λŠ” λ‹€μ–‘ν•œ 전이 ν•™μŠ΅ λͺ©ν‘œ, λ―ΈλΆ„λ₯˜ 데이터 μ„ΈνŠΈ 및 기타 μš”μ†Œμ˜ 효과λ₯Ό λΉ„κ΅ν•˜κ³ , 이전에 고렀된 것보닀 더 큰 λͺ¨λΈκ³Ό 데이터 μ„ΈνŠΈλ‘œ 전이 ν•™μŠ΅μ˜ ν•œκ³„λ₯Ό 탐색할 수 μžˆμŠ΅λ‹ˆλ‹€.

우리의 λͺ©ν‘œλŠ” μƒˆλ‘œμš΄ 방법을 μ œμ•ˆν•˜λŠ” 것이 μ•„λ‹ˆλΌ, 이 λΆ„μ•Όμ˜ ν˜„ν™©μ— λŒ€ν•œ 포괄적인 μ‹œκ°μ„ μ œκ³΅ν•˜λŠ” κ²ƒμž…λ‹ˆλ‹€. λ”°λΌμ„œ 우리의 μž‘μ—…μ€ 주둜 κΈ°μ‘΄ 기술의 쑰사, 탐색 및 κ²½ν—˜μ  λΉ„κ΅λ‘œ κ΅¬μ„±λ©λ‹ˆλ‹€. μš°λ¦¬λŠ” λ˜ν•œ 체계적인 μ—°κ΅¬μ—μ„œ 얻은 톡찰λ ₯을 ν™•μž₯ν•˜μ—¬ ν˜„μž¬ λ°©λ²•μ˜ ν•œκ³„λ₯Ό νƒκ΅¬ν•˜κΈ° μœ„ν•΄ μž‘μ—…μ„ ν™•μž₯ν•©λ‹ˆλ‹€(λͺ¨λΈμ„ 110μ–΅ 개의 λ§€κ°œλ³€μˆ˜λ‘œ ν›ˆλ ¨). μ΄λŸ¬ν•œ 규λͺ¨μ˜ μ‹€ν—˜μ„ μˆ˜ν–‰ν•˜κΈ° μœ„ν•΄, μš°λ¦¬λŠ” "Colossal Clean Crawled Corpus" (C4)λΌλŠ” 데이터 μ„ΈνŠΈλ₯Ό μ†Œκ°œν•©λ‹ˆλ‹€. 이 데이터 μ„ΈνŠΈλŠ” μ›Ήμ—μ„œ μŠ€ν¬λž©ν•œ 수백 κΈ°κ°€λ°”μ΄νŠΈμ˜ κΉ¨λ—ν•œ μ˜μ–΄ ν…μŠ€νŠΈλ‘œ κ΅¬μ„±λ˜μ–΄ μžˆμŠ΅λ‹ˆλ‹€. 전이 ν•™μŠ΅μ˜ μ£Όμš” κ°€μΉ˜λŠ” 사전 ν›ˆλ ¨λœ λͺ¨λΈμ„ 데이터가 λΆ€μ‘±ν•œ ν™˜κ²½μ—μ„œ ν™œμš©ν•  수 μžˆλŠ” κ°€λŠ₯성이라고 μΈμ‹ν•˜κ³ , μš°λ¦¬λŠ” 우리의 μ½”λ“œ, 데이터 μ„ΈνŠΈ 및 사전 ν›ˆλ ¨λœ λͺ¨λΈμ„ κ³΅κ°œν•©λ‹ˆλ‹€.

λ…Όλ¬Έμ˜ λ‚˜λ¨Έμ§€λŠ” λ‹€μŒκ³Ό 같은 ꡬ쑰둜 이루어져 μžˆμŠ΅λ‹ˆλ‹€: λ‹€μŒ μ„Ήμ…˜μ—μ„œλŠ” κΈ°λ³Έ λͺ¨λΈκ³Ό ν•΄λ‹Ή κ΅¬ν˜„, ν…μŠ€νŠΈ 처리 문제λ₯Ό ν…μŠ€νŠΈ-ν…μŠ€νŠΈ μž‘μ—…μœΌλ‘œ 포μž₯ν•˜λŠ” 절차, 그리고 κ³ λ €ν•˜λŠ” μž‘μ—… μ„ΈνŠΈμ— λŒ€ν•΄ λ…Όμ˜ν•©λ‹ˆλ‹€. μ„Ήμ…˜ 3μ—μ„œλŠ” NLPλ₯Ό μœ„ν•œ 전이 ν•™μŠ΅ λΆ„μ•Όλ₯Ό νƒκ΅¬ν•˜λŠ” λ‹€μ–‘ν•œ μ‹€ν—˜ μ„ΈνŠΈλ₯Ό μ œμ‹œν•©λ‹ˆλ‹€. μ„Ήμ…˜ λμ—μ„œ (μ„Ήμ…˜ 3.7), 체계적인 μ—°κ΅¬λ‘œλΆ€ν„° 얻은 톡찰λ ₯을 κ²°ν•©ν•˜μ—¬ λ‹€μ–‘ν•œ λ²€μΉ˜λ§ˆν¬μ—μ„œ μ΅œμ²¨λ‹¨ κ²°κ³Όλ₯Ό μ–»μŠ΅λ‹ˆλ‹€. λ§ˆμ§€λ§‰μœΌλ‘œ, μ„Ήμ…˜ 4μ—μ„œ κ²°κ³Ό μš”μ•½μ„ μ œκ³΅ν•˜κ³  미래λ₯Ό μ „λ§ν•©λ‹ˆλ‹€.


2. Setup


λŒ€κ·œλͺ¨ κ²½ν—˜μ  연ꡬ κ²°κ³Όλ₯Ό μ œμ‹œν•˜κΈ° 전에, 우리의 κ²°κ³Όλ₯Ό μ΄ν•΄ν•˜κΈ° μœ„ν•΄ ν•„μš”ν•œ λ°°κ²½ 주제인 Transformer λͺ¨λΈ μ•„ν‚€ν…μ²˜μ™€ ν‰κ°€ν•˜λŠ” λ‹€μš΄μŠ€νŠΈλ¦Ό μž‘μ—…μ— λŒ€ν•΄ μ„€λͺ…ν•©λ‹ˆλ‹€. λ˜ν•œ, λͺ¨λ“  문제λ₯Ό ν…μŠ€νŠΈ-ν…μŠ€νŠΈ μž‘μ—…μœΌλ‘œ μ²˜λ¦¬ν•˜λŠ” 접근법과 λ―ΈλΆ„λ₯˜ ν…μŠ€νŠΈ 데이터 μ›μ²œμœΌλ‘œ λ§Œλ“  "Colossal Clean Crawled Corpus" (C4)에 λŒ€ν•΄μ„œλ„ μ„€λͺ…ν•©λ‹ˆλ‹€. μš°λ¦¬λŠ” 우리의 λͺ¨λΈκ³Ό ν”„λ ˆμž„μ›Œν¬λ₯Ό "ν…μŠ€νŠΈ-ν…μŠ€νŠΈ 전이 Transformer"라고 μ§€μΉ­ν•©λ‹ˆλ‹€.