<aside> π‘ Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
</aside>
μ μ΄ νμ΅(Transfer learning)μ λ°μ΄ν°κ° νλΆν μμ μμ λͺ¨λΈμ΄ λ¨Όμ μ¬μ νλ ¨μ λ°μ νμ νμ μμ μμ μΈλ° μ‘°μ λλ λ°©λ²μΌλ‘, μμ°μ΄ μ²λ¦¬(NLP)μμ κ°λ ₯ν κΈ°μ λ‘ λΆμνκ³ μμ΅λλ€. μ μ΄ νμ΅μ ν¨κ³Όλ λ€μν μ κ·Όλ², λ°©λ²λ‘ λ° μ€μ μ μΈ μ μ©μ μ λ°νμμ΅λλ€. λ³Έ λ Όλ¬Έμμλ ν μ€νΈ κΈ°λ° μΈμ΄ λ¬Έμ λ₯Ό μΌκ΄λ ν μ€νΈ-ν μ€νΈ νμμΌλ‘ λ³ννλ ν΅ν©λ νλ μμν¬λ₯Ό μκ°ν¨μΌλ‘μ¨, NLPλ₯Ό μν μ μ΄ νμ΅ κΈ°λ²μ νν©μ νμν©λλ€. μ°λ¦¬μ 체κ³μ μΈ μ°κ΅¬λ μ¬μ νλ ¨ λͺ©ν, ꡬ쑰, λΌλ²¨μ΄ μλ λ°μ΄ν° μΈνΈ, μ μ΄ μ κ·Ό λ°©μ λ° κΈ°ν μμΈλ€μ μμ κ°μ μΈμ΄ μ΄ν΄ μμ μ λν΄ λΉκ΅ν©λλ€. μ°λ¦¬μ νμ κ²°κ³Όλ₯Ό κ·λͺ¨μ μλ‘μ΄ "Colossal Clean Crawled Corpus"μ κ²°ν©νμ¬, μμ½, μ§μ μλ΅, ν μ€νΈ λΆλ₯ λ±μ ν¬ν¨ν μ¬λ¬ λ²€μΉλ§ν¬μμ μ΅μ²¨λ¨ κ²°κ³Όλ₯Ό λ¬μ±νμμ΅λλ€. NLPμ λν μ μ΄ νμ΅ μ°κ΅¬λ₯Ό μν΄, μ°λ¦¬λ λ°μ΄ν° μΈνΈ, μ¬μ νλ ¨λ λͺ¨λΈ λ° μ½λλ₯Ό 곡κ°ν©λλ€.
μμ°μ΄ μ²λ¦¬(NLP) μμ μ μννκΈ° μν΄ κΈ°κ³ νμ΅ λͺ¨λΈμ νλ ¨μν€λ κ²μ μ’ μ’ λͺ¨λΈμ΄ νμ νμ΅μ μ 리ν λ°©μμΌλ‘ ν μ€νΈλ₯Ό μ²λ¦¬ν μ μλλ‘ ν΄μΌ νλ€λ κ²μ μꡬν©λλ€. μ΄λ λͺ¨λΈμ΄ ν μ€νΈλ₯Ό "μ΄ν΄"ν μ μλλ‘ νλ μΌλ°μ μΈ μ§μμ κ°λ°νλ κ²μΌλ‘ λ³Ό μ μμ΅λλ€. μ΄ μ§μμ λ¨μ΄μ μ² μλ μλ―Έμ κ°μ μ μμ€ μ§μλΆν° λλΆλΆμ λ°°λμ λ€μ΄κ°μ§ μλ κ²μ²λΌ ν° νλ°μ κ°μ κ³ μμ€ μ§μκΉμ§ λ€μν μ μμ΅λλ€. νλμ κΈ°κ³ νμ΅ μ€λ¬΄μμλ μ΄λ¬ν μ§μμ λͺ μμ μΌλ‘ μ 곡νλ κ²½μ°λ λλ λλ€. λμ , μ΄λ μ’ μ’ λ³΄μ‘° μμ μ μΌλΆλ‘ νμ΅λ©λλ€. μλ₯Ό λ€μ΄, κ³Όκ±°μ μΌλ°μ μΌλ‘ μ¬μ©λλ μ κ·Ό λ°©μμ λ¨μ΄ 벑ν°λ₯Ό μ¬μ©νμ¬ λ¨μ΄ μλ³μλ₯Ό μ°μμ μΈ ννμ λ§€ννλ κ²μ λλ€. μ΄λ μ΄μμ μΌλ‘λ μ μ¬ν λ¨μ΄κ° μ μ¬ν 벑ν°λ‘ λ§€νλ©λλ€. μ΄λ¬ν 벑ν°λ μ’ μ’ μ°μ 곡κ°μμ λμμ λ°μνλ λ¨μ΄λ€μ΄ κ°κΉμ΄ μμΉμ λ°°μΉλλλ‘ μ₯λ €νλ λͺ©μ μΌλ‘ νμ΅λ©λλ€.
μ΅κ·Όμλ λ°μ΄ν° νλΆν μμ μμ μ 체 λͺ¨λΈμ μ¬μ νλ ¨νλ κ²μ΄ μ μ λ μΌλ°μ μΌλ‘ μ¬μ©λκ³ μμ΅λλ€. μ΄μμ μΌλ‘λ μ΄ μ¬μ νλ ¨μ ν΅ν΄ λͺ¨λΈμ΄ μΌλ°μ μΈ λ₯λ ₯κ³Ό μ§μμ λ°μ μν€κ³ μ΄λ₯Ό νμ μμ μ μ λ¬ν μ μλλ‘ ν©λλ€. μ»΄ν¨ν° λΉμ μ λν μ μ΄ νμ΅μ μμ©μμλ μΌλ°μ μΌλ‘ ImageNetκ³Ό κ°μ λκ·λͺ¨ λ μ΄λΈ λ°μ΄ν° μΈνΈλ₯Ό μ¬μ©νμ¬ μ§λ νμ΅μ ν΅ν΄ μ¬μ νλ ¨μ μνν©λλ€. κ·Έλ¬λ NLPμ μ μ΄ νμ΅μ λν νλμ μΈ κΈ°μ μ μ’ μ’ λ μ΄λΈμ΄ μλ λ°μ΄ν°μ λν΄ λΉμ§λ νμ΅μ μ¬μ©νμ¬ μ¬μ νλ ¨μ μνν©λλ€. μ΄ μ κ·Ό λ°©μμ μ΅κ·Όμ κ°μ₯ μΌλ°μ μΈ NLP λ²€μΉλ§ν¬μμ μ΅μ²¨λ¨ κ²°κ³Όλ₯Ό μ»κΈ° μν΄ μ¬μ©λμμ΅λλ€. κ²½νμ μΈ κ°μ μ΄μΈμλ NLPμ λΉμ§λ μ¬μ νλ ¨μ νΉν μΈν°λ· λλΆμ λλμ λ―ΈλΆλ₯ ν μ€νΈ λ°μ΄ν°λ₯Ό νμ©ν μ μμ΄ λ§€μ° λ§€λ ₯μ μ λλ€. μλ₯Ό λ€μ΄, μΉ νμ΄μ§μμ μΆμΆν μ½ 20TBμ ν μ€νΈ λ°μ΄ν°λ₯Ό λ§€λ¬ μμ±νλ Common Crawl νλ‘μ νΈ2κ° μμ΅λλ€. μ΄λ μ κ²½λ§μ λ§€μ° μ ν©νλ°, ν° λͺ¨λΈμ ν° λ°μ΄ν° μΈνΈλ‘ νλ ¨ν¨μΌλ‘μ¨ λ λμ μ±λ₯μ λ¬μ±ν μ μλ κ²½μ°κ° μ’ μ’ μκΈ° λλ¬Έμ λλ€.
μ΄λ¬ν μλμ§λ μ΅κ·Ό NLPμ μ μ΄ νμ΅ λ°©λ²λ‘ μ κ°λ°νλ λ° λ§μ μμ μ μ λ°νμ¬, μ¬μ νλ ¨ λͺ©ν, λ―ΈλΆλ₯ λ°μ΄ν° μΈνΈ, λ²€μΉλ§ν¬, μΈλ° μ‘°μ λ°©λ² λ± λ€μν μμμ ν¬κ΄νλ κ΄λ²μν μ°κ΅¬ κ²°κ³Όλ₯Ό μ°μΆνμ΅λλ€. μ΄ μλ‘μ΄ λΆμΌμμμ μ§μ κ³Ό λ€μν κΈ°μ μ λ€μμ±μ μλ‘ λ€λ₯Έ μκ³ λ¦¬μ¦μ λΉκ΅νκΈ° μ΄λ ΅κ² λ§λ€κ³ , μλ‘μ΄ κΈ°μ¬μ μν₯μ ꡬλΆνκ³ , μ μ΄ νμ΅μ λν κΈ°μ‘΄ λ°©λ²μ μμμ μ΄ν΄νλ λ° μ΄λ €μμ μ€ μ μμ΅λλ€. λ³΄λ€ μ²΄κ³μ μΈ μ΄ν΄μ νμμ±μ λ°νμΌλ‘, μ°λ¦¬λ μ μ΄ νμ΅μ λν ν΅ν© μ κ·Ό λ°©μμ νμ©νμ¬ λ€μν μ κ·Ό λ°©λ²μ 체κ³μ μΌλ‘ μ°κ΅¬νκ³ νμ¬μ νκ³λ₯Ό λ리λ λ°μ μ£Όλ ₯νκ³ μμ΅λλ€.
μ°λ¦¬ μμ μ κΈ°λ³Έ μμ΄λμ΄λ λͺ¨λ ν μ€νΈ μ²λ¦¬ λ¬Έμ λ₯Ό "Text-to-Text" λ¬Έμ λ‘ μ·¨κΈνλ κ²μ λλ€. μ¦, ν μ€νΈλ₯Ό μ λ ₯μΌλ‘ λ°μ μλ‘μ΄ ν μ€νΈλ₯Ό μΆλ ₯μΌλ‘ μμ±νλ κ²μ λλ€. μ΄ μ κ·Ό λ°©μμ μ΄μ μ NLP μμ μ ν΅ν©νλ νλ μμν¬μμ μκ°μ λ°μμΌλ©°, μ΄λ λͺ¨λ ν μ€νΈ λ¬Έμ λ₯Ό μ§λ¬Έ μλ΅, μΈμ΄ λͺ¨λΈλ§ λλ κ΅¬κ° μΆμΆ μμ μΌλ‘ μΊμ€ν νλ κ²μ ν¬ν¨ν©λλ€(Keskar λ±, 2019b). μ€μν μ μ ν μ€νΈ-ν¬-ν μ€νΈ νλ μμν¬κ° μ°λ¦¬κ° κ³ λ €νλ λͺ¨λ μμ μ λμΌν λͺ¨λΈ, λͺ©μ , νλ ¨ μ μ°¨ λ° λμ½λ© νλ‘μΈμ€λ₯Ό μ§μ μ μ©ν μ μκ² ν΄μ€λ€λ κ²μ λλ€. μ°λ¦¬λ μ΄λ¬ν μ μ°μ±μ νμ©νμ¬ μ§λ¬Έ μλ΅, λ¬Έμ μμ½, κ°μ± λΆλ₯ λ± λ€μν μμ΄ κΈ°λ° NLP λ¬Έμ μμ μ±λ₯μ νκ°ν μ μμ΅λλ€. μ΄ ν΅ν©λ μ κ·Ό λ°©μμ ν΅ν΄ μ°λ¦¬λ λ€μν μ μ΄ νμ΅ λͺ©ν, λ―ΈλΆλ₯ λ°μ΄ν° μΈνΈ λ° κΈ°ν μμμ ν¨κ³Όλ₯Ό λΉκ΅νκ³ , μ΄μ μ κ³ λ €λ κ²λ³΄λ€ λ ν° λͺ¨λΈκ³Ό λ°μ΄ν° μΈνΈλ‘ μ μ΄ νμ΅μ νκ³λ₯Ό νμν μ μμ΅λλ€.
μ°λ¦¬μ λͺ©νλ μλ‘μ΄ λ°©λ²μ μ μνλ κ²μ΄ μλλΌ, μ΄ λΆμΌμ νν©μ λν ν¬κ΄μ μΈ μκ°μ μ 곡νλ κ²μ λλ€. λ°λΌμ μ°λ¦¬μ μμ μ μ£Όλ‘ κΈ°μ‘΄ κΈ°μ μ μ‘°μ¬, νμ λ° κ²½νμ λΉκ΅λ‘ ꡬμ±λ©λλ€. μ°λ¦¬λ λν 체κ³μ μΈ μ°κ΅¬μμ μ»μ ν΅μ°°λ ₯μ νμ₯νμ¬ νμ¬ λ°©λ²μ νκ³λ₯Ό νꡬνκΈ° μν΄ μμ μ νμ₯ν©λλ€(λͺ¨λΈμ 110μ΅ κ°μ λ§€κ°λ³μλ‘ νλ ¨). μ΄λ¬ν κ·λͺ¨μ μ€νμ μννκΈ° μν΄, μ°λ¦¬λ "Colossal Clean Crawled Corpus" (C4)λΌλ λ°μ΄ν° μΈνΈλ₯Ό μκ°ν©λλ€. μ΄ λ°μ΄ν° μΈνΈλ μΉμμ μ€ν¬λ©ν μλ°± κΈ°κ°λ°μ΄νΈμ κΉ¨λν μμ΄ ν μ€νΈλ‘ ꡬμ±λμ΄ μμ΅λλ€. μ μ΄ νμ΅μ μ£Όμ κ°μΉλ μ¬μ νλ ¨λ λͺ¨λΈμ λ°μ΄ν°κ° λΆμ‘±ν νκ²½μμ νμ©ν μ μλ κ°λ₯μ±μ΄λΌκ³ μΈμνκ³ , μ°λ¦¬λ μ°λ¦¬μ μ½λ, λ°μ΄ν° μΈνΈ λ° μ¬μ νλ ¨λ λͺ¨λΈμ 곡κ°ν©λλ€.
λ Όλ¬Έμ λλ¨Έμ§λ λ€μκ³Ό κ°μ κ΅¬μ‘°λ‘ μ΄λ£¨μ΄μ Έ μμ΅λλ€: λ€μ μΉμ μμλ κΈ°λ³Έ λͺ¨λΈκ³Ό ν΄λΉ ꡬν, ν μ€νΈ μ²λ¦¬ λ¬Έμ λ₯Ό ν μ€νΈ-ν μ€νΈ μμ μΌλ‘ ν¬μ₯νλ μ μ°¨, κ·Έλ¦¬κ³ κ³ λ €νλ μμ μΈνΈμ λν΄ λ Όμν©λλ€. μΉμ 3μμλ NLPλ₯Ό μν μ μ΄ νμ΅ λΆμΌλ₯Ό νꡬνλ λ€μν μ€ν μΈνΈλ₯Ό μ μν©λλ€. μΉμ λμμ (μΉμ 3.7), 체κ³μ μΈ μ°κ΅¬λ‘λΆν° μ»μ ν΅μ°°λ ₯μ κ²°ν©νμ¬ λ€μν λ²€μΉλ§ν¬μμ μ΅μ²¨λ¨ κ²°κ³Όλ₯Ό μ»μ΅λλ€. λ§μ§λ§μΌλ‘, μΉμ 4μμ κ²°κ³Ό μμ½μ μ 곡νκ³ λ―Έλλ₯Ό μ λ§ν©λλ€.
λκ·λͺ¨ κ²½νμ μ°κ΅¬ κ²°κ³Όλ₯Ό μ μνκΈ° μ μ, μ°λ¦¬μ κ²°κ³Όλ₯Ό μ΄ν΄νκΈ° μν΄ νμν λ°°κ²½ μ£Όμ μΈ Transformer λͺ¨λΈ μν€ν μ²μ νκ°νλ λ€μ΄μ€νΈλ¦Ό μμ μ λν΄ μ€λͺ ν©λλ€. λν, λͺ¨λ λ¬Έμ λ₯Ό ν μ€νΈ-ν μ€νΈ μμ μΌλ‘ μ²λ¦¬νλ μ κ·Όλ²κ³Ό λ―ΈλΆλ₯ ν μ€νΈ λ°μ΄ν° μμ²μΌλ‘ λ§λ "Colossal Clean Crawled Corpus" (C4)μ λν΄μλ μ€λͺ ν©λλ€. μ°λ¦¬λ μ°λ¦¬μ λͺ¨λΈκ³Ό νλ μμν¬λ₯Ό "ν μ€νΈ-ν μ€νΈ μ μ΄ Transformer"λΌκ³ μ§μΉν©λλ€.