Mastering Transformers ์์ฝ
์ ์ : Savaล Yฤฑldฤฑrฤฑm, Meysam Asgari-Chenaghlu
์ถ๊ฐ์ผ : 2021/09 (packt publishing)
์ด ์ฑ ์ ํฌ๊ฒ ์๋๋ก ๋ถ๋ฅ๋๋ค
1์ฅ๋ถํฐ 2์ฅ๊น์ง๋ ๋์ ๋ถ์ด๋ค. ๋์ ๋ถ๋ ๋ค์๊ณผ ๊ฐ์ ์ฃผ์ ๋ฅผ ๋ค๋ฃฌ๋ค\
- NLP๋ถ์ผ์ ์ญ์ฌ
- transformers ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ ์ค์น ํ ๊ธฐ๋ณธ์ ์ธ ์ฌ์ฉ๋ฐฉ๋ฒ
๋ฅ๋ฌ๋ ์ด์ ์๋๋ถํฐ ํธ๋์คํฌ๋จธ๊น์ง์ NLP์ ์ญ์ฌ๋ฅผ ์ง์ด๋ณธ๋ค
transformers ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ ์ค์ตํ๊ฒฝ ๊ตฌ์ถ ๋ฐ ๊ธฐ๋ณธ ์ฌ์ฉ๋ฒ์ ์๊ฐํ๋ค
From Autoencoding to Autoregressive Models
BERT๋ฑ์ ํธ๋์คํฌ๋จธ์ ์ธ์ฝ๋ ๋ชจ๋ธ๋ค์ ์๊ฐํ๋ค
GPT-1๋ฑ์ ํธ๋์คํฌ๋จธ์ ๋์ฝ๋ ๋ชจ๋ธ๋ค์ ์๊ฐํ๋ค
์ ๋ชฉ ๊ทธ๋๋ก ๋ถ๋ฅ๋ฅผ ์ํ ํ์ธํ ๋ฐฉ๋ฒ์ ์๊ฐํ๋ค
์ ๋ชฉ ๊ทธ๋๋ก ํ ํฐ ๋ถ๋ฅ๋ฅผ ์ํ ํ์ธํ ๋ฐฉ๋ฒ์ ์๊ฐํ๋ค
๋ค์ํ ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ๋ฌธ์ฅ์ ํํํ๋ ์ฌ๋ฌ๊ฐ์ง ๊ธฐ๋ฒ์ ๋ฐฐ์ด๋ค. ๋ค์๊ณผ ๊ฐ์ ๋ด์ฉ์ ๋ค๋ฃฌ๋ค
- Universal Sentence Encoder (USE) ๋ชจ๋ธ
- Siamese BERT (Sentence-BERT) ๋ชจ๋ธ
- BART๋ชจ๋ธ์ ์ฌ์ฉํ ์ ๋ก์ท ํ์ต์ ๋ํด ๋ค๋ฃฌ๋ค
- Few-shot ํ์ต ๋ฐฉ๋ฒ๋ก
๋น ๋ฅด๊ณ ํจ์จ์ ์ธ ๋ชจ๋ธ์ ๋ง๋๋ ํ ํฌ๋์ ์๊ฐํ๋ค
์ง๊ธ๊น์ง๋ ๋จ์ผ ์ธ์ด์ ๋ํ ๋ฌธ์ ๋ง์ ๋ค๋ฃจ์์ง๋ง ์ด๋ฒ ์ฅ์์๋ ์๋ก ๋ค๋ฅธ ์ธ์ด๊ฐ ๋ฒ์ญ ๊ธฐ๋ฅ์ ์ ๊ณตํ๋ mT5, mBART๋ฑ์ ๋ชจ๋ธ์ ๋ํด ์ดํด๋ณธ๋ค
FastAPI๋ฑ์ ์๋ฒ๋ฅผ ์ฌ์ฉํ์ฌ ํธ๋์คํฌ๋จธ ๋ชจ๋ธ์ REST API๋ก ์ ๊ณตํ๋ ๊ธฐ๋ฒ ๋ฑ์ ์๊ฐํ๋ค
์ดํ ์ ์ ์๊ฐํํ์ฌ ์ฑ๋ฅ๊ฐ์ ๋ฑ์ ์ฐธ๊ณ ํ๋ ๊ธฐ๋ฒ์ ์๊ฐํ๋ค
์ํคํ ์ฒ์ ์ํคํ ์ฒ๋ค์ ๋ณํ๋ ๋ค์ ๊ธฐ์ ๋ค์ ์ง๋ณด๋ก ์ฑ๊ณต์ ์ด์๋ค
- ๋ฌธ๋งฅ์ ์๋ ์๋ฒ ๋ฉ (BERT๋ฑ์์ ์ฌ์ฉํ๋ค)
- ๋๋์ ์๋ธ์๋ ํ ํฐํ ์๊ณ ๋ฆฌ์ฆ (BERT์ ํ ํฌ๋์ด์ ์ธ Wordpiece tokenizer.)
- ์ ๋ ฅ ํ ํฐ์ ๋ฌธ์ฅ๋จ์๋ก ๋ถ๋ฆฌํ๋ ๊ธฐ๋ฒ (์ BERT์ CLSํ ํฐ ๋ฑ. ์ด๋ฅผ ๋ฉ๋ชจ๋ฆฌ ํ ํฐ์ด๋ผ๊ณ ํ๋ค)
- ์ ๋ ฅ ๋ฌธ์ฅ์ ๋ชจ๋ ์ ๋ณด๋ฅผ ๊ฐ์ ์ฐ์ ์์๋ก ๋๊ณ ๋์ฝ๋ฉํ๋ ๋ฌธ์ (์ดํ ์ ๋ฉ์ปค๋์ฆ์ผ๋ก ํด๊ฒฐ )
- ๋ฉํฐํค๋ ์ ํ ์ดํ ์
- ํฌ์ง์ ๋ ์ธ์ฝ๋ฉ
- ๋ ๋น ๋ฅธ ํ๋ จ์ ์ํ ๋ณ๋ ฌ ์ํคํ ์ฒ
- ๋ชจ๋ธ ์์ถ (distillation, quantization ๋ฑ)
- ์ ์ดํ์ต (Transfer Learning)
๊ธฐ์กด์ ์ ํต์ ์ธ ๋ชจ๋ธ์ sparsity, unseen words representation,
tracking long-term dependencies ๋ฑ์ ๋ฌธ์ ๊ฐ ์์๋ค. ์ด๋ฌํ ๋ฌธ์ ์ ๋์์ผ๋ก ๋ฅ๋ฌ๋ ๊ธฐ๋ฐ์ ์ ๊ทผ๋ฒ์ด ๊ณ ์๋์๋ค.
2013๋
์ word2vec์ด ๋ฑ์ฅํ์ฌ ์ฐจ์๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ค ํ์๋ค. word2vec์ ์๋ ์๋ฒ ๋ฉ์ด๋ผ๋ ๊ฐ๋
์ ๋์
ํ์๋ค.
์ฌ๊ท(recurrent) ๋ฐ ์ปจ๋ณผ๋ฃจ์
์ํคํ
์ฒ๋ ์ธ์ฝ๋์ ๋์ฝ๋๋ก ์ฌ์ฉ๋์๋ค. ์ธ์ฝ๋ ๋ฐ ๋์ฝ๋๋ sequence to sequence ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ค ๊ณ ์๋์๋ค. ์ด ์ด๊ธฐ๋ชจ๋ธ๋ค์ ๋ฌธ์ ์ ์ ๋ค์์ด์ ์ฌ๋ฌ๊ฐ์ง ๋ป์ ํด๊ฒฐํ์ง ๋ชปํ๋ ๋ฌธ์ ๊ฐ ์์๋ค. ๋ค์ด์ด ๊ณ ์๋ Universal Language Model Finetuning
(ULMFit) and Embeddings from Language Models (ELMo) ๋ฑ์ ๋ชจ๋ธ์ ๋จ์ด๋ฅผ ๋ฌธ์ฅ ์์ค์ ์ ๋ณด๋ก ์ธ์ฝ๋ฉํ์ฌ ๋ค์์ด ๋ฌธ์ ๋ฅผ ์ด๋์ ๋ ํด๊ฒฐํ์๋ค. ์ด๋ ๊ธฐ์กด์ ์ ์ ์๋ ์๋ฒ ๋ฉ์์ ํ๋จ๊ณ ์ง๋ณด๋ ํํ์๋ค. ์ด๋ค ๋ ๋ชจ๋ธ์ RNN์ด ์ง๋ณด๋ LSTM ๋ชจ๋ธ ๊ธฐ๋ฐ์ด์๋ค. ์ด ๋ชจ๋ธ์ pre-train๊ณผ fine-tune์ ๊ฐ๋
์ ๋์
ํ์๋ค. ์ด ๋ชจ๋ธ์ ์ ํต์ ์ธ ์๋ ์๋ฒ ๋ฉ๊ณผ ๋ค๋ฅด๊ฒ ๋จ์ด์ ๋ป์ ํํํ์๋๋ฐ ์ด ๋ชจ๋ธ์์๋ ๋ฌธ์ฅ๋ด์ ๋จ์ด๊ฐ ์
๋ ฅ๋ฌธ์ฅ ์ ์ฒด์ ๋งฅ๋ฝ์ ๊ณ ๋ คํ์ฌ ์๋ฒ ๋ฉ๋๋ค. ์ด๊ฒ์ ๋ฌธ๋งฅ์ ์๋ฒ ๋ฉ์ด๋ผ๊ณ ํ๋ค.
๊ทธ๋ฆฌ๊ณ 2015๋
์ดํ
์
๋ฉ์ปค๋์ฆ์ด ์๊ฐ๋์๋ค.
2๋
ํ 2017๋
ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ์ ์ธ์ฝ๋-๋์ฝ๋ ๋ชจ๋ธ์ด ๋ฐํ๋์๋ค. ์ด ๋ชจ๋ธ์ ๊ธฐ์กด์ ์ฌ๊ท(recurrent) ๋ชจ๋ธ์ ๋ฒ๋ฆฌ๊ณ ์ดํ
์
๋ฉ์ปค๋์ฆ๋ง์ ์ฐจ์ฉํ์๋ค.
๋ถ์ฐ ์๋ฉํฑ์ค๋ ๋จ์ด์ ์๋ฏธ๋ฅผ ๋ฒกํฐ๋ก ํํํ๋ ์๋จ
์ด๋ค. ๋ถ์ฐ ์๋ฉํฑ์ค์ ๊ตฌ์ฒด์ ์ธ ์๋ก๋ ์๋ ์๋ฒ ๋ฉ์ด ์๋ค.
์ด ์ ๊ทผ๋ฒ์ ์ฌ์ ์ ์ ์๋ ์๋ฏธ๋ฅผ ์ฐพ๊ธฐ๋ณด๋ค๋ ๋ถ์ฐ์ ์ฆ๊ฑฐ๋ฅผ ์ฐพ๋๊ฒ์ ์ ํธํ๋ค. ๋ถ์ฐ์ ์ฆ๊ฑฐ๋ผ๋ ๋ง์ด ์ด๋ ค์ธ ์ ์์ง๋ง ๋น์ทํ ์์น์ ์กด์ฌํ๋ ๋จ์ด๋ค์ ๋ป์ด ์ ์ฌํ ๊ฐ๋ฅ์ฑ์ด ๋๋ค๋ ๋ป์ด๋ค. ๊ฐ์ ๋ฌธ๋งฅ์์ ํจ๊ป ๋ฑ์ฅํ๋ ํ์์ ๋จ์ด๋ค์ ์ ์ฌํ ๋ป์ธ ๊ฒฝํฅ์ด ์๋ค๋ ๊ฒ์ ์์ํ๋ค. ์ผ๋ก๋ก ๊ฐ
์ ๊ณ ์์ด
๋ ๊ฐ์ ๋ฌธ๋งฅ์์ ํจ๊ป ๋ฑ์ฅํ ๊ฐ๋ฅ์ฑ์ด ๋์ผ๋ฏ๋ก ์ ์ฌํ ๋ป์ผ๋ก ๊ฐ์ฃผ๋๋ค. ๋จ์ด๋ ์๊ฐ์ด ํ๋ฅด๊ฑฐ๋ ๋๋ฉ์ธ์ด ๋ฐ๋๋ฉด ๊ทธ ์๋ฏธ๊ฐ ๋ฐ๋ ์ ์๋๋ฐ ์ด๋ฅผ lexical semantic change problem
์ด๋ผ๊ณ ํ๋ค. ๋ถ์ฐ ์๋ฉํฑ์ค (distributional semantics)
๋ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ์ดํดํ๋๋ฐ ๋์์ ์ค๋ค.
๊ณ ์ ์ ์ธ ๋ฐฉ๋ฒ์ผ๋ก Bag-of-Words (BoW)
์ n-gram
์ด ๋จ์ด๋ฅผ ํํํ๋๋ฐ ์ฌ์ฉ๋์๋ค. BoW์์๋ ๋จ์ด์ ๋ฌธ์ฅ๋ค์ด one-hot ์ธ์ฝ๋ฉ
์ผ๋ก ํํ๋์๋ค. n-gram
๋ชจ๋ธ์ ๋ฌธ์ฅ์ ๊ตฌ์ฑํ๋ ๊ฐ๊ฐ์ ๋จ์ด์ ํ๋ฅ ์ ๋ถ์ฌํ๋ค. ๊ทธ๋์ ์ด ๋ฌธ์ฅ์ด ์ฝํผ์ค ๋ด์ ์ํ ํ๋ฅ ์ ๊ตฌํ๊ฑฐ๋ ๋๋คํ ๋ฌธ์ฅ์ ์์ฑํ๋๋ฐ ์ฐ์๋ค.
bag of word๋ ์๋ ์๋ฒ ๋ฉ์ด๋ค. ์๋ ์๋ฒ ๋ฉ์ด๋ ๋จ์ด์ ์ซ์๋ฅผ ๋ ์ด๋ธ๋งํ๋ ์์
์ด๋ค.
์๋ ์๋ฒ ๋ฉ์ ๋จ์ : ๋จ์ด์ ๋จ์ด๊ฐ์ ์๋ฌด๋ฐ ๊ด๊ณ๋ ๋ถ์ฌ๋์ง ์๋๋ค. ๋ฐ๋ผ์ ๋จ์ด๊ฐ ์ด๋ค ๋งฅ๋ฝ์์ ์ฌ์ฉ๋์๋์ง ์์์๋ค
์๋ ์๋ฒ ๋ฉ์ ๊ฐ์ ํ์ฌ ๋จ์ด์ ๋จ์ด๊ฐ์ ๋งฅ๋ฝ(context)์ ๋ถ์ฌํ๋ ๋ฐฉ๋ฒ์ด ๊ณ ์๋์๋ค
์ฐจ์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด Latent Semantic Analysis(LSA)
๊ฐ ์ฌ์ฉ๋๋ค. ์ด๋ ์ ์ฐจ์ ๋ฒกํฐ ๊ณต๊ฐ์์ ๋จ์ด์ ์๋ฏธ๋ฅผ ํ์
ํ๋๋ฐ ์ฐ์ธ๋ค. LSA๊ธฐ๋ฐ์ ํ๋ฅ ๋ชจ๋ธ์ ๋จ์ผ ๋ ์ด์ด๋ก์ ์ฌ์ฉ์ ๊ณ ๋ คํด๋ณผ๋ง ํ์ง๋ง ์ต๊ทผ์ ๋ฅ๋ฌ๋(DL) ๋ชจ๋ธ์ ๋ค์ค ๋ ์ด์ด ๊ธฐ๋ฐ์ด๋ค.
๊ธฐ์กด์ ์ธ์ด ์์ฑ ๋ชจ๋ธ์ n-gram
๊ธฐ๋ฐ์ ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ค. ๋ฌธ์ฅ์ ์ด๋ฃจ๋ ๊ฐ ๋จ์ด๋ ์ด์ ๋จ์ด์ ํด๋ฌ์คํฐ์ ๊ธฐ๋ฐํ์ฌ ์์ฑ๋๋ค. unigram , bigram, ngram ๋ฑ์ด ์๋ค
์ดํ n-gram์ ์ค์ตํจ
NLP์ญ์ฌ๋ฅผ ๋์๋ณด๋ฉฐ ์ง๊ธ๊น์ง์ ์ฌ๋ฌ ์ ๊ทผ๋ฒ์ ๋ฐฐ์๋ณธ๋ค
Word2vec
์ ๊ฐ์ฅ ๋๋ฆฌ ์๋ ค์ง ์๋์๋ฒ ๋ฉ ์๋ฃจ์
์ด๋ค.
word2vec์ ๋จ์ด์ ๋จ์ด ์ฌ์ด์ ๋งฅ๋ฝ(context)์ ๋ถ์ฌํ๋ค.
์๋ฅผ ๋ค์ด ํ๊ต
๋ผ๋ ๋จ์ด๊ฐ ์์ผ๋ฉด ๊ทธ ๋จ์ด์ ๋ํ ๋ฐฐ์ด์ ์์ฑํด์ ๊ทธ ๋จ์ด์ ์ธ์ ํ ๋จ์ด๋ฅผ ์์๋๋ก ์ฝ์
ํ๋ค. ์๋ฅผ๋ค์ด ['๊ณต๋ถ', 'ํ์', '์ ์๋', '์ํ']
์ ๊ฐ์ ๋ฐฐ์ด์ด ์์ฑ๋๋ค
word2vec์ ๋จ์ ์ ์ค์ง ๋งฅ๋ฝ์ ์ํด์๋ง ๋จ์ด์ ์ฐ์์๋ฅผ ์ ์ถํ๋๋ฐ์ ์จ๋ค ์๋ฅผ ๋ค์ด
๋๋ ํ๊ต์ ๊ฐ๋ค
๋๋ ๊ฑฐ๊ธฐ์ ๊ฐ๋ค
ํ๊ต์
์ ๊ฑฐ๊ธฐ์
๋ ์ ํํ ๊ฐ์ ๋งฅ๋ฝ์์ ์ฌ์ฉ๋์๋ค. ๋ฐ๋ผ์ ์ด๋ค ๋ ๋จ์ด๋ ์ ์ฌํ ๋จ์ด๋ก ์ ์๋๋ค. ๊ทธ๋ฌ๋ ์ค์ ๋ก ์ด๋ค ๋ ๋จ์ด๋ ์ ์ฌํ ๋จ์ด๊ฐ ์๋๋ค.
๋๋ค๋ฅธ ๋ฌธ์ ๋ก๋ ๋์ ์ด์์ด๋ฅผ ๊ตฌ๋ถํ์ง ๋ชปํ๋๋ฐ ์๋ค
๋๋ ๋ง์ ๋ณด๋ฉฐ ๋ง์ ํ๋ค.
์์ ๊ฐ์ ๋ฌธ์ฅ์์ ์ฒซ๋ฒ์งธ ๋ง์ horse์ด๊ณ ๋๋ฒ์งธ ๋ง์ speech์ด์ง๋ง word2vec์ ๋์์ด์์ด๋ฅผ ๊ตฌ๋ถํ์ง ๋ชปํ๋ค
์ด๋ฐ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ค๋ฉด ๋จ์ด ์์ค์ ์ดํด
๋ฅผ ๋ฌธ์ฅ ๋จ์์ ์ดํด
๋ก ์
๊ทธ๋ ์ด๋ ํด์ผํ๋ค
์ด ๋ฌธ์ฅ ์์ค์ ์๋ํ๊ฒ RNN
์ด๋ค. RNN
์ด ์
๊ทธ๋ ์ด๋ ๋์ด LSTM
์ด ๋์๊ณ LSTM
์ด ๊ฐ์ ๋์ด transformer
๋ชจ๋ธ์ด ๋์๋ค
word2vec์ sklearn๋ผ์ด๋ธ๋ฌ๋ฆฌ๊ฐ ์ ๊ณตํ๋ Principal Component Analysis (PCA)
๋ฅผ ์ฌ์ฉํ๋ฉด ์๊ฐํ๋ ๊ฐ๋ฅํ๋ค
์ดํ Word2vec ์ค์ต
RNN๊ธฐ๋ฐ์ ๋ฒ์ญ ๋ชจ๋ธ์ ์ธ์ฝ๋-๋์ฝ๋ ๊ธฐ๋ฐ ๋ชจ๋ธ
์ด๋ค. ์ธ์ฝ๋์ ๋์ฝ๋๋ฅผ ๊ฐ๊ฐ์ ํจ์๋ก ๋๊ณ ํฉ์ฑํจ์๋ฅผ ์คํํ๋ค๊ณ ์ดํดํด๋ ์ข๋ค. ๋จผ์ ์ธ์ฝ๋๋ ์
๋ ฅ์ผ๋ก ๋ฌธ์ฅ์ ๊ตฌ์ฑํ๋ ๊ฐ ๋จ์ด๋ฅผ ์์ฐจ์ ์ผ๋ก ์
๋ ฅ๋ฐ๋๋ค. ๊ฐ ๋จ์ด๋ฅผ ์
๋ ฅ๋ฐ์ ๋ ๋ง๋ค ์ปจํ
์คํธ ๋ฒกํฐ
๋ฅผ ์์ฑํ๋ค. ์ด ์ปจํ
์คํธ ๋ฒกํฐ๋ ๋จ์ด๋ฅผ ์
๋ ฅ๋ฐ์ ๋ ๋ง๋ค ๋ฌธ์ฅ์ ์ ๋ณด๋ฅผ ๊ฐฑ์ ํ ์ฑ๋ก ์์ ๋๋ค. ๋ฌธ์ฅ์ ๋ง์ง๋ง ๋จ์ด๊น์ง ์
๋ ฅ๋ฐ์ผ๋ฉด ์ต์ข
์ ์ธ ์ปจํ
์คํธ ๋ฒกํฐ(context vector)๊ฐ ์์ฑ๋๋ค. ์ด ์ปจํ
์คํธ ๋ฒกํฐ๋ ์
๋ ฅ ๋ฌธ์ฅ์ ์ฒ์๋ถํฐ ๋๊น์ง ๋ชจ๋ ์ปจํ
์คํธ ์ ๋ณด๋ฅผ ๋ฒกํฐ๋ก ํํํ ์๋ฃ๊ตฌ์กฐ์ด๋ค. ๋์ฝ๋๋ ์ด ์ปจํ
์คํธ ๋ฒกํฐ๋ฅผ ์
๋ ฅ์ผ๋ก ๋ฐ์ ์
๋ ฅ์ ๋์๋๋ ๋จ์ด๋ฅผ ํ๋์ฉ ์์ฑํ์ฌ ์ต์ข
์ ์ผ๋ก ํ๋์ ๋ฌธ์ฅ์ ์์ฑํ๋ค. ์ปจํ
์คํธ ๋ฒกํฐ๋ ์ธ์ฝ๋์ ๋์ฝ๋ ์ฌ์ด์ ์์นํ๊ธฐ ๋๋ฌธ์ ์ด๋ฅผ ์ค๊ฐ ํํ๊ฐ(intermediate representation)
์ด๋ผ๊ณ ๋ถ๋ฅธ๋ค.
๋์ฝ๋๊ฐ ๋ฌธ์ฅ์ ์์ฑํ ๋๋ 1๊ฐ ๋จ์ด์ฉ ์์ฐจ์ ์ผ๋ก ์์ฑํ๋๋ฐ ์ด ์์
์ end ํ ํฐ์ ๋ง๋ ๋ ๊น์ง ๋ฐ๋ณต๋๋ค. ํ์ง๋ง ์ด๋ฐ ๋ฉ์ปค๋์ฆ์๋ ๋ฌธ์ ๊ฐ ์๋ค. ์ปจํ
์คํธ ๋ฒกํฐ๋ฅผ ๊ฐฑ์ ํ ๋๋ง๋ค ์ด๊ธฐ์ ์
๋ ฅ๋ฐ์ ๋จ์ด์ ์ ๋ณด๊ฐ ์ ์ฐจ ์์ค๋์ด ์ ๋ณด๊ฐ ์ ์ค๋ ์๋ ์๋ค๋ ์ ์ด๋ค. ๋ฐ๋ผ์ RNN๊ธฐ๋ฐ์ ์ธ์ฝ๋๋ ๊ธด ๋ฌธ์ฅ์ด ์
๋ ฅ์ผ๋ก ๋ค์ด์์ ๋ ์๋น๋์ ์ ๋ณด๊ฐ ์์ค๋๋ ๋ฌธ์
๊ฐ ์๋ค.
๋๋ฒ์งธ ๋ฌธ์ , ์ปจํ
์คํธ ๋ฒกํฐ๋ ์ฒ์๋ถํฐ ๊ณ ์ ๋ ์ฌ์ด์ฆ์ด๋ค. ์
๋ ฅ์ ๊ธธ์ด๋ฅผ ์์ธกํ ์ ์๋ ์ํฉ์์ ๊ณ ์ ์ฌ์ด์ฆ์ ๋ฐฐ์ด์ ํ์ฉํ๋ค๋ ๊ฑด ์ต์ ํ์ ๋ฌธ์ ๊ฐ ์๋ค.
ํ๋์ ์ปจํ
์คํธ ๋ฒกํฐ๋ง์ ์ฌ์ฉํ๋ ๊ฒ์ด ์๋๋ผ ๊ฐ ๋จ์ด๊ฐ ์
๋ ฅ์ผ๋ก ๋ค์ด๊ฐ ๋ ๋ง๋ค ์์ฑ๋๋ ๋ชจ๋ ์ปจํ
์คํธ ๋ฒกํฐ๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ด๋ค. ์ด๋ ๊ฒ ๋๋ฉด ๊ฐ ๋จ์ด์ ์ ๋ณด๊ฐ ์์ค๋์ง ์์ ์ํฉ, ๋ค์๋งํด ๋จ์ด์ ์ปจํ
์คํธ ์ ๋ณด๊ฐ ์ ํ ์์ค๋์ง ์์ ์ปจํ
์คํธ ๋ฒกํฐ์ ์ ์ฒด์ ์ธ ๋ฌธ์ฅ์ ์ปจํ
์คํธ ์ ๋ณด๋ฅผ ๋์์ ์ฐธ๊ณ ํ์ฌ ๋ฌธ์ฅ์ ์์ฑํ ์ ์๋ค. ์ฆ ์
๋ ฅ ๋จ์ด๊ฐ 3๊ฐ๋ผ๋ฉด ์ค๊ฐ๊ณผ์ ์ ์์ฑ๋๋ ์ปจํ
์คํธ ๋ฒกํฐ์ ์ต์ข
์ ์ผ๋ก ์์ฑ๋๋ ๋ฒกํฐ๋ฅผ ํฉ์ณ ์ด 3๊ฐ์ง์ ๋ฒกํฐ๊ฐ ์์ฑ๋๋ค. ์ด 3๊ฐ์ง์ ์ ๋ณด๋ฅผ ๋ชจ๋ ๋ค ์ด์ฉํ์ฌ ๋ฌธ์ฅ์ ์์ฑํ๋ ๊ฒ์ด ์ดํ
์
๋ฉ์ปค๋์ฆ์ด๋ค. ์ดํ
์
์ ๋๋ต์ ์ธ ๊ณต์์ ๋ค์๊ณผ ๊ฐ๋ค
์ด๋คํจ์(์์ฑ๋ ๋ชจ๋ ์ปจํ
์คํธ ๋ฒกํฐ) + ์ด๋คํจ์(๊ฐ์ฅ ์ต๊ทผ์ ์์ฑ๋ ์ปจํ
์คํธ ๋ฒกํฐ)
์ด ์ดํ
์
์ fully-connected neural network์์ ์๋ํ๋ฉฐ ์ต์ข
๋ ์ด์ด์์๋ ์
๋ ฅ๋จ์ด์ ๊ฐฏ์๋งํผ์ weight๋ฅผ ์ถ๋ ฅํ๋ค. ์ด ์ต์ข
๋ ์ด์ด์ weight๋ค์ softmaxํจ์๋ฅผ ์ ์ฉํ๋ฉด ๋ชจ๋ weight์ ์ดํฉ์ด 1์ด ๋๋ ํ๋ฅ ๋ถํฌ๊ฐ ์์ฑ๋๋ค. ์ด weight๋ฅผ ์ดํ
์
weight๋ผ๊ณ ๋ถ๋ฅธ๋ค. ์ด ์ดํ
์
weight๋ ์
๋ ฅ ๋จ์ด๋ค ์ค ์ด๋ ๋จ์ด์ ๋น์ค์ ๋์ด์ผ ํ๋์ง์ ๋ํ ์ ๋ณด๋ฅผ ๋ด๊ณ ์๋ค. ์ด ์ดํ
์
weight์ ์ ๋ณด๋ฅผ ํ์ฉํ์ฌ ์ต์ข
์ ์ผ๋ก ๋จ์ด ์์ฑ์ ์ฌ์ฉํ ์ปจํ
์คํธ ๋ฒกํฐ๋ฅผ ์์ฑํ๋ค. ์ด ์ต์ข
์์ฑ๋ ์ปจํ
์คํธ ๋ฒกํฐ๋ฅผ ์
๋ ฅ์ผ๋ก ๋จ์ด๋ฅผ ์์ฑํ๋ค.
์์ธ ๋ด์ฉ์ ์ ํ๋ธ ๊ฐ์ (https://www.youtube.com/watch?v=WsQLdu2JMgI) ๋ฅผ ์ฐธ์กฐํ ๊ฒ
LSTM (long-short term memory)๋ ์ด๋ฆ์ฒ๋ผ ๊ธฐ์ต๊ณผ ๊ด๋ จํ ์๋ฃจ์
์ด๋ค. ๊ธด ๋ฌธ์ฅ ๋ด์์ ์ด๊ธฐ์ ๋ฑ์ฅํ ๋จ์ด์ ์ ๋ณด๊ฐ ์ ์ฐจ ์์ค๋๋ long-term dependency problem
์ ํด๊ฒฐํ๊ธฐ ์ํด ๊ณ ์๋์๋ค. ์ ๋ณด์ ๋ณด์กด์ ์ํด cell state
๋ผ๋ ๊ฐ๋
์ ๋์
ํ์๋ค. ์
์ ์ํ๋ฅผ ์ ์ฅํ๋๋ฐ ์ด ์ํ์ ์ด๋ค ํํ์ ์ ๋ณด๋ฅผ ๋ด์์ง ๋๋ ์ด๋ค ํํ์ ์ ๋ณด๋ฅผ ์ ๊ฑฐํ ์ง๊ฐ LSTM์๊ณ ๋ฆฌ์ฆ์ ์ํด ์์ฒด์ ์ผ๋ก ๊ฒฐ์ ๋๋ค.
LSTM์ tf, keras๋ฅผ ํตํด ๊ตฌํํ๋ค
cnn์ ๊ฐ๋ ์ ์ค๋ช ํ๊ณ keras๋ก cnn์ ๊ตฌํํ๋ค
ํธ๋์คํฌ๋จธ๋ ๋๋ถ๋ถ์ NLP๋ฌธ์ ๋ฅผ ์ฒ๋ฆฌํ ์ ์๋ ๋ฅ๋ฌ๋ ์ํคํ
์ฒ๋ค. ํธ๋์คํฌ๋จธ์ ํต์ฌ์ ๋ณ๋ ฌํ์ด๋ค. ํธ๋์คํฌ๋จธ๋ recurrent๋ชจ๋ธ์ ์ฌ์ฉํ์ง ์์ผ๋ฉฐ ๋ฌธ์ฅ์ ๋ชจ๋ ๋จ์ด๋ฅผ ํ๋ฒ์ ๋ณ๋ ฌ๋ก ์ธ์ฝ๋ฉํ๋ค
ํธ๋์คํฌ๋จธ์ ๋๋ค๋ฅธ ํต์ฌ์ ์ดํ
์
๋ฉ์นด๋์ฆ์ด๋ค. ํธ๋์ค ํฌ๋จธ ์ด์ ์๋ ์ดํ
์
์ ์กด์ฌํ๋ค. ๊ณผ๊ฑฐ LSTM๋ชจ๋ธ์์ ์ดํ
์
์ ์ฑ๋ฅ ํฅ์์ ์ํ ์ต์
์ผ๋ก ์กด์ฌํ์ง๋ง ํธ๋์คํฌ๋จธ์์๋ ์ดํ
์
์ด ํต์ฌ ๋ฉ์ปค๋์ฆ์ด๋ค.
์ดํ
์
์ 2015๋
Bahdanau๋ฑ์ ์ํด ์ ์๋์๋ค. LSTM๊ธฐ๋ฐ์ ์ธ์ฝ๋-๋์ฝ๋ ๋ชจ๋ธ์ ๋จผ์ ์ธ์ฝ๋๊ฐ ๋ฌธ์ฅ์ ์ฌ๊ท(recurrent) ๊ธฐ๋ฐ์ผ๋ก ์ฒ๋ฆฌํ์ฌ ์ปจํ
์คํธ ๋ฒกํฐ๋ฅผ ์์ฑํ๋ค. ์ฒ๋ฆฌ๊ฐ ๋๋๋ฉด ์ต์ข
์ ์ผ๋ก ํ๋์ ์ปจํ
์คํธ ๋ฒกํฐ๊ฐ ์์ฑ๋๋๋ฐ ์ด ์ปจํ
์คํธ ๋ฒกํฐ๊ฐ ๋ค๋ฅธ ์ฌ๊ท์ ๋(recurrent unit)์ธ ๋์ฝ๋์ ์
๋ ฅ์ผ๋ก ๋ค์ด๊ฐ๋ค. ์ด์ฒ๋ผ ๋ฌธ์ฅ์ ๋ชจ๋ ์ ๋ณด๋ฅผ ์๋นํ ํ์ ๋ค์ ๋กค๋ง์์ํ๋ ๊ณผ์ ์ ๋์ฝ๋์๊ฒ ๋ฒ๊ฑฐ์ ๋ค ์๋ํ๋ฉด ๋์ฝ๋๋ ๋ฌธ์ฅ์ ๊ด๋ จํ ๋ชจ๋ ์์กด์ฑ๋ค์ ๋ณผ ์ ์๊ธฐ ๋๋ฌธ์ด๊ณ ์ค์ง ์ต์ข
์์ฑ๋ ์ปจํ
์คํธ ๋ฒกํฐ๋ง์ ์
๋ ฅ์ผ๋ก์ ์ฐธ์กฐ
ํ๊ธฐ ๋๋ฌธ์ด๋ค.
์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ค ์ดํ
์
์ด ๊ณ ์๋์๋๋ฐ ์ดํ
์
์์๋ ์ฌ๊ท(recurrent) ํ๋ก์ธ์ฑ ์ค๊ฐ์ ์์ฑ๋ ๋ชจ๋ ์ปจํ
์คํธ ๋ฒกํฐ๋ฅผ ๋ณ๋์ ์คํ
์ดํธ๋ก ์ ์ฅํ ํ์ ์ด ๋ชจ๋ ์คํ
์ดํธ๊ฐ ๋์ฝ๋์ ์
๋ ฅ๋๋ค.
์ดํ
์
์ ๋ฑ์ฅ ์ดํ ๋ง์ ๋ณ์ข
๋ค์ด ์๊ฒจ๋ฌ๊ณ ๊ทธ์ค์์๋ ํธ๋์คํฌ๋จธ๋ ๋ฉํฐํค๋ ์ดํ
์
(multi-head attention mechanism)
์ ์ฌ์ฉํ๋ค.
๋ฌธ์ฅ๋ด ๋จ์ด๊ฐ ๊ด๊ณ๋ฅผ ํ์ตํ๋ ๋ชจ๋ธ์ self-attention
์ด๋ผ๊ณ ํ๋ค
word2vec๊ณผ ๋ง์ฐฌ๊ฐ์ง๋ก ๋ฌธ์ฅ๋ด ์ธ์ ํ ๋จ์ด๋ผ๋ฆฌ ๊ด๊ณ๋๊ฐ ๋๋ค
transformers๋ ๋ฌธ์ฅ ์ ์ฒด์ ๋ํ ๋ฐฐ์ด์ ๋ง๋ ๋ค. ๋ฐฐ์ด์ N์ฐจ์ ์ขํํ๋ฉด์์ ํน์ ์ขํ๋ฅผ ์๋ฏธํ๋ค. ์ด ๋ฌธ์ฅ์ ๋ฐฐ์ด์๋ ํน์ ๋จ์ด์ ์ขํ๋ ํฌํจ๋์ด ์์ง ์๋ค.
์ด ๊ณผ์ ์ language model์ด๋ผ๊ณ ํ๋ค. ์ฌ๊ธฐ๊น์ง์ ์์
์ด pre-train์ด๋ค.
๊ทธ๋ฆฌ๊ณ ์ด language model์ ๊ฐ์ ธ์์ sentiment analysis๋ฅผ ํ๊ฑฐ๋ ์ธ์ด ๋ฒ์ญ์ ํ๊ณ ์ถ์๋๋ fine-tuning์ผ๋ก ํ
์คํฌ์ ํน์ฑํ๋ ์์
์ ์ํํ๋ค.
์ด ์ผ๋ จ์ ๊ณผ์ ์ ํฉ์ณ์ transfer learning, ํ๊ตญ์ด๋ก ์ ์ด ํ์ต์ด๋ผ๊ณ ํ๋ค. ์ด ๊ณผ์ ์ ์ฌ๋ฌ๋ฒ ๋ฐ๋ณตํด์ ํ๊ท ์ ๋ด๊ธฐ ๋๋ฌธ์ โmultiโ๋ผ๋ ๋จ์ด๋ฅผ ๋ถ์ฌ์ multi-head selt-attention
์ด๋ผ๊ณ ํ๋ค
๋ฉํฐํค๋์ ์ดํด์ ์์ ์
ํ ์ดํ
์
(self-attention, ๋ค๋ฅธ๋ง๋ก dot-product attention)
์ ์์๋ณด์. ์
ํ ์ดํ
์
์ ํต์ฌ์ ์ดํ
์
์ค์ฝ์ด๋ฅผ ์
๋ ฅ ๋ฌธ์ฅ์ ์์กดํด์ ์ค์ค๋ก(self)
์์ฑํด์ ํ์ฉํ๋ค๋ ์ ์ด๋ค. ์ดํ
์
์ค์ฝ์ด๋ ํ์ฌ ์์ ์์ ๋์ฝ๋์ ์ํ์ ๊ฐ์ฅ ์ ์ฌํ ์ํ๋ฅผ ์ธ์ฝ๋์ ํ๋ ์คํ
์ดํธ ์ค์์ ๊ตฌํ๋ค๋ ๊ฐ๋
์ด๋ค.
์
ํ ์ดํ
์
์์๋ ๊ฐ๊ฐ์ ํ๋ ์คํ
์ดํธ ๋ณ๋ก ์ดํ
์
์ค์ฝ์ด๋ฅผ ๊ตฌํด๋๊ณ ์ด๊ฒ๋ค์ ํ๋์ ๋ฒกํฐ๋ก ๊ด๋ฆฌํ๋ค. ์ด ๋ฒกํฐ์ ์ํํธ๋งฅ์ค ํจ์๋ฅผ ์ ์ฉํ๋ฉด ์ด๊ฐ์ด 1์ด ๋๋ ํ๋ฅ ๋ถํฌ๊ฐ ์์ฑ๋๋ค. ์ด๋ฅผ ์ดํ
์
๋ถํฌ(Attention Distribution)
๋ผ๊ณ ํ๊ณ ๊ฐ๊ฐ์ ๊ฐ์ ์ดํ
์
๊ฐ์ค์น(Attention Weight)
๋ผ๊ณ ํ๋ค. ์ด ์ดํ
์
๊ฐ์ค์น๋ค์ (๊ฐ๊ฐ์ ๋์๋๋ ํ๋ ์คํ
์ดํธ์ ๊ณฑํด์) ๋ชจ๋ ๋ํ๋ฉด, ์ฆ ์๊ทธ๋ง ์ฐ์ฐ์ ํ๋ฉด ์ดํ
์
๊ฐ(Attention Value)
๋ค๋ฅธ๋ง๋ก ์ปจํ
์คํธ ๋ฒกํฐ๊ฐ ์์ฑ๋๋ค. ์ด ์ปจํ
์คํธ ๋ฒกํฐ๋ฅผ ๊ฐ์ฅ ์ต๊ทผ์ ์คํ
์ดํธ(latest state)์ ๊ฒฐํฉํ์ฌ ํ๋์ ๋ฒกํฐ๋ฅผ ๋ง๋ ๋ค. ์ด ์ต์ข
์ฐ์ฐ๋ ๋ฒกํฐ๊ฐ ๋์ฝ๋์ ์
๋ ฅ์ผ๋ก ๋ค์ด๊ฐ ๋จ์ด๋ฅผ ์ถ๋ ฅํ๋ค.
dot-product attention์์์ ์ดํ
์
์ค์ฝ์ด๋ Query ํ๋ ฌ๊ณผ Key ํ๋ ฌ์ ๋ด์ (dot-product)์ ํ์ฌ ๊ตฌํ๋ค. ๊ทธ๋์ ์ด๋ฆ์ด dot-product attention
์ด๋ค. ์ด ๊ฒฐ๊ณผ๋ฌผ์ ์ ์ฌ๊ฐ ํ๋ ฌ์ด๋ค. ์ด ์ดํ
์
์ค์ฝ์ด๋ฅผ ์
๋ ฅ ๋ฌธ์ฅ๊ณผ ํ๋ ฌ๊ณฑ์ ํ์ฌ ์ดํ
์
๋ฉ์ปค๋์ฆ์ ์ต์ข
๊ฒฐ๊ณผ๊ฐ์ ๊ตฌํ๋ค
์ด์๊ฐ์ dot-product attention์ scaling์ ์ถ๊ฐํ๊ฒ scaled dot-product attention์ด๋ค. ์ด scaled dot-product attention๋ฅผ ๋ณ๋ ฌ๋ก ์ฌ๋ฌ๋ฒ ์คํํ์ฌ ๋์จ ๊ฒฐ๊ณผ๋ฌผ๋ค์ ๋ํ๋๊ฒ ๋ฉํฐํค๋ ์ดํ ์ ์ด๋ค.
๊ทธ ์ธ ํต์ฌ๊ฐ๋ : positional encoding. ์ด๋ ์ ๋ ฅ๊ฐ์ ์ฌ์ธ๊ณผ ์ฝ์ฌ์ธ์ ์ ์ฉํ์ฌ ๊ตฌํ๋ค
์ธ์ฝ๋๋ ์๋ฐฉํฅ(bi-directional) ํ ํฐ์ ์ด์ฉํด์ ์ค๊ฐ์ ์์นํ ํ ํฐ์ ์์ฑํ๋ค. ์ด๋ฅผ ์๋ฐฉํฅ ํธ๋์คํฌ๋จธ๋ผ๊ณ ํ๋ค.
๋์ฝ๋๋ ํ์ชฝ๋ฐฉํฅ ํ ํฐ์ ์ด์ฉํด์ ๋ค์ ํ ํฐ์ ์์ฑํ๋ ์์ฑ์์ด๋ค
์ ์ดํ์ต์ pre-trained model์ด๋ผ๊ณ ๋ ๋ถ๋ฆฐ๋ค.
์ ์ดํ์ต์ shallow model๊ณผ deep model๋ก ๋๋๋ค. shallow TL์ ์๋ก๋ Word2vec์ด ์๋ค.
์์ ๋ชจ๋ธ(shallow model)์ pre-trained vector ๊ธฐ๋ฐ์ด๋ค. ์ด๋ฌํ ์ข
๋ฅ์ ์ ์ดํ์ต ๋ค์๋ ์๋ฌด๋ฐ ๋ชจ๋ธ์ด ์๊ธฐ ๋๋ฌธ์ ์์ ๋ชจ๋ธ์ด๋ผ๊ณ ๋ถ๋ฆฐ๋ค. ๋ชจ๋ธ ๋์ pre-trained ๋ฒกํฐ๊ฐ ํ์ฉ๋๋ค.
deep model์ language model์ด๋ค.
ํธ๋์คํฌ๋จธ๋ ๋น์ง๋ ํ์ต ๊ธฐ๋ฐ์ผ๋ก ์ ์ดํ์ต์ด ๊ฐ๋ฅํ๋ค. ๋ง์คํฌ ์ธ์ด ๋ชจ๋ธ(Masked Language Model) ์ ํ์ฉํ๋ฉด ์ธ์ด ๊ทธ์์ฒด๊ฐ ์ค์ค๋ก ํ์ต์ด ๊ฐ๋ฅํ๋ค. ํน์ ํ ๋จ์ด๋ฅผ ๊ณต๋ฐฑ์ผ๋ก ๋ฐ๊พธ์ด ๋๊ณ ์ด ๋จ์ด๋ฅผ ์์ธกํ๋ ๋ฐฉ์์ผ๋ก ํ์ต์ด ์งํ๋๋ค
ํธ๋์คํฌ๋จธ๋ฅผ ํ์ฉํ ์ต์ด์ ์ธ์ด ๋ชจ๋ธ์ BERT์ด๋ค. ์ด๋ ํธ๋์คํฌ๋จธ์ ์ธ์ฝ๋ ํํธ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๋ค. BERT๋ ๋ง์คํฌ ์ธ์ด ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ผ๋ก ์ค์ค๋ก ํ์ตํ๋ค. ๋ฐํธ๋ ์ ์ด ๊ฐ๋ฅํ ์ธ์ด๋ชจ๋ธ์ด๋ฏ๋ก ํ๋ฒ ํ์ตํด ๋์ผ๋ฉด ํ ํฐ ๋ถ๋ฅ, Q&A, ๋ฌธ์ฅ ๋ถ๋ฅ๋ฑ ๋ค์ํ ํ๋์ ์ ์ฉํ ์ ์๋ค.
BERT์ ํ์ต์๋ 2๊ฐ์ง ๋ฌธ์ฅ์ด ๋์์ ์
๋ ฅ๋๋ค. ์ด๋ ๋ค์ ๋ฌธ์ฅ ์์ธก์ ํ์ตํ๊ธฐ ์ํจ์ด๋ค. ์ด๋ ๋ฌธ์ฅ๊ณผ ๋ฌธ์ฅ๊ด์ ๊ด๊ณ๋ฅผ ํ์ตํจ์ผ๋ก์ ์ด๋ฃจ์ด์ง๋ค.
์ฃผ์ ! : BERT์ BART๋ ๋ค๋ฅธ ๊ฐ๋
์ด๋ค. BERT๋ ์ธ์ฝ๋ ๋ชจ๋ธ์ด๋ฉฐ BART๋ ์ธ์ฝ๋์ ๋์ฝ๋๊ฐ ๊ฒฐํฉ๋ seq2seq ๋ชจ๋ธ์ด๋ค
์ฝ์ง ์์
!pip install Transformer
!(๋๋ํ)๋ shell์์ ์คํํ๋๋ก ํด์ค๋ค. ํ์ด์ฌ์์์ ์คํ์ด ์๋๋ค
transformers ์ฌ์ฉ๋ฒ : ๋ชจ๋ธํจ์ ์์ ์ธ์ฝ๋ฉ๋ ํ ํฐ์ ์ง์ด๋ฃ์ผ๋ฉด ๋.
๊ฒฐ๋ก : pipeline()ํจ์๋ก ๋ถ๋ฌ์ค์์ค
โข GLUE
โข SuperGLUE
โข XTREME
โข XGLUE
โข SQuAD
pip install dataset
dataset์ด๋ ? ์ปค๋ฎค๋ํฐ์์ ์ ๊ณตํ๋ ๋ฐ์ดํฐ์
์ ๋ถ๋ฌ์ค๋ ํจ์.
์) glue์์ cola๋ผ๋ ๋ฐ์ดํฐ๋ฅผ ๋ถ๋ฌ์ค๊ธฐ
the GLUE dataset which is an agregated benchmark comprised of 10 subsets: COLA, SST2, MRPC, QQP, STSB, MNLI, QNLI, RTE, WNLI and the diagnostic subset AX.
from datasets import load_dataset
cola = load_dataset('glue', 'cola')
cola['train'][25:28]
์ฝ์ง ์์
๋ฉํฐํ์คํน(GLUE) ๋ฐ ๊ต์ฐจ ์ธ์ด ๋ฒค์น๋งํน(XTREME) ์ ๋์
ํ์ต๋๋ค. ์ด๋ ์ธ์ด๋ชจ๋ธ์ด ๋ ๊ฐ๋ ฅํด์ง๋๋ก ๋๋๋ค.
evaluate ๋ฐฉ๋ฒ์ ๋ฐฐ์ ๋ค. ํ๊ฐ๋ ์ฐ์ฐ์๋๋ฅผ ๊ธฐ์ค์ผ๋ก ํ๋ค
์ด๋ฒ์ฅ์ ์ธ์ฝ๋๋ฅผ ํธ๋ ์ด๋ ํ๋ ๋ฐฉ๋ฒ์ ๋ฐฐ์ด๋ค.
์ฌ๊ธฐ์๋ ๋จ์ผ์ธ์ด์ ๋ํ ํ์ต์ ๋ฐฐ์ด๋ค.
์ด๋ฒ์ฅ์ ๋ค์ ๋ค์ฏ๊ฐ๋ฅผ ๋ฐฐ์ด๋ค
โข BERT ๋ชจ๋ธ
โข ๋ชจ๋ธ ํ์ต
โข ์ปค๋ฎค๋ํฐ์ ๋ชจ๋ธ ๊ณต์ ํ๊ธฐ
โข ๋ค๋ฅธ ๋ชจ๋ธ๋ค
โข ํ ํฐํ ์๊ณ ๋ฆฌ์ฆ ์ดํด๋ณด๊ธฐ
BERT๋ฅผ ์ดํดํ๊ธฐ ์ ์ ๋จผ์ GPT-1์ ์ดํดํ๋ ๊ฒ์ด ์ข๋ค. BERT๋ GPT-1 ๊ณต๊ฐ ์ดํ GPT-1์ ๋จ์ ์ ์ง์ ํ๋ฉด์ ๋ฑ์ฅํ๋ค. ์ฌ๊ท(recurrent)๊ธฐ๋ฐ ๋ชจ๋ธ์ธ GPT-1์ ๋ฌธ์ฅ์ ์ถ๋ ฅํ ๋ ๋จ๋ฐฉํฅ์ผ๋ก ์ถ๋ ฅํ๋ ๋จ์
์ด ์๋ค. ์ด๋ฌํ ๋จ๋ฐฉํฅ ์ ๊ทผ๋ฒ์ ๋ฌธ๋งฅ ์ดํด์ ์ด๋ ค์์ด ์์ ์ ์๋ค. ๊ทธ๋์ ๊ณ ์๋ ๋ชจ๋ธ์ด ์๋ฐฉํฅ ์ ๊ทผ๋ฒ
์ด๋ค.
BERT๋ ์ต์ข
์ ์ผ๋ก ์ปจํ
์คํธ ๋ฒกํฐ๋ฅผ ์์ฑํ๋ค. ์ด๋ ๊ธฐ์กด์ ์ดํ
์
๋ฉ์ปค๋์ฆ์์ ์ธ์ฝ๋ ๋ชจ๋ธ์ด ์ปจํ
์คํธ ๋ฒกํฐ๋ฅผ ์์ฑํ ๋ฐฉ์๊ณผ ์ ์ฌํ๋ค. ๋ค๋ง ์ด ๋ฐฉ์์ RNN์ฒ๋ผ ์ฌ๊ท์ ์ผ๋ก(recurrent) ๋ฐ์ํ์ง ์๊ณ ํ๋ฒ์ ๋ชจ๋ ๋ฌธ์ฅ์ ์ฝ์ด๋ค์ฌ ์ปจํ
์คํธ ๋ฒกํฐ๋ฅผ ์์ฑํ๋ค. ์ปจํ
์คํธ ๋ฒกํฐ์ ์์ฑ์ RNN์์์ ์ดํ
์
๋ฉ์ปค๋์ฆ๊ณผ ๋ง์ฐฌ๊ฐ์ง๋ก fully-connected neural network์์ ์ํ๋๋ค. ์ด ๋คํธ์ํฌ๋ ๋ค์ค๋ ์ด์ด ๋ชจ๋ธ์ด๋ค. ์ด๋ ๊ฒ ์์ฑ๋ ์ปจํ
์คํธ ๋ฒกํฐ๋ ๋ค์ ์
๋ ฅ์ผ๋ก ๋ค์ด๊ฐ ๋ค์ ์ปจํ
์คํธ ๋ฒกํฐ๋ฅผ ์์ฑํ๊ณ ์ด ์์
์ ๋ฌธ์ฅ์ ๋จ์ด๊ฐฏ์ + 1ํ ๋งํผ ๋ฐ๋ณตํ๋ค.
BERT์ ํต์ฌ : provide better language modeling. ์ฆ ๋๋์ fine-tune ํ์ต์ ์ ๊ณตํ๋ค.
BERT์ ๋ง์คํฌ ๋ชจ๋ธ์ ์ ๋๋ก ์ดํดํ๋ ค๋ฉด ๋ง์คํฌ ๋ชจ๋ธ์ ์ ์ฌ์ฉํ๋์ง ์์์ผ ํ๋ค
๋ง์คํฌ ๋ชจ๋ธ์ ์ ์ฐ๋๊ฐ ? ๋ง์คํฌ ๋ชจ๋ธ์ด cloze ํ
์คํธ๋ฅผ ์ฑ๊ณต์ ์ผ๋ก ์ํํ ์ ์์ผ๋ฉด ์ธ์ด์ ์ผ๋ฐ์ ์ธ ์ดํด๊ฐ ๊ฐ๋ฅํ๋ค๊ณ ํ๋จํ ์ ์๊ธฐ ๋๋ฌธ์ด๋ค.
cloze ํ
์คํธ๋ ๋ฌธ์ฅ์ฅ์์ ํน์ ํ ๋จ์ด๋ฅผ ์ง์๋ฒ๋ฆฐ ํ์ ๊ทธ ์ง์์ง ๋จ์ด์ ๋ค์ด๊ฐ ๋จ์ด๋ฅผ ์ ํํ์ฌ ๊ทธ ์ ํ๋ ๋จ์ด๊ฐ ์ ํฉํ์ง ์ฌ๋ถ๋ฅผ ํ๊ฐํ๋ ๋ฐฉ๋ฒ์ด๋ค.
๋ง์คํฌ ๋ชจ๋ธ๊ณผ ๋๋ถ์ด BERT๋ ๋ค์ ๋ฌธ์ฅ ์์ธก (Next Sentence Prediction, NSP) ์์
์ ์ํํ์ฌ ํ์ตํ๋ค. ์ด ๋ชจ๋ธ์ ํ์ต์๋ 2๊ฐ์ ์
๋ ฅ์ด ๋์์ ์ฃผ์ด์ง๋ค. BERT๋ ๋๊ฐ์ง ๋ฌธ์ฅ์ ๊ฒ์ฌํ ํ์ ๋๋ฒ์งธ ๋ฌธ์ฅ์ด ์ฒซ๋ฒ์งธ ๋ฌธ์ฅ์ ํ์ ๋ฌธ์ฅ์ผ๋ก ์ ํฉํ์ง ์ฌ๋ถ๋ฅผ ํ๋ฅ ๋ก ํ๋จํ๋ค. ์ด ์ ํฉ์ฑ ์ฌ๋ถ๋ ๋ ๋ฌธ์ฅ๊ฐ์ ์ํธ ์ฐ๊ด์ฑ์ ์ธก์ ํ์ฌ ๊ทธ ์์น๊ฐ์ ๊ธฐ์ค์ผ๋ก ํ๋จํ๋ค
BERT๋ ๋ค์๊ณผ ๊ฐ์ ํน์ง์ ๊ฐ์ง๋ค
- BERT๋ WordPiece ํ ํฐํ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์๋ํ๋ค.
- BERT๋ ์์น์ ์ธ์ฝ๋ฉ(positional encoding)์ ์ฌ์ฉํ๋ค.
- ์ํ์ค ๋ถ๋ฅ, ํ ํฐ ๋ถ๋ฅ, Q&A ๋ชจ๋ธ ๋ฑ ๋ฌธ์ ์ ๋๋ฉ์ธ์ ๋ฐ๋ผ์ BERT๋ชจ๋ธ์ ๊ฐ๊ธฐ ๋ค๋ฅธ ์ถ๋ ฅ์ ์ฌ์ฉํ๋ค
์ด๋ฒ ์ฅ์์๋ BERT ๋ชจ๋ธ์ ์ด์ฉํด ํ์ตํ๋ ๊ณผ์ ์ ์ค์ตํ๋ค. ์ฐ๋ฆฌ๋ IMDB ๋ฐ์ดํฐ์ ์์ ๊ฐ์ ๋ถ์์ฉ ์ํ ๋ฆฌ๋ทฐ๋ฅผ ๊ฐ์ ธ์จ ํ์ ์ด๋ฅผ ํ์ตํ ๊ฒ์ด๋ค. ๊ฐ๋จํ ๊ณผ์ ์ ๋ค์๊ณผ ๊ฐ๋ค
- ๋ฐ์ดํฐ์ ์ ๋ค์ด๋ก๋ํ๋ค
- ํ ํฌ๋์ด์ ๋ฅผ ํ๋ จ์ํจ๋ค
- transformers๋ผ์ด๋ธ๋ฌ๋ฆฌ์์ ์ ๊ณตํ๋ trainerํด๋์ค๋ฅผ ์ด์ฉํ์ฌ trainer ๊ฐ์ฒด๋ฅผ ์์ฑํ๋ค
- trainer๊ฐ์ฒด์ train๋ฉ์๋๋ฅผ ํธ์ถํ์ฌ ํ๋ จ์ ์์ํ๋ค
- ํธ๋ ์ด๋์ด ์ข ๋ฃ๋๋ฉด trainer๊ฐ์ฒด์ save_model ๋ฉ์๋๋ฅผ ์ด์ฉํ์ฌ ์ํ๋ ์ด๋ฆ์ผ๋ก ํ์ต๋ ๋ชจ๋ธ์ ์ ์ฅํ๋ค
Transformers-cli์ git์ ์ด์ฉํ์ฌ ๋ฆฌํฌ์งํ ๋ฆฌ์ ์ ๋ก๋ํ๋ ์ค์ต์ ์งํํ๋ค
์ด ์ฅ์์๋ BERT ๋ชจ๋ธ์ ๊ฐ์ ํ ์ฌ๋ฌ ๋ชจ๋ธ์ ์๊ฐํ๋ค. ๋ชจ๋ธ์ ๊ฐ์ ์ ํฌ๊ฒ 2๊ฐ์ง ํํธ๋ก ๋๋ ์ ์๋ค.
์ฒซ์งธ๋ ๋ ๋์ ์ํคํ
์ฒ์ด๋ฉฐ ๋ ๋ค๋ฅธ ํ๋๋ pre-train ์ปจํธ๋กค์ด๋ค
๋๊ท๋ชจ ์ฝํผ์ค๋ฅผ ํ์ฉํ ๋ชจ๋ธ์ ํ์ต์ ๊ฑฐ๋ํ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋๊ณผ ์ค๋ ๊ฑธ๋ฆฌ๋ ํ์ต์๊ฐ์ด ๋ฌธ์ ์๋ค.
Albert (A Lite BERT)๋ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ๊ฐ์ ํ๊ธฐ ์ํ BERT์ ์ฌ๊ตฌํ๋ฌผ์ด๋ค. BERT๋๋น 18๋ฐฐ ๋ ์์ ํ๋ผ๋ฉํฐ๋ก 1.7๋ฐฐ ๋ ๋น ๋ฅธ ํ์ต์ด ๊ฐ๋ฅํ๋ค.
ALBERT ๋ชจ๋ธ์ ์ค๋ฆฌ์ง๋ BERT๋๋น ๋ค์ 3๊ฐ์ง ์์ ์ฌํญ์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ค
โข Factorized embedding parameterization (ํ๋ผ๋ฉํฐ ๊ฐฏ์ ๊ฐ์์ฉ)
โข ๋ ์ด์ด๊ฐ ํ๋ผ๋ฉํฐ ๊ณต์ (Cross-layer parameter sharing) (ํ๋ผ๋ฉํฐ ๊ฐฏ์ ๊ฐ์์ฉ)
โข Inter-sentence coherence loss
์์ 2๊ฐ์ง ๋ฐฉ๋ฒ๋ก ์ ํ๋ผ๋ฉํฐ ๊ฐฏ์๋ฅผ ์ค์ฌ์ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ ์ค์ธ๋ค.
์ค๋ช
์ด ๋๋๊ณ ๊ฐ๋จํ ์ค์ต์ ์ํํ๋ค. ์ด ์ค์ต์์๋ transformers ๋ผ์ด๋ธ๋ฌ๋ฆฌ์์ AlbertTokenizer, AlbertModel๋ฅผ ์ํฌํธํ์ฌ pre-trained ๋ชจ๋ธ์ ๋ถ๋ฌ์จ๋ค. ๊ทธ๋ ๊ฒ ๋ถ๋ฌ์จ ๋ชจ๋ธ์ ์ธ์๋ก ๊ฐ๋จํ ์์ด๋ฌธ์ฅ์ ์
๋ ฅํ๊ณ ์ด์๋ํ ์ถ๋ ฅ์ด ์ด๋ป๊ฒ ๋์ค๋์ง ํ์ธํ๋ค.
RoBERTa (Robustly Optimized BERT pre-training Approach)๋ ๋ ๋์ pre-train์ ๋ต์ ์ ๊ณตํ๋ค. ์ดํ transformers ๋ผ์ด๋ธ๋ฌ๋ฆฌ์์ RobertaTokenizer์ RobertaModel๋ฅผ ๋ถ๋ฌ์์ pre-trained ๋ชจ๋ธ์ ์ด์ฉํ์ฌ ๊ฐ๋จํ ์ค์ต์ ์ํํ๋ค.
์๋ ํธ๋ผ(ELECTRA)๋ BERT์์ ํ์๋์๋ค. ๊ธฐ์กด์ BERT ๋ชจ๋ธ์ ๋ง์คํฌ ๊ธฐ๋ฐ ํ์ต ๋ฐฉ๋ฒ์ด ๋นํจ์จ์ ์ด์๋ค.
์๋ ํธ๋ผ๋ BERT๋ณด๋ค ๋ ๋น ๋ฅธ ์ฒ๋ฆฌ์๋๋ฅผ ์คํํ๋ค.
์ดํ pipeline ํจ์๋ก ์๋ ํธ๋ผ ์ ๋ค๋ ์ดํฐ๋ฅผ ๋ถ๋ฌ์ค๋ ๋งค์ฐ ๊ฐ๋จํ ์ค์ต์ ์ํํ๋ค\
transformers๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ BERT๋ชจ๋ธ์ ๋ํ ๊ธฐ๋ณธ ํ ํฌ๋์ด์ ๋ก BertWordPieceTokenizer๋ฅผ ์ ๊ณตํ๋ค. ์ด๋ฒ ์ฅ์์๋ ํ ํฐํ ๋ฐฉ๋ฒ๋ค์ ์ข
๋ฅ์ ๊ทธ ํน์ง์ ์ดํด๋ณธ๋ค. ์ผ๋ฐ์ ์ธ ํ ํฐํ ๊ณผ์ ์ ๊ณต๋ฐฑ๋ฌธ์ ๋จ์๋ก ํ ํฐ์ ๋ถ๋ฆฌํ๋ ์ ๊ทผ๋ฒ์ ์ํํ์ง๋ง ์ด๋ ๋์ด์ฐ๊ธฐ๊ฐ ์๋ ์ธ์ด์ธ ์ผ๋ณธ์ด ๊ฐ์ ์ธ์ด์์๋ ์ ์ฉํ ์ ์๋ ์ ๊ทผ ๋ฒ์ด๋ค.
ํํธ ๊ธฐ์กด์ ์ ํต์ ์ธ ํ ํฐํ ๋ฐฉ๋ฒ์์ ํ๋จ๊ณ ์ง๋ณด๋ ๋ฐฉ์์ด ์๋ธ์๋ ํ ํฐํ์ธ๋ฐ ์ด๋ ๋จ์ด๋ฅผ ๋ ์์ ๋จ์ด๋ก ๋ถํดํ๋ ๋ฐฉ์์ด๋ค. ์ด๋ ๊ฒ ํ๋ฉด ํ ํฐํ ๋์์ด ๋๋ ๋จ์ด๊ฐ ์ค์ด๋๋๋ฐ ์ด๋ ๋๊ฐ์ง ์ฅ์ ์ด ์๋ค. ์ฒซ๋ฒ์งธ๋ก ์๋ ์๋ฒ ๋ฉ์ ์ฌ์ฉ๋๋ ์ฐจ์์๋ฅผ ์ค์ผ ์ ์๋ค. ๊ทธ๋ฆฌ๊ณ ํ์ต๊ณผ์ ์ธ์ ์ค์ ์ํฉ์์ ์
๋ ฅ๋ฐ์ ๋จ์ด๊ฐ ํ์ต๋๋ ๋ณธ ์ ์ด ์๋ ๋จ์ด์ผ ๊ฐ๋ฅ์ฑ์ด ์ค์ด๋ ๋ค. ๋ฏธ์ง์ ์ธ์ด๊ฐ ์
๋ ฅ ๋ฌธ์ฅ์ผ๋ก ๋ค์ด์ค๋ ํ์์(Out-Of-Vocabulary Problem, OOV Problem) ๋๋ ์ธ๋
ธ์ด ํ ํฐ ๋ฌธ์ (Unknown Token Problem) ๋ผ๊ณ ํ๋ค
transformers ๋ผ์ด๋ธ๋ฌ๋ฆฌ์์ ์ฌ์ฉ๋๋ ํ ํฐํ ์๊ณ ๋ฆฌ์ฆ์ self-supervised ๊ธฐ๋ฐ์ด๋ฉฐ ์ฝํผ์ค์ ๊ธฐ๋ฐํ์ฌ ํ ํฐํ ๋ฃฐ์ ์์ฑํ๋ค.
์ต๊ทผ ๋ฐ์ดํธ์ ์ธ์ฝ๋ฉ(byte-pair encoding, BPE)์ด๋ผ๋ ์ด๋ฆ์ ์๋ธ์๋ ํ ํฐํ ์๊ณ ๋ฆฌ์ฆ์ ํธ๋์คํฌ๋จธ ์ํคํ
์ฒ์ ์ผ๋ถ๋ถ์ด ๋์๋ค. ์ด ๊ฐ์ฅ ํ๋์ ์ธ ํ ํฐํ ํ๋ก์ธ์ค
๋ ๋๊ฐ์ง ๊ณผ์ ์ผ๋ก ๋ถ๋ฅ๋๋ค. ์ฒซ๋ฒ์งธ ๋จ๊ณ์ธ pre-tokenization phase๋ ๋จ์ํ ๊ณต๋ฐฑ๋ฌธ์ ๋๋ ์ธ์ด์ ๊ธฐ๋ฐํ ๋ฃฐ์ ์ด์ฉํ์ฌ ๋ฌธ์ฅ์ ํ ํฐ์ผ๋ก ์ชผ๊ฐ ๋ค. ๋๋ฒ์งธ ๊ณผ์ ์ธ tokenization training phase๋ ํ ํฌ๋์ด์ ๋ฅผ ํ์ตํ๊ณ ๊ทธ ๊ฒฐ๊ณผ๋ก ๊ธฐ๋ณธ ๋จ์ด๋ฅผ ์์ฑํ๋ค. ์๋ธ์๋ ํ ํฌ๋์ด์ ๊ฐ ๋ ์์ ๋จ์๋ก ๋จ์ด๋ฅผ ์ชผ๊ฐค ๋ ๊ธฐ๋ณธ ๋จ์ด๋ฅผ ๊ธฐ์ค์ผ๋ก ์ชผ๊ฐ ๋ค
์ด ๋ฐ์ดํธ์ ์ธ์ฝ๋ฉ์ ๊ธฐ๋ฐํ ํ ํฐํ ์๊ณ ๋ฆฌ์ฆ์ transformers ๋ผ์ด๋ธ๋ฌ๋ฆฌ์์ BertTokenizerFast ๋ชจ๋๋ก ์ ๊ณต๋๋ค.
์๋ธ์๋ ํ ํฐํ๋ก ์ธ๋
ธ์ด ํ ํฐ ๋ฌธ์ ์ ์๋น์๊ฐ ํด๊ฒฐ๋์๋ค. ํ์ง๋ง ์์ ํ ๋ฌธ์ ๊ฐ ํด๊ฒฐ๋ ๊ฒ์ ์๋์๋ค. ์ด๋ป๊ฒ ํ๋ฉด ์ธ๋
ธ์ด ํ ํฐ ๋ฌธ์ ๋ฅผ ๋ ๊ฐ์ ํ ์ ์์๊น? ์ด๋ ํ ํฌ๋์ด์ ๊ฐ ์ดํดํ ์ ์๋ ๋ฒ ์ด์ค ๋จ์ด๋ฅผ ์ถ๊ฐ๋ก ๋๋ ค์ฃผ๋ฉด ํด๊ฒฐ๋๋ ๋ฌธ์ ๋ค. ์
๋ ฅ์ผ๋ก ์ฃผ์ด์ง ๋จ์ด๋ค์ ์กฐํฉํ์ฌ ์๋ก์ด ๋จ์ด๋ฅผ ์์ฑํ๋ฉด ์ด๋ฅผ ๋ฌ์ฑํ ์ ์์ง๋ง ํ๊ฐ์ง ๋ฌธ์ ์ ๋ด์ฐฉํ๋ค
๋จ์ด๋ฅผ ์กฐํฉํ์ฌ ์๋ก์ด ๋จ์ด๋ฅผ ๋ง๋๋ ์์
์ ๊ฒฝ์ฐ์ ์๊ฐ ๊ฑฐ์ ๋ฌดํ๋๋ก ๋์ด๋๋ค. ์ด๋ ๊ฒ ๋๋ฉด ๋จ์ด๋ฅผ ๋ด๊ณ ์๋ ์๋ ์๋ฒ ๋ฉ ์ฐจ์์ ์๊ฐ ์ฆ๊ฐํ ์ ๋ฐ์ ์๊ณ ๊ทธ๋ ๊ฒ ๋๋ฉด ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋๊ณผ ํ์ต๋น์ฉ์ด ๋์ด๋๋ค. ๋ฐ๋ผ์ ์ด๋ ํ ๋จ์ด๊ฐ ์ธ๋
ธ์ด ์๋๋ก ์
๋ ฅ๋ ์ง๋ฅผ ์์ธกํ๊ณ ๊ทธ์ ๋ง๋ ์ต์ํ์ ๋จ์ด๋ง ์์ฑํ๋ ์ ๋ต์ด ํ์ํ๋ค. ์ฌ์ค ์ด๋ ํ ๋จ์ด๊ฐ ์
๋ ฅ์ผ๋ก ๋ค์ด์ฌ์ง๋ ํ๋ฅ ์ ๊ธฐ๋ฐ์ ๊ทผ๊ฑฐํ์ฌ ์์ธกํ๋ ๊ฒ์ด ๊ฐ์ฅ ํฉ๋ฆฌ์ ์ด๋ค. ๋ฐ์ดํธ์ ์ธ์ฝ๋ฉ ์ ๋ต์ ์์ฃผ ๋ฐ๋ณต๋๋ ๋ฌธ์๋ฅผ ํ๋์ ์์ผ๋ก ๋ฌถ์ด ์๋ก์ด ๋จ์ด๋ฅผ ์์ฑํ๋ ๋จ์ํ ์ ๋ต์ด๋ค. ์ด ๊ณผ์ ์ n-gram์๊ณ ๋ฆฌ์ฆ์ ๊ธฐ๋ฐํ์ฌ ์ํ๋๋ค
์ด๋ฌํ BPE ํ ํฌ๋์ด์ง ๋ฐฉ๋ฒ๋ก ์ GPT-2 ๋ฑ์ ํธ๋์คํฌ๋จธ ๋ชจ๋ธ์์ ์ฌ์ฉ๋๊ณ ์๋ค.
์๋ํผ์ค๋ BERT, ELECTRA ๋ฑ์์ ์ฌ์ฉํ๋ ํ ํฐํ ๊ธฐ๋ฒ์ด๋ค. ์๋ํผ์ค๋ 2012๋ ์ ๋์นด์ง๋ง์ ์ํด ๊ณ ์๋์๋ค. ์ด ์๋ฃจ์ ์ ์ ๊ณตํ ์ฌ๋์ด ์ผ๋ณธ์ธ์ธ ๋งํผ ๊ทธ๋ ์ผ๋ณธ์ด์ ์์ฑ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ด ํ ํฐํ ํ ํฌ๋์ ๊ณ ์ํ์๋ค. ๋ง์ ์์์ ์ธ์ด์์ ๋จ์ด๋ฅผ ์กฐ๊ฐํ ํ๋ ๊ณผ์ ์ ์ด๋ ต๋ค. ์ผ๋ณธ์ด์ฒ๋ผ ๋์ด์ฐ๊ธฐ ์์ฒด๊ฐ ์๋ ์ธ์ด๋ ์๊ณ , ๋์ด์ฐ๊ธฐ๊ฐ ์๋๋ผ๋ ํ๊ตญ์ด์ฒ๋ผ ์ ์ง์ผ์ง์ง ์๋ ๊ฒฝ์ฐ๋ ์์ผ๋ฉฐ ํ๊ตญ์ด์ฒ๋ผ ์๋์ด๊ฐ ๋ฑ์ ์กฐ์ฌ๊ฐ ๋ถ๋๊ฒฝ์ฐ ๊ทธ ๊ฒฝ์ฐ์ ์๊ฐ ๋๋ฌด ๋ง์ ์ผ์ผ์ด ๋์ํ์ฌ ํ ํฐํํ๋ ์์ ์ ์ด๋ ต๋ค. BPE์ ์ ์ฌํ ๋ฐฉ์์ผ๋ก ์๋ํผ์ค๋ ๋๊ท๋ชจ ์ฝํผ์ค๋ฅผ ํ์ต์ ์ด์ฉํ๊ณ ๊ท์น์ ๋ณํฉํ๋ค (์ดํด๊ฐ ์๋จ). BPE๊ฐ ๋ณํฉ๊ท์น(merging rules)์ ํ์ตํ ๋ co-occurrence ํต๊ณ์ ๊ธฐ๋ฐํ๋ ๋ฐ๋ฉด ์๋ํผ์ค๋ ์ต๋๊ฐ๋ฅ๋ ๋ฐฉ๋ฒ(maximum likelihood estimation)์ ์์กดํ๋ค
sentence piece ์๊ณ ๋ฆฌ์ฆ์ ์ผ๋ณธ์ด ๋ฑ ๋จ์ด์ ๋จ์ด์ฌ์ด์ ๊ณต๋ฐฑ์ด ์๋ ๊ฒฝ์ฐ์ ์ฌ์ฉ๋๋ค. SentencePiece๋ฅผ ์ฌ์ฉํ๋ ๋ํ์ ์ธ ๋ชจ๋ธ๋ก๋ XLNet, T5๋ฑ์ด ์๋ค. ์์ธ ๋ด์ฉ์ SentencePiece ์๊ฐ๋ ผ๋ฌธ์ ์ฐธ์กฐํ๋ผ
ํ๊น ํ์ด์ค ํ์ transformers ๋ผ์ด๋ธ๋ฌ๋ฆฌ์๋ ๋ณ๊ฐ์ ํ ํฌ๋์ด์ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ๋ง๋ค์๋ค. ์ด ๋ชจ๋ธ์ rust๋ก ๋ง๋ค์ด์ก๊ณ ๋ฉํ๋์ด ํ์ด์ฌ์ tokenizer ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ก ์ ๊ณต๋๋ค ํ ํฌ๋์ด์ ์ ํ์ดํ๋ผ์ธ์ ์ด 5์คํญ์ผ๋ก ์ด๋ฃจ์ด์ง๋ค
- ์ ๊ทํ : ์ํ๋ฒณ ๋๋ฌธ์๋ฅผ ์๋ฌธ์๋ก ๋ฐ๊พธ๋ ๋ฑ์ ์ ๊ทํ ๊ณผ์ ์ ์ํํ๋ค
- pre-tokenizer : ์ฝํผ์ค๋ฅผ ๊ณต๋ฐฑ๋ฌธ์ ๋ฑ์ผ๋ก ๋ถ๋ฆฌํ๋ค.
- ๋ชจ๋ธ ํ์ต : BPE๋ฑ์ ์๋ธ์๋ ํ ํฐํ ์๊ณ ๋ฆฌ์ฆ์ ์ํํ๋ค
- ํ์ฒ๋ฆฌ : ํธ๋์คํฌ๋จธ ๋ชจ๋ธ์์ ์ฌ์ฉํ ์ ์๋๋ก ์ถ๊ฐ์ ์ธ ์์ ์ด ์ํ๋๋ค. CLS๋ SEPํ ํฐ์ ์ถ๊ฐํ๋ ๋ฐฉ์์ผ๋ก ์ด๋ฃจ์ด์ง๋ค
- ๋์ฝ๋ : ๋์ฝ๋๋ ํ ํฐ ์์ด๋๋ฅผ ์๋์ ๋ฌธ์์ด๋ก ๋ณํํ๋ค. ์ด๋ ๋ณํ์ด ์ ๋๋ก ์ด๋ฃจ์ด์ง๋์ง ์กฐ์ฌํ๋ ์ฉ๋๋ก ์ฐ์ธ๋ค
์ดํ BPE์ wordpice ํ ํฌ๋์ด์ ๋ฅผ ์ด์ฉํ ์ค์ต์ ์ํํ๋ค ํ๊น ํ์ด์ค์ ํ ํฌ๋์ด์ ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ ๋ํ ๋ ์์ธํ ๋ด์ฉ์ ์ฌ๊ธฐ๋ฅผ ์ฐธ์กฐํ๋ผ
์ด๋ฒ ์ฅ์ ์๋์ ๊ฐ์ ๋ด์ฉ์ ์ดํด๋ณด์๋ค
- ์ธ์ฝ๋ฉ ๋ชจ๋ธ์ ์ด๋ก ์ ์ผ๋ก ์์๋ณด๊ณ ์ค์ต์ ํ๋ค
- BERT์ ๊ธฐ๋ณธ์ ๋ฐฐ์ฐ๊ณ ํ ํฌ๋์ด์ ๋ฅผ ํ๋ จํ๋ค
- keras๋ฑ์ ๋ค๋ฅธ ํ๋ ์์ํฌ์ ๊ฐ์ด ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ์ ํ์ตํ๋ค
- BERT์ ํธ๋ ์ด๋ ๊ณผ์ ์์ WordPiece ํ ํฐํ ์๊ณ ๋ฆฌ์ฆ์ ํ์ตํ๋ค
- WordPiece์ธ์ ๋ฐ์ดํธํ์ด ์ธ์ฝ๋ฉ ๋ฑ์ ๊ธฐํ ๋ค๋ฅธ ํ ํฐํ ์๊ณ ๋ฆฌ์ฆ๋ ์ดํด๋ณด์๋ค.
์ด๋ฒ์ฅ์ ํธ๋์คํฌ๋จธ์์ ๋์ฝ๋ ๊ณ์ธต์ผ๋ก ์ฌ์ฉ๋๋ Auto-regressive (AR)์ ๋ํด ๋ค๋ฃฌ๋ค
AR์ ๋ํ์ ์ธ ์๋ก๋ GPT-2๋ชจ๋ธ์ด ์๋ค
๊ตฌ์ฒด์ ์ผ๋ก ๋ค๋ฃจ๋ ๋ด์ฉ์ ์๋์ 5๊ฐ์ง๋ค
- ์ธ์ฝ๋์ ๋์ฝ๋ ํจ๊ป์ฐ๊ธฐ
- seq2seq ๋ชจ๋ธ ์ฌ์ฉํ๊ธฐ
- ์ธ์ฝ๋ ๋ชจ๋ธ์ ํ์ตํ๊ธฐ
- AR๋ชจ๋ธ์ ์จ์ ์์ฐ์ด ์์ฑ(NLG)ํ๊ธฐ
- simpletransformers ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ๋จ๋ฝ์์ฝ ํ ์คํฌ ์ํํ๊ธฐ
๋ฌธ์ฅ์ ์
๋ ฅํ๋ฉด ๋ค์ ๋จ์ด๋ฅผ ์์ธกํ๋๋ฐ ์ด๋ ์ ์ฒด ๋จ์ด์ ๋ํ ํ๋ฅ ์ ์ถ๋ ฅํ๋ ๋ชจ๋ธ์ด GPT์ด๋ค.
์ด๋ค์ 2๋จ๊ณ๋ก ๋๋๋ค
์ฒซ๋จ๊ณ๋ PRE-TRAIN์ด๋ค. ์ด๋ ๋น์ง๋ pre-train์ด๋ค.
๋๋ฒ์งธ๋ fine-tune์ด๋ค. ์ด๋ supervised fine-tune์ด๋ค. ์ด๋ ์๋์ ์ผ๋ก ์์์์ ๋ฐ์ดํฐ๋ง์ ์ฌ์ฉํ๋ค.
GPT-2์ GPT-3์ ์ํคํ ์ฒ๋ ๋น์ทํ๋ค. ๋ค๋ง ํ๋ผ๋ฉํฐ ์๊ฐ 100๋ฐฐ ์ฆ๊ฐ๋์๋ค. GPT-3๋ ๊ทธ๋ผ๋์ธํธ ๊ธฐ๋ฐ์ ํ์ธํ๋ ์์ด pre-train๋ง์ผ๋ก ๋๋์ ๊ฒฐ๊ณผ๋ฅผ ์ถ๋ ฅํ๋ค.
์ด ๋ชจ๋ธ์ ๊ธฐ์กด์ ํธ๋์คํฌ๋จธ ๋ชจ๋ธ๋ค์ ์
๋ ฅ์ด ๊ณ ์ ๊ธธ์ด ๊ธฐ๋ฐ์ด๋ผ๋ ๋ฌธ์ ์์ ์ถ๋ฐํ๋ค. ์ด๋ค ๋๋ถ๋ถ์ ์
๋ ฅ์ ์ต๋ 512๊ฐ์ ์ธ๊ทธ๋จผํธ๋ก ๋ถ๋ฆฌํ๋๋ฐ ๊ธธ์ด๊ฐ ๋๋ฌด ์งฆ์ ํ์ ๊ธด ๋ฌธ์ฅ์ ์ปจํ
์คํธ ์ ๋ณด๋ฅผ ๋ชจ๋ ๋ด์ง ๋ชปํ๋ค๋ ํ์์ ํ๊ณ๋ฅผ ๊ฐ์ง๋ค. ์ด๋ฌํ ๊ณ ์ ๊ธธ์ด ๊ธฐ๋ฐ์ ๋ฌธ์ฅ์ ์ ๋ฐ์ค ์ ๋ฐ์ ์ด๋ฐ ์ปจํ
์คํธ๋ก ์์ ํ๊ณ ์ ๋ฐ์ค ํ๋ฐ์ ํ๋ฐ ์ปจํ
์คํธ๋ก ์์ ํ๋ ๋ถํฉ๋ฆฌํ ๊ฐ์ ํ์ ํ
์คํฌ๋ฅผ ์ํํ๋ค. ๋ค์๋งํด ๋ฌธ์ฅ์ ๋ฐ์ด๋๋ฆฌ๋ฅผ ํฉ๋ฆฌ์ ์ผ๋ก ์์ฑํด ๋ด๋ ๋ฐฉ๋ฒ์ด ์๋ ๊ฒ์ด๋ค.
๊ทธ๋์ ์ด๋ป๊ฒ ํ๋ฉด ์ฌ๋ฌ ๋ฌธ์ฅ์ ์ปจํ
์คํธ ์ ๋ณด๋ฅผ ๋ชจ๋ ํ์ฉํ ์ ์์๊น ๊ณ ์ฌํ์ฌ ๊ณ ์ํด ๋ธ ๊ฒ์ด ์ฌ๊ท(recurrence) ๊ธฐ๋ฐ์ ๋ฉ์ปค๋์ฆ์ด๋ค. ์ฌ์ค ์ฌ๊ท ๊ธฐ๋ฐ ๋ฉ์ปค๋์ฆ์ ์ด๋ฏธ ํ ํฐ ์์ฑ์์ ์ด์ ํ ํฐ์ ์ฐธ์กฐํ๋ ๋ฐฉ์์ผ๋ก ํ์ฉํ๊ณ ์์๋ ๊ฒ์ผ๋ก ๊ทธ๋ ๊ฒ ์ฐธ์ ํ ๊ฐ๋
์ ์๋๋ค. ํ์ง๋ง ์ด ๋ฐ์์ ์กฐ๊ธ ๋ ํ๋ํด์ ์ด์ ์ ์
๋ ฅ๋ ๋ฌธ์ฅ, ์ฆ ์ด์ ์ ์
๋ ฅ๋ ์ธ๊ทธ๋จผํธ์ ์ปจํ
์คํธ ์ ๋ณด๋ ์ฐธ์กฐํ๋ ์์ผ๋ก ๊ฐ๋
์ ํ์ฅํ ๊ฒ์ด๋ค.
์์ธ ๋ด์ฉ์ ๋ ์ ์ ๋ฆฌ๋ ๋ธ๋ก๊ทธ์ ๊ธฐ์ฌ๋ฅผ ์ฐธ์กฐํ๋ผ
๋ง์คํฌ ๋ชจ๋ธ์ pre-train๋จ๊ณ๋ฅผ ์ฅ์
ํ๋ค.
ํ์ง๋ง ๋ง์คํฌ๋ ํ ํฐ์ pre-train๋จ๊ณ์๋ ์์ง๋ง fine-tune๋จ๊ณ์๋ ์๋ค. ๋ฐ๋ผ์ pre-train๊ณผ fine-tune ์ฌ์ด์๋ ๋ถ์ผ์น๊ฐ ์กด์ฌํ๋ค. ์ด ๋ถ์ผ์น ๋๋ฌธ์ pre-train์์ ํ์ตํ ๋ชจ๋ ์ ๋ณด๋ฅผ ์ฌ์ฉํ ์ ์๋ ๊ฒ์ ์๋๋ค.
์ด๋ฌํ ๋ฌธ์ ์ ๋๋ฌธ์ XLNet์ ๊ธฐ์กด์ ๋ง์คํฌ ๋ชจ๋ธ์ ๊ฐ๋ํ์ฌ pre-train๋จ๊ณ์์ ํ์ตํ ๋ชจ๋ ์ ๋ณด๋ฅผ ์ฌ์ฉํ ์ ์๋๋ก ์๋ํ์๋ค. XLNet์ ๋ง์คํฌ ๋ชจ๋ธ์ permuted ์ธ์ด ๋ชจ๋ธ (Permuted Language Modeling, PLM)๋ก ๋์ฒดํ๋ค. ์ด๋ ์
๋ ฅ ํ ํฐ๋ค์ ๋๋คํ๊ฒ ์ฌ๋ฐฐ์ดํ์ฌ ์
๋ ฅ์ผ๋ก ์ง์ด๋ฃ๋ ๋ฐฉ์์ด๋ค. ์ด๋ ๊ฒ ํ๋ฉด ํ ํฐ์ ์์น๊ฐ ๋ชจ๋ ํฌ์ง์
์ ๋ฌธ๋งฅ์ ์ ๋ณด๋ฅผ ์ด์ฉํ ์ ์๊ฒ ๋๋๋ฐ ๊ทธ ๊ฒฐ๊ณผ ๊ฐ ํ ํฐ๋ณ๋ก ์๋ฐฉํฅ ์ปจํ
์คํธ์ ์ ๋ณด๋ฅผ ๋ชจ๋ ์บก์ณํ ์ ์๊ฒ ๋๋ค
XLNet์ ์ผ๋ฐํ๋ AR๋ชจ๋ธ์ด์ง๋ง AR๊ณผ AE์ ์ฅ์ ์ด ๊ฒฐํฉ๋ ์ผ์ข
์ ํ๋ ์์ํฌ์ด๋ค. XLNet์ด ์ด ๋๊ฐ์ง ๋ฉ์ปค๋์ฆ์ ๊ฒฐํฉํ ์ด์ ๋ AR๊ณผ AE์ ๋ชจ๋ ์ฅ์ ์ ํ์ฉํ๊ธฐ ์ํด์์ด๋ค. AE๋ชจ๋ธ ์์๋ 2์คํธ๋ฆผ ๊ธฐ๋ฐ์ ์ดํ
์
๋ฉ์ปค๋์ฆ์ ๋์
ํ์๊ณ AR๋ชจ๋ธ ์์๋ Transformer-XL ๋ชจ๋ธ์ ์ธ๊ทธ๋จผํธ ๋ ๋ฒจ ์ฌ๊ท ๋ฉ์ปค๋์ฆ(segment-level recurrence mechanism)์ ๋์
ํ์๋ค
์ด๋ ๊ฒ ๋๊ฐ์ง ํํธ๋ก ๊ตฌ์ฑ๋ XLNet์ ์ผ๋ฐํ๋ AR๋ชจ๋ธ์ด๋ฏ๋ก ๋ค์ํ ์๋จ์ ์ด์ฉํ ์ ์๋ค.\
T5, BART, PEGASUS ๋ฑ์ ๋ํ์ ์ธ seq2seq ๋ชจ๋ธ์ด๋ค
์ด๋ฒ ์ฅ์ ๊ฐ์ฅ ๋ํ์ ์ธ seq2seq ๋ชจ๋ธ์ธ T5์ BART์ ๊ฐ๋
์ ์๊ฐํ๊ณ ์ค์ต์ ์ํํ๋ค
T5๋ ์ธ์ฝ๋์ ๋์ฝ๋๋ฅผ ๊ฒฐํฉํ unifying framework์ด๋ค. ์
๋ ฅ๊ฐ์ prefix๋ฅผ ์ง์ด๋ฃ์ด ์๋๋ฅผ ๋ํ๋ธ๋ค.
prefix์ ์๋ก๋ โ์์ฝโ, โ์์ด๋ก ๋ฒ์ญโ ๊ฐ์ ๊ฒ๋ค์ด ์๋ค.
T5๋ชจ๋ธ์ ์ค์ต์ 4.4์ ์ ๋ฌธ์ฅ ์์ฑํ๊ธฐ์์ ์งํํ๋ค
BART์ญ์ AR๊ณผ AE๋ชจ๋ธ์ ๋๋ค ์ด์ฉํ๋ ํ๋ ์์ํฌ์ ์ผ์ข
์ด๋ค. ํ์ด์ค๋ถ์์ ๊ฐ๋ฐํ๋ค
์ด๋ฒ ์ฅ์ ์๋์ ๊ฐ์ ๋ด์ฉ์ ๋ค๋ฃฌ๋ค
- BART์ ๊ฐ๋
- BART์ ๊ฐ๋จํ ์ค์ต. ํ๊น ํ์ด์ค ๋ฆฌํฌ์งํ ๋ฆฌ์์ ์ด๋ฏธ ํ์ต๋ BART ๋ชจ๋ธ์ธ summarization์ ๋ถ๋ฌ์ ์์ด ๋ฌธ์ฅ์ ์ ๋ ฅํ์ ๋ ์์ฝ์ด ์ ๋๋ก ์ํ๋๋์ง ์ค์ตํด๋ณธ๋ค
GPT-2 ๋ชจ๋ธ์ pre-trainํ๋ ๊ณผ์ ์ ์ค์ตํ๋ค
์ด๋ฒ ์ฅ์ pre-train๋ GPT-2๋ชจ๋ธ์ ์ด์ฉํ์ฌ ๋ฌธ์ฅ์ ์์ฑํด๋ณธ๋ค
4.5 [์ค์ต] simpletransformers ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ก ๋ฒ์ญํ๊ธฐ (Summarization and MT fine-tuning using simpletransformers)
์ด๋ฒ ์ฅ์ Simple Transformers๋ผ๋ ์ด๋ฆ์ T5 ๊ตฌํ์ฒด๋ฅผ ์ด์ฉํ์ฌ ์ธ์ด๊ฐ ๋ฒ์ญ์ ์ค์ตํ๋ค ํ์ต๋ T5๋ชจ๋ธ์ ์์ด ๋ฌธ์ฅ์ ์ง์ด๋ฃ์ผ๋ฉด ํฐํค์ด๋ก ๋ฒ์ญ์ด ์ ๋๋ก ์ด๋ฃจ์ด์ง๋์ง ํ์ธํ๋ค
์ด๋ฒ์ฅ์ ๋ค์์ ๋ค๋ฃฌ๋ค
- BERT๋ก ์ด์ง๋ถ๋ฅ fine-tuneํ๊ธฐ
- ๋ถ๋ฅ๋ชจ๋ธ์ ํ์ตํ๊ธฐ
- BERT๋ก ๋ค์ค๋ถ๋ฅํ๊ธฐ
- BERT๋ก ๋ฌธ์ฅ-์์ regressionํ๊ธฐ
text representation์ ๋น์ง๋ ํ์ต์์ ์ค์ํ๋ค. ์ด ์์ ์ Representing sentences๋ผ๊ณ ํ๋ค. ์ด ์์ ์ ํน์ํ ์์ฝ๋๋ก ์ํํ๋ค. ์๋ฅผ๋ค์ด Siamese BERT๋ฑ์ด๋ค. text representation์ผ๋ก ์ ๋ก์ท ๋ฌ๋๋ ๊ฐ๋ฅํ๋ค. few-shot ๋ฌ๋๋ ๊ฐ๋ฅํ๋ค. one-shot ๋ฌ๋๋ ๊ฐ๋ฅํ๋ค.
BERT๋ ํจ์จ์ ์ธ ์๋ฒ ๋ฉ์ ํ ์์๋ค. ํญ์ fine-tune์ ์๊ตฌํ๋ค. ์๋ํ๋ฉด pre-trained BERT๋ ๋ถ๋ฆฌ๋ถ๊ฐ๋ฅํ ์ ์ฒด์ด๊ณ ์๋ฉํฑ์ ๋ชจ๋ ๋ฅ๋ฌ๋ ๋ ์ด์ด์ ๊ฑธ์ณ์๊ธฐ ๋๋ฌธ์ด๋ค. ๊ทธ๋ฆฌ๊ณ ๋น์ง๋ํ์ต์ด ์ด๋ ต๋ค. ์๋ํ๋ฉด ๋ง์ ๋ฌธ์ฅ ์์ ํ๊ฐํด์ผ ํ๊ธฐ ๋๋ฌธ์ด๋ค. ๊ฒฝ์ฐ์ ์๊ฐ ๋๋ฌด๋ง์ ์ค์ง์ ์ผ๋ก๋ ์ฐ์ฐ์ด ๋ถ๊ฐ๋ฅํ๋ค.
BERT์ ๋ณํ์ธ Sentence BERT๋ ์๋ฏธ๋ก ์ ์ผ๋ก ์ ์๋ฏธํ๊ณ ๋
๋ฆฝ์ ์ธ ๋ฌธ์ฅ ์๋ฒ ๋ฉ์ด๋ค (์ดํด๋ถ๊ฐ).
๋ฒกํฐ๊ณต๊ฐ์์ ๋ฌธ์ฅ๊ฐ์ ์ ์๋ฏธ์ฑ์ ํ๊ฐํ ๋๋ ์ฝ์ฌ์ธ ํจ์๋ฅผ ์ฐ๊ณ ๋ถ์ผ์น์ฑ์ ํ๊ฐํ ๋๋ ์ ํด๋ฆฌ๋์ ๊ฑฐ๋ฆฌ๋ฅผ ์ด๋ค.
text representation์ด๋ sentence embeddings์ด๋ค.
distillation(์ฆ๋ฅ), pruning(๊ฐ์ง์น๊ธฐ), quantization(์ ๋ํ)๋ฅผ ์ด์ฉํ๋ฉด ํจ์จ์ ์ธ ๋ชจ๋ธ์ ๋ง๋ค์ ์๋ค
sparse transformers์ ๋ํด ๋ฐฐ์ธ๊ฒ์ด๋ค.
sparse transformers์ ์๋ก๋ BigBird๊ฐ ์๋ค.
๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ ์ค์ด๋ ๋ฐฉ๋ฒ์ ๋ฐฐ์๋ณด์.
์ด ์ฅ์ ์ฑ๋ฅ์ด ๋จ์ด์ง๋ ํ๊ฒฝ์์ ํ์ตํ ๋ ์ ์ฉํ ์ ๋ณด๋ฅผ ๋ค๋ฃฌ๋ค
DistilBERT๋ distillation๋ BERT์ด๋ค. ์ฆ๋ฅ๋ ๋ชจ๋ธ์ ๋์ฑ ๊ฐ๋ณ๋ค.
attention dot product์ 4์ฐจ์์ ๋ณต์ก์ฑ ๋ฌธ์ ๋ก ๊ธด ๋ฌธ์ฅ์ ์์
ํ๋๋ฐ ์ค๋ ์๊ฐ์ด ๊ฑธ๋ฆฐ๋ค. BigBird๋ ๋ณต์ก์ฑ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ์ฌ ํ์ต์๊ฐ์ ๋จ์ถํด์ค๋ค
์ด๋ฒ ์ฅ์์ ๋ฐฐ์ธ ๋ด์ฉ
- ๊ฐ๋ณ๊ณ ๋น ๋ฅธ ํธ๋์คํฌ๋จธ
- ๋ชจ๋ธ ํฌ๊ธฐ ์ค์ด๊ธฐ
- ํจ์จ์ ์ธ self-attention (BigBird๊ฐ์ ๋ชจ๋ธ๋ค)
๋ค์์ ๊ธฐ์กด ๋ชจ๋ธ์ ์ด์ข
์ธ์ดํ์ด๋ค
Multilingual Bidirectional Encoder Representations from Transformers (mBERT)
Multilingual Text-to-Text Transfer Transformer (mT5)
Multilingual Bidirectional and Auto-Regressive Transformer (mBART)
๋ฐ๋ฉด Cross-linual Language ๋ชจ๋ธ์ ์ค๊ณ๋จ๊ณ๋ถํฐ ์ด์ข ์ธ์ด๊ฐ ๋ชจ๋ธ์ ์ผ๋ํ๊ณ ์ ์๋์๋ค
Byte-Pair Encoding (BPE)์ด ํ ํฐํ๋ก ์ํ๋๋ค. ๋ง ๊ทธ๋๋ก ์ด์ข ์ธ์ด๊ฐ์ ํ์ด ์ธ์ฝ๋ฉ์ด๋ค.
์ธ์ด๋ชจ๋ธ์ ํฌ๊ฒ 3๊ฐ์ง๋ก ๋๋๋ค
MLM : Masked Language Modeling (๋ง์คํน)
CLM : Causal Language Modeling (์ธ๊ณผ๊ด๊ณ)
CLM์ ๋ฌธ์ฅ์์ฑ๊ธฐ ์ด๋ค.
TLM : Translation Language Modeling (๋ฒ์ญ)
๋ฒ์ญ ๋ชจ๋ธ์ Mask ๋ชจ๋ธ์ ๋ณํํ์ด๋ค.
2๊ฐ์ ๊ฐ๊ฐ ๋ค๋ฅธ๊ตญ๊ฐ ์ธ์ด์ ๋ฌธ์ฅ์ด ์ฃผ์ด์ง๋ค. ๊ฐ ๋ฌธ์ฅ์ ๋๋ค์ผ๋ก ๋จ์ด๊ฐ ๋ง์คํฌ๋์ด ์๋ค. ๋ง์คํฌ ๋ ํ ํฐ์ ์๊ตญ์ด๋ก ์ถ๋ก ํ๋ค. ์ด๊ฒ ์ ๋ถ๋ค.
mBERT๋ ๋ค์ธ์ด ๋ชจ๋ธ์ด๋ค. ์ด๋ ๋ง์คํฌ ๋ชจ๋ธ์ ์ฌ์ฉํ๋ค.
๋ฐ๋ฉด XLM์ MLM, CLM, TLM๋ฑ ๋ค์ํ ๋ชจ๋ธ์ ์ฌ์ฉํ๋ค.
104๊ฐ ๋ค๊ตญ์ ์ธ์ด๋ก ํ์ต๋์๋ค.
๋จ์ : ์ธ์ด๊ฐ 1:1 ๋งตํ์ด ๋ถ๊ฐ๋ฅํ๋ค
์ธ์ด๊ฐ ๋งตํ์ ํ๋ ค๋ฉด ์ง๋ํ์ต์ ์ถ๊ฐ๋ก ํด์ฃผ์ด์ผ ํ๋ค
B-pair-E ํ ํฌ๋์ด์ ๋ฅผ ์ฌ์ฉํ๋ค. ํ ํฐ์ด ๊ณต์ ๋๋ ์ด์ : ๊ณต์ ๋ ํ ํฐ์ ๋ ์ ์์์ ํ ํฐ์ ์ ๊ณตํ๋ค (์ธ์ด๊ฐ ํ ํฐ์ ๊ณต์ ํ๋ ๊ฒฝ์ฐ์๋ ๊ทธ๋ ๋ค.). ๋ฐ๋ฉด ๋์์ด์์ด๋ ์๋ค. ์ด์ข๊ฒ๋ self-attention์ ์ด์ข ์ธ์ด์ ๊ฐ์ ์์ ์ ๋จ์ด์ ๋ป์ ๊ตฌ๋ถํด์ค๋ค.