๊ณต๊ฐ๋ ํ๊ตญ์ด BERT๋ ๋๋ถ๋ถ ํ๊ตญ์ด ์ํค, ๋ด์ค ๊ธฐ์ฌ, ์ฑ ๋ฑ ์ ์ ์ ๋ ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ์ตํ ๋ชจ๋ธ์ ๋๋ค. ํํธ, ์ค์ ๋ก NSMC์ ๊ฐ์ ๋๊ธํ ๋ฐ์ดํฐ์ ์ ์ ์ ๋์ง ์์๊ณ ๊ตฌ์ด์ฒด ํน์ง์ ์ ์กฐ์ด๊ฐ ๋ง์ผ๋ฉฐ, ์คํ์ ๋ฑ ๊ณต์์ ์ธ ๊ธ์ฐ๊ธฐ์์ ๋ํ๋์ง ์๋ ํํ๋ค์ด ๋น๋ฒํ๊ฒ ๋ฑ์ฅํฉ๋๋ค.
KcBERT๋ ์์ ๊ฐ์ ํน์ฑ์ ๋ฐ์ดํฐ์ ์ ์ ์ฉํ๊ธฐ ์ํด, ๋ค์ด๋ฒ ๋ด์ค์์ ๋๊ธ๊ณผ ๋๋๊ธ์ ์์งํด, ํ ํฌ๋์ด์ ์ BERT๋ชจ๋ธ์ ์ฒ์๋ถํฐ ํ์ตํ Pretrained BERT ๋ชจ๋ธ์ ๋๋ค.
KcBERT๋ Huggingface์ Transformers ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ํตํด ๊ฐํธํ ๋ถ๋ฌ์ ์ฌ์ฉํ ์ ์์ต๋๋ค. (๋ณ๋์ ํ์ผ ๋ค์ด๋ก๋๊ฐ ํ์ํ์ง ์์ต๋๋ค.)
-
pytorch ~= 1.5.1
-
transformers ~= 3.0.1
-
emoji ~= 0.6.0
-
soynlp ~= 0.0.493
from transformers import AutoTokenizer, AutoModelWithLMHead
# Base Model (108M)
tokenizer = AutoTokenizer.from_pretrained("beomi/kcbert-base")
model = AutoModelWithLMHead.from_pretrained("beomi/kcbert-base")
# Large Model (334M)
tokenizer = AutoTokenizer.from_pretrained("beomi/kcbert-large")
model = AutoModelWithLMHead.from_pretrained("beomi/kcbert-large")
ํ์ต ๋ฐ์ดํฐ๋ 2019.01.01 ~ 2020.06.15 ์ฌ์ด์ ์์ฑ๋ ๋๊ธ ๋ง์ ๋ด์ค ๊ธฐ์ฌ๋ค์ ๋๊ธ๊ณผ ๋๋๊ธ์ ๋ชจ๋ ์์งํ ๋ฐ์ดํฐ์ ๋๋ค.
๋ฐ์ดํฐ ์ฌ์ด์ฆ๋ ํ ์คํธ๋ง ์ถ์ถ์ ์ฝ 15.4GB์ด๋ฉฐ, 1์ต1์ฒ๋ง๊ฐ ์ด์์ ๋ฌธ์ฅ์ผ๋ก ์ด๋ค์ ธ ์์ต๋๋ค.
PLM ํ์ต์ ์ํด์ ์ ์ฒ๋ฆฌ๋ฅผ ์งํํ ๊ณผ์ ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
-
ํ๊ธ ๋ฐ ์์ด, ํน์๋ฌธ์, ๊ทธ๋ฆฌ๊ณ ์ด๋ชจ์ง(๐ฅณ)๊น์ง!
์ ๊ทํํ์์ ํตํด ํ๊ธ, ์์ด, ํน์๋ฌธ์๋ฅผ ํฌํจํด Emoji๊น์ง ํ์ต ๋์์ ํฌํจํ์ต๋๋ค.
ํํธ, ํ๊ธ ๋ฒ์๋ฅผ
ใฑ-ใ ๊ฐ-ํฃ
์ผ๋ก ์ง์ ํดใฑ-ํฃ
๋ด์ ํ์๋ฅผ ์ ์ธํ์ต๋๋ค. -
๋๊ธ ๋ด ์ค๋ณต ๋ฌธ์์ด ์ถ์ฝ
ใ ใ ใ ใ ใ
์ ๊ฐ์ด ์ค๋ณต๋ ๊ธ์๋ฅผใ ใ
์ ๊ฐ์ ๊ฒ์ผ๋ก ํฉ์ณค์ต๋๋ค. -
Cased Model
KcBERT๋ ์๋ฌธ์ ๋ํด์๋ ๋์๋ฌธ์๋ฅผ ์ ์งํ๋ Cased model์ ๋๋ค.
-
๊ธ์ ๋จ์ 10๊ธ์ ์ดํ ์ ๊ฑฐ
10๊ธ์ ๋ฏธ๋ง์ ํ ์คํธ๋ ๋จ์ผ ๋จ์ด๋ก ์ด๋ค์ง ๊ฒฝ์ฐ๊ฐ ๋ง์ ํด๋น ๋ถ๋ถ์ ์ ์ธํ์ต๋๋ค.
-
์ค๋ณต ์ ๊ฑฐ
์ค๋ณต์ ์ผ๋ก ์ฐ์ธ ๋๊ธ์ ์ ๊ฑฐํ๊ธฐ ์ํด ์ค๋ณต ๋๊ธ์ ํ๋๋ก ํฉ์ณค์ต๋๋ค.
์ด๋ฅผ ํตํด ๋ง๋ ์ต์ข ํ์ต ๋ฐ์ดํฐ๋ 12.5GB, 8.9์ฒ๋ง๊ฐ ๋ฌธ์ฅ์ ๋๋ค.
์๋ ๋ช
๋ น์ด๋ก pip๋ก ์ค์นํ ๋ค, ์๋ cleanํจ์๋ก ํด๋ฆฌ๋์ ํ๋ฉด Downstream task์์ ๋ณด๋ค ์ฑ๋ฅ์ด ์ข์์ง๋๋ค. ([UNK]
๊ฐ์)
pip install soynlp emoji
์๋ clean
ํจ์๋ฅผ Text data์ ์ฌ์ฉํด์ฃผ์ธ์.
import re
import emoji
from soynlp.normalizer import repeat_normalize
emojis = ''.join(emoji.UNICODE_EMOJI.keys())
pattern = re.compile(f'[^ .,?!/@$%~๏ผ
ยทโผ()\x00-\x7Fใฑ-ํฃ{emojis}]+')
url_pattern = re.compile(
r'https?:\/\/(www\.)?[-a-zA-Z0-9@:%._\+~#=]{1,256}\.[a-zA-Z0-9()]{1,6}\b([-a-zA-Z0-9()@:%_\+.~#?&//=]*)')
def clean(x):
x = pattern.sub(' ', x)
x = url_pattern.sub('', x)
x = x.strip()
x = repeat_normalize(x, num_repeats=2)
return x
Tokenizer๋ Huggingface์ Tokenizers ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ํตํด ํ์ต์ ์งํํ์ต๋๋ค.
๊ทธ ์ค BertWordPieceTokenizer
๋ฅผ ์ด์ฉํด ํ์ต์ ์งํํ๊ณ , Vocab Size๋ 30000
์ผ๋ก ์งํํ์ต๋๋ค.
Tokenizer๋ฅผ ํ์ตํ๋ ๊ฒ์๋ 1/10
๋ก ์ํ๋งํ ๋ฐ์ดํฐ๋ก ํ์ต์ ์งํํ๊ณ , ๋ณด๋ค ๊ณจ๊ณ ๋ฃจ ์ํ๋งํ๊ธฐ ์ํด ์ผ์๋ณ๋ก stratify๋ฅผ ์ง์ ํ ๋ค ํ์ต์ ์งํํ์ต๋๋ค.
- KcBERT Base config
{
"max_position_embeddings": 300,
"hidden_dropout_prob": 0.1,
"pooler_size_per_head": 128,
"hidden_act": "gelu",
"initializer_range": 0.02,
"num_hidden_layers": 12,
"pooler_num_attention_heads": 12,
"type_vocab_size": 2,
"vocab_size": 30000,
"hidden_size": 768,
"attention_probs_dropout_prob": 0.1,
"directionality": "bidi",
"num_attention_heads": 12,
"pooler_fc_size": 768,
"pooler_type": "first_token_transform",
"pooler_num_fc_layers": 3,
"intermediate_size": 3072,
"architectures": [
"BertForMaskedLM"
],
"model_type": "bert"
}
- KcBERT Large config
{
"type_vocab_size": 2,
"initializer_range": 0.02,
"max_position_embeddings": 300,
"vocab_size": 30000,
"hidden_size": 1024,
"hidden_dropout_prob": 0.1,
"model_type": "bert",
"directionality": "bidi",
"pooler_num_attention_heads": 12,
"pooler_fc_size": 768,
"pad_token_id": 0,
"pooler_type": "first_token_transform",
"layer_norm_eps": 1e-12,
"hidden_act": "gelu",
"num_hidden_layers": 24,
"pooler_num_fc_layers": 3,
"num_attention_heads": 16,
"pooler_size_per_head": 128,
"attention_probs_dropout_prob": 0.1,
"intermediate_size": 4096,
"architectures": [
"BertForMaskedLM"
]
}
BERT Model Config๋ Base, Large ๊ธฐ๋ณธ ์ธํ ๊ฐ์ ๊ทธ๋๋ก ์ฌ์ฉํ์ต๋๋ค. (MLM 15% ๋ฑ)
TPU v3-8
์ ์ด์ฉํด ๊ฐ๊ฐ 3์ผ, N์ผ(Large๋ ํ์ต ์งํ ์ค)์ ์งํํ๊ณ , ํ์ฌ Huggingface์ ๊ณต๊ฐ๋ ๋ชจ๋ธ์ 1m(100๋ง) step์ ํ์ตํ ckpt๊ฐ ์
๋ก๋ ๋์ด์์ต๋๋ค.
๋ชจ๋ธ ํ์ต Loss๋ Step์ ๋ฐ๋ผ ์ด๊ธฐ 200k์ ๊ฐ์ฅ ๋น ๋ฅด๊ฒ Loss๊ฐ ์ค์ด๋ค๋ค 400k์ดํ๋ก๋ ์กฐ๊ธ์ฉ ๊ฐ์ํ๋ ๊ฒ์ ๋ณผ ์ ์์ต๋๋ค.
- Base Model Loss
- Large Model Loss
ํ์ต์ GCP์ TPU v3-8์ ์ด์ฉํด ํ์ต์ ์งํํ๊ณ , ํ์ต ์๊ฐ์ Base Model ๊ธฐ์ค 2.5์ผ์ ๋ ์งํํ์ต๋๋ค. Large Model์ ์ฝ 5์ผ์ ๋ ์งํํ ๋ค ๊ฐ์ฅ ๋ฎ์ loss๋ฅผ ๊ฐ์ง ์ฒดํฌํฌ์ธํธ๋ก ์ ํ์ต๋๋ค.
HuggingFace kcbert-base ๋ชจ๋ธ ์์ ์๋์ ๊ฐ์ด ํ ์คํธ ํด ๋ณผ ์ ์์ต๋๋ค.
๋ฌผ๋ก kcbert-large ๋ชจ๋ธ ์์๋ ํ ์คํธ ํ ์ ์์ต๋๋ค.
๋ค์ด๋ฒ ์ํํ ์ฝํผ์ค ๋ฐ์ดํฐ์ ์ ๋์์ผ๋ก Fine Tuning์ ์งํํด ์ฑ๋ฅ์ ๊ฐ๋จํ ํ ์คํธํด๋ณด์์ต๋๋ค.
- Base Model์ Fine Tuneํ๋ ์ฝ๋๋ ์ด Colab ๋งํฌ์์ ์ง์ ์คํํด๋ณด์ค ์ ์์ต๋๋ค.
- Large Model์ Fine Tuneํ๋ ์ฝ๋๋ GPU๋ฒ์ Colab ๋งํฌ ์ TPU๋ฒ์ Colab ๋งํฌ(๊ณต๊ฐ์์ , ์์ ์ค)์์ ์ง์ ์คํํด๋ณผ ์ ์์ต๋๋ค.
- GPU๋ P100 x1๋ ๊ธฐ์ค 1epoch์ 2-3์๊ฐ, TPU๋ 1epoch์ 1์๊ฐ ๋ด๋ก ์์๋ฉ๋๋ค.
- GPU RTX Titan x4๋ ๊ธฐ์ค 30๋ถ/epoch ์์๋ฉ๋๋ค.
- Large Model ์์ ์ฝ๋๋ pytorch-lightning์ผ๋ก ๊ฐ๋ฐํ์ต๋๋ค.
๋ ๋ค์ํ Downstream Task์ ๋ํด ํ ์คํธ๋ฅผ ์งํํ๊ณ ๊ณต๊ฐํ ์์ ์ ๋๋ค.
KcBERT Model์ ํ์ตํ๋ GCP/TPU ํ๊ฒฝ์ TFRC ํ๋ก๊ทธ๋จ์ ์ง์์ ๋ฐ์์ต๋๋ค.
๋ชจ๋ธ ํ์ต ๊ณผ์ ์์ ๋ง์ ์กฐ์ธ์ ์ฃผ์ Monologg ๋ ๊ฐ์ฌํฉ๋๋ค :)