๐ ๋ฉค๋ฒ ๊ตฌ์ฑ ๋ฐ ์ญํ
- ์ ํ์ฑ
- ํ ๋ฆฌ๋, Label Error Detection, G2P Noise
- ๊ณฝ์์ฐ
- ํน์๋ฌธ์ ๋ฐ ํ์ ์ฒ๋ฆฌ, Back Translation
- ๊น๊ฐ์
- Semantic Similarity Analysis
- ๊น์ ์ฐ
- ์์ค์ฃผ
2024.01.24 10:00 ~ 2024.02.01 19:00
- ์์ฐ์ด์์ ๋
ํด ๋ฐ ๋ถ์ ๊ณผ์ ์ ๊ฑฐ์ณ ์ฃผ์ด์ง ํ์คํฌ๋ฅผ ์ํํ๊ธฐ ์ํด์๋ ์์ฐ์ด์ ์ฃผ์ ์ ๋ํ ์ดํด๊ฐ ํ์์ ์ด๋ค. KLUE-Topic Classification benchmark๋ ๋ด์ค์ ํค๋๋ผ์ธ์ ํตํด ๊ทธ ๋ด์ค๊ฐ ์ด๋ค topic์ ๊ฐ๋์ง๋ฅผ ๋ถ๋ฅํด ๋ด๋ task๋ก, ๊ฐ ์์ฐ์ด ๋ฐ์ดํฐ์์ ์ํ๋ฌธํ, ์คํฌ์ธ , ์ธ๊ณ, ์ ์น, ๊ฒฝ์ , IT๊ณผํ, ์ฌํ ๋ฑ ๋ค์ํ ์ฃผ์ ์ค ํ๋๋ก ๋ผ๋ฒจ๋งํ๋ค.
- ๋ณธ ํ๋ก์ ํธ๋ Data-Centric์ ๋ชฉ์ ์ ๋ง๊ฒ ์ฃผ์ด์ง ๋ฐ์ดํฐ์
์ ๋ฐํ์ผ๋ก ๋ฒ ์ด์ค๋ผ์ธ ๋ชจ๋ธ์ ์์ ์์ด ์ค๋ก์ง ๋ฐ์ดํฐ์ ์์ ์ผ๋ก๋ง ์ฑ๋ฅ ํฅ์์ ์ด๋์ด๋ด์ผ ํ๋ค.
- Train Data : 7,000๊ฐ
- Test Data : 47,785๊ฐ
Column |
์ค๋ช
|
ID |
๋ฐ์ดํฐ ์ํ์ ๊ณ ์ ๋ฒํธ |
text |
๋ถ๋ฅ์ ๋์์ด ๋๋ ์ฐํฉ ๋ด์ค ๊ธฐ์ฌ์ ํค๋๋ผ์ธ. ํ๊ตญ์ด ํ
์คํธ์ ์ผ๋ถ ์์ด, ํ์ ๋ฑ์ ๋จ์ด๊ฐ ํฌํจ |
target |
์ ์๋ก ์ธ์ฝ๋ฉ๋ ๋ผ๋ฒจ |
url |
๋ฐ์ดํฐ ์ํ์ ๋ด์ค url (์ถ์ฒ) |
date |
๋ฐ์ดํฐ ์ํ์ ๋ด์ค๊ฐ ์์ฑ๋ ๋ ์ง์ ์๊ฐ |
id |
0 |
1 |
2 |
3 |
4 |
5 |
6 |
์ค๋ช
|
IT๊ณผํ |
๊ฒฝ์ |
์ฌํ |
์ํ๋ฌธํ |
์ธ๊ณ |
์คํฌ์ธ |
์ ์น |
- macro F1 score : ๋ชจ๋ class f1 score์ ํ๊ท
- accuracy
.
|-- README.md
|-- Special_character_check.ipynb
|-- back_translation.ipynb
|-- category_per_cnt.ipynb
|-- category_word_add.ipynb
|-- data
| |-- culture.txt
| |-- economy.txt
| |-- it_science.txt
| |-- politics.txt
| |-- society.txt
| |-- sport.txt
| |-- train_special_characters.csv
| `-- world.txt
|-- error_detection.ipynb
|-- functions.py
|-- g2pk.ipynb
|-- hanja.ipynb
|-- kmeans.ipynb
|-- sentence_similarty.py
|-- special_character.ipynb
`-- wrap-up_report.pdf
|
f1 |
accuracy |
Public |
0.8454 |
0.8484 |
Private |
0.8414 |
0.8443 |