인공지능신문/AI TIMES 의 기사내용을 발견
국립국어원, 인공지능 학습용 한국어 자료 대규모 공개...
'13종 18억 어절' 분량을 25일(화) 국립국어원 홈페이지 ‘모두의 말뭉치’에서 공개했다.
저작권 문제를 해결하여 구축한 것이며 ‘모두의 말뭉치’ 사이트에서 온라인 약정서를 작성, 승인을 받으면 누구나 파일을 내려받아 사용할 수 있다.
Date | Title | Description |
---|---|---|
08_25 | 자료신청 | 국립국어원 모두의 말뭉치 |
08_28 | 자료승인 | 국립국어원 말뭉치 이용 약정서 - 이준원.pdf 참고 |
08_29 | 전처리/EDA-메신저 말뭉치 | 원칙에 따라 기본적인 데이터 비공개 |
08_30 | 전처리/EDA-메신저 말뭉치 | |
09_04 | 전처리/EDA-메신저 말뭉치 | |
ㄴ | 신문 말뭉치.zip 파일 오류 | 스크린샷 2020-09-04 오후 11.18.36 참고 |
09_07 | 전처리/EDA-메신저 말뭉치 | |
09_08 | 전처리/EDA-구어 말뭉치 | |
09_09 | 구어 말뭉치 학습 한계 | SBRW 파일크기가 많아서 df변환 시간을 많이 먹음 |
ㄴ | SARW, SDRW, SERW 데이터 병합, original_form col 삭제 | |
09_10 | 전처리/EDA-신문 말뭉치 | |
ㄴ | json 형태가 다름 |