awesome-nlp-chinese-corpus
A curated list of resources of chinese corpora for NLP(Natural Language Processing)
中文自然语言处理语料 收集列表
出处 |
语料大小 |
年代 |
upenn.edu |
各种 |
各种 |
出处 |
语料大小 |
年代 |
conll.org |
各种 |
各种 |
出处 |
语料大小 |
年代 |
ics.uci.edu |
221k |
2015 |
出处 |
语料大小 |
年代 |
opendata.pku.edu.cn |
各种 |
各种 |
出处 |
语料大小 |
年代 |
清华大学自然语言处理实验室 |
740k |
2005-2011 |
出处 |
语料大小 |
年代 |
NLPCC 2017 |
200k |
2017 |
出处 |
语料大小 |
年代 |
SMP2017ECDT |
极少 |
2017 |
出处 |
语料大小 |
年代 |
sogou.com |
免费小样本 |
2012 |
出处 |
语料大小 |
年代 |
bosonnlp.com |
中小 |
2014-2015 |
出处 |
语料大小 |
年代 |
openkg.cn |
各种 |
各种 |
出处 |
语料大小 |
年代 |
biendata.com |
各种 |
各种 |
出处 |
语料大小 |
年代 |
nlpir.org |
~2万 |
2011 |
出处 |
语料大小 |
年代 |
baidu |
950k |
2017 |
出处 |
语料大小 |
年代 |
jhu.edu |
19k |
2015 |
出处 |
语料大小 |
年代 |
52nlp.cn |
39k |
2010 |
出处 |
语料大小 |
年代 |
github.com/crownpku |
各种 |
各种 |
出处 |
语料大小 |
年代 |
github.com/crownpku |
小 |
各种 |
出处 |
语料大小 |
年代 |
github.com/nonamestreet |
3G |
未知 |
出处 |
语料大小 |
年代 |
blog.just4fun.site |
各种 |
各种 |
出处 |
语料大小 |
年代 |
github.com/Samurais |
小 |
2016 |
出处 |
语料大小 |
年代 |
github.com/Samurais |
小 |
未知 |
出处 |
语料大小 |
年代 |
erhengzhong |
未知 |
2010-2012 |
模型 |
语料大小 |
嵌入大小 |
word2vec |
50101 |
300 |
op |
语料大小 |
嵌入大小 |
各种 |
各种 |
各种 |
10000 |
9630 |
300 |
200000 |
146365 |
300 |