数据集来源于自然语言处理领域顶会ACL、NAACL、EMNLP,收集了近三年的主会场论文的标题及摘要(数据以论文标题命名,摘要为文件内容),约5300篇。 所做的工作为:
- 利用gensim的word2vec对文本数据进行词的向量化;
- 使用TSNE对词向量进行降维并可视化;
- 统计词频,绘制词云图。
注:还可做主题词提取,优化任务效果。
更多任务细节见Word2vec词向量、可视化实战学习
数据集获取(当然也可自己爬取) 链接:https://pan.baidu.com/s/1gHrhJkb6Hb_mJ8N0Tip5Dg?pwd=60wf 提取码:60wf