任何一个评论都可以分为 5 类:与商品质量无关、是水军、情感正向、情感中性、情感负向。于是,我们只需将一个评论分为这 5 类之一,这就是一个文本分类问题。
总流程:
开题时间:2019年12月27日
中期答辩时间:2020年9月12日
结题时间:2020年11月1日
[1] 李嘉明.面向跨境电商的高风险商品识别系统
[2] 李文江.基于深度学习的商品评价数据分析系统: https://www.doc88.com/p-2159917854320.html
[3] Python官方文档.csv文件的读写: https://docs.python.org/3/library/csv.html
[4] 简书.Python csv模块的使用: https://www.jianshu.com/p/d2e3d12bcc4d
[5] jieba分词系统官方文档: https://github.com/fxsjy/jieba
[6] 文本分类性能比较: https://mp.weixin.qq.com/s/_xILvfEMx3URcB-5C8vfTw
[7] Armand Joulin, Edouard Grave, Piotr Bojanowski, Tomas Mikolov. Bag of Tricks for Efficient Text Classification: https://arxiv.org/pdf/1607.01759.pdf
[8] FastText官方文档: https://fasttext.cc/docs/en/unsupervised-tutorial.html
[9] fastText原理和文本分类实战,看这一篇就够了: https://blog.csdn.net/feilong_csdn/article/details/88655927
[10] fastText python官方文档: https://pypi.org/project/fasttext/#text-classification-model
[11] 基于FastText进行文本分类: https://zhuanlan.zhihu.com/p/66739066
[12] 使用python+机器学习方法进行情感分析(详细步骤): http://www.360doc.com/content/16/0725/19/15165994_578332920.shtml
[13] 知乎专栏.炼丹笔记一:样本不平衡问题: https://zhuanlan.zhihu.com/p/56882616
[14] 解决样本不平衡问题的奇技淫巧 汇总: https://blog.csdn.net/songhk0209/article/details/71484469
[15] 知乎回答.欠采样(undersampling)和过采样(oversampling)会对模型带来怎样的影响?: https://www.zhihu.com/question/269698662/answer/352279936
[16] Python 使用 NLTK 实现简单情感分析--Twitter(推特)分析: https://www.cnblogs.com/yidada/p/11868870.html
[17] nltk 数据下载: https://github.com/nltk/nltk_data
[18] NLTK最详细功能介绍: https://www.cnblogs.com/chen8023miss/p/11458571.html