Giter Club home page Giter Club logo

final_word_similarity's Introduction

词语相似度高级版

综合词林扩展版与Hownet的相似度计算策略和评价指标,来自文献1,代码为本人实现。采用融合计算方式,扩大了词汇覆盖面,也改进了计算结果的合理性。

具体算法选择

  • 词林扩展版
    (1)最初采用了【词林相似度计算:实现了3种算法】 中的2016版代码(文献1),比另2种算法效果更好。
    (2)后来发现作者团队发表了更新、更优的算法——文献2。于是实现了其中算法,经验证论文结果属实。
    (3)再后来发现又有了新的算法——文献3。然后按论文**,原封不动实现效果略逊色于论文数据。但经过调整策略,最终效果优于论文本身。

  • 知网Hownet
    (1)开源的代码大多均参考刘群的论文,但效果与主观感受有差距。目前选用:【知网相似度计算】。本人修改了其中读取词表遗漏的bug,改善了代码的风格,提高了可读性。
    (2)知网计算相似度已有最新论文——文献4,性能有较大提升(在改进Hownet上达到0.84),但算法代码有待实现,希望得到网友贡献。

参考文献

【1】《基于知网与词林的词语语义相似度计算》朱新华,马润聪,孙柳,陈宏朝,2016年7月《中文信息学报》
【2】《基于路径与深度的同义词词林词语相似度计算》陈宏朝, 李飞, 朱新华,马润聪. 2016年9月《中文信息学报》
【3】《基于信息内容的词林词语相似度计算》彭琦, 朱新华, 陈意山,等.2018年2月《计算机应用研究》
【4】《基于多重继承与信息内容的知网词语相似度计算》张波,陈宏朝,朱新华等.2017年10月 《计算机应用研究》

不同语义库上算法对比:

相似度方法 所用语义词典 词汇量 皮尔逊系数
田久乐 赵蔚(2010) 同义词词林 77456 0.53
吕立辉等(2013) 同义词词林 77456 0.74
陈宏朝等(2016-9) 同义词词林 77456 0.856
yaleimeng(2018) 改进的词林 77490 0.917
相似度方法 所用语义词典 词汇量 皮尔逊系数
刘群、李素建(2002) HowNet(知网) 53335 0.699
Seco(2004)+Lin方法 HowNet(知网) 53335 0.738
李峰、李芳(2007) HowNet(知网) 53335 0.793
张波等(2017) 改进HowNet 53335 0.84
相似度方法 所用语义词典 词汇量 皮尔逊系数
yaleimeng(2018) 词林+HowNet 85777 0.885

注:
1 上面的皮尔逊系数均在MC30数据集上测得。
2 本混合方法计算可调节词林与hownet计算结果的权重,表格中成绩可能为最大值(两词均被同时收录)。

如需了解预训练词向量计算的中文词语相关度,可参见:中文近义词工具包Synonyms

原创不易,欢迎打赏、捐赠:

final_word_similarity's People

Contributors

yaleimeng avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

final_word_similarity's Issues

关于反义形容词的相似度计算结果过高的问题

进行了几组形容词的测试
结果如下
两个词都被词林和知网共同收录。
暗淡 明亮 词林改进版相似度: 0.8961421789692562 知网相似度结果为: 0.7999999999999999
漂亮 难看 词林改进版相似度: 0.8861353168289394 知网相似度结果为: 0.7333333333333333
善良 邪恶 词林改进版相似度: 0.9620273470295595 知网相似度结果为: 0.7333333333333333
美丽 丑陋 词林改进版相似度: 1.0 知网相似度结果为: 0.7333333333333333
慷慨 吝啬 词林改进版相似度: 1.0 知网相似度结果为: 0.7333333333333333

以此类推 在形容词的相似度计算上貌似效果差强人意 有什么办法可以优化形容词的计算结果呢

库外词

怎么处理库外词,真的很头痛

知网相似度计算问题

您好,项目首页中知网相似度参考的链接是失效的,请问本项目知网相似度计算使用的是哪篇文献的方法呢?谢谢!

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.