panchunguang / ccks_baidu_entity_link Goto Github PK
View Code? Open in Web Editor NEWccks baidu entity link 实体链接 第一名
ccks baidu entity link 实体链接 第一名
我运行的时候提示版本不对,所以想问一下你的环境版本
感谢分享。我想咨询下如何如何把两个NER模型融合的给拆开,比如我只要bert的NER模型然后接一个ELmodel进行pipeline处理,不采用融合的方式。之前改了一版,没处理太对,想咨询下需要特别处理某些地方吗,能否麻烦给点建议!
您好!请问比赛使用的数据有吗?能否提供一份?谢谢
“视频”
“高清视频”
这种使用最长匹配会获得“高清视频”,但是实际上是“视频”,ppt上说后面会拆开,这是怎么判断是否要拆开呢?
楼主好,我想问下测试集可否有个标准答案,我想测试下准确率
看了README还是不太懂,多谢多谢
@panchunguang
请问实体消歧的训练,大约需要多久
代码中正向最大实体搜索search_entity似乎有点问题,例如:
trie_obj = Trie()
en_lst = ["大话", "大话英雄"] # 假设树就这2个节点
for en in en_lst:
trie_obj.insert(en)
# text = "大话英雄" # 会输出【大话英雄】
# text = "大话" # 会输出【大话】
text = "大话英熊" # 程序不会输出预想的【大话】
match_lst = trie_obj.search_entity(text)
print(match_lst)
当text为"大话英熊"时我想应该要识别出【大话】这个实体,但是程序没有,请问这是一个bug吗,还是作者故意这么设计的呢?
E tensorflow/stream_executor/cuda/cuda_event.cc:48] Error polling for event status: failed to query event: CUDA_ERROR_ILLEGAL_ADDRESS: an illegal memory access was encountered
2021-12-23 17:28:52.097203: F tensorflow/core/common_runtime/gpu/gpu_event_mgr.cc:274] Unexpected Event status: 1
已放弃 (核心已转储)
请问这是cuda的版本不对应么?
您好,训练好的模型和数据能发下么,我这边没有可训练的环境,希望能够使用您训练好的,跑起来试试
您好,请问你们有发表相关的论文吗?想借鉴一下。
你好呀,
看readme.md里面这样说:
传统的实体链接任务主要是针对长文档。长文档拥有充分的上下文 信息,能够辅助实体的识别与消歧。相比之下,中文短文本的实体链接存 在很大的挑战。实体链接整个过程包括实体识别和实体消歧两个子任务。 针...
请问针对长文本做实体连接使用的是什么传统方法呀,能不能讲一下方法是什么名字,或者什么思路,或者甩个链接来看?
我发现无论是BERT-ENE模型获取到的内容必定匹配到已有entity,而BERT-CRF序列标注模型即使获取到一个可能的实体之后,也会在ER_result.py进行融合的时候,因为没有对应的entity而直接被忽略,最后传入到实体链接的模型必定是已有entity的标准文本,这样做是否合理?
我举个例子,经过BERT-CRF模型之后,“什么是社保?”,取到"社保"这个实体。“什么是社保卡?”,取到“社保卡”这个实体。“什么是社保局?”,取到“社保局”这个实体。但是却都因为不在entity字典中而被舍去了,ER_result.py执行之后三句话的mention结果都是空,实际三者完全可以关联到"社会保障"的相关知识(实体)的。
做实体链接单纯考虑相同文本,或者全部别名都罗列的情况可能么,如果模型只是为了解决同文本内容不同含义的话,而不包含同义词等相关内容的话,实际应用上应该不是那么准确吧?
请问这个模型跑通大概需要多大的显存
您好!请问一下各个运行脚本程序对应的功能能够说明一下吗?表示十分感谢!!(即能否对run.sh脚本里要运行的python程序的功能做简要说明)
前辈好:
原本是因为利用预训练好的bert模型做一下输入文本的向量化表示,在训练实体链接的模型过程中,单个epoch就达到了将近30个小时,请问是因为在重新训练加载的Bert吗?
求解!谢谢!
你好,我在本地环境都配好了,但是跑不起来,data/entity_id.pkl、data/id_entity.pkl等文件都没有,请问如何得到呢
为什么不考虑使用jieba自定义分词呢?
请问是否可以提供一下kb_data.txt或者去哪可以找到这个文件, 谢谢!!
您好,您论文中不同的bert的参数是共享的吗?还是不同的bert有不同的参数
我有两点疑问
1、这个NER和EL系统实际是一个pipeline的系统,不知道你们有没有试过joint model,按照道理,EL应该能在一定程度上辅助NER,虽然最后预测的时候还是一个pipeline。
2、EL那块,负样本应该是同名实体里面取两个作为负样本?实际上,通过更大范围的模糊匹配得到更多的负样本,会不会对效果有提高。
刚刚接触这一块,希望作者多多指教一下
A declarative, efficient, and flexible JavaScript library for building user interfaces.
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
An Open Source Machine Learning Framework for Everyone
The Web framework for perfectionists with deadlines.
A PHP framework for web artisans
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
Some thing interesting about web. New door for the world.
A server is a program made to process requests and deliver data to clients.
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Some thing interesting about visualization, use data art
Some thing interesting about game, make everyone happy.
We are working to build community through open source technology. NB: members must have two-factor auth.
Open source projects and samples from Microsoft.
Google ❤️ Open Source for everyone.
Alibaba Open Source for everyone
Data-Driven Documents codes.
China tencent open source team.