Giter Club home page Giter Club logo

ccks_baidu_entity_link's People

Contributors

panchunguang avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

ccks_baidu_entity_link's Issues

比赛数据

您好!请问比赛使用的数据有吗?能否提供一份?谢谢

ppt中的一个疑问?

“视频”
“高清视频”
这种使用最长匹配会获得“高清视频”,但是实际上是“视频”,ppt上说后面会拆开,这是怎么判断是否要拆开呢?

关于字典树的正向最大实体搜索

代码中正向最大实体搜索search_entity似乎有点问题,例如:

trie_obj = Trie()
en_lst = ["大话", "大话英雄"] # 假设树就这2个节点

for en in en_lst:
    trie_obj.insert(en)

# text = "大话英雄"  # 会输出【大话英雄】
# text = "大话" # 会输出【大话】
text = "大话英熊" # 程序不会输出预想的【大话】

match_lst = trie_obj.search_entity(text)
print(match_lst)

当text为"大话英熊"时我想应该要识别出【大话】这个实体,但是程序没有,请问这是一个bug吗,还是作者故意这么设计的呢?

训练问题

E tensorflow/stream_executor/cuda/cuda_event.cc:48] Error polling for event status: failed to query event: CUDA_ERROR_ILLEGAL_ADDRESS: an illegal memory access was encountered
2021-12-23 17:28:52.097203: F tensorflow/core/common_runtime/gpu/gpu_event_mgr.cc:274] Unexpected Event status: 1
已放弃 (核心已转储)

请问这是cuda的版本不对应么?

训练好的模型和数据

您好,训练好的模型和数据能发下么,我这边没有可训练的环境,希望能够使用您训练好的,跑起来试试

论文

您好,请问你们有发表相关的论文吗?想借鉴一下。

你好,请问怎么用长文本做实体连接?

你好呀,

看readme.md里面这样说:

传统的实体链接任务主要是针对长文档。长文档拥有充分的上下文 信息,能够辅助实体的识别与消歧。相比之下,中文短文本的实体链接存 在很大的挑战。实体链接整个过程包括实体识别和实体消歧两个子任务。 针...

请问针对长文本做实体连接使用的是什么传统方法呀,能不能讲一下方法是什么名字,或者什么思路,或者甩个链接来看?

实体识别部分获取已有entity是否有问题?

我发现无论是BERT-ENE模型获取到的内容必定匹配到已有entity,而BERT-CRF序列标注模型即使获取到一个可能的实体之后,也会在ER_result.py进行融合的时候,因为没有对应的entity而直接被忽略,最后传入到实体链接的模型必定是已有entity的标准文本,这样做是否合理?
我举个例子,经过BERT-CRF模型之后,“什么是社保?”,取到"社保"这个实体。“什么是社保卡?”,取到“社保卡”这个实体。“什么是社保局?”,取到“社保局”这个实体。但是却都因为不在entity字典中而被舍去了,ER_result.py执行之后三句话的mention结果都是空,实际三者完全可以关联到"社会保障"的相关知识(实体)的。
做实体链接单纯考虑相同文本,或者全部别名都罗列的情况可能么,如果模型只是为了解决同文本内容不同含义的话,而不包含同义词等相关内容的话,实际应用上应该不是那么准确吧?

训练显存

请问这个模型跑通大概需要多大的显存

程序细节

您好!请问一下各个运行脚本程序对应的功能能够说明一下吗?表示十分感谢!!(即能否对run.sh脚本里要运行的python程序的功能做简要说明)

数据集问题

你好,我在本地环境都配好了,但是跑不起来,data/entity_id.pkl、data/id_entity.pkl等文件都没有,请问如何得到呢

字典树?

为什么不考虑使用jieba自定义分词呢?

About kb_data.txt

请问是否可以提供一下kb_data.txt或者去哪可以找到这个文件, 谢谢!!

bert参数共享

您好,您论文中不同的bert的参数是共享的吗?还是不同的bert有不同的参数

有关算法设计细节的疑问

我有两点疑问
1、这个NER和EL系统实际是一个pipeline的系统,不知道你们有没有试过joint model,按照道理,EL应该能在一定程度上辅助NER,虽然最后预测的时候还是一个pipeline。
2、EL那块,负样本应该是同名实体里面取两个作为负样本?实际上,通过更大范围的模糊匹配得到更多的负样本,会不会对效果有提高。
刚刚接触这一块,希望作者多多指教一下

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.