panchunguang / ccks_baidu_entity_link Goto Github PK

View Code? Open in Web Editor NEW

840.0 840.0 188.0 1.98 MB

ccks baidu entity link 实体链接第一名

Python 99.80% Shell 0.20%

baidu ccks entity link

ccks_baidu_entity_link's People

Contributors

Stargazers

Watchers

Forkers

meibaihui fishguysword panchunxue keenpray shihuaxing zgd716 auscenery a2393439531 webyfdt gaoyiyeah fishredleaf microw allensmile gokasiko yiduo db-li morindaz duanexiao coopertian gokunwu strategist922 linhr000 fendaq cdj0311 jingmouren sunnyhuma171 tiffen ansvver 90217 rli07-cn wibruce zxlzr yscoder-github jeinlee1991 liu-nlper leiloong info-wyf hjfeilg novellll zhangxuemiao pieere xuliang102663 ianliyi1996 zhaizhijiang victortowne dongwandou sleepsophia debuluoyi runningkoala delltower zhangyanbo2007 liuweiping2020 taorui-plus barryzm zsitong beautychesnut tam-lab wengbenjue ooco123 wushicanasl xiluo777 jankim greenetdw zzisme sjiyang zhangjiantong bulebule00 xiaocy1016 yxlljt 460130107 xs55555 lixiafan juary88 hxyshare chaoyue729 zhengqc666 autoave i-zhangjingjun mingkin kingdeewang lilonghua1987 aagq htmlgtmk little-girl-1992 li-ming-fan xujunrt littlerookie yanyushu humdingers greengrass2015 iflybird xxfly peanuth17 haojiepan1 shenzaimin scg75 hillary060 chenshanjxau xumeng123 sunyilgdx

ccks_baidu_entity_link's Issues

可否将标注的实体位置特征和最大前向匹配实体的位置特征做融合后接BILSTM+CRF处理，这样用一个模型会不会效果更好些？

E tensorflow/stream_executor/cuda/cuda_event.cc:48] Error polling for event status: failed to query event: CUDA_ERROR_ILLEGAL_ADDRESS: an illegal memory access was encountered
2021-12-23 17:28:52.097203: F tensorflow/core/common_runtime/gpu/gpu_event_mgr.cc:274] Unexpected Event status: 1
已放弃 (核心已转储)

请问这是cuda的版本不对应么？

训练显存

请问这个模型跑通大概需要多大的显存

bert参数共享

您好，您论文中不同的bert的参数是共享的吗？还是不同的bert有不同的参数

训练好的模型和数据

您好，训练好的模型和数据能发下么，我这边没有可训练的环境，希望能够使用您训练好的，跑起来试试

请问单个模型训练时长这么久是因为利用input重新训练了BERT吗

前辈好：
原本是因为利用预训练好的bert模型做一下输入文本的向量化表示，在训练实体链接的模型过程中，单个epoch就达到了将近30个小时，请问是因为在重新训练加载的Bert吗？
求解！谢谢！

弱问下实体链接是个什么NLP任务？

看了README还是不太懂，多谢多谢
@panchunguang

字典树？

为什么不考虑使用jieba自定义分词呢？

比赛数据

您好！请问比赛使用的数据有吗？能否提供一份？谢谢

请教训练过程中的一些结果

您好，如图所示，训练前几个Batch有metric-f1值，之后变nan，产生这样的结果正常吗？

数据集问题

你好，我在本地环境都配好了，但是跑不起来，data/entity_id.pkl、data/id_entity.pkl等文件都没有，请问如何得到呢

论文

您好，请问你们有发表相关的论文吗？想借鉴一下。

实体消歧训练时间

请问实体消歧的训练,大约需要多久

请问你的keras-bert、tensorflow、keras版本是多少？

我运行的时候提示版本不对，所以想问一下你的环境版本

有关算法设计细节的疑问

我有两点疑问
1、这个NER和EL系统实际是一个pipeline的系统，不知道你们有没有试过joint model，按照道理，EL应该能在一定程度上辅助NER，虽然最后预测的时候还是一个pipeline。
2、EL那块，负样本应该是同名实体里面取两个作为负样本？实际上，通过更大范围的模糊匹配得到更多的负样本，会不会对效果有提高。
刚刚接触这一块，希望作者多多指教一下

About kb_data.txt

请问是否可以提供一下kb_data.txt或者去哪可以找到这个文件，谢谢！！

实体识别部分获取已有entity是否有问题？

我发现无论是BERT-ENE模型获取到的内容必定匹配到已有entity，而BERT-CRF序列标注模型即使获取到一个可能的实体之后，也会在ER_result.py进行融合的时候，因为没有对应的entity而直接被忽略，最后传入到实体链接的模型必定是已有entity的标准文本，这样做是否合理？
我举个例子，经过BERT-CRF模型之后，“什么是社保？”，取到"社保"这个实体。“什么是社保卡？”，取到“社保卡”这个实体。“什么是社保局？”，取到“社保局”这个实体。但是却都因为不在entity字典中而被舍去了，ER_result.py执行之后三句话的mention结果都是空，实际三者完全可以关联到"社会保障"的相关知识（实体）的。
做实体链接单纯考虑相同文本，或者全部别名都罗列的情况可能么，如果模型只是为了解决同文本内容不同含义的话，而不包含同义词等相关内容的话，实际应用上应该不是那么准确吧？

你好，请问怎么用长文本做实体连接?

你好呀，

看readme.md里面这样说:

传统的实体链接任务主要是针对长文档。长文档拥有充分的上下文信息，能够辅助实体的识别与消歧。相比之下，中文短文本的实体链接存在很大的挑战。实体链接整个过程包括实体识别和实体消歧两个子任务。针...

请问针对长文本做实体连接使用的是什么传统方法呀，能不能讲一下方法是什么名字，或者什么思路，或者甩个链接来看?

trie_obj = Trie()
en_lst = ["大话", "大话英雄"] # 假设树就这2个节点

for en in en_lst:
    trie_obj.insert(en)

# text = "大话英雄"  # 会输出【大话英雄】
# text = "大话" # 会输出【大话】
text = "大话英熊" # 程序不会输出预想的【大话】

match_lst = trie_obj.search_entity(text)
print(match_lst)

当text为"大话英熊"时我想应该要识别出【大话】这个实体，但是程序没有，请问这是一个bug吗，还是作者故意这么设计的呢？

ppt中的一个疑问？

“视频”
“高清视频”
这种使用最长匹配会获得“高清视频”，但是实际上是“视频”，ppt上说后面会拆开，这是怎么判断是否要拆开呢？