loujie0822 / deepie Goto Github PK

View Code? Open in Web Editor NEW

1.9K 1.9K 358.0 1.51 MB

DeepIE: Deep Learning for Information Extraction

Home Page: https://github.com/loujie0822/DeepIE

Python 100.00%

deepie's People

Contributors

Stargazers

Watchers

Forkers

drjzhou jaykay233 lee-shining nipi64310 zhhhzhang gaohaihui tangyt grangerlue chenjun0210 cingtiye qsong4 lizhaopeng1996 zhouyx26 flyrainkey mishidemudong cuilunan cjopengler generalzh allensmile 634989382 jingmouren zjhao666 nttmac hitalex zyzyzhou askintution ailinbest bossrobin johnskyreal ivan-ji alinsir qingkongzhiqian zhiquan304 xrosliang wzjj98 zp1481616577 caihao20 poccajknjkn liu-nlper gztangde shenyi666666 xiaoanshi zhengchenyang huicao1995 15737939656 zzw55486402 ada520 fendaq longlongman yichao96 husin123 springwings pjy12345611 seeker1943 xiangju2017 atakey fionattu colinsongf xidianwang412 phychaos maikpaixao jin-guangyin xiaolinpeter zhuango sdu-wjh haonanli anigi98932 johnathan-y straylu mhllwmt donote wawali shugrgr qianrenjian fancycheung xinhai-zhu bluesky1018 nolenhuang revontulet123 jiaxinhong miklezhang chowhaoo lockinlucien7 jake-wei l294265421 anthony9624 wut0n9 awyshw qiuyuew fangzheng354 kevinjyp sidney1994 lightcome gdh756462786 zhaizhijiang yxk9810 xwild flysj gujie01 sunurdy

deepie's Issues

能否提供一些模型数据

大佬，你好：
尝试跑了一下elt_span_transformers发现报了一些错误：
2021-01-26 14:49:24,295 - transformers.tokenization_utils - INFO - Model name 'transformer_model_path' not found in model shortcut name list (bert-base-uncased, bert-large-uncased, ber
t-base-cased, bert-large-cased, bert-base-multilingual-uncased, bert-base-multilingual-cased, bert-base-chinese, bert-base-german-cased, bert-large-uncased-whole-word-masking, bert-lar
ge-cased-whole-word-masking, bert-large-uncased-whole-word-masking-finetuned-squad, bert-large-cased-whole-word-masking-finetuned-squad, bert-base-cased-finetuned-mrpc, bert-base-germa
n-dbmdz-cased, bert-base-german-dbmdz-uncased). Assuming 'transformer_model_path' is a path or url to a directory containing tokenizer files.
2021-01-26 14:49:24,295 - transformers.tokenization_utils - INFO - Didn't find file transformer_model_path. We won't load it.
2021-01-26 14:49:24,296 - transformers.tokenization_utils - INFO - Didn't find file transformer_model_path\added_tokens.json. We won't load it.
2021-01-26 14:49:24,296 - transformers.tokenization_utils - INFO - Didn't find file transformer_model_path\special_tokens_map.json. We won't load it.
2021-01-26 14:49:24,296 - transformers.tokenization_utils - INFO - Didn't find file transformer_model_path\tokenizer_config.json. We won't load it.
Traceback (most recent call last):
File "run/relation_extraction/etl_span_transformers/main.py", line 148, in
main()
File "run/relation_extraction/etl_span_transformers/main.py", line 129, in main
tokenizer = BertTokenizer.from_pretrained(args.bert_model, do_lower_case=True)
File "D:\Anaconda3\envs\deepie\lib\site-packages\transformers\tokenization_utils.py", line 283, in from_pretrained
return cls._from_pretrained(*inputs, **kwargs)
File "D:\Anaconda3\envs\deepie\lib\site-packages\transformers\tokenization_utils.py", line 347, in _from_pretrained
list(cls.vocab_files_names.values())))
OSError: Model name 'transformer_model_path' was not found in tokenizers model name list (bert-base-uncased, bert-large-uncased, bert-base-cased, bert-large-cased, bert-base-multilingu
al-uncased, bert-base-multilingual-cased, bert-base-chinese, bert-base-german-cased, bert-large-uncased-whole-word-masking, bert-large-cased-whole-word-masking, bert-large-uncased-whol
e-word-masking-finetuned-squad, bert-large-cased-whole-word-masking-finetuned-squad, bert-base-cased-finetuned-mrpc, bert-base-german-dbmdz-cased, bert-base-german-dbmdz-uncased). We a
ssumed 'transformer_model_path' was a path or url to a directory containing vocabulary files named ['vocab.txt'] but couldn't find such vocabulary files at this path or url.
能否提供一些模型数据呢？多谢

为什么ner中用的crf有好几个版本？

CHIP2020-中文医学文本实体关系抽取

看etl_span_transformers.py说明部分用到的数据集是BaiduIE_2019或BaiduIE_2020。请问可以用CHIP2020-中文医学文本实体关系抽取数据集吗？

数据集上传形式

md文件中shuo的将数据上传到 data/BaiduIE_2020/
百度的duie数据上传直接放三个json的文件就可以了吗

MPN 是什么意思？建议对代码进行注释，对模块文件加上说明，读起来太难受了

etl_span shared encoder之后没用论文里的bilstm结构马？

新闻内容抽取问题

大佬好,《Joint Extraction of Entities and Relations Based on a Novel Decomposition Strategy》bert实现和苏剑林的bert4keras信息抽取在百度2019基本f1都在0.82左右,但是真正抽取新闻的时候,使用句子进行切割,效果很不理想,有什么推荐trick?

请问你的预训练词向量找的是哪个

CHIP2020命名实体识别

大佬，请问一下你用层叠式指针标注处理CHIP2020命名实体识别任务时，一共9类应该会存在标签稀疏问题，能请教一下怎么处理这个问题吗我用LSTM接Linear当做多分类问题处理，但是效果很差识别不出实体。

无法抽取百度2019数据的spo信息

仔细查看了代码里面的数据读取，代码应该是没有匹配2019年的数据格式，不知道是不是我看错了
run/relation_extraction/etl_span_transformers/data_loader_v2.py, line 212
2019数据的spo['object']已经是个字符串了，没有keys()属性了，
for spo_object in spo['object'].keys():
if spo['predicate'] in self.spo_conf:
label = spo['predicate']
else:
label = spo['predicate'] + '_' + spo_object
spo_dict[self.spo_conf[label]] = spo['object'][spo_object]

AttributeError: 'str' object has no attribute 'keys'

File "/home/powerop/work/DeepIE-master/run/relation_extraction/etl_span_transformers/data_loader_v2.py", line 212, in _read
for spo_object in spo['object'].keys():
AttributeError: 'str' object has no attribute 'keys'

CHIP2020

大神，尽快上项目代码，学习学习

您好！实体抽取部门，能提供数据和对应的测试代码嘛？感恩万分

信息抽取数据集

如果能把数据集的链接也放上去的话，感觉万星可期！

FLAT

你好，请问有FLAT这个方法的代码吗？我看了一下，原作者提供了一个空的链接

etl_span train.py 代码问题？

/run/relation_extraction/etl_span/train.py
line 145-147
ans_dict = self.convert_spo_contour(qids, subject_pred, po_pred, eval_file,
answer_dict, use_bert=self.args.use_bert)
return ans_dict
convert_spo_contour 在 285-315行
该函数代码中并没有 return ,这里是用了其他高级语法还是torch的什么特性，这里没有看懂。
谢谢大家了