hit-scir / plm-nlp-code Goto Github PK

View Code? Open in Web Editor NEW

612.0 612.0 192.0 68.84 MB

License: Apache License 2.0

Python 100.00%

plm-nlp-code's People

Contributors

Stargazers

Watchers

Forkers

williamyzd arlancooper yukunren keyuding xmy123 tlntin nicemartin mapstory6788 rousezz zjjhit hungrysharkkk karin0018 youngsmile dataxujing wodole bunnyfighting jeffreylau521 allensmile xiaomin418 anatanick jeffersonchou juniorsummer yuhengshii mt-996 zhangclai duanzhihua zhxnlp gumin2020 niuox ksblk2116 zrhhhhh123 zxz53000 ustcsky bestpredicts zikangli chenken19861025 chopin-ynyxxy zhihao-chen huge-stone xrb92 yanyushu wanglijiehit mubidiy zysilence little1tow pumpkimw infmat wenjie123 juilin m-aterialism haoran-pku nietism wangkuncaixu menggeliu linkerr guojingwei xurui-joei deshan-zhou tangminji sheldoer xiuweigao huang-xx wanghao19951021 vting shark803 flyhero99 kangfengjian suncj qieyd daihuawei yyxx1997 yale1417 techthiyanes liuzmx wsonejoy ariafyy neuztb cualacin0 qiushisun bying516 valleysprings wangjiaqiys dyf-ai sadapple chz367 j-y-jiang xiaosonggege biaoliu2017 xuw0423 yukaiwen0102 marscube shen-jiabin weihanhuang-1196 evanzhu2013 mxd-ops zkybs everitt257 aigeorgeli cnorato ntong2021

plm-nlp-code's Issues

第三章 sent_split函数问题

from ltp import StnSplit
from ltp import LTP

ltp = LTP()

sents2 = StnSplit().batch_split(["南京市长江大桥。", "汤姆生病了。他去了医院。"])
sents2

['南京市长江大桥。', '汤姆生病了。', '他去了医院。']

segment = ltp.pipeline(sents2,tasks=['cws'], return_dict=False)
segment

([['南京市', '长江', '大桥', '。'],
['汤姆', '生病', '了', '。'],
['他', '去', '了', '医院', '。']],)

segment = ltp.pipeline(sents2)
segment['pos']

[['ns', 'ns', 'n', 'wp'], ['nh', 'v', 'u', 'wp'], ['r', 'v', 'u', 'n', 'wp']]

你好，第四章的lstm_sent_polarity.py无法运行

如题，直接运行会报错。
RuntimeError: 'lengths' argument should be a 1D CPU int64 tensor, but got 1D cuda:0 Long tensor

需要把'lengths'放到cpu中去，才可以。

将第40行的
x_pack = pack_padded_sequence(embeddings, lengths, batch_first=True, enforce_sorted=False)
改为
x_pack = pack_padded_sequence(embeddings, lengths.cpu(), batch_first=True, enforce_sorted=False)

同样的，当电脑中同时有CUDA和CPU环境时，transformer_sent_polarity.py文件也会报错
RuntimeError: Expected all tensors to be on the same device, but found at least two devices, cuda:0 and cpu!
第四章文件utils.py 的第25行
mask = torch.arange(max_len).expand(lengths.shape[0], max_len) < lengths.unsqueeze(1)
也应修改为：
mask = torch.arange(max_len).expand(lengths.shape[0], max_len).cuda() < lengths.unsqueeze(1)

第七章 fine-tune代码优化。SSC任务CPU上36小时变2小时

您好，我发现第七章代码中有处地方能够优化一下。 tokenizer函数中，可以去掉padding='max_length'，浪费计算资源。transformer提供的Trainer构造时的data_collator参数默认采用了动态补全的方法，按照batch进行补全，能够节省计算资源。

在我的CPU上跑，时间从36小时变为2小时（没跑完，进度条给的预估时间）

关于第七章的from datasets import load_dataset, load_metric问题

第七章中四个bert代码都有from datasets import load_dataset, load_metric这句导包，想请问老师，是编者自己写的datasets，还是直接自己pip install datasets？

chp7/finetune_bert_ner.py typo?

line 28 seems to be typo.
Shouldn't label_ids.append(label[word_idx]) be label_ids.append(label[previous_word_idx ])?

第二章奇异值函数svd.py有错误

画图横坐标范围代码中为：
plt.xlim(0, 0.6)
实际分解输出没在该范围，同时对应书中所给图，应改为：
plt.xlim(-0.5, 0)

我收集的勘误 updating

4.2.2
一行代码
outputs_pool2 = pool1(outputs2) , pool1 改为pool2
也许git clone 的代码是对的 , 只是印刷错误我没有核实

4.5.1
公式没有完全体现伯努利
“更本质地讲，交叉熵损失函数公式右侧是对多类输出结果的分布（伯努利分布）求极大似然中的对数似然函数（Log-Likelihood）。”

在y_(i)j = 0 的时候应该是 - （1- y_(i)j ） log （1 - y^(i)j ）
作者只写了一半（y=1的部分）上下文结论是对的

4.5.2
原句“ log_probs = F.log_softmax(outputs ,dim=1) #取对数的目的是避免softmax溢出”
其实取对数还有一个目的是因为后面的代码的 nn.NLLLoss 没有log运算（默认 NLLLoss只执行 ‘乘 -1’ 和 ‘相乘’ 的操作）

第二章分词 load_dict 函数分词失败的解释

load_dict 函数
不是 fopen(XXX,'rb') 这样只能分的一个个汉字
应该是 fopen(XXX, 'r' , encoding='UTF-8')

第三章 3.4.3.2 删除t2s.json文件

调用函数一直报错
查看了opencc github后发现 https://github.com/BYVoid/OpenCC
首页的众多示例代码在没有xxx.json 文件的情况下直接可以跑通，文件夹内有json反而出错
请务必删除文件夹内的json配置文件

您好，第六章的train.txt没有提供吗

你好请问该书配套的PPT在哪？

第二章奇异值分解部分，使用github上的代码运行出的图为空，更换字体后的输出仍然为空

调整坐标后的输出和书中的不一致

LTP 4.0找不到，pytorch1.8对应的LTP版本是哪一个

第三章 3.4.3.1 wikiextractor 问题

安装问题比较多（https://dumps.wikimedia.org/zhwiki/latest/ 语料库）

如果遇到err 就像下面
’”aise source.error('global flags not at the start '
re.error: global flags not at the start of the expression at position 4 “

请务必将python 退到py3.10 的版本（我用的anaconda 是3.11的一直报错）

example ：
Conda create --name py310 python=3.10
conda activate py310
pip install wikiextractor

2）如果开始运行 python -m wikiextractor.WikiExtractor jawiki-latest-pages-articles.xml.bz2 了很长一段时间 ,如
'...xxx pages ...
...xxx pages ...
...xxx pages ...'
突然报带’fork‘的错误

一个解决方案
pip install git+https://github.com/prokotg/wikiextractor

wikiextractor 会从3.0.6 回退到 3.0.4 从而 ok

再
python -m wikiextractor.WikiExtractor jawiki-latest-pages-articles.xml.bz2

从而ok

3.2.1 使用ltp分词示例错误

from lip import LTP
ltp = LTP()
# segment, hidden = ltp.seg(['南京市长江大桥。']) 报错
# 修改为
segment = ltp.pipeline(['南京市长江大桥。'], tasks=['cws'], return_dict=False)
print(segment)