感谢公开！我们在复现en2gu结果时，发现与论文中的结果(bleu@3.2)有一些不同（尽管我们使用你们公开的checkpoints和测试集上，测的结果是2.58，可以看到

感谢公开！我们在复现en2gu结果时，发现与论文中的结果(bleu@3.2)有一些不同（尽管我们使用你们公开的checkpoints和测试集上，测

感谢公开！我们在复现en2gu结果时，发现与论文中的结果(bleu@3.2)有一些不同（尽管我们使用你们公开的check

感谢公开！我们在复现en2gu结果时，发现与论文中的结果(bleu@3.2)有一些不同（尽管我

感谢公开！我们在复现en2gu结果时，发现与论文中的结果(bleu@

结果复现的问题 about mrasp HOT 6 OPEN

linzehui commented on August 11, 2024

结果复现的问题

from mrasp.

Comments (6)

PANXiao1994 commented on August 11, 2024

感谢公开！我们在复现en2gu结果时，发现与论文中的结果([email protected])有一些不同（尽管我们使用你们公开的checkpoints和测试集上，测的结果是2.58，可以看到仍然有轻微的不一致）,请问这个语言对的测试有什么特殊的处理吗？

Hello, 我们用的是tokenized BLEU

from mrasp.

jingmu123 commented on August 11, 2024

感谢公开！我们在复现en2gu结果时，发现与论文中的结果([email protected])有一些不同（尽管我们使用你们公开的checkpoints和测试集上，测的结果是2.58，可以看到仍然有轻微的不一致）,请问这个语言对的测试有什么特殊的处理吗？

Hello, 我们用的是tokenized BLEU

您好，我这里报的就是tokenized BLEU,其他方向的结果都是比较准确的。另外，想问一下为什么使用你们的模型，直接在官方测试集上测试（使用你们的BPE词典），部分结果也有较大差异呢？

from mrasp.

PANXiao1994 commented on August 11, 2024

感谢公开！我们在复现en2gu结果时，发现与论文中的结果([email protected])有一些不同（尽管我们使用你们公开的checkpoints和测试集上，测的结果是2.58，可以看到仍然有轻微的不一致）,请问这个语言对的测试有什么特殊的处理吗？

Hello, 我们用的是tokenized BLEU

您好，我这里报的就是tokenized BLEU,其他方向的结果都是比较准确的。另外，想问一下为什么使用你们的模型，直接在官方测试集上测试（使用你们的BPE词典），部分结果也有较大差异呢？

测试的时候使用https://github.com/linzehui/mRASP/blob/master/user_dir/tasks/translation_w_langtok.py这个task了吗

from mrasp.

jingmu123 commented on August 11, 2024

感谢公开！我们在复现en2gu结果时，发现与论文中的结果([email protected])有一些不同（尽管我们使用你们公开的checkpoints和测试集上，测的结果是2.58，可以看到仍然有轻微的不一致）,请问这个语言对的测试有什么特殊的处理吗？

Hello, 我们用的是tokenized BLEU

您好，我这里报的就是tokenized BLEU,其他方向的结果都是比较准确的。另外，想问一下为什么使用你们的模型，直接在官方测试集上测试（使用你们的BPE词典），部分结果也有较大差异呢？

测试的时候使用https://github.com/linzehui/mRASP/blob/master/user_dir/tasks/translation_w_langtok.py这个task了吗
您好，我使用如下脚本处理：
fairseq-generate ${data_path}/bin
--user-dir ${repo_dir}
-s ${SRC}
-t ${TGT}
--skip-invalid-size-inputs-valid-test
--beam 5 --batch-size 16 --max-len-a 0 --max-len-b 256
--path ${model_path}/en2gu_checkpoint.pt
--task translation_w_langtok
--lang-prefix-tok ${TGTK}
--nbest 1 --remove-bpe | tee ${eval_path}/infer.txt

grep ^H ${eval_path}/infer.txt
| sed 's/^H-//'
| sort -V
| cut -f 3
| sed 's/'${TGTK}' //g' \

${eval_path}/infer.sys

grep ^T ${eval_path}/infer.txt
| sed 's/^T-//'
| sort -V
| cut -f 2
| sed 's/'${TGTK}' //g' \

${eval_path}/infer.ref

sacrebleu --tokenize 'none' -s 'none' -w 2 ${eval_path}/infer.ref < ${eval_path}/infer.sys

得到的en2gu的结果似乎只是2.98，有一点点提升，请问和fairseq原始的脚本增加了什么特殊处理吗，附上我之前测试的脚本
fairseq-generate ${data_path}/bin
--path ${model_path}/${SRC}2${TGT}_checkpoint.pt
--gen-subset test
--skip-invalid-size-inputs-valid-test
--nbest 1
--max-len-a ${max_len_a}
--max-len-b ${max_len_b}
--lenpen ${length_penalty} \
-s ${SRC} -t ${TGT} --batch-size 128 --beam 5 --remove-bpe | tee ${eval_path}/infer.txt

谢谢

from mrasp.

PANXiao1994 commented on August 11, 2024

我们没有设置-s 'none'

from mrasp.

q178 commented on August 11, 2024

您好，fairseq-generate ${data_path}/bin 里面的data_path指的是哪个路径？我这边调试了半天一直出问题

from mrasp.

结果复现的问题 about mrasp HOT 6 OPEN

Comments (6)

Related Issues (20)

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent