生成的结果为空和重复的汉字

Dialogue Utterance Rewriter

ACL 2019论文复现，多轮对话重写：Improving Multi-turn Dialogue Modelling with Utterance ReWriter

1. 写在前面

1.1 为什么要复现？

- 作者开源的代码是基于LSTM的，论文中基于Transformer的代码并未公布；
- 论文实验所使用数据与公开的数据不一致，所以给出新的指标以供参考。

由于和作者沟通没有得到回应，所以不知道是否重现了作者的结果，代码和结论仅供参考，有问题欢迎一起交流讨论~

1.2 关于代码

代码是基于Google官方的Transformer实现的，主要修改点包括：

Encoder：相比与原始的Transformer，输入端多了一个segment，也就是论文中的turn embedding；
Decoder：Decoder端的输出结果为两次dec-enc attention结果拼接，再过两层全连接层得到；
Output Distribution：在./transformer/model/transformer.py里封装了DistributeLayer类；
beam search：由于DistributeLayer的输出结果已经是概率值，所以beam search在记录得分时，直接对概率值取log即可；
对中文词表的处理等。

1.3 关于数据

数据是从论文作者发布的corpus.txt中获取，共包含2w个实例，按顺序将前18k作为训练集，剩余的2k作为开发集。

数据目录./data，包括：

train.txt：训练集，共18000条；
dev.txt：开发集，共2000条；
BLEU_REF.txt：开发集目标语言标注结果，每个句子占一行，用于在训练过程中计算开发集上的BLEU Score。

其中，训练集和开发集格式一致，共四列，中间使用单个制表符分隔，如下：

question1 answer1 question2 question2_rewrited
能给我签名吗 出专辑再议 我现在就要 我现在就要签名
iphonex好不好 iphone不好用 为什么不好用 iphonex为什么不好用
西安天气 西安今天的天气是多云转小雨25度到35度东北风3级 明天有雨吗 西安明天有雨吗
秦始皇活了多久 50岁我确定 为什么 为什么确定秦始皇活了50岁

1.4 需要的额外资源

字表文件

训练使用的字表文件，可以直接使用中文BERT的字表，下载地址vocab.txt，解压得到的vocab.txt放置在./resource下；

需要注意的是，vocab.txt需包含以下特殊字符：

[PAD]
[EOS]
[UNK]
[CLS]
[SEP]

预训练BERT（可选的）

模型的Encoder端参数可使用预训练的BERT进行初始化，参考2.1节。

2. 使用

2.1 训练模型

参数、路径已经有默认的设置，可以直接跳到Step 3进行训练，若需要修改参数，可参考Step 1-2。

Step 1：修改模型参数

修改文件./transformer/model/model_params.py：

max_length_source：源语言最大长度，可根据数据实际长度分布进行调整。
max_length_target：目标语言最大长度，可根据数据实际长度分布进行调整。
vocab_size：词表大小，需和`./resource/vocab.txt`大小保持一致。
hidden_size：Model dimension in the hidden layers.
num_hidden_layers：Number of layers in the encoder and decoder stacks.
num_heads：Number of heads to use in multi-headed attention.
filter_size：Inner layer dimension in the feedforward network.

配置文件将模型分为三类tiny、base和big，完成配置后，可在训练时指定类型名进行设置。

Step 2：修改训练脚本

修改文件./scripts/train.sh：

PARAM_SET：模型类型，分为`tiny`、`base`和`big`三类；
DATA_TRAIN：训练集路径；
DATA_DEV：训练集路径；
MODEL_DIR：模型保存路径；
VOCAB_FILE：词/字表路径；
BERT_CHECKPOINT：预训练BERT路径，注意BERT参数需要与编码端一致；若不需要，则设置为none；
BLEU_SOURCE：待翻译数据，和`DATA_DEV`相同，无需设置；
BLEU_REF：开发集目标语言标注结果，用于在训练过程中计算BLEU Score；
TRAIN_EPOCHS：训练epoch数。

Step 3：训练

$ cd scripts
$ chmod a+x train.sh
$ ./train.sh

2.2 测试

修改./scripts/translate.sh：

PARAM_SET：与训练阶段保持一致；
MODEL_DIR：模型路径，与训练阶段保持一致；
VOCAB_FILE：词表文件，与训练阶段保持一致；
FILE：待预测文件，格式同开发集；
FILE_OUT：预测结果存放路径。

训练过程中，程序会在MODEL_DIR下保存模型，可以执行下述命令生成结果：

$ chmod a+x translate.sh
$ ./translate.sh

生成结果在FILE_OUT。

2.3 评价

评价脚本接受两个输入：

$ python3 evaluate.py -g ../data/BLEU_REF.txt -t ../data/dev.out.txt

3. 实验

3.1 实验设置

实验数据如1.3节所述，Transformer参数设置为：

hidden_size: 256
num_hidden_layers：6
num_heads：8
filter_size：1024

模型：L-Ptr-λ和T-Ptr-λ结构均与论文中一致，T-Ptr-λ-BERT为使用预训练的BERT初始化编码端（L-6_H-256_A-8中文字BERT使用百科类数据预训练，若没有条件训练可忽略该项）。

3.2 实验结果

下表是在开发集上最好的一个模型周围取三个模型，得分取均值，供参考：

模型	BLEU-1	BLEU-2	BLEU-4	ROUGE-1	ROUGE-2	ROUGE-L	EM
L-Ptr-λ	-	-	-	-	-	-	-
T-Ptr-λ	88.5	84.8	77.1	92.7	85.0	89.0	52.6
T-Ptr-λ-BERT	89.6	86.5	79.9	93.5	86.9	90.5	57.5

PS: 1.8w的训练集对于L-6_H-256_A-8规模的模型来说还是太小了，针对该模型设计一些预训练任务同时预训练E-D端，应该会有进一步的提升。

注：基于LSTM的结果后续再补充。

4. Requirements

tensorflow-gpu >= 1.13.0

5. 参考

Su, et al. Improving Multi-turn Dialogue Modelling with Utterance ReWriter. ACL, 2019.
代码：Transformer

liu-nlper / dialogue-utterance-rewriter Goto Github PK

dialogue-utterance-rewriter's Introduction

Dialogue Utterance Rewriter

1. 写在前面

1.1 为什么要复现？

1.2 关于代码

1.3 关于数据

1.4 需要的额外资源

2. 使用

2.1 训练模型

Step 1：修改模型参数

Step 2：修改训练脚本

Step 3：训练

2.2 测试

2.3 评价

3. 实验

3.1 实验设置

3.2 实验结果

4. Requirements

5. 参考

dialogue-utterance-rewriter's People

Contributors

Stargazers

Watchers

Forkers

dialogue-utterance-rewriter's Issues

Recommend Projects

Recommend Topics

Recommend Org