Comments (2)
1、GPT2模型本身就只有transforme的解码器部分。
2、在模型训练时只计算了标题的loss,你可以理解为在进行fine-tuning,训练一个文档生成标题的下游任务,而不是原始的语言模型任务。
3、unilm和gpt2进行生成的本质区别是,unilm在内容编码部分是双向的,标题生成部分相当于预测被掩掉的[mask],gpt2在内容编码部分是单向的,标题生成部分就是逐字预测。我并不认同你说的gpt2“不太适合实现标题生成”。
从效果上来看,我这边做过unilm和gpt2的对比,差不多。
from gpt2-newstitle.
1、GPT2模型本身就只有transforme的解码器部分。
2、在模型训练时只计算了标题的loss,你可以理解为在进行fine-tuning,训练一个文档生成标题的下游任务,而不是原始的语言模型任务。
3、unilm和gpt2进行生成的本质区别是,unilm在内容编码部分是双向的,标题生成部分相当于预测被掩掉的[mask],gpt2在内容编码部分是单向的,标题生成部分就是逐字预测。我并不认同你说的gpt2“不太适合实现标题生成”。
从效果上来看,我这边做过unilm和gpt2的对比,差不多。
感谢,我的问题应该是没理清预训练和微调阶段 ,GPT预训练阶段是用语言模型的模式,但不代表微调阶段就不能用seq2seq的方式
from gpt2-newstitle.
Related Issues (20)
- checkpoint接着训练问题 HOT 1
- generate_title生成标题,出现错误
- UnicodeDecodeError: 'utf-8' codec can't decode byte 0xa1 in position 3: invalid start byte HOT 2
- 出现错误,不知道如何解决,非常感谢 HOT 2
- 关于使用长文本数据集训练的问题 HOT 3
- 关于提供的词典
- #关于BertTokenizer.from_pretrained()函数的一些问题
- 关于长文本标题生成的一些问题 HOT 4
- 您好关于运行代码加载模型到GPU上时直接报显存溢出的问题 HOT 7
- 摘要生成 HOT 2
- 标题生成速度 HOT 1
- forward() got an unexpected keyword argument 'past' HOT 2
- 每次生成的标题不一样 HOT 1
- 是否可以利用这个项目来做反向的生成 HOT 1
- 修改了一下past为past_key_values,接着运行报这个错我,请问是什么原因?
- 你好,请问ModuleNotFoundError: No module named 'transformers.modeling_gpt2' HOT 3
- python version? HOT 1
- 出现报错,不知道怎么解决,万分感谢!是缺少对应文件吗? HOT 1
- 为什么train文件训练出的pytorch模型,处理新闻后会出现乱码 HOT 3
- 数据集
Recommend Projects
-
React
A declarative, efficient, and flexible JavaScript library for building user interfaces.
-
Vue.js
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
-
Typescript
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
-
TensorFlow
An Open Source Machine Learning Framework for Everyone
-
Django
The Web framework for perfectionists with deadlines.
-
Laravel
A PHP framework for web artisans
-
D3
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
-
Recommend Topics
-
javascript
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
-
web
Some thing interesting about web. New door for the world.
-
server
A server is a program made to process requests and deliver data to clients.
-
Machine learning
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
-
Visualization
Some thing interesting about visualization, use data art
-
Game
Some thing interesting about game, make everyone happy.
Recommend Org
-
Facebook
We are working to build community through open source technology. NB: members must have two-factor auth.
-
Microsoft
Open source projects and samples from Microsoft.
-
Google
Google ❤️ Open Source for everyone.
-
Alibaba
Alibaba Open Source for everyone
-
D3
Data-Driven Documents codes.
-
Tencent
China tencent open source team.
from gpt2-newstitle.