Giter Club home page Giter Club logo

dive-into-dl-pytorch's Introduction

进度

#2020年5月30日14点34分

看完了 docs/3.1

#2020年5月30日16点13分

看完了 docs/3.3

#2020年5月30日17点01分

看完了 docs/3.5

#2020年5月30日22点27分

看完了 docs/3.7

#2020年5月31日11点48分

看完了 docs/3.13

#2020年6月1日17点40分

看完了 docs/3.16

#2020年6月1日21点53分

看完了 docs/4.2

#2020年6月2日15点07分

看完了 docs/4.6

#2020年6月2日17点46分

看完了 docs/5.5

#2020年6月4日18点04分

看完了 docs/5.12

#2020年6月5日18点07分

看完了 docs/6.6

#2020年6月5日22点27分

看完了 docs/6.10

#2020年6月7日16点31分

看完了 docs/7.8

#2020年6月7日16点39分

看完了 docs/8.4

#2020年6月7日16点40分

跳过了 docs/9.1 - 9.11

#2020年6月8日18点51分

看完了 docs/10.4

#2020年6月10日16点52分

粗略看完了 docs/10.5-10.11

笔记

1. dropout

通常的建议是把靠近输入层的丢弃概率设得小一点。在这个实验中,我们把第一个隐藏层的丢弃概率设为0.2,把第二个隐藏层的丢弃概率设为0.5。

2. 构建模型结构

3. Dict & OrderDict

OrderDict可以用来构建module:

4. 搭建自定义的网络模块

见docs/4.4

5. 保存 & 加载模型

6. 查看CUDA相关参数的命令

7. pooling layer 的作用

8. 困惑度-评价模型的指标

9. RNN底层代码/原理实现

见docs/ 6.4

10. RNN loss计算图

11. GRU门结构

我们对门控循环单元的设计稍作总结:

  • 重置门有助于捕捉时间序列里短期的依赖关系;

  • 更新门有助于捕捉时间序列里长期的依赖关系。

12. LSTM 单元结构

13. 使用多GPUs进行模型训练

见 docs/8.4

13. Negative Sampling 负采样

采用负采样后:训练中每一步的梯度计算开销不再与词典大小相关,而与K线性相关。当K取较小的常数时,负采样在每一步的梯度计算开销较小

14. fastText 子词嵌入

将一个词拆分开来,得到该单词的子词集合。与跳字模型相比,fastText中词典规模更大,造成模型参数更多,同时一个词的向量需要对所有子词向量求和,继而导致计算复杂度更高。但与此同时,较生僻的复杂单词,甚至是词典中没有的单词,可能会从同它结构类似的其他词那里获取更好的词向量表示。

fastText提出了子词嵌入方法。它在word2vec中的跳字模型的基础上,将中心词向量表示成单词的子词向量之和。

子词嵌入利用构词上的规律,通常可以提升生僻词表示的质量。

疑问

  1. docs/ 6.2

dive-into-dl-pytorch's People

Contributors

shusentang avatar tianhao-peng avatar zooltd avatar fangmingzhou avatar npuichigo avatar forest0 avatar yongboy avatar yangefei avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.