The resnet-code-with-readingnotes's intro from sunxingyui5

Deep residual learning for image recognition

阅读地址： Deep residual learning for image recognition

知乎精讲： ResNet 精读笔记

被引用次数： 112838（截至2022.04.11）

官方开源： pytorch_ResNet

注：建议配合食用Identity Mappings in Deep Residual Networks

提供的思路

神经网络不需要去拟合复杂的底层映射了，只需要拟合在原来输入的基础上要进行哪些偏移，哪些修改，最总只要拟合残差就好了
这样使深的网络不会比浅层网络效果更差，最多只会让后续网络变为恒等映射

提出残差学习结构解决非常深网络的退化问题和训练问题

·每层都学习相对于本层输入的残差，然后与本层输入加法求和，残差学习可以加快优化网络，加深层数，提高准确度
·直接将网络堆深

①梯度消失/梯度爆炸：阻碍收敛（现可以通过初始化权重解决）

②网络退化：不是任何网络都能被相同的优化

·不拟合底层，拟合残差（如果恒等映射足够好，可以把所有权重都学成0）
·本文中shortcut connection只用来进行恒等映射，不引入额外的参数量和计算量（加法计算几乎可以忽略）
·门控函数“highway networks”扮演残差角色，但深层网络性能提升不明显

如何防止梯度消失？

初始化和Batch Normalization，通过SGD和反向传播就开始收敛了浅模型输入 = 浅模型 + 输入不变 = 汇总输出（递归结构难以被优化）)

残差学习

·假设为最终要学习的映射，是输入，让网络拟合 ·如果卷积层后加Batch Normalization层，则不需要偏置项 ·残差与自身输入维度必须一致才能实现逐元素相加
·残差可以表现为多层的CNN，逐元素加法可以表现为两个feature maps逐通道相加

本质

传统多层网络难以准确拟合，加了恒等映射后，深的网络不会比浅层网络的效果更差，如果恒等映射足够好，可以把所有的权重都学成0

对比实验

普通无残差：类似VGG，每个block内filter数不变，feature map大小减半时filter个数x，用步长为的卷积执行下采样，Global Average Pooling取代全连接层，更少的参数和计算量防止过拟合
残差网络：实线代表维度相同的直接相加，代表出现了下采样，即步长为的卷积
残差分支出现下采样时：