于是,ResNet对上面的问题做了一些改变。既然是要学习“Identity Mapping”,那么我们能不能把过去的乘法转变为加法?我们假设多出来的层的函数形式是F(x),那么乘法关系学习“Identity Mapping”就变成了,由于学习的形式没有变,对于乘法我们学习起来同过去一样,但是对于加法就简单多了——,只要将参数学习成0就可以了,0和其他数值相比具有很大的优势,这样训练难度就大大降低了。于是,我们也见到即使非常深的网络也可以训练,这也验证了将乘法关系改为加法关系后对模型训练带来的显著提升。
在ResNet之前,还有一些网络已经提出了类似的思想,比如Highway-Network。Highway-Network同样具有加法的特点,但是它并不是一个纯粹的加法,所以在优化过程总较ResNet弱一些。
这样我们就回顾完了上次我们提到的几个模型中的闪光点,如果想进一步地研究这些模型以及模型结构中的精妙之处,多多做实验多多分析数据才是王道。
最后一点
为什么GoogLeNet和ResNet的层数很深且参数很少?因为他们的全连接层比较少。为什么呢?