ramy  2019-04-09 17:35:37  机器学习 |   查看评论   

误解5:我们需要批标准化来训练超深度残差网络


长久以来,人们都相信「通过随机初始参数值和梯度下降,直接优化有监督目标函数(如:正确分类的对数概率)来训练深度网络,效果不会很好。」

 

从那时起,就有很多聪明的随机初始化方法、激活函数、优化方法以及其他诸如残差连接的结构创新,来降低利用梯度下降训练深度神经网络的难度。

 

但真正的突破来自於批标准化(batch normalization)的引入(以及其他的后续标准化技术),批标准化通过限制深度网络每层的激活值,来缓和梯度消失、爆炸等问题。

 

值得注意的是,在今年的论文Fixup Initialization: Residual Learning Without Normalization 中,研究表明在不引入任何标准化方法的情况下,通过使用vanilla SGD,可以有效地训练一个10,000 层的深度网络。

揭开对机器学习的七点误解

研究者比较了在CIFAR-10 上,不同深度残差网络训练一个epoch 的结果,并发现,标准初始化方法在网络达到100 层时就失败了,但Fixup 和批标准化在10,000 层的网络都能成功。

揭开对机器学习的七点误解

研究者通过理论分析,证明了「特定神经层的梯度范数,以某个随网络深度增加而增大的数值为期望下界」,即梯度爆炸问题。

 

为避免此问题,Fixup 中的核心思想是在每L 个残差分支上,使用同时依赖於L 和m 的因子来调整 m 个神经层的权重。

揭开对机器学习的七点误解

Fixup 使得能够在CIFAR-10 上以高学习速率训练一个110 层的深度残差网络,得到的测试集表现和利用批标准化训练的同结构网络效果相当。

揭开对机器学习的七点误解

 

揭开对机器学习的七点误解

研究者也进一步展示了在没有任何标准化处理下,基於Fixup 得到的神经网络在ImageNet 数据集和英语-德语机器翻译任务上与LayerNorm 网络得分相当。

 

除特别注明外,本站所有文章均为 赢咖4注册 原创,转载请注明出处来自揭开对机器学习的七点误解

留言与评论(共有 0 条评论)
   
验证码:
[lianlun]1[/lianlun]