揭开对机器学习的七点误解-赢咖4注册

ramy 2019-04-09 17:35:37 机器学习 | 查看评论

误解5：我们需要批标准化来训练超深度残差网络

长久以来，人们都相信「通过随机初始参数值和梯度下降，直接优化有监督目标函数（如：正确分类的对数概率）来训练深度网络，效果不会很好。」

从那时起，就有很多聪明的随机初始化方法、激活函数、优化方法以及其他诸如残差连接的结构创新，来降低利用梯度下降训练深度神经网络的难度。

但真正的突破来自於批标准化（batch normalization）的引入（以及其他的后续标准化技术），批标准化通过限制深度网络每层的激活值，来缓和梯度消失、爆炸等问题。

值得注意的是，在今年的论文Fixup Initialization: Residual Learning Without Normalization 中，研究表明在不引入任何标准化方法的情况下，通过使用vanilla SGD，可以有效地训练一个10,000 层的深度网络。

揭开对机器学习的七点误解

研究者比较了在CIFAR-10 上，不同深度残差网络训练一个epoch 的结果，并发现，标准初始化方法在网络达到100 层时就失败了，但Fixup 和批标准化在10,000 层的网络都能成功。

揭开对机器学习的七点误解

研究者通过理论分析，证明了「特定神经层的梯度范数，以某个随网络深度增加而增大的数值为期望下界」，即梯度爆炸问题。

为避免此问题，Fixup 中的核心思想是在每L 个残差分支上，使用同时依赖於L 和m 的因子来调整 m 个神经层的权重。

揭开对机器学习的七点误解

Fixup 使得能够在CIFAR-10 上以高学习速率训练一个110 层的深度残差网络，得到的测试集表现和利用批标准化训练的同结构网络效果相当。

揭开对机器学习的七点误解

研究者也进一步展示了在没有任何标准化处理下，基於Fixup 得到的神经网络在ImageNet 数据集和英语-德语机器翻译任务上与LayerNorm 网络得分相当。