aihot  2017-12-10 15:03:00  机器学习 |   查看评论   

神经网络

      这一回聊一下神经网络的反向传导算法问题。反向传导算法是一个比较复杂的算法,但是如果把它拆解开,其实每一个小步骤并不复杂。

      在此之前需要先介绍一个概念,那就是模型训练目标。神经网络是一个用在监督学习上的模型,所谓的监督学习就是我们要提前知道输入和输出。那么我们的模型训练目标自然是希望模型在接收输入后,可以得到和我们提前知道的一样的输出。

      但是怎么描述这个“一样”呢?现实中会有很多具体的表述方法。这里我们介绍并采用一种相对简单的方式,那就是二次损失函数。对于模型的输出y,和我们提前知道的理论输出t,有:

Loss(y,t)=\frac{1}{2}(y-t)^2

      好了,下面我们定义一个双层神经网络,其中:

  1. 输入的数据是2维
  2. 第一层神经网络的输入也是2维,输出是4维,非线性部分采用sigmoid函数
  3. 第二层神经网络的输入也是4维,输出是1维,非线性部分采用sigmoid函数

 

      下面的时间请大家想象这个神经网络……

      不用想了,画了个比较丑的…… 

 

神经网络

链式求导

      下面的时间我们来推导神经网络的优化公式。推导公式本身不需要太多的数学知识,但是需要一些耐心,我们首先解决一个数据的推导,然后扩展到一批(batch)数据上。

我们的目标函数是这个损失函数Loss,优化方法还是之前提到的梯度下降法,那么我们就需要求出每一个参数的梯度,也就是:

第一层:\frac{\partial Loss}{\partial w^0_{00}},\frac{\partial Loss}{\partial w^0_{01}},\frac{\partial Loss}{\partial w^0_{02}},\frac{\partial Loss}{\partial w^0_{03}},\frac{\partial Loss}{\partial w^0_{10}},\frac{\partial Loss}{\partial w^0_{11}},\frac{\partial Loss}{\partial w^0_{12}},\frac{\partial Loss}{\partial w^0_{13}}

\frac{\partial Loss}{\partial b^0_{0}},\frac{\partial Loss}{\partial b^0_{1}},\frac{\partial Loss}{\partial b^0_{2}},\frac{\partial Loss}{\partial b^0_{3}}

第二层:\frac{\partial Loss}{\partial w^1_{00}},\frac{\partial Loss}{\partial w^1_{10}},\frac{\partial Loss}{\partial w^1_{20}},\frac{\partial Loss}{\partial w^1_{30}},\frac{\partial Loss}{\partial b^1_{0}}

      如果我们能求出上面的17个梯度,后面我们就可以用负梯度乘以步长进行优化迭代了,说实话,直接求解这些确实有点难,这时候微分世界的一大神器就来了,那就是链式求导。我们把数据传递的过程再详细描述一下:

  1. 输入数据x^0
  2. 第一层的线性部分输出z^0
  3. 第一层的非线性部分输出x^1
  4. 第二层的线性部分输出z^1
  5. 第二层的非线性部分输出y
  6. 二次损失函数Loss

 

      下面就按照这个顺序分步求导,对于上面的六个变量和模型的参数,我们根据每个分布的公式求出每个变量最近的输出的导数:Loss=\frac{1}{2}(y-t)^2=>\frac{\partial Loss}{\partial y}=y-t

 

除特别注明外,本站所有文章均为 赢咖4注册 原创,转载请注明出处来自神经网络-全连接层(2)

留言与评论(共有 0 条评论)
   
验证码:
[lianlun]1[/lianlun]