神经网络-全连接层（2）-赢咖4注册

aihot 2017-12-10 15:03:00 机器学习 | 查看评论

神经网络

这一回聊一下神经网络的反向传导算法问题。反向传导算法是一个比较复杂的算法，但是如果把它拆解开，其实每一个小步骤并不复杂。

在此之前需要先介绍一个概念，那就是模型训练目标。神经网络是一个用在监督学习上的模型，所谓的监督学习就是我们要提前知道输入和输出。那么我们的模型训练目标自然是希望模型在接收输入后，可以得到和我们提前知道的一样的输出。

但是怎么描述这个“一样”呢？现实中会有很多具体的表述方法。这里我们介绍并采用一种相对简单的方式，那就是二次损失函数。对于模型的输出y，和我们提前知道的理论输出t，有：

$Loss(y,t)=\frac{1}{2}(y-t)^2$

好了，下面我们定义一个双层神经网络，其中：

输入的数据是2维
第一层神经网络的输入也是2维，输出是4维，非线性部分采用sigmoid函数
第二层神经网络的输入也是4维，输出是1维，非线性部分采用sigmoid函数

下面的时间请大家想象这个神经网络……

不用想了，画了个比较丑的……

链式求导

下面的时间我们来推导神经网络的优化公式。推导公式本身不需要太多的数学知识，但是需要一些耐心，我们首先解决一个数据的推导，然后扩展到一批（batch）数据上。

我们的目标函数是这个损失函数Loss，优化方法还是之前提到的梯度下降法，那么我们就需要求出每一个参数的梯度，也就是：

第一层： $\frac{\partial Loss}{\partial w^0_{00}},\frac{\partial Loss}{\partial w^0_{01}},\frac{\partial Loss}{\partial w^0_{02}},\frac{\partial Loss}{\partial w^0_{03}},\frac{\partial Loss}{\partial w^0_{10}},\frac{\partial Loss}{\partial w^0_{11}},\frac{\partial Loss}{\partial w^0_{12}},\frac{\partial Loss}{\partial w^0_{13}}$

$\frac{\partial Loss}{\partial b^0_{0}},\frac{\partial Loss}{\partial b^0_{1}},\frac{\partial Loss}{\partial b^0_{2}},\frac{\partial Loss}{\partial b^0_{3}}$

第二层： $\frac{\partial Loss}{\partial w^1_{00}},\frac{\partial Loss}{\partial w^1_{10}},\frac{\partial Loss}{\partial w^1_{20}},\frac{\partial Loss}{\partial w^1_{30}},\frac{\partial Loss}{\partial b^1_{0}}$