神经网络-全连接层（3）-赢咖4注册

aihot 2017-12-10 16:25:59 机器学习 | 查看评论

上一回我们聊完了算法，这回我们正式开始写代码。上回在做公式推导的时候，我们实际上只是针对一个数据样本进行推导，而实际中，计算和训练都是一批一批完成的。大多数机器学习训练都有batch的概念，而训练中batch的计算不是一个一个地算，而是一批数据集中算，那么就需要用上矩阵了。

首先给出Loss的代码，这里y和t都是按列存储的，每一列都是一个样本：

为了代码的简洁，我们在前向运算的时候就把一些后向计算的信息都保存起来，这样在后向计算的时候就能简单点。这样这个类就不能具备多线程的特性了，不过想支持多线程的功能还有别的办法。后面的全连接层也会采用同样的思路——前向为后向准备运算数据。

上一节我们讲了1个例子，输入有2个元素，第一层有4个输出，第2层有1个输出。我们假设训练数据有N个，我们对所有相关的训练数据和参数做以下的约定：

基于上面的规则，我们把上一节的例子以批量数据的形式画成了下面一张图：

神经网络

这张图从左往右有三个部分：

最左边是神经网络的结构图，可以看出里面的数据x,z和参数w,b都符合我们刚才对数据组织的定义。
中间是神经网络前向的过程。一共分为5步，其中最后一步用来计算Loss。
最右边是神经网络反向的过程。这里需要仔细看一下。为了表达上的简洁，我们用残差符号\delta表达Loss对指定变量的偏导数。同时为了更加简洁地表达梯度计算的过程，在这个过程中我们对其中一个矩阵做了矩阵转置，这样可以确保最终输出维度的正确。

对于上图右边的部分，需要认真地看几遍，最好能仔细地推导一遍，才能更好地掌握这个推导的过程，尤其是为了维度对矩阵做转置这部分。

看懂了上面的图，接下来要做的就是对上面的内容进行总结，写出最终的矩阵版后向传播算法：

好了，现在我们有了Loss类和全连接类，我们还需要一个类把上面两个类串联起来，这里为了后面的内容我们定义了许多默认变量：

代码是写完了，可是我们还需要验证一下自己的代码是不是正确的。一般来说我们会采用一些近似方法计算验证梯度是否正确。

把我们的代码用博客上数据和结果做一下验证，就可以帮助我们修正代码做好debug。其实上面的代码本来也不多，可能犯错的地方也不多。