机器学习进阶笔记之二 | 深入理解Neural Style-赢咖4注册

aihot 2017-12-03 14:33:46 机器学习 | 查看评论

引言

　　TensorFlow是Google基于DistBelief进行研发的第二代赢咖4学习系统，被广泛用于语音识别或图像识别等多项机器深度学习领域。其命名来源于本身的运行原理。Tensor（张量）意味着N维数组，Flow（流）意味着基于数据流图的计算，TensorFlow代表着张量从图象的一端流动到另一端计算过程，是将复杂的数据结构传输至赢咖4神经网中进行分析和处理的过程。

　　TensorFlow完全开源，任何人都可以使用。可在小到一部智能手机、大到数千台数据中心服务器的各种设备上运行。

　　『机器学习进阶笔记』系列是将深入解析TensorFlow系统的技术实践，从零开始，由浅入深，与大家一起走上机器学习的进阶之路。

　　前面《机器学习进阶笔记之一 | TensorFlow安装与入门》简单讲了下怎么在Ubuntu安装tensorflow gpu版本，也跑了下基于Mnist的比较基本的LR算法，但是Tensorflow可远远不止这些，它能做很多很有意思的东西，这篇文章主要针对Tensorflow利用CNN的方法对艺术照片做下Neural Style的相关工作。首先，我会详细解释下A Neural Algorithm of Artistic Style这篇paper是怎么做的，然后会结合一个开源的[Tensorflow的Neural Style版本][3]来领略下大神的风采。

A Neural Algorithm of Artistic Style

　　在艺术领域，尤其是绘画，艺术家们通过创造不同的内容与风格，并相互交融影响来创立独立的视觉体验。如果给定两张图像，现在的技术手段，完全有能力让计算机识别出图像具体内容。而风格是一种很抽象的东西，在计算机的眼中，当然就是一些pixel，但人眼就能很有效地的辨别出不同画家不同的style，是否有一些更复杂的feature来构成，最开始学习DeepLearning的paper时，多层网络的实质其实就是找出更复杂、更内在的features，所以图像的style理论上可以通过多层网络来提取里面可能一些有意思的东西。而这篇文章就是利用卷积神经网络（利用pretrain的Pre-trained VGG network model）来分别做Content、Style的reconstruction，在合成时考虑content loss 与style loss的最小化（其实还包括去噪变化的的loss），这样合成出来的图像会保证在content 和style的重构上更准确。

文章大纲

　　这里是整个paper在neural style的工作流，理解这幅图对理解整篇paper的逻辑很关键，主要分为两部分：

Content Reconstruction: 上图中下面部分是Content Reconstruction对应于CNN中的a，b，c，d，e层，注意最开始标了Content Representations的部分不是原始图片（可以理解是给计算机比如分类器看的图片，因此如果可视化它，可能完全就不知道是什么内容），而是经过了Pre-trained之后的VGG network model的图像数据，该model主要用来做object recognition，这里主要用来生成图像的Content Representations。理解了这里，后面就比较容易了，经过五层卷积网络来做Content的重构，文章作者实验发现在前3层的Content Reconstruction效果比较好，d，e两层丢失了部分细节信息，保留了比较high-level的信息。
Style Reconstruction： Style的重构比较复杂，很难去模型化Style这个东西，Style Represention的生成也是和Content Representation的生成类似，也是由VGG network model去做的，不同点在于a,b,c,d,e的处理方式不同，Style Represention的Reconstruction是在CNN的不同的子集上来计算的，怎么说呢，它会分别构造conv1_1(a),[conv1_1, conv2_1](b),[conv1_1, conv2_1, conv3_1],[conv1_1, conv2_1, conv3_1,conv4_1],[conv1_1, conv2_1, conv3_1, conv4_1, conv5_1]。这样重构的Style 会在各个不同的尺度上更加匹配图像本身的style，忽略场景的全局信息。

methods

　　理解了以上两点，剩下的就是建模的数据问题了，这里按Content和Style来分别计算loss，Content loss的method比较简单：