走近人脸检测：从VJ到深度学习（下）-赢咖4注册

aihot 2017-06-17 23:10:03 深度学习 | 查看评论

全卷积网络和 DenseBox

　　卷积层是CNN区别于其它类型神经网络的本质特点，不过CNN通常也不仅仅只包含卷积层，其也会包含全连接层，全连接层的坏处就在于其会破坏图像的空间结构，因此人们便开始用卷积层来“替代”全连接层，通常采用1 × 1的卷积核，这种不包含全连接层的CNN称为全卷积网络（FCN）。FCN最初是用于图像分割任务，之后开始在计算机视觉领域的各种问题上得到应用，事实上，Faster R-CNN中用来生成候选窗口的CNN就是一个FCN。

　　FCN 的特点就在于输入和输出都是二维的图像，并且输出和输入具有相对应的空间结构，在这种情况下，我们可以将 FCN 的输出看成是一张热度图，用热度来指示待检测目标的位置和覆盖的区域：在目标所处的区域内显示较高的热度，而在背景区域显示较低的热度，这也可以看成是对图像上的每一个像素点都进行了分类：这个点是否位于待检测的目标上。DenseBox是一个典型的基于全卷积网络的目标检测器，其通过 FCN得到待检测目标的热度图，然后根据热度图来获得目标的位置和大小，这给目标检测又提供了一种新的问题解决思路。（下面这张图其实来源于另一篇论文，放在这里仅用来帮助读者了解人脸热度图长什么样子。）

　　在DenseBox中，还有一点值得一提，其在分类的同时还会预测特征点的位置——就像上篇中提到的 JointCascade一样，DenseBox将检测和特征点定位两个任务集成在同一个网络中，并且也用热图的方式来确定每个点的位置。

基于CNN的人脸检测器

　　上面提到的都是通用的目标检测器，这些检测器可以直接通过人脸图像来学习从而得到人脸检测器，虽然它们没有考虑人脸本身的特殊性，但是也能够获得非常好的精度，这反映出不同类型目标的检测其实是相通的，存在一套通用的机制来处理目标检测问题。也有一部分工作是专门针对人脸检测任务的，有的考虑了人脸自身的特点，有的其实也是比较通用的目标检测方法，可以自然地迁移到各种类型目标的检测任务中去。

　　FacenessNet是专门针对人脸设计的一个检测器，其考虑了头发、眼睛、鼻子、嘴巴和胡子这五个脸部特征，简单地说，对于一个候选窗口，FacenessNet 先分析这五个部分是否存在，然后再进一步判断是不是一张人脸。

　　这种方法一方面同时利用了整体和局部的信息，能够从不同的角度对图像内容进行刻画，使得人脸和非人脸能够更好地被区分；另一方面增强了对遮挡的鲁棒性，人脸的局部遮挡会影响整体表现出的特征，但是并不会对所有的局部区域造成影响，因而增强了检测器对遮挡的容忍度。

检测精度的大跃进

　　随着越来越多的检测器开始采用深度网络，人脸检测的精度也开始大幅地提升。在2014年，学术界在FDDB上取得的最好检测精度是在100个误检时达到84%的检测率，达到这一精度的是JointCascade 人脸检测器。到2015年，这一纪录被FacenessNet 打破，在100个误检时，检测率接近88%，提升了几乎4个百分点。不仅如此，工业界的最好记录已经达到了100个误检时92.5%的检测率，检测率达到 90%以上的公司还不止一家，并且这些结果都是通过基于深度网络的人脸检测器所获得的。

　　在大幅提升人脸检测精度的同时，深度学习实际上还降低了包括人脸检测技术在内的各种目标检测技术的门槛，几乎到了只要采用深度网络就能获得不错的检测精度的地步；在精度方面，相比于基于非深度学习方法的检测器，基于深度学习方法的检测器在起点上就要高出一截。不过在检测速度方面，基于深度学习方法的检测器还难以达到实际应用的需求，即使是在GPU上，也还不能以实时的速度(25fps)运行；而反过来看，一旦速度问题能够得到解决，那么深度学习也一定会在目标检测任务上有更广泛和更大规模的应用。

传统人脸检测技术和 CNN 的结合

　　VJ人脸检测器自提出以来，启发和影响了后续的大量工作，所引入的积分图、AdaBoost方法、级联结构等至今仍在各种各样的检测器中以不同的形式被使用。传统的人脸检测技术优势在于速度，而在精度上则相比基于深度网络的方法要略输一筹，在这种情况下，一个自然的想法就是：能否将传统的人脸检测技术和深度网络（如CNN）相结合，在保证检测速度的情况下进一步提升精度？

　　Cascade CNN可以认为是传统技术和深度网络相结合的一个代表，和VJ人脸检测器一样，其包含了多个分类器，这些分类器采用级联结构进行组织，然而不同的地方在于，Cascade CNN采用CNN作为每一级的分类器，而不是用AdaBoost方法通过多个弱分类器组合成的强分类器，并且也不再有单独的特征提取过程，特征提取和分类都由CNN来统一完成。在检测过程中，Cascade CNN采用的还是传统的滑动窗口范式，为了避免过高的计算开销，第一级的CNN仅包含一个卷积层和一个全连接层，并且输入图像的尺寸控制在12*12，同时滑动窗口的步长设置为4个像素，在这种情况下，一方面每张图像上候选窗口的数量变少了，窗口数量随着滑动步长的增大是按照平方规律下降的，另一方面每个窗口提取特征和分类的计算开销也受到了严格控制。经过第一级CNN之后，由于通过的窗口中人脸和非人脸窗口之间更加难以区分，因此第二级CNN将输入图像的尺寸增大到了24*24，以利用更多的信息，并且提高了网络复杂度——虽然仍然只包含一个卷积层和一个全连接层，但是卷积层有更多的卷积核，全连接层有更多的节点。第三级CNN也采用了类似的思路，增大输入图像大小的同时提高网络的复杂度——采用了两个卷积层和一个全连接层。通过引入CNN，传统的级联结构也焕发出了新的光彩，在FDDB上，Cascade CNN在产生100个误检的时候达到了85%的检测率，而在速度上，对于大小为640*480的图像，在限定可检测的最小人脸大小为80*80的条件下，Cascade CNN在CPU上能够保持接近10fps的处理速度。Cascade CNN中还采用了一些其它的技术来保证检测的精度和速度，如多尺度融合、边框校准、非极大值抑制等，限于篇幅，这里不再继续展开。

　　吸取传统人脸检测技术中的精华，借鉴深度学习研究的最新成果，在对问题的深刻思考和理解上，探寻旧瓶装新酒的最佳模式，这是一条值得去继续探索的道路。

对现状和未来的简单思考

　　经过几十年的研究和发展，人脸检测方法正日趋成熟，在现实场景中也已经得到了比较广泛的应用，但是人脸检测问题还并没有被完全解决，复杂多样的姿态变化，千奇百怪的遮挡情况，捉摸不定的光照条件，不同的分辨率，迥异的清晰度，微妙的肤色差，各种内外因素的共同作用让人脸的变化模式变得极其丰富，而目前还没有检测器可以同时对所有的变化模式都足够鲁棒。

　　目前的人脸检测器在FDDB上已经能够取得不错的性能，不少检测器在100个误检时的检测率达到了80%以上，这意味着它们检测出40个以上的人脸才会出现一个误检。到目前为止，本文所提到的误检和召回率都对应于FDDB上的离散型得分ROC曲线，所谓“离散型”是指每个人脸是否被检测到是分别用1和0来表示的；相对应地也有连续型得分ROC曲线，而“连续型”指的是人脸被检测到与否是通过检测框和标注框之间的交并比来表示的，从某种意义上来说，连续型得分试图评判的是检测框的准确程度，即检测框的位置和大小与实际人脸的位置和大小的接近程度。对于两个不同的检测器而言，两类曲线的相对关系并非是完全一致的：离散型得分ROC曲线接近的两个检测器，其对应的连续型得分ROC曲线可能存在明显的差异。最直接地，这说明有的检测器虽然检测出了人脸，但是检测框的准确度比较低，但其实造成这种不一致性的另一个重要原因还在于检测框与标注框之间的差异性。在FDDB中人脸是通过椭圆来进行标注的，大多数情况下，几乎会包含整个头部，相比之下，检测器给出的检测结果是矩形的人脸框，并且通常只包含脸部区域——尤其是对于采用滑动窗口范式的检测器，这就很容易导致检测框和标注椭圆之间的交并比过小，甚至可能小于0.5。对不同的检测器来说，其能够最好地区分人脸和非人脸窗口的情况所对应的框的大小会有所不同，从而不同检测器给出的检测框也会存在差别，部分方法会采用扩大检测框或者回归椭圆的方式，以尽量减小由标注框和检测框的不一致性所造成的影响，保证评测的公平性。

　　除了标注框的问题之外，要更为客观地看待FDDB上的评测结果，我们还需要考虑另外一点：FDDB测试图像上的人脸和实际应用场景的差异性，换言之，我们需要思考这样一个问题：人脸检测器在FDDB上所达到的精度能否真实反映其在实际应用场景中的表现？FDDB中测试图像上的人脸包含了从表情到姿态、从光照到遮挡等各个方面的变化，因而是一个相对通用的数据集，但是在实际应用中，不同场景下人脸往往呈现出比较鲜明的特点，例如在视频监控场景下，由于摄像头架设位置较高和分辨率有限，同时在存储和传输过程中会引入噪声，因此图像上的人脸往往具有较大的俯仰角，且清晰度较低，在这种情况下，原来在FDDB上表现出色的检测器就未必能够达到令人满意的精度。在FDDB中，有大约10%的人脸其大小在40*40以下，而对于人脸识别等一些任务来说，太小的人脸并不适合，因此如果一个检测器因为在小脸上表现不好而导致其在FDDB上表现平平，而在较大的人脸上和表现更好的一些检测器没有太大差别，那么将其应用在人脸识别任务中是完全没有问题的，甚至还可能因为模型简单带来速度上的优势。总而言之，当面对具体的应用场景时，一方面，我们还需要具体问题具体分析，不能盲目地根据检测器在FDDB或者其它人脸检测数据集上精度来下结论；另一方面，我们需要基于当前的人脸检测器去适配实际所需要处理的数据，以使检测器能够在特定的场景下达到更好的精度。

　　除了FDDB之外，比较常用的人脸检测评测集还有AFW，以及最近几年公开的MALF、IJB-A和Wider Face。AFW包含的图像数比较少，总共只有205张测试图像，标注了468张人脸，不过由于其覆盖了众多的人脸变化模式，具有一定的挑战性，因此也比较常用。另外三个评测集在图像规模上都相对较大，其中MALF和Wider Face没有发布人脸标注和评测程序，需要提交检测结果给发布方进行评测，这在一定程度上防止了由于评测方式不一致而导致比较不公平和对测试集进行过拟合的情况；这两个数据集还按照不同的属性（如分辨率、姿态、难易程度等）将测试集分成了多个子集，评测时会同时在全集和子集上进行测试，这能够更加全面地反映检测器在不同场景下的能力。IJB-A中不仅包含静态人脸图像，还有一部分是从视频中提取的视频帧。在上面提到的所有评测集中，只有Wider Face提供了专门的训练集和验证集，其它评测集合都只包含测试集，这其实也给不同方法的比较带来了一个问题：我们难以判断导致检测器在精度上存在差异的原因到底是训练数据还是算法和模型本身，也不知道这两方面的因素谁起的作用更大。Wider Face应该是难度最大的一个评测集，所标注的人脸在姿态、遮挡情况等方面的跨度非常大，并且分辨率在50*50以下的人脸占到了50%（训练集和校验集中达到了80%以上），不过在部分应用场景下（如人脸识别），过于关注小尺寸的人脸并没有必要。

　　虽然基于深度网络的检测器目前能够达到很高的检测精度，并且其通用性非常强，但其所付出的计算代价也非常高，因此这类检测器突破的关键在于深度网络的简化和加速。除此之外，如果单单考虑人脸检测，这个分类问题相对来说要简单一些，也存在一种可能性：直接学习一个小型的网络就能足够好地完成这个任务。对于采用非深度学习方法的检测器，其基础的检测精度相比会低不少，但是速度上会有明显的优势，因此其关键在于针对特定应用场景下的问题进行合理的改进和适配，以获得更好的检测精度。

　　为了提供更加便利的人机交互接口，创造有效的视觉理解手段，让机器变得有温度，会观察，能感受，广大的科研工作者们在人脸检测和通用目标检测任务上还在继续探索。终有一天，当我们和机器四目相对时，彼此能够会心一笑：科学让生活更美好！

2/2 首页上一页 1 2