深度学习在目标跟踪中的应用-赢咖4注册

aihot 2017-06-17 15:00:48 深度学习 | 查看评论

SO-DLT(arXiv2015)

Transferring Rich Feature Hierarchies for Robust Visual Tracking

　　SO-DLT延续了DLT利用非跟踪数据预训练加在线微调的策略，来解决跟踪过程中训练数据不足的问题，同时也对DLT存在的问题做了很大的改进。

　　(1) 使用CNN作为获取特征和分类的网络模型。如上图所示，SO-DLT使用了的类似AlexNet的网络结构，但是有几大特点：一、针对跟踪候选区域的大小将输入缩小为100*100，而不是一般分类或检测任务中的224*224。二、网络的输出为50*50大小，值在0-1之间的概率图(probability map)，每个输出像素对应原图2*2的区域，输出值越高则该点在目标bounding-box中的概率也越高。这样的做法利用了图片本身的结构化信息，方便直接从概率图确定最终的bounding-box,避免向网络输入数以百计的proposal，这也是SO-DLT structured output得名的由来。三、在卷积层和全连接层中间采用SPP-NET中的空间金字塔采样（spatial pyramid pooling）来提高最终的定位准确度。

　　(2) 在离线训练中使用ImageNet 2014的detection数据集使CNN获得区分object和非object（背景）的能力。

　　SO-DLT在线跟踪的pipeline如上图所示:

　　(1) 处理第t帧时，首先以第t-1帧的的预测位置为中心，从小到大以不同尺度crop区域放入CNN当中，当CNN输出的probability map的总和高于一定阈值时，停止crop, 以当前尺度作为最佳的搜索区域大小。

　　(2) 选定第t帧的最佳搜索区域后，在该区域输出的probability map上采取一系列策略确定最终的bounding-box中心位置和大小。

　　(3) 在模型更新方面，为了解决使用不准确结果fine-tune导致的drift问题,使用了long-term 和short-term两个CNN，即CNNs和CNNl。CNNs更新频繁，使其对目标的表观变化及时响应。CNNl更新较少，使其对错误结果更加鲁棒。二者结合，取最confident的结果作为输出。从而在adaptation和drift之间达到一个均衡。

　　小结：SO-DLT作为large-scale CNN网络在目标跟踪领域的一次成功应用，取得了非常优异的表现：在CVPR2013提出的OTB50数据集上OPE准确度绘图(precision plot)达到了0.819, OPE成功率绘图(success plot)达到了0.602。远超当时其它的state of the art。

　　SO-DLT有几点值得借鉴：

　　(1) 针对tracking问题设计了有针对性的网络结构。

　　(2) 应用CNNS和CNNL用ensemble的思路解决update 的敏感性，特定参数取多值做平滑，解决参数取值的敏感性。这些措施目前已成为跟踪算法提高评分的杀手锏。

　　但是SO－DLT离线预训练依然使用的是大量无关联图片，作者认为使用更贴合跟踪实质的时序关联数据是一个更好的选择。

利用现有大规模分类数据集预训练的CNN分类网络提取特征

　　2015年以来，在目标跟踪领域应用深度学习兴起了一股新的潮流。即直接使用ImageNet这样的大规模分类数据库上训练出的CNN网络如VGG-Net获得目标的特征表示，之后再用观测模型(observation model)进行分类获得跟踪结果。这种做法既避开了跟踪时直接训练large-scale CNN样本不足的困境，也充分利用了深度特征强大的表征能力。这样的工作在ICML15，ICCV15，CVPR16均有出现。下面介绍两篇发表于ICCV15的工作。

3/6 首页上一页 1 2 3 4 5 6 下一页尾页

关于本站

加入我们

网站合作

标签（推荐）