深度学习在目标跟踪中的应用-赢咖4注册

aihot 2017-06-17 15:00:48 深度学习 | 查看评论

MDNet(CVPR2016)

Learning Multi-Domain Convolutional Neural Networks for Visual Tracking

　　意识到图像分类任务和跟踪之间存在巨大差别，MDNet提出直接用跟踪视频预训练CNN获得general的目标表示能力的方法。但是序列训练也存在问题，即不同跟踪序列跟踪目标完全不一样，某类物体在一个序列中是跟踪目标，在另外一个序列中可能只是背景。不同序列中目标本身的表观和运动模式、环境中光照、遮挡等情形相差甚大。这种情况下，想要用同一个CNN完成所有训练序列中前景和背景区分的任务，困难重重。

　　最终MDNet提出Multi-Domain的训练思路和如上图所示的Multi-Domain Network。该网络分为共享层和domain-specific层两部分。即:将每个训练序列当成一个单独的domain,每个domain都有一个针对它的二分类层(fc6)，用于区分当前序列的前景和背景，而网络之前的所有层都是序列共享的。这样共享层达到了学习跟踪序列中目标general的特征表达的目的，而domain-specific层又解决了不同训练序列分类目标不一致的问题。

　　具体训练时，MDNet的每个mini-batch只由一个特定序列的训练数据构成，只更新共享层和针对当前序列的特定fc6层。这样共享层中获得了对序列共有特征的表达能力，如对光照、形变等的鲁棒性。MDNet的训练数据也非常有意思，即测试OTB100数据集时，利用VOT2013－2015的不重合的58个序列来做预训练。测试VOT2014数据集时，利用OTB100上不重合的89个序列做预训练。这种交替利用的思路也是第一次在跟踪论文中出现。

　　在线跟踪阶段针对每个跟踪序列，MDNet主要有以下几步：

　　(1) 随机初始化一个新的fc6层。

　　(2) 使用第一帧的数据来训练该序列的bounding box回归模型。

　　(3) 用第一帧提取正样本和负样本，更新fc4, fc5和fc6层的权重。

　　(4) 之后产生256个候选样本，并从中选择置信度最高的，之后做bounding-box regression得到最终结果。

　　(5) 当前帧最终结果置信度较高时，采样更新样本库，否则根据情况对模型做短期或者长期更新。

　　MDNet有两点值得借鉴之处：

　　(1) MDNet应用了更为贴合跟踪实质的视频数据来做训练，并提出了创新的Multi-domain训练方法和训练数据交叉运用的思路。

　　(2) 此外MDNet从检测任务中借鉴了不少行之有效的策略，如难例挖掘(hard negative mining)，bounding box回归等。尤其是难例回归通过重点关注背景中的难点样本（如相似物体等）显著减轻了跟踪器漂移的问题。这些策略也帮助MDNet在TPAMI2015 OTB100数据集上OPE准确度绘图从一开始的0.825提升到0.908, OPE成功率绘图从一开始的0.589提升到0.673。

　　但是也可以发现MDNet的总体思路和RCNN比较类似，需要前向传递上百个proposal,虽然网络结构较小，速度仍较慢。且boundingbox回归也需要单独训练，因此MDNet还有进一步提升的空间。

运用递归神经网络进行目标跟踪的新思路

　　近年来RNN尤其是带有门结构的LSTM，GRU等在时序任务上显示出了突出的性能。不少研究者开始探索如何应用RNN来做解决现有跟踪任务中存在的问题，以下简要介绍两篇在这方面比较有代表性的探索文章。

5/6 首页上一页 3 4 5 6 下一页尾页

关于本站

加入我们

网站合作

标签（推荐）