Transformer在CV领域有可能替代CNN吗？n0609-赢咖4注册

ramy 2021-01-11 23:59:18 图像处理 | 查看评论

这里来谈一下自己几点粗鄙的认识：

（1）CNN是通过不断地堆积卷积层来完成对图像从局部信息到全局信息的提取，不断堆积的卷积层慢慢地扩大了感受野直至覆盖整个图像；但是transformer并不假定从局部信息开始，而且一开始就可以拿到全局信息，学习难度更大一些，但transformer学习长依赖的能力更强。

另外从ViT的分析来看，前面的layers的“感受野”（论文里是mean attention distance）虽然迥异但总体较小，后面的layers的“感受野“越来越大，这说明ViT也是学习到了和CNN相同的范式。

Transformer CV

（2）CNN对图像问题有天然的inductive bias，如平移不变性等等，以及CNN的仿生学特性，这让CNN在图像问题上更容易；相比之下，transformer没有这个优势，那么学习的难度很大，往往需要更大的数据集（ViT）或者更强的数据增强（DeiT）来达到较好的训练效果。n0609

好在transformer的迁移效果更好，大的数据集上的pretrain模型可以很好地迁移到小数据集上。还有一个就是ViT所说的，transformer的scaling能力很强，那么进一步提升参数量或许会带来更好的效果（就像惊艳的GPT模型）。

Transformer CV

（3）目前我们还看到很大一部分工作还是把transformer和现有的CNN工作结合在一起，如ViT其实也是有Hybrid Architecture（将ResNet提出的特征图送入ViT）。

而对于检测和分割这类问题，CNN方法已经很成熟，难以一下子用transformer替换掉，目前的工作都是CNN和transformer的混合体，这其中有速度和效果的双重考虑。

另外也要考虑到如果输入较大分辨率的图像，transformer的计算量会很大，所以ViT的输入并不是pixel，而是小patch，对于DETR它的transformer encoder的输入是1/32特征这都有计算量的考虑，不过这肯定有效果的影响，所以才有后面改进工作deform DETR。

短期来看，CNN和transformer应该还会携手同行。最新的论文Rethinking Transformer-based Set Prediction for Object Detection，还是把现有的CNN检测模型和transformer思想结合在一起实现了比DETR更好的效果（训练收敛速度也更快）：

3/4 首页上一页 1 2 3 4 下一页尾页

关于本站

加入我们

网站合作

标签（推荐）