误解6:注意力机制优於卷积
在机器学习领域,有一个正得到认同的说法,认为注意力机制是卷积的更优替代。重要的是Vaswani et al 注意到「一个可分离卷积的计算成本,和一个自注意力层与一个逐点前馈层结合后的计算成本一致」。
即使是最新的GAN 网络,也展示出自注意力相较於标准卷积,在对长期、多尺度依赖性的建模上效果更好。
在ICLR 2019 的论文Pay Less Attention with Lightweight and Dynamic Convolutions 中,研究者对自注意力机制在长期依赖性的建模中参数的有效性和效率提出了质疑,他们表示一个受自注意力启发而得到的卷积变体,其参数效率更高。
轻量级卷积(lightweight convolutions)是深度可分离(depthwise-separable)的,它在时间维度上进行了softmax 标准化,通道维度上共享权重,且在每个时间步上重新使用相同权重(类似於RNN 网络)。动态卷积(dynamic convolutions)则是在每个时间步上使用不同权重的轻量级卷积。
这些技巧使得轻量级卷积和动态卷积相较於传统的不可分卷积,在效率上优越几个数量级。
研究者也证明,在机器翻译、语言建模和抽象总结等任务上,这些新卷积能够使用数量相当或更少的参数,达到或超过基於自注意力的基准效果。