2021综述:计算机视觉中的注意力机制(四):时间和分支注意力

3.4 Temporal Attention

表5

3.4.1 Self-attention and variants


RNN和时间池化或权值学习已被广泛应用于视频表示学习中,以捕获帧间的交互,但这些方法在效率或时态关系建模方面都有局限性。

来自相邻帧的短期时间上下文信息有助于区分视觉上相似的区域,而长期时间信息有助于克服遮挡和噪声。GLTR结合了这两个模块的优点,增强了表示能力并抑制了噪声。它可以整合到任何先进的CNN主干网中,学习整个视频的全局描述符。然而,自注意机制具有二次时间复杂性,限制了其应用。

3.4.2 TAM


为了高效灵活地捕捉复杂的时间关系,Liu等人[172]提出了一种时间自适应模块(TAM)。它采用自适应核代替自注意力来捕获全局上下文信息,时间复杂度低于GLTR[171]。

3.5 Branch Attention


Branch attention 可以看成是一种动态的分支选择机制:要注意哪个,与多分支结构一起使用。

3.5.1 Highway networks


受长短期记忆网络的启发,Srivastava等人提出了高速公路网络,该网络采用自适应选通机制,使信息能够跨层流动,以解决训练非常深层网络的问题。

3.5.2 SKNet


神经科学界的研究表明,视觉皮层神经元根据输入刺激自适应地调整其感受野 (RF) 的大小。这启发了 Li 等人提出了一种称为选择性内核(SK)卷积的自动选择操作。

SK 卷积使用三个操作实现:拆分、融合和选择。在拆分过程中,将具有不同内核大小的变换应用于特征图以获得不同大小的 RF。然后通过逐元素求和将来自所有分支的信息融合在一起以计算门向量。这用于控制来自多个分支的信息流。最后,在门向量的引导下,通过聚合所有分支的特征图来获得输出特征图。这可以表示为:


3.5.3 CondConv


CNN 中的一个基本假设是所有卷积核都是相同的。鉴于此,增强网络表示能力的典型方法是增加其深度或宽度,这会带来显著的额外计算成本。为了更有效地增加卷积神经网络的容量,Yang 等人提出了一种新的多分支算子,称为 CondConv。

图10

图 10. CondConv。(a) CondConv 首先组合不同的卷积核,然后使用组合核进行卷积。(b) 专家混合首先使用多个卷积核进行卷积,然后合并结果。虽然 (a) 和 (b) 是等价的,但 (a) 的计算成本要低得多。

CondConv 充分利用了多分支结构的优点,采用分支注意力的方法,计算成本低。它提出了一种有效提高网络能力的新方法。

3.5.4 Dynamic Convolution


轻量级 CNN 的极低计算成本限制了网络的深度和宽度,进一步降低了它们的表示能力。为了解决上述问题,Chen 等人提出了动态卷积,这是一种新颖的算子设计,它增加了表示能力,而额外的计算成本可以忽略不计,并且不会与CondConv并行改变网络的宽度或深度。

展开阅读全文

页面更新:2024-04-29

标签:分支   卷积   时间   组合   算子   宽度   注意力   机制   视觉   成本   能力   计算机   网络   信息

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2008-2024 All Rights Reserved. Powered By bs178.com 闽ICP备11008920号-3
闽公网安备35020302034844号

Top