CAP：多重注意力机制，有趣的细粒度分类方案 - AAAI 2021

论文提出细粒度分类解决方案CAP，通过上下文感知的注意力机制来帮助模型发现细微的特征变化。除了像素级别的注意力机制，还有区域级别的注意力机制以及局部特征编码方法，与以往的视觉方案很不同，值得一看
来源：晓飞的算法工程笔记公众号

论文: Context-aware Attentional Pooling (CAP) for Fine-grained Visual Classification

论文地址：https://arxiv.org/abs/2101.06635
论文代码：https://github.com/ArdhenduBehera/cap

Introduction

论文认为大多数优秀的细粒度图像识别方法通过发掘目标的局部特征来辅助识别，却没有对局部信息进行标注，而是采取弱监督或无监督的方式来定位局部特征位置。而且大部分的方法采用预训练的检测器，无法很好地捕捉目标与局部特征的关系。为了能够更好地描述图片内容，需要更细致地考虑从像素到目标到场景的信息，不仅要定位局部特征/目标的位置，还要从多个维度描述其丰富且互补的特征，从而得出完整图片/目标的内容。
论文从卷积网络的角度考虑如何描述目标，提出了context-aware attentional pooling(CAP)模块，能够高效地编码局部特征的位置信息和外观信息。该模块将卷积网络输出的特征作为输入，学习调整特征中不同区域的重要性，从而得出局部区域的丰富的外观特征及其空间特征，进而进行准确的分类。
论文的主要贡献如下：

提出在细粒度图像识别领域的扩展模块CAP，能够简单地应用到各种卷积网络中，带来可观的细粒度分类性能提升。
为了捕捉目标/场景间的细微差别，提出由区域特征引导的上下文相关的attention特征。
提出可学习的池化操作，用于自动选择循环网络的隐藏状态构成空间和外观特征。
将提出的算法在8个细粒度数据集上进行测试，获得SOTA结果。
分析不同的基础网络，扩大CAP模块的应用范围。

Proposed Approach

论文算法的整体流程如上图所示，输入图片，输出具体从属类别，包含3个组件(3组参数)：

基础CNN网络
CAP模块
分类模块

Context-aware attentional pooling (CAP)

定义卷积网络输出的特征为，CAP的模块综合考虑像素级特征、小区域特征、大区域特征以及图片级特征的上下文信息进行分类。

pixel-level contextual information

像素级特征的上下文信息主要学习像素间的关联度，在计算位置的输出时根据关联度综合所有其他像素特征，直接使用self-attention实现，特征转化使用卷积。这一步直接对主干网络输出的特征进行操作，但没在整体流程图中体现。

Proposing integral regions

为了更高效地学习上下文信息，论文在特征图上定义不同粒度级别的基本区域，粒度级别由区域的大小决定。假设位置上的最小的区域为为例，可通过放大宽高衍生出一系列区域，，。在不同的位置产生相似的区域合集，得到最终的区域合集。覆盖了所有的位置的不同宽高比区域，可以提供全面的上下文信息，帮助在图片的不同层级提供细微特征。

Bilinear pooling

按照上一步，在特征图上得到个区域，大小从最小的到最大的，论文的目标是将不同大小的区域表示为固定大小的特征，主要采用了双线性插值。定义为坐标转换函数，为区域坐标，对应的特征值为，则转换后的图片的坐标上的值为:

为采样函数，为核函数，这里采用的是最原始的方法，将目标坐标映射回原图，取最近的四个点，按距离进行输出，最终得到池化后的固定特征。

Context-aware attention

这里，论文使用全新的注意力机制来获取上下文信息，根据与其他特征的相似性进行加权输出，使得模型能够选择性地关注更相关的区域，从而产生更全面的上下文信息。以查询项和一组关键词项，输出上下文向量：

参数矩阵和用来将输入特征转换为查询项核关键项，为非线性组合，和为偏置项，整体的可学习参数为，而注意力项则代表两个特征之间的相似性。这样，上下文向量能够代表区域蕴含的上下文信息，这些信息是根据其与其他区域的相关程度获得的，整体的计算思想跟self-attention基本相似。

Spatial structure encoding

上下文向量描述了区域的关键程度和特点，为了进一步加入空间排列相关的结构信息，论文将区域的上下文向量转为区域序列(论文按上到下、左到右的顺序)，输入到循环神经网络中，使用循环神经网络的隐藏单元来表达结构特征。
区域的中间特征可表示为，采用LSTM，包含LSTM的相关参数。为了增加泛化能力和减少计算量，上下文特征由进行全局平均池化得到，最终输出上下文特征序列对应的隐藏状态序列，后续用于分类模块中。

Classification

为了进一步引导模型分辨细微的变化，论文提出可学习的池化操作，能够通过组合响应相似的隐藏层来整合特征信息。论文借鉴NetVLAD的思想，用可导的聚类方法来对隐藏层的响应值进行转换，首先计算隐藏层响应对类簇的相关性，再加权到类簇的VLAD encoding中：

每个类簇都有其可学习的参数和，整体思想基于softmax，将隐藏层的响应值按softmax的权重分配到不同的类簇中。在得到所有类簇的encoding向量后，使用可学习的权值和softmax进行归一化。因此，分类模块的可学习参数为。

Experiments and Discussion

在不同的数据集上，对不同方法进行对比。

不同主干网络下的准确率对比。

不同模块输出特征的可视化，图b是加入CAP后，主干网络输出的特征。

Conclusion

论文提出细粒度分类解决方案CAP，通过上下文感知的注意力机制来帮助模型发现目标的细微特征变化。除了像素级别的注意力机制，还有区域级别的注意力机制以及局部特征编码方法，与以往的视觉方案很不同，值得一看。

如果本文对你有帮助，麻烦点个赞或在看呗
更多内容请关注微信公众号【晓飞的算法工程笔记】

work-life balance.

展开阅读全文

页面更新：2024-04-17

标签：注意力卷积上下文局部模块特征有趣机制区域目标方案论文信息

1 2 3 4 5

CAP：多重注意力机制，有趣的细粒度分类方案 - AAAI 2021

Introduction

Proposed Approach

Context-aware attentional pooling (CAP)

Classification

Experiments and Discussion

Conclusion

巴菲特最后的午餐：有人为追星，有人为名利，有人只是为了慈善

一图看懂美元霸权

生意难做不是实体店不行了，而是赚钱的方式变了

6个维度实测8款热销「抽纸」，我们为你选出了最值得囤货的几款

国产芯片供应链集体突围，中芯国际已扶持出10家上市公司

俞敏洪拟开电商学院！称为不为挣钱、为培训文化主播，网友：主播都一个学校毕业的，有啥意思？

母亲骂他不孝子，被绑架注射麻醉剂，60岁的俞敏洪太难了

房子会跌至一线2万，二线8000元，三四线4000元吗？答案来了

还没完？美联储7月或再加息75个基点！日本：雅蠛蝶

注意！买这5家公司的5款重疾险，就是被割韭菜

老年人下肢无力，有常见5个原因，怎样预防和应对，医生告诉您

阿托伐他汀片最佳服用时间，你真的知道吗？

中医如何提高记忆力0

蔬菜发芽有毒？分情况！四种食物发芽再吃营养翻倍

夏天吃黄瓜正当季，但是也不能随便吃，3种人最好少碰

“三多一少”，糖尿病的典型特征，出现这种情况就要重视了

38岁还能飞！詹姆斯训练展现进攻状态，湖人新赛季目标确定

索要5年1.8亿顶薪！维金斯将勇士逼上绝路金州1换3交易

胚胎单细胞图谱揭示“细胞类型大爆发”的特征

智慧科技园区规划设计方案，值得学习

利物浦被截胡，中场目标又少一位

好好生活，生活的目标是健康和快乐~致自己

国足重组11人豪华阵容！目标夺取东亚杯第3冠，陈戌源开900

沪媒：谢晖也许是距离“改变中国足球”目标最近的那个人

智慧校园大脑｜智慧校园大数据信息化AIOT平台建设整体解