Teach CLIP to Count: 如何提高CLIP模型的计数能力？

#论文阅读# 原文「链接」

Count 计数

背景

基于对比学习的视觉语言预训练模型CLIP可以学习到丰富的视觉-文本表示，促进了很多下游任务的发展和进步，例如零样本分类、文生图等。

然而，它却有一些十分可证实的突出局限性——计数能力欠缺。在保证不影响通用能力的前提下，如何提高视觉-语言模型的定量理解能力，是本文的主要讨论内容。

Counting-aware CLIP

为什么CLIP在计数任务上表现差？

作者指出了两个导致CLIP在计数能力上欠缺的主要原因：

1）训练数据captions中，一方面，对于物体数量做精确描述的样本比较少，特别是当数量多的时候，比如6个以上时，会用一些模糊和宽泛的描述词（a group of , many, ...）；另一方面，还存在许多在计数任务上错误描述的样本。

离线检测模型自动筛选出的错误训练样本

2) 即使存在一些精确数量描述的captions样本，计数任务在训练VLM的过程中（loss计算）贡献较少，这是因为 “数量”跟“物体类别”等名词性短语相比，所包含的信息量更少，对于text,image 能否正确匹配起到的作用更小。

L = Lclip + λLcount

怎样提高CLIP的Count计数能力？

为此，作者针对性的提出了两个优化方案：

1）制作包含准确数量描述的训练数据captions. 具体的，数据制作使用了一个离线的目标检测网络，用来得到图片中的物体种类和对应的数量。

2）设计了一个训练目标（损失函数Lcount），提高计数任务重要性，使数量不匹配的caption 和图片之间的距离更远，数量匹配的catpion和相应图片的距离更近。

损失函数Lcount只在Counting Subset中计算，其他不包含数量描述的训练数据只计算一般的Lclip。

有咩有想到人脸识别？

效果展示

经过优化的CLIP模型，图文匹配关于数量的相关性显著提升。并且，模型更加关注图片中与计数有关的区域。

图文对的相关性热图

此外，作者提出了一个叫CountBench的评测集，下图是该评测集的一些样例图片和对应的文本描述。它是从开源数据集LAION-400M 中挑选，并由模型自动生成标签，再经人工校对后所得到的。

CountBench

Open Question

多模态视觉语言模型（MLLM)一般使用冻结的视觉编码器（CLIP VIT L/14）, 同样出现上文所述的计数能力弱的问题，如果使用本文所述方法对CLIP做微调后再冻结作为视觉编码器，是否可以改善MLLM在计数问答任务上的表现呢？

老大任务已经布置了，且等一试。

各路大佬如果还有其他想法，也请在评论区留言，欢迎讨论~

展开阅读全文

页面更新：2024-04-13

标签：模型离线能力编码器样本物体数量视觉数据图片

1 2 3 4 5

Teach CLIP to Count: 如何提高CLIP模型的计数能力？

背景

为什么CLIP在计数任务上表现差？

效果展示

Open Question

菏兰高铁河南段双线桥梁贯通

将脑、身、脊髓以电子方式连接，AI大脑植入技术恢复患者感觉和运动

桌面应用打包：pyinstaller

应急救援“千里眼”！超宽带雷达生命探测仪

LK-99室温超导疑云背后：低温超导产业化已较为成熟

偏出跑道飞机已成功搬移，宁波机场有序推进航班恢复

萤石将携多款智能锁新品亮相建博会

宁波机场8月8日上午10时前航班全部取消

无畏契约冠军赛第二日：FPX不敌EG，DRX击败NAVI晋级淘汰赛

EDG无缘S赛后，官博公开道歉！粉丝怒斥：AD差距！Uzi是6强最菜AD

JDG成为第四支冲击全年大满贯的战队，Knight：今年想要S赛冠军！

梦幻西游：109竞速魔王，竟带130无级别刷任务，1814法伤很馋人！

Evo 2023电竞大赛所用PS5主机遇尴尬，USB插头因过热而“融化”

“小虎憋尿三连跳图”火了，全程碾压Rookie，王多多再次发文恭喜

低端局常见的出装误区，射手第一件出无尽，法师舍不得做梦魇

她是董卿的接班人！被誉为央视最美主持人，能力丝毫不输董

如果没有“绿数”“绿算”，全国数据中心将耗掉4座三峡

海航增加北京至柏林直飞航班数量

揭秘赵白鸽"计划生育无强制"言论真相，历史数据披露令人

人脸识别新规会否冲击刷脸支付？部分支付机构：开通时已征

访中国电子云助理总裁：政务数据治理未来或呈现三大趋势

描述性、诊断性、预测性和规范性数据分析的全面概述以

人工智能千万人才缺口下，高校新增大模型课程，重产教融合

西工大在大模型异构智能体方面取得重大进展

月壤样本抵港！