基于成对特征关系和坐标的NIR到VIS人脸识别

arxiv 2022 8月论文

论文题目:

NIR-to-VIS Face Recognition via Embedding Relations and Coordinates of the Pairwise Features

论文地址:

https://arxiv.org/abs/2208.02417

摘要

NIR-to-VIS人脸识别是通过提取域不变特征来识别两个不同域的人脸,然而,由于两种不同的领域特征,以及缺乏近红外人脸数据集,这是一个具有挑战性的问题。为了减少使用现有人脸识别模型时的域差异,我们提出了一个“关系模块”,它可以简单地添加到任何人脸识别模型中,从人脸图像中提取的局部特征包含人脸各组成部分的信息,基于两个不同的域特征,使用局部特征之间的关系比使用它本身更具有域不变性,除了这些关系,位置信息,如从嘴唇到下巴或眼睛到眼睛的距离,也提供了域不变信息,在我们的关系模块中,关系层隐式地捕获关系,坐标层对位置信息建模。此外,我们提出的具有条件边际的Triplet损失减少了训练中的类内变化,并导致额外的性能改进。与一般的人脸识别模型不同,我们的附加模块不需要使用大规模数据集进行预训练,所提出的模块仅使用CASIA NIR-VIS 2.0数据库进行微调,与两个基线模型相比,使用所提出的模块,我们实现了14.81%的rank-1准确率和15.47%的FAR改进验证率。

1. 简介

近年来,深度卷积神经网络(Deep Convolutional Neural Network, DCNN)在计算机视觉领域表现出了良好的性能,在人脸识别任务上也有了很大的改进,具体来说,DCNN从输入图像中提取人脸的代表性特征,并将这些特征分类为每个身份,为了识别每个身份,有两种方法:一种是使用分类层,如softmax,另一种是直接学习与人脸相似度对应的特征,如余弦相似度,两种方法都是为了使类间距离大,类内距离小,从而获得更好的性能。

异构人脸识别是指从草图到照片、TIR(热红外)到VIS(可见光)、NIR(近红外)到VIS这两个不同域获取的图像中的人脸识别,特别是近红外摄像机被广泛应用于视频监控和安防,因为在夜间或低光环境下,它比VIS摄像机有用得多,因此,在异构人脸识别中,针对NIR-to-VIS进行了大量的研究。

NIR-VIS人脸识别的最大难题是域不变特征的提取,因此,扩大每个类间的变化,减少每个类内的近红外和VIS特征之间的差异是很重要的,Song等人使用CycleGAN将近红外人脸图像转换为VIS人脸图像。

在人脸识别中,提取出能够区分每个人的一般特征是非常重要的,人脸识别网络使用大规模数据集,如MSCeleb-1M或Labeled Faces in the Wild来概括特征,然而,NIR-VIS数据集是一个相对较小的训练数据集,因此仅训练NIR-VIS数据集的网络不能提供令人满意的性能,因此,大多数的NIR-to-VIS研究都是通过对预先训练好的模型进行微调来完成的,很难设计出新的架构,也很难将学习转化为性能良好的人脸识别模型。

为了解决这些问题,如前所述,本文提出了一个附加组件“关系模块”,利用在视觉数据上训练的现成模型来提取域不变特征,而不需要预先训练过程,由于纹理信息在域差异中占主导地位,我们的附加模块只提取纹理信息之间的关系,受关系网络的启发,我们的模块捕获人脸组件的关系,它将图像中每个对象之间的关系建模,并应用于可视化问答问题。

类似地,我们提出的关系模块通过捕获面部每个组件之间的关系,减少了近红外和VIS之间的域差异,feature map经过卷积网络后,每个cell代表输入人脸图像的局部patch,如嘴唇、眼睛、下巴等,我们的模块查看它们的所有可能组合,不需要显式地指出补丁的实际关系。由于这些关系代表了身份的特征和域不变性,因此适用于NIR-VIS识别任务,各部件的位置信息也是重要的信息,比如嘴唇到下巴的距离或者眼睛到眼睛的距离都可以作为身份的特征,由于它也是域不变信息,我们添加坐标层来指示关系模块上的位置。

为了减少额外的域差异,我们提出了带条件裕度的三重损失,提出了一种条件裕度,为类内提供自适应裕度,在本文中,我们的主要贡献是:

•为了减少两个不同域特征之间的差异,关系模块捕获了作为面部组件的成对补丁之间的关系和位置。

•本文提出了考虑类内分布的条件裕度三重损失,同样对于困难采样,所有锚点和目标(阳性,阴性)都从不同的域进行采样。

•附加模块显示,与未进行预训练的基线模型相比,性能提高了14.81%,与完全预训练的基线模型相比,性能提高了4.19%,我们的最高一级精度达到98.92%,与最先进的方法相比较。

2. 相关工作

传统的NIR-to-VIS人脸识别方法是模态不变特征学习,它学习的特征可以用两种不同的模态创建一个健壮的特征空间,随着深度学习方法的发展,Yi等采用了RBM结合去除的PCA特征,Liu等通过将带有三重损失概念的CNN应用于NIR-toVIS人脸识别来提高性能,Wu等利用全连通层的低秩和块对角约束来缓解过拟合,并提出了跨模态排序来减少域差异,He et al使用Wasserstein距离来缩小域间隙,以获得用于NIR-to-VIS人脸识别的域不变特征。

另一种方法是利用数据合成,通过图像合成将人脸图像从一种模态转换为另一种模态,在Wang et al中首次提出了从人脸照片中合成和识别草图图像的数据合成方法,在开发了深度学习和GAN后,Zhao等人利用GAN进行数据合成,Song等人利用CycleGAN实现了跨光谱的人脸,通过生成实现了异构人脸识别。

我们的关系模块是受到Santoro等的启发,他们提出了一个关系网络,在Visual Q&A问题中发现对象之间的关系,Kang等也将同样的关系网络概念应用于人脸识别,然而,我们将其应用于NIR-to-VIS任务,因为关系网络操作具有域不变特征。

Liu等发现,在一定情况下直接编码特征的位置信息,对于提高网络的性能非常有用,Vaswani等还通过设计具有位置编码的编码器和解码器来提高性能,因此网络可以利用顺序的顺序信息,因此,这些直接的位置信息启发了坐标层的设计,这使得关系模块在查找每个特征之间的关系时非常有用。

关于人脸识别的各种研究都集中在损失设计上,以提高特征的鉴别能力,主要分为基于softmax的损失方法和基于三元组的损失方法,近年来,基于余弦相似度的角边缘的研究,使人脸识别性能得到了提高,这些研究也可以应用于NIR-to-VIS人脸识别,虽然Liu等将三重损失应用于NIR-to-VIS人脸识别,但其他改进的具有角边缘概念的损失在NIR-to-VIS人脸识别中的应用还没有得到充分的研究。

3.提出的方法

在本节中,我们将概述我们的网络和提出的关系模块的方法,它由关系层和坐标层组成,在此基础上,引入了条件边缘和硬采样的三重态损失,减小了近红外和可见光人脸图像之间的距离。

3.1. 概述

我们的网络旨在学习从人脸图像的不同领域提取相似的嵌入特征,整个框架如图2所示,网络的输入是近红外或VIS人脸图像,经过ConvNet后,提取N N特征图,对于特征提取基线,我们使用LightCNN,这个特征映射是关系模块的输入,在关系模块中,我们考虑N N个特征向量的数量以及它们与位置信息的所有成对组合,这些组合对集通过分片全连接层,嵌入到l维的关系向量中,在全连接层完成后,最后提取代表每个身份的256维嵌入特征向量。

在训练过程中,我们使用了基于softmax分类器的方法和基于条件裕度的三组损失方法,对于三重态损失,我们在一个域中采样锚点,在另一个域中采样负、正样本。

3.2. 层关系

由于CNN具有局部连通性特征,CNN后的特征映射的每个单元格都代表输入的局部部分,每个通道向量都在局部部分内保存有代表性的信息。

在图2中,ConvNet的输出是N N feature map(我们使用N=8),这些N N数量的特征向量代表了面部的局部斑块,如嘴唇、眼睛和鼻子,这些是面部的重要特征,在关系层中,我们考虑特征向量的所有成对组合,通过两两组合,可以得到人脸两个斑块之间的关系,由于这些关系与顺序无关,因此存在2N (2N+1)/2个无顺序组合,这些组合通过共享全连接层嵌入到l维关系向量中,该过程提取了斑块的代表性关系,如形状关系、大小关系等,关系层不需要定义显式的或实际的关系,而是简单地查看补丁的所有组合,隐式地发现一般关系,由于这些关系减少了域的依赖性,因此无论域如何,每个标识都表示为相似的关系向量。

3.3. 坐标层

人脸分类时,人脸各部分的位置是一个重要的信息,面部部分的相对距离,如嘴唇到下巴或眼睛到眼睛的距离,可以是身份的代表性特征,由于该信息不依赖于域,可以有效地用于NIR-to-VIS人脸识别任务,因此,我们在每个特征向量上添加坐标层,可以给出每个patch的位置信与[15]类似,我们只是添加了两个额外的通道,它们表示两个空间维度,第一个通道的第一个用0填充,第二行用1填充,等等,第二个通道的填充方式也与第一个通道类似,但列是常量,并按比例缩放为[-1,1],如图2所示,这些坐标(CoordConv)与每个向量连接,并用于捕获关系。

3.4. 损失函数

3.4.1 Softmax Loss

在训练网络时,我们使用了softmax分类损失和三组损失,对于softmax损失,我们通过L2归一化对嵌入特征xi进行归一化,此外,归一化特征被重新缩放到s,在公式1中,我们表示批量大小N,类别M的数量,最后一个softmax层的权重w和嵌入向量x。

3.4.2 Triplet Loss with Conditional Margin

由于两个域差异之间存在较大的类内差异,因此引入了三重态损失,方程2为原始三重损失函数,其中xa(锚点)为随机选择的输入图像的嵌入特征向量,xp(正)为与锚点同类的嵌入特征向量,xn(负)为与锚点不同类的嵌入特征向量,损失函数设计的目的是最小化同一恒等式之间的欧氏距离,最大化不同恒等式之间的距离。


在方程2中,距离差应该大于边距m,我们在图3中绘制出每个类最接近的负特征,x轴为锚点正余弦相似度Sp, Y轴为训练集中锚点负余弦相似度Sn的最大值。

然而,公式2不适合我们的任务,从图中我们可以看到,Sp和Sn之间的相关性不是1,这意味着每个Sp的损失准则应该是不同的,考虑到Sp和Sn的分布,我们提出了条件裕度。

在式3中,CS表示余弦相似度,我们应用自适应考虑边际的条件裕度,在图3中,考虑条件余量线的三联体损失不仅考虑截距值(1 - m),还考虑斜率m,式3是我们的条件余量三联体损失(m=0.7),总损失定义在式4中。

为了减少域之间的差距,我们在不同域上使用锚定对正样本和反样本进行采样,这种采样迫使近红外和可见特征具有相同的身份,并使类内紧凑而不受域的影响。

4. 实验与结果

4.1. 数据库

实验采用CASIA NIR-VIS 2.0人脸数据库,该数据库由725个身份和10次实验组成,每个身份有1-22张VIS图像和5-50张NIR图像,它是目前最大、最具挑战性的异构任务数据库,我们通过144 144大小裁剪每张图像,在训练期间我们随机裁剪到128 128大小,在训练集中,大约有来自360个身份的8600个近红外或VIS图像,在测试集中,图库集仅由一幅VIS图像组成,探测集由来自358个身份的约6000幅近红外图像组成。

4.2. 实现

我们的基线是LightCNN(删除了softmax层),它有9(或29)个卷积层,该基线在MS-Celeb-1M数据集上进行预训练,关系模块获取输入和特征到64维关系向量的8 8 size特征映射,我们的关系模块仅使用CASIA NIR-VIS 2.0数据库进行了微调,为了防止训练集上的分类器过拟合,我们在最后的softmax层应用dropout,学习率从10 3开始,逐渐下降到10 5,批大小设置为128,平衡参数λ为10。

4.3. 结果

4.3.1关系模块结果

我们遵循CASIA NIR-VIS 2.0 Face Dataset View 2评估协议,该协议由10个子实验组成,训练集和测试集的所有实验身份不重叠,表1显示了1、0.1、0.01% FAR的1级识别率和验证率结果。

在表1中,预训练模型I为LightCNN-9,表示全网在MS-Celeb-1M上进行预训练,并在CASIA NIR-VIS 2.0数据库上进行微调,基线I是LightCNN-9,只对特征提取器进行了预训练,并对全连接层进行了微调,预训练模型I的rank-1准确率为93.21%,基线I为82.59%。我们将关系层和坐标层添加到基线I,其中FC层被移除,关系层的添加率为94.73%,坐标层的添加率为95.21%。此外,我们添加了具有条件余量的三元组损失,其性能为97.4%,与基线i相比,准确率提高了14.81%,由于关系模块不需要预训练,可以通过简单的微调程序添加任何其他人脸识别特征提取器,在表1中,对于预训练的模型II和基线II,我们使用具有29个卷积层的LightCNN-29。预训练模型II和基线II的效率分别为97.65%和95.21%,在添加关系模块和带条件裕度的三重损失后,0.1% FAR的正确率为98.92%,验证率为98.72%。

表2展示了基于深度学习的CASIA NIR-VIS 2.0数据库上的其他HFR模型,我们比较的模型是HFR-CNN(2016), COTS+Lowrank(2017), TRIVET(2016) , IDR(2017, ADFL(2018), CDL(2017)和W-CNN(2018),实验结果见表2,与W-CNN相比,具有条件三重损失的关系模块的性能提高了0.52%,这与最先进的模型进行了比较。

4.3.2 Triplet Loss with Conditional Margin Results

我们在关系模块网络中应用了不同的损耗(基线为LightCNN-9),当我们只使用softmax loss时,表3中的rank-1准确率为95.21%,在表3中,我们实验m = 0.6, 0.7, 0.8,分别表示斜率,0.6,0.7,0.8和截距,0.4,0.3,0.2。

将原始的三重裕度与我们建议的条件裕度进行比较,建议的损失带来了2.38%的性能增益,通过修改m,当m = 0.7时效果最好,为97.4%,这说明网络需要有足够的条件裕度进行训练,并且是数据库依赖的参数,结果表明,用条件裕度最小化类内,用softmax损失分离类间是更有效的训练方法。

4.3.3嵌入特征可视化

以近红外和可见人脸图像为输入,将训练后网络的256维嵌入特征向量输出可视化,通过遵循t-SNE,如图4所示,V和N表示VIS和NIR特征,数字表示每个身份,(a)是基线的结果,(b)是我们提出的模块的结果,该模块添加了关系模块和条件裕度的三重损失,在图4中,每种颜色表示标识和(b)中的大多数标识明显分开,还比较了身份内近红外和VIS之间的距离,(b)比(a)更接近,显示紧凑的类内。例如,在(a)中,V10和N10(或V13和N13)彼此距离较远,靠近其他单位,从而导致错误的识别,而在(b)中,每个类的大部分嵌入特征都是紧凑的,所有的身份都有足够的分离,性能很好。

5. 结论

本文提出了一个附加模块—关系模块,它可以同时从现有模型中获取成对特征的关系和坐标,关系层有效地捕获了面部每个组件的成对关系,坐标层对来自特征的位置信息进行建模,此外,提出的具有条件裕度的三组损失通过在锚正和锚负之间建模数据依赖的自适应裕度来提高性能。

实验结果表明,我们的关系模块的每个组件仅通过在基线模型的目标数据集上进行训练来提高准确性,显示出与最先进的算法的比较性能,我们的嵌入特征可视化显示,关系模块不仅有效地减小了近红外和可见域之间的域差异,而且还扩大了类间的相对距离。

异构人脸识别的主要难点之一是缺乏来自不同域的标记数据集,该方法将现有的视觉人脸识别模型与小型NIR-VIS人脸数据集相结合,有效地解决了这一问题,我们未来的工作将以相同的框架扩展到其他领域,如草图和热红外。

展开阅读全文

页面更新:2024-03-20

标签:特征   关系   基线   向量   标的   模块   模型   图像   损失   性能   条件

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2008-2024 All Rights Reserved. Powered By bs178.com 闽ICP备11008920号-3
闽公网安备35020302034844号

Top