基于物理渲染的NIR-VIS人脸识别

arxiv 2022 11月论文insightface人脸识别最新力作

论文题目:

Physically-Based Face Rendering for NIR-VIS Face Recognition

论文地址:

https://arxiv.org/abs/2211.06408

摘要

近红外(NIR)到可见光(VIS)人脸匹配是具有挑战性的,由于显著的域差距以及缺乏足够的数据进行跨模态模型训练,为了克服这一问题,我们提出了一种新的成对NIR-VIS人脸图像生成方法,具体来说,我们从一个大型的2D面部数据集重建了三维脸型和反射率,并介绍了一种将VIS反射率转换为近红外反射率的新方法,然后,我们使用基于物理的渲染器生成一个巨大的、高分辨率的和逼真的数据集,包括近红外和可见光谱中的各种姿势和身份,此外,为了便于身份特征学习,我们提出了基于身份的最大平均差异(ID-MMD)损失,这不仅减少了近红外和VIS图像在域级别上的模态差距,而且鼓励网络关注身份特征,而不是面部细节,如姿势和配饰,在四个具有挑战性的NIR-VIS人脸识别基准上进行的大量实验表明,所提出的方法可以实现与最先进的(SOTA)方法相当的性能,而不需要任何现有的NIR-VIS人脸识别数据集。通过对目标NIR-VIS人脸识别数据集进行微调,我们的方法可以显著超过SOTA的性能,代码和预训练的模型在insightface GitHub下发布。

1介绍

为了克服传统的可见光(VIS)图像人脸识别方法在光照条件较差的情况下普遍不能达到令人满意的性能,近红外(Near InfraRed, NIR)图像和可见光(VIS)图像的人脸识别近年来在计算机视觉界越来越受到重视,然而,由于缺乏足够的NIR-VIS数据,NIR-VIS人脸识别网络的训练容易出现过拟合的情况。

为了缓解过拟合问题,前人尝试将VIS图像转换为NIR图像来生成大规模的NIR-VIS人脸图像,然而,基于图像到图像转换的方法受到源域数据量和生成图像多样性的限制,最近,无条件生成模型被用于从噪声中合成异构人脸图像对,并通过在生成过程中采用目标NIR-VIS数据集的各种内部变化(如姿态和照明)来实现最先进的性能,虽然考虑了类内多样性,但每个身份只生成一个NIR-VIS对,这限制了合成人脸图像在NIR-VIS人脸识别任务中的潜力。

当为一个给定的身份生成多个NIR-VIS图像对时,我们观察到不能很好地保持身份一致性,如图1(a)所示,此外,生成的图像的外观变化是基于目标NIR-VIS人脸识别数据集,这意味着合成不同的人脸图像以适应不同的目标数据集,这种特定于数据集的人脸生成降低了NIR-VIS人脸识别网络的泛化性。

为了解决上述问题,我们提出了一种新的基于物理的面部图像生成方法,该方法基于获得的可渲染的3D面部产生成高质量的NIR-VIS面部图像对,渲染逼真的3D面部数据集使我们能够获得具有可控身份、姿势、表情和照明的配对标记训练数据,与生成方法相比,当改变其他参数时,呈现的身份完全不会改变,这极大地帮助了训练。

然而,获取人类渲染需要大量的手工工作,无论是扫描系统还是艺术家,现有的数据集要么是规模较小的,要么不包含可重反射的,如漫反射率、镜面反照率和法线,最近的工作介绍了从任意面部图像生成高质量渲染资产的方法,此外,Wood等表明,高质量的合成面部数据,可以成功地用于计算机视觉任务,包括关键点定位和面部解析,然而,据我们所知,在VIS和NIR领域都没有能够生成可渲染的3D人脸的数据集或方法。

利用最先进的面部反射率采集方法,我们生成了大量这样的人脸,并将它们从VIS转换为NIR,然后在相同的条件下进行渲染,以生成高质量的训练数据,由于我们的新转换方法应用于高分辨率反射率地图上的逐像素,因此在近红外和可见中都完美地保留了主题的身份,由所提出的方法生成的人脸如图1(b)所示,可以看出,我们的NIR-VIS人脸生成在保持身份一致性和保持面部外观多样性方面优于之前的方法(图1(a))。

然后使用生成的高质量NIR-VIS人脸图像数据集以及VIS人脸识别数据集来训练NIR-VIS人脸识别网络,为了方便身份特征学习并减少模态差异,提出了一种基于身份的最大平均差异(ID-MMD)损失,该损失将同一身份在近红外域和VIS域的特征质心拉近,在ID-MMD损失的辅助下,近红外图像和VIS图像之间的差距在域层面上被弥合,同时,网络被鼓励关注身份特征,而不是实例的面部细节,如姿势和配饰,总体而言,我们的主要贡献可以概括为:

•提出了一种能够通过3D面部重建生成大量不同身份、姿势和照明的配对近红外和VIS面部图像的方法,以及一种用于面部反射率的新型VIS-NIR转换方法。

•为了弥合近红外图像和VIS图像之间的差距,我们提出了基于身份的最大平均差异(ID-MMD)损失,这不仅减少了域级别上的模态差异,而且鼓励网络关注身份特征而不是面部细节。

•在四个NIR-VIS人脸识别基准上进行的大量实验表明,所提出的方法与最先进的方法具有相当的性能,而不需要任何现有的NIR-VIS人脸识别数据集,通过对目标NIR-VIS人脸识别数据集上的模型进行微调,我们的方法超越了SOTA的性能。

2背景及相关工作

NIR-VIS人脸识别 为了便于NIR-VIS人脸识别,早期的工作主要集中在学习模态不变特征,通过在大规模VIS人脸图像上预训练的共享特征提取器提取近红外和VIS图像的特征,其中模态不变的身份信息然后通过正交约束过滤掉,类似地,DFAL和OMDRA试图通过将与身份相关的表示与模态不变的表示分离来净化身份信息。为了进一步缩小两种模态之间的差距,WCNN最小化了近红外和VIS图像特征分布之间的Wasserstein距离,WIT将每个模态视为一个整体,并通过中心最大平均差异损失来挤压两种模态的中心,smcl设计了一个基于中心的损失来调节融合模态和近红外(VIS)模态之间的关系,但由于NIR-VIS数据量有限,上述方法普遍存在过拟合问题。

为了解决这一问题,生成模型通过图像到图像的转换(image-To-image translation)将VIS人脸图像转换为NIR人脸图像或合成异构人脸图像对,从而促进NIR-VIS人脸识别任务。通过学习NIR-VIS图像对之间的patch-to-patch映射,从近红外图像中生成VIS人脸。通过基于双路径生成对抗网络(GAN)的框架将近红外人脸图像传输到相应的VIS图像。提出了一种基于GAN的多流特征级融合技术,利用极化热图像合成可见光图像。然而,“一对一”人脸合成策略带来的改进受到NIR-VIS人脸识别数据集中图像数量的限制,以及生成图像的属性多样性的缺乏,因此,Dvg-face不再采用条件图像生成,而是采用V变分自动编码器(VAE)为给定的新身份合成成对的NIR-VIS人脸图像,身份表示从身份采样器中获得,该身份采样器在大规模人脸识别数据集上进行预训练。

受Dvg-face的启发,生成大量成对的NIR-VIS人脸图像有利于NIR-VIS人脸识别,然而,我们注意到,当从给定的身份表示通过Dvg-face生成多个NIR-VIS人脸图像对时,身份一致性不能很好地保持,这种缺点阻碍了生成的人脸图像提高识别性能的潜力,因为它们不能为身份特征学习提供明确的指导,因此,我们提出了一种新的NIR-VIS人脸图像生成方法,其中使用基于物理的渲染器来生成大量的照片真实数据集。

NIR-VIS渲染 长期以来,合成数据集一直用于人脸分析问题,并取得了一定的成功,DA-GAN和UV-GAN开创了用于姿态不变人脸识别的真实轮廓人脸生成,Wood等人最近的一项工作,通过使用手工制作的高质量照片逼真的面部化身,在各种面部分析任务中实现了最先进的性能,面部外观方法利用深度生成模型和可微分渲染来重建可照片逼真渲染的面部,此外,另一个作品将不完整的效果图投射到深度生成模型的潜在空间中,重建相应的真实感面部图像,虽然在可见光谱中有效,但这种方法不能直接用于近红外。

关于VIS近红外渲染的文献仍然有限,Wu等引入了一种波长相关的双向反射分布函数(BRDF)用于中波长红外(MWIR)景观场景模拟,此外,Aguerre等模拟了城市热成像,虽然与我们的工作最接近,但上面没有一个可以直接在NIR-VIS中渲染逼真的人脸,通过这种方式,我们采用了最近在真实感合成面部方面的工作,并将其与我们新颖的VIS-近红外转换相结合,以释放NIR-VIS面部匹配的潜力。

3提出的方法

在这项工作中,为了克服现有的小规模NIR-VIS人脸识别数据集引起的过拟合问题,我们生成了一个庞大的、高分辨率的、照片逼真的数据集,包括在NIR和VIS光谱中具有各种姿势和照明的大规模身份(第3.1节),然后,生成的NIR-VIS人脸图像对以及大规模的VIS人脸识别数据集用于训练NIR-VIS人脸识别网络,而不需要任何现有的NIR-VIS数据集(第3.2节)。

3.1 NIR-VIS面部渲染

我们提出了一种能够生成大量真实感的NIR-VIS人脸图像对的方法,以方便异构人脸识别任务,我们没有使用2D生成模型,而是在VIS域重构了一组能够进行照片逼真渲染的3D面部资产。资产包括面部形状和VIS空间变化反射率属性,编码在uv空间纹理映射中,可以在渲染期间进行采样,同时,我们用一种新颖的VIS-NIR变换方法将这些图像转换到近红外域,并渲染成对图像,如下面的部分所述,通过这种方式,我们可以在任意姿势和光照条件下创建成对标记的NIR-VIS面部图像,具有许多身份。

VIS反射数据采集 最近的工作已经从任意人脸实现了高质量的渲染就绪VIS人脸重建,通过这种方式,我们获得了超过200k张面部图像Ii的数据集CelebA,并拟合了一个纹理的3D变形模型(3DMM),一个基于ganfit的拟合F,以获得重建的纹理和网格Si,我们采用基于avatarme++的图像到图像转换网络A,将面部反射率图从重构的3DMM纹理图中分离出来,这样,对于每张图像Ii,我们就得到了VIS域中的形状Si、漫反射率AVISDi、镜面反照率AVISSi和表面法线NVISi(也称为镜面法线):

可见光到近红外反射率的转换 人体皮肤是一种介电材料,同时具有漫反射和镜面反射,在VIS光谱中,漫射反照率AVISD描述了当介质被均匀的白色照明照亮时,每个RGB通道发出的光量,另一方面,镜面反照率AVISS描述了入射光在NVIS法线方向上的反射强度,为了将这些空间变化的反射率值转换为近红外光谱,我们定义了以下经验模型,假设反射率属性可以由入射照明的波长线性描述,在VIS (380 - 700nm)和近红外照明(850nm)中。

表面法线可以使用单传感器输入R、G或B获取,众所周知,对于在白色照明下测量的法线,由于皮肤中光的次表面散射,较短波长的入射照明显示出更清晰的表面细节,对于绿色波长wG和红色波长wR,我们计算了高斯核G的宽度σ,以最小化绿色法线NG和红色法线NR之间的差异(公式2),这种转换已被证明对法线操作有效,对于近红外波长wNIR,我们根据红色和近红外波长之间的距离缩放σ,并在VIS法线NVIS上应用G,以获得近红外法线NNIR:


近红外传感器是单色的,它的响应更类似于VIS红通道的响应,假定面部VIS漫反射率AVISD是在均匀白光下测量的,其红色通道ardd测量皮肤对红色波长wR的响应,再次假设波长和光谱响应之间的关系,从红色到红外,我们定义近红外扩散反照率ANIRD,作为模糊的红色通道反照率ARD,与Eq. 2相反,这里我们使用双边滤波器,以保留面部细节的边缘。

最后,我们保留VIS镜面反照率为AVISS = ANIRS,假设它在可见光谱中与波长无关,但是,我们降低了整体镜面粗糙度,与目标近红外波长与可见光谱平均值的距离成比例,根据以上,我们定义完整的NIR-VIS变换函数为ANIRD, ANIRS, NNIR = T (AVISD, AVISS, NVIS, wN IR)。

成对的NIR-VIS渲染 显式提取详细的反照率和法线图的重要性在于,我们可以使用照片逼真的渲染算法,例如我们的案例中的GGX,我们收集了一组n个环境图E1,…En E,定义了各种现实场景的入射照明,定义一个VIS物理渲染器RVIS (S, RVIS, M, E) I Rh w 3,其中h, w为渲染图像的大小,S为人脸形状,RVIS = [AVISD, AVISS, NVIS]为反射率,M为形状旋转矩阵,E为环境图,对于近红外渲染,我们定义了一个类似的单色渲染器RNIR (S, RNIR, M, E) I Rh w 1,最后,由于近红外传感器通常依赖于放置在镜头附近的泛光照明器,我们创建了一个环境地图Ef,仅在相机方向放置泛光照明器,然后,对于一个映射Ei,我们定义等效的近红外映射为ENIRi = Ei + Ef。

然后,我们使用生成的VIS和NIR面部资产以及VIS和NIR渲染器,在任意照明和姿态下生成成对的NIR-VIS面部图像集,对于具有形状Si和反射率RVISi和RNIRi的给定主体i,我们随机采样a)一个环境图Ej E,它沿Y轴以随机角度θj [0,360]旋转,b)一个旋转矩阵Mj,通过IV ISi,j = RVISi (Si, RVISi, Mj, Ej)和IN IRi,j = RNIRi (Si, RNIRi, Mj, ENIRj)来呈现NIR-VIS图像对。

3.2 NIR-VIS人脸识别

与大多数NIR-VIS人脸识别工作不同,本文使用生成的异构人脸数据集与大规模VIS人脸识别数据集一起显式训练NIR-VIS人脸识别网络,具体来说,我们提出了包含C个身份的大规模VIS人脸识别数据集X = {xi}Ni=1,对应的身份标签Y = {yi}Ci=1。

同理,合成的具有Cs身份的NIR-VIS数据集记为Xs = {xi}Nsi=1,标签Ys = {yi}Csi=1。N和Ns分别表示VIS数据集和合成的NIR-VIS数据集中的图像数量,注意,由于合成的身份来自CelebA,因此VIS人脸识别数据集与合成的身份之间没有重叠,给定X和Xs构建的最终训练集,在身份损失和提出的基于身份的最大平均差异(ID-MMD)损失的监督下,训练一个广泛使用的人脸识别网络,NIR-VIS人脸识别任务是利用从网络中获得的身份特征进行的。


身份损失 为了提高人脸识别网络的辨别能力,我们在训练中使用了基于边缘的softmax loss Lid,表示为:

式中cosθj,i = WjTfi, fi为第i个图像的归一化特征,Wj为第j类的归一化权向量,θj,i为Wj与fi的夹角,M1, m2和m3是边际参数,S是特征尺度,Nr和Ns分别为真实VIS人脸和合成NIR-VIS人脸的训练样本数。

ID-MMD损失 为了克服NIR-VIS人脸识别任务的主要挑战,即跨模态差异,采用了为迁移学习任务设计的最大平均差异(Maximum Mean difference, MMD)损失形式上,给定一个包含M张近红外图像和N张VIS图像的小批量,MMD损失Lmmd的公式如下:

其中φ(·)表示将原始数据映射到一个再现核希尔伯特空间(rekernel Hilbert Space, RKHS) h的核函数,虽然MMD损失通过对准NIR-VIS特征分布来减小域差异,但严格采用这种域级约束对NIR-VIS人脸识别网络训练是次优的,因为它将每个模态视为一个整体,忽略了模态内的身份特征分布,如图3所示。

为了解决这个问题,一个显式的解决方案是减少潜在空间中每个具有相同身份的NIR-VIS图像对之间的距离,即最小化NIR-VIS特征之间的成对均方误差(PMSE) Lpmse,具体来说,从异构数据集中随机抽取P个身份,每个身份抽取K张近红外图像和K张VIS图像,形成2 P张K图像的小批量,Lpmse表示为:


其中f nir/vis p,k表示第p个单位的第k个nir/vis图像的归一化特征,尽管考虑了身份分布,但这种成对的损失减少了实例级别上的模态差异,在实例级别上,网络极有可能关注面部细节,如姿势和配饰,而不是身份特征,以图3中戴眼镜的女孩为例,PMSE损失可以减少NIR-VIS图像对之间的特征距离,鼓励网络关注正面姿态或眼镜,而不是身份特征。

为了解决基于域(MMD损失)和基于实例(PMSE)的模态差异减少损失的问题,我们提出了一种基于id的MMD损失limmmd,它通过减少RKHS中相同身份的NIR-VIS特征质心之间的距离来弥合模态差距,形式上,对于给定的mini-batch,提出的Lidmmd表示如下:


本文提出的基于身份的模态差异减小损失不仅减小了近红外图像和可见图像之间的模态差距,而且还鼓励每个模态内相同身份的特征紧凑分布,即减小了模态内差异,总的来说,NIR-VIS人脸识别网络的目标记为L = Lid + λ Lidmmd,其中λ是训练期间设置为100的平衡参数。

4实验

4.1数据库与协议

使用四个NIR-VIS人脸识别数据集对所提出的方法进行了评估,具体来说,CASIA NIR-VIS 2.0(725个身份)和LAMP-HQ(573个身份)是最具挑战性的NIR-VIS人脸识别数据集,因为在姿势、光照和年龄方面存在巨大的面部外观多样性,采用验证率(VR)@错误接受率(FAR)=0.01%, VR@FAR=0.1%, Rank-1准确率进行评价,对于Oulu-CASIA NIR-VIS和BUAA-VisNir两个低镜头人脸识别数据集,分别将数据集内的身份划分为20/20和50/100,用于训练/测试集的设置,考虑到数据规模小,采用VR@FAR=0.1%和Rank-1精度作为评价指标。

4.2实验细节

NIR-VIS人脸生成 为了获取3D面部资产,我们使用avatarme++,使用RealFaceDB在1024 1024像素的纹理上进行训练,以GANFIT为基础,使用的数据集是CelebA,但是,其他2D面部数据集可以用于扩展泛化,对于渲染,我们使用了高度参数化的商业渲染软件Marmoset Toolbag,对于来自CelebA的每个身份,我们在不同的姿势和光照下合成20个VIS和NIR面部图像对。

NIR-VIS人脸识别 我们使用LightCNN-29[48]作为NIR-VIS人脸识别主干,Dvg-face使用MS-Celeb-1M数据集中的约500万张图像进行预训练,为了与Dvg-face进行公平的比较,我们使用大规模VIS数据集的一个子集,即WebFace4M进行训练,WebFace4M包含从WebFace260M中随机选择的200k个身份的400万张图像,此外,本文不再使用128 128张人脸图像作为输入,而是将所有人脸图像对齐并裁剪为112 112。

在训练过程中,我们首先在WebFace4M和合成数据集上训练带有身份损失Lid的网络20 epoch,然后,对同时具有身份损失Lid和ID-MMD损失Lidmmd的合成图像进行5 epoch的网络微调,批处理大小设置为512,在微调过程中,随机选取32个身份组成一个小批量,每个身份随机选取8张VIS和8张近红外图像,采用随机梯度下降(SGD)作为优化器,其中动量设置为0.9,权重衰减设置为1e-4,学习率最初设置为1e-2,每10个epoch衰减0.5倍。

4.3消融研究

近红外反射率生成 我们通过重构LAMP-HQ的主题,展示了我们提出的近红外反射率生成方法中每个组件的重要性,并展示了我们的算法相对于其他方法的有效性,在图4和表1中,我们将我们的方法与VIS资产的单色渲染进行比较,或者删除一些我们的转换,我们的方法不仅能够生成逼真的近红外效果图,而且可以在保持主体身份的同时保持各种姿势,因为它是基于渲染3D资产的。

身份一致性和多样性 在DVG-Face之后,我们分别通过平均相似度(MS)、平均实例相似度(MIS)和Frechet Inception Distance (FID)等评价指标分析生成的NIR-VIS图像的身份一致性、身份多样性和分布一致性。为了进行公平的比较,我们从DVG-Face和我们生成的NIR-VIS图像中随机选择了1000个身份,对于每个身份,随机选择16张近红外图像和16张VIS图像进行评估,结果如表2所示,注意,除了作为DVG-Face测量每个NIR-VIS图像对之间的MS外,我们还测量为给定身份生成的多张图像之间的特征相似度,分别用表2中的1v1和1vN表示,较高的阶级内(身份)相似性(MS)证明了我们这一代人在保持身份一致性方面的优势,此外,我们的方法实现了较低的类间相似性(MIS),从而保证了身份的多样性,同时,LightCNN评估的较低FID有助于适应真实世界的NIR-VIS人脸识别数据集。

生成数据的有效性 为了证明所提出的NIR-VIS人脸生成方法可以显著促进NIR-VIS人脸识别,我们比较了在生成数据的不同百分比{0%,10%,50%,100%}下,用所提出的ID-MMD损失训练的模型的性能,从表3中,对LAMP-HQ的测试结果可以看出,生成的图像不断提高性能,当所有生成的数据都参与时,效果最好。

域适应损失的比较 为了将我们的ID-MMD损失与其他模态差异减小损失进行比较,我们在LAMP-HQ数据集上进行了消融研究,具体来说,采用PMSE损失、MMD损失和ID-MMD损失来监督NIR-VIS人脸识别网络的学习,相应的识别性能如表4所示,可以观察到,采用本文提出的ID-MMD损失进行优化时,网络性能最佳,当VR@FAR=0.01%时,网络性能优于PMSE损失1.56%,优于MMD损失1.04%。

IDMMD的有效性 为了更好地理解生成的NIR-VIS面部图像的优势以及提出的基于身份的最大平均差异(ID-MMD)损失,我们可视化了Oulu-CASIA NIR-VIS和LAMP-HQ数据集的身份特征分布,具体来说,对于每个数据集,我们从测试集中随机选择10个标识,对于每个身份,我们随机选择10张近红外图像和10张VIS图像,我们用t-SNE可视化了由基线网络“LC 29†(Lid)”和提出的网络“LC 29†+ Fake (Lid + Lidmmd)”派生的特征分布,可视化结果如图5所示,不同的标识用不同的颜色表示,可以看出,将生成的NIR-VIS人脸图像和ID-MMD丢失后,同一身份的NIR-VIS特征拉近了,同时,对于每个身份,近红外/VIS域内的特征分布更加紧凑,可视化结果表明,该方法可以有效地减少模态内和模态间的差异。

4.4与最新方法的比较

我们在四个NIR-VIS人脸识别基准上广泛地将我们的方法与最先进的(SOTA)方法进行了比较,性能报告如表5所示,我们设置NIR-VIS人脸识别基线LightCNN-29,我们的基线模型,1)在WebFace4M上训练,2)以112 112张人脸图像作为输入,3)在基于边缘的softmax loss下训练,如表5所示,我们的基线模型在较低的输入分辨率下实现了相当的性能。

我们的研究表明,借助合成的NIR-VIS人脸图像和模态差异减少损失,我们的方法在四个基准数据集上极大地提高了基线性能,为了直观地说明所提方法的有效性,我们在图6中可视化了LAMP-HQ的正对(属于同一单位)和负对(属于不同单位)的特征相似度分布,得益于生成的数据和ID-MMD损失,正对之间的相似度增加,负对之间的相似度减少。

可以看出,在不需要任何现有的NIR-VIS人脸识别数据集的情况下,我们的方法在CASIA NIR-VIS 2.0和Oulu-CASIA NIR-VIS数据集上取得了与SOTA方法相当的性能,并且在其他两个数据集上大大超过了SOTA的性能,特别是,在具有挑战性的LAMP-HQ数据集上,我们的方法在VR@FAR=0.1%方面优于SOTA19.8%。

在对目标数据集上的模型进行微调后,性能可以进一步提高,具体而言,如表5最后两行所述,通过在微调时采用标识损失(Lid),在LAMP-HQ上VR@FAR=0.01%从92.0%增加到94.5%,在对目标NIR-VIS人脸识别数据集进行微调时,引入了提出的ID-MMD损失(Lidmmd),进一步提高了性能,具体而言,在LAMP-HQ上,VR@FAR=0.01%上的性能提高了6.6%,此外,在包含较少身份的两个低镜头NIR-VIS人脸识别数据集,即Oulu-CASIA NIR-VIS和BUAA-VisNir数据集上,我们在VR@FAR=0.1%方面分别超过DVG-Face 1.8%和0.8%,总之,在对目标NIR-VIS人脸识别数据集进行微调后,我们的方法在四个基准测试中优于所有其他竞争对手。

5 结论

针对跨模态人脸识别网络训练中NIR-VIS数据不足的问题,本文提出了一种新的NIR-VIS人脸生成方法,在保持身份一致性的前提下,生成大量具有不同姿态和光照的真实感配对NIR-VIS人脸图像,这种优点可以使用生成的数据集以及大规模的VIS人脸识别数据集来训练NIR-VIS人脸识别网络,该网络可以实现与最先进的方法相当的性能,而不需要任何现有的NIR-VIS人脸识别数据集。此外,为了弥合训练过程中近红外图像和VIS图像之间的域差距,提出了一种基于身份的最大平均差异(ID-MMD)损失,它减少了域层面的模态差异,并鼓励网络关注身份特征而不是面部细节,在四个NIR-VIS人脸识别基准上的定性和定量实验结果表明了该方法的优越性。最后,为了理解面部匹配的社会影响,我们的方法是为手机近红外传感器建模的,并且仅限于手机近红外传感器,因此它的使用旨在为此类设备提供更友好的用户体验。

展开阅读全文

页面更新:2024-06-11

标签:法线   反射率   面部   图像   特征   损失   物理   身份   方法   数据   网络

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2008-2024 All Rights Reserved. Powered By bs178.com 闽ICP备11008920号-3
闽公网安备35020302034844号

Top