面向NIR-VIS口罩人脸识别

arxiv 2021 4月论文

论文题目：

Towards NIR-VIS Masked Face Recognition

论文地址：

https://arxiv.org/abs/2104.06761

摘要

近红外到可见光(NIR-VIS)人脸识别是异构人脸识别中最常见的情况，其目的是匹配从两种不同模式捕获的一对人脸图像，现有的基于深度学习的方法在NIR-VIS人脸识别方面取得了显著进展，但在新冠肺炎大流行期间，由于人们应该戴口罩来阻止病毒的传播，NIR-VIS人脸识别遇到了一些新出现的困难，我们将此任务定义为NIR-VIS口罩人脸识别，并发现近红外探测图像中的口罩人脸存在问题。首先，面具人脸数据的缺乏是网络训练的一个难题，其次，大部分面部部位(脸颊、嘴巴、鼻子等)被口罩完全遮挡，导致大量信息丢失，第三，在其余的面部部位仍然存在域隙。在这种情况下，现有的方法由于上述问题而遭受严重的性能下降，本文旨在从训练数据和训练方法的角度解决NIR-VIS口罩人脸识别的挑战。具体来说，我们提出了一种新的异构训练方法，利用半连体网络最大化两个域的人脸表示所共享的相互信息，此外，采用基于三维人脸重建的方法，从已有的近红外图像合成口罩人脸。通过这些实践，我们的解决方案提供了域不变的人脸表示，它对口罩遮挡也很健壮，在三个NIR-VIS人脸数据集上的大量实验证明了该方法的有效性和跨数据集泛化能力。

1 介绍

NIR-VIS人脸识别技术已广泛应用于人脸识别领域，特别是在低照度条件下，它旨在匹配近红外(NIR)人脸图像与可见(VIS)图库人脸图像，现有的基于深度学习的方法在NIR-VIS人脸识别方面取得了显著进展，然而，在新型冠状病毒2019年(COVID-19)大流行期间，人们应该戴上口罩来阻止病毒的传播。因此，口罩近红外需要与VIS人脸相匹配。我们将此任务定义为NIR- VIS口罩人脸识别，并发现近红外探测图像中的口罩人脸存在问题。首先，口罩人脸数据的缺乏是现有训练方法面临的一个挑战，其次，如图1所示，由于口罩完全遮挡了面部大部分部位，在这种情况下会丢失大量信息，第三，我们还可以观察到，在其余的面部部位仍然存在域隙，上述问题导致NIR-VIS口罩人脸识别性能显著下降，因此，迫切需要解决NIR-VIS口罩人脸识别中出现的这些新难题。

近年来，针对NIR-VIS人脸识别提出了多种深度学习方法，主要分为两种方案。第一种方案侧重于从异构数据中学习人脸表示，它们的目的是学习一个共同的特征表示空间，在这个空间中，来自两个域的相同身份的人脸表示是相似的，典型的程序是在大规模可见图像上进行CNN预训练，并在异构数据上进行微调。此外，学习域不变表示法也是一种选择，IDR和W-CNN通过将高级卷积层划分为两个正交子空间来实现这一点。

然而，上述方法在NIRVIS口罩人脸识别中存在两个问题，一方面，由于口罩的遮挡，近红外和可见光图像之间的域间隙增大，难以有效地学习人脸表征;另一方面，有限的训练数据会导致过拟合问题，因此，这些方法在NIR-VIS口罩人脸识别中表现不佳。

第二种方案旨在将人脸图像从一个域合成到另一个域，以缩小域之间的差距，研究者提出将近红外或热成像图像合成VIS图像，然后在VIS域进行常规人脸识别算法，随着图像生成能力的显著提高，上述方法在一般的NIR-VIS人脸识别中已经达到了最先进的性能，然而，在NIRVIS口罩人脸识别的场景中，由于口罩遮挡导致大部分面部信息丢失，他们无法从口罩的NIR人脸中合成出逼真的完整VIS人脸。

此外，随着COVID-19的大流行，一些方法被提出用于普通口罩人脸识别。Geng等引入了一种基于gan的方法来合成口罩人脸和一个域约束损失，使口罩人脸在特征空间中接近其对应的完整人脸。此外，提出了一种潜在部分检测模型，用于定位对口罩佩戴具有鲁棒性的面部区域，并用于提取区分特征，上述方法主要研究一般的同构口罩人脸识别，但口罩近红外人脸与全VIR人脸之间的大域间隙是一项更具挑战性的任务。

在本文中，我们研究了NIR-VIS口罩人脸识别，这是在COVID-19大流行期间需要解决的一项具有挑战性的任务，我们打算从训练数据和训练方法两个方面来解决这个问题。首先，提出了一种heterogeneous semi-siamese training(HSST)方法，利用semi-siamese网络最大化两个域的人脸表示所共享的相互信息，具体来说，将一对正面的NIRVIS人脸图像输入半连体网络;通过优化学习目标，半连体网络使口罩近红外图像和VIS图像的人脸表示共享的相互信息最大化。

由于使用了两个异构原型来计算训练损失，它们可以提供两个互补的视图来最大化互信息，其次，为了获得真实的口罩数据，我们采用基于三维人脸重建的方法从现有图像中合成口罩。

通过上述实践，我们的解决方案提供了对口罩遮挡具有鲁棒性的域不变人脸表示，在CASIA NIRVIS 2.0、Oulu-CASIA NIR-VIS和BUAA-VisNir数据集上的大量实验证明了该方法的有效性和跨数据集泛化能力。

2方法

A. Heterogeneous Semi-Siamese Training

Semi-siamese training(SST)来处理浅人脸学习，由于极度缺乏类内多样性，传统的训练方法在浅人脸学习中存在模型退化和过拟合问题。

为了解决这些问题，SST训练由探针网络φp和图库网络φg组成，前者用于嵌入探测图像的特征，后者用于根据图库图像的特征更新原型队列，使用探针特征和基于特征的原型队列来计算训练损失，其中探测网采用SGD优化，图库网采用移动平均更新。

与浅层人脸学习不同，NIR-VIS口罩人脸识别由于域间隙和人脸信息的丢失，类内多样性较大，基于半连体网络，提出了一种用于NIR-VIS口罩人脸识别的异构半连体训练(HSST)。与原始SST相比，我们分别向半连体网络中输入一对正的异构人脸，包括一个掩码的近红外人脸和一个完整的VIS人脸(如图2所示)。此外，我们构造了两个异构原型队列，分别包含由图库网推断的近红外人脸和VIS人脸的特征，然后，利用探测网络推断出的VIS图像特征，利用近红外原型队列计算训练损失，利用近红外图像特征，利用VIS原型队列计算训练损失，这两个网络在可见人脸数据集上进行了预训练。

接下来，我们将研究HSST如何在NIR-VIS口罩人脸识别中表现良好，一般来说，分类方案是深度人脸表示学习的典型程序，我们以softmax交叉熵损失函数(省略偏置项)为例，可以表示为:

其中cos(θi,y)是特征xi与其真实原型wy之间的余弦相似度，s是比例因子，n是原型的数量。

设IN和IV分别为正对NIR和VIS人脸图像，假设我们在probenet中输入IN，在gallery-net中输入IV，在这种情况下，softmax损失可以重新表述为:

其中φp(IN)是探测网推断的近红外人脸表示，φg(IV)是图库网推断的VIS人脸表示，f Vj是VIS原型队列的第j个特征。在每次迭代中，采样的训练ID与原型队列中的ID不相交，因此，上述损失函数中有1对正对和n对负对，此外，φg(IV)与fVj不同，因为它们是由不同状态的图库网推断出来的。然后，我们用I(φp(IN);φg (IV))，最小化学习目标L(IN, IV)等价于最大化互信息，可以表述为:I(φp(IN);φg (IV)) = H(φp()) H(φp(在)|φg (IV)),(3)在H(·)表示熵，通过最小化训练损失L(IN, IV)，将人脸表示分布在特征空间中，使来自两个域的相同身份的人脸表示变得接近，换句话说，它在训练过程中隐式地最大化了熵H(φp(In))，最小化了条件熵H(φp(In)|φg(IV))。

由于NIR人脸和VIS人脸有均等的机会被馈送到探测网或图库网，利用异构原型队列计算两个训练损失，即L(IN, IV)和L(IV, IN)，在训练过程中同时最小化，他们提供了两种互补的观点，以最大限度地提高近红外和VIS人脸表示的相互信息，这样，HSST实现了最大化I(φp(In);φg(IV))和I(φp(IV);φg(IN))，这有利于半连体网络提高域不变人脸表示的质量，同时对口罩遮挡具有鲁棒性，此外，值得注意的是，我们只使用探针网进行测试，这保证了与单一网络设计相同的推理效率和比较公平性。

B.基于口罩人脸合成的人脸重建

针对真实口罩人脸的采集成本较高的问题，提出了一种基于三维人脸重建的口罩人脸合成方法，我们的方法采用PR-Net提取UV纹理图及其对应的UV位置图来表示3D人脸，图3显示了我们的方法合成口罩的流程，具体来说，我们首先从真实口罩图像中分割出口罩，得到口罩模板TM的UV纹理图，然后，给定一个非口罩人脸图像I，我们得到它的UV纹理图TI和UV位置图PI，并根据口罩模板去除UV纹理图TI上对应的区域，得到剩下的UV纹理图TI，最后，我们添加口罩模板TM在TI，这个操作可以简单地表述为:

其中TM I为口罩人脸图像的UV纹理图，然后，从UV纹理图TM I和UV位置图PI中恢复二维口罩人脸图像IM，与基于2d标记和gan的口罩人脸生成方法相比，我们认为三维人脸重建是一种更准确的口罩人脸合成方法，特别是在大姿态情况下。

3实验

A.数据集和预处理

为了证明我们方法的有效性，我们使用了三个广泛使用的NIR-VIS人脸数据集，包括CASIA NIR-VIS 2.0、Oulu-CASIA NIR-VIS和BUAA-VisNir数据集。其中，CASIA NIRVIS 2.0数据集是最大的NIR-VIS人脸数据集，包含725个身份，17580张人脸图像，Oulu-CASIA NIR-VIS数据集由80个具有6种不同表情的身份组成，每个身份包含48张近红外图像和48张VIS图像，训练集和测试集分别包含20个身份。

BUAA-VisNir数据集包含150个身份，每个身份包含9张近红外图像和9张VIS图像，训练集包含50个身份和900张图像，测试集包含1800张图像的提醒，由于测试协议中使用近红外人脸图像作为探测图像，因此我们在训练集和测试集中对所有近红外图像添加口罩，此外，我们使用MS1M-v1c1作为预训练数据集，所有的脸都被Faceboxes检测，然后，我们根据五个面部点对齐并裁剪到144 144图像。

B.实验设置

我们使用了两种基本网络，包括消融研究中的MobileFaceNet和跨数据集实验中的ResNet-50，在本文中，所有模型都是在MS1M-v1c数据集上进行预训练的，为了进行实验比较，我们采用简单训练方法作为基线，在MS1M-v1c数据集上对模型进行预训练，并在NIR-VIS人脸数据集上进行微调，该模型使用两种损失函数进行训练，包括分类损失(softmax, AM-softmax， Arcsoftmax)和特征嵌入损失(即triplet)。

此外，我们还在交叉数据集实验中对IDR和W-CNN两种基于学习的方法进行了比较，在训练阶段，批大小为64，初始学习率设置为0.0005，在6k和8k迭代时除以10，训练在10k次迭代时完成，我们采用的原型尺寸为128，移动平均权重为0.999，在评估阶段，从基本网络的最后一层全连接层中提取512维人脸表示，余弦相似度作为相似度度量，注意，我们只使用探针网进行评估。

C.消融研究

在消融研究中，我们使用MobileFaceNet与softmax损失，并在CASIA NIR-VIS 2.0数据集上训练模型。

我们在CASIA NIRVIS 2.0数据集的视图2中使用标准测试协议，其中包含10次实验，每个文件夹包含357个身份，约2500张VIS图像和6100张近红外图像，对于评估指标，我们报告了排名第一的准确性和验证率FAR=0.1%。表I显示了非口罩和合成口罩CASIA NIR-VIS 2.0数据集的第一文件夹结果，从前三行结果可以看出，NIR-VIS口罩人脸识别的性能明显下降，此外，与底部三行相比，我们可以得出，HSST不仅在非口罩人脸的识别上，而且在口罩人脸的识别上都能取得更好的性能。

此外，我们在CASIA NIR-VIS 2.0数据集上进行了具有各种训练损失函数的全10倍实验，并报告了FAR=1%时rank-1准确率和验证率的均值和标准差，如图4所示，结果显示hst带来了稳定的改善，这可以验证我们的方法在NIR-VIS口罩识别上的优越性。

D.交叉数据集实验

在本实验中，我们采用ResNet-50作为骨干，并遵循PCFH协议在CASIA NIR-VIS 2.0数据集的第一文件夹上训练模型，然后，在Oulu-CASIA NIR-VIS和BUAA-VisNir数据集上对训练后的模型进行评估。

1) CASIA NIR-VIS 2.0数据集的第一文件夹结果:表II显示了合成的CASIA NIR-VIS 2.0屏蔽数据集的第一文件夹性能，从普通训练方法的结果中，我们可以发现三重损失比softmax损失及其变体具有更好的性能，我们认为在这种训练样本有限的情况下，特征嵌入损失比分类损失更适合，无论损失函数是什么，使用HSST都可以获得显著的性能改进。

2) Oulu-CASIA NIR-VIS和BUAA-VisNir数据集的结果:Oulu-CASIA NIR-VIS数据集收集来自CASIA和Oulu大学的图像，并利用与画廊相同身份的所有VIS图像，如表II所示，我们只报告FAR=1%和0.1%时的验证率，因为所有方法都能达到100%的rank-1精度，表II还显示了BUAA-VisNir的性能比较，对于评估指标，我们报告了在FAR=1%和0.1%时的排名第一的准确性和验证率，我们可以观察到HSST显著提高了性能，特别是在严格错误接受率方面，得益于异构原型和半连体网络的设计，我们的方法可以在所有基准测试中获得更好的性能。

结果表明，该方法在跨数据集情况下具有较好的泛化能力。

4 结论

本文从训练数据和训练方法两方面对NIR-VIS口罩人脸识别进行了研究，为此，我们提出了一种异构半连体训练(HSST)，以最大化口罩近红外和VIS图像的人脸表示所共享的相互信息，这可以促进模型学习对口罩遮挡具有鲁棒性的域不变人脸表示，此外，我们采用基于三维人脸重建的方法来合成口罩人脸，以解决口罩人脸数据缺乏的问题，在三个NIR-VIS数据集上的大量实验证明了我们的训练方法比常规训练方法的优越性。

展开阅读全文

页面更新：2024-05-04

标签：口罩队列遮挡原型图像特征损失方法数据网络

1 2 3 4 5

面向NIR-VIS口罩人脸识别

3299元值不值得？Redmi K60 Pro真机上手几天后，优缺点确实很明显

Matplotlib 3.4 gca()方法已经弃用，替代方法

糖类催化转化研究取得进展

大佬熬夜总结的腾讯后台开发岗面经，这将是你进大厂的敲门砖！

小米总裁卢伟冰：相信中国人一定能做出全世界最好的屏幕

林忠毅：工业互联网平台最终要实现每一个创客的价值最大化

一起聊聊 Web Components 的困境？

智慧园区报警解决方案

深剖纳斯达克、Netflix、《阿凡达2》“云端创新” 看懂亚马逊云科技“干货集”

瞭望 - 盟友的困境

马云、药明系接力扶持，刚成立3年的防脱发企业要上市

利率上涨，全球房地产泡沫史无前例！澳洲能否独善其身？

融资最新持仓曝光！减仓医药生物、电气设备、食品饮料

好大夫回到现实

中国人民银行：11月债券市场共发行各类债券50637.9亿元

Matplotlib 3.4 gca()方法已经弃用，替代方法

甘肃绿电赋能“东数西算” 借能源大数据让园区更绿色

2022年度投影仪行业数据分析：十大热门品牌排行榜

玩手机、拎重物时手腕酸痛？这2个缓解方法快试试

都是1392场，詹姆斯37786+10419+10216，邓肯什么数据

新加坡电信将展示其5G网络支持UHD内容的增强移动宽带

一“碰”就怀孕的女人，大都有三个特征，让人羡慕

YOLOv5全面解析教程②：如何制作训练效果更好的数据集

笔记九：Flink常用的sink方法

海康威视子公司萤石网络今日正式上市，总市值达148亿元