打印
[技术讨论]

多模态PCANet:一种高精度、低复杂度的鲁棒3D**检测方案

[复制链接]
3097|0
手机看帖
扫描二维码
随时随地手机跟帖
跳转到指定楼层
楼主
SmartToF|  楼主 | 2020-10-20 16:44 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 SmartToF 于 2020-10-20 16:44 编辑

当下正值新冠肺炎(COVID-19)肆虐全球之际,戴口罩成为了全民阻断病毒传播的最佳方式。然而在人脸部分遮挡或恶劣光照条件下,用户人脸识别或人脸认证的合法访问常常提示**检测失败,甚至根本检测不到人脸。这是由于目前基于RGB等2D空间的主流**检测方案未考虑光照、遮挡等干扰因素对于检测的影响,而且存在计算量大的缺点。而数迹智能团队研发的3D SmartToF**检测方案则可以有效解决此问题。本文将会围绕这些问题,介绍数迹智能的最新成果——基于ToF的3D**检测算法。
1. 什么是**检测?
根据IEEE首个生物特征**检测国际标准[26]定义,生物特征识别系统捕获访问对象并自动检测呈现攻击(Presentation Attack, PA)的过程统称为攻击检测(Presentation Attack Detection, PAD),又称为**检测。
人脸**检测作为人脸识别技术的先决条件,对保障人脸识别系统的安全性具有重大意义。本文讨论的呈现攻击仅限与关于人脸的非**呈现攻击,如照片、回放视频以及人脸面具等。
2. **检测研究现状
根据**检测国际标准[26],基于对象的人脸**检测方法可分为被动检测与主动检测。主动检测通常需要用户根据指令完成规定动作,根据连续帧动作完成情况判断是否为**,操作繁琐且耗时较长,用户体验感较差;而被动检测通过对单帧人脸图像判断是否为**,以其自然性、实时性,更适用于不同应用场景。
图2-1 **检测算法分类
2.1 2D**检测
2D**检测未利用任何的空间结构信息,现存的2D**检测算法包括基于传统的特征提取与基于深度学习方法。传统的特征提取方法包括特征描述子如局部二值模式(LBP)[1]、梯度方向直方图(HOG)[3]、灰度共生矩阵(GLCM)[4]等,以及利用图像失真[8]分析**与非**之间的差异性;传统算法根据**与欺骗攻击的差异来设计特征,最后通过分类器决策;基于深度学习方法则是使用卷积神经网络将低阶特征(像素、纹理、方向等)逐层编码,获取图像的高阶表示。
在算法复杂度层面,传统的算法复杂度低但准确率相对较低。针对手动设计的差异如纹理、颜色等,在样本自身或者外部因素发生变化时,算法性能受到极大的影响,算法自身的泛化性和鲁棒性较差。如Schwartz等[4]利用灰度共生矩阵(GLCM)表征人脸图像灰度空间内方向、变换快慢和幅度的综合信息。基于深度学习算法的复杂度和准确率相对较高,Yang等[10]利用卷积神经网络(CNN)进行端到端的有监督学习,将**检测当做一个二分类任务,自动提取图像特征,并直接用参数表达。与传统方法不同的是,深度学习算法的特征理解具有不可解释性,但是其自适应特征提取过程在一定程度上增强**检测算法的泛化性能。同时深度神经网络也存在的过拟合、梯度消失、梯度爆炸等一系列问题。
2.2 伪3D**检测
伪3D**检测指基于RGB图像使用深度估计算法间接得到空间结构信息的**检测算法。Wang等[15]从RGB图像中恢复稀疏的3D面部结构以进行**检测,这也是首次将估计的3D结构信息用于**检测。Atoum等[16]则利用RGB图像估计深度信息,设计双流CNN网络结合颜色纹理与深度结构特征实现**检测算法,其估计3D深度信息的过程是:将训练图像从RGB空间转化到HSV、YCbCr空间,利用3D脸部匹配算法与3DMM模型计算深度图像标签。伪3D**检测利用RGB图像估计深度信息,虽然不需要额外的深度相机设备进行采集3D数据,但是除了存在计算量大的缺点之外,最关键的是估计数据与实测数据存在较大偏差,直接影响了**检测的准确性。
2.3 3D**检测
3D**检测则直接利用深度相机获取空间结构信息实现**检测算法。Wang等[21]利用Kinect深度相机采集的深度信息,通过提取深度图的LBP特征以及CNN学习到RGB图像的纹理特征,再送入SVM分类完成**检测。Zhang等[19][20]公开了大尺度、多模态数据集CASIA-SURF,该数据集利用Intel RealSense SR300结构光相机采集深度图和红外图,提出融合RGB、深度图与红外图的多流ResNet基准算法。该算法与前两类**检测算法相比,其专注于人脸面部区域,消除背景对检测的干扰。作为经典的3D**检测算法,直接使用深度相机获取空间结构信息,极其容易识别屏幕或者打印攻击。同时结合其他模态(如红外图、RGB图等),为**检测任务提供更多准确的区分性特征,还可以降低了算法的运算复杂度。但该基准算法只针对了6种纸张打印欺骗攻击方式展开,未考虑恶劣条件下的**检测,而且仍存在计算复杂度较大的问题。此外相较于结构光、双目视觉等消费级深度相机,ToF相机具有更强的抗干扰性能,能够准确表征人脸的立体空间结构特性,符合**检测的应用场景条件。
3. 基于ToF的3D**检测
3.1 ToF深度相机
ToF全称为Time-of-Flight,直译为飞行时间。飞行时间法通过连续向目标发送光脉冲,用传感器接收从物体返回的光,通过探测光脉冲的飞行(往返)时间来得到目标物距离。测距原理如图3-1所示。
图3-1 ToF测距原理[27]
由于ToF相机不需要像双目相机一样进行匹配,也不需要像结构光相机一样进行编码,ToF相机的计算相对简单,帧率可达上百fps。在测距范围和精度方面,ToF表现非常均衡,解决了结构光相机远距离受限和双目相机近距离精度不足的问题。同时,ToF作为一种采用主动测距方式的3D相机,在黑暗环境中也能正常工作。高频调制的光源使其在强光环境下的抗光干扰表现优异,ToF相机具有明显的优势。
上海数迹智能科技有限公司开发的SmartToF®相机具有精度高、小型化的特点,测距范围可达0.3~8m,同时覆盖了近景和远景,且精度高可实现毫米级测距精度,实时输出深度数据和强度数据,如图3-2所示。本文利用SmartToF®深度相机,消除外部强干扰因素(如人脸遮挡、恶劣光照等)与人脸多姿态变化(如侧脸、表情等)影响,实现高鲁棒、高精度的3D人脸**检测方案。更多ToF相机相关信息,欢迎访问https://www.smarttof.com 进一步了解。
图3-2 数迹智能ToF相机产品
3.2 3D**检测算法
3.2.1 算法框架
本算法的主要创新点为:
  • 空间层次上的预注意机制。特征学习专注于人脸区域,消除背景对检测的干扰,提取更高区分度的识别特征。
  • 鲁棒人脸特征提取。PCA网络(PCANet)[23]作为层次化鲁棒特征提取的经典网络,将CNN的卷积层引入经典的“特征图—模式图—柱状图”特征提取框架,通过层次化卷积与编码,逐阶段形成图像的高阶特征表达。
  • 多模态数据融合。本方法融合RGB图、深度图、强度图三种模态数据,不同模态数据在PCANet中学习到的特征互补,可有效地区分**与非**。
我们提出3D**检测算法框架主要基于特征级的多模态融合策略,首先FaceBoxes[24]人脸检测器完成人脸检测。非极大抑制(NMS)算法用于选取候选的人脸区域,根据图像中的像素面积大小得到最终的待检人脸区域。再以多模态PCANet为网络主干,对比分析一层PCANet(PCANet-1)与两层PCANet(PCANet-2)在多模态**检测任务中融合的效果。具体地,通过PCA滤波器核卷积与编码,学习多模态数据(RGB、IR、Depth)的高阶特征,融合的直方图统计特征送入到SVM等统计学习分类器完成最终检测。算法框架如图3-3所示。
(a) (b)
图3-3 算法方案:(a) 为多模态PCANet主线框架,(b)为直方图统计融合框架
3.2.2 结果与分析
基于CASIA-SURF和数迹ToF**检测数据集,输入人脸区域像素统一设定为:28×28,所有实验都在Dual-Core Intel Core i5 CPU上完成,除特殊说明外,融合特征均采用支持向量机(SVM)进行分类,惩罚因子C设为20。PCANet-1与PCANet-2参数设置为:所有阶段的PCA滤波器核大小K1×K2=3×3,步长为1。第一阶段PCA滤波器核数目L1=3,第二阶段PCA滤波器核数目L2=3。直方图分块大小为4×4,步长为2。由于测试数据集的正负样本数量大致均匀,本文**检测性能衡量指标包括:分类正确率(CA)、非**攻击呈现分类错误率(LAPCER)[26]、真实呈现分类错误率(BPCER)[26]、平均分类错误率(ACER)以及真正率与假正率组合(TPR@fpr = 10-2,指当假正率为10-2时TPR的值)[19]。
首先探究具有一层PCA滤波器核卷积的PCANet-1、具有两层PCA滤波器核卷积的PCANet-2在CASIA-SURF和数迹ToF**检测数据集上的性能,结果如表3-1所示。
由表3-1可知,PCANet-1在ToF与CASIA-SURF**检测数据集上的综合表现较好,其中PCANet-1在ToF数据集99.9%的正确率与0.3%的平均分类错误率。在CASIA-SURF数据集则实现98.9%的正确率与0.9%的平均分类错误率。因此本文的算法方案选取以PCANet-1为基础的多流融合算法。
在上述基础上,基于PCANet-1,在CASIA-SURF上完成了模态内组合实验,结果如表3-2所示,实验表明在不同模态组合中,深度模态为**检测提供了最大区分度的信息,而且三模态融合方案取得最佳效果。
接下来验证了PCANet-1在强干扰因素和人脸多姿态的挑战场景下的泛化和鲁棒性能,使用SmartToF®相机采集的含有遮挡、表情、姿势变化等干扰的**检测数据集。训练集仍然使用不包括挑战场景下的数迹ToF**检测数据,将新采集的数据集直接利用PCANet-1网络与SVM分类器结合进行测试,结果如表3-3所示,同时在图3-4中展示了部分测试的结果。
结果表明:挑战场景下的**检测仍然保持着99.1%的平均准确率以及1.0%的平均分类错误率。基于PCANet-1的3D**检测算法对于强干扰因素与多姿态变化具有较强的鲁棒性。
(a) 口罩遮挡 (b) 打印欺诈攻击
(c) 表情变化 (d) 侧脸
图3-4 挑战场景下的ToF**检测结果,在口罩遮挡、侧脸(≤90°)、表情变化等干扰因素下能正确地区分**与欺骗攻击
进一步我们对本文提出的算法多模态PCANet-1算法与基于CASIA-SURF的基准算法[19][20]进行了比较,算法对比结果如表3-4所示,其中本文提出的多模态PCANet-1融合的ROC曲线如图3-5所示。
算法对比表明,本文提出的多流PCANet**检测算法,结合SVM分类器下的分类正确率达到98.9%,平均攻击分类错误率为0.9%;结合k-NN分类器,算法的分类正确率达到99.2%,在平均分类错误率上仅为0.8%,显著低于其他算法,这意味着100次欺诈攻击仅有不足1次的检测失败,满足现实场景的应用。同时在ToF**数据集上也证明了提出算法的有效性。
图3-5基于三流PCANet-1在CASIA数据集的**检测ROC曲线
最后我们对比分析了本文提出的算法和基准算法的复杂度,以FLOPs(浮点运算次数, floating point of operations)为时间复杂度指标,针对PCANet-1与基准算法ResNet-18[20]网络主线的时间复杂度进行对比。结果如表3-5所示。
* M为输出特征图大小,K为卷积核大小,C为卷积核的通道数,I、O为全连接层的输入输出;m、n为PCANet输入分块大小,L1为滤波器核数目,K1、K2为滤波器核大小。
表3-5的结果表明:本文提出的算法主线基于简化的深度学习模型,其时间复杂度远小于深度学习基准算法主线,FLOPs仅为2.4×104。但需要注意的是,本文提出的基于三流PCANet-1的3D**检测算法包含以SVM、k-NN为代表的统计机器学习,复杂度较小。但统计机器学习作为内存密集型算法,在样本数据较大时,其运算效率会受到内存的限制。
4. 总结
本文在现存**检测方法容易受到光照、表情、遮挡变化等干扰因素影响的问题基础上,基于TOF相机数据,实现单帧多模态图像的人脸**检测算法。
本文提出的基于三流PCANet的3D鲁棒**检测算法,在公开数据集CASIA-SURF与数迹ToF数据集上的实验结果表明:本文提出的多模态融合算法对于**检测的性能有很大的提升。在CASIA-SURF数据集上结合SVM分类器下的分类正确率达到98.9%,平均攻击分类错误率为0.9%;结合k-NN分类器,算法的分类正确率达到99.2%,在平均分类错误率上仅为0.8%,显著低于其他算法;同时在采集的ToF数据集的正确率达到99.9%,测试分类错误率仅为0.3%,满足现实场景的实际应用。算法框架基于传统FPH框架和简化深度学习模型,在算法运算复杂度上显著低于现存的深度学习基准算法,对于光照、遮挡、姿态变化等具有一定鲁棒性,保障着人脸识别系统的安全性,提高了人脸识别的性能。
5. 参考文献
[1] Chingovska I , Anjos A , Marcel S . On the Effectiveness of Local Binary Patterns in Face Anti-spoofing[C]// IEEE International Conference of the Biometrics Special Interest Group (BIOSIG). IEEE, 2012.
[2] De Freitas Pereira, Tiago, Anjos, André, De Martino, José Mario. LBP-TOP based countermeasure against face spoofing attacks[M]// Computer Vision - ACCV 2012 Workshops. Springer Berlin Heidelberg, 2013.
[3] Zeng C, Ma H. Robust Head-Shoulder Detection by PCA-Based Multilevel HOG-LBP Detector for People Counting[C] International Conference on Pattern Recognition. IEEE, 2010:2069-2072.
[4] William Robson Schwartz, Anderson Rocha, and Helio Pedrini. Face spoofing detection through partial least squares and low-level descriptors. In IJCB, 2011. 3
[5] Li Jiangwei, Wang Yunhong, Jain A K. Live face detection based on the analysis of Fourier spectra[J]. Proceedings of SPIE, 2004, 5404: 296-303.
[6] Zhang Z , Yan J , Liu S , et al. A face antispoofing database with diverse attacks[C]// Biometrics (ICB), 2012 5th IAPR International Conference on. IEEE, 2012.
[7] Boulkenafet Z , Komulainen J , Hadid A . Face Spoofing Detection Using Colour Texture Analysis[J]. IEEE Transactions on Information Forensics & Security, 2016, 11(8):1-1.
[8] Wen D, Han H, Jain A K. Face spoof detection with image distortion analysis[J]. Information Forensics and Security, IEEE Transactions on, 2015, 10(4): 746-761.
[9] Li X , Komulainen J , Zhao G , et al. Generalized face anti-spoofing by detecting pulse from face videos[C] 2016 23rd International Conference on Pattern Recognition (ICPR). IEEE, 2016.
[10] Yang J , Lei Z , Li S Z . Learn Convolutional Neural Network for Face Anti-Spoofing[J]. Computer ence, 2014, 9218:373-384.
[11] Lei Li, Xiaoyi Feng, Zinelabidine Boulkenafet, Zhaoqiang Xia, Mingming Li, and Abdenour Hadid. An original face anti-spoofing approach using partial convolutional neural network. In 2016 Sixth International Conference on Image Processing Theory, Tools and Applications (IPTA), pages 1–6. IEEE, 2016.
[12] Jourabloo A , Liu Y , Liu X . Face De-Spoofing: Anti-Spoofing via Noise Modeling[J]. 2018.
[13] Tu X , Zhang H , Xie M , et al. Deep Transfer Across Domains for Face Anti-spoofing[J]. Journal of Electronic Imaging, 2019.
[14] Liu, Yaojie, Stehouwer, Joel, Jourabloo, Amin. Deep Tree Learning for Zero-shot Face Anti-Spoofing[J]. 2019.
[15] Tao Wang, Jianwei Yang, Zhen Lei. Face Liveness Detection Using 3D Structure Recovered from a Single Camera[J]. 2013.
[16] Atoum Y , Liu Y , Jourabloo A , et al. Face Anti-Spoofing Using Patch and Depth-Based CNNs[C] The International Joint Conference on Biometrics (IJCB 2017). IEEE, 2017.
[17] Liu Y , Jourabloo A , Liu X . Learning Deep Models for Face Anti-Spoofing: Binary or Auxiliary Supervision[J]. 2018.
[18] Liu Y , Tai Y , Li J , et al. Aurora Guard: Real-Time Face Anti-Spoofing via Light Reflection[J]. 2019.
[19] Zhang S , Liu A , Wan J , et al. CASIA-SURF: A Large-scale Multi-modal Benchmark for Face Anti-spoofing[J]. 2019.
[20] Zhang S , Wang X , Liu A , et al. CASIA-SURF: A Dataset and Benchmark for Large-scale Multi-modal Face Anti-Spoofing[J]. 2018.
[21] Wang Y , Nian F , Li T , et al. Robust Face Anti-spoofing with Depth Information[J]. Journal of Visual Communication and Image Representation, 2017:S1047320317301773.
[22] 刘逸飞. 基于光谱分析与深度信息的人脸**检测[D]. 2017.
[23] Chan T H , Jia K , Gao S , et al. PCANet: A Simple Deep Learning Baseline for Image Classification?[J]. IEEE Transactions on Image Processing, 2015, 24(12):5017-5032.
[24] Zhang S , Zhu X , Lei Z , et al. FaceBoxes: A CPU Real-time Face Detector with High Accuracy[C]// International Joint Conference on Biometrics (IJCB). 2017.
[25] He K , Zhang X , Ren S , et al. Deep Residual Learning for Image Recognition[J]. 2015.
[26] Chen Gu, Wei Guo, Qi Wang, et al. IEEE Standard for Biometric Liveness Detection[J].in IEEE Std 2790-2020, IEEESTD.2020.9080669. 2020
[27] 传感器技术mp_discard.3D视觉传感技术[EB/OL].https://www.sohu.com/a/212031137_468626,2017-12-22.

使用特权

评论回复

相关帖子

发新帖 我要提问
您需要登录后才可以回帖 登录 | 注册

本版积分规则

1

主题

1

帖子

0

粉丝