基于多层深度学习框架和运动分析的驾驶员疲劳监测系统 Francesco Rundo1 Sabrina Conoci1 Francesca Trenta2 Sebastiano Battiato2
意法半导体 IPLAB –卡塔尼亚大学数学和计算机科学系
摘要:汽车工业的最新发展引起了科研人员对疲劳驾驶监测的研究兴趣,意图开发一种有效的驾驶员监测系统,能及时发现心理物理状态异常,减少疲劳驾驶引起的交通事故。现在许多文献特别专注于生理信号的研究,通过测量心率变异性(HRV)来得到有关心脏运动的信息。事实上,HRV还是一个有效的评估生理压力的指标,因为它可以提供与自主神经系统支配的心血管系统活动相关的信息。本文旨在通过提取人脸特征点,分析由血压引起的皮肤细微运动,再以一个稳健的方式重构光电容积图(PPG)信号。所得结论是,传感器检测到的PPG信号与使用人脸特征点重构的PPG信号有很强的相关性,而且我们从实验结果中获得了支持这一结论的证据。
关键字:机器学习,LSTM,驾驶员疲劳驾驶
1 前言
困倦是一种生理状态,其特征是人的意识程度降低,难以保持清醒状态。根据国家安全委员会的调查,在美国,疲劳驾驶导致的致命性事故的占比正在显著上升[1]。因此,开发一种可以提前发现驾驶员生理状况不适宜开车的有效预警系统将具有重要意义。据报道,有研究显示,心率变异性(HRV)与驾驶员的注意力程度相关联[2]。准确的讲,心率变异性是一个代表个体的生理适应能力和行为灵活性的重要指标。评估心脏运动的方法是使用PPG信号测量血压,由此再评估心率变异性。具体地说,PPG信号是由代表逐次心动周期的血管容积峰值组成,PPG检测方法是,使用LED光源照射皮肤的不同部位,再用光电二极管评价光的反射强度[3]。尽管生理信号使我们能够监测困倦程度,但是最近的研究方向主要是使用计算机视觉技术评估驾驶员的疲劳程度[4]。虽然在汽车环境中开发人脸检测系统肯定具有挑战性,但仍有许多方法使用摄像头确定眨眼率,由此来评估疲劳程度[5]。与其它研究不同,我们的方法侧重于利用计算机视觉技术来检测和提取人脸特征点,通过分析先前录制的视频序列的像素强度变化,来定义人脸特征点的时间序列。更具体地说,我们的方法的基本原理也是通过“视频放大”来揭示血压变化引起的面部细微运动。本研究的目的是通过定义人脸特征点时间序列而不是使用传感器来构建PPG信号。
本文后面的结构如下:第二部分介绍相关的研究成果;第三部分概述PPG信号,并介绍我们的基于长期短**和卷积神经网络的管道。第四部分解释实验过程。最后,第五部分讨论我们方法的优点和未来研究方向。
2 相关研究
在以往发表的论文著作中,大部分是通过生理信号检测驾驶员困倦,取得了很高的检测精度。事实上,很多研究证明,仅基于计算机视觉技术的驾驶员疲劳监测解决方案可能不一定行之有效,尤其是侧重于分析交通标志的视觉方法,在路况不佳时,往往会失败。
一部分科研人员曾公布了一项光体积描述信号(PPG) 检测研究成果[6],作者使用低功率无线PPG传感器取得了很好的检测效果。另一种方法 [7] 是作者利用在手指和耳垂检测到的低频和高频PPG信号来评估疲劳程度。本文引用的研究成果主要是通过研究ECG和PPG信号来评估HRV信号。不过,本文所引用的方法对计算性能有较高的要求,需要在车上集成昂贵的检测设备。尽管集成的传感器不一定是直接测量工具,但为了准确地获取生理信号,驾驶员还是需要将手或身体的其它部分(例如耳垂或手指)放在传感器上,这对于在汽车上推广应用是一个限制。本文另辟蹊径,提出一个创新的框架,基本原理是抓取司机面部图像,采集人脸特征点,重建PPG信号,以此评估HRV信号和疲劳程度。
3 背景和管道方案
如前所述,我们提出了一种创新的驾驶员困倦状态监测方法,而无需使用传感器来获取PPG信号。部分学者的研究成果[8]阐述了视频放大方法是如何通过放大普通视频图像来揭示人脸面部的运动变化,因为逐次心动周期中的血压变化会引起皮肤不同部位的颜色变化。研究证明,自主神经系统活动可调节某些生理过程,例如,血压和呼吸速率,通过评估心率变异性信号可以间接测量这些生理过程,因为心率变异性信号在生理压力、极度疲劳和困倦期间会出现变化。
评估HRV心率变异性需要使用生物反馈工具或软件,以及检测心电信号的高质量传感器,还需要功能强大的处理器来管理大量的数据。ECG信号是传统的心率变异性评估方法,不过,这种方法在使用上存在某些缺陷,尽管检测效果良好,但是在数据采集(数据采样)过程中,人体的细微运动会导致信号内出现一些噪声和伪影。为了克服ECG的问题,业界提出PPG信号是可靠的解决方案,检测血液容积变化的能力使PPG能够有效地检测裸眼难以观察到的皮肤细微运动。特别是,通过分析PPG信号,我们能够界定在特定时段内的心率变化,显示自主神经系统的两个分支(副交感神经和交感神经)是否都在正常工作。通常,HRV值小,表示心率间隔恒定;HRV值大,则表示心率间隔异常。非常正常的心律和心率的细微变化可以确定注意力是否因为慢性生理压力而降低。但是,不存在一个标准的HRV值,因为HRV值因人而异。
考虑到这一点,我们采用长期短**(LSTM)神经网络[9]与卷积神经网络(CNN)[10]相结合的方法开发了一个驾驶员困倦监测系统。本文提出的管道机制代表心脏运动评估方法取得了进步,因为它是使用一个低帧率(25fps)摄像头检测和提取人脸图像中的关键特征点,并分析每个视频帧的像素变化。准确地讲,LSTM是评估数据之间隐藏的非线性相关性的有力解决方案。 具体地讲,LSTM管道的输出是综合传感器检测到的原始PPG目标数据后预测的人脸特征点时间序列。 此外,CNN模型的准确分类表示LSTM预测有效,可以确定汽车驾驶员的注意力程度。
4 实验
总共有71个对象参与了我们的LSTM-CNN管道运行。更具体地说,数据集是来自不同性别、年龄(20至70岁之间)和病理的病患/驾驶员的PPG样本。在这种情况下,我们不仅采集健康对象的数据,还收集高血压、糖尿病等病患的数据。考虑到这两种困倦状态的差异,分别测量了两种困倦各自的PPG信号样本。具体地而言,我们模拟被同步ECG采样信号证实的完全清醒和困倦两种情景,其中Beta和Alpha波形分别证实大脑在唤醒和困倦时的活动状态。每种情景的模拟间隔设为5分钟,以确保系统有充足的时间完成初步校准和实时连续学习。同时,我们使用低帧率(25fps)全高清摄像机记录一段驾驶员的面部视频,如前文所述,我们先用基于Kazemi和Sullivan机器学习算法 [11] 的dlib库,检测先前录制的视频帧,提取人脸面部特征点,然后,计算与每个特征点关联的像素强度,以及每帧像素强度的变化,确定人脸特征点的时间序列,将其输入LSTM神经网络。
4.1 CNN管道
本节将更详细地介绍实验中使用的CNN模型架构。本文提出的CNN架构为验证LSTM预测结果提供有力的证据。具体地讲,我们的CNN模型能够跟踪和学习汽车驾驶员的面部表情,从而提高困倦检测水平。为了训练模型,我们将批大小(batch size)设为32,初始学习率设为0.0001。此外,我们在隐藏层中使用了32个神经元,在二进制分类中使用了2个输出神经元。 我们非常看好实验结果,因为准确率达到80%。
4.2 长短期**网络(LSTM,Long Short-Term Memory)管道 图. 1. LSTM管道 关于长短期**网络(LSTM,Long Short-Term Memory)检测顺序数据(时间序列)的关联性的能力,我们构建了一个LSTM模型,用面部特征点时间序列作为输入数据,原始PPG信号作为目标数据,重建PPG信号(图1)。在使用MinMaxScaler算法调整(0.2,0.8)范围内的所有时间序列值后,综合考虑以下参数,我们进行了模型训练。模拟训练采用256个神经元,批大小(batch size)128,初始学习率和辍学率分别设为0.001和0.2。为了评估PPG重构信号的鲁棒性,我们计算了PPG最小点的频率(傅里叶频谱),我们特别分析了这些点的频率,比较了原始PPG最小点的频率与重构PPG最小点的频率。
5 结论 图2.原始PPG最小点的快速傅立叶变换(FFT)频谱(蓝色)和重建PPG最小点的快速傅立叶变换(绿色)。
最后,我们提供了一种基于LSTM-CNN的有效的监测系统,通过PPG信号评估心脏活动来确定驾驶员的困倦程度。与其它方法不同,我们的方法是利用面部特征点数据重建PPG信号,不涉及传感器系统。如前文所述,我们构建了LSTM管道,用面部特征点时间序列作为输入数据,传感器检测到的PPG作为目标数据,证明PPG重构信号的鲁棒性。此外,我们还构建了CNN模型,不仅可以对驾驶员的生理状态进行分类,还可以验证LSTM的预测结果。最后,我们计算了原始PPG最小点的快速傅立叶变换(FFT)频谱和重构的PPG最小点的FFT频谱(图2)。实验结果证明,我们的方法有广阔的应用前景,因为我们能够区分瞌睡的对象与清醒的对象,准确率接近100%,这与科学文献报道的类似管道取得的平均成绩一致。使用改进的PPG传感器[12],以及利用Stacked-AutoEconder架构[13]学会的特殊功能对PPG信号进行深度处理,将会给本文提出的管道带来哪些改进,是本文作者目前正在研究的方向。
参考文献 [1] National Safety Council: https://www.nsc.org/road-safety/safety-topics/fatality-estimates [2] Melo, H. M., Nascimento, L. M., Takase, E., Mental fatigue and heart rate variability (HRV): The time-on-task effect. Psychology & Neuroscience, 10 (2017) 428-436. [3] Rundo, F.; Ortis, A.; Battiato, S.; Conoci, S., Advanced Bio-Inspired System for Noninvasive Cuff-Less Blood Pressure Estimation from Physiological Signal Analysis, Computation 6 (2018) 46. [4] Zhang, W., Cheng, B., Lin, Y., Driver drowsiness recognition based on computer vision technology, Tsinghua Science and Technology 17 (2012) 354-362. [5] Haq, Z. A., Hasan, Z., Eye-blink rate detection for fatigue determination. In 1st India International Conference on Information Processing (IICIP), Delhi, India, 2016, 1-5. [6] Xu Y. J.; Ding, F.; Wu, Z.; Wang, J.; Ma, Q.; Chon, K.; Clancy, E.; Qin, M.; Mendelson, Y.; Fu, N.; Assad, S.; Jarvis, S.; Huang, X., Drowsiness control center by photoplythesmogram, In Proceedings of 38th Annual Northeast Bioengineering Conference (NEBEC), Philadelphia, USA, 2012, 430-431. [7] Koh, S.; Cho, B. R.; Lee J.-I.; Kwon, S.-O.; Lee, S.; Lim, J. B.; Lee, S. B.; Kweon, H.-D., Driver drowsiness detection via PPG biosignals by using multimodal head support, In Proceedings of the 4th International Conference on Control, Decision and Information Technologies (CoDIT), Barcelona, Spain, 2017, 383-388; [8] Wu, H.-Y., Rubinstein, M., Shih, E., Guttag, J., Durand, F., Freeman, W. T. Eulerian Video Magnification for Revealing Subtle Changes in the World. ACM Transactions on Graphics 31 (2012) [9] Hochreiter, S., Schmidhuber, J, Long Short-Term Memory, Neural Computation 9 (1997) 1735 1780 [10] Lecun, Y., Bengio, Y., Convolutional Networks for Images, Speech, and Time-Series, The Handbook of Brain Theory and Neural Networks (1995). [11] Kazemi, V., Sullivan, J., One millisecond face alignment with an ensemble of regression trees., In 2014 IEEE Conference on Computer Vision and Pattern Recognition, Columbus, USA, 2014, 1867-1874. [12] Mazzillo, M., Maddiona, L., Rundo, F., Sciuto, A., Libertino, S., Lombardo, S., Characterization of SiPMs With NIR Long-Pass Interferential and Plastic Filters, In IEEE Photonics Journal, 10 (2018) 1-12. [13] Rundo, F., Conoci, S., Banna, G.L., Ortis, A., Stanco, F., Battiato, S., Evaluation of Levenberg-Marquardt neural networks and stacked autoencoders clustering for skin lesion analysis, screening and follow-up, IET Computer Vision 12 (2018) 957-962.
|