CN110728185B - 一种判别驾驶人存在手持手机通话行为的检测方法 - Google Patents
一种判别驾驶人存在手持手机通话行为的检测方法 Download PDFInfo
- Publication number
- CN110728185B CN110728185B CN201910853113.9A CN201910853113A CN110728185B CN 110728185 B CN110728185 B CN 110728185B CN 201910853113 A CN201910853113 A CN 201910853113A CN 110728185 B CN110728185 B CN 110728185B
- Authority
- CN
- China
- Prior art keywords
- behavior
- skin color
- hand
- driver
- mobile phone
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 21
- 238000003708 edge detection Methods 0.000 claims abstract description 11
- 230000002146 bilateral effect Effects 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 7
- 230000004927 fusion Effects 0.000 claims description 7
- 230000009467 reduction Effects 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000002474 experimental method Methods 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims description 3
- 238000000513 principal component analysis Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 210000005069 ears Anatomy 0.000 claims description 2
- 238000000034 method Methods 0.000 abstract description 17
- 238000012544 monitoring process Methods 0.000 abstract description 2
- 230000006399 behavior Effects 0.000 description 36
- 239000013598 vector Substances 0.000 description 17
- 230000006870 function Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000005286 illumination Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000036544 posture Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 230000001815 facial effect Effects 0.000 description 3
- 210000003128 head Anatomy 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 210000000887 face Anatomy 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 210000004709 eyebrow Anatomy 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000002187 spin decoupling employing ultra-broadband-inversion sequences generated via simulated annealing Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/165—Detection; Localisation; Normalisation using facial parts and geometric relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/285—Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/40—Image enhancement or restoration using histogram techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/59—Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
- G06V20/597—Recognising the driver's state or behaviour, e.g. attention or drowsiness
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/107—Static hand or arm
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20024—Filtering details
- G06T2207/20028—Bilateral filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20024—Filtering details
- G06T2207/20032—Median filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20092—Interactive image processing based on input by user
- G06T2207/20104—Interactive definition of region of interest [ROI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30248—Vehicle exterior or interior
- G06T2207/30268—Vehicle interior
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/107—Static hand or arm
- G06V40/117—Biometrics derived from hands
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及智能化行为监控技术领域,具体涉及一种判别驾驶人存在手持手机通话行为的检测方法。本发明通过综合手势识别和唇动行为来决策驾驶人手持手机通话行为,通过融合手部肤色的PCA‑HOG和Relief‑PZMs特征提升通话手势的识别率,同时通过对嘴唇区域进行基于多尺度局部模极大值的边缘检测,并检测嘴部边缘复杂度的方差,提出一种适应驾驶环境的说话行为方法,准确度高、抗干扰能力强、实时性好、鲁棒性强。
Description
技术领域
本发明涉及智能化行为监控技术领域,具体涉及一种判别驾驶人存在手持手机通话行为的检测方法。
背景技术
公开号为CN 108509902A的中国专利,公开了一种“驾驶员行车过程中手持电话通话行为检测方法”,其中描述了手部肤色区域检测是基于YC_b C_r色彩空间的肤色建模和采用基于Haar矩形特征的Adaboost算法获得Adaboost强分类器对肤色区域进行二值化处理;描述了对唇部图像检测基于直方图均衡化和中值滤波处理并基于利用SUSAN算法和NURBS三次曲线啮合对唇动行为检测。
现有技术存在的问题是:
(1)现有技术是通过单一的手部特征来判别驾驶人手机通话手势,准确性和鲁棒性较差,目前仍未出现相关驾驶人手持手机通话手势识别方法,以兼顾满足对波动光照的鲁棒性和驾驶人头部姿态的耐受性,
(2)现有技术通过检测驾驶人嘴部的具体特征来识别说话行为,此类方法对波动光照和驾驶员个体差异性的适应性较差,目前尚未出现基于嘴部模糊特征的说话行为识别。
发明内容
本发明要提供一种判别驾驶人存在手持手机通话行为的检测方法,以克服现有技术存在波动光照和驾驶员个体差异的情况下对判别结果造成的鲁棒性和适应性差的问题。
为了达到本发明的目的,本发明提供的技术方案是:
一种判别驾驶人存在手持手机通话行为的检测方法,包括下述步骤:
步骤1、手部兴趣区域定位与嘴唇定位;
步骤2、肤色在线建模与嘴部图像预处理:基于在线高斯模型的耳边手部肤色区域检测方法进行肤色在线建模,基于嘴部图像双边滤波对嘴部图像进行平滑处理;
步骤3、手部肤色区域分割与嘴部边缘检测:基于PCA-HOG特征和Relief-PZMs特征进行手部肤色区域分割,基于多尺度局部极大值进行边缘检测;
步骤4、手势行为识别与唇动行为检测:基于SVM决策融合判定手机通话手势行为并检测嘴部区域的多尺度局部模极大值边缘,统计边缘的复杂度以及连续N帧图像中嘴唇边缘复杂度数值的方差,若方差数值大于设定阈值,则表示驾驶人存在说话行为;
步骤5、手机通话行为识别决策:综合“手持手机手势”和“说话”两项证据来判别驾驶人存在手持手机通话行为。
进一步的,上述步骤2的具体步骤是:
步骤201、基于YCgCr色彩空间的肤色建模;
步骤202、根据肤色色度漂移统计对式中的均方差进行修正,得到左、右手的判别阀值;
步骤203、人工统计自然驾驶条件环境下不同驾驶人面部、左右手肤色区域的Cg、Cr分量与光照强度Y,得到的肤色分布关系;
步骤204、通过对统计数据进行回归拟合,得到各线性关系中增量因子的差值,得到色度漂移量。
进一步的,上述步骤3的具体步骤是:
步骤301、提取HOG特征;
步骤302、基于主成分分析的HOG特征降维;
步骤303、PCA-HOG最佳维度实验;
步骤304、Pseudo-Zernike矩特征;
步骤305、基于Relief算法的PZMs特征提取;
步骤306、Relief-PZMs特征筛选。
相对于现有技术,本发明的优点是:
1、本发明通过综合手势识别和唇动行为来决策驾驶人手持手机通话行为,通过融合手部肤色的PCA-HOG和Relief-PZMs特征提升通话手势的识别率,同时通过对嘴唇区域进行基于多尺度局部模极大值的边缘检测,并检测嘴部边缘复杂度的方差,提出一种适应驾驶环境的说话行为方法,准确度高、抗干扰能力强、实时性好、鲁棒性强。
2、本发明可以更好的识别驾驶人的手持手机通话手势,对波动光照、复杂头部姿态和个体行为差异具有良好的适应性,可以更好的识别驾驶人说话行为,能够更好的克服驾驶环境中波动光照、复杂背景、驾驶人随机头部姿态等干扰问题。
3、有效降低系统运算的复杂度,能够很好的判断驾驶员手持电话通话行为,同时本发明具备很好的移植性,适用于车辆内部图像检测和安全辅助驾驶。
4、本发明采用自适应性的权重分配方法来确定手部肤色区域类别的决策机制。通过该机制来兼顾不同类手部肤色区域特征所训练的分类器性能,根据不同特征建立的分类器对手势识别准确性的贡献进行各自权重分配,以期在最终决策投票时获得更准确的分类效果。
附图说明
图1是本发明的流程图;
图2是步骤一的左右手兴趣区域示意图;
图3是Cg-Cr肤色建模过程示意图;
图4是肤色样本的色度漂移示意图;
图5是HOG算法示意图;
图6是PZMs幅值统计示意图;
图7是PZMs权重示意图;
图8是手部区域多元特征的决策融合方法示意图;
图9是HHPC行为辨识流程示意图。
具体实施方式
下面通过具体实施方式结合附图对本发明作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中,很多细节描述是为了使得本申请能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其他元件、材料、方法所替代。
下面结合附图和实施例,对本发明做详细说明。
本发明提供的一种判别驾驶人存在手持手机通话行为的检测方法,具体包括下述步骤,参见图1:
步骤一、手部兴趣区域定位与嘴唇定位
1.1手部兴趣区域定位
首先运用Adaboost算法检测驾驶人面部并标记为矩形区域Rf,其中心为Of,坐标为(xf,yf)。建立左、右手矩形兴趣区域R1和R2,中心分别为O1和O2,中心坐标分别为(x1,y1)和(x2,y2),见图2。图中a、b分别为O1和O2相对于Of的偏置量。
Hf、Wf分别为Rf的高和宽,根据先验性生理知识,a、b分别设置为1.1Wf和0.25Hf。各个兴趣区域的尺寸和位置关系见式(1)。
式中:H1、W1分别为R1的高和宽;H2、W2分别为R2的高和宽。
1.2嘴唇定位:
变动光照会致使驾驶人面部产生阴影和噪声,给嘴唇特征提取造成困难,故传统的依赖于唇色、嘴唇轮廓等特征的唇动行为检测并不适用于自然驾驶条件。对此,本发明采用文献[驾驶人注意力分散的图像检测与分级预警]方法定位驾驶人嘴唇粗区域(60×80pixels),进而采用双边滤波器对嘴唇区域进行滤波平滑,并采用小波模极大值算法鲁棒提取嘴唇的显著边缘,最后通过分析特定时窗内显著边缘的波动性来确定驾驶人的唇动行为
步骤二、肤色在线建模与嘴部图像预处理:
2.1:肤色在线建模
2.1.1基于YCgCr色彩空间的肤色建模
对Rf区域RGB色彩空间中的R、G、B分量进行色彩空间转换,采用经典YCbCr色彩空间衍生出的YCgCr色彩空间[18]来分割驾驶人面部肤色,Y为亮度分量,Cb、Cr和Cg分别为蓝色色度分量、红色色度分量和转换后的色度分量。RGB空间向YCgCr空间的转换算法见式(2)。
通过设置恒定的灰度阈值去除面部矩形区域内眼睛、鼻孔、眉毛等近似黑色的区域,获得干净的肤色像素并对其进行融合双边滤波器和单尺度Retinex算法的光照均衡处理。对肤色像素进行YCgCr色彩空间转换,对Y、Cg、Cr分量分别进行稀疏网格间隔采样(网格单元大小为15像素×15像素,线宽为5像素),见图3。该方法可确保在采集全局肤色信息的同时减少相邻近似像素的冗余计算量。将采集到的Cg分量样本与Cg分量样本投射到Cg-Cr平面子空间,并用矩形Tf定义肤色边界阈值。
采用高斯模型对肤色进行Cg与Cr分量中的分布度量,即
式中:Xf为面部肤色Cg、Cr分量的特征向量;μf和C分别为高斯函数中Cg、Cr分量的均值向量和协方差矩阵。分别计算Cg、Cr分量的均值μf1、μf2和均方差σf1、σf2,按照μf1±σf1和μf2±σf2的方法确定Cg-Cr平面子空间中的矩形Tf,可确定Cg和Cr分量的肤色判别阈值Tf1和Tf2,即
2.1.2考虑光照强度变化的手部肤色漂移
测试发现:在实际驾驶环境中,面部、左手和右手3个肤色区域的光照强度存在微小差别,靠近驾驶室车窗一侧的右手接受到的光照更强,而左手区域的光照相对偏弱。虽然肤色在YCgCr色彩空间中具有较强的光照鲁棒性,但是肤色像素仍会受到光照强度变化的干扰而在Cg-Cr子空间中出现一定漂移。由于驾驶室内不存在直接光照,面部和左右手区域之间的光照变化属于整体性渐变,左右手的肤色像素在Cg-Cr子空间内应属于整体漂移,因此左、右手的肤色判别矩形T1和T2也会在Cg-Cr坐标系内分别发生轻度迁移。
由于肤色像素近似遵循高斯分布,光照强度的整体变化对高斯模型的均值向量影响更为显著,而对协方差矩阵的扰动较小。因此,可根据肤色色度漂移统计对式(4)中的均方差进行修正,得到左、右手的肤色判别阈值,分别为
人工统计自然驾驶环境下不同驾驶人面部、左右手肤色区域的Cg、Cr分量与光照强度得到的肤色分布关系,见图4。通过对统计数据进行回归拟合,得到各线性关系中增量因子的差值,即面部肤色与左、右手肤色之间的色度漂移量ψ1=-5.89,ψ2=6.62、ψ3=5.55和ψ4=-8.13。
2.2基于双边滤波的嘴部图像预处理
双边滤波器(Bilateral Filter,BF)是以高斯滤波为基础的非线性二维滤波,由值域滤波和空间域滤波组成。设目标像素点为x,其邻域点为y,灰度函数分别为f(x)和f(y),则BF传递函数h(x)可表达为:
式中S[f(x),f(y)]与D(x,y)分别表示x、y两点之间的灰度相似度与距离相似度,可分别表达为欧氏距离参数的高斯函数,见式(12)。其中σr和σd分别高斯函数的灰度标准差和距离标准差。
在处理邻域像素灰度时,BF兼顾考虑了平面空间域属性和光照平滑属性。对于显著的特征边缘,BF将其邻域亮度均值赋予中心像素点,因此能够在平滑驾驶人嘴部图像的同时保持显著边缘的灰度变化属性。
步骤三:手部肤色区域分割与嘴部边缘检测
3.1手部肤色区域分割
3.1.1HOG特征
HOG通过获取图像边缘的梯度方向特性,同时引入梯度强度权重来建立梯度方向直方图来描述目标的外观和形状[20-21]。将驾驶人左右手兴趣区域R1和R2中所提取的肤色像素进行形态学处理并生成二值化肤色图像,针对最大的肤色面积区域提取HOG特征,主要步骤如下。
Step1:采用(-1,0,1)和(-1,0,1)T滤波器获取肤色二值化图像的垂直和水平方向梯度,求得各像素的梯度方向和大小。
Step2:采用8×8像素单元划分窗口,形成12×22=264个单元,如图5所示。将2×2相邻单元设为一个像素块。水平和垂直方向的扫描步长均为16像素,则手部窗口包含6×11=66个块。
Step3:将0°~180°梯度方向均分为9个通道,统计各单元中每个像素的梯度方向直方图,形成特征向量。
Step4:针对各块进行梯度权值投影,形成2×2×9=36维梯度方向直方图,采用2-范数对向量进行归一化处理:
式中:v为梯度方向直方图向量;v*为直方图向量归一结果;ε为极小正值,本发明取0.005。
Step5:级联各块的梯度方向直方图向量,形成36×66=2376维HOG特征向量。
3.1.2基于主成分分析的HOG特征降维高维HOG特征向量存在冗余信息,会降低算法的运行效率甚至降低识别精度,采用主成分分析(Principal Component Analysis,PCA)算法对HOG特征向量进行降维。PCA是通过对原样本空间进行空间变换,将原坐标系统投影至维度更低、且相互正交的特征空间上,以期达到降维目的。设手部肤色训练样本的HOG特征组成m维向量Xm={x1,x2,…,xm},从m维空间向n维空间进行映射(m>n),则新的HOG特征主成份向量Yn可定义为线性变换:
Yn=WTXm (8)
式中:W为m×n正交矩阵。
则可构造线性变换:
W′=argmax|WTSTW| (9)
式中:W′为m维HOG特征空间散点集所对应的n维最大特征向量,即系统所需的PCA-HOG特征向量,其中向量维数n由试验确定;ST为样本散点矩阵;xk为第k个手部肤色样本的HOG特征值;μ为样本的HOG特征均值。
3.1.3PCA-HOG最佳维度试验
PCA-HOG最佳维度的确定原则是在满足最低识别率的前提下满足识别时效性。试验对训练样本分别提取100~2300维PCA-HOG特征,以100维为步长统计对测试样本的识别率和识别时间。随着维度的增加识别率出现先增加后降低的状态,识别率最高的维度为400维,所对应的平均耗时为0.152秒。综合考虑精度与效率,选择400维为PCA-HOG最佳维度。
3.1.4Pseudo-Zernike矩特征
Pseudo-Zernike矩(Pseudo-Zernike Moments,PZMs)是基于Zernike矩构造的扩展不变矩,用于描述图像目标的整体形状特性。由于PZMs的基是正交径向多项式,相对于其它不变矩算法具有较强的平移、旋转和缩放不变性和较好的抗噪性能,一定程度上可以弥补HOG特征旋转敏感性等不足。
PZMs的正交多项式集是在单位圆内的完备正交集。对于图像f(x,y),设q为PZMs正交多项式阶数,l为PZMs正交多项式的重复度,且满足|l|≤q,则q阶l重PZMs可定义为:
Vql(ρ,θ)=Rql(ρ)exp(lθ) (12)
式中:Vql(ρ,θ)为q阶l重PZMs基函数,Vql *(ρ,θ)为其共轭复数;ρ为原点到像素点(x,y)的矢量长度;θ为矢量ρ与x轴的夹角;Rql(ρ)为径向多项式。由于PZMs基函数是正交的,可根据正交多项式的递推性质实现PZMs特征的快速计算。由于PZMs幅值是旋转不变量,因此,可将其幅值作为旋转不变特征构造任意阶矩。图6为HHPC行为与其它行为中手部区域的前12阶(共78个)PZMs幅值比较。统计发现,通话的手部区域PZMs幅值具有较好的一致性。
3.1.5基于Relief算法的PZMs特征提取
研究证明,随着PZMs特征维数的不断增加,目标识别率达到峰值后会出现识别率下降的现象,同时带来算法的实时性降低的“休斯现象”。信息冗余的主因是多阶图像矩之间具有一定的互相关性,因此,需要估计各PZMs特征值对于识别率的贡献并确定PZMs特征维数。设手部肤色样本集中任意样本g的任意特征Z适用于样本分类,则同类样本H中该特征的差异小而与异类样本M的差异大,故应将该特征用于分类时赋予较大权值Wj。反之,Zj的权值Wj将在迭代求解中赋予小值。基于该思想引入Relief算法来确定手势二分类问题中PZMs特征Z的权重W为:
式中:R为迭代次数;D(Z,g,H)和D(Z,g,M)分别为待测手部区域样本g与H、M在特征Z上的差异度量;Zg、ZH和ZM分别为g、H和M的PZMs特征值。
通过R次迭代对权重Wj赋值并提取权重较大的PZMs矩特征作为主元,形成手部区域分类的PZMs特征向量。
3.1.6Relief-PZMs特征筛选
对正、负训练样本进行PZMs求解,再通过Relief迭代得到各阶矩的权重,将权重值大于0.03的8个PZMs作为手部区域分类的PZMs特征向量,参见图7。3.2基于多尺度局部模极大值的嘴部边缘检测
相比于Canny、Prewitt等边缘检测方法,多尺度局部模极大值边缘检测方法具有更好的抗噪性和真实性。设由BF平滑后的驾驶人嘴部图像为f(u,v),对其引入的二维平滑函数θ(u,v),满足∫∫Ωθ(u,v)dxdy=1。则对f(u,v)定义的2j尺度二维小波变换为:
上式中ψu和ψv分别是θ(u,v)在u、v方向上的导数,即图像灰度变换沿u、v两个方向的梯度。对于嘴部图像f(u,v),2j尺度小波变换的模M和幅角A分别见式(15)和式(16)。对图像进行遍历,沿梯度幅角方向比较目标像素及其前后相邻像素点的梯度模值,并依据极大模值来确定嘴部特征边缘。
步骤四:手势行为识别与唇动行为检测
4.1基于多元特征决策融合的手势识别
相对于单一的手部肤色区域特征,对分类器输入多元特征并进行判别决策融合,可提升通话手势识别的准确性与鲁棒性。本发明运用SVM分类器建立通话手势识别模型,选择径向基核函数为映射规则,再通过权重自动学习方法对多个SVM子模型进行决策层的融合判决。多特征决策融合如图8所示。针对Relief算法提取的PZMs特征和PCA降维后的HOG特征分别建立2个子分类器模型:Relief-PZMs-SVM和PCA-HOG-SVM。分别计算手势状态分类结果,最后通过设计决策融合算法,获得全局最优分类结果。
分别针对训练样本获取Relief-PZMs特征和PCA-HOG特征,建立Relief-PZMs-SVM和PCA-HOG-SVM两个分类器。针对待测新样本,提取Relief-PZMs特征并输入至对应的SVM分类器,获得手势分类结果C1和C2;同时提取该样本的PCA-HOG特征并输入至对应的SVM分类器,获得手势分类结果C3和C4。然后将2个模型的分类结果进行多特征权重融合,即:
P1=C1p1+C3p2 (16)
P2=C2n1+C4n2 (17)
式中:P1、P2分别为最终分类结果为阳性和阴性的概率;p1、p2分别为Relief-PZMs-SVM模型和PCA-HOG-SVM模型的阳性权重;n1、n2分别为Relief-PZMs-SVM模型和PCA-HOG-SVM模型的阴性权重。
若P1>P2,意味着该样本最终被判定为“HHPC手势”,反之则被识别为“Non-HHPC手势”。
4.2唇动行为检测
相比于闭嘴状态,驾驶人说话时的嘴部图像会引入更多的边缘细节。引入复杂度Ce的概念用于描述嘴唇区域全局性的边缘特性,即嘴部区域的显著边缘点数量与嘴唇粗区域像素总数量的比值。统计表明,说话状态下Ce的均值更大,且波动性更显著。但是由于说话中的瞬时嘴部姿态近似于“闭嘴”,因此针对单帧静态图像的Ce并不能用于表征说话行为。对此采用N帧连续图像Ce的方差S2来描述特定时间窗口内嘴部边缘的波动特性。
通过分析嘴部边缘复杂度Ce和方差S2的检测结果,发现闭嘴状态Ce值在0.04附近轻微波动,其方差S2范围为0~2×10-6。说话过程中Ce在0.04~0.06范围内波动剧烈,其方差S2分布于2×10-5~6×10-5。显然,方差S2提升了“闭嘴”和“说话”两类行为的可分性,同时有效消除了不同驾驶人嘴部边缘的个体差异性。
步骤五:手机通话行为识别决策
“HHPC手势”和“说话”是HHPC行为中必然存在的两项子行为,任意单项子行为都无法作为HHPC行为的充分证据。图9为驾驶人HHPC行为的辨识流程,若系统将耳边手部肤色区域分类为“IHA手势”,则表示驾驶人有摸脸、推眼镜等干扰性手势动作,若耳边手部肤色区域被分类为“HHPC手势”,则表示驾驶人可能在手持手机通话,则进一步进行嘴部边缘检测并统计边缘复杂度Ce的方差S2,即嘴部区域的活动特性。若在特定时窗内S2大于阈值则表示驾驶人说话,此时判定驾驶人存在HHPC行为,否则被判定为正常驾驶。
HHPC行为辨识策略中包含两个重要阈值参数:嘴唇边缘复杂度的方差阈值和参与方差统计的连续帧数N。其中N的最佳取值与图像采集帧率和驾驶人说话特性相关,能影响到行为辨识的时效性。复杂度方差阈值取决于N和说话行为特性。由实验确定N=40,
对于本技术领域的普通技术人员来说,在不脱离本发明所属原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (3)
1.一种判别驾驶人存在手持手机通话行为的检测方法,其特征在于,包括以下步骤:
步骤1、手部兴趣区域定位与嘴唇定位;
步骤2、肤色在线建模与嘴部图像预处理:基于在线高斯模型的耳边手部肤色区域检测方法进行肤色在线建模,基于嘴部图像双边滤波对嘴部图像进行平滑处理;
步骤3、手部肤色区域分割与嘴部边缘检测:基于PCA-HOG特征和Relief-PZMs特征进行手部肤色区域分割,基于多尺度局部极大值进行边缘检测;
步骤4、手势行为识别与唇动行为检测:基于SVM决策融合判定手机通话手势行为并检测嘴部区域的多尺度局部模极大值边缘,统计边缘的复杂度以及连续N帧图像中嘴唇边缘复杂度数值的方差,若方差数值大于设定阈值,则表示驾驶人存在说话行为;
步骤5、手机通话行为识别决策:综合“手持手机手势”和“说话”两项证据来判别驾驶人存在手持手机通话行为。
3.根据权利要求1或2所述判别驾驶人存在手持手机通话行为的检测方法,其特征在于,所述步骤3的具体步骤是:
步骤301、提取HOG特征;
步骤302、基于主成分分析的HOG特征降维;
步骤303、PCA-HOG最佳维度实验;
步骤304、Pseudo-Zernike矩特征;
步骤305、基于Relief算法的PZMs特征提取;
步骤306、Relief-PZMs特征筛选。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910853113.9A CN110728185B (zh) | 2019-09-10 | 2019-09-10 | 一种判别驾驶人存在手持手机通话行为的检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910853113.9A CN110728185B (zh) | 2019-09-10 | 2019-09-10 | 一种判别驾驶人存在手持手机通话行为的检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110728185A CN110728185A (zh) | 2020-01-24 |
CN110728185B true CN110728185B (zh) | 2023-04-07 |
Family
ID=69218129
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910853113.9A Expired - Fee Related CN110728185B (zh) | 2019-09-10 | 2019-09-10 | 一种判别驾驶人存在手持手机通话行为的检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110728185B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111460950B (zh) * | 2020-03-25 | 2023-04-18 | 西安工业大学 | 自然驾驶通话行为中基于头-眼证据融合的认知分心方法 |
CN111553217A (zh) * | 2020-04-20 | 2020-08-18 | 哈尔滨工程大学 | 一种驾驶员打电话监测方法与系统 |
CN113505744A (zh) * | 2021-07-27 | 2021-10-15 | 中国银行股份有限公司 | 用户行为检测方法及装置 |
CN113569817B (zh) * | 2021-09-23 | 2021-12-21 | 山东建筑大学 | 基于图像区域定位机制的驾驶人注意力分散检测方法 |
CN113887428B (zh) * | 2021-09-30 | 2022-04-19 | 西安工业大学 | 一种基于上下文信息的深度学习成对模型人耳检测方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106325485B (zh) * | 2015-06-30 | 2019-09-10 | 芋头科技(杭州)有限公司 | 一种手势检测识别方法及系统 |
CN106682601B (zh) * | 2016-12-16 | 2019-11-15 | 华南理工大学 | 一种基于多维信息特征融合的驾驶员违规通话检测方法 |
CN108509902B (zh) * | 2018-03-30 | 2020-07-03 | 湖北文理学院 | 一种驾驶员行车过程中手持电话通话行为检测方法 |
-
2019
- 2019-09-10 CN CN201910853113.9A patent/CN110728185B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN110728185A (zh) | 2020-01-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110728185B (zh) | 一种判别驾驶人存在手持手机通话行为的检测方法 | |
CN103632132B (zh) | 一种基于肤色分割和模板匹配的人脸检测与识别方法 | |
CN106446952B (zh) | 一种乐谱图像识别方法及装置 | |
CN101923645B (zh) | 适应复杂应用场景中低质量虹膜图像的虹膜分割方法 | |
CN105205480B (zh) | 一种复杂场景中人眼定位方法及系统 | |
CN100452081C (zh) | 一种人眼定位及人眼状态识别方法 | |
CN105893946B (zh) | 一种正面人脸图像的检测方法 | |
CN104091147B (zh) | 一种近红外眼睛定位及眼睛状态识别方法 | |
CN103886589B (zh) | 面向目标的自动化高精度边缘提取方法 | |
CN110796033B (zh) | 一种基于包围盒模型的静态手势识别方法 | |
CN104680127A (zh) | 手势识别方法及系统 | |
CN103810491B (zh) | 融合深度和灰度图像特征点的头姿估计兴趣点检测方法 | |
CN104504383B (zh) | 一种基于肤色和Adaboost算法的人脸检测方法 | |
CN103093215A (zh) | 人眼定位方法及装置 | |
CN105335743A (zh) | 一种车牌识别方法 | |
CN110659649A (zh) | 一种基于近红外光成像的图像处理与字符识别算法 | |
CN105956579A (zh) | 融合模糊模板和点特征的手指静脉快速识别方法 | |
Vishwakarma et al. | Simple and intelligent system to recognize the expression of speech-disabled person | |
CN101853397A (zh) | 一种基于人类视觉特性的仿生人脸检测方法 | |
CN110766016B (zh) | 一种基于概率神经网络的喷码字符识别方法 | |
CN103824091A (zh) | 一种用于智能交通系统的车牌识别方法 | |
CN110826408A (zh) | 一种分区域特征提取人脸识别方法 | |
CN108319958A (zh) | 一种基于特征融合匹配的行驶证检测和识别方法 | |
CN111460950A (zh) | 自然驾驶通话行为中基于头-眼证据融合的认知分心方法 | |
CN104331683A (zh) | 一种具有噪声鲁棒性的人脸表情识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20230407 |