CN114842397B

CN114842397B - 一种基于异常检测的实时老人跌倒检测方法

Info

Publication number: CN114842397B
Application number: CN202210556212.2A
Authority: CN
Inventors: 王国华; 刘福平; 陈永亨; 郭荣琛; 孔馨月; 陈伟庭; 张英昊
Original assignee: South China Agricultural University
Current assignee: Guangdong Shunde Muyou Network Technology Co ltd
Priority date: 2022-05-19
Filing date: 2022-05-19
Publication date: 2023-04-07
Anticipated expiration: 2042-05-19
Also published as: CN114842397A

Abstract

本发明公开一种基于异常检测的实时老人跌倒检测方法，检测前，进行数据集人工构造与半自动标注。完成网络训练后，拍摄红外图像，将红外图像转化为光流图。将每张红外图与对应光流图叠加，共同输入到状态检测网络中检测老人位置与状态，并使用卡尔曼滤波实现跟踪。其中，目标检测网络预测老人可能的状态，当老人发生状态切换时，表明发现了一个可疑跌倒动作，触发动作识别网络。然后，选取发生状态切换的视频序列输入到动作识别网络进一步确认。最后，根据异常分数判断该次动作是否为跌倒事件，若是则发出警报，否则排除虚警。本发明设计了状态识别网络和动作识别网络，结合异常检测原理和状态动作联合策略，实现室内老人全天实时跌倒检测。

Description

一种基于异常检测的实时老人跌倒检测方法

技术领域

本发明属于计算机视觉与模式识别、图像处理和智能生活领域，具体为一种基于异常检测原理实时红外检测老人跌倒的方法。

背景技术

进入21世纪以来，人口持续高速增长，且老年人口在总人口所占的比例中也在持续增高，人口老龄化问题日益严重。老年人由于体内各器官的生理机能发生一定的衰退，从而导致出现各式各样负面生理现象，如反应迟钝、行动迟缓、平衡能力下降等等，这一系列的因素使得老年人发生跌倒事件的概率大大增加。对于老年人而言，跌倒后没有得到及时救治很有可能会引发一系列疾病，严重威胁老年人的生命安全。现实生活中，独居老人的现象普遍，独居老人跌倒后得不到及时救治导致瘫痪甚至死亡的情况频频发生。因此，为了保障老年人的日常生活安全，研发实时监测老年人跌倒系统有一定的社会与市场需求。

如今现有的传统跌倒检测技术可分为三大类：声频信号检测(如M.Popescu,Y.Li,M.Skubic and M.Rantz,"An acoustic fall detector system that uses sound heightinformation to reduce the false alarm rate,"200830th Annual InternationalConference of the IEEE Engineering in Medicine and Biology Society,2008,pp.4628-4631,doi:10.1109/IEMBS.2008.4650244.)，传感器检测(如BagalàF,Becker C,Cappello A,Chiari L,Aminian K,Hausdorff JM,Zijlstra W,Klenk J.Evaluation ofaccelerometer-based fall detection algorithms on real-world falls.PLoSOne.2012；7(5):e37062.doi:10.1371/journal.pone.0037062.Epub 2012May 16.PMID:22615890；PMCID:PMC3353905.)，图像检测(如Amira Ben Mabrouk,Ezzeddine Zagrouba,Abnormal behavior recognition for intelligent video surveillance systems:Areview,Expert Systems with Applications,Volume 91，2018,Pages 480-491,ISSN0957-4174,)。本文将在现有的跌倒检测技术中的图像检测类别中提出一种实时红外跌倒检测系统。

在声频信号检测中，通过麦克风阵列自动检测跌倒(Y.Li，K.C.Ho andM.Popescu，"A Microphone Array System for Automatic Fall Detection"，in IEEETransactions onBiomedical Engineering，vol.59，no.5，pp.1291-1301，May 2012，doi：10.1109/TBME.2012.2186449.)，获得了高达100％的灵敏性和97％的特异性，但存在不足之处，假设人物缓慢地跌倒在地，发出的声音较微弱，此时声音传感器并不能有效的捕获跌倒的声音。再者，若人物处于较嘈杂的环境时，声音分辨效果欠佳，跌倒识别效果比较一般，误报率较高。

佩戴传感器检测跌倒广泛使用(如Kangas,M.,Konttila,A.,Lindgren,P.,Winblad,I.,and

T.Comparison of low-complexity fall detection algorithmsfor body attached accelerometers.Gait Posture,2008,28,285–291.)，使用传感器检测跌倒的灵敏性好、特异性好。常见的传感器检测跌倒可细分为两类，一类是基于阈值的跌倒检测，另一类是基于机器学习的跌倒检测。基于阈值的跌倒检测原理主要是使用加速度传感器检测人物是否处于失重状态，检测人物空间方向上的瞬时加速度变化判断人物是否跌倒，(如Hsieh,C.-Y.；Liu,K.-C.；Huang,C.-N.；Chu,W.-C.；Chan,C.-T.NovelHierarchical Fall Detection Algorithm Using a Multiphase Fall Model.Sensors2017,17,307.)。Maarit Kangas等人(M.Kangas,A.Konttila,I.Winblad and T.Jamsa,"Determination of simple thresholds for accelerometry-based parameters forfall detection,"2007 29th Annual International Conference of the IEEEEngineering in Medicine and Biology Society,2007,pp.1367-1370,doi:10.1109/IEMBS.2007.4352552.)通过在腰部、手腕和头部佩戴三轴加速度传感器分别测量跌倒检测的加速度阈值检测跌倒，结果表明从腰部和头部进行的测量效果最好。理论上把传感器佩戴在头部的识别效果最好，但考虑到实用性与合理性，把传感器佩戴在腰部进行跌倒检测是个更合适的选择。

基于机器学习的跌倒检测原理主要是使用训练数据构建模型来预测或检测跌倒，输入跌倒事件和ADL(activities of daily living)训练分类器，得到跌倒检测的模型。曹荟强等人运用加速度传感器结合隐马尔可夫模型建立跌倒过程的概率模型进行跌倒检测([1]曹荟强,林仲志,吴水才.基于隐马尔可夫模型的老年人跌倒行为检测方法研究[J].中国生物医学工程学报,2017,36(02):165-171.)，获得了高达98.2％的准确率、91.3％的灵敏度和99.6％的特异性，测试效果好。但仍存在不足之处，假设人物缓慢跌倒在地，垂直方向上的加速度变化不明显，此时跌倒检测效果一般。此外，常应用于跌倒检测机器学习分类方法有支持向量机(如Duan KB.,Keerthi S.S.(2005)Which Is the Best MulticlassSVM Method？An Empirical Study.In:Oza N.C.,Polikar R.,Kittler J.,Roli F.(eds)Multiple Classifier Systems.MCS 2005.Lecture Notes in Computer Science,vol3541.Springer,Berlin,Heidelberg.)、随机森林决策(如罗丹,罗海勇.基于随机森林的跌倒检测算法[J].计算机应用,2015,35(11):3157-3160,3165.DOI:10.11772/j.issn.1001-9081.2015.11.3157.)、朴素贝叶斯、K-NearestNeighbor(如

A.T.；Barshan,B.Detecting Falls with Wearable Sensors Using Machine LearningTechniques.Sensors 2014,14,10691-10708.https://doi.org/10.3390/s140610691)等。然而跌倒检测算法大部分使用传统的手工提取特征点进行跌倒动作分类，其分类的标准和准确率受到一定的人为因素影响。实际上，长时间佩戴传感器很有可能影响到老年人的日常生活质量，增添老年人身体机能负担，且若老年人从事复杂度较高的活动，误报率较高。

近年来计算机视觉迅速发展，运用摄像机实时监测人物跌倒成为可能。相对传感器而言，摄像机价格低廉，且不会干扰被监测人的正常生活。再者，图像能够提供更多、更丰富关于人物及其周围环境的信息，提取更多的视觉线索，如人物的位置、人物的运动状态以及人物的姿态等。Xin Ma等人(X.Ma,H.Wang,B.Xue,M.Zhou,B.Ji and Y.Li,"Depth-BasedHuman Fall Detection via Shape Features and Improved Extreme LearningMachine,"in IEEE Journal of Biomedical and Health Informatics,vol.18,no.6,pp.1915-1922,Nov.2014,doi:10.1109/JBHI.2014.2304357.)在跌倒视频片段中的每一帧提取人体轮廓的曲率尺度空间(CSS)特征，并组合成CSS序列(BoCSS)表示动作,使用极限学习机(ELM)识别出摔倒的动作，最后结合一种可变长度粒子群优化算法进行优化，结果达到91.15％的灵敏度、77.14％的特异性和86.83％的准确性。Jia-Luen Chua等人(Chua,JL.,Chang,Y.C.&Lim,W.K.A simple vision-based fall detection technique for indoorvideo surveillance.SIViP 9,623–633(2015).https://doi.org/10.1007/s11760-013-0493-7)从视频帧中提取人体中三个不同的质心点来表示人物形状，能够更有效地提供人体上半身和下半身的动作变化信息，使得实时监测人物跌倒中得到了更高的精度。VineetMehta等人(V.Mehta,A.Dhall,S.Pal and S.S.Khan,"Motion and Region AwareAdversarial Learning for Fall Detection with Thermal Imaging,"202025thInternational Conference on Pattern Recognition(ICPR),2021,pp.6321-6328,doi:10.1109/ICPR48806.2021.9412632.)基于对抗性学习框架，提出一种双通道的对抗性学习框架，并在图像中提取ROI及其生成的光流和联合鉴别器来学习时空特征，结果表明ROI和差异损失函数明显增强了检测的效果。在双通道的对抗性学习框架中，一个通道输入的是热图像帧，另一个通道输入的是光流图像帧，两种图像帧融合的性能明显优于单纯热分析方法。

声频信号检测跌倒会受到声音微弱、声音杂乱等影响，而佩戴传感器设备检测跌倒又会影响到老年人的日常生活，然而利用图像检测跌倒能够有效解决上述的问题。本文提出一种使用红外图像作为原始输入的跌倒检测方法，红外图像作为原始输入能够有效克服光线强弱等影响，并且能够避免识别到人物身份以保障个人隐私。相较于利用声频信号、佩戴传感器检测跌倒，利用红外图像作为原始输入检测跌倒显然更适用于检测老年人跌倒。在人物追踪方面，考虑到光流图常用于分析物体的运动状态，于是通过把红外图像输入到预先训练好的flownet2中计算得到光流图像，结合红外图像与光流图像结合形成红外光流对输入到状态识别网络中检测人物位置与状态，并使用卡尔曼滤波追踪人物。

目前基于图像的跌倒检测已取得一定的成效，主流的动作识别网络会使用整张图像作为输入检测人物动作，因为人物动作和人物周围得场景具有较大的关联性，考虑到检测人物跌倒场景一般位于特定环境，并且检测的动作单一，动作的发生具有偶然性与环境关联不大。于是本文中的动作识别网络仅是检测目标框内的动作，使得动作识别网络聚焦于目标的跌倒动作，识别效率更高。再者，基于图像的实时跌倒检测方法比较罕见。在本文中使用状态识别网络全天实时监测并跟踪人物，通过人物状态的切换定位人物动作，若人物状态为“站立”或“坐下”等正常状态，则表示没有发生异常；若人物状态为“躺下”时，此时表示发生异常，进一步激活动作识别网络检测动作，若异常分数高于阈值则认定为跌倒事件。利用状态识别网络和动作识别网络联合实现实时检测更为简单有效、实用性更高，实时效果更优。

综上所述，尽管目前基于异常检测的实时老人跌倒检测方法取得一定的成效。但是，为了满足实际生活中的应用要求，迫切需要在人物跌倒检测的准确率、实时性方面做出更进一步的改进。

发明内容

本发明在于提供一种基于异常检测的实时老人跌倒检测方法，旨在解决现有的跌倒检测场景数据集缺失、数据本身特殊性和针对动作识别实时性差的问题。提出一种人物旋转拍摄和半自动标注的方法来获得训练数据集和一种状态识别网络和动作识别网络联合判别的方法，具体包括：

步骤一，利用人物旋转拍摄和半自动标注方法构造数据集训练模型；

步骤二，联合红外图和光流图检测人物位置和状态；

步骤三，基于人物状态切换的方法定位时序动作；

步骤四，动作识别网络预测跌倒异常分数；

步骤五，状态识别网络和动作识别网络联合获得跌倒识别结果。

进一步，所述一种基于异常检测的实时老人跌倒检测方法，其特征在于，步骤一所述人物旋转拍摄是指首先选取室内环境作为拍摄地点，人以各种姿势位于转盘处模拟真实场景，然后，旋转转盘拍摄得到人不同方向的红外图像，将红外摄像头安装在转盘中心的不同方位，以同样方法旋转转盘获得人不同背景的红外图像，重复操作构造大量人不同状态的图像。

进一步，所述一种基于异常检测的实时老人跌倒检测方法，其特征在于，步骤一所述半自动标注方法是指将拍摄获得的红外图像进行OTSU最大类间方差法(Maximizationof interclass variance)阈值分割，利用Opencv内置连通区域标记函数获得二值图像的连通区域，进一步获得连通区域的外接矩形，通过筛选获得目标矩形框，筛选策略为，对于不同人物状态的二值图，设定不同的目标矩形的长宽比范围和矩形面积范围，对于每一个矩形框，若长宽比或矩形面积不在设定范围内则直接剔除，而对于满足范围要求的矩形框，计算其长宽比与设定长宽比范围的中值和矩形面积与设定矩形面积范围中值的距离，将距离转化为所占范围比例，即将长宽比与设定长宽比范围中值的距离除以长宽比范围为长宽比比例，将矩形面积与设定矩形面积范围中值的距离除以矩形面积范围为面积比例，求出长宽比比例与面积比例的和作为异常得分，选取得分最小的框作为算法最终的矩形框，最后，由人工检查图片，将有明显标注错误的矩形框做出调整，获得最终数据集。

进一步，所述一种基于异常检测的实时老人跌倒检测方法，其特征在于，步骤二所述联合红外图和光流图检测人物位置和状态是指，构造一个状态识别网络，其检测过程是对于连续两帧红外图像，使用Flownet2计算其代表上一帧运动趋势的光流图，将当前帧红外图和上一帧到当前帧的光流图按通道堆叠为<红外,光流>对作为输入，然后Thermal-Flow YOLOv5预测人物的位置和状态。状态识别网络的训练策略为，利用旋转构造的数据作为数据集，单独训练YOLOv5，使得网络学习红外特征，能够预测红外图像中人物位置和状态，接着，使用人物正常活动的连续视频序列训练整个跌倒检测网络，使得YOLOv5同时学会光流特征获得更准确的预测结果。

进一步，所述一种基于异常检测的实时老人跌倒检测方法，其特征在于，步骤三所述基于人物状态切换的方法定位时序动作是指，本方法将跌倒动作的开始和结束看作是人物单帧状态的切换过程，即人的跌倒是人由“站立”到“躺下”或“坐着”到“躺下”状态的切换，定位时，保存状态识别网络的状态识别结果，并维持一个队列保存红外和光流图片序列，当状态变更至“躺下”时，取当前帧前后共8帧的<红外，光流>对组成16张图片作为动作片段输入到动作识别网络。

进一步，所述一种基于异常检测的实时老人跌倒检测方法，其特征在于，步骤四所述动作识别网络预测跌倒异常分数是指剔除状态识别网络识别结果的人物周围环境，将仅含人物的共16张红外光流图动作片段按通道叠在一起作为动作识别网络的输入，首先使用1×1卷积核将光流和红外图像进行特征融合，获得压缩的融合特征向量，标准流(Normalizing flow)将融合特征向量映射到隐空间，将预定义的分布与映射在隐空间的分布求均方差获得异常分数，由于训练过程均为正常活动，故标准流学习到的为人的正常动作，当跌倒发生时，异常分数将很高，通过设定一个阈值，大于阈值的异常分数就认定为跌倒事件，反之则为正常活动。

进一步，所述一种基于异常检测的实时老人跌倒检测方法，其特征在于，步骤五所述状态识别网络和动作识别网络联合获得跌倒识别结果是指，为实现动作检测的实时性，在仅通过单帧图像就能判断人必然正常活动的情况下，使用状态识别网络实时检测跟踪人，在人具有跌倒动作可能的情况下联合动作识别网络判别。具体为，状态识别网络全天实时检测跟踪人，当网络检测到人物状态为“站立”或“坐下”时，为正常状态，当网络检测到人“躺下”时，此时激活动作识别网络检测跌倒事件，动作识别网络将此时前8帧红外和光流图作为输入，进一步确认动作类型，若异常分数低于阈值则为正常躺下事件，反馈至状态识别网络，标注为正常状态，直到状态识别网络识别到下一次异常，若异常分数高于阈值则认定为跌倒事件，发出警报。状态识别网络和动作识别网络共同工作实现跌倒的实时检测。

本发明提供的一种基于异常检测的实时老人跌倒检测方法，与现有技术相比，本发明具有如下优点和效果：目前，红外行人检测数据集尤其是跌倒数据集还较少，而真实世界的跌倒数据收集难度大，于是本发明提出一种人物旋转拍摄和半自动标注的方法来获得训练数据集；目前，动作识别和动作起始时间定位是视频分析的难点。基于多帧动作分类的检测网络计算开销大，并且较难确定视频中动作的起始和终止阶段。本发明根据人物跌倒的特征，提出一种低功耗全天实时监控检测的算法，即时序动作定位算法；本发明考虑到跌倒检测人物一般位于特定环境，并且检测的动作单一，于是设计了一个仅检测人物框的动作识别网络，使得网络更加专注于跌倒动作本身。本发明提出了一个结合红外图像和光流图像的目标检测网络。根据人会对运动的物体提高注意力原理，网络将原始红外图像融合光流图像作为输入，在杂乱的室内环境下结合运动信息，提高网络对光流图像中运动区域的注意力，从而整体提高人物检测精度；目前绝大多数的动作识别网络都是一个多分类网络，输出各动作的概率。在检测跌倒动作时，这种方法显然不适用，一方面日常生活中人物的动作类别极多，另一方面跌倒动作的数据集较少，实际收集不太现实，于是多分类网络训练困难。本发明提出一种基于异常检测的跌倒动作识别方法。利用较易获得的人日常活动的视频数据作为异常检测网络的训练数据，使得网络学习人物正常活动的运动特征，当跌倒动作发生时，输入动作样本的预测结果将会落到特征分布的边缘，最终获得较高的异常分数，从而检测到跌倒动作。

附图说明

图1是本发明实施例提供的一种基于异常检测的实时老人跌倒检测系统结构示意图；

图1中：(a)为图像预处理模块、(b)为目标检测模块、(c)为红外-光流融合模块、(d)为异常检测模块。其中(a)(b)构成状态识别网络，(c)(d)构成动作识别网络。

图2是本发明实施例提供的一种基于异常检测的实时老人跌倒检测的主要步骤。

图3是本发明实施例提供的拍摄构造数据集的示意图。

图4、5是本发明实施例提供的相邻的像素之间的连通关系示意图。

图6是本发明实施例提供的FlowNetS结构示意图。

图7是本发明实施例提供的YOLOv5结构示意图。

图8是本发明实施例提供的人物状态切换的方法定位时序动作算法流程图。

图9是本发明实施例提供的人物状态切换的方法定位时序动作示意图。

图10是本发明实施例提供的异常检测网络的耦合层。

图11是本发明实施例提供的状态识别网络和动作识别网络联合实时判别流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

下面结合附图及具体实施例对本发明的应用原理作进一步描述。

如图2所示，本发明实施一种基于异常检测的实时老人跌倒检测方法方法包括以下步骤：

S101，利用人物旋转拍摄和半自动标注方法构造数据集训练模型；

S102，联合红外图和光流图检测人物位置和状态；

S103，基于人物状态切换的方法定位时序动作；

S104，动作识别网络预测跌倒异常分数；

S105，状态识别网络和动作识别网络联合获得跌倒识别结果。

步骤S101所述的半自动标注方法是指将拍摄获得的红外图像进行Otsu阈值分割，利用Opencv内置连通区域标记函数获得二值图像的连通区域，进一步获得连通区域的外接矩形，通过筛选获得目标矩形框。筛选策略为，对于不同人物状态的二值图，设定不同的目标矩形的长宽比范围和矩形面积范围，对于每一个矩形框，若长宽比或矩形面积不在设定范围内则直接剔除，而对于满足范围要求的矩形框，计算其长宽比与设定长宽比范围的中值和矩形面积与设定矩形面积范围中值的距离，将距离转化为所占范围比例，求出长宽比比例与面积比例的和作为异常得分，选取得分最小的框作为算法最终的矩形框。最后，由人工检查图片，将有明显标注错误的矩形框做出调整，获得最终数据集。

步骤S102所述的联合红外图和光流图检测人物位置和状态是指，构造一个状态识别网络，其检测过程是对于连续两帧红外图像，使用Flownet2计算其代表上一帧运动趋势的光流图，将当前帧红外图和上一帧到当前帧的光流图按通道堆叠为<红外,光流>对作为输入，然后Thermal-Flow YOLOv4预测人物的位置和状态。状态识别网络的训练策略为，利用旋转构造的数据作为数据集，单独训练Thermal-Flow YOLOv4，使得网络学习红外特征，能够预测红外图像中人物位置和状态，接着，使用人物正常活动的连续视频序列训练整个跌倒检测网络，使得Thermal-Flow YOLOv4同时学会光流特征获得更准确的预测结果。

步骤S103所述的基于人物状态切换的方法定位时序动作是指，本专利将跌倒动作的开始和结束看作是人物单帧状态的切换过程，即人的跌倒是人由“站立”到“躺下”或“坐着”到“躺下”状态的切换。定位时，保存状态识别网络的状态识别结果，并维持一个队列保存红外和光流图片序列，当状态变更至“躺下”时，将当前帧前8张红外和光流图作为动作片段输入到动作识别网络。

步骤S104所述的动作识别网络预测跌倒异常分数是指剔除状态识别网络识别结果的人物周围环境，将仅含人物的16张红外光流图动作片段按通道叠在一起作为动作识别网络的输入，首先使用1×1卷积核将光流和红外图像进行特征融合，获得压缩的融合特征向量，标准流(Normalizing flow)将融合特征向量映射到隐空间，将预定义的分布与映射在隐空间的分布求均方差获得异常分数。由于训练过程均为正常活动，故标准流学习到的为人的正常动作，当跌倒发生时，异常分数将很高，可以通过设定一个阈值，大于阈值的异常分数就认定为跌倒事件，反之则为正常活动。

步骤S105所述的状态识别网络和动作识别网络联合获得跌倒识别结果是指，为实现动作检测的实时性，在仅通过单帧图像就能判断人必然正常活动的情况下，使用状态识别网络实时检测跟踪人，在人具有跌倒动作可能的情况下联合动作识别网络判别。具体为，状态识别网络全天实时检测跟踪人，当网络检测到人物状态为“站立”或“坐下”时，为正常状态，当网络检测到人“躺下”时，此时激活动作识别网络检测跌倒事件，动作识别网络将此时前8帧红外和光流图作为输入，进一步确认动作类型，若异常分数低于阈值则为正常躺下事件，反馈至状态识别网络，标注为正常状态，直到状态识别网络识别到下一次异常，若异常分数高于阈值则认定为跌倒事件，发出警报。状态识别网络和动作识别网络共同工作实现跌倒的实时检测。

如图1所示，本发明实施例的一种基于异常检测的实时老人跌倒检测方法主要由为图像预处理模块(a)、目标检测模块(b)、红外-光流融合模块(c)、异常检测模块(d)组成。

图像预处理模块(a)，用于将红外图像输入flownet2计算得到光流图，与对应红外图组成含两张图片的红外-光流对，作为人物检测网络输入。

目标检测模块(b)，用于目标检测网络输出概率最大的人物矩形框，然后将获得的ROI mask运用于红外图像序列和光流序列。

红外-光流融合模块(c)，用于将仅包含人物的红外和光流图像序列堆叠在一起，运用1×1卷积核融合空间和时间信息。

异常检测模块(d)，用于将融合特征向量输入到NF异常检测网络中获得异常分数。

本发明的具体实施例：

本发明方法的整体流程如图2所示，本发明方法主体包括五部分：1)利用人物旋转拍摄和半自动标注方法构造数据集训练模型；2)联合红外图和光流图检测人物位置和状态；3)基于人物状态切换的方法定位时序动作；4)动作识别网络预测跌倒异常分数；5)状态识别网络和动作识别网络联合获得跌倒识别结果。

1.利用人物旋转拍摄和半自动标注方法构造数据集训练模型

1.1构造数据训练集

获取原始数据集：由于人跌倒的情况难以预测和捕捉，用红外摄像头进行旋转拍摄获取实验数据。设定图片画面比例为16:9，分辨率为1280×720。拍摄时以室内环境作为拍摄地点为主，人以站立、坐、平躺，三种姿势于一个足够大的转盘上进行拍摄，将红外摄像头固定于转盘外一处，实验时距离为2.5m，如图3。然后以

的速度旋转转盘，旋转一圈完成拍摄，得到人不同方向的红外图像。

1.2半自动标注拍摄的数据集

使用半自动标注法进行数据处理来标注矩形框，先通过算法获取矩形框，再进行人工判断是否标注有误。算法具体分为两步：

第一步，使用OTSU最大类间方差法(Maximization of interclass variance)进行数据帧的阈值分割实现人像和背景大致分离，得到人像的二值图(Binary Image)。用OpenCV将读取的数据帧转化为灰度图，设图像的平均灰度为G，图像的像素总数为M，灰度级i从0～255取值，各灰度级的像素数为c_i，各灰度级的概率为p_i，可得如公式(1)所示

由灰度图像的直方图可得到公式(2)所示结果

设阈值为T，阈值将0～255的图像中灰度分布分为两部分，第一部分取值[0,T]，

第二部分取值(T,255]，设第一部分的概率P₁如公式(3)所示

设第二部分的概率P₂如公式(4)所示

设第一部分的平均灰度G₁如公式(5)所示

设第二部分的平均灰度G₂如公式(6)所示

所以可得G₁和G₂与G关系：G是G₁和G₂的加权平均和，即公式(7)所示

G＝P₁*G₁+P₂*G₂ (7)

设最大类间方差MIV如公式(8)所示

代入(7)式，化简得到公式(9)

当某个T使得MIV最大时，也就是背景和人像的方差最大时，此时是能将人像和背景分离的最佳时机，使用遍历法得到最佳的T，将T遍历0～255取值，找到分割最好的阈值。

第二步，进行自动标注，用OpenCV进行连通区域分析(Connected ComponentAnalysis&Labeling)。二值化后的图像的连通区域(Connected Component)是指图像中具有相同像素值且位置相邻的像素点组成的图像区域(Region Blob)。相邻的像素之间的连通关系一般有如图4，5，两种关系。连通区域分析是指将图像中的各个连通区域找出并标记，一般用矩形框将其标出。使用Python版的OpenCV内置函数语句，如：retval,labels,stats,centroids＝cv2.connectedComponentsWithStats(image[,labels[,stats[,centroids[,connectivity[,type]]]]])，即可完成该操作。其中Image为输入的图像；retval为返回值是连通区域的数量；labels是一个与image一样大小的矩形；stats为外接矩形的5个参数：每一个连通区域的外接矩形的起始坐标x、y，外接矩形的长l、宽w，labels对应的连通区域的像素个数s；connectivity为图像的通道数；type为输出图像标签类型；centroids为是连通区域的质心。通过该函数可初步得到连通区域的多个外接矩形。由于会出现将画面背景中其他物体框出的情况，所以需要对人像的矩形框的相关特征预设一定范围大小，用这些值来从众多矩形框中筛选出符合的人像的矩形框。而人像的矩形框主要有两个特征值：矩形长宽比、矩形在画面中的占比。以第一步中设定的画面比16:9，分别在站立、坐、平躺三种姿势下都预设两个特征值的范围，设画面总面积s，设站立姿势的矩形框长宽比的范围r₁为3≤r₁≤10.5，设坐姿势的矩形框长宽比的范围r₂为1.8≤r₂≤2.4，设平躺姿势的矩形框长宽比的范围r₃为0.1≤r₃≤0.5，设站立姿势的矩形框面积s₁与画面总面积s之比的范围为

设坐姿势的矩形框面积s₂与画面总面积s之比的范围为

设平躺姿势的矩形框面积s₃与画面总面积s之比的范围为

对于某一状态下的一个矩形框，先看其面积占比是否在该状态下的范围内，如果是，再判断长宽比是否在该状态下的范围内，若都符合，则说明该矩形框初步符合；不符合，则剔除该矩形框。对于初步符合的矩形框，设其长宽比为r′，面积为s′，该状态下矩形的长宽比中值为r₀，长宽比范围的长度为l₁，面积中值为s₀，面积范围的长度为l₂，设长宽比r′离长宽比范围中值r₀的距离和长宽比范围长度l₁之比如公式(10)所示

设面积s′离面积范围中值s₀的距离和面积范围长度l₂之比pr₂如公式(11)所示

设置异常得分p，如公式(12)所示

p＝pr₁+pr₂ (12)

再选取得分最小的矩形框作为最终的矩形框。

最后进行人工评判，对于机器选取的矩形框进行复检，如果有明显错误，则进行人手再次调整；没有，则完成数据的标注和构建。

2.联合红外图和光流图检测人物位置和状态

构造一个状态识别网络，其结构如图1状态识别网络所示，状态识别网络包括(a)图像预处理模块和(b)目标检测模块，图像预处理模块负责生成包含一张红外图像和一张光流图像的图像对，目标检测模块负责根据获得的图像对检测图像中人物的位置和状态。状态识别网络的输入为一张红外图像，输出为人物位置和状态信息。其检测过程是对于连续两帧红外图像，使用Flownet2计算其代表上一帧运动趋势的光流图，Flownet2是基于CNN的光流预测算法，Flownet的基本工作思路如图6输入端为待求光流的图像对I_1，I_2，输出端为预测的光流W。其中W＝CNN(θ,I_1,I_2)；其中W，I_1,I_2均为x，y的函数，x，y为图像中像素的位置坐标。θ为CNN中待学习的参数。通过调节θ，来使网络具有光流预测的能力。网络由编码模块和解码模块组成，编码模块均为9层卷积加ReLU激活函数层，解码模块均为4层反卷积加ReLU激活函数层；根据不同的输入将flownet分为两种网络来实现网络具有光流预测的能力，分别是：FlowNetS(FlowNetSimple)和FlowNetC(FlowNetCorr)。Flownet2是flownet基础上增加了训练数据，改进了训练策略的增强模板；我们选择FlowNetS作为光流预测网络，把它迁移到此计算对于连续两帧红外图像其代表上一帧运动趋势的光流图，将预训练的Flownet2嵌入网络中实现端到端的检测网络，这样可以发挥GPU并行性加速光流计算以达到提高计算速度与计算精度。

将当前帧红外图和上一帧到当前帧的光流图按通道堆叠为<红外,光流>对作为输入，然后利用YOLOv5预测人物的位置和状态。

YOLOv5是一种单阶段目标检测算法，该算法在YOLOv4的基础上在输入端、基准网络、Neck网络、Head输出层做出改进；如在输出层的训练模型阶段实现Mosaic数据增强、自适应锚框计算、自适应图片缩放；在基准网络融合Focus结构与CSP结构；在Neck网络BackBone与最后的Head输出层之间插FPN+PAN结构；在Head输出层中改进了损失函数。YOLOv5的框架原理图如图7所示，YOLOv5具有较快的速度和较高的精度。

状态识别网络的训练策略为，利用步骤S101所述的旋转构造的数据作为数据集，单独训练YOLOv5，使得网络学习红外特征，能够预测红外图像中人物位置和状态，接着，使用人物正常活动的连续视频序列训练整个跌倒检测网络，使得YOLOv5同时学会光流特征获得更准确的预测结果。

3.基于人物状态切换的方法定位时序动作

一种低功耗全天实时监控检测的算法，其流程图如图8，定位算法解析图如图9，将跌倒动作的开始和结束看作是人物单帧状态的切换过程，即人的跌倒是人由“站立”到“躺下”或“坐着”到“躺下”状态的切换。定位时，保存状态识别网络的状态识别结果，并维持一个队列保存红外和光流图片序列，当状态变更至“躺下”时，触发动作识别网络，将当前帧前后8张红外和光流图共16张图像作为动作片段输入到动作识别网络，由动作识别网络评判获得结果，若为虚警，则忽略此次动作切换，直到检测到下一次“躺”状态，若确认为“跌倒”动作，则触发警报。

4.动作识别网络预测跌倒异常分数

动作识别网络将上述16张动作片段图像作为输入，输出当前动作是否为跌倒动作。其具体结构如图1动作识别网络所示，动作识别网络包括(c)红外-光流融合模块和(d)异常检测模块，红外-光流融合模块负责融合红外和光流图动作序列并输出融合特征，异常检测模块以融合特征作为输入，输出当前动作序列的异常值，最后根据异常分数判断当前动作序列是否属于跌倒动作。动作识别网络的输入为本方法步骤三得到的动作序列，输出为当前动作序列是否属于跌倒动作。

当动作识别网络被激活后，标准化流将融合特征映射到隐空间，计算映射在隐空间的分布与预定义分布的均方差，获得异常分数。因标准化流学习的为人正常行为，当比较异常分数超过预先设定的阈值，说明检测到跌倒动作。

4.1NF网络的训练

利用较易获得的人日常活动的视频数据作为异常检测网络的训练数据进行正向训练。首先定义一个简单的分布如高斯分布π(y_in)作为网络预测的基准，如图10所示，网络耦合层是一个双射网络结构，能够将输入特征映射到同尺度的特征空间，同时反向也成立。通过映射y_out＝f(y_in)经过标准化流分布变换公式：

其中，p(y_out)表示y_out的分布，

为转置雅各比矩阵。通过连接多个耦合层构成了标准化流(Normalizing flow)网络，获得更强的非线性表达能力的神经网络，能学习更复杂的数据分布。在正向推理时通过输入原始特征向量获得同纬度的映射，然后计算获得的映射特征向量与预先定义分布间的损失，最后更新NF网络。经过训练的NF网络就能学习到原始数据分布。

4.2跌倒异常分数计算

动作识别网络被激活时，输入的图像是仅包含人物框的红外图像和光流图像。在进行动作识别时，需将各图像信息和光流信息进行融合，所以使用一个1×1大小的卷积核进行信息融合，将各通道位置进行改变，获得融合特征并且降低输入复杂度。得到的融合特征作为已训练好的NF网络的输入，将映射在隐空间中的分布与预定义分布进行预测计算出概率。因训练数据为人日常活动的视频数据，所以NF网络可以识别出人类正常活动。当输入是跌倒这一异常数据时，输入动作样本的预测结果将会落到特征分布的边缘，经过计算均方差(Mean Square Error):

其中，

为经过NF网络后的预定义分布，y为图像原分布。计算均方差MSE可得异常分数，m为图像总数，与预先设定的阈值进行比较，跌倒动作所得到异常分数高于阈值，从而检测出跌倒动作。

5.状态识别网络和动作识别网络联合获得跌倒识别结果

如图11，为状态识别网络与动作识别网络联合实时判别流程图，步骤S105通过状态识别网络与动作识别网络联合判别，对人物动作进行检测。

将一红外视频序列，通过步骤S102中所提到的，经过神经光流网络(FlowNetS2)计算上一帧运动趋势的光流图，同时经过目标分割网络(Refinement Network)进行目标检测，得到光流输入。联合当前帧的红外图得到红外-光流图。输入到已经训练好的YOLOv5检测及预测出视频序列中人物的位置与状态。同时YOLOv4可以进行全天候的实时检测跟踪。

因为输入YOLOv5的红外-光流图是两帧的图像，且YOLOv5可以预测出人物的位置与状态，所以YOLOv5可以对人物状态切换进行检测与定位，定位出人物从“站立”到“躺下”的帧序列片段。当未检测出视频序列中人物有“躺下”的状态，则可以判断出人无跌倒的可能性，因为可标注为正常状态；当检测出人物有“躺下”的状态，则需要激活动作识别网路对帧序列中人物的动作进行进一步的判断。当检测出人物有“躺下”状态时，则激活动作识别网络，同时状态识别网络定位出人物从“站立”到“躺下”的前后共8帧动作帧序列片段，共16张人物框图的红外、光流图像，同时剔除掉人物的周围环境，输出只包含了人物框的红外-光流图，大大提升了动作识别网络的识别成功率。红外-光流图作为动作识别网络的输入。

动作识别网络被激活后，通过步骤S104所述，将16张仅含人物框图的红外图像与光流图像堆叠，通过1×1的卷积核进行特征融合，将得到的融合特征输入到已训练好的NF网络，计算得到该动作片段的异常分数。当异常分数低于预先设定的阈值时，说明该“躺下”的片段不是跌倒的动作，则反馈给状态识别网络，标注该动作片段为正常状态。当异常分数高于阈值，说明该动作片段与训练好的特征分布相差较大，即与正常人物活动相差较大，所以判断该动作为跌倒动作，并发出警告。

Claims

1.一种基于异常检测的实时老人跌倒检测方法，其特征在于，首先，针对跌倒检测场景数据集缺失和数据本身特殊性的特点，提出一种人物旋转拍摄和半自动标注的方法来获得训练数据集，人以各种姿势位于转盘处模拟真实场景，然后，旋转转盘拍摄得到人不同方向的红外图像，将拍摄获得的红外图像进行Otsu阈值分割，进一步利用Opencv获得连通区域的外接矩形，依据矩形框特征筛选获得目标矩形框，然后，由人工检查图片，将有明显标注错误的矩形框做出调整，获得最终数据集，接着，构造一个状态识别网络联合红外图和光流图检测老人位置和状态，状态识别网络包括图像预处理模块和目标检测模块，图像预处理模块负责生成包含一张红外图像和一张光流图像的图像对，目标检测模块负责根据获得的图像对检测图像中人物的位置和状态，状态识别网络的输入为一张红外图像，输出为人物位置和状态信息，具体检测过程是对于连续两帧红外图像，使用Flownet2计算其代表上一帧运动趋势的光流图，将当前帧红外图和上一帧到当前帧的光流图按通道堆叠为<红外,光流>对作为输入，然后Thermal-Flow YOLOv5预测人物的位置和状态，进一步，为获得连续视频中动作片段，使用人物状态切换的方法定位时序动作，将跌倒动作的开始和结束看作是人物单帧状态的切换过程，即人的跌倒是人由“站立”到“躺下”或“坐着”到“躺下”状态的切换，依据状态识别网络的识别结果可以找到目标时序动作片段，最后，为确认动作类别，构造一个动作识别网络，动作识别网络包括红外-光流融合模块和异常检测模块，红外-光流融合模块负责融合红外和光流图动作序列并输出融合特征，异常检测模块以融合特征作为输入，输出当前动作序列的异常值，根据异常分数判断当前动作序列是否属于跌倒动作，动作识别网络的输入为上述得到的动作序列，输出为当前动作序列是否属于跌倒动作，针对动作识别实时性差的问题，本算法在实际运行时，需要结合状态识别网络和动作识别网络联合获得跌倒识别结果，在仅通过单帧图像就能判断人必然正常活动的情况下，使用状态识别网络实时检测跟踪人，在人具有跌倒动作可能的情况下联合动作识别网络判别，其中本方法具体包括：

步骤二，联合红外图和光流图检测人物位置和状态；

步骤三，基于人物状态切换的方法定位时序动作；

步骤四，动作识别网络预测跌倒异常分数；

2.如权利要求1所述一种基于异常检测的实时老人跌倒检测方法，其特征在于，步骤一所述人物旋转拍摄是指首先选取室内环境作为拍摄地点，人以各种姿势位于转盘处模拟真实场景，然后，旋转转盘拍摄得到人不同方向的红外图像，将红外摄像头安装在转盘中心的不同方位，以同样方法旋转转盘获得人不同背景的红外图像，重复操作构造大量人不同状态的图像。

3.如权利要求1所述一种基于异常检测的实时老人跌倒检测方法，其特征在于，步骤一所述半自动标注方法是指将拍摄获得的红外图像进行OTSU最大类间方差法(Maximizationof interclass variance)阈值分割，利用Opencv内置连通区域标记函数获得二值图像的连通区域，进一步获得连通区域的外接矩形，通过筛选获得目标矩形框，筛选策略为，对于不同人物状态的二值图，设定不同的目标矩形的长宽比范围和矩形面积范围，对于每一个矩形框，若长宽比或矩形面积不在设定范围内则直接剔除，而对于满足范围要求的矩形框，计算其长宽比与设定长宽比范围的中值和矩形面积与设定矩形面积范围中值的距离，将距离转化为所占范围比例，即将长宽比与设定长宽比范围中值的距离除以长宽比范围为长宽比比例，将矩形面积与设定矩形面积范围中值的距离除以矩形面积范围为面积比例，求出长宽比比例与面积比例的和作为异常得分，选取得分最小的框作为算法最终的矩形框，最后，由人工检查图片，将有明显标注错误的矩形框做出调整，获得最终数据集。

4.如权利要求1所述一种基于异常检测的实时老人跌倒检测方法，其特征在于，步骤二所述联合红外图和光流图检测人物位置和状态是指，构造一个状态识别网络，其检测过程是对于连续两帧红外图像，使用Flownet2计算其代表上一帧运动趋势的光流图，将当前帧红外图和上一帧到当前帧的光流图按通道堆叠为<红外,光流>对作为输入，然后Thermal-Flow YOLOv5预测人物的位置和状态，状态识别网络的训练策略为，利用旋转构造的数据作为数据集，单独训练YOLOv5，使得网络学习红外特征，能够预测红外图像中人物位置和状态，接着，使用人物正常活动的连续视频序列训练整个跌倒检测网络，使得YOLOv5同时学会光流特征获得更准确的预测结果。

5.如权利要求1所述一种基于异常检测的实时老人跌倒检测方法，其特征在于，步骤三所述基于人物状态切换的方法定位时序动作是指，本方法将跌倒动作的开始和结束看作是人物单帧状态的切换过程，即人的跌倒是人由“站立”到“躺下”或“坐着”到“躺下”状态的切换，定位时，保存状态识别网络的状态识别结果，并维持一个队列保存红外和光流图片序列，当状态变更至“躺下”时，取当前帧前后共8帧的<红外，光流>对组成16张图片作为动作片段输入到动作识别网络。

6.如权利要求1所述一种基于异常检测的实时老人跌倒检测方法，其特征在于，步骤四所述动作识别网络预测跌倒异常分数是指剔除状态识别网络识别结果的人物周围环境，将仅含人物的共16张红外光流图动作片段按通道叠在一起作为动作识别网络的输入，首先使用1×1卷积核将光流和红外图像进行特征融合，获得压缩的融合特征向量，标准流(Normalizing flow)将融合特征向量映射到隐空间，将预定义的分布与映射在隐空间的分布求均方差获得异常分数，由于训练过程均为正常活动，故标准流学习到的为人的正常动作，当跌倒发生时，异常分数将很高，通过设定一个阈值，大于阈值的异常分数就认定为跌倒事件，反之则为正常活动。

7.如权利要求1所述一种基于异常检测的实时老人跌倒检测方法，其特征在于，步骤五所述状态识别网络和动作识别网络联合获得跌倒识别结果是指，为实现动作检测的实时性，在仅通过单帧图像就能判断人必然正常活动的情况下，使用状态识别网络实时检测跟踪人，在人具有跌倒动作可能的情况下联合动作识别网络判别，具体为，状态识别网络全天实时检测跟踪人，当网络检测到人物状态为“站立”或“坐下”时，为正常状态，当网络检测到人“躺下”时，此时激活动作识别网络检测跌倒事件，动作识别网络将此时前后共8帧红外和光流图作为输入，进一步确认动作类型，若异常分数低于阈值则为正常躺下事件，反馈至状态识别网络，标注为正常状态，直到状态识别网络识别到下一次异常，若异常分数高于阈值则认定为跌倒事件，发出警报，状态识别网络和动作识别网络共同工作实现跌倒的实时检测。