CN109002746B

CN109002746B - 3d立体火灾识别方法和系统

Info

Publication number: CN109002746B
Application number: CN201710419047.5A
Authority: CN
Inventors: 刘禹岐
Original assignee: Individual
Current assignee: Individual
Priority date: 2017-06-06
Filing date: 2017-06-06
Publication date: 2021-12-17
Anticipated expiration: 2037-06-06
Also published as: CN109002746A

Abstract

本发明涉及一种3D立体火灾识别方法和系统。该方法包括：1)利用虚拟现实技术构建虚拟数字地球，并在虚拟数字地球中加载三维场景；2)将监控视频的实时图像映射到三维空间场景中，实现监控视频与三维场景的融合；3)对三维场景中的监控视频进行火灾的诊断分析，以发现火灾并报警。具体地，步骤3)采用基于CNN特征的语义划分和语义融合方法进行火灾的诊断分析。本发明为用户提供了一种可以看的多，看的懂，看的广的视频多点融合系统，并能对视频中的内容进行火灾分析以及报警，从而实现实时指挥人员疏散、撤离等应急设施，实现可视化远程应急指挥。

Description

3D立体火灾识别方法和系统

技术领域

本发明属于计算机图形学、虚拟现实、数字图像处理等技术领域，具体涉及3D立体火灾识别方法和系统，可以虚拟出现实场景，并接入网络视频，然后对接入的视频进行算法分析，如分析出火灾，及时进行报警提示。

背景技术

视频监控并加上一些火灾的传感器(如火灾报警器、烟雾报警器等)作为安防行业的一个重要技术应用，发展迅速。随着虚拟现实技术和火灾分析的不断成熟和大量应用，现如今这几项技术同样应用于安防行业。增加了虚拟现实技术的监控视频多点融合以及火灾分析的系统，相比传统监控视频可以增强客户空间意识、空间的地理结构和了解摄像机的分布情况，对消防行业发挥巨大作用。

传统监控视频有以下缺点：

1)监控人员通常需要面对几百甚至成千上万个摄像头，而视频矩阵一般少于50个屏，无法有效展示视频内容。

2)视频对应关系很难记忆，不便切换、跟踪，无法及时发现问题，也展示不了整体态势。研究表明，人盯着视频22分钟之后，将对视频画面里95％以上的活动信息视而不见。

3)传统的监控系统只能做到监控，不能进行火灾分析以及报警提示。

发明内容

本发明针对上述问题，提供一种3D立体火灾识别方法和系统，能够方便、有效地对视频中的内容进行火灾分析以及报警。

本发明采用的技术方案如下：

一种3D立体火灾识别方法，包括以下步骤：

1)利用虚拟现实技术构建虚拟数字地球，并在虚拟数字地球中加载三维场景；

2)将监控视频的实时图像映射到三维空间场景中，实现监控视频与三维场景的融合；

3)对三维场景中的监控视频进行火灾的诊断分析，以发现火灾并报警。

进一步地，步骤1)利用渲染引擎，根据真实世界构建比例为1:1的虚拟数字地球，然后加载三维场景；步骤2)对多路网络监控视频进行解码，然后融合到三维场景中。

进一步地，步骤3)采用基于CNN特征的语义划分和语义融合方法进行火灾的诊断分析，包括以下步骤：

3-1)在训练时采用语义划分方法，利用样本的CNN特征向量将大规模训练集划分为多个紧致的语义子空间，并对每个子空间训练子分类器；

3-2)在检测时采用语义融合方法，根据样本的CNN特征向量选择相应的子分类器进行加权融合，进而计算测试样本的综合得分值，从而给出判别结果，实现烟火的检测。

进一步地，步骤3-1)将训练集进行语义划分的方法是：将CNN特征从大到小进行排序，将其前k个非零元素所在维度进行子空间语义划分，使同一子空间里的样本具有某种语义共性，不同子空间里的样本反映不同语义，实现子空间多样性的目的。

进一步地，步骤3-1)在进行语义划分后，需要满足以下条件才在子空间上训练子分类器：

(a)如果某子空间所含某类别的正样本数小于设定的阈值，则不训练该类别的子分类器；

(b)如果某子空间正负例样本比例小于设定的阈值，则不训练该类别的子分类器。

进一步地，步骤3-2)在进行烟火识别检测时计算每个子空间上子分类器的加权融合权重系数；对当前测试样本，对子分类器的加权融合权重系数进行降序排列，仅选前top-k的非零系数对应的子分类器进行测试，得到相应每个子分类器对应的得分概率值；对于没有选中的子分类器，其相应的得分概率值为0；然后集成多个子分类器预测的结果进行综合判断，实现多分类器融合。

进一步地，采用top-k中的CNN特征向量所占整个CNN特征向量的比重作为加权融合权重系数。

一种3D立体火灾识别系统，其包括：

虚拟数字地球构建模块，负责采用虚拟现实技术构建虚拟数字地球，并在虚拟数字地球中加载三维场景；

视频融合模块，负责将监控视频的实时图像映射到三维空间场景中，实现监控视频与三维场景的融合；

火灾诊断分析模块，负责对三维场景中的监控视频进行火灾的诊断分析，以发现火灾并报警。

本发明也可以单独使用针对数字图像的烟火检测方法，该方法包括以下步骤：

1)在训练阶段，利用样本的CNN特征向量将大规模的监控视频图像的训练集划分为多个紧致的语义子空间，并对每个子空间训练子分类器；

2)在检测阶段，根据样本的CNN特征向量选择相应的子分类器进行加权融合，进而计算测试样本的综合得分值，从而给出判别结果，实现烟火的检测。

本发明的有益效果如下：

本发明提供的3D立体火灾识别方法和系统，不同于传统监控视频系统，而是采用将摄像机视频映射到三维模型的方法，为用户提供了一种可以看的多，看的懂，看的广的视频多点融合系统，并能对视频中的内容进行火灾分析以及报警，从而实现实时指挥人员疏散、撤离等应急设施，实现可视化远程应急指挥。

附图说明

图1.3D立体火灾识别方法的总体流程图。

图2.视频融合后的火灾分析图。

图3.传统模式识别方法的流程图。

图4.基于卷积神经网络集成学习的烟火检测流程图。

图5.卷积神经网络示意图。

图6.基于CNN特征的样本语义划分示例图。

具体实施方式

下面通过具体实施例和附图，对本发明做进一步说明。

本发明的3D立体火灾识别方法和系统，利用虚拟现实与视频融合技术，根据真实世界按照1:1的比例构建虚拟三维场景，将视频投射到三维场景中，通过数学算法对视频进行火灾分析，当发现火灾时报警，实现实时指挥人员疏散、撤离等应急设施，实现可视化远程应急指挥。该方法的总体流程如图1所示，具体包括以下步骤：

1.构建虚拟数字地球和三维场景

该步骤利用虚拟现实技术，根据真实世界构建比例为1:1的虚拟数字地球，并加载三维场景。具体可以通过渲染引擎osgEarth等实现。

在一实施例中，构建数字地球的过程可以采用下面的方法：

a)根据场景中的视点的位置，获得生成瓦片的条件，即：当瓦片大小比视点到瓦片的距离还小时，或当分辨率小于最大分辨率时，则停止生成。

b)第一个瓦片的生成过程中会创建空间索引，即以层号、行号和列号做为索引，且默认的大小为256*256。以后随着一层层的深入，创建一层层四叉树瓦片，瓦片就变得越来越小，当条件不满足时，就不再创建。

c)瓦片的生成：根据经纬度算出四个点的位置，其顶点的位置计算如下：

计算点的正余弦值，设经度为dLon，纬度为dLat，高度为dHei。则

cosLat＝cos(dLat*3.1415926/180.0)

sinLat＝sin(dLat*3.1415926/180.0)

cosLon＝cos(dLon*3.1415926/180.0)

sinLon＝sin(dLon*3.1415926/180.0)

则此位置对应到球心的长度为：

Lenth＝赤道半径/sqrt(1.0–偏率的平方*sinLat*sinLat)

则此位置对应的空间坐标系的坐标值为：

x＝(Lenth+dHei)*cosLat*sinLon

y＝(Lenth*(1.0-偏率的平方)+dHei)*sinLat

z＝(Lenth+dHei)*cosLat*cosLat*cosLon

d)重复a)、b)、c)三个过程，同时进行渲染，即可生成数字地球。

在一实施例中，具体的构建三维场景的过程可以采用下面的方法：

a)利用3DMax等建模软件，进行建模，并导出模型。

b)根据要加载的模型的后缀名进行相对应的插件查找。

c)如果找到插件，利用插件将模型加载到内存中，并将节点挂接在场景中。

d)如果没有找到相对应的插件，则系统将空指针加载到场景中。

e)系统进行渲染，从场景的根节点向下遍历，依次进行渲染，最终生成三维场景。

2.利用视频融合技术，将网络视频融合在三维场景中

通过接入网络视频，并进行解码，将视频融合在三维场景中。通过利用新建摄像头或者已有摄像头的实时图像映射到三维空间场景中，并且将摄像头的视频与三维场景融合。

在一实施例中，具体的视频融合过程可以采用下面的方法：

a)利用海康的硬盘录像机，获取前端设备的码流。

b)使用海康提供的SDK进行登录，并在SDK的回调函数中处理码流。

c)在回调函数中接收码流，并在另一线程中，对接收到的码流进行处理。

d)通过公式将码流转换成RGB的格式。码流一般有三个分量YUV。Y表示明亮度，也是就是灰度值；U和V表示色度，作用是描述影像的色彩和饱和度，用于指定像素的颜色。设Y的数据为yData，V的数据为iVDelta，U的数据为iUDelta。具体转换如下：

rgb[0]＝int(yData+137*(iVDelta)/100)；//r分量值

rgb[1]＝int(yData-698*(iUDelta)/1000-703*(iVDelta)/1000)；//g分量值

rgb[2]＝int(yData+1732*(iUDelta)/1000)；//b分量值

e)根据相机的点位在场景中做相交运算，并设置多边形的位置。

f)将转码后的RGB更新到图片当中。

g)计算深度值，并将图片绘制在模型的表面。

重复a至g，即可将网络视频融合在三维场景中。

3.对三维场景中的视频进行诊断分析，发现火灾并报警

该步骤对解码后的视频进行诊断分析，如发现火灾，能够及时进行报警提示，并指出着火点的位置，为用户提供消防依据，在兼顾全局的情况下处理突发事件和应急指挥。用户可以在三维场景中查看监控视频，快速掌握视频点位，获取远远比传统监控系统广阔的视角以及突发事件周边的地理信息，为应急指挥和调度提供依据。图2为视频融合后的火灾分析图，其中方框标识的楼后位置为着火点位置。

本发明的对三维场景中的视频进行诊断分析的过程涉及模式识别(学习)方法。首先对系统进行预处理，即训练，然后对系统中的视频，通过视频算法(数学算法)进行火灾分析，当出现火警时，系统进行报警提示。

如图3所示，传统模式识别方法主要包括训练和检测(识别)过程。在训练阶段，需要搜集训练样本，并对样本进行标注正例和负例。然后，对这些标注的训练样本提取特征，进行有监督学习，生成分类器模型(识别模型)。在检测(识别)阶段，首先对测试样例提取特征，然后利用训练阶段生成的模型对进行模式分类，从而判断当前测试样例是否属于该模式类，或者直接输出当前测试样例属于该模式类的可信度值。

然而，对于图像视频等多媒体数据来说，由于提取的特征维数很高，在小数据集上训练出来的检测识别模型，很难囊括各种可能的样本情况，因此传统模式学习方法的推广性能差。为了提高学习算法在开放数据集上的推广性能，迫切需要研究面向大规模数据集的模式学习方法。另外，由于网络多媒体的迅猛发展，大规模训练样本集的采集已经不是一件难事。目前图像库和视频库已经向大规模化方面发展，图像库已经向Million级甚至Billion级发展。飞速增长的网络图像视频，也给网络图像视频的监管带来了新的挑战：模式种类呈多样性，同一模式的类内距离很大。因此，需要大量的训练样本以尽量囊括各种可能出现的样本情况。但是，由于SVM训练的时间复杂度介于O(n²)至O(n³)之间(n为训练样本个数)，因此当训练样本个数增加到几十万甚至上百万时，训练单个SVM模型是一件难以忍受甚至是几乎不可能的事情。而且，由于支持向量的个数会随着训练样本个数的增加而线性增加，从而会导致检测识别速度线性下降。例如在SVM中，检测速度与支持向量个数成正比，而支持向量与训练样本个数也成正比。另一方面，由于网络图像视频数据更新快，在开放的网络环境下，重新训练大规模训练集需要大规模的人工标注，费时费力。

因此，为了提高检测精度，迫切需要研究面向大规模数据集的高效模式识别方法，以提高图像视频中烟火检测与识别的训练效率、检测精度与速度。为此，针对大规模训练样本集，为进一步提高训练和识别效率，鉴于深度学习技术在大规模图像分类方面取得的重大突破，表明多层神经网络可以从多媒体内容中提取具有很强表达能力的语义特征，本发明提供一种针对数字图像(包括数字视频解帧后的关键帧图像)的烟火检测方法，即基于卷积神经网络(Convolutional Neural Network,CNN)集成学习的烟火检测方法。其主要创新点是提出基于CNN特征的语义划分和语义融合：

(1)训练时采用分而治之的策略，提出语义划分方法，利用样本的CNN特征向量中权重大的非零系数将大规模训练集划分为多个紧致的语义子空间，分别训练多个子分类器，在充分复用训练样本的同时，减少子空间划分冗余，从而大幅提高训练效率；

(2)识别时提出语义融合方法，根据样本的CNN特征向量中权重大的非零系数，仅选择相应的子分类器进行加权融合，来计算测试样本的综合得分值，从而给出统一的判别。集成学习的相关理论研究和经验表明：由于多个子分类器之间相互独立、互为补充、综合决策，能避免个别子分类器的识别错误扩散到集成分类器中，因而集成分类器比单一全局分类器能更为有效地提高算法的识别精度和稳健性。同时，由于CNN特征本身具有稀疏性，保证了待检测样本所触发的分类器个数尽量少，且子分类器的分类面比全局分类器更为简单，因而能大幅提高识别效率，实现烟火的实时快速检测。

如图4所示，该方法基于CNN进行特征学习，得到CNN特征，然后用CNN特征划分子空间，进行多分类器集成学习。该方法主要包括以下离线训练和在线检测两个阶段：

在离线训练阶段，主要分为三个步骤：a)CNN特征提取；b)训练集划分；c)子分类器训练。

在在线检测阶段，主要分为三个步骤：a)CNN特征提取；b)子分类器选择和检测；c)多分类器融合。

其中，离线训练和在线检测阶段的特征提取过程相同，都是对图像提取相同的CNN特征。下面对其中的CNN特征提取、训练集划分、子分类器训练、子分类器选择、多分类器融合进行介绍。

1)CNN特征提取

用卷积神经网络提取CNN特征x_t。如图5所示，CNN特征就是指卷积神经网络的第二个全连接层FC2的输出。通常情况下，FC2包含4096个神经元，所以CNN特征的维度是4096维，如果我们想获得维度为N的CNN特征，就将网络FC2层改为N个节点，并训练网络，使用训练好的网络提出的CNN特征就是N维的CNN特征x_t。在本发明实例中可以设置为N＝1024的网络，即用卷积神经网络提取的CNN特征为1024维。

2)训练集划分

鉴于CNN特征蕴含抽象的语义信息，本发明提出基于CNN特征将训练集进行语义划分的方法，即将CNN特征从大到小进行排序，将其前k个即top-k个非零元素所在维度(索引)进行子空间语义划分，这样可以使同一子空间里的样本具有某种语义共性，不同子空间里的样本反映不同语义，实现子空间多样性的目的，从而在每个子空间上训练得到的子分类器具有多样化的决策智慧，避免或减少做出相同的错误决策，从而在多分类器融合检测阶段具有互补性的优势。

如图6所示，假设对一个样本图像提取的CNN特征向量长度为N，则子空间数目为N，我们将该样本图像划分到相应的子空间中去。举例来说，对于图6中的样本，其中前Top-4中的CNN特征向量非零元的索引号分别为i,m,k,j，则将该样本同时软分配到序号为i,m,k,j的四个子空间中去。

根据CNN特征划分子集，类似于对图像进行粗分类，使具有一定相似性的特征分配到相同的子集里。与基于全部数据训练单个分类器相比，这种基于子集数据训练多个分类器的方法，训练数据大大减少，分类面相对简单，计算量大大降低，而且各子集间的互补性使得集成分类器精度也更高，从而在精度、速度上都有明显优势。

3)子分类器训练

全部特征被分配到各个子空间后，就可以对每个子空间训练子分类器。分配后，子空间里所含各个类别的正负样本数目不均衡，因而需要满足一定条件才在该子空间上训练子分类器，具体条件如下：

(a)如果某子空间所含某类别的正样本数过少(即小于设定的阈值，如<5)，则不训练该类别的子分类器。

(b)如果某子空间正负例样本比例过小(即小于设定的阈值，如<1/1000)，则不训练该类别的子分类器。

子分类器训练可以采用各种传统的学习方法，如SVM、神经网络、决策树等。本实施例采用支持向量机SVM训练子模型。由于SVM训练的时间复杂度介于O(n²)至O(n³)之间(n为训练样本个数)，在本实施例中，基于N(＝1024)维的CNN特征，将每个样本软分配(复用)到k(＝4)个子空间中，从而整个训练集划分为N＝1024子空间。因此，每个子空间的样本数目为原来样本数目的k/N(1/256)倍，因而每个子空间上的子分类器训练时间复杂度为原来的(k/N)²至(k/N)³。共划分为N个子空间，因而相应的N个子分类器训练的总时间复杂度为原来的(k²/N)至(k³/N²)，至少提高N/k²(＝64)倍。

4)子分类器选择和检测

训练时，本发明采用划分子集的方式将全部样本划分到不同的语义子空间中去，并在相应的子空间中训练子分类器。识别检测时，采用和如图6所示相同的基于CNN特征的样本语义划分方式进行子分类器选择，即找到并激活相应子集所对应的子分类器进行烟火识别检测。

在线检测时，需要计算每个子空间上子分类器得分的加权融合权重系数。在本发明中，提出采用top-k中的CNN特征向量所占整个CNN特征向量的比重作为加权融合权重系数。设当前测试样本的CNN特征向量为：C＝{c₁,c₂,..,c_i,…,c_N}，则对该特征向量进行归一化，便可计算出当前第i个子空间上的子分类器的加权融合权重系数α_i为：

子分类器选择和检测：对当前测试样本，对其加权融合权重系数向量进行降序排列，仅选前top-k大的非零系数对应的子分类器进行测试，即如图4所示，对于当前测试样本的CNN特征x_t，作为第i个子分类器(即图中的SVM)的输入，便可得到相应每个子分类器对应的得分概率值f_i(x_t)。对于没有选中的子分类器，其相应的得分概率值为0。

5)多分类器融合

集成学习在检测时需要集成多个子分类器预测的结果进行综合判断，即多分类器融合。其得分的融合计算公式为：

当最终的得分F(x_t)大于一定阈值，则判定当前样本图像有烟火，进行后续报警等处理；否则认为没有烟火。

为了验证本发明方法的有效性，本发明建立大规模训练样本库，以提高算法开放数据集上烟火检测的推广性能。为保证样本库来源的广泛性，共搜集了2,105个烟火和5,000个非烟火视频，10万幅静态图像。为保证样本的代表性，采用基于DC系数的自适应快速聚类的关键帧提取算法，并去除冗余的相似图像(含视频关键帧)。在此基础上完成人工标注，从而建立了训练样本库。样本库的规模为15万幅，其中正负样本分布情况如表1所示。同时，构建了相应的测试集，测试集共10,000幅图像：测试负例6000例，测试正例：4000例。将本发明和单一全局SVM分类方法进行了对比。对比结果如表2所示。由表2可见，本发明提出的基于CNN特征集成学习的烟火检测方法在识别准确率、查全率和检测速度方面，均比单一全局SVM分类方法提高明显。

表1.烟火训练样本库的正负样本分布

表2.烟火训练样本库的测试结果

	准确率	查全率	检测平均速度
				本发明方法	71.56％	85.25％	225毫秒/张
单一全局SVM分类方法	67.23％	81.75％	486毫秒/张

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种3D立体火灾识别方法，其特征在于，包括以下步骤：

3)对三维场景中的监控视频进行火灾的诊断分析，以发现火灾并报警；

其中，步骤3)采用基于CNN特征的语义划分和语义融合方法进行火灾的诊断分析，包括以下步骤：

3-2)在检测时采用语义融合方法，根据样本的CNN特征向量选择相应的子分类器进行加权融合，进而计算测试样本的综合得分值，从而给出判别结果，实现烟火的检测；

其中，步骤3-1)将训练集进行语义划分的方法是：将CNN特征从大到小进行排序，将其前k个非零元素所在维度进行子空间语义划分，使同一子空间里的样本具有某种语义共性，不同子空间里的样本反映不同语义，实现子空间多样性的目的。

2.如权利要求1所述的方法，其特征在于，步骤1)利用渲染引擎，根据真实世界构建比例为1:1的虚拟数字地球，然后加载三维场景；步骤2)对多路网络监控视频进行解码，然后融合到三维场景中。

3.如权利要求1所述的方法，其特征在于，步骤3-1)在进行语义划分后，需要满足以下条件才在子空间上训练子分类器：

4.如权利要求1所述的方法，其特征在于，步骤3-2)在进行烟火识别检测时计算每个子空间上子分类器的加权融合权重系数；对当前测试样本，对子分类器的加权融合权重系数进行降序排列，仅选前top-k的非零系数对应的子分类器进行测试，得到相应每个子分类器对应的得分概率值；对于没有选中的子分类器，其相应的得分概率值为0；然后集成多个子分类器预测的结果进行综合判断，实现多分类器融合。

5.如权利要求4所述的方法，其特征在于，采用top-k中的CNN特征向量所占整个CNN特征向量的比重作为加权融合权重系数。

6.如权利要求4所述的方法，其特征在于，所述多分类器融合的得分计算公式为：

其中，α_i为子分类器的加权融合权重系数，f_i(x_t)为对当前测试样本的CNN特征x_t的第i个子分类器对应的得分概率值；当最终的得分F(x_t)大于阈值时，则判定当前样本图像有烟火，进行后续报警处理；否则认为没有烟火。

7.一种采用权利要求1～6中任一权利要求所述方法的3D立体火灾识别系统，其特征在于，包括：

8.一种针对数字图像的烟火检测方法，其特征在于，包括以下步骤：

1)在训练阶段采用语义划分方法，利用样本的CNN特征向量将大规模的监控视频图像的训练集划分为多个紧致的语义子空间，并对每个子空间训练子分类器；

2)在检测阶段采用语义融合方法，根据样本的CNN特征向量选择相应的子分类器进行加权融合，进而计算测试样本的综合得分值，从而给出判别结果，实现烟火的检测；

其中，步骤1)将训练集进行语义划分的方法是：将CNN特征从大到小进行排序，将其前k个非零元素所在维度进行子空间语义划分，使同一子空间里的样本具有某种语义共性，不同子空间里的样本反映不同语义，实现子空间多样性的目的。