CN117975638A

CN117975638A - 基于信息融合技术的智慧安防报警系统及其方法

Info

Publication number: CN117975638A
Application number: CN202410074748.XA
Authority: CN
Inventors: 王友峰; 刘晓周; 李晓凡; 王崇斌; 王红; 潘星; 何丽娜; 张洲
Original assignee: Shaanxi Ruixin Technology Development Co ltd
Current assignee: Shaanxi Ruixin Technology Development Co ltd
Priority date: 2024-01-18
Filing date: 2024-01-18
Publication date: 2024-05-03
Anticipated expiration: 2044-01-18
Also published as: CN117975638B

Abstract

本申请公开了一种基于信息融合技术的智慧安防报警系统及其方法，其通过声音传感器和摄像头实时采集监控区域的声音信号和监控视频，并在后端引入基于人工智能的信号分析和数据处理算法来进行该声音信号和该监控视频的语义分析，以结合监控区域的声音语义和视频语义来综合对异常情况进行检测和报警。这样，能够通过对于监控区域的多模态信息的分析和融合表征来综合进行智慧安防监控，从而实现实时的安防监控和报警，提高对监控区域异常情况的准确检测和报警能力。

Description

基于信息融合技术的智慧安防报警系统及其方法

技术领域

本申请涉及智能报警领域，且更为具体地，涉及一种基于信息融合技术的智慧安防报警系统及其方法。

背景技术

随着科技的不断进步，智慧安防领域也得到了快速发展，智慧安防报警系统已成为社会安全保障的重要组成部分。智慧安防报警系统是一种利用先进的信息技术和传感器设备来实现对监控区域进行实时监测和报警的系统，能够为社会安全提供有力保障。

然而，传统的安防系统主要依赖于摄像头捕捉和分析安防监控区域的图像信息。然而，仅凭图像信息可能无法完全捕捉到一些隐蔽或不可见的异常情况，例如低光照环境下的行为、声音产生的异常等。此外，传统的安防系统在使用图像信息进行异常检测时，容易受到光线、阴影、天气等环境因素的干扰，导致误报或虚警的问题，例如，光线变化或者树叶摇动可能会被误判为异常情况，从而导致不必要的报警。因此，仅仅依靠图像信息来进行安防监控可能会导致监控盲区，无法全面准确地判断监控区域是否存在异常情况。

因此，期望一种基于信息融合技术的智慧安防报警系统。

发明内容

为了解决上述技术问题，提出了本申请。本申请的实施例提供了一种基于信息融合技术的智慧安防报警系统及其方法，其通过声音传感器和摄像头实时采集监控区域的声音信号和监控视频，并在后端引入基于人工智能的信号分析和数据处理算法来进行该声音信号和该监控视频的语义分析，以结合监控区域的声音语义和视频语义来综合对异常情况进行检测和报警。这样，能够通过对于监控区域的多模态信息的分析和融合表征来综合进行智慧安防监控，从而实现实时的安防监控和报警，提高对监控区域异常情况的准确检测和报警能力。

根据本申请的一个方面，提供了一种基于信息融合技术的智慧安防报警系统，其包括：

数据采集模块，用于获取由声音传感器和摄像头采集的被监控区域在预定时间段的监控视频和声音信号；

视频语义理解模块，用于通过基于深度神经网络模型的视频编码器对所述监控视频进行特征提取以得到监控区域视频语义理解特征图；

声音信号分帧模块，用于对所述声音信号进行分帧处理以得到声音信号帧的序列；

声音信号帧幅度谱计算模块，用于计算所述声音信号帧的序列中各个声音信号帧的幅度谱以得到声音信号帧幅度谱向量的序列；

声音信号帧幅度谱语义关联分析模块，用于对所述声音信号帧幅度谱向量的序列进行声音信号帧幅度谱特征关联分析以得到声音信号语义理解特征向量；

监控区域多模态融合表征模块，用于融合所述声音信号语义理解特征向量和所述监控区域视频语义理解特征图以得到监控区域多模态融合表示特征；

区域异常检测模块，用于基于所述监控区域多模态融合表示特征，确定监控区域是否存在异常。

根据本申请的另一个方面，提供了一种基于信息融合技术的智慧安防报警方法，其包括：

获取由声音传感器和摄像头采集的被监控区域在预定时间段的监控视频和声音信号；

通过基于深度神经网络模型的视频编码器对所述监控视频进行特征提取以得到监控区域视频语义理解特征图；

对所述声音信号进行分帧处理以得到声音信号帧的序列；

计算所述声音信号帧的序列中各个声音信号帧的幅度谱以得到声音信号帧幅度谱向量的序列；

对所述声音信号帧幅度谱向量的序列进行声音信号帧幅度谱特征关联分析以得到声音信号语义理解特征向量；

融合所述声音信号语义理解特征向量和所述监控区域视频语义理解特征图以得到监控区域多模态融合表示特征；

基于所述监控区域多模态融合表示特征，确定监控区域是否存在异常。

与现有技术相比，本申请提供的一种基于信息融合技术的智慧安防报警系统及其方法，其通过声音传感器和摄像头实时采集监控区域的声音信号和监控视频，并在后端引入基于人工智能的信号分析和数据处理算法来进行该声音信号和该监控视频的语义分析，以结合监控区域的声音语义和视频语义来综合对异常情况进行检测和报警。这样，能够通过对于监控区域的多模态信息的分析和融合表征来综合进行智慧安防监控，从而实现实时的安防监控和报警，提高对监控区域异常情况的准确检测和报警能力。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1为根据本申请实施例的基于信息融合技术的智慧安防报警系统的框图；

图2为根据本申请实施例的基于信息融合技术的智慧安防报警系统的系统架构图；

图3为根据本申请实施例的基于信息融合技术的智慧安防报警系统中区域异常检测模块的框图；

图4为根据本申请实施例的基于信息融合技术的智慧安防报警系统中监控区域多模态融合特征优化单元的框图；

图5为根据本申请实施例的基于信息融合技术的智慧安防报警方法的流程图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

如本申请和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其他的步骤或元素。

虽然本申请对根据本申请的实施例的系统中的某些模块做出了各种引用，然而，任何数量的不同模块可以被使用并运行在用户终端和/或服务器上。所述模块仅是说明性的，并且所述系统和方法的不同方面可以使用不同模块。

本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是，前面或下面操作不一定按照顺序来精确地执行。相反，根据需要，可以按照倒序或同时处理各种步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

传统的安防系统主要依赖于摄像头捕捉和分析安防监控区域的图像信息。然而，仅凭图像信息可能无法完全捕捉到一些隐蔽或不可见的异常情况，例如低光照环境下的行为、声音产生的异常等。此外，传统的安防系统在使用图像信息进行异常检测时，容易受到光线、阴影、天气等环境因素的干扰，导致误报或虚警的问题，例如，光线变化或者树叶摇动可能会被误判为异常情况，从而导致不必要的报警。因此，仅仅依靠图像信息来进行安防监控可能会导致监控盲区，无法全面准确地判断监控区域是否存在异常情况。因此，期望一种基于信息融合技术的智慧安防报警系统。、

在本申请的技术方案中，提出了一种基于信息融合技术的智慧安防报警系统。图1为根据本申请实施例的基于信息融合技术的智慧安防报警系统的框图。图2为根据本申请实施例的基于信息融合技术的智慧安防报警系统的系统架构图。如图1和图2所示，根据本申请的实施例的基于信息融合技术的智慧安防报警系统300，包括：数据采集模块310，用于获取由声音传感器和摄像头采集的被监控区域在预定时间段的监控视频和声音信号；视频语义理解模块320，用于通过基于深度神经网络模型的视频编码器对所述监控视频进行特征提取以得到监控区域视频语义理解特征图；声音信号分帧模块330，用于对所述声音信号进行分帧处理以得到声音信号帧的序列；声音信号帧幅度谱计算模块340，用于计算所述声音信号帧的序列中各个声音信号帧的幅度谱以得到声音信号帧幅度谱向量的序列；声音信号帧幅度谱语义关联分析模块350，用于对所述声音信号帧幅度谱向量的序列进行声音信号帧幅度谱特征关联分析以得到声音信号语义理解特征向量；监控区域多模态融合表征模块360，用于融合所述声音信号语义理解特征向量和所述监控区域视频语义理解特征图以得到监控区域多模态融合表示特征；区域异常检测模块370，用于基于所述监控区域多模态融合表示特征，确定监控区域是否存在异常。

特别地，所述数据采集模块310，用于获取由声音传感器和摄像头采集的被监控区域在预定时间段的监控视频和声音信号。其中，声音传感器是一种用于检测和测量环境中声音的设备。它可以将声音信号转换为电信号，以便进行进一步的处理和分析。

特别地，所述视频语义理解模块320，用于通过基于深度神经网络模型的视频编码器对所述监控视频进行特征提取以得到监控区域视频语义理解特征图。特别地，所述深度神经网络模型为三维卷积神经网络模型。考虑到传统的图像处理方法主要关注监控区域的图像的低层次特征，如颜色、纹理和边缘等。然而，这些低层次特征往往无法捕捉到视频中的高层次语义信息，例如物体的类别、动作和场景等。为了更好地理解视频内容，需要引入深度学习算法。并且，还考虑到由于所述被监控区域的监控视频是由多个视频帧组成的，因此，为了能够更为充分地提取监控视频中的语义信息，从而更好地理解监控区域的内容和行为，在本申请的技术方案中，进一步将所述监控视频通过基于三维卷积神经网络模型的视频编码器中进行特征挖掘，以提取出所述监控视频中各个视频帧的语义特征在时间维度上的时序关联特征信息，从而得到监控区域视频语义理解特征图。通过使用所述基于三维卷积神经网络模型的视频编码器进行该监控视频的处理和特征提取，能够更好地理解监控区域的内容和行为，从而实现对异常情况的准确检测和报警。这种基于深度学习的视频编码器可以提高安防系统对视频数据的理解能力，使系统更加智能和可靠。具体地，将所述监控视频通过基于三维卷积神经网络模型的视频编码器中进行特征挖掘以得到所述监控区域视频语义理解特征图，包括：使用所述基于三维卷积神经网络模型的视频编码器的各层在层的正向传递中分别对输入数据进行：对输入数据进行卷积处理以得到卷积特征图；对所述卷积特征图进行基于局部特征矩阵的池化以得到池化特征图；以及，对所述池化特征图进行非线性激活以得到激活特征图；其中，所述基于三维卷积神经网络模型的视频编码器的最后一层的输出为所述监控区域视频语义理解特征图，所述基于三维卷积神经网络模型的视频编码器的第一层的输入为所述监控视频。

值得注意的是，三维卷积神经网络（3D CNN）是卷积神经网络（CNN）的一种扩展形式，用于处理具有时空关系的数据，例如视频、医学图像、动作识别等。与传统的二维卷积神经网络不同，3D CNN 在卷积操作中考虑了第三个维度，即时间维度。它可以同时在空间和时间上进行卷积操作，以提取时空特征。下面是3D CNN 的一般步骤：输入数据：3D CNN 的输入通常是一个形状为 [Batch Size, Channels, Depth, Height, Width] 的五维张量，其中 Batch Size 表示批量大小，Channels 表示通道数，Depth 表示时间维度，Height 和Width 表示空间维度；卷积操作：3D CNN 在输入数据的三个维度上应用卷积操作。卷积核是一个具有三个维度的权重矩阵，它在输入数据的每个位置上滑动并执行卷积操作。卷积操作可以提取时空特征；非线性激活函数：在卷积操作之后，通常会应用一个非线性激活函数，如ReLU，以引入非线性特征；池化操作：可以选择在空间维度上进行池化操作，以减少特征图的尺寸并提取更重要的特征。常见的池化操作有最大池化和平均池化；扁平化：将池化后的特征图展平为一维向量，以便输入到全连接层；全连接层：通过全连接层进行分类或回归任务，以输出最终的预测结果。

特别地，所述声音信号分帧模块330，用于对所述声音信号进行分帧处理以得到声音信号帧的序列。考虑到所述声音信号是一个连续的时间信号，而在实际应用中，通常需要将声音信号划分为一小段一小段的帧进行处理，这是因为声音信号在短时间内通常是稳定的，从而简化了语音信号的处理和分析。基于此，在本申请的技术方案中，需要对所述声音信号进行分帧处理以得到所述声音信号帧的序列。

相应的，在一种可能的实现方式中，可通过以下步骤对所述声音信号进行分帧处理以得到声音信号帧的序列，例如：选择帧的长度和帧之间的移动步长。帧长度决定了每个声音信号帧的持续时间，而帧移决定了相邻帧之间的时间间隔；对每个帧应用窗函数，以减少帧边界处的频谱泄漏；将原始声音信号切分成一系列重叠的帧。从原始信号的起始位置开始，每隔帧移的时间，选择一个帧长度的时间窗口，并将该窗口内的信号作为一个帧。重叠的帧之间共享一部分样本，以保留时域上的连续性；将每个帧与对应的窗函数进行逐点相乘，以得到加窗后的帧；将加窗后的帧按顺序排列，以得到所述声音信号帧的序列。

特别地，所述声音信号帧幅度谱计算模块340，用于计算所述声音信号帧的序列中各个声音信号帧的幅度谱以得到声音信号帧幅度谱向量的序列。也就是，在得到声音信号帧的序列后，计算每个声音信号帧的幅度谱，以提取出每个声音信号帧的幅度信息，从而得到声音信号帧幅度谱向量的序列。应可以理解，幅度谱表示了声音信号在不同频率上的能量分布情况，可以反映声音信号的频域特征。因此，各个所述声音信号帧幅度谱向量中的每个元素代表了语音信号在相应频率上的幅度。通过对所述声音信号进行分帧处理和计算幅度谱，系统可以更好地捕捉到声音信号的时域和频域特征，从而为后续的声音信号语义编码和多模态信息融合提供基础。这样可以增强系统对声音信号的理解能力，进一步提高智慧安防报警系统的准确性和可靠性。

特别地，所述声音信号帧幅度谱语义关联分析模块350，用于对所述声音信号帧幅度谱向量的序列进行声音信号帧幅度谱特征关联分析以得到声音信号语义理解特征向量。应可以理解，所述声音信号的幅度谱向量序列包含了每个声音帧在频域上的能量分布情况，但仅仅通过幅度谱向量无法直接获取声音信号的语义信息。为了更好地理解声音信号的含义和特征，需要引入适当的模型进行语义编码。因此，为了能够对所述声音信号进行更好地语义建模和编码，从而提取出该声音信号的各个声音帧之间的语义关联特征和该声音信号的高层次语义信息，在本申请的技术方案中，进一步将所述声音信号帧幅度谱向量的序列通过基于LSTM模型的声音信号语义编码器以得到声音信号语义理解特征向量。通过使用所述LSTM模型，可以对所述声音信号帧幅度谱向量序列进行时序建模和编码，从而捕捉到声音信号的各个信号帧之间的时序特征和语义关联信息。

值得注意的是，LSTM（Long Short-Term Memory）是一种递归神经网络（RNN）的变体，专门用于处理序列数据并捕捉长期依赖关系。LSTM 中的每个单元都有一个记忆单元和三个门（输入门、遗忘门和输出门），可以有效地处理序列中的信息传递和遗忘。下面是LSTM 模型的一般结构：输入序列：LSTM 模型接受一个序列作为输入，例如时间序列数据、文本序列等。序列的长度为 T，每个时间步的输入特征维度为 D；初始化隐藏状态和记忆单元：在处理序列之前，需要初始化 LSTM 的隐藏状态和记忆单元。通常，可以将它们初始化为全零向量或使用预训练的模型进行初始化；LSTM 单元：LSTM 单元是 LSTM 模型的核心组件。每个 LSTM 单元都包含一个记忆单元和三个门：输入门、遗忘门和输出门；输入门：决定当前时间步的输入对记忆单元的影响程度；遗忘门：决定是否从记忆单元中遗忘信息；输出门：决定当前时间步的记忆单元状态对输出的影响程度；时间步处理：LSTM 模型会逐个时间步处理输入序列。对于每个时间步，LSTM 单元会根据当前输入、前一个时间步的隐藏状态和记忆单元，更新当前时间步的隐藏状态和记忆单元；输出：在处理完整个序列后，可以根据任务需求选择使用最后一个时间步的隐藏状态作为模型的输出，也可以使用所有时间步的隐藏状态进行进一步处理。

特别地，所述监控区域多模态融合表征模块360，用于融合所述声音信号语义理解特征向量和所述监控区域视频语义理解特征图以得到监控区域多模态融合表示特征。考虑到在智慧安防系统中，声音信号和监控视频是两种不同的数据模态，它们分别提供了监控区域的声音和图像方面的特征信息。为了更全面地理解监控区域的情况，需要将这两种模态的语义特征信息进行融合，以获取更丰富和准确的特征表示。具体地，在本申请的技术方案中，使用基于元网络的信息融合模块对所述声音信号语义理解特征向量和所述监控区域视频语义理解特征图进行处理以得到监控区域多模态融合表示特征图。特别地，在本申请的一个具体示例中，所述元网络为MetaNet，其是一种用于多模态融合的网络结构，它可以学习到不同模态之间的关联和权重，例如监控区域的声音语义和图像语义之间的关联和权重信息，从而实现有效的信息融合。也就是说，元网络采用MetaNet能够通过学习监控区域不同模态间的语义关联关系和权重，从而自适应地融合不同模态的特征，以得到更具表征能力的多模态特征表示，以便于使得监控区域的多模态特征表征能够更全面地描述监控区域的情况。具体地，使用基于元网络的信息融合模块对所述声音信号语义理解特征向量和所述监控区域视频语义理解特征图进行处理以得到监控区域多模态融合表示特征图作为所述监控区域多模态融合表示特征，包括：将所述监控区域视频语义理解特征图通过所述参数引导跨模态编码器的卷积神经网络模型中进行处理以得到监控区域视频增强语义特征图；将所述声音信号语义理解特征向量通过所参数引导跨模态编码器的第一卷积层后再通过ReLU函数进行线性修正处理以得到线性修正后声音信号语义理解特征向量；将所述线性修正后声音信号语义理解特征向量通过所述参数引导跨模态编码器的第二卷积层后再通过Sigmoid 函数进行处理以得到归一化后声音信号语义理解特征向量；以所述归一化后声音信号语义理解特征向量对所述监控区域视频增强语义特征图进行沿通道维度的加权融合以得到所述监控区域多模态融合表示特征图。

特别地，所述区域异常检测模块370，用于基于所述监控区域多模态融合表示特征，确定监控区域是否存在异常。特别地，在本申请的一个具体示例中，如图3所示，所述区域异常检测模块370，包括：监控区域多模态融合特征优化单元371，用于对所述监控区域多模态融合表示特征图进行特征优化以得到优化后监控区域多模态融合表示特征图；异常检测单元372，用于将所述优化后监控区域多模态融合表示特征图通过分类器以得到分类结果，所述分类结果用于表示监控区域是否存在异常。

具体地，所述监控区域多模态融合特征优化单元371，用于对所述监控区域多模态融合表示特征图进行特征优化以得到优化后监控区域多模态融合表示特征图。特别地，在本申请的一个具体示例中，如图4所示，所述监控区域多模态融合特征优化单元371，包括：线性变换子单元3711，用于对所述监控区域多模态融合表示特征图进行线性变换以使得所述监控区域多模态融合表示特征图中沿通道维度的每个特征矩阵的宽度和高度相等以得到转换后的监控区域多模态融合表示特征图；通道维度优化子单元3712，用于对所述转换后的监控区域多模态融合表示特征图进行通道维度优化以得到所述优化后监控区域多模态融合表示特征图。

更具体地，所述线性变换子单元3711，用于对所述监控区域多模态融合表示特征图进行线性变换以使得所述监控区域多模态融合表示特征图中沿通道维度的每个特征矩阵的宽度和高度相等以得到转换后的监控区域多模态融合表示特征图。应可以理解，通过进行线性变换，使得每个特征矩阵的宽度和高度相等，可以消除不同模态特征图之间的尺寸差异，减少后续处理和分析过程中的计算复杂度。

更具体地，所述通道维度优化子单元3712，用于对所述转换后的监控区域多模态融合表示特征图进行通道维度优化以得到所述优化后监控区域多模态融合表示特征图。特别地，在本申请的技术方案中，所述监控区域视频语义理解特征图的每个特征矩阵表达所述监控视频的图像帧的时序关联的图像语义特征，而在通道维度遵循所述监控视频的图像帧语义的帧间语义时序关联分布，而所述声音信号语义理解特征向量表达所述声音信号幅度谱在时序下的近程-远程双向上下文关联，由此，使用基于元网络的信息融合模块对所述声音信号语义理解特征向量和所述监控区域视频语义理解特征图进行处理后，会基于所述声音信号幅度谱的时序近程-远程双向上下文关联来对所述监控区域视频语义理解特征图在通道维度上进行约束，但这也会导致所述监控区域多模态融合表示特征图在通道维度上具有基于不同特征语义表示的不同时序关联模式的混合时序分布，从而影响所述监控区域多模态融合表示特征图的通道维度特征分布整体性，引起所述监控区域多模态融合表示特征图通过分类器进行类概率收敛时的收敛困难。因此，本申请的申请人优选地首先对所述监控区域多模态融合表示特征图进行线性变换以使得特征矩阵的宽度和高度相等，然后对转换后的监控区域多模态融合表示特征图进行通道维度优化，表示为：其中/>和/>分别是所述转换后的监控区域多模态融合表示特征图的沿通道方向的第/>和第/>位置的特征矩阵，且/>是尺度调节超参数，/>表示矩阵相乘，/>表示按位置点乘，/>表示按位置相加，/>表示优化后监控区域多模态融合表示特征图的沿通道方向的第/>位置的特征矩阵。这里，通过所述监控区域多模态融合表示特征图的具有通道相邻分布的特征矩阵的递进式结构化嵌入计算，来在高维特征空间内预测所述监控区域多模态融合表示特征图的局部特征分布沿通道的耦合分布方向，从而以分布递进中心为基础来确定基于通道耦合的迭代生成的传递图式表示，以经由细化所述监控区域多模态融合表示特征图整体沿通道维度由下而上的投影规范化提议的方式，来重建所述监控区域多模态融合表示特征图的以特征矩阵的场景布局为基础的上下文关系，从而提升所述监控区域多模态融合表示特征图的特征表示的通道维度整体性，以改进所述监控区域多模态融合表示特征图通过分类器进行类概率收敛时的收敛效果，改善训练效率和分类结果的准确性。这样，能够通过对于监控区域的多模态信息的分析和融合表征来综合进行智慧安防监控，从而实现实时的安防监控和报警，提高对监控区域异常情况的准确检测和报警能力。

值得一提的是，在本申请的其他具体示例中，还可以通过其他方式对所述监控区域多模态融合表示特征图进行特征优化以得到优化后监控区域多模态融合表示特征图，例如：输入所述监控区域多模态融合表示特征图；将所述监控区域多模态融合表示特征图沿通道维度拆分成各个特征图；对于每个特征图，可以使用卷积神经网络进行卷积操作，提取更高级别的特征表示；可以使用最大池化或平均池化等池化操作，减少特征图的尺寸；可以对特征图进行归一化操作，使特征值范围在一定区间内；可以引入注意力机制来对特征图中的不同区域赋予不同的权重，以增强重要特征的表示能力；可以使用增强学习方法来优化特征图，通过与环境交互，使特征图能够适应不同的任务需求；将经过特征优化的各个特征图重新合并，以得到所述优化后监控区域多模态融合表示特征图。

具体地，所述异常检测单元372，用于将所述优化后监控区域多模态融合表示特征图通过分类器以得到分类结果，所述分类结果用于表示监控区域是否存在异常。也就是，利用关于监控区域的多模态语义融合表征信息来进行分类处理，以此通过结合监控区域的声音语义和视频语义来综合对该区域的异常情况进行检测和报警。这样，能够通过对于监控区域的多模态信息的分析和融合表征来综合进行智慧安防监控，从而实现实时的安防监控和报警，提高对监控区域异常情况的准确检测和报警能力。更具体地，将所述优化后监控区域多模态融合表示特征图通过分类器以得到分类结果，所述分类结果用于表示监控区域是否存在异常，包括：将所述优化后监控区域多模态融合表示特征图基于行向量或列向量展开为分类特征向量；使用所述分类器的多个全连接层对所述分类特征向量进行全连接编码以得到编码分类特征向量；以及，将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。

也就是，在本申请的技术方案中，所述分类器的标签包括监控区域存在异常(第一标签)，以及，监控区域不存在异常(第二标签)，其中，所述分类器通过软最大值函数来确定所述优化后监控区域多模态融合表示特征图属于哪个分类标签。值得注意的是，这里的所述第一标签p1和所述第二标签p2并不包含人为设定的概念，实际上在训练过程当中，计算机模型并没有“监控区域是否存在异常”这种概念，其只是有两种分类标签且输出特征在这两个分类标签下的概率，即p1和p2之和为一。因此，监控区域是否存在异常的分类结果实际上是通过分类标签转化为符合自然规律的二分类的类概率分布，实质上用到的是标签的自然概率分布的物理意义，而不是“监控区域是否存在异常”的语言文本意义。

分类器是指一种机器学习模型或算法，用于将输入数据分为不同的类别或标签。分类器是监督学习的一部分，它通过学习从输入数据到输出类别的映射关系来进行分类任务。

全连接层是神经网络中常见的一种层类型。在全连接层中，每个神经元都与上一层的所有神经元相连接，每个连接都有一个权重。这意味着全连接层中的每个神经元都接收来自上一层所有神经元的输入，并通过权重对这些输入进行加权求和，然后将结果传递给下一层。

Softmax分类函数是一种常用的激活函数，用于多分类问题。它将输入向量的每个元素转化为一个介于0和1之间的概率值，并且这些概率值的和等于1。Softmax函数常用于神经网络的输出层，特别适用于多分类问题，因为它能够将网络输出映射为各个类别的概率分布。在训练过程中，Softmax函数的输出可以用于计算损失函数，并通过反向传播算法来更新网络参数。值得注意的是，Softmax函数的输出并不会改变元素之间的相对大小关系，只是对其进行了归一化处理。因此，Softmax函数并不改变输入向量的特性，只是将其转化为概率分布形式。

值得一提的是，在本申请的其他具体示例中，还可以通过其他方式基于所述监控区域多模态融合表示特征，确定监控区域是否存在异常，例如：收集监控区域的多模态数据，例如视频、图像、声音等；对每个数据模态进行特征提取，将其转换为有意义的表示形式。对于视频和图像数据，可以使用卷积神经网络提取视觉特征。对于声音数据，可以使用声音处理技术提取音频特征；将不同模态的特征进行融合，以获得更全面和丰富的特征表示。常见的融合方法包括特征级融合和决策级融合。特征级融合将不同模态的特征连接或叠加在一起，形成一个多模态特征向量。决策级融合将不同模态的分类结果或置信度进行组合，得出最终的决策结果；使用带有已标记异常样本的训练数据集，训练一个异常检测模型；将监控区域的多模态融合表示特征输入训练好的异常检测模型中，得到异常分数或概率；根据异常分数或概率，设定一个阈值来判断监控区域是否存在异常。如果异常分数超过阈值，则判断为异常；否则，判断为正常。

如上所述，根据本申请实施例的基于信息融合技术的智慧安防报警系统300可以实现在各种无线终端中，例如具有基于信息融合技术的智慧安防报警算法的服务器等。在一种可能的实现方式中，根据本申请实施例的基于信息融合技术的智慧安防报警系统300可以作为一个软件模块和/或硬件模块而集成到无线终端中。例如，该基于信息融合技术的智慧安防报警系统300可以是该无线终端的操作系统中的一个软件模块，或者可以是针对于该无线终端所开发的一个应用程序；当然，该基于信息融合技术的智慧安防报警系统300同样可以是该无线终端的众多硬件模块之一。

替换地，在另一示例中，该基于信息融合技术的智慧安防报警系统300与该无线终端也可以是分立的设备，并且该基于信息融合技术的智慧安防报警系统300可以通过有线和/或无线网络连接到该无线终端，并且按照约定的数据格式来传输交互信息。

进一步地，还提供一种基于信息融合技术的智慧安防报警方法。

图5为根据本申请实施例的基于信息融合技术的智慧安防报警方法的流程图。如图5所示，根据本申请实施例的基于信息融合技术的智慧安防报警方法，包括步骤：S1，获取由声音传感器和摄像头采集的被监控区域在预定时间段的监控视频和声音信号；S2，通过基于深度神经网络模型的视频编码器对所述监控视频进行特征提取以得到监控区域视频语义理解特征图；S3，对所述声音信号进行分帧处理以得到声音信号帧的序列；S4，计算所述声音信号帧的序列中各个声音信号帧的幅度谱以得到声音信号帧幅度谱向量的序列；S5，对所述声音信号帧幅度谱向量的序列进行声音信号帧幅度谱特征关联分析以得到声音信号语义理解特征向量；S6，融合所述声音信号语义理解特征向量和所述监控区域视频语义理解特征图以得到监控区域多模态融合表示特征；S7，基于所述监控区域多模态融合表示特征，确定监控区域是否存在异常。

综上，根据本申请实施例的基于信息融合技术的智慧安防报警方法被阐明，其通过声音传感器和摄像头实时采集监控区域的声音信号和监控视频，并在后端引入基于人工智能的信号分析和数据处理算法来进行该声音信号和该监控视频的语义分析，以结合监控区域的声音语义和视频语义来综合对异常情况进行检测和报警。这样，能够通过对于监控区域的多模态信息的分析和融合表征来综合进行智慧安防监控，从而实现实时的安防监控和报警，提高对监控区域异常情况的准确检测和报警能力。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种基于信息融合技术的智慧安防报警系统，其特征在于，包括：

2.根据权利要求1所述的基于信息融合技术的智慧安防报警系统，其特征在于，所述深度神经网络模型为三维卷积神经网络模型。

3.根据权利要求2所述的基于信息融合技术的智慧安防报警系统，其特征在于，所述声音信号帧幅度谱语义关联分析模块，用于：将所述声音信号帧幅度谱向量的序列通过基于LSTM模型的声音信号语义编码器以得到所述声音信号语义理解特征向量。

4.根据权利要求3所述的基于信息融合技术的智慧安防报警系统，其特征在于，所述监控区域多模态融合表征模块，用于：使用基于元网络的信息融合模块对所述声音信号语义理解特征向量和所述监控区域视频语义理解特征图进行处理以得到监控区域多模态融合表示特征图作为所述监控区域多模态融合表示特征。

5.根据权利要求4所述的基于信息融合技术的智慧安防报警系统，其特征在于，所述监控区域多模态融合表征模块，用于：

将所述监控区域视频语义理解特征图通过所述参数引导跨模态编码器的卷积神经网络模型中进行处理以得到监控区域视频增强语义特征图；

将所述声音信号语义理解特征向量通过所参数引导跨模态编码器的第一卷积层后再通过ReLU函数进行线性修正处理以得到线性修正后声音信号语义理解特征向量；

将所述线性修正后声音信号语义理解特征向量通过所述参数引导跨模态编码器的第二卷积层后再通过Sigmoid 函数进行处理以得到归一化后声音信号语义理解特征向量；

以所述归一化后声音信号语义理解特征向量对所述监控区域视频增强语义特征图进行沿通道维度的加权融合以得到所述监控区域多模态融合表示特征图。

6.根据权利要求5所述的基于信息融合技术的智慧安防报警系统，其特征在于，所述区域异常检测模块，包括：

监控区域多模态融合特征优化单元，用于对所述监控区域多模态融合表示特征图进行特征优化以得到优化后监控区域多模态融合表示特征图；

异常检测单元，用于将所述优化后监控区域多模态融合表示特征图通过分类器以得到分类结果，所述分类结果用于表示监控区域是否存在异常。

7.根据权利要求6所述的基于信息融合技术的智慧安防报警系统，其特征在于，所述监控区域多模态融合特征优化单元，包括：

线性变换子单元，用于对所述监控区域多模态融合表示特征图进行线性变换以使得所述监控区域多模态融合表示特征图中沿通道维度的每个特征矩阵的宽度和高度相等以得到转换后的监控区域多模态融合表示特征图；

通道维度优化子单元，用于对所述转换后的监控区域多模态融合表示特征图进行通道维度优化以得到所述优化后监控区域多模态融合表示特征图。

8.根据权利要求7所述的基于信息融合技术的智慧安防报警系统，其特征在于，所述异常检测单元，包括：

展开子单元，用于将所述优化后监控区域多模态融合表示特征图基于行向量或列向量展开为分类特征向量；

全连接编码子单元，用于使用所述分类器的多个全连接层对所述分类特征向量进行全连接编码以得到编码分类特征向量；以及

分类结果生成子单元，用于将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。

9.一种基于信息融合技术的智慧安防报警方法，其特征在于，包括：

对所述声音信号进行分帧处理以得到声音信号帧的序列；