CN114492579A

CN114492579A - 情绪识别方法、摄像装置、情绪识别装置及存储装置

Info

Publication number: CN114492579A
Application number: CN202111605408.8A
Authority: CN
Inventors: 易冠先; 陈波扬; 刘德龙; 王康
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2021-12-25
Filing date: 2021-12-25
Publication date: 2022-05-13

Abstract

本申请公开了一种情绪识别方法、摄像装置、情绪识别装置及存储装置。该方法包括：获取目标的音频信息和文本信息；其中，文本信息是基于音频信息得到的；分别提取音频信息的音频特征和文本信息的文本特征；基于音频特征与文本特征之间的相关性，分别对音频特征与文本特征进行修正，得到音频修正特征和文本修正特征；融合音频修正特征和文本修正特征进行情绪识别，得到目标的情绪分类。上述方案，能够提高情绪识别的准确率。

Description

情绪识别方法、摄像装置、情绪识别装置及存储装置

技术领域

本申请涉及情绪识别技术领域，特别是涉及一种情绪识别方法、摄像装置、情绪识别装置及存储装置。

背景技术

随着人工智能技术的不断发展，人们对于交互体验要求的不断提高，目前情绪识别作为一种人机交互技术，已广泛应用于各种场景中。

例如在服务领域，可以根据来电用户的情绪来判断服务满意程度；在医疗领域，可以将患者情绪变化的检测结果作为病症诊断和治疗的依据；在教育领域，可以根据课堂学生的情绪变化做教学调整等。大多数情绪识别是基于待检测目标的视觉、语音、文本、行为、生理信号等信息进行的，虽然可以在各场景对目标的情绪进行检测，但目前情绪识别准确率不高，从而影响情绪识别效果。

发明内容

本申请主要解决的技术问题是提供一种情绪识别方法、摄像装置、情绪识别装置及存储装置，能够提高情绪识别的准确率。

为了解决上述问题，本申请第一方面提供了一种情绪识别方法，该方法包括：获取目标的音频信息和文本信息；其中，文本信息是基于音频信息得到的；分别提取音频信息的音频特征和文本信息的文本特征；基于音频特征与文本特征之间的相关性，分别对音频特征与文本特征进行修正，得到音频修正特征和文本修正特征；融合音频修正特征和文本修正特征进行情绪识别，得到目标的情绪分类。

为了解决上述问题，本申请第二方面提供了一种情绪识别装置，该情绪识别装置包括相互耦接的存储器和处理器，存储器中存储有程序数据，处理器用于执行程序数据以实现上述情绪识别方法的任一步骤。

为了解决上述问题，本申请第三方面提供了一种存储装置，该存储装置存储有能够被处理器运行的程序数据，程序数据用于实现上述情绪识别方法的任一步骤。

为了解决上述问题，本申请第四方面提供了一种摄像装置，该摄像装置包括：摄像部件和识别部件，其中，摄像部件用于采集目标的音频或视频；识别部件用于利用目标的音频或视频，执行上述权利要求1至10任一项所述方法的步骤。

上述方案，通过获取目标的音频信息和文本信息；分别提取音频信息的音频特征和文本信息的文本特征；由于文本信息是基于音频信息得到的，基于音频特征与文本特征之间的相关性，分别对音频特征与文本特征进行修正，得到音频修正特征和文本修正特征，因参考了音频特征和文本特征两个方面的信息，并分别对音频特征与文本特征进行修正，融合音频修正特征和文本修正特征进行情绪识别，得到目标的情绪分类，使得通过音频和文本两个方面的特征信息进行情绪识别，能够提高情绪识别的准确率。

附图说明

为了更清楚地说明本申请中的技术方案，下面将对实施例描述中所需要的附图作简单的介绍，显而易见地，下面描述的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。其中：

图1是本申请情绪识别方法一实施例的流程示意图；

图2是本申请图1中步骤S11一实施例的流程示意图；

图3是本申请图1中步骤S11另一实施例的流程示意图；

图4是本申请音频信息的声波图一实施例的示意图；

图5是本申请音频信息的语谱图一实施例的示意图；

图6是本申请图1中步骤S12一实施例的流程示意图；

图7是本申请音频提取模型一实施例的结构示意图；

图8是本申请文本提取模型一实施例的结构示意图；

图9是本申请图1中步骤S13一实施例的流程示意图；

图10是本申请图1中步骤S13另一实施例的流程示意图；

图11是本申请修正音频特征和文本特征一实施例的结构示意图；

图12是本申请摄像装置一实施例的结构示意图；

图13是本申请情绪识别装置第一实施例的结构示意图；

图14是本申请情绪识别装置第二实施例的结构示意图；

图15是本申请情绪识别装置第三实施例的结构示意图；

图16是本申请存储装置一实施例的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请中的术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本申请提供以下实施例，下面对各实施例进行具体说明。

请参阅图1，图1是本申请情绪识别方法一实施例的流程示意图。该方法可以包括以下步骤：

S11：获取目标的音频信息和文本信息；其中，文本信息是基于音频信息得到的。

情绪是指人有喜、怒、哀、乐、惧等心理体验，这种体验是人对客观事物的态度的一种反映。可以通过说话人的说话方式，说话的语气、态度等，对说话人进行情绪识别。

在对目标进行情绪识别的过程中，可以获取目标的音频信息，基于音频信息获取目标的文本信息，例如对目标的音频信息进行文字转换得到文本信息。

在一些实施例方式中，目标可以包括一个或多个待检测目标，获取包含多个待检测目标的音频信息和文本信息，以针对多个待检测目标进行情绪识别。

在一些实施例方式中，例如在服务领域，可以获取与目标用户的通话音频作为目标用户的音频信息，从而基于音频信息进行文字转换，得到目标用户的文本信息。

在一些实施例方式中，例如在医疗领域，例如对患者进行情绪识别，可以获取与目标患者的问诊记录的音频，和/或患者获取在一段时间内的进行交互的交谈内容作为目标患者的音频信息，从而基于音频信息得到目标患者的文本信息。

在一些实施例方式中，例如在教育领域，可以利用摄像装置获取在教室的课堂上老师、学生的音频或视频，以将课堂上老师与学生的交谈音频内容作为目标的音频信息，以基于音频信息得到目标的文本信息。

本申请还可以采用其他方式获取目标的音频信息和文本信息，本申请不限于此。

S12：分别提取音频信息的音频特征和文本信息的文本特征。

在一些实施例方式中，可以对目标的音频信息进行特征提取，可以对音频信息做频谱分析从而获取具有辨识度的语音特性信息，例如提取得到音频的梅尔倒普系数、线性预测系数、耳蜗倒普系数、韵律特征等，将提取的特征作为音频特征。

在一些实施例方式中，可以将音频信息的语音信号的时频特征转化为语谱图，语谱图包含了语音信号的能量、共振峰、基音频率等特征。以提取语谱图的语谱特征，可以连通时频两域，直观的展示了语音能量在时域和频域上分布的视觉结果。对音频信息的语谱图以空间和时序维度提取特征，以得到音频信息的音频特征。

在一些实施例方式中，可以对文本信息中的文本进行语义分析，提取文本信息语义信息，以基于语义信息得到文本信息的文本特征。

在一些实施方式中，可以分别将音频信息和文本信息输入神经网络，以分别提取得到音频信息的音频特征和文本信息的文本特征。

S13：基于音频特征与文本特征之间的相关性，分别对音频特征与文本特征进行修正，得到音频修正特征和文本修正特征。

由于文本信息是基于音频信息得到的，音频信息与文本信息相关，可以基于音频特征与文本特征之间的相关性，分别对音频特征与文本特征进行修正，得到音频修正特征和文本修正特征。

在一些实施方式中，可以利用文本信息对音频特征进行修正，得到音频修正特征；利用音频特征对文本信息进行修正，得到文本修正特征，以通过语音特征和文本特征进行互相修正。

在一些实施方式中，基于音频特征与文本特征之间的第一相关性，其中，可以将音频特征作为外部因素，获取音频特征对文本特征的第一相关性，利用第一相关性对内部因素的文本特征进行修正，得到文本修正特征。基于音频特征与文本特征之间的第二相关性，也即可以获取外部因素文本特征对内部因素音频特征的第二相关性，利用第二相关性对音频特征进行修正，得到音频修正特征。

S14：融合音频修正特征和文本修正特征进行情绪识别，得到目标的情绪分类。

融合音频修正特征和文本修正特征，可以将融合后的特征作为融合特征，以将融合特征经过Add层、归一化层、平均池化层、决策分类器进行情绪识别，以得到目标的情绪分类。其中，Add层可以对融合信息进行叠加，使得描述目标的特征下的信息量增多，在每一维下的信息量在增加。决策分类器包括一个由两个全连接构成的前馈神经网络决策分类器。

其中，情绪分类可以包括喜、怒、哀、乐、惧等分类，得到的目标情绪分类可以包括情绪类别、类别概率等。

在一些实施方式中，可以对情绪进行等级分类，情绪分类包括喜、怒、哀、乐、惧等分类进行等级划分，例如对情绪类别“喜”进行等级划分，可以划分为一级喜、二级喜、三级喜等。

在一些实施方式中，可以对情绪划分更细致的类别，例如情绪分类可以包括兴趣、愉快、惊奇、悲伤、愤怒、厌恶、轻蔑、恐惧、害羞与胆怯等。本申请对情绪分类不做限制。

在一些实施方式中，可以对情绪识别的识别结果即情绪分类用情绪画像进行表示，例如情绪为喜悦，则用带“笑脸的表情”的图像表示；情绪为悲伤，则用带“哭泣的表情”的图像表示等等。本申请对此不做限制。

在一些实施方式中，还可以对识别得到的情绪分类进行情绪画像处理，可以实时处理、统计目标分情绪分类，以分析目标的情绪变化，并可以将情绪实时可视化显示，并分析一段时间内的整体情绪分析报告。

在一些实施方式中，可以将目标的音频信息、文本信息、音频特征、文本特征、识别得到的情绪分类等信息进行存储，在获得授权的情况下，可以将云端服务器或客户端等设备传输数据或一段时间内的历史数据等，以便于后续进行追溯。

本实施例中，通过获取目标的音频信息和文本信息；分别提取音频信息的音频特征和文本信息的文本特征；由于文本信息是基于音频信息得到的，基于音频特征与文本特征之间的相关性，分别对音频特征与文本特征进行修正，得到音频修正特征和文本修正特征，因参考了音频特征和文本特征两个方面的信息，并分别对音频特征与文本特征进行修正，融合音频修正特征和文本修正特征进行情绪识别，得到目标的情绪分类，使得通过音频和文本两个方面的特征信息进行情绪识别，能够提高情绪识别的准确率。

在一些实施例中，请参阅图2，上述步骤S11，获取目标的音频信息和文本信息，可以包括以下步骤：

S111：获取目标的视频或音频。

可以利用摄像装置对目标进行拍摄，以得到目标的视频。也可以通过录音装置对目标进行录音，以得到目标的音频。

S112：提取视频或音频中目标的音频信息。

对于视频，可以提取视频中目标的音频信息。具体地，可以将摄像装置采集的视频进行音视频的分离，将视频中的音频部分和视频部分进行分割，保留音频部分，可以将视频部分舍弃，将音频部分作为目标的音频信息。

对于音频，可以将录音装置采集的音频作为目标的音频信息。

S113：对目标的音频信息进行文字转换，得到目标的文本信息。

得到目标的音频信息之后，可以对音频信息进行语音识别，也即可以将音频信息进行文字转换，以转换得到的文本作为目标的文本信息。

在一些实施方式中，在基于目标的音频信息获取文本信息之前，音频信息可以是语音信号，可以对语音信号进行去噪、端点切割处理，然后对利用语音识别API(接口)获取语音信号的文本译文，可以将文本译文作为目标的文本信息。

在另一些实施例中，请参阅图3，上述步骤S11，获取目标的音频信息和文本信息，可以包括以下步骤：

S111：获取目标的视频或音频。

S112：提取视频或音频中目标的音频信息。

该实施例中步骤S111至步骤S113的实施过程可以参考上述实施例的具体实施过程，本申请在此不再赘述。

S114：对目标的音频信息进行音频预处理，得到经过预处理的音频信息；其中，音频预处理包括以下至少一种：分帧加窗处理、离散傅里叶变换处理、对数缩放处理、去噪和归一化处理。

请参阅图4和图5，从视频或音频提取得到的音频信息可以是语音信号，语音信号可以用声波图表示，也即是语音信号的原始声波图，例如表示在课堂上采集得到的一段约3秒的语音信号的原始声波图，横轴可以表示时间域，纵轴可以表示振幅域。可以将语音信号转换为语谱图，语谱图是按照语谱图的提取流程和对应理论公式计算获得的。语谱图包含了能量、共振峰、基音频率等特征，语谱图的横轴表示时间域，纵轴表示频率域，通过确定的时间和频率可以唯一确定一个语音能量。

对目标的语音信号进行音频预处理，得到经过预处理的音频信息；其中，音频预处理包括以下至少一种：分帧加窗处理、离散傅里叶变换处理、对数缩放处理、去噪和归一化处理。

例如在音频预处理过程中，对语音信号以25ms为帧长、20ms为帧移进行分帧。分帧之后，以20ms为窗长进行加汉明窗处理。接着对每一帧语音信号执行800个采样点的长度进行离散傅里叶变换处理，然后对语音信号进行对数缩放、去噪和归一化处理，得到经过预处理的音频信息。另外。考虑到语音信号的高频成分能量的集中度不高，还可以剔除4kHz以上的频率成分的语音信号，从而保留0-4kHz的频率成分的语音信号。

S115：对目标的文本信息进行文本预处理，得到经过预处理的文本信息；其中，文本预处理包括以下至少一种：分词处理、停留词过滤处理、词性标注处理。

将对音频信息经过文字转换得到的文本信息进行文本预处理，具体地，可以对音频信息的文本译文进行中文的分词处理，例如词性等分词。还可以对文本译文进行停留词过滤处理，以过滤文本译文中的“啊、嗯”等停留词。此外，还可以对文本译文的分词进行词性标注处理。本申请还可以对文本译文进行其他的预处理，本申请对此不做限制。

在一些实施例中，请参阅图6，上述步骤S12，可以包括以下步骤：

S121：利用音频提取模型对音频信息进行处理，得到音频信息的音频特征；其中，音频提取模型包括卷积神经网络和双向长短期记忆网络。

对于提取音频信息的音频特征，可以利用音频提取模型对音频信息进行处理，得到音频信息的音频特征。其中，音频提取模型可以是神经网络模型。

请参阅图7，音频提取模型包括卷积神经网络和双向长短期记忆网络(Bi-directional Long Short-Term Memory，简称BiLSTM)。双向长短期记忆网络是由前向长短期记忆网络(Long Short-Term Memory，简称LSTM)与后向LSTM组合而成。

在一些实施方式中，卷积神经网络可以包括多个卷积层和池化层。例如卷积神经网络的卷积块(Convolution Block)依次包括卷积层1(Conv_1BN_1，48*60*96)、池化层1(Max pooling，23*29*96)、卷积层2(Conv_2BN_2，23*29*256)、池化层2(Max pooling，11*14*256)、卷积层3(Conv_3，11*14*384)、卷积层4(Conv_4，11*14*384)、卷积层5(Conv_5，11*14*256)、池化层3(Max pooling，11*14*256)。卷积层用于对音频信息进行卷积处理，池化层用于对音频信息进行池化处理。卷积神经网络还可以采用其他尺寸、其他卷积块分布的神经网络，本申请不限于此。

在一些实施方式中，可以将音频信息的语谱图(Spectrogram)输入音频提取模型的卷积神经网络，使得利用音频提取模型的卷积神经网络对音频信息进行卷积处理，得到音频的空间特征。在该过程中，依次经过卷积神经网络的多个卷积层和池化层进行特征提取，由于卷积层的通道数逐渐增多，提取到的特征信息也越丰富，提取的特征也越来越高级，使得可以按照先提取低级特征然后再提取高级特征的顺序来获得语谱图的高级空间特征，也即是音频的空间特征。

在一些实施方式中，可以按照顺序将来自不同感觉野的音频的空间特征建模转换为时序特征。将音频的空间特征输入与卷积神经网络相连的BiLSTM网络，再利用音频提取模型的双向长短期记忆网络对音频的空间特征进行编码处理，得到音频的时空特征，以作为音频信息的音频特征。

本实施例中，由于音频信息(语谱图)包含有空间信息和时间信息，采用卷积神经网络提取空间特征，利用BiLSTM网络提取时序特征，可以提高音频信息的编码效果和音频特征的提取能力。

S122：利用文本提取模型对文本信息进行处理，得到文本信息的文本特征；其中，文本提取模型包括语言模型和双向长短期记忆网络。

对于提取文本信息的文本特征，可以利用文本提取模型对文本信息进行处理，得到文本信息的文本特征。其中，文本提取模型可以是神经网络模型。

请参阅图8，文本提取模型包括语言模型和双向长短期记忆网络。语言模型可以包括相对段层(Relative Segment)、位置嵌入层(Positional Embedding)、置换掩膜层(Permutation Mask)、12个堆叠的XLNet层，其中，XLNet层依次包括注意力层(Multi-headAttention)、残差及归一化层(Add&Norm)、前向传播层(Feed Forward)、残差及归一化层(Add&Norm)、记忆层(Memory)。

在一些实施方式中，可以将文本信息(W1，W2，…，Wn)输入文本提取模型，可以利用文本提取模型的语言模型对文本信息进行语义处理，以得到语义信息。具体地，利用语音模型的相对段层对文本信息进行相对分割编码，利用位置嵌入层对文本信息进行位置嵌入以获取词序列之间的相对位置关系，通过置换掩膜层(或排列语言模型)构造不同词序输入以实现对双向上下文信息的利用。将经处理的文本信息输入12个堆叠的XLNet层，利用12个堆叠的XLNet层提取文本信息的语义，以得到文本信息的语义信息。将语义信息输入文本提取模型的双向长短期记忆网络，利用双向长短期记忆网络对语义信息进行编码处理，得到文本信息的文本特征。

本实施例中，通过利用双向长短期记忆网络对语义信息进行编码处理，得到文本信息的文本特征，由于在文本特征提取时加入BiLSTM网络，可以增强文本信息中词与词之间的关联性，使得提取的文本特征效果更好。

在一些实施例中，请参阅图9，上述步骤S13中，基于音频特征与文本特征之间的第一相关性，对文本特征进行修正，得到文本修正特征，可以包括以下步骤：

S1311：基于音频特征和文本特征，获取表示第一相关性的第一注意力权重。

请参阅图11，文本信息可以作为一种模态，音频信息可以作为一种模态，可以利用音频特征作为外部因素对内部因素文本信息做相关性计算。也即是利用一种模态的音频信息来判断另一模态文本信息的重要性，从而可以建立起两个模态之间的融合关系。

可以利用注意力机制分别对文本特征和音频特征进行修正。若A＝[a₁，a₂，…，a_n]表示音频特征，T＝[t₁，t₂，…，t_n]表示文本特征，其中，A,T∈R^d×n,a_i,t_i∈R^d。可以基于音频特征和文本特征，获取表示第一相关性的第一注意力权重。

具体地，在对文本特征进行修正时，可以利用音频特征和文本特征之间的相关性对文本特征进行打分，也即评估文本特征的重要性。打分方法可以是缩放点积法，可以利用音频特征和文本特征进行缩放点积，得到特征分数值。该打分过程可以用下述公式表示：

上述公式(1)中，s表示打分函数，A表示音频特征，T表示文本特征，s(A,T)表示特征分数值，d表示进行点数缩放的常数。

对特征分数值进行注意力操作，也即可以利用特征分数值获取注意力权重分布的分布矩阵α∈R^n×n，得到表示第一相关性的第一注意力权重。该过程可以用下述公式表示：

上述公式(2)中，α表示第一注意力权重，softmax()表示进行注意力操作的函数。

S1312：利用第一注意力权重对文本特征进行修正，得到文本修正特征。

得到第一注意力权重α之后，利用第一注意力权重α对文本特征进行修正，得到文本修正特征X，其中，X＝[x₁，x₂，…，x_n]^T∈R^n×d。该文本修正特征X可以用下述公式表示：

X＝α·T^T (3)

综合上述公式，对文本特征修正后，得到新的文本特征也即文本修正特征X可以表示为：

在另一些实施例中，请参阅图10，上述步骤S13中，基于音频特征与文本特征之间的第二相关性，对音频特征进行修正，得到音频修正特征，可以包括以下步骤：

S1321：基于音频特征和文本特征，获取表示第二相关性的第二注意力权重。

请参阅图11，文本信息可以作为一种模态，音频信息可以作为一种模态，可以利用文本特征作为外部因素对内部因素音频信息做相关性计算。也即是利用一种模态的文本信息来判断另一模态音频信息的重要性，从而可以建立起两个模态之间的融合关系。

基于音频特征和文本特征，获取表示第二相关性的第二注意力权重。其中，可以利用音频特征和文本特征进行缩放点积，得到特征分数值；对特征分数值进行注意力操作，得到表示第二相关性的第二注意力权重。

该步骤的具体实施过程可以参考上述步骤S1311的具体实施过程，本申请在此不再赘述。

S1322：利用第二注意力权重对音频特征进行修正，得到音频修正特征。

得到第二注意力权重之后，利用第二注意力权重对音频特征进行修正，得到音频修正特征Y，其中，Y＝[y₁，y₂，…，y_n]^T∈R^n×d。得到新的文本特征也即音频修正特征Y可以表示为：

在一些实施方式中，可以利用注意力机制分别对文本特征和音频特征进行修正，注意力机制使用了所有时间步的特征，包括了所有时间步的音频特征和所有时间步的文本特征，注意力机制中分别对文本特征和音频特征设置注意力层，可以通过音频特征和文本特征相互交叉，作为注意力层的外部因素实现对两种模态信息的互相利用，从而在融合时考虑文本和音频两个方面的信息。也就是语音流(语音特征)利用时空特征去自动抓取文本特征中的重点信息剔除噪声信息，并利用这些重点信息重塑新的文本特征；同样的，文本流(文本特征)利用文本特征去捕获语音特征中的重要信息剔除次要信息，并使用这些重点信息重建新的语音特征。

在一些实施方式中，通过将文本修正特征X和音频修正特征Y进行融合，综合考虑了文本和音频两个方面的信息，对文本特征可以辅助修正音频特征中的无效特征，音频特征可以辅助修正文本特征中的无效特征，可以更好的完成两个模态的信息的有效融合，文本信息和音频信息的特征之间互补、相互修正，可以获取更好的情绪识别效果，也可以减少两种模态融合时引入无效特征、噪声特征对情绪识别结果的影响，从而提高情绪识别的准确性。

对于上述实施例，可以应用于各种情绪识别场景。本申请以应用于智能摄像装置对目标进行情绪检测为例进行说明，本申请不限于此。

请参阅图12，图12是本申请摄像装置一实施例的结构示意图。该摄像装置50包括摄像部件51和识别部件52。可以利用摄像部件51及识别部件52执行上述情绪识别方法任一实施例的步骤。

其中，摄像部件51用于采集目标的音频或视频。例如在课堂上，可以利用摄像装置50对目标进行摄像，以采集得到目标的视频或音频。提取视频或音频中目标的音频信息；对目标的音频信息进行文字转换，得到目标的文本信息，以得到目标的音频信息和文本信息。

识别部件52用于利用目标的音频或视频，执行上述情绪识别方法的任一步骤。识别部件52可以利用目标的音频或视频获取目标的音频信息和文本信息；其中，文本信息是基于音频信息得到的。分别提取音频信息的音频特征和文本信息的文本特征。基于音频特征与文本特征之间的相关性，分别对音频特征与文本特征进行修正，得到音频修正特征和文本修正特征；融合音频修正特征和文本修正特征进行情绪识别，得到目标的情绪分类。

该实施例的具体实施方式可参考上述实施例的实施过程，在此不再赘述。

对于上述实施例，本申请还提供一种情绪识别装置。请参阅图13，图13是本申请情绪识别装置第一实施例的结构示意图。情绪识别装置20可以包括获取单元21、特征提取单元22、特征修正单元23、识别单元24。其中，获取单元21、特征提取单元22、特征修正单元23和识别单元24互相连接。

获取单元21用于获取目标的音频信息和文本信息；其中，文本信息是基于音频信息得到的。

特征提取单元22用于分别提取音频信息的音频特征和文本信息的文本特征。

特征修正单元23用于基于所述音频特征与所述文本特征之间的相关性，分别对所述音频特征与所述文本特征进行修正，得到音频修正特征和文本修正特征；

识别单元24用于融合音频修正特征和文本修正特征进行情绪识别，得到目标的情绪分类。

在一些实施方式中，情绪识别装置20可以是摄像装置、电子设备、录音设备等设备。例如情绪识别装置可以是智能摄像机，利用智能摄像机在教室的课堂上对老师、学生等进行实时拍摄，拍摄得到视频，以通过视频获取音频信息和文本信息。本申请的情绪识别装置20还可以是其他具备摄像或录音功能的设备，本申请不限于此。

在一些实施方式中，情绪识别装置20也可以是可以获取文本信息和音频信息的设备，情绪识别装置20可以与具备摄像或录音功能的设备连接，以获取具备摄像或录音功能的设备传输的视频或音频，来获取文本信息和音频信息进行情绪识别。

在一些实施例中，请参阅图14至15，图14是本申请情绪识别装置第二实施例的结构示意图。情绪识别装置20可以包括获取单元21、特征提取单元22、特征修正单元23、识别单元24。

获取单元21可以包括采集单元211和分离单元212。在一些实施例中，采集单元211可以是摄像头、摄像设备或录音设备等。采集单元211用于获取目标的视频或音频。分离单元212用于提取视频或音频中目标的音频信息。例如分离单元212可以用于将摄像头采集到音频或视频在本地存储空间对音视频进行分离，即可以将音频部分和视频部分切割出来，并只保留音频部分，舍弃视频部分。

特征提取单元22包括语音预处理单元221、语音特征单元222、文本预处理单元223和文本特征单元224。

其中，语音预处理单元221用于对目标的音频信息进行音频预处理，得到经过预处理的音频信息；其中，音频预处理包括以下至少一种：分帧加窗处理、离散傅里叶变换处理、对数缩放处理、去噪和归一化处理。

语音特征单元222用于利用音频提取模型对音频信息进行处理，得到音频信息的音频特征；其中，音频提取模型包括卷积神经网络和双向长短期记忆网络。具体地，利用音频提取模型的卷积神经网络对音频信息进行卷积处理，得到音频的空间特征；利用音频提取模型的双向长短期记忆网络对音频的空间特征进行编码处理，得到音频的时空特征，以作为音频信息的音频特征。

文本预处理单元223可以用于对目标的音频信息进行文字转换，得到目标的文本信息。以及，对目标的文本信息进行文本预处理，得到经过预处理的文本信息；其中，文本预处理包括以下至少一种：分词处理、停留词过滤处理、词性标注处理。

文本特征单元224用于利用文本提取模型对文本信息进行处理，得到文本信息的文本特征；其中，文本提取模型包括语言模型和双向长短期记忆网络。具体地，可以利用文本提取模型的语言模型对文本信息进行语义处理，得到语义信息；利用文本提取模型的双向长短期记忆网络对语义信息进行编码处理，得到文本信息的文本特征。

特征修正单元23包括语音修正单元231和文本修正单元232。

语音修正单元231用于基于音频特征与文本特征之间的第二相关性，对音频特征进行修正，得到音频修正特征。具体地，可以基于音频特征和文本特征，获取表示第二相关性的第二注意力权重；利用第二注意力权重对音频特征进行修正，得到音频修正特征。

文本修正单元232用于基于音频特征与文本特征之间的第一相关性，对文本特征进行修正，得到文本修正特征。具体地，可以基于音频特征和文本特征，获取表示第一相关性的第一注意力权重；利用第一注意力权重对文本特征进行修正，得到文本修正特征。

在一些实施方式中，基于音频特征和文本特征，获取表示第一相关性的第一注意力权重或第二相关性的第二注意力权重，包括：利用音频特征和文本特征进行缩放点积，得到特征分数值；对特征分数值进行注意力操作，得到第一注意力权重或第二注意力权重。

情绪识别装置20还包括存储单元25。存储单元25用于存储音频或视频。以及在情绪识别过程中每个过程产生的数据。例如每从采集到音视频数据到经过以上处理单元，再经过前馈网络的前向推理完成最终的情绪识别。这整个过程中产生的音频数据、文本数据、检测结果将会被暂时存储在本装置上的存储单元中，使得存储的数据可以用于实时调度，如可以为课堂情绪画像单元提供数据支撑。此外，本装置的存储单元会在获得授权的情况下向云端服务器传输历史数据，以便于后期追溯。

识别单元24还可以对情绪分类进行情绪画像处理。例如实时处理、统计情绪分类的结果并以友好的可视化界面显示课堂情绪。可以包含实时的情绪可视化显示以及一段时间内的整体统计报告。

对于上述实施例，本申请提供一种情绪识别装置，请参阅图15，图15是本申请计算机设备第三实施例的结构示意图。该计算机设备30包括存储器31和处理器32，其中，存储器31和处理器32相互耦接，存储器31中存储有程序数据，处理器32用于执行程序数据以实现上述情绪识别方法任一实施例中的步骤。

在本实施例中，处理器32还可以称为CPU(Central Processing Unit，中央处理单元)。处理器32可能是一种集成电路芯片，具有信号的处理能力。处理器32还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器32也可以是任何常规的处理器等。

对于上述实施例的方法，其可以采用计算机程序的形式实现，因而本申请提出一种存储装置，请参阅图16，图16是本申请存储装置一实施例的结构示意图。该存储装置40中存储有能够被处理器运行的程序数据41，程序数据41可被处理器执行以实现上述情绪识别方法中任一实施例的步骤。

本实施例存储装置40可以是U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等可以存储程序数据41的介质，或者也可以为存储有该程序数据41的服务器，该服务器可将存储的程序数据41发送给其他设备运行，或者也可以自运行该存储的程序数据41。

在本申请所提供的几个实施例中，应该理解的，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储装置中，该存储装置是一种计算机可读取存储介质。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台电子设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。

显然，本领域的技术人员应该明白，上述的本申请的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种情绪识别方法，其特征在于，所述方法包括：

获取目标的音频信息和文本信息；其中，所述文本信息是基于所述音频信息得到的；

分别提取所述音频信息的音频特征和所述文本信息的文本特征；

基于所述音频特征与所述文本特征之间的相关性，分别对所述音频特征与所述文本特征进行修正，得到音频修正特征和文本修正特征；

融合所述音频修正特征和文本修正特征进行情绪识别，得到所述目标的情绪分类。

2.根据权利要求1所述的方法，其特征在于，所述基于所述音频特征与所述文本特征之间的相关性，分别对所述音频特征与所述文本特征进行修正，得到音频修正特征和文本修正特征，包括：

基于所述音频特征与所述文本特征之间的第一相关性，对所述文本特征进行修正，得到所述文本修正特征；以及，

基于所述音频特征与所述文本特征之间的第二相关性，对所述音频特征进行修正，得到所述音频修正特征。

3.根据权利要求2所述的方法，其特征在于，

所述基于所述音频特征与所述文本特征之间的第一相关性，对所述文本特征进行修正，得到所述文本修正特征，包括：基于所述音频特征和所述文本特征，获取表示所述第一相关性的第一注意力权重；利用所述第一注意力权重对所述文本特征进行修正，得到所述文本修正特征；和/或，

所述基于所述音频特征与所述文本特征之间的第二相关性，对所述音频特征进行修正，得到所述音频修正特征，包括：基于所述音频特征和所述文本特征，获取表示所述第二相关性的第二注意力权重；利用所述第二注意力权重对所述音频特征进行修正，得到所述音频修正特征。

4.根据权利要求3所述的方法，其特征在于，所述基于所述音频特征和所述文本特征，获取表示所述第一相关性的第一注意力权重或所述第二相关性的第二注意力权重，包括：

利用所述音频特征和所述文本特征进行缩放点积，得到特征分数值；

对所述特征分数值进行注意力操作，得到所述第一注意力权重或所述第二注意力权重。

5.根据权利要求1所述的方法，其特征在于，所述提取所述音频信息的音频特征，包括：

利用音频提取模型对所述音频信息进行处理，得到所述音频信息的音频特征；其中，所述音频提取模型包括卷积神经网络和双向长短期记忆网络。

6.根据权利要求5所述的方法，其特征在于，所述利用音频提取模型对所述音频信息进行处理，得到所述音频信息的音频特征，包括：

利用所述音频提取模型的卷积神经网络对所述音频信息进行卷积处理，得到音频的空间特征；

利用所述音频提取模型的双向长短期记忆网络对所述音频的空间特征进行编码处理，得到音频的时空特征，以作为所述音频信息的音频特征。

7.根据权利要求1所述的方法，其特征在于，所述提取所述文本信息的文本特征，包括：

利用文本提取模型对所述文本信息进行处理，得到所述文本信息的文本特征；其中，所述文本提取模型包括语言模型和双向长短期记忆网络。

8.根据权利要求7所述的方法，其特征在于，所述利用文本提取模型对所述文本信息进行处理，得到所述文本信息的文本特征，包括：

利用所述文本提取模型的语言模型对所述文本信息进行语义处理，得到语义信息；

利用所述文本提取模型的双向长短期记忆网络对所述语义信息进行编码处理，得到所述文本信息的文本特征。

9.根据权利要求1所述的方法，其特征在于，所述获取目标的音频信息和文本信息，包括：

获取所述目标的视频或音频；

提取所述视频或音频中所述目标的音频信息；

对所述目标的音频信息进行文字转换，得到所述目标的文本信息。

10.根据权利要求9所述的方法，其特征在于，在所述获取所述目标的视频之后，所述方法还包括：

对所述目标的音频信息进行音频预处理，得到经过预处理的音频信息；其中，所述音频预处理包括以下至少一种：分帧加窗处理、离散傅里叶变换处理、对数缩放处理、去噪和归一化处理；以及，

对所述目标的文本信息进行文本预处理，得到经过预处理的文本信息；其中，所述文本预处理包括以下至少一种：分词处理、停留词过滤处理、词性标注处理。

11.一种摄像装置，其特征在于，所述摄像装置包括：

摄像部件，用于采集目标的音频或视频；

识别部件，用于利用所述目标的音频或视频，执行上述权利要求1至10任一项所述方法的步骤。

12.一种情绪识别装置，其特征在于，包括相互耦接的存储器和处理器，所述存储器中存储有程序数据，所述处理器用于执行所述程序数据以实现权利要求1至10任一项所述方法的步骤。

13.一种存储装置，其特征在于，存储有能够被处理器运行的程序数据，所述程序数据用于实现权利要求1至10任一项所述方法的步骤。