CN102592593B

CN102592593B - 一种考虑语音中多线性群组稀疏特性的情绪特征提取方法

Info

Publication number: CN102592593B
Application number: CN201210091525.1A
Authority: CN
Inventors: 吴强; 刘琚; 孙建德
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2012-03-31
Filing date: 2012-03-31
Publication date: 2014-01-01
Anticipated expiration: 2032-03-31
Also published as: CN102592593A

Abstract

本发明公开了一种考虑语音中多线性群组稀疏特性的情绪特征提取方法，该方法考虑语音信号中包括时间、频率、尺度和方向信息的多重因素，利用多线性群组稀疏分解的方法进行特征提取，通过不同尺度和方向的Gabor函数对语音信号能量谱进行多线性表征，利用群组稀疏张量分解方法求解特征投影矩阵，计算频率阶上的特征投影，经过离散余弦变换对特征去相关，最终计算特征的一阶和二阶差分系数，得到语音情绪特征。本发明考虑语音信号中的时间、频率、尺度和方向等因素用于情绪的特征提取，利用群组稀疏张量分解方法进行特征投影，最终提高了多类语音情绪识别的准确率。

Description

一种考虑语音中多线性群组稀疏特性的情绪特征提取方法

技术领域

本发明涉及一种用于提高语音情绪识别性能的语音情绪特征提取方法，属于语音信号处理技术领域。

背景技术

语音是人们在日常生活中进行交流的最便捷的方式之一，这也使得研究人员积极探索如何利用语音作为人和机器之间进行交流的工具。除了传统的语音识别等人机交互模式外，说话人的情绪也是一种重要的交互信息，机器能够自动识别理解说话人的情绪是人机交互智能化的重要标志之一。

语音情绪识别在信号处理和智能人机交互领域具有重要的价值，有着很多潜在的应用。在人机交互方面，通过计算机识别说话人的情绪可以提高系统的亲切性和准确性，例如远程教育系统可以通过识别学生的情绪及时调整课程，从而提升教学效果；在电话呼叫中心和移动通信中，可以及时获取用户的情绪信息，提高服务的质量；车载系统可以通过情绪识别检测司机的精力是否集中，并做出相应的辅助警示。在医学方面，基于语音的情绪识别可以作为一种工具，帮助医生对病人的病情进行诊断。

对于语音情绪识别来说，一个重要的问题就是如何提取出有效的特征用来表示不同的情绪。按照传统的特征提取方法，通常会将一段语音信号分成多帧，以便得到近似平稳的信号。从每一帧获取的周期性特征称为局部特征，例如基音、能量等，其优点是现有的分类器能够利用局部特征较为准确的估计出不同情绪状态的参数，缺点是特征维数和样本数较多，影响到特征提取和分类的速度。通过对整个句子的特征进行统计得到特征称为全局特征，其优点是能够获得较好的分类精度和速度，但是丢失了语音信号的时序信息，容易出现训练样本不足的问题。一般情况下，语音情绪识别常用的特征有以下几类：连续声学特征、谱特征、基于Teager能量算子的特征等等。

根据心理学和韵律学等的研究结果，说话人的情绪在语音中最直观的特征就是韵律连续特征，如基音、能量、说话的速率等。对应的全局特征包括基音或者能量的均值、中位数、标准偏差、最大值、最小值等，以及第一、第二共振峰等等。

谱特征提供了语音信号中的有用的频率信息，也是语音情绪识别中重要的特征提取方式。常用的谱特征包括线性预测系数(LPC)、线性预测倒谱系数(LPCC)、美尔频率倒谱系数(MFCC)、感知加权线性预测(PLP)等等。

语音是由发声系统中的非线性空气流产生的，Teager能量算子(TEO)是Teager等人提出的一种能够快速跟踪声门周期内信号能量变化的运算操作，用于分析语音的精细结构。不同的情绪状态下，肌肉的伸缩情况会影响发声系统中空气流的运动，根据Bou-Ghazale等人的研究结果可以知道，基于TEO的特征可以用来检测语音中的紧张情绪。

根据众多实验评估结果，对于语音情绪识别来说，要针对不同的分类任务来选择合适的特征表征，基于Teager能量的特征适合于检测语音信号中的紧张情绪;连续声学特征则适合区分高唤醒情绪(high-arousal emotion)和低唤醒情绪(low-arousal emotion)；而对于多类的情绪分类任务，谱特征是最适合的语音表征，如果将谱特征与连续声学特征结合，或者考虑多种因素的关联分析，也能够达到提高分类精度的目的。

在语音情绪特征提取和选择完成之后的另外一个重要阶段就是分类。目前模式识别领域中各种分类器都被用来对语音情绪特征进行分类，包括隐马尔科夫模型(HMM)、高斯混合模型(GMM)、支持向量机(SVM)、线性判别分析(LDA)和集成分类器等等。隐马尔科夫模型是在语音情绪识别中应用的最广泛的识别器之一，这得益于它在语音信号中的普遍应用，尤其适用于处理具有时序结构的数据，从目前的研究结果来看，基于隐马尔科夫模型的情绪识别系统能够提供较高分类准确率。高斯混合模型可以看作是只有一个状态的隐马尔科夫模型，非常适合于对多元分布进行建模，Breazeal等人利用GMM作为分类器应用于KISMET语音数据库，对五类情绪进行分类识别。支持向量机已经被广泛应用模式识别领域，其基本原理是通过核函数将特征投影到高维空间使得特征线性可分，相比HMM和GMM，它具有训练算法全局最优以及存在依赖于数据的泛化边界的优点，不少研究结果是利用支持向量机作为语音情绪识别的分类器并取得了较好的分类效果。

如图1所示，传统的基于谱特征的语音情绪识别方法通常采用以下步骤：

1)对输入的语音信号进行预处理，包括加窗、滤波、预加重等；

2)对信号进行短时傅立叶变换，通过美尔三角窗进行滤波，然后求对数谱（取log）；

3)利用离散余弦变换计算倒谱，然后加权，求倒谱均值减，计算差分；

4)利用高斯混合模型（GMM）进行训练，获得不同情绪的模型；

5)通过训练得到的情绪模型，对测试数据进行识别，得到识别准确率。

目前针对两类情绪分类，如负面情绪和中立情绪，已经达到了相对较好的分类精度，但是对于多类情绪的分类，由于数据的不平衡性，只考虑单一因素（频率或者时间）等原因，使得特征可区分性较差，情绪分类精度相对较低，这使得基于语音的情绪识别系统应用受到限制。

发明内容

针对传统语音情绪识别中的特征提取只考虑单一因素，如频率或者时间，使得特征可区分性较差的问题，本发明提出一种考虑语音中多线性群组稀疏特性、用于语音情绪识别并能够提高多类情绪识别准确率的语音情绪特征提取方法。

本发明的考虑语音中多线性群组稀疏特性的情绪特征提取方法，是：

考虑语音信号中包括时间、频率、尺度和方向信息的多重因素，利用多线性群组稀疏分解的方法进行特征提取，通过不同尺度和方向的Gabor函数对语音信号能量谱进行多线性表征，利用群组稀疏张量分解方法求解特征投影矩阵，计算频率阶上的特征投影，经过离散余弦变换对特征去相关，通过差分获得特征的一阶和二阶差分系数；具体包括以下步骤：

（1）采集语音信号s(t)（通过麦克风等设备采集），利用短时傅里叶变换将s(t)变换到时频域，得到信号的时频表示S(f,t)和能量谱P(f,t)；

（2）利用具有不同尺度和方向的二维Gabor函数对能量谱进行卷积滤波，Gabor函数定义如下：

g_{\overset{&OverBar;}{k}} (\overset{&OverBar;}{x}) = \frac{{\overset{&OverBar;}{k}}^{2}}{σ^{2}} \cdot e^{- ({\overset{&OverBar;}{k}}^{2} \cdot {\overset{&OverBar;}{x}}^{2} / 2 σ^{2})} \cdot [e^{j \overset{&OverBar;}{k} \cdot \overset{&OverBar;}{x}} - e^{- (σ^{2} / 2)}],

其中：

=P(f,t)是能量谱P(f,t)在第t帧、频率为f的元素；

是控制函数的尺度与方向的向量，j表示虚部单位，k_v=2^-(v+2)/2·，φ=u(π/K)，u表示函数的方向，v表示函数的尺度，K表示总的方向数，σ是确定函数包络的常数，设为2π。

Gabor函数对能量谱P(f,t)卷积滤波的结果是语音信号的多线性表征这里

是一个大小为的5阶张量，各阶分别表示时间、频率、方向、尺度和类别，然后对的频率阶进行美尔三角窗滤波得到新的5阶张量P，P的大小为N₁×N₂×N₃×N₄×N₅，每一阶的长度为N_i,i=1,…,5；

（3）对得到的多线性表征P进行群组稀疏张量分解，计算不同因素上的投影矩阵U⁽ⁱ⁾,i=1,…,5，以便进行特征投影，建立以下分解模型：

P≈Λ×₁U⁽¹⁾×₂U⁽²⁾×₃U⁽³⁾×₄U⁽⁴⁾×₅U⁽⁵⁾

其中，U⁽ⁱ⁾是分解之后得到的大小为N_i×K的投影矩阵；Λ是对角元素为1的5阶张量，大小为K×K×K×K×K；×_i表示张量i阶矩阵乘运算，其定义如下：

{(\underset{&OverBar;}{X} \times_{i} A)}_{n_{1}, \cdot \cdot \cdot n_{i - 1}, k, n_{i + 1}, \cdot \cdot \cdot n_{M}} = \underset{n_{i}}{Σ} {\underset{&OverBar;}{X}}_{n_{1}, \cdot \cdot \cdot n_{M}} A_{k, n_{i}}

其中X表示一个大小为N₁×…×N_M的M阶张量，A是一个大小为N_i×K的矩阵，

是张量X的元素，

是矩阵A的元素；

计算投影矩阵U⁽ⁱ⁾,i=1,…I的具体的分解过程如下，这里i表示阶（对应不同因素）的索引，I=5：

①采用交替最小均方或者随机初始化U⁽ⁱ⁾≥0,i=1,…,I；

②对投影矩阵U⁽ⁱ⁾,i=1,…,I的每个列向量

i=1,…,I,k=1,…,K进行归一化；

③误差目标函数

大于一定阈值时，循环执行以下操作：

●从i=1到I依次执行：

其中，||·||_F表示Frobenius范数，

是张量P ^(k)的i阶张量矩阵展开，

⊙是矩阵的Khatri-Rao积，о表示向量的外积，λ_k和q_i是用于调节目标函数成分稀疏度的权重系数，取0到1之间的数值；

●如果i≠5，

γ_{k}^{i} = u_{k}^{(I) T} u_{k}^{(I)},

其中

表示

的转置，如果i=5，

④当目标函数E小于一定阈值时，循环结束，计算得到投影矩阵U⁽ⁱ⁾,i=1,…,I；

（4）利用得到的对应于频域的投影矩阵U⁽²⁾对语音信号的多线性表征P进行特征投影：

\underset{&OverBar;}{S} = \underset{&OverBar;}{P} \times_{2} U_{+}^{(2)},

其中，[Y]₊=max(0,Y)表示选取矩阵Y中的非负元素组成的矩阵，如果元素小于0，则置为0，

是投影矩阵U⁽²⁾伪逆的非负元素组成的矩阵，×₂表示矩阵

与P进行张量的2阶矩阵乘；

（5）将时间阶固定，对获得的多线性稀疏表征S进行张量展开操作，得到大小为

的特征矩阵S_(f)，其中

{\hat{N}}_{1} = K \cdot N_{3} \cdot N_{4} \cdot N_{5};

（6）利用离散余弦变换对S_(f)进行去相关，得到语音情绪特征F，计算特征的一阶和二阶差分系数得到最终的情绪特征。

本发明考虑语音信号中的时间、频率、尺度和方向等因素用于情绪的特征提取，利用群组稀疏张量分解方法进行特征投影，最终提高了多类语音情绪识别的准确率。

附图说明

图1是传统语音情绪识别过程的示意框图；

图2是本发明的特征提取方法的示意图；

图3是采用本发明的语音情绪识别过程的示意框图。

图4是对四类语音情绪识别的实验结果对比图。

具体实施方式

如图2所示，本发明的基于多线性群组稀疏特征的语音情绪识别方法，具体包括以下步骤：

（1）通过麦克风等设备采集到语音信号s(t)，利用短时傅里叶变换将s(t)变换到时频域，得到信号的时频表示S(f,t)和能量谱P(f,t)；

（2）利用具有不同尺度和方向的二维Gabor函数对能量谱进行卷积滤波，得到语音信号的多线性表征

然后对

的频率阶进行美尔三角窗滤波得到表征P；

Gabor函数定义如下：

g_{\overset{&OverBar;}{k}} (\overset{&OverBar;}{x}) = \frac{{\overset{&OverBar;}{k}}^{2}}{σ^{2}} \cdot e^{- ({\overset{&OverBar;}{k}}^{2} \cdot {\overset{&OverBar;}{x}}^{2} / 2 σ^{2})} \cdot [e^{j \overset{&OverBar;}{k} \cdot \overset{&OverBar;}{x}} - e^{- (σ^{2} / 2)}],

其中：是能量谱P(f,t)在第t帧、频率为f的元素；

是控制函数的尺度与方向的向量，j表示虚部单位，k_v=2^-(v+2)/2·π，φ=u(π/K)，u表示函数的方向，v表示函数的尺度，K表示总的方向数，σ是确定函数包络的常数，设为2π。

Gabor函数对能量谱P(f,t)卷积滤波的结果是语音信号的多线性表征

这里

是一个大小为

的5阶张量，各阶分别表示时间、频率、方向、尺度和类别，然后对

的频率阶进行美尔三角窗滤波得到新的5阶张量P，P的大小为N₁×N₂×N₃×N₄×N₅，每一阶的长度为N_i,i=1,…,5；

（3）对表征P进行群组稀疏张量分解，计算不同因素上的投影矩阵U⁽ⁱ⁾,i=1,…,5，以便进行特征投影。建立以下分解模型：

P≈Λ×₁U⁽¹⁾×₂U⁽²⁾×₃U⁽³⁾×₄U⁽⁴⁾×₅U⁽⁵⁾

{(\underset{&OverBar;}{X} \times_{i} A)}_{n_{1}, \cdot \cdot \cdot n_{i - 1}, k, n_{i + 1}, \cdot \cdot \cdot n_{M}} = \underset{n_{i}}{Σ} {\underset{&OverBar;}{X}}_{n_{1}, \cdot \cdot \cdot n_{M}} A_{k, n_{i}}

是张量X的元素，

是矩阵A的元素。

为计算投影矩阵U⁽ⁱ⁾,i=1,…,I，这里I=5，具体的分解过程如下：

a)采用交替最小均方或者随机初始化U⁽ⁱ⁾≥0,i=1,…,I；

b)对投影矩阵U⁽ⁱ⁾,i=1,...,I的每个列向量

i=1,...,I,k=1,…,K进行归一化；

c)误差目标函数

大于一定阈值时，循环执行以下操

作：

●从n=1到I依次执行

其中，||·||_F表示Frobenius范数，

是张量P ^(k)的i阶张量矩阵展开，

●如果n≠5，

γ_{k}^{i} = u_{k}^{(I) T} u_{k}^{(I)},

其中

表示

的转置，如果n=5，

d)当目标函数E小于一定阈值时，循环结束，计算得到投影矩阵U⁽ⁱ⁾,i=1,…I；

\underset{&OverBar;}{S} = \underset{&OverBar;}{P} \times_{2} U_{+}^{(2)}

与P进行张量的2阶矩阵乘；

的特征矩阵S_(f)，其中

{\hat{N}}_{1} = N_{2} \cdot N_{3} \cdot N_{4} \cdot N_{5};

如图3所示，采用上述特征提取方法进行语音情绪识别的过程，包括以下步骤：

1)获取已经具有不同情绪标签的语音信号数据s_l(t)，l=1,…,L，共有L类不同情绪；

2)利用图2中所示的特征提取方法进行提取不同情绪的特征F…；

3)利用混合高斯混合模型（GMM）对不同情绪特征进行建模，通过学习训练，得到第l类的情绪所对应的情绪模型M_l；

4)当给定未知情绪类型的语音信号

进行测试时，利用GMM建立的情绪模型M_l，l=1,…,L，依次进行测试计算极大后验概率，得到最大概率的情绪类别，即是该语音信号的情绪识别结果。

本发明的效果可以通过实验进一步说明。

实验在FAU Aibo数据集上测试了本发明提出的特征提取方法的识别性能，对4类情绪（Anger,Emphatic,Neutral,Rest）进行识别。本实验语音信号的采样率为8kHz，采用汉明窗进行加窗，23ms窗长，10ms窗移，利用短时傅里叶变换计算信号的能量谱，具有4个不同的尺度和4个不同方向Gabor函数对能量谱进行时频卷积滤波，采用大小为36的Mel滤波器组计算美尔能谱，利用投影矩阵在频域阶上进行特征投影，利用DCT对特征进行去相关。

图4给出了本发明提出的方法与已有特征提取技术(MFCC和LFPC特征)的识别性能比较，由最终的识别准确率可见，采用本发明后，多类语音情绪识别的准确率得到有效提高，较传统方法MFCC提高了6.1%，较LFPC方法提高了5.8%。

Claims

1.一种考虑语音中多线性群组稀疏特征的语音情绪特征提取方法，其特征是：

考虑语音信号中包括时间、频率、尺度和方向信息的多重因素，利用多线性群组稀疏分解的方法进行特征提取，通过不同尺度和方向的Gabor函数对语音信号能量谱进行多线性表征，利用群组稀疏张量分解方法求解特征投影矩阵，计算频率阶上的特征投影，经过离散余弦变换对特征去相关，计算特征的一阶和二阶差分系数，具体包括以下步骤：

（1）采集语音信号s(t)，利用短时傅里叶变换将s(t)变换到时频域，得到信号的时频表示S(f,t)和能量谱P(f,t)；