[go: up one dir, main page]

CN102592593B - 一种考虑语音中多线性群组稀疏特性的情绪特征提取方法 - Google Patents

一种考虑语音中多线性群组稀疏特性的情绪特征提取方法 Download PDF

Info

Publication number
CN102592593B
CN102592593B CN201210091525.1A CN201210091525A CN102592593B CN 102592593 B CN102592593 B CN 102592593B CN 201210091525 A CN201210091525 A CN 201210091525A CN 102592593 B CN102592593 B CN 102592593B
Authority
CN
China
Prior art keywords
matrix
centerdot
overbar
speech
rank
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210091525.1A
Other languages
English (en)
Other versions
CN102592593A (zh
Inventor
吴强
刘琚
孙建德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN201210091525.1A priority Critical patent/CN102592593B/zh
Publication of CN102592593A publication Critical patent/CN102592593A/zh
Application granted granted Critical
Publication of CN102592593B publication Critical patent/CN102592593B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Complex Calculations (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种考虑语音中多线性群组稀疏特性的情绪特征提取方法,该方法考虑语音信号中包括时间、频率、尺度和方向信息的多重因素,利用多线性群组稀疏分解的方法进行特征提取,通过不同尺度和方向的Gabor函数对语音信号能量谱进行多线性表征,利用群组稀疏张量分解方法求解特征投影矩阵,计算频率阶上的特征投影,经过离散余弦变换对特征去相关,最终计算特征的一阶和二阶差分系数,得到语音情绪特征。本发明考虑语音信号中的时间、频率、尺度和方向等因素用于情绪的特征提取,利用群组稀疏张量分解方法进行特征投影,最终提高了多类语音情绪识别的准确率。

Description

一种考虑语音中多线性群组稀疏特性的情绪特征提取方法
技术领域
本发明涉及一种用于提高语音情绪识别性能的语音情绪特征提取方法,属于语音信号处理技术领域。
背景技术
语音是人们在日常生活中进行交流的最便捷的方式之一,这也使得研究人员积极探索如何利用语音作为人和机器之间进行交流的工具。除了传统的语音识别等人机交互模式外,说话人的情绪也是一种重要的交互信息,机器能够自动识别理解说话人的情绪是人机交互智能化的重要标志之一。
语音情绪识别在信号处理和智能人机交互领域具有重要的价值,有着很多潜在的应用。在人机交互方面,通过计算机识别说话人的情绪可以提高系统的亲切性和准确性,例如远程教育系统可以通过识别学生的情绪及时调整课程,从而提升教学效果;在电话呼叫中心和移动通信中,可以及时获取用户的情绪信息,提高服务的质量;车载系统可以通过情绪识别检测司机的精力是否集中,并做出相应的辅助警示。在医学方面,基于语音的情绪识别可以作为一种工具,帮助医生对病人的病情进行诊断。
对于语音情绪识别来说,一个重要的问题就是如何提取出有效的特征用来表示不同的情绪。按照传统的特征提取方法,通常会将一段语音信号分成多帧,以便得到近似平稳的信号。从每一帧获取的周期性特征称为局部特征,例如基音、能量等,其优点是现有的分类器能够利用局部特征较为准确的估计出不同情绪状态的参数,缺点是特征维数和样本数较多,影响到特征提取和分类的速度。通过对整个句子的特征进行统计得到特征称为全局特征,其优点是能够获得较好的分类精度和速度,但是丢失了语音信号的时序信息,容易出现训练样本不足的问题。一般情况下,语音情绪识别常用的特征有以下几类:连续声学特征、谱特征、基于Teager能量算子的特征等等。
根据心理学和韵律学等的研究结果,说话人的情绪在语音中最直观的特征就是韵律连续特征,如基音、能量、说话的速率等。对应的全局特征包括基音或者能量的均值、中位数、标准偏差、最大值、最小值等,以及第一、第二共振峰等等。
谱特征提供了语音信号中的有用的频率信息,也是语音情绪识别中重要的特征提取方式。常用的谱特征包括线性预测系数(LPC)、线性预测倒谱系数(LPCC)、美尔频率倒谱系数(MFCC)、感知加权线性预测(PLP)等等。
语音是由发声系统中的非线性空气流产生的,Teager能量算子(TEO)是Teager等人提出的一种能够快速跟踪声门周期内信号能量变化的运算操作,用于分析语音的精细结构。不同的情绪状态下,肌肉的伸缩情况会影响发声系统中空气流的运动,根据Bou-Ghazale等人的研究结果可以知道,基于TEO的特征可以用来检测语音中的紧张情绪。
根据众多实验评估结果,对于语音情绪识别来说,要针对不同的分类任务来选择合适的特征表征,基于Teager能量的特征适合于检测语音信号中的紧张情绪;连续声学特征则适合区分高唤醒情绪(high-arousal emotion)和低唤醒情绪(low-arousal emotion);而对于多类的情绪分类任务,谱特征是最适合的语音表征,如果将谱特征与连续声学特征结合,或者考虑多种因素的关联分析,也能够达到提高分类精度的目的。
在语音情绪特征提取和选择完成之后的另外一个重要阶段就是分类。目前模式识别领域中各种分类器都被用来对语音情绪特征进行分类,包括隐马尔科夫模型(HMM)、高斯混合模型(GMM)、支持向量机(SVM)、线性判别分析(LDA)和集成分类器等等。隐马尔科夫模型是在语音情绪识别中应用的最广泛的识别器之一,这得益于它在语音信号中的普遍应用,尤其适用于处理具有时序结构的数据,从目前的研究结果来看,基于隐马尔科夫模型的情绪识别系统能够提供较高分类准确率。高斯混合模型可以看作是只有一个状态的隐马尔科夫模型,非常适合于对多元分布进行建模,Breazeal等人利用GMM作为分类器应用于KISMET语音数据库,对五类情绪进行分类识别。支持向量机已经被广泛应用模式识别领域,其基本原理是通过核函数将特征投影到高维空间使得特征线性可分,相比HMM和GMM,它具有训练算法全局最优以及存在依赖于数据的泛化边界的优点,不少研究结果是利用支持向量机作为语音情绪识别的分类器并取得了较好的分类效果。
如图1所示,传统的基于谱特征的语音情绪识别方法通常采用以下步骤:
1)对输入的语音信号进行预处理,包括加窗、滤波、预加重等;
2)对信号进行短时傅立叶变换,通过美尔三角窗进行滤波,然后求对数谱(取log);
3)利用离散余弦变换计算倒谱,然后加权,求倒谱均值减,计算差分;
4)利用高斯混合模型(GMM)进行训练,获得不同情绪的模型;
5)通过训练得到的情绪模型,对测试数据进行识别,得到识别准确率。
目前针对两类情绪分类,如负面情绪和中立情绪,已经达到了相对较好的分类精度,但是对于多类情绪的分类,由于数据的不平衡性,只考虑单一因素(频率或者时间)等原因,使得特征可区分性较差,情绪分类精度相对较低,这使得基于语音的情绪识别系统应用受到限制。
发明内容
针对传统语音情绪识别中的特征提取只考虑单一因素,如频率或者时间,使得特征可区分性较差的问题,本发明提出一种考虑语音中多线性群组稀疏特性、用于语音情绪识别并能够提高多类情绪识别准确率的语音情绪特征提取方法。
本发明的考虑语音中多线性群组稀疏特性的情绪特征提取方法,是:
考虑语音信号中包括时间、频率、尺度和方向信息的多重因素,利用多线性群组稀疏分解的方法进行特征提取,通过不同尺度和方向的Gabor函数对语音信号能量谱进行多线性表征,利用群组稀疏张量分解方法求解特征投影矩阵,计算频率阶上的特征投影,经过离散余弦变换对特征去相关,通过差分获得特征的一阶和二阶差分系数;具体包括以下步骤:
(1)采集语音信号s(t)(通过麦克风等设备采集),利用短时傅里叶变换将s(t)变换到时频域,得到信号的时频表示S(f,t)和能量谱P(f,t);
(2)利用具有不同尺度和方向的二维Gabor函数对能量谱进行卷积滤波,Gabor函数定义如下:
g k ‾ ( x ‾ ) = k ‾ 2 σ 2 · e - ( k ‾ 2 · x ‾ 2 / 2 σ 2 ) · [ e j k ‾ · x ‾ - e - ( σ 2 / 2 ) ] ,
其中:
Figure GDA000030868017000312
=P(f,t)是能量谱P(f,t)在第t帧、频率为f的元素;
Figure GDA00003086801700032
是控制函数的尺度与方向的向量,j表示虚部单位,kv=2-(v+2)/2·,φ=u(π/K),u表示函数的方向,v表示函数的尺度,K表示总的方向数,σ是确定函数包络的常数,设为2π。
Gabor函数对能量谱P(f,t)卷积滤波的结果是语音信号的多线性表征这里
Figure GDA00003086801700034
是一个大小为的5阶张量,各阶分别表示时间、频率、方向、尺度和类别,然后对的频率阶进行美尔三角窗滤波得到新的5阶张量PP的大小为N1×N2×N3×N4×N5,每一阶的长度为Ni,i=1,…,5;
(3)对得到的多线性表征P进行群组稀疏张量分解,计算不同因素上的投影矩阵U(i),i=1,…,5,以便进行特征投影,建立以下分解模型:
PΛ×1U(1)×2U(2)×3U(3)×4U(4)×5U(5)
其中,U(i)是分解之后得到的大小为Ni×K的投影矩阵;Λ是对角元素为1的5阶张量,大小为K×K×K×K×K;×i表示张量i阶矩阵乘运算,其定义如下:
( X ‾ × i A ) n 1 , · · · n i - 1 , k , n i + 1 , · · · n M = Σ n i X ‾ n 1 , · · · n M A k , n i
其中X表示一个大小为N1×…×NM的M阶张量,A是一个大小为Ni×K的矩阵,
Figure GDA00003086801700038
是张量X的元素,
Figure GDA00003086801700039
是矩阵A的元素;
计算投影矩阵U(i),i=1,…I的具体的分解过程如下,这里i表示阶(对应不同因素)的索引,I=5:
①采用交替最小均方或者随机初始化U(i)≥0,i=1,…,I;
②对投影矩阵U(i),i=1,…,I的每个列向量
Figure GDA000030868017000310
i=1,…,I,k=1,…,K进行归一化;
③误差目标函数
Figure GDA000030868017000311
大于一定阈值时,循环执行以下操作:
●从i=1到I依次执行:
Figure GDA00003086801700041
其中,||·||F表示Frobenius范数,
Figure GDA00003086801700042
是张量P (k)的i阶张量矩阵展开,
Figure GDA00003086801700043
Figure GDA00003086801700044
⊙是矩阵的Khatri-Rao积,о表示向量的外积,λk和qi是用于调节目标函数成分稀疏度的权重系数,取0到1之间的数值;
●如果i≠5, γ k i = u k ( I ) T u k ( I ) , 其中
Figure GDA00003086801700046
表示
Figure GDA00003086801700047
的转置,如果i=5,
Figure GDA00003086801700048
④当目标函数E小于一定阈值时,循环结束,计算得到投影矩阵U(i),i=1,…,I;
(4)利用得到的对应于频域的投影矩阵U(2)对语音信号的多线性表征P进行特征投影:
S ‾ = P ‾ × 2 U + ( 2 ) ,
其中,[Y]+=max(0,Y)表示选取矩阵Y中的非负元素组成的矩阵,如果元素小于0,则置为0,
Figure GDA000030868017000410
是投影矩阵U(2)伪逆的非负元素组成的矩阵,×2表示矩阵
Figure GDA000030868017000411
P进行张量的2阶矩阵乘;
(5)将时间阶固定,对获得的多线性稀疏表征S进行张量展开操作,得到大小为
Figure GDA000030868017000412
的特征矩阵S(f),其中 N ^ 1 = K · N 3 · N 4 · N 5 ;
(6)利用离散余弦变换对S(f)进行去相关,得到语音情绪特征F,计算特征的一阶和二阶差分系数得到最终的情绪特征。
本发明考虑语音信号中的时间、频率、尺度和方向等因素用于情绪的特征提取,利用群组稀疏张量分解方法进行特征投影,最终提高了多类语音情绪识别的准确率。
附图说明
图1是传统语音情绪识别过程的示意框图;
图2是本发明的特征提取方法的示意图;
图3是采用本发明的语音情绪识别过程的示意框图。
图4是对四类语音情绪识别的实验结果对比图。
具体实施方式
如图2所示,本发明的基于多线性群组稀疏特征的语音情绪识别方法,具体包括以下步骤:
(1)通过麦克风等设备采集到语音信号s(t),利用短时傅里叶变换将s(t)变换到时频域,得到信号的时频表示S(f,t)和能量谱P(f,t);
(2)利用具有不同尺度和方向的二维Gabor函数对能量谱进行卷积滤波,得到语音信号的多线性表征
Figure GDA00003086801700051
然后对
Figure GDA00003086801700052
的频率阶进行美尔三角窗滤波得到表征P
Gabor函数定义如下:
g k ‾ ( x ‾ ) = k ‾ 2 σ 2 · e - ( k ‾ 2 · x ‾ 2 / 2 σ 2 ) · [ e j k ‾ · x ‾ - e - ( σ 2 / 2 ) ] ,
其中:是能量谱P(f,t)在第t帧、频率为f的元素;
Figure GDA00003086801700055
是控制函数的尺度与方向的向量,j表示虚部单位,kv=2-(v+2)/2·π,φ=u(π/K),u表示函数的方向,v表示函数的尺度,K表示总的方向数,σ是确定函数包络的常数,设为2π。
Gabor函数对能量谱P(f,t)卷积滤波的结果是语音信号的多线性表征
Figure GDA00003086801700056
这里
Figure GDA00003086801700057
是一个大小为
Figure GDA00003086801700058
的5阶张量,各阶分别表示时间、频率、方向、尺度和类别,然后对
Figure GDA00003086801700059
的频率阶进行美尔三角窗滤波得到新的5阶张量PP的大小为N1×N2×N3×N4×N5,每一阶的长度为Ni,i=1,…,5;
(3)对表征P进行群组稀疏张量分解,计算不同因素上的投影矩阵U(i),i=1,…,5,以便进行特征投影。建立以下分解模型:
P≈Λ×1U(1)×2U(2)×3U(3)×4U(4)×5U(5)
其中,U(i)是分解之后得到的大小为Ni×K的投影矩阵;Λ是对角元素为1的5阶张量,大小为K×K×K×K×K;×i表示张量i阶矩阵乘运算,其定义如下:
( X ‾ × i A ) n 1 , · · · n i - 1 , k , n i + 1 , · · · n M = Σ n i X ‾ n 1 , · · · n M A k , n i
其中X表示一个大小为N1×…×NM的M阶张量,A是一个大小为Ni×K的矩阵,
Figure GDA000030868017000511
是张量X的元素,
Figure GDA000030868017000512
是矩阵A的元素。
为计算投影矩阵U(i),i=1,…,I,这里I=5,具体的分解过程如下:
a)采用交替最小均方或者随机初始化U(i)≥0,i=1,…,I;
b)对投影矩阵U(i),i=1,...,I的每个列向量
Figure GDA000030868017000513
i=1,...,I,k=1,…,K进行归一化;
c)误差目标函数
Figure GDA000030868017000514
大于一定阈值时,循环执行以下操
作:
●从n=1到I依次执行
Figure GDA00003086801700061
其中,||·||F表示Frobenius范数,
Figure GDA00003086801700062
Figure GDA00003086801700063
是张量P (k)的i阶张量矩阵展开,
Figure GDA00003086801700064
⊙是矩阵的Khatri-Rao积,о表示向量的外积,λk和qi是用于调节目标函数成分稀疏度的权重系数,取0到1之间的数值;
●如果n≠5, γ k i = u k ( I ) T u k ( I ) , 其中
Figure GDA00003086801700066
表示
Figure GDA00003086801700067
的转置,如果n=5,
d)当目标函数E小于一定阈值时,循环结束,计算得到投影矩阵U(i),i=1,…I;
(4)利用得到的对应于频域的投影矩阵U(2)对语音信号的多线性表征P进行特征投影:
S ‾ = P ‾ × 2 U + ( 2 )
其中,[Y]+=max(0,Y)表示选取矩阵Y中的非负元素组成的矩阵,如果元素小于0,则置为0,
Figure GDA000030868017000610
是投影矩阵U(2)伪逆的非负元素组成的矩阵,×2表示矩阵
Figure GDA000030868017000611
P进行张量的2阶矩阵乘;
(5)将时间阶固定,对获得的多线性稀疏表征S进行张量展开操作,得到大小为
Figure GDA000030868017000612
的特征矩阵S(f),其中 N ^ 1 = N 2 · N 3 · N 4 · N 5 ;
(6)利用离散余弦变换对S(f)进行去相关,得到语音情绪特征F,计算特征的一阶和二阶差分系数得到最终的情绪特征。
如图3所示,采用上述特征提取方法进行语音情绪识别的过程,包括以下步骤:
1)获取已经具有不同情绪标签的语音信号数据sl(t),l=1,…,L,共有L类不同情绪;
2)利用图2中所示的特征提取方法进行提取不同情绪的特征F…;
3)利用混合高斯混合模型(GMM)对不同情绪特征进行建模,通过学习训练,得到第l类的情绪所对应的情绪模型Ml
4)当给定未知情绪类型的语音信号
Figure GDA000030868017000614
进行测试时,利用GMM建立的情绪模型Ml,l=1,…,L,依次进行测试计算极大后验概率,得到最大概率的情绪类别,即是该语音信号的情绪识别结果。
本发明的效果可以通过实验进一步说明。
实验在FAU Aibo数据集上测试了本发明提出的特征提取方法的识别性能,对4类情绪(Anger,Emphatic,Neutral,Rest)进行识别。本实验语音信号的采样率为8kHz,采用汉明窗进行加窗,23ms窗长,10ms窗移,利用短时傅里叶变换计算信号的能量谱,具有4个不同的尺度和4个不同方向Gabor函数对能量谱进行时频卷积滤波,采用大小为36的Mel滤波器组计算美尔能谱,利用投影矩阵在频域阶上进行特征投影,利用DCT对特征进行去相关。
图4给出了本发明提出的方法与已有特征提取技术(MFCC和LFPC特征)的识别性能比较,由最终的识别准确率可见,采用本发明后,多类语音情绪识别的准确率得到有效提高,较传统方法MFCC提高了6.1%,较LFPC方法提高了5.8%。

Claims (2)

1.一种考虑语音中多线性群组稀疏特征的语音情绪特征提取方法,其特征是:
考虑语音信号中包括时间、频率、尺度和方向信息的多重因素,利用多线性群组稀疏分解的方法进行特征提取,通过不同尺度和方向的Gabor函数对语音信号能量谱进行多线性表征,利用群组稀疏张量分解方法求解特征投影矩阵,计算频率阶上的特征投影,经过离散余弦变换对特征去相关,计算特征的一阶和二阶差分系数,具体包括以下步骤:
(1)采集语音信号s(t),利用短时傅里叶变换将s(t)变换到时频域,得到信号的时频表示S(f,t)和能量谱P(f,t);
(2)利用具有不同尺度和方向的二维Gabor函数对能量谱进行卷积滤波,Gabor函数定义如下:
g k ‾ ( x ‾ ) = k ‾ 2 σ 2 · e - ( k ‾ 2 · x ‾ 2 / 2 σ 2 ) · [ e j k ‾ · x ‾ - e - ( σ 2 / 2 ) ] ,
其中:
Figure FDA00003531693700012
是能量谱P(f,t)在第t帧、频率为f的元素;
Figure FDA00003531693700013
是控制函数的尺度与方向的向量,j表示虚部单位,kv=2-(v+2)/2·π,φ=u(π/K),u表示函数的方向,v表示函数的尺度,K表示总的方向数,σ是确定函数包络的常数,设为2π;
Gabor函数对能量谱P(f,t)卷积滤波的结果是语音信号的多线性表征
Figure FDA00003531693700014
这里
Figure FDA00003531693700015
是一个大小为
Figure FDA00003531693700016
的5阶张量,各阶分别表示时间、频率、方向、尺度和类别,然后对
Figure FDA00003531693700017
的频率阶进行美尔三角窗滤波得到新的5阶张量P,其大小为N1×N2×N3×N4×N5,每一阶的长度为Ni,i=1,…,5;
(3)对得到的多线性表征P进行群组稀疏张量分解,计算不同因素上的投影矩阵U(i),i=1,…,5,以便进行特征投影,建立以下分解模型:
PΛ×1U(1)×2U(2)×3U(3)×4U(4)×5U(5)
其中,U(i)是分解之后得到的大小为Ni×K的投影矩阵,Λ是对角元素为1的5阶张量,大小为K×K×K×K×K,×i表示张量i阶矩阵乘运算,其定义如下:
( X ‾ × i A ) n 1 , · · · n i - 1 , k , n i + 1 , · · · n M = Σ n i X ‾ n 1 , · · · n M A k , n i
其中X表示一个大小为N1×…×NM的M阶张量,A是一个大小为Ni×K的矩阵,
Figure FDA000035316937000114
是张量X的元素,
Figure FDA000035316937000224
是矩阵A的元素;
(4)利用得到的对应于频域的投影矩阵U(2)对语音信号的多线性表征P进行特征投影:
S ‾ = P ‾ × 2 U + ( 2 )
其中,[Y]+=max(0,Y)表示选取矩阵Y中的非负元素组成的矩阵,如果元素小于0,则置为0,
Figure FDA000035316937000219
,是投影矩阵U(2)伪逆的非负元素组成的矩阵,×2表示矩阵
Figure FDA000035316937000220
P进行张量的2阶矩阵乘;
(5)将时间阶固定,对获得的多线性稀疏表征S进行张量展开操作,得到大小为
Figure FDA00003531693700026
的特征矩阵S(f),其中
Figure FDA00003531693700027
(6)利用离散余弦变换对S(f)进行去相关,得到语音情绪特征F,计算特征的一阶和二阶差分系数得到最终的情绪特征。
2.根据权利要求1所述的考虑语音中多线性群组稀疏特征的语音情绪特征提取方法,其特征是:所述计算投影矩阵U(i),i=1,…,I的具体的分解过程如下,这里i表示阶的索引,I=5:
①采用交替最小均方或者随机初始化U(i)≥0,i=1,…,I;
②对投影矩阵U(i),i=1,…,I的每个列向量
Figure FDA000035316937000221
i=1,…,I,k=1,…,K进行归一化;
③误差目标函数
Figure FDA00003531693700028
大于一定阈值时,循环执行以下操作:
●从n=1到I依次执行:
其中,||·||F表示Frobenius范数,
Figure FDA000035316937000210
是张量P (k)的i阶张量矩阵展开,
Figure FDA000035316937000212
Figure FDA000035316937000213
Figure FDA000035316937000223
是矩阵的Khatri-Rao积,ο表示向量的外积,λk和qi是用于调节目标函数成分稀疏度的权重系数,取0到1之间的数值;
●如果n≠5,
Figure FDA000035316937000214
其中
Figure FDA000035316937000215
表示
Figure FDA000035316937000216
的转置,如果n=5,
Figure FDA000035316937000217
④当目标函数E小于一定阈值时,循环结束,计算得到投影矩阵U(i),i=1,…,I。
CN201210091525.1A 2012-03-31 2012-03-31 一种考虑语音中多线性群组稀疏特性的情绪特征提取方法 Expired - Fee Related CN102592593B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210091525.1A CN102592593B (zh) 2012-03-31 2012-03-31 一种考虑语音中多线性群组稀疏特性的情绪特征提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210091525.1A CN102592593B (zh) 2012-03-31 2012-03-31 一种考虑语音中多线性群组稀疏特性的情绪特征提取方法

Publications (2)

Publication Number Publication Date
CN102592593A CN102592593A (zh) 2012-07-18
CN102592593B true CN102592593B (zh) 2014-01-01

Family

ID=46481134

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210091525.1A Expired - Fee Related CN102592593B (zh) 2012-03-31 2012-03-31 一种考虑语音中多线性群组稀疏特性的情绪特征提取方法

Country Status (1)

Country Link
CN (1) CN102592593B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102833918B (zh) * 2012-08-30 2015-07-15 四川长虹电器股份有限公司 基于情绪识别的智能照明交互方法
CN103245376B (zh) * 2013-04-10 2016-01-20 中国科学院上海微系统与信息技术研究所 一种弱信号目标检测方法
CN103531206B (zh) * 2013-09-30 2017-09-29 华南理工大学 一种结合局部与全局信息的语音情感特征提取方法
CN103531199B (zh) * 2013-10-11 2016-03-09 福州大学 基于快速稀疏分解和深度学习的生态声音识别方法
CN103825678B (zh) * 2014-03-06 2017-03-08 重庆邮电大学 一种基于Khatri‑Rao积3D MU‑MIMO的预编码方法
CN105047194B (zh) * 2015-07-28 2018-08-28 东南大学 一种用于语音情感识别的自学习语谱图特征提取方法
CN107886942B (zh) * 2017-10-31 2021-09-28 东南大学 一种基于局部惩罚随机谱回归的语音信号情感识别方法
CN109060371A (zh) * 2018-07-04 2018-12-21 深圳万发创新进出口贸易有限公司 一种汽车零部件异响检测装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101030316A (zh) * 2007-04-17 2007-09-05 北京中星微电子有限公司 一种汽车安全驾驶监控系统和方法
CN101404060A (zh) * 2008-11-10 2009-04-08 北京航空航天大学 一种基于可见光与近红外Gabor信息融合的人脸识别方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6964023B2 (en) * 2001-02-05 2005-11-08 International Business Machines Corporation System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input
US8886206B2 (en) * 2009-05-01 2014-11-11 Digimarc Corporation Methods and systems for content processing

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101030316A (zh) * 2007-04-17 2007-09-05 北京中星微电子有限公司 一种汽车安全驾驶监控系统和方法
CN101404060A (zh) * 2008-11-10 2009-04-08 北京航空航天大学 一种基于可见光与近红外Gabor信息融合的人脸识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Bimodal Emotion Recognition Based on Speech Signals and Facial Expression;Tu, Binbin; Yu, Fengqin;《6th International Conference on Intelligent Systems and Knowledge Engineering》;20111231;全文 *
Continuous Emotion Recognition Using Gabor Energy Filters;Dahmane, Mohamed; Meunier, Jean;《4th Bi-Annual International Conference of the Humaine Association on Affective Computing and Intelligent Interaction》;20111231;全文 *
Feature extraction of speech signals in emotion identification;Morales-Perez,M. et al;《30th Annual International Conference of the IEEE-Engineering-in-Medicine-and-Biology-Society》;20081231;全文 *

Also Published As

Publication number Publication date
CN102592593A (zh) 2012-07-18

Similar Documents

Publication Publication Date Title
CN102592593B (zh) 一种考虑语音中多线性群组稀疏特性的情绪特征提取方法
Madanian et al. Speech emotion recognition using machine learning—A systematic review
Dahake et al. Speaker dependent speech emotion recognition using MFCC and Support Vector Machine
Lanjewar et al. Implementation and comparison of speech emotion recognition system using Gaussian Mixture Model (GMM) and K-Nearest Neighbor (K-NN) techniques
CN112259106A (zh) 声纹识别方法、装置、存储介质及计算机设备
Sahidullah et al. Local spectral variability features for speaker verification
CN104900229A (zh) 一种语音信号混合特征参数的提取方法
CN106057212A (zh) 基于语音个性特征和模型自适应的驾驶疲劳检测方法
CN105702251B (zh) 基于Top-k加强音频词袋模型的语音情感识别方法
Wang Speech recognition of oral English teaching based on deep belief network
Mahesha et al. Gaussian mixture model based classification of stuttering dysfluencies
Priyadarshani et al. Dynamic time warping based speech recognition for isolated Sinhala words
Shekofteh et al. Feature extraction based on speech attractors in the reconstructed phase space for automatic speech recognition systems
Rahman et al. Dynamic time warping assisted svm classifier for bangla speech recognition
Sharma et al. HindiSpeech-Net: a deep learning based robust automatic speech recognition system for Hindi language
Martín-Morató et al. A case study on feature sensitivity for audio event classification using support vector machines
Ye et al. Kernel discriminant analysis for environmental sound recognition based on acoustic subspace
CN106297769A (zh) 一种应用于语种识别的鉴别性特征提取方法
CN105006231A (zh) 基于模糊聚类决策树的分布式大型人口语者识别方法
Al-Rawahy et al. Text-independent speaker identification system based on the histogram of DCT-cepstrum coefficients
Yousfi et al. Isolated Iqlab checking rules based on speech recognition system
Boonthong et al. Fisher feature selection for emotion recognition
Bhushan et al. A Self-Attention Based Hybrid CNN-LSTM for Speaker-Independent Speech Emotion Recognition
Ahmed et al. Efficient feature extraction and classification for the development of Pashto speech recognition system
Bansod et al. Speaker Recognition using Marathi (Varhadi) Language

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140101

Termination date: 20170331