CN102592593B - 一种考虑语音中多线性群组稀疏特性的情绪特征提取方法 - Google Patents
一种考虑语音中多线性群组稀疏特性的情绪特征提取方法 Download PDFInfo
- Publication number
- CN102592593B CN102592593B CN201210091525.1A CN201210091525A CN102592593B CN 102592593 B CN102592593 B CN 102592593B CN 201210091525 A CN201210091525 A CN 201210091525A CN 102592593 B CN102592593 B CN 102592593B
- Authority
- CN
- China
- Prior art keywords
- matrix
- centerdot
- overbar
- speech
- rank
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000605 extraction Methods 0.000 title claims description 17
- 230000008451 emotion Effects 0.000 title description 34
- 239000011159 matrix material Substances 0.000 claims description 55
- 238000000034 method Methods 0.000 claims description 19
- 238000001228 spectrum Methods 0.000 claims description 18
- 238000000354 decomposition reaction Methods 0.000 claims description 14
- 230000002996 emotional effect Effects 0.000 claims description 10
- 238000001914 filtration Methods 0.000 claims description 9
- 239000000203 mixture Substances 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 3
- 230000036651 mood Effects 0.000 claims 3
- 230000001105 regulatory effect Effects 0.000 claims 1
- 230000017105 transposition Effects 0.000 claims 1
- 230000008909 emotion recognition Effects 0.000 description 24
- 230000006870 function Effects 0.000 description 23
- 230000003595 spectral effect Effects 0.000 description 6
- 238000012549 training Methods 0.000 description 5
- 230000003993 interaction Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000012706 support-vector machine Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 206010029216 Nervousness Diseases 0.000 description 1
- 238000012098 association analyses Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Landscapes
- Complex Calculations (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种考虑语音中多线性群组稀疏特性的情绪特征提取方法,该方法考虑语音信号中包括时间、频率、尺度和方向信息的多重因素,利用多线性群组稀疏分解的方法进行特征提取,通过不同尺度和方向的Gabor函数对语音信号能量谱进行多线性表征,利用群组稀疏张量分解方法求解特征投影矩阵,计算频率阶上的特征投影,经过离散余弦变换对特征去相关,最终计算特征的一阶和二阶差分系数,得到语音情绪特征。本发明考虑语音信号中的时间、频率、尺度和方向等因素用于情绪的特征提取,利用群组稀疏张量分解方法进行特征投影,最终提高了多类语音情绪识别的准确率。
Description
技术领域
本发明涉及一种用于提高语音情绪识别性能的语音情绪特征提取方法,属于语音信号处理技术领域。
背景技术
语音是人们在日常生活中进行交流的最便捷的方式之一,这也使得研究人员积极探索如何利用语音作为人和机器之间进行交流的工具。除了传统的语音识别等人机交互模式外,说话人的情绪也是一种重要的交互信息,机器能够自动识别理解说话人的情绪是人机交互智能化的重要标志之一。
语音情绪识别在信号处理和智能人机交互领域具有重要的价值,有着很多潜在的应用。在人机交互方面,通过计算机识别说话人的情绪可以提高系统的亲切性和准确性,例如远程教育系统可以通过识别学生的情绪及时调整课程,从而提升教学效果;在电话呼叫中心和移动通信中,可以及时获取用户的情绪信息,提高服务的质量;车载系统可以通过情绪识别检测司机的精力是否集中,并做出相应的辅助警示。在医学方面,基于语音的情绪识别可以作为一种工具,帮助医生对病人的病情进行诊断。
对于语音情绪识别来说,一个重要的问题就是如何提取出有效的特征用来表示不同的情绪。按照传统的特征提取方法,通常会将一段语音信号分成多帧,以便得到近似平稳的信号。从每一帧获取的周期性特征称为局部特征,例如基音、能量等,其优点是现有的分类器能够利用局部特征较为准确的估计出不同情绪状态的参数,缺点是特征维数和样本数较多,影响到特征提取和分类的速度。通过对整个句子的特征进行统计得到特征称为全局特征,其优点是能够获得较好的分类精度和速度,但是丢失了语音信号的时序信息,容易出现训练样本不足的问题。一般情况下,语音情绪识别常用的特征有以下几类:连续声学特征、谱特征、基于Teager能量算子的特征等等。
根据心理学和韵律学等的研究结果,说话人的情绪在语音中最直观的特征就是韵律连续特征,如基音、能量、说话的速率等。对应的全局特征包括基音或者能量的均值、中位数、标准偏差、最大值、最小值等,以及第一、第二共振峰等等。
谱特征提供了语音信号中的有用的频率信息,也是语音情绪识别中重要的特征提取方式。常用的谱特征包括线性预测系数(LPC)、线性预测倒谱系数(LPCC)、美尔频率倒谱系数(MFCC)、感知加权线性预测(PLP)等等。
语音是由发声系统中的非线性空气流产生的,Teager能量算子(TEO)是Teager等人提出的一种能够快速跟踪声门周期内信号能量变化的运算操作,用于分析语音的精细结构。不同的情绪状态下,肌肉的伸缩情况会影响发声系统中空气流的运动,根据Bou-Ghazale等人的研究结果可以知道,基于TEO的特征可以用来检测语音中的紧张情绪。
根据众多实验评估结果,对于语音情绪识别来说,要针对不同的分类任务来选择合适的特征表征,基于Teager能量的特征适合于检测语音信号中的紧张情绪;连续声学特征则适合区分高唤醒情绪(high-arousal emotion)和低唤醒情绪(low-arousal emotion);而对于多类的情绪分类任务,谱特征是最适合的语音表征,如果将谱特征与连续声学特征结合,或者考虑多种因素的关联分析,也能够达到提高分类精度的目的。
在语音情绪特征提取和选择完成之后的另外一个重要阶段就是分类。目前模式识别领域中各种分类器都被用来对语音情绪特征进行分类,包括隐马尔科夫模型(HMM)、高斯混合模型(GMM)、支持向量机(SVM)、线性判别分析(LDA)和集成分类器等等。隐马尔科夫模型是在语音情绪识别中应用的最广泛的识别器之一,这得益于它在语音信号中的普遍应用,尤其适用于处理具有时序结构的数据,从目前的研究结果来看,基于隐马尔科夫模型的情绪识别系统能够提供较高分类准确率。高斯混合模型可以看作是只有一个状态的隐马尔科夫模型,非常适合于对多元分布进行建模,Breazeal等人利用GMM作为分类器应用于KISMET语音数据库,对五类情绪进行分类识别。支持向量机已经被广泛应用模式识别领域,其基本原理是通过核函数将特征投影到高维空间使得特征线性可分,相比HMM和GMM,它具有训练算法全局最优以及存在依赖于数据的泛化边界的优点,不少研究结果是利用支持向量机作为语音情绪识别的分类器并取得了较好的分类效果。
如图1所示,传统的基于谱特征的语音情绪识别方法通常采用以下步骤:
1)对输入的语音信号进行预处理,包括加窗、滤波、预加重等;
2)对信号进行短时傅立叶变换,通过美尔三角窗进行滤波,然后求对数谱(取log);
3)利用离散余弦变换计算倒谱,然后加权,求倒谱均值减,计算差分;
4)利用高斯混合模型(GMM)进行训练,获得不同情绪的模型;
5)通过训练得到的情绪模型,对测试数据进行识别,得到识别准确率。
目前针对两类情绪分类,如负面情绪和中立情绪,已经达到了相对较好的分类精度,但是对于多类情绪的分类,由于数据的不平衡性,只考虑单一因素(频率或者时间)等原因,使得特征可区分性较差,情绪分类精度相对较低,这使得基于语音的情绪识别系统应用受到限制。
发明内容
针对传统语音情绪识别中的特征提取只考虑单一因素,如频率或者时间,使得特征可区分性较差的问题,本发明提出一种考虑语音中多线性群组稀疏特性、用于语音情绪识别并能够提高多类情绪识别准确率的语音情绪特征提取方法。
本发明的考虑语音中多线性群组稀疏特性的情绪特征提取方法,是:
考虑语音信号中包括时间、频率、尺度和方向信息的多重因素,利用多线性群组稀疏分解的方法进行特征提取,通过不同尺度和方向的Gabor函数对语音信号能量谱进行多线性表征,利用群组稀疏张量分解方法求解特征投影矩阵,计算频率阶上的特征投影,经过离散余弦变换对特征去相关,通过差分获得特征的一阶和二阶差分系数;具体包括以下步骤:
(1)采集语音信号s(t)(通过麦克风等设备采集),利用短时傅里叶变换将s(t)变换到时频域,得到信号的时频表示S(f,t)和能量谱P(f,t);
(2)利用具有不同尺度和方向的二维Gabor函数对能量谱进行卷积滤波,Gabor函数定义如下:
其中:=P(f,t)是能量谱P(f,t)在第t帧、频率为f的元素;是控制函数的尺度与方向的向量,j表示虚部单位,kv=2-(v+2)/2·,φ=u(π/K),u表示函数的方向,v表示函数的尺度,K表示总的方向数,σ是确定函数包络的常数,设为2π。
Gabor函数对能量谱P(f,t)卷积滤波的结果是语音信号的多线性表征这里是一个大小为的5阶张量,各阶分别表示时间、频率、方向、尺度和类别,然后对的频率阶进行美尔三角窗滤波得到新的5阶张量P,P的大小为N1×N2×N3×N4×N5,每一阶的长度为Ni,i=1,…,5;
(3)对得到的多线性表征P进行群组稀疏张量分解,计算不同因素上的投影矩阵U(i),i=1,…,5,以便进行特征投影,建立以下分解模型:
P≈Λ×1U(1)×2U(2)×3U(3)×4U(4)×5U(5)
其中,U(i)是分解之后得到的大小为Ni×K的投影矩阵;Λ是对角元素为1的5阶张量,大小为K×K×K×K×K;×i表示张量i阶矩阵乘运算,其定义如下:
计算投影矩阵U(i),i=1,…I的具体的分解过程如下,这里i表示阶(对应不同因素)的索引,I=5:
①采用交替最小均方或者随机初始化U(i)≥0,i=1,…,I;
●从i=1到I依次执行:
其中,||·||F表示Frobenius范数,是张量P (k)的i阶张量矩阵展开, ⊙是矩阵的Khatri-Rao积,о表示向量的外积,λk和qi是用于调节目标函数成分稀疏度的权重系数,取0到1之间的数值;
(4)利用得到的对应于频域的投影矩阵U(2)对语音信号的多线性表征P进行特征投影:
(6)利用离散余弦变换对S(f)进行去相关,得到语音情绪特征F,计算特征的一阶和二阶差分系数得到最终的情绪特征。
本发明考虑语音信号中的时间、频率、尺度和方向等因素用于情绪的特征提取,利用群组稀疏张量分解方法进行特征投影,最终提高了多类语音情绪识别的准确率。
附图说明
图1是传统语音情绪识别过程的示意框图;
图2是本发明的特征提取方法的示意图;
图3是采用本发明的语音情绪识别过程的示意框图。
图4是对四类语音情绪识别的实验结果对比图。
具体实施方式
如图2所示,本发明的基于多线性群组稀疏特征的语音情绪识别方法,具体包括以下步骤:
(1)通过麦克风等设备采集到语音信号s(t),利用短时傅里叶变换将s(t)变换到时频域,得到信号的时频表示S(f,t)和能量谱P(f,t);
Gabor函数定义如下:
其中:是能量谱P(f,t)在第t帧、频率为f的元素;是控制函数的尺度与方向的向量,j表示虚部单位,kv=2-(v+2)/2·π,φ=u(π/K),u表示函数的方向,v表示函数的尺度,K表示总的方向数,σ是确定函数包络的常数,设为2π。
Gabor函数对能量谱P(f,t)卷积滤波的结果是语音信号的多线性表征这里是一个大小为的5阶张量,各阶分别表示时间、频率、方向、尺度和类别,然后对的频率阶进行美尔三角窗滤波得到新的5阶张量P,P的大小为N1×N2×N3×N4×N5,每一阶的长度为Ni,i=1,…,5;
(3)对表征P进行群组稀疏张量分解,计算不同因素上的投影矩阵U(i),i=1,…,5,以便进行特征投影。建立以下分解模型:
P≈Λ×1U(1)×2U(2)×3U(3)×4U(4)×5U(5)
其中,U(i)是分解之后得到的大小为Ni×K的投影矩阵;Λ是对角元素为1的5阶张量,大小为K×K×K×K×K;×i表示张量i阶矩阵乘运算,其定义如下:
为计算投影矩阵U(i),i=1,…,I,这里I=5,具体的分解过程如下:
a)采用交替最小均方或者随机初始化U(i)≥0,i=1,…,I;
作:
●从n=1到I依次执行
其中,||·||F表示Frobenius范数, 是张量P (k)的i阶张量矩阵展开,⊙是矩阵的Khatri-Rao积,о表示向量的外积,λk和qi是用于调节目标函数成分稀疏度的权重系数,取0到1之间的数值;
d)当目标函数E小于一定阈值时,循环结束,计算得到投影矩阵U(i),i=1,…I;
(4)利用得到的对应于频域的投影矩阵U(2)对语音信号的多线性表征P进行特征投影:
(6)利用离散余弦变换对S(f)进行去相关,得到语音情绪特征F,计算特征的一阶和二阶差分系数得到最终的情绪特征。
如图3所示,采用上述特征提取方法进行语音情绪识别的过程,包括以下步骤:
1)获取已经具有不同情绪标签的语音信号数据sl(t),l=1,…,L,共有L类不同情绪;
2)利用图2中所示的特征提取方法进行提取不同情绪的特征F…;
3)利用混合高斯混合模型(GMM)对不同情绪特征进行建模,通过学习训练,得到第l类的情绪所对应的情绪模型Ml;
本发明的效果可以通过实验进一步说明。
实验在FAU Aibo数据集上测试了本发明提出的特征提取方法的识别性能,对4类情绪(Anger,Emphatic,Neutral,Rest)进行识别。本实验语音信号的采样率为8kHz,采用汉明窗进行加窗,23ms窗长,10ms窗移,利用短时傅里叶变换计算信号的能量谱,具有4个不同的尺度和4个不同方向Gabor函数对能量谱进行时频卷积滤波,采用大小为36的Mel滤波器组计算美尔能谱,利用投影矩阵在频域阶上进行特征投影,利用DCT对特征进行去相关。
图4给出了本发明提出的方法与已有特征提取技术(MFCC和LFPC特征)的识别性能比较,由最终的识别准确率可见,采用本发明后,多类语音情绪识别的准确率得到有效提高,较传统方法MFCC提高了6.1%,较LFPC方法提高了5.8%。
Claims (2)
1.一种考虑语音中多线性群组稀疏特征的语音情绪特征提取方法,其特征是:
考虑语音信号中包括时间、频率、尺度和方向信息的多重因素,利用多线性群组稀疏分解的方法进行特征提取,通过不同尺度和方向的Gabor函数对语音信号能量谱进行多线性表征,利用群组稀疏张量分解方法求解特征投影矩阵,计算频率阶上的特征投影,经过离散余弦变换对特征去相关,计算特征的一阶和二阶差分系数,具体包括以下步骤:
(1)采集语音信号s(t),利用短时傅里叶变换将s(t)变换到时频域,得到信号的时频表示S(f,t)和能量谱P(f,t);
(2)利用具有不同尺度和方向的二维Gabor函数对能量谱进行卷积滤波,Gabor函数定义如下:
其中:是能量谱P(f,t)在第t帧、频率为f的元素;是控制函数的尺度与方向的向量,j表示虚部单位,kv=2-(v+2)/2·π,φ=u(π/K),u表示函数的方向,v表示函数的尺度,K表示总的方向数,σ是确定函数包络的常数,设为2π;
Gabor函数对能量谱P(f,t)卷积滤波的结果是语音信号的多线性表征这里是一个大小为的5阶张量,各阶分别表示时间、频率、方向、尺度和类别,然后对的频率阶进行美尔三角窗滤波得到新的5阶张量P,其大小为N1×N2×N3×N4×N5,每一阶的长度为Ni,i=1,…,5;
(3)对得到的多线性表征P进行群组稀疏张量分解,计算不同因素上的投影矩阵U(i),i=1,…,5,以便进行特征投影,建立以下分解模型:
P≈Λ×1U(1)×2U(2)×3U(3)×4U(4)×5U(5),
其中,U(i)是分解之后得到的大小为Ni×K的投影矩阵,Λ是对角元素为1的5阶张量,大小为K×K×K×K×K,×i表示张量i阶矩阵乘运算,其定义如下:
(4)利用得到的对应于频域的投影矩阵U(2)对语音信号的多线性表征P进行特征投影:
(6)利用离散余弦变换对S(f)进行去相关,得到语音情绪特征F,计算特征的一阶和二阶差分系数得到最终的情绪特征。
2.根据权利要求1所述的考虑语音中多线性群组稀疏特征的语音情绪特征提取方法,其特征是:所述计算投影矩阵U(i),i=1,…,I的具体的分解过程如下,这里i表示阶的索引,I=5:
①采用交替最小均方或者随机初始化U(i)≥0,i=1,…,I;
●从n=1到I依次执行:
其中,||·||F表示Frobenius范数,是张量P (k)的i阶张量矩阵展开, 是矩阵的Khatri-Rao积,ο表示向量的外积,λk和qi是用于调节目标函数成分稀疏度的权重系数,取0到1之间的数值;
④当目标函数E小于一定阈值时,循环结束,计算得到投影矩阵U(i),i=1,…,I。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210091525.1A CN102592593B (zh) | 2012-03-31 | 2012-03-31 | 一种考虑语音中多线性群组稀疏特性的情绪特征提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210091525.1A CN102592593B (zh) | 2012-03-31 | 2012-03-31 | 一种考虑语音中多线性群组稀疏特性的情绪特征提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102592593A CN102592593A (zh) | 2012-07-18 |
CN102592593B true CN102592593B (zh) | 2014-01-01 |
Family
ID=46481134
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210091525.1A Expired - Fee Related CN102592593B (zh) | 2012-03-31 | 2012-03-31 | 一种考虑语音中多线性群组稀疏特性的情绪特征提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102592593B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102833918B (zh) * | 2012-08-30 | 2015-07-15 | 四川长虹电器股份有限公司 | 基于情绪识别的智能照明交互方法 |
CN103245376B (zh) * | 2013-04-10 | 2016-01-20 | 中国科学院上海微系统与信息技术研究所 | 一种弱信号目标检测方法 |
CN103531206B (zh) * | 2013-09-30 | 2017-09-29 | 华南理工大学 | 一种结合局部与全局信息的语音情感特征提取方法 |
CN103531199B (zh) * | 2013-10-11 | 2016-03-09 | 福州大学 | 基于快速稀疏分解和深度学习的生态声音识别方法 |
CN103825678B (zh) * | 2014-03-06 | 2017-03-08 | 重庆邮电大学 | 一种基于Khatri‑Rao积3D MU‑MIMO的预编码方法 |
CN105047194B (zh) * | 2015-07-28 | 2018-08-28 | 东南大学 | 一种用于语音情感识别的自学习语谱图特征提取方法 |
CN107886942B (zh) * | 2017-10-31 | 2021-09-28 | 东南大学 | 一种基于局部惩罚随机谱回归的语音信号情感识别方法 |
CN109060371A (zh) * | 2018-07-04 | 2018-12-21 | 深圳万发创新进出口贸易有限公司 | 一种汽车零部件异响检测装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101030316A (zh) * | 2007-04-17 | 2007-09-05 | 北京中星微电子有限公司 | 一种汽车安全驾驶监控系统和方法 |
CN101404060A (zh) * | 2008-11-10 | 2009-04-08 | 北京航空航天大学 | 一种基于可见光与近红外Gabor信息融合的人脸识别方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6964023B2 (en) * | 2001-02-05 | 2005-11-08 | International Business Machines Corporation | System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input |
US8886206B2 (en) * | 2009-05-01 | 2014-11-11 | Digimarc Corporation | Methods and systems for content processing |
-
2012
- 2012-03-31 CN CN201210091525.1A patent/CN102592593B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101030316A (zh) * | 2007-04-17 | 2007-09-05 | 北京中星微电子有限公司 | 一种汽车安全驾驶监控系统和方法 |
CN101404060A (zh) * | 2008-11-10 | 2009-04-08 | 北京航空航天大学 | 一种基于可见光与近红外Gabor信息融合的人脸识别方法 |
Non-Patent Citations (3)
Title |
---|
Bimodal Emotion Recognition Based on Speech Signals and Facial Expression;Tu, Binbin; Yu, Fengqin;《6th International Conference on Intelligent Systems and Knowledge Engineering》;20111231;全文 * |
Continuous Emotion Recognition Using Gabor Energy Filters;Dahmane, Mohamed; Meunier, Jean;《4th Bi-Annual International Conference of the Humaine Association on Affective Computing and Intelligent Interaction》;20111231;全文 * |
Feature extraction of speech signals in emotion identification;Morales-Perez,M. et al;《30th Annual International Conference of the IEEE-Engineering-in-Medicine-and-Biology-Society》;20081231;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN102592593A (zh) | 2012-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102592593B (zh) | 一种考虑语音中多线性群组稀疏特性的情绪特征提取方法 | |
Madanian et al. | Speech emotion recognition using machine learning—A systematic review | |
Dahake et al. | Speaker dependent speech emotion recognition using MFCC and Support Vector Machine | |
Lanjewar et al. | Implementation and comparison of speech emotion recognition system using Gaussian Mixture Model (GMM) and K-Nearest Neighbor (K-NN) techniques | |
CN112259106A (zh) | 声纹识别方法、装置、存储介质及计算机设备 | |
Sahidullah et al. | Local spectral variability features for speaker verification | |
CN104900229A (zh) | 一种语音信号混合特征参数的提取方法 | |
CN106057212A (zh) | 基于语音个性特征和模型自适应的驾驶疲劳检测方法 | |
CN105702251B (zh) | 基于Top-k加强音频词袋模型的语音情感识别方法 | |
Wang | Speech recognition of oral English teaching based on deep belief network | |
Mahesha et al. | Gaussian mixture model based classification of stuttering dysfluencies | |
Priyadarshani et al. | Dynamic time warping based speech recognition for isolated Sinhala words | |
Shekofteh et al. | Feature extraction based on speech attractors in the reconstructed phase space for automatic speech recognition systems | |
Rahman et al. | Dynamic time warping assisted svm classifier for bangla speech recognition | |
Sharma et al. | HindiSpeech-Net: a deep learning based robust automatic speech recognition system for Hindi language | |
Martín-Morató et al. | A case study on feature sensitivity for audio event classification using support vector machines | |
Ye et al. | Kernel discriminant analysis for environmental sound recognition based on acoustic subspace | |
CN106297769A (zh) | 一种应用于语种识别的鉴别性特征提取方法 | |
CN105006231A (zh) | 基于模糊聚类决策树的分布式大型人口语者识别方法 | |
Al-Rawahy et al. | Text-independent speaker identification system based on the histogram of DCT-cepstrum coefficients | |
Yousfi et al. | Isolated Iqlab checking rules based on speech recognition system | |
Boonthong et al. | Fisher feature selection for emotion recognition | |
Bhushan et al. | A Self-Attention Based Hybrid CNN-LSTM for Speaker-Independent Speech Emotion Recognition | |
Ahmed et al. | Efficient feature extraction and classification for the development of Pashto speech recognition system | |
Bansod et al. | Speaker Recognition using Marathi (Varhadi) Language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20140101 Termination date: 20170331 |