CN104575498A - 有效语音识别方法及系统 - Google Patents
有效语音识别方法及系统 Download PDFInfo
- Publication number
- CN104575498A CN104575498A CN201510055655.3A CN201510055655A CN104575498A CN 104575498 A CN104575498 A CN 104575498A CN 201510055655 A CN201510055655 A CN 201510055655A CN 104575498 A CN104575498 A CN 104575498A
- Authority
- CN
- China
- Prior art keywords
- voice
- formula
- energy
- frequency domain
- spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Telephonic Communication Services (AREA)
Abstract
有效语音识别方法及系统,方法包括以下步骤:步骤A:实时获取当前语音帧的语音频谱分布;步骤B:实时获取当前语音帧的短时能量和长时能量;步骤C:根据语音频谱分布、长时能量和短时能量获取语音类似度;以及步骤D:判断语音类似度是否大于预设的语音类似度阈值,若是,执行步骤E;若否,执行步骤F;步骤E:判定当前语音帧为效语音;以及步骤F:判定当前语音帧为非语音。上述发明实时获取每一语音帧的语音频谱分布和能量变化,并根据语音频谱分布和能量变化快速识别出效语音,无需像传统方法那样结合多帧才能综合判断,故,即使所应用的场景频繁切换也能可靠快速地识别。
Description
技术领域
本发明涉及一种有效语音识别方法及系统。
背景技术
传统识别有效语音的方法一般基于能量大小、过零率、自相关等原理,其需连续对若干语音数据帧综合作出判决,这些方法在固定的场景下有较好识别效果,但对于非固定场景及场景频繁切换时,如安静环境到办公室吵杂环境、公交内、工地等等,实时识别效果差,且有效语音的识别率会大幅降低。
发明内容
针对现有技术的不足,本发明旨在于提供一种可解决上述技术问题的有效语音识别方法及系统。
为实现上述目的,本发明采用如下技术方案:
一种有效语音识别方法,其包括以下步骤:
步骤A:实时获取当前语音帧的语音频谱分布;
步骤B:实时获取当前语音帧的短时能量和长时能量;
步骤C:根据语音频谱分布、长时能量和短时能量获取语音类似度;以及
步骤D:判断语音类似度是否大于预设的语音类似度阈值,若是,执行步骤E;若否,执行步骤F;
步骤E:判定当前语音帧为有效语音;以及
步骤F:判定当前语音帧为非语音。
优选地,步骤A包括以下子步骤:
步骤A1:实时根据傅里叶变换将当前的语音帧变换为语音频域;
步骤A2:获取该语音频域的各频谱处的能量;以及
步骤A3:根据各频谱处的能量统计语音频谱分布。
优选地,步骤A1根据公式I将当前的语音换到语音频域X(k),公式I为X(k)=FFT(x(j)),j∈(0,N)为时域样点序号,k∈(0,N)为频域样点序号;
步骤A2根据公式II计算该语音频域的各频谱处的能量E(k),公式II为E(k)=|X(k)|^2,k∈(0,N);
步骤A3根据公式III和各频谱处的能量统计语音频谱分布p,公
式III为 i∈(0,N), 其中,ωi为固定值,对应各子频带权重系数。
优选地,步骤B包括以下子步骤:
步骤B1:根据公式IV计算该语音频域的短时能量Es,公式IV为i∈(0,N),b为滤波器更新系数,取值范围为[0,1],Ei指第i个频谱能量;以及
步骤B2:根据公式V计算该语音频域的长时能量El,公式V为i∈(0,N),a为滤波器更新系数,取值范围[0,1],Ei指第i个频谱能量。
优选地,步骤C根据公式VI、语音频谱分布p、长时能量El和短时能量Es计算语音类似度γ,公式VI为c为常数,取值范围为[0,1];e为自然指数。
一种有效语音识别系统,其包括以下模块:
模块A:实时获取当前语音帧的语音频谱分布;
模块B:实时获取当前语音帧的短时能量和长时能量;
模块C:根据语音频谱分布、长时能量和短时能量获取语音类似度;以及
模块D:判断语音类似度是否大于预设的语音类似度阈值,若是,执行模块E;若否,执行模块F;
模块E:判定当前语音帧为有效语音;以及
模块F:判定当前语音帧为非语音。
优选地,模块A包括以下子模块:
模块A1:实时根据傅里叶变换将当前的语音帧变换为语音频域;
模块A2:获取该语音频域的各频谱处的能量;以及
模块A3:根据各频谱处的能量统计语音频谱分布。
优选地,模块A1根据公式I将当前的语音换到语音频域X(k),公式I为X(k)=FFT(x(j)),j∈(0,N)为时域样点序号,k∈(0,N)为频域样点序号。
模块A2根据公式II计算该语音频域的各频谱处的能量E(k),公式II为E(k)=|X(k)|^2,k∈(0,N);
模块A3根据公式III和各频谱处的能量统计语音频谱分布p,公
式III为 i∈(0,N), 其中,ωi为固定值,对应各子频带权重系数。
优选地,模块B包括以下子模块:
模块B1:根据公式IV计算该语音频域的短时能量Es,公式IV为i∈(0,N),b为滤波器更新系数,取值范围[0,1],Ei指第i个频谱能量;以及
模块B2:根据公式V计算该语音频域的长时能量El,公式V为i∈(0,N),a为滤波器更新系数,取值范围[0,1],Ei指第i个频谱能量。
优选地,模块C根据公式VI、语音频谱分布p、长时能量El和短时能量Es计算语音类似度γ,公式VI为c为常数,取值范围为[0,1];e为自然指数。
本发明的有益效果至少如下:
上述发明实时获取每一语音帧的语音频谱分布和能量变化,并根据语音频谱分布和能量变化快速识别出有效语音,无需像传统方法那样结合多帧才能综合判断,故,即使所应用的场景频繁切换也能可靠快速地识别。
附图说明
图1为本发明有效语音识别方法的较佳实施方式的流程图。
具体实施方式
下面将结合附图以及具体实施方式,对本发明做进一步描述:
请参见图1,本发明涉及一种有效语音识别方法,其较佳实施方式包括以下步骤:
步骤A:实时获取当前语音帧的语音频谱分布;
本实施例中,步骤A包括以下子步骤:
步骤A1:实时根据傅里叶变换将当前的语音帧变换为语音频域;优选地,根据公式I将当前的语音换到语音频域X(k),公式I为X(k)=FFT(x(j)),j∈(0,N)为时域样点序号,k∈(0,N)为频域样点序号。
步骤A2:获取该语音频域的各频谱处的能量;
优选地,根据公式II计算该语音频域的各频谱处的能量E(k),公式II为E(k)=|X(k)|^2,k∈(0,N);
步骤A3:根据各频谱处的能量统计语音频谱分布;
优选地,根据公式III和各频谱处的能量统计语音频谱分布p,
公式III为 i∈(0,N), 其中,ωi为固定值,对应各子频带权重系数,此权重系数根据语音频域从低到高呈线性或指数下降分布。
步骤B:实时获取当前语音帧的长时能量和短时能量;
本实施例中,步骤B包括以下子步骤:
步骤B1:根据公式IV计算该语音频域的短时能量Es,公式IV为i∈(0,N),b为滤波器更新系数,取值范围[0,1],Ei指第i个频谱能量。
步骤B2:根据公式V计算该语音频域的长时能量El,公式V为i∈(0,N),a为滤波器更新系数,取值范围[0,1],Ei指第i个频谱能量。
步骤C:根据语音频谱分布、长时能量和短时能量获取语音类似度;
优选地,步骤C根据公式VI、语音频谱分布p、长时能量El和短时能量Es计算语音类似度γ,公式VI为c为常数,取值范围为[0,1];e为自然指数。
步骤D:判断语音类似度γ是否大于预设的语音类似度阈值,若是,执行步骤E,若否,执行步骤F。其中,语音类似度阈值可为基于经验或仿真的固定门限值。
步骤E:判定当前语音帧为有效语音。
步骤F:判定当前语音帧为非语音,即为噪音和杂声之类。
上述发明实时获取每一语音帧的语音频谱分布和能量变化,并根据语音频谱分布和能量变化快速识别出有效语音,无需像传统方法那样结合多帧才能综合判断,故,即使所应用的场景频繁切换也能可靠快速地识别。
上述公式涉及的N均指样点个数。
对于本领域的技术人员来说,可根据以上描述的技术方案以及构思,做出其它各种相应的改变以及变形,而所有的这些改变以及变形都应该属于本发明权利要求的保护范围之内。
Claims (10)
1.一种有效语音识别方法,其特征在于:其包括以下步骤:
步骤A:实时获取当前语音帧的语音频谱分布;
步骤B:实时获取当前语音帧的短时能量和长时能量;
步骤C:根据语音频谱分布、长时能量和短时能量获取语音类似度;以及
步骤D:判断语音类似度是否大于预设的语音类似度阈值,若是,执行步骤E;若否,执行步骤F;
步骤E:判定当前语音帧为有效语音;以及
步骤F:判定当前语音帧为非语音。
2.如权利要求1所述的有效语音识别方法,其特征在于:步骤A包括以下子步骤:
步骤A1:实时根据傅里叶变换将当前的语音帧变换为语音频域;
步骤A2:获取该语音频域的各频谱处的能量;以及
步骤A3:根据各频谱处的能量统计语音频谱分布。
3.如权利要求2所述的有效语音识别方法,其特征在于:步骤A1根据公式I将当前的语音换到语音频域X(k),公式I为X(k)=FFT(x(j)),j∈(0,N)为时域样点序号,k∈(0,N)为频域样点序号;
步骤A2根据公式II计算该语音频域的各频谱处的能量E(k),公式II为E(k)=|X(k)|^2,k∈(0,N);
步骤A3根据公式III和各频谱处的能量统计语音频谱分布p,公式III为 其中,ωi为固定值,对应各子频带权重系数。
4.如权利要求1至3中任一项所述的有效语音识别方法,其特征在于:步骤B包括以下子步骤:
步骤B1:根据公式IV计算该语音频域的短时能量Es,公式IV为i∈(0,N),b为滤波器更新系数,取值范围为[0,1];以及
步骤B2:根据公式V计算该语音频域的长时能量El,公式V为i∈(0,N),a为滤波器更新系数,取值范围[0,1]。
5.如权利要求1至3中任一项所述的有效语音识别方法,其特征在于:步骤C根据公式VI、语音频谱分布p、长时能量El和短时能量Es计算语音类似度γ,公式VI为c为常数,取值范围为[0,1];e为自然指数。
6.一种有效语音识别系统,其特征在于:其包括以下模块:
模块A:实时获取当前语音帧的语音频谱分布;
模块B:实时获取当前语音帧的短时能量和长时能量;
模块C:根据语音频谱分布、长时能量和短时能量获取语音类似度;以及
模块D:判断语音类似度是否大于预设的语音类似度阈值,若是,执行模块E;若否,执行模块F;
模块E:判定当前语音帧为有效语音;以及
模块F:判定当前语音帧为非语音。
7.如权利要求6所述的有效语音识别系统,其特征在于:模块A包括以下子模块:
模块A1:实时根据傅里叶变换将当前的语音帧变换为语音频域;
模块A2:获取该语音频域的各频谱处的能量;以及
模块A3:根据各频谱处的能量统计语音频谱分布。
8.如权利要求7所述的有效语音识别系统,其特征在于:模块A1根据公式I将当前的语音换到语音频域X(k),公式I为X(k)=FFT(x(j)),j∈(0,N)为时域样点序号,k∈(0,N)为频域样点序号;
模块A2根据公式II计算该语音频域的各频谱处的能量E(k),公式II为E(k)=|X(k)|^2,k∈(0,N);
模块A3根据公式III和各频谱处的能量统计语音频谱分布p,公式III为 其中,ωi为固定值,对应各子频带权重系数。
9.如权利要求6至8中任一项所述的有效语音识别系统,其特征在于:模块B包括以下子模块:
模块B1:根据公式IV计算该语音频域的短时能量Es,公式IV为i∈(0,N),b为滤波器更新系数,取值范围为[0,1],Ei指第i个频谱能量;以及
模块B2:根据公式V计算该语音频域的长时能量El,公式V为i∈(0,N),a为滤波器更新系数,取值范围[0,1],Ei指第i个频谱能量。
10.如权利要求6至8中任一项所述的有效语音识别系统,其特征在于:模块C根据公式VI、语音频谱分布p、长时能量El和短时能量Es计算语音类似度γ,公式VI为c为常数,取值范围为[0,1],e为自然指数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510055655.3A CN104575498B (zh) | 2015-01-30 | 2015-01-30 | 有效语音识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510055655.3A CN104575498B (zh) | 2015-01-30 | 2015-01-30 | 有效语音识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104575498A true CN104575498A (zh) | 2015-04-29 |
CN104575498B CN104575498B (zh) | 2018-08-17 |
Family
ID=53091398
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510055655.3A Expired - Fee Related CN104575498B (zh) | 2015-01-30 | 2015-01-30 | 有效语音识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104575498B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106504760A (zh) * | 2016-10-26 | 2017-03-15 | 成都启英泰伦科技有限公司 | 宽频带背景噪声与语音分离检测系统及方法 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1426048A (zh) * | 2001-12-13 | 2003-06-25 | 中国科学院自动化研究所 | 基于熵的端点检测方法 |
CN1623186A (zh) * | 2002-01-24 | 2005-06-01 | 摩托罗拉公司 | 用于噪声环境的话音活动检测器和验证器 |
US20050171772A1 (en) * | 1997-10-31 | 2005-08-04 | Sony Corporation | Feature extraction apparatus and method and pattern recognition apparatus and method |
CN1684143A (zh) * | 2004-04-14 | 2005-10-19 | 华为技术有限公司 | 一种语音增强的方法 |
CN1766991A (zh) * | 2004-10-29 | 2006-05-03 | 华为技术有限公司 | 一种语音电平调整装置及方法 |
CN1985301A (zh) * | 2004-05-25 | 2007-06-20 | 诺基亚公司 | 用于多路重合噪声检测的系统和方法 |
CN101599269A (zh) * | 2009-07-02 | 2009-12-09 | 中国农业大学 | 语音端点检测方法及装置 |
CN102074236A (zh) * | 2010-11-29 | 2011-05-25 | 清华大学 | 一种分布式麦克风的说话人聚类方法 |
CN102097095A (zh) * | 2010-12-28 | 2011-06-15 | 天津市亚安科技电子有限公司 | 一种语音端点检测方法及装置 |
CN102103200A (zh) * | 2010-11-29 | 2011-06-22 | 清华大学 | 一种分布式非同步声传感器的声源空间定位方法 |
CN102522081A (zh) * | 2011-12-29 | 2012-06-27 | 北京百度网讯科技有限公司 | 一种检测语音端点的方法及系统 |
CN103077728A (zh) * | 2012-12-31 | 2013-05-01 | 上海师范大学 | 一种病人虚弱语音端点检测方法 |
CN103117067A (zh) * | 2013-01-19 | 2013-05-22 | 渤海大学 | 一种低信噪比下语音端点检测方法 |
CN103426440A (zh) * | 2013-08-22 | 2013-12-04 | 厦门大学 | 利用能量谱熵空间信息的语音端点检测装置及其检测方法 |
-
2015
- 2015-01-30 CN CN201510055655.3A patent/CN104575498B/zh not_active Expired - Fee Related
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050171772A1 (en) * | 1997-10-31 | 2005-08-04 | Sony Corporation | Feature extraction apparatus and method and pattern recognition apparatus and method |
CN1426048A (zh) * | 2001-12-13 | 2003-06-25 | 中国科学院自动化研究所 | 基于熵的端点检测方法 |
CN1623186A (zh) * | 2002-01-24 | 2005-06-01 | 摩托罗拉公司 | 用于噪声环境的话音活动检测器和验证器 |
CN1684143A (zh) * | 2004-04-14 | 2005-10-19 | 华为技术有限公司 | 一种语音增强的方法 |
CN1985301A (zh) * | 2004-05-25 | 2007-06-20 | 诺基亚公司 | 用于多路重合噪声检测的系统和方法 |
CN1766991A (zh) * | 2004-10-29 | 2006-05-03 | 华为技术有限公司 | 一种语音电平调整装置及方法 |
CN101599269A (zh) * | 2009-07-02 | 2009-12-09 | 中国农业大学 | 语音端点检测方法及装置 |
CN102074236A (zh) * | 2010-11-29 | 2011-05-25 | 清华大学 | 一种分布式麦克风的说话人聚类方法 |
CN102103200A (zh) * | 2010-11-29 | 2011-06-22 | 清华大学 | 一种分布式非同步声传感器的声源空间定位方法 |
CN102097095A (zh) * | 2010-12-28 | 2011-06-15 | 天津市亚安科技电子有限公司 | 一种语音端点检测方法及装置 |
CN102522081A (zh) * | 2011-12-29 | 2012-06-27 | 北京百度网讯科技有限公司 | 一种检测语音端点的方法及系统 |
CN103077728A (zh) * | 2012-12-31 | 2013-05-01 | 上海师范大学 | 一种病人虚弱语音端点检测方法 |
CN103117067A (zh) * | 2013-01-19 | 2013-05-22 | 渤海大学 | 一种低信噪比下语音端点检测方法 |
CN103426440A (zh) * | 2013-08-22 | 2013-12-04 | 厦门大学 | 利用能量谱熵空间信息的语音端点检测装置及其检测方法 |
Non-Patent Citations (10)
Title |
---|
BING-FEI WU ET AL: ""Robust Endpoint Detection Algorithm Based on the Adaptive Band-Partitioning Spectral Entropy in Adverse Environments"", 《IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING》 * |
任雪妮: ""语音相似度评价算法研究"", 《中国优秀硕士学位论文全文数据信息科技辑》 * |
张玲 等: ""基于子频带加权的语音活动检测算法"", 《计算机应用》 * |
李如玮 等: ""一种基于分带谱熵和谱能量的语音端点检测算法"", 《北京工业大学学报》 * |
武传艳: ""一种改进的基于谱熵的语音端点检测技术"", 《计算机工程与应用》 * |
游大涛 等: ""基于长短时能量均值的活动语音检测算法"", 《智能计算机与应用》 * |
王景芳: ""实时语音端点鲁棒检测"", 《计算机工程与应用》 * |
苏静: ""综合短时特征和长时特征的发音质量评价方法研究"", 《中国优秀硕士学位论文全文数据信息科技辑》 * |
赵欢 等: ""一种新的对数能量谱熵语音端点检测方法"", 《湖南大学学报(自然科学版)》 * |
邓艳容 等: ""语音端点检测研究"", 《计算机系统应用》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106504760A (zh) * | 2016-10-26 | 2017-03-15 | 成都启英泰伦科技有限公司 | 宽频带背景噪声与语音分离检测系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104575498B (zh) | 2018-08-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Qi et al. | Auditory features based on gammatone filters for robust speech recognition | |
WO2014153800A1 (zh) | 语音识别系统 | |
CN106653062A (zh) | 一种低信噪比环境下基于谱熵改进的语音端点检测方法 | |
CN104464728A (zh) | 基于gmm噪声估计的语音增强方法 | |
Chaudhary et al. | Gender identification based on voice signal characteristics | |
CN103021405A (zh) | 基于music和调制谱滤波的语音信号动态特征提取方法 | |
Ma et al. | Perceptual Kalman filtering for speech enhancement in colored noise | |
CN103794207A (zh) | 一种双模语音身份识别方法 | |
CN104464722A (zh) | 基于时域和频域的语音活性检测方法和设备 | |
Wanli et al. | The research of feature extraction based on MFCC for speaker recognition | |
CN103514877A (zh) | 振动信号特征参数提取方法 | |
Dixit et al. | Improved MFCC and LPC algorithm for bundelkhandi isolated digit speech recognition | |
CN119170058A (zh) | 支持边缘计算设备的大模型高质推理方法及系统 | |
CN104575498A (zh) | 有效语音识别方法及系统 | |
Meriem et al. | Robust speaker verification using a new front end based on multitaper and gammatone filters | |
CN104900227A (zh) | 语音特征信息的提取方法及电子设备 | |
CN112216285A (zh) | 多人会话检测方法、系统、移动终端及存储介质 | |
CN107993666B (zh) | 语音识别方法、装置、计算机设备及可读存储介质 | |
Jayanth et al. | Speaker Identification based on GFCC using GMM-UBM | |
Yue et al. | Speaker age recognition based on isolated words by using SVM | |
Zhu et al. | Analysis of hybrid feature research based on extraction LPCC and MFCC | |
Meriem et al. | New front end based on multitaper and gammatone filters for robust speaker verification | |
Panda | A fast approach to psychoacoustic model compensation for robust speaker recognition in additive noise. | |
Wan et al. | Robust speech recognition based on multi-band spectral subtraction | |
Hsieh et al. | Histogram equalization of real and imaginary modulation spectra for noise-robust speech recognition. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20180817 Termination date: 20210130 |