CN109360585A - 一种语音激活检测方法 - Google Patents
一种语音激活检测方法 Download PDFInfo
- Publication number
- CN109360585A CN109360585A CN201811552320.2A CN201811552320A CN109360585A CN 109360585 A CN109360585 A CN 109360585A CN 201811552320 A CN201811552320 A CN 201811552320A CN 109360585 A CN109360585 A CN 109360585A
- Authority
- CN
- China
- Prior art keywords
- detection result
- detection
- signal
- cepstrum
- entropy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000001514 detection method Methods 0.000 claims abstract description 327
- 230000004913 activation Effects 0.000 claims abstract description 29
- 238000009432 framing Methods 0.000 claims description 65
- 230000000694 effects Effects 0.000 claims description 41
- 230000005236 sound signal Effects 0.000 claims description 22
- 238000005070 sampling Methods 0.000 claims description 8
- 238000001228 spectrum Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 5
- 238000009499 grossing Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 abstract description 12
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000013528 artificial neural network Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 3
- 238000003672 processing method Methods 0.000 description 3
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Mobile Radio Communication Systems (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
本发明涉及语音激活检测技术领域,尤其涉及一种语音激活检测方法,其中,提供一采集单元,以采集外界一声音信号;提供一判断单元,以判断声音信号是否为语音信号;若是,则启动一语音处理单元,以对声音信号进行处理;若否,则保持语音处理单元处于休眠状态。本发明的技术方案有益效果在于:该语音激活检测方法使功耗较大的语音处理单元长时间保持休眠状态,因而可使整个系统保持低功耗,并且该语音激活检测方法实现成本较低,且可通过较小的计算量,以及较少的资源消耗获取较优的性能。
Description
技术领域
本发明涉及语音激活检测技术领域,尤其涉及一种语音激活检测方法。
背景技术
语音激活检测(VAD,VoiceActivity Detection),目的是检测当前语音信号中是否包含话音信号存在,即对输入信号进行判断,将话音信号与各种背景噪声信号区分出来,分别对两种信号采用不同的处理方法。话音激活检测是数字语音信号处理的基础环节,在许多实际应用系统中都必须首先进行语音信号检测,使后面处理的数据为实际的有效语音信号数据,从而可以减少数据量和运算量,进而减少系统的处理时间。
如图1所示,传统的语音激活检测可以检测出所有时间是否为语音,当前的语音激活检测,主要分为两种:(1)传统的基于能量,时域,频域等信号处理方法,(2)最近流行的神经网络的检测方法;其中,神经网络算法,性能很好,但是计算量很大,一般要几百万次的运算,才能完成一帧的信号处理,而且由于需要存储神经网络权重也需要几M byte,这对于硬件的实现是很大的资源开销,非常昂贵,因此,这并不适用于低功耗低成本的应用.如果在CPU或者DSP上实现神经网络VAD算法,功耗极大。
由于语音识别技术的发展,因此,急需要有合适的语音激活检测,当检测到有语音的时候才开始语音识别处理,这样来满足系统待机状态低功耗的要求。
发明内容
针对现有技术中存在的上述问题,现提供一种语音激活检测方法。
具体技术方案如下:
一种语音激活检测方法,其中包括:
提供一采集单元,以采集外界一声音信号;
提供一判断单元,以判断所述声音信号是否为语音信号;
若是,则启动一语音处理单元,以对所述声音信号进行处理;
若否,则保持所述语音处理单元处于休眠状态。
优选的,所述判断单元判断所述声音信号是否为语音信号的方法具体包括以下步骤:
步骤S1、降低所述声音信号的采样率,以得到一第一处理信号;
步骤S2、对所述第一处理信号进行高通滤波处理,以得到一第二处理信号;
步骤S3、以一预设时间间隔对所述第二处理信号进行分帧;
步骤S4、对分帧后的所述第二处理信号进行检测,以得到是否为语音信号的检测结果;
将所述检测结果处理为激活信号输出至所述语音处理单元。
优选的,对分帧后的所述第二处理信号进行检测的方法包括,对分帧后的所述第二处理信号进行能量检测,以输出一布尔值序列的能量检测结果作为所述检测结果。
优选的,对分帧后的所述第二处理信号进行检测的方法包括,对分帧后的所述第二处理信号进行熵检测,以输出一布尔值序列的熵检测结果作为所述检测结果。
优选的,对分帧后的所述第二处理信号进行检测的方法包括,对分帧后的所述第二处理信号进行倒谱检测,以输出一布尔值序列的倒谱检测结果作为所述检测结果。
优选的,对分帧后的所述第二处理信号进行检测的方法包括:
对分帧后的所述第二处理信号进行能量检测,以输出以布尔值序列的能量检测结果,将所述能量检测结果作为对分帧后的所述第二处理信号进行熵检测的使能信号,并以所述熵检测输出的布尔值序列的熵检测结果作为所述检测结果输出;或者
对分帧后的所述第二处理信号同步进行能量检测及熵检测,并同步获得布尔值序列的能量检测结果及布尔值序列的熵检测结果,以一预置策略对所述能量检测结果及所述熵检测结果进行判决,将判决结果作为所述检测结果输出。
优选的,对分帧后的所述第二处理信号进行检测的方法包括:
对分帧后的所述第二处理信号进行能量检测,以输出以布尔值序列的能量检测结果,将所述能量检测结果作为对分帧后的所述第二处理信号进行倒谱检测的使能信号,并以所述倒谱检测输出的布尔值序列的倒谱检测结果作为所述检测结果输出;或者
对分帧后的所述第二处理信号同步进行能量检测及倒谱检测,并同步获得布尔值序列的能量检测结果及布尔值序列的倒谱检测结果,以一预置策略对所述能量检测结果及所述倒谱检测结果进行判决,将判决结果作为所述检测结果输出。
优选的,对分帧后的所述第二处理信号进行检测的方法包括:
对分帧后的所述第二处理信号进行熵检测,以输出以布尔值序列的熵检测结果,将所述熵检测结果作为对分帧后的所述第二处理信号进行倒谱检测的使能信号,并以所述倒谱检测输出的布尔值序列的倒谱检测结果作为所述检测结果输出;或者
对分帧后的所述第二处理信号同步进行熵检测及倒谱检测,并同步获得布尔值序列的熵检测结果及布尔值序列的倒谱检测结果,以一预置策略对所述熵检测结果及所述倒谱检测结果进行判决,将判决结果作为所述检测结果输出。
优选的,对分帧后的所述第二处理信号进行检测的方法包括:
对分帧后的所述第二处理信号进行能量检测,以输出以布尔值序列的能量检测结果,将所述能量检测结果作为对分帧后的所述第二处理信号进行熵检测的使能信号,将所述熵检测输出的布尔值序列的熵检测结果作为对分帧后的所述第二处理信号进行倒谱检测的使能信号,并以所述倒谱检测输出的布尔值序列的倒谱检测结果作为所述检测结果输出;或者
对分帧后的所述第二处理信号同步进行能量检测、熵检测及倒谱检测,并同步获得布尔值序列的能量检测结果、布尔值序列的熵检测结果以及布尔值序列的倒谱检测结果,以一预置策略对所述能量检测结果、所述熵检测结果以及所述倒谱检测结果进行判决,将判决结果作为所述检测结果输出。
优选的,于所述步骤S4中,将所述检测结果处理为所述激活信号的方法为,以帧为单位对所述检测结果进行平滑处理。
优选的,所述步骤S3中,所述第二处理信号通过以下公式进行分帧:
frame(n,m)=y_emp(fs*t*n+m);
其中,
frame(n,m)用于表示分帧后的每帧所述第二处理信号;
y_emp用于表示所述第二处理信号;
fs用于表示所述语音信号的采样率;
t用于表示所述预设时间间隔;
n用于表示第n帧;
m用于表示n帧中的第m个点。
优选的,所述能量检测结果通过以下公式进行:
其中,
flag_pow(n)用于表示所述能量检测结果;
avgPow(n)用于表示当前帧的平均能量;
avgPowOld(n)用于表示之前帧的平均能量;
thresh1为调整参数。
优选的,thresh1的取值范围在3-100之间。
优选的,当前帧的所述平均能量通过以下公式得到:
和/或
其中,
frame(n,m)用于表示分帧后的每帧所述第二处理信号;avgPow(n)用于表示当前帧的平均能量;
framelen用于表示每一帧的长度;
avgPowOld(n)用于表示之前帧的平均能量;
avglen用于表示向前采样的帧数量。
优选的,所述熵检测结果通过以下公式进行:
其中,
flag_sen(n)用于表示所述熵检测结果;
H(n)用于表示分帧后的所述第二处理信号的熵函数;
thresh2用于表示熵判断阈值。
优选的,thresh2的取值范围在-7-0之间。
优选的,所述窗函数的熵函数通过以下公式得到:
和/或
Ypow(n,m)=abs(Y(n,m))2;
Y(n,m)=FFT(xw(n,m));
xw(n,m)=frame(n,m)*win(m);
其中,
H(n)用于表示分帧后的所述第二处理信号的的熵函数;
win(m)用于表示窗函数;
xw(n,m)用于表示对分帧后的所述第二处理信号进行加窗后获得的信号;
Y(n,m)用于表示对xw(n,m)做快速傅里叶变换后获得的信号;
Ypow(n,m)用于表示xw(n,m)的功率谱;
prob(n,m)用于表示Ypow(n,m)的概率。
优选的,所述倒谱检测结果通过以下公式进行:
tmax(n)=max(ceps(n,speech_range));
tmin(n)=min(ceps(n,speech_range));
ceps(n,m)=IFFT(Ypow_log(n,m));
Ypow_log(n,m)=log2(Ypow(n,m));
其中,
flag_ceps(n)用于表示所述倒谱检测结果;
Ypow(n,m)用于表示xw(n,m)的功率谱;
xw(n,m)用于表示对分帧后的所述第二处理信号进行加窗后获得的信号;
Ypow_log(n,m)用于表示xw(n,m)的倒谱;
ceps(n,m)用于表示对Ypow_log(n,m)进行反快速傅里叶变换后获得的信号;
tmax(n)用于表示ceps(n,m)的当前帧在人声输出段的最大值;
tmin(n)用于表示ceps(n,m)的当前帧在人声输出段的最小值;
speech_range用于表示人声输出段的范围;
thresh3用于表示倒谱判断阈值。
优选的,thresh3的取值范围在0.5-1.5之间。
本发明的技术方案有益效果在于:公开一种语音激活检测方法,首先采集声音信号,并判断声音信号是否为语音信号,当检测到声音信号是语音信号时,则启动语音处理单元对声音信号进行识别处理,当检测到声音信号不是语音信号时,则使语音处理单元一直处于休眠状态,该语音激活检测方法使功耗较大的语音处理单元长时间保持休眠状态,因而可使整个系统保持低功耗,并且该语音激活检测方法实现成本较低,且可通过较小的计算量,以及较少的资源消耗获取较优的性能。
附图说明
参考所附附图,以更加充分的描述本发明的实施例。然而,所附附图仅用于说明和阐述,并不构成对本发明范围的限制。
图1为现有技术中,语音激活检测方法的原理框图;
图2为本发明的实施例的语音激活检测方法的步骤流程图;
图3为本发明的实施例的语音激活检测系统的原理框图;
图4为本发明的实施例的语音激活检测方法的判断单元判断声音信号是否为语音信号的的原理框图;
图5为本发明的实施例的语音激活检测方法的判断单元判断声音信号是否为语音信号的步骤流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。
如图1所示,传统的语音激活检测可以检测出所有时间是否为语音,当前的语音激活检测,主要分为两种:(1)传统的基于能量,时域,频域等信号处理方法,(2)最近流行的神经网络的检测方法;其中,神经网络算法,性能很好,但是计算量很大,一般要几百万次的运算,才能完成一帧的信号处理,而且由于需要存储神经网络权重也需要几M byte,这对于硬件的实现是很大的资源开销,非常昂贵,因此,这并不适用于低功耗低成本的应用.如果在CPU或者DSP上实现神经网络VAD算法,功耗极大。
由于语音识别技术的发展,因此,急需要有合适的语音激活检测,当检测到有语音的时候才开始语音识别处理,这样来满足系统待机状态低功耗的要求。
针对现有技术中存在的上述问题,本发明公开一种语音激活检测方法,如图2所示,其中包括:
提供一采集单元1,以采集外界一声音信号;
提供一判断单元2,以判断声音信号是否为语音信号;
若是,则启动一语音处理单元3,以对声音信号进行处理;
若否,则保持语音处理单元3处于休眠状态。
通过上述语音激活检测方法的技术方案,公开一种语音激活检测方法,应用于一语音激活检测系统中,如图3所示,该语音激活检测系统包括采集单元1、判断单元2及语音处理单元3,其中采集单元1连接判断单元2,语音处理单元3连接判断单元2。
首先,提供采集单元1以采集声音信号,提供判断单元2以判断声音信号是否为语音信号,当检测到声音信号是语音信号时,则启动语音处理单元3对声音信号进行识别处理,当检测到声音信号不是语音信号时,则使语音处理单元3一直处于休眠状态。
进一步地,该语音激活检测方法使功耗较大的语音处理单元3长时间保持休眠状态,因而可使整个系统保持低功耗,并且该语音激活检测方法实现成本较低,且可通过较小的计算量,以及较少的资源消耗获取较优的性能。
在一种较优的实施例中,判断单元判断声音信号是否为语音信号的方法具体包括以下步骤:
步骤S1、降低声音信号的采样率,以得到一第一处理信号;
步骤S2、对第一处理信号进行高通滤波处理,以得到一第二处理信号y_emp;
步骤S3、以一预设时间间隔对第二处理信号y_emp进行分帧;
步骤S4、对分帧后的第二处理信号y_emp进行检测,以得到是否为语音信号的检测结果;
将检测结果处理为激活信号输出至语音处理单元。
上述技术方案中,如图4、5所示,首先对输入信号做低通滤波,把采样率降低到8000Hz,得到第一处理信号,然后把第一处理信号通过高通滤波器,优选的,高通滤波器可以是预加重滤波器,以进行高通滤波得到信号第二处理信号y_emp,以一预设时间间隔对第二处理信号y_emp进行分帧,其中,预设时间间隔可以设置为10ms,帧长为L ms,其中,L可以取值为20-32之间。
进一步地,对分帧后的第二处理信号y_emp进行检测,以得到是否为语音信号的检测结果,将检测结果处理为激活信号输出至语音处理单元;具体地,将检测结果处理为激活信号的方法为,以帧为单位对检测结果进行平滑处理,需要说明的是,对检测结果进行平滑处理可以采样多种方式,比如,M中取N的算法,进一步避免前一帧信号的平滑处理,以提供一种低成本,低功耗的平滑处理,并且在降低检测概率的情况下,大幅度降低虚警概率。
进一步地,该语音激活检测方法使功耗较大的语音处理单元3长时间保持休眠状态,因而可使整个系统保持低功耗,并且该语音激活检测方法实现成本较低,且可通过较小的计算量,以及较少的资源消耗获取较优的性能。
在一种较优的实施例中,步骤S3中,第二处理信号y_emp通过以下公式进行分帧:
frame(n,m)=y_emp(fs*t*n+m);
其中,
frame(n,m)用于表示分帧后的每帧第二处理信号y_emp;
y_emp用于表示第二处理信号y_emp;
fs用于表示语音信号的采样率;
t用于表示预设时间间隔;
n用于表示第n帧;
m用于表示n帧中的第m个点。
上述技术方案中,每帧长度framelen=L*0.001*8000,因此,framelen的取值范围是160-256;优选的,每帧第二处理信号y_emp可以通过以下公式进行分帧,frame(n,m)=y_emp(80*n+m),其中,80表示80个采样点,即fs*t=8000*10ms=80个采样点。
进一步地,对分帧后的每帧第二处理信号y_emp进行检测,以得到是否为语音信号的检测结果,将检测结果处理为激活信号输出至语音处理单元;进一步地,该语音激活检测方法使功耗较大的语音处理单元3长时间保持休眠状态,因而可使整个系统保持低功耗,并且该语音激活检测方法实现成本较低,且可通过较小的计算量,以及较少的资源消耗获取较优的性能。
在一种较优的实施例中,能量检测包括,对分帧后的第二处理信号y_emp进行检测的方法包括,对分帧后的第二处理信号y_emp进行能量检测,以输出一布尔值序列的能量检测结果作为检测结果。
上述技术方案中,能量检测结果通过以下公式进行:
其中,
flag_pow(n)用于表示能量检测结果;
avgPow(n)用于表示当前帧的平均能量;
avgPowOld(n)用于表示之前帧的平均能量;
thresh1为调整参数;
其中,当前帧的平均能量通过以下公式得到:
和/或
其中,
frame(n,m)用于表示分帧后的每帧第二处理信号y_emp;
avgPow(n)用于表示当前帧的平均能量;
framelen用于表示每一帧的长度;
avgPowOld(n)用于表示之前帧的平均能量;
avglen用于表示向前采样的帧数量。
上述技术方案中,thresh1为调整参数,可以根据应用的场景来配置,在本实施例中,thresh1的取值范围在3-100之间,并且,avglen表示向前采样的帧数量,可以是配置参数,可以取值在4-32之间。
进一步地,该语音激活检测方法使功耗较大的语音处理单元3长时间保持休眠状态,因而可使整个系统保持低功耗,并且该语音激活检测方法实现成本较低,且可通过较小的计算量,以及较少的资源消耗获取较优的性能。
在一种较优的实施例中,对分帧后的第二处理信号y_emp进行检测的方法包括,对分帧后的第二处理信号y_emp进行熵检测,以输出一布尔值序列的熵检测结果作为检测结果。
上述技术方案中,熵检测结果通过以下公式进行:
其中,
flag_sen(n)用于表示熵检测结果;
H(n)用于表示分帧后的第二处理信号y_emp的熵函数;
thresh2用于表示熵判断阈值;
其中,分帧后的第二处理信号y_emp的熵函数通过以下公式得到:
和/或
Ypow(n,m)=abs(Y(n,m))2;
Y(n,m)=FFT(xw(n,m));
xw(n,m)=frame(n,m)*win(m);
其中,
H(n)用于表示分帧后的第二处理信号y_emp的的熵函数;
win(m)用于表示窗函数;
xw(n,m)用于表示对分帧后的第二处理信号y_emp进行加窗后获得的信号;
Y(n,m)用于表示对xw(n,m)做快速傅里叶变换后获得的信号;
Ypow(n,m)用于表示xw(n,m)的功率谱;
prob(n,m)用于表示Ypow(n,m)的概率。
优选的,thresh2用于表示熵判断阈值,可以根据应用的场景进行配置,在本实施例中,预先配置的熵参数thresh2维持在-7-0之间,加窗处理为采样方式,选用哈明窗(hamming)或者汉宁窗(hanning)都可以。
进一步地,该语音激活检测方法使功耗较大的语音处理单元3长时间保持休眠状态,因而可使整个系统保持低功耗,并且该语音激活检测方法实现成本较低,且可通过较小的计算量,以及较少的资源消耗获取较优的性能。
在一种较优的实施例中,对分帧后的第二处理信号y_emp进行检测的方法包括,对分帧后的第二处理信号y_emp进行倒谱检测,以输出一布尔值序列的倒谱检测结果作为检测结果。
上述技术方案中,倒谱检测结果通过以下公式进行:
tmax(n)=max(ceps(n,speech_range));
tmin(n)=min(ceps(n,speech_range));
ceps(n,m)=IFFT(Ypow_log(n,m));
Ypow_log(n,m)=log2(Ypow(n,m));
其中,
flag_ceps(n)用于表示倒谱检测结果;
Ypow(n,m)用于表示xw(n,m)的功率谱;
xw(n,m)用于表示对分帧后的第二处理信号y_emp进行加窗后获得的信号;
Ypow_log(n,m)用于表示xw(n,m)的倒谱;
ceps(n,m)用于表示对Ypow_log(n,m)进行反快速傅里叶变换后获得的信号;
tmax(n)用于表示ceps(n,m)的当前帧在人声输出段的最大值;
tmin(n)用于表示ceps(n,m)的当前帧在人声输出段的最小值;
speech_range用于表示人声输出段的范围;
thresh3用于表示倒谱判断阈值。
具体地,当前帧表示当前处理的一帧,thresh3表示倒谱判断阈值,可配置参数,优选的,在本实施例中,thresh3的取值范围在0.5-1.5之间,并且,FFT表示反快速傅里叶变换,优选的,每一帧的长度framelen为256点,如若每帧长度framelen小于256,则FFT的输入补零至256点;speech_range表示人声输出段的范围,优选的,从2.5ms-16ms,speech_range取值范围为从20-128。
进一步地,该语音激活检测方法使功耗较大的语音处理单元3长时间保持休眠状态,因而可使整个系统保持低功耗,并且该语音激活检测方法实现成本较低,且可通过较小的计算量,以及较少的资源消耗获取较优的性能。
在一种较优的实施例中,为了提高语音激活检测方法的灵活性,可以做一些灵活的配置,比如说熵检测和倒谱检测同步开启或者关闭,把熵检测和倒谱检测的结果一起做时域平滑来做判决;并且,如果想检测清音,清音的倒谱是没有峰值的,但是熵比较大,也可以选择把倒谱检测一直关闭,只考虑能量检测和熵检测的结果.;这样在待机状态下,绝大部分时间,不会触发耗电的熵检测和倒谱检测的计算,这样保证了系统的低功耗运行。
具体地,对分帧后的第二处理信号进行检测的方法包括:
实施例一:
对分帧后的第二处理信号y_emp进行能量检测,以输出以布尔值序列的能量检测结果,将能量检测结果作为对分帧后的第二处理信号y_emp进行熵检测的使能信号,并以熵检测输出的布尔值序列的熵检测结果作为检测结果输出;或者
对分帧后的第二处理信号y_emp同步进行能量检测及熵检测,并同步获得布尔值序列的能量检测结果及布尔值序列的熵检测结果,以一预置策略对能量检测结果及熵检测结果进行判决,将判决结果作为检测结果输出。
实施例二:
对分帧后的第二处理信号y_emp进行能量检测,以输出以布尔值序列的能量检测结果,将能量检测结果作为对分帧后的第二处理信号y_emp进行倒谱检测的使能信号,并以倒谱检测输出的布尔值序列的倒谱检测结果作为检测结果输出;或者
对分帧后的第二处理信号y_emp同步进行能量检测及倒谱检测,并同步获得布尔值序列的能量检测结果及布尔值序列的倒谱检测结果,以一预置策略对能量检测结果及倒谱检测结果进行判决,将判决结果作为检测结果输出。
实施例三:
对分帧后的第二处理信号y_emp进行熵检测,以输出以布尔值序列的熵检测结果,将熵检测结果作为对分帧后的第二处理信号y_emp进行倒谱检测的使能信号,并以倒谱检测输出的布尔值序列的倒谱检测结果作为检测结果输出;或者
对分帧后的第二处理信号y_emp同步进行熵检测及倒谱检测,并同步获得布尔值序列的熵检测结果及布尔值序列的倒谱检测结果,以一预置策略对熵检测结果及倒谱检测结果进行判决,将判决结果作为检测结果输出。
实施例四:
对分帧后的第二处理信号y_emp进行能量检测,以输出以布尔值序列的能量检测结果,将能量检测结果作为对分帧后的第二处理信号y_emp进行熵检测的使能信号,将熵检测输出的布尔值序列的熵检测结果作为对分帧后的第二处理信号y_emp进行倒谱检测的使能信号,并以倒谱检测输出的布尔值序列的倒谱检测结果作为检测结果输出;或者
对分帧后的第二处理信号y_emp同步进行能量检测、熵检测及倒谱检测,并同步获得布尔值序列的能量检测结果、布尔值序列的熵检测结果以及布尔值序列的倒谱检测结果,以一预置策略对能量检测结果、熵检测结果以及倒谱检测结果进行判决,将判决结果作为检测结果输出。
上述实施例的技术方案中,该语音激活检测方法组合能量检测、熵检测及倒谱检测这三种检测方法,采用分级使能计算,计算量逐级增大,并且于同步进行能量检测及熵检测,或同步进行能量检测及倒谱检测,或同步进行能量检测、熵检测及倒谱检测,分别采用对应的预置策略判决,以得到对应的判决结果作为检测结果输出,其中,对应的预置策略判决根据应用应用场景的不同,而预先配置,在此不再赘述。
进一步地,该语音激活检测方法使功耗较大的语音处理单元3长时间保持休眠状态,因而可使整个系统保持低功耗,并且该语音激活检测方法实现成本较低,且可通过较小的计算量,以及较少的资源消耗获取较优的性能。
以上所述仅为本发明较佳的实施例,并非因此限制本发明的实施方式及保护范围,对于本领域技术人员而言,应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案,均应当包含在本发明的保护范围内。
Claims (19)
1.一种语音激活检测方法,其特征在于,包括:
提供一采集单元,以采集外界一声音信号;
提供一判断单元,以判断所述声音信号是否为语音信号;
若是,则启动一语音处理单元,以对所述声音信号进行处理;
若否,则保持所述语音处理单元处于休眠状态。
2.根据权利要求1所述的语音激活检测方法,其特征在于,所述判断单元判断所述声音信号是否为语音信号的方法具体包括以下步骤:
步骤S1、降低所述声音信号的采样率,以得到一第一处理信号;
步骤S2、对所述第一处理信号进行高通滤波处理,以得到一第二处理信号;
步骤S3、以一预设时间间隔对所述第二处理信号进行分帧;
步骤S4、对分帧后的所述第二处理信号进行检测,以得到是否为语音信号的检测结果;
将所述检测结果处理为激活信号输出至所述语音处理单元。
3.根据权利要求2所述的语音激活检测方法,其特征在于,对分帧后的所述第二处理信号进行检测的方法包括,对分帧后的所述第二处理信号进行能量检测,以输出一布尔值序列的能量检测结果作为所述检测结果。
4.根据权利要求2所述的语音激活检测方法,其特征在于,对分帧后的所述第二处理信号进行检测的方法包括,对分帧后的所述第二处理信号进行熵检测,以输出一布尔值序列的熵检测结果作为所述检测结果。
5.根据权利要求2所述的语音激活检测方法,其特征在于,对分帧后的所述第二处理信号进行检测的方法包括,对分帧后的所述第二处理信号进行倒谱检测,以输出一布尔值序列的倒谱检测结果作为所述检测结果。
6.根据权利要求2所述的语音激活检测方法,其特征在于,对分帧后的所述第二处理信号进行检测的方法包括:
对分帧后的所述第二处理信号进行能量检测,以输出以布尔值序列的能量检测结果,将所述能量检测结果作为对分帧后的所述第二处理信号进行熵检测的使能信号,并以所述熵检测输出的布尔值序列的熵检测结果作为所述检测结果输出;或者
对分帧后的所述第二处理信号同步进行能量检测及熵检测,并同步获得布尔值序列的能量检测结果及布尔值序列的熵检测结果,以一预置策略对所述能量检测结果及所述熵检测结果进行判决,将判决结果作为所述检测结果输出。
7.根据权利要求2所述的语音激活检测方法,其特征在于,
对分帧后的所述第二处理信号进行检测的方法包括:
对分帧后的所述第二处理信号进行能量检测,以输出以布尔值序列的能量检测结果,将所述能量检测结果作为对分帧后的所述第二处理信号进行倒谱检测的使能信号,并以所述倒谱检测输出的布尔值序列的倒谱检测结果作为所述检测结果输出;或者
对分帧后的所述第二处理信号同步进行能量检测及倒谱检测,并同步获得布尔值序列的能量检测结果及布尔值序列的倒谱检测结果,以一预置策略对所述能量检测结果及所述倒谱检测结果进行判决,将判决结果作为所述检测结果输出。
8.根据权利要求2所述的语音激活检测方法,其特征在于,
对分帧后的所述第二处理信号进行检测的方法包括:
对分帧后的所述第二处理信号进行熵检测,以输出以布尔值序列的熵检测结果,将所述熵检测结果作为对分帧后的所述第二处理信号进行倒谱检测的使能信号,并以所述倒谱检测输出的布尔值序列的倒谱检测结果作为所述检测结果输出;或者
对分帧后的所述第二处理信号同步进行熵检测及倒谱检测,并同步获得布尔值序列的熵检测结果及布尔值序列的倒谱检测结果,以一预置策略对所述熵检测结果及所述倒谱检测结果进行判决,将判决结果作为所述检测结果输出。
9.根据权利要求2所述的语音激活检测方法,其特征在于,
对分帧后的所述第二处理信号进行检测的方法包括:
对分帧后的所述第二处理信号进行能量检测,以输出以布尔值序列的能量检测结果,将所述能量检测结果作为对分帧后的所述第二处理信号进行熵检测的使能信号,将所述熵检测输出的布尔值序列的熵检测结果作为对分帧后的所述第二处理信号进行倒谱检测的使能信号,并以所述倒谱检测输出的布尔值序列的倒谱检测结果作为所述检测结果输出;或者
对分帧后的所述第二处理信号同步进行能量检测、熵检测及倒谱检测,并同步获得布尔值序列的能量检测结果、布尔值序列的熵检测结果以及布尔值序列的倒谱检测结果,以一预置策略对所述能量检测结果、所述熵检测结果以及所述倒谱检测结果进行判决,将判决结果作为所述检测结果输出。
10.根据权利要求2所述的语音激活检测方法,其特征在于,于所述步骤S4中,将所述检测结果处理为所述激活信号的方法为,以帧为单位对所述检测结果进行平滑处理。
11.根据权利要求2所述的语音激活检测方法,其特征在于,所述步骤S3中,所述第二处理信号通过以下公式进行分帧:
frame(n,m)=y_emp(fs*t*n+m);
其中,
frame(n,m)用于表示分帧后的每帧所述第二处理信号;
y_emp用于表示所述第二处理信号;
fs用于表示所述语音信号的采样率;
t用于表示所述预设时间间隔;
n用于表示第n帧;
m用于表示n帧中的第m个点。
12.根据权利要求3、6、7、9中任一所述的语音激活检测方法,其特征在于,所述能量检测结果通过以下公式进行:
其中,
flag_pow(n)用于表示所述能量检测结果;
avgPow(n)用于表示当前帧的平均能量;
avgPowOld(n)用于表示之前帧的平均能量;
thresh1为调整参数。
13.根据权利要求12所述的语音激活检测方法,其特征在于,thresh1的取值范围在3-100之间。
14.根据权利要求12所述的语音激活检测方法,其特征在于,当前帧的所述平均能量通过以下公式得到:
和/或
其中,
frame(n,m)用于表示分帧后的每帧所述第二处理信号;
avgPow(n)用于表示当前帧的平均能量;
framelen用于表示每一帧的长度;
avgPowOld(n)用于表示之前帧的平均能量;
avglen用于表示向前采样的帧数量。
15.根据权利要求4、6、8、9中任一所述的语音激活检测方法,其特征在于,所述熵检测结果通过以下公式进行:
其中,
flag_sen(n)用于表示所述熵检测结果;
H(n)用于表示分帧后的所述第二处理信号的熵函数;
thresh2用于表示熵判断阈值。
16.根据权利要求15所述的语音激活检测方法,其特征在于,thresh2的取值范围在-7-0之间。
17.根据权利要求15所述的语音激活检测方法,其特征在于,分帧后的所述第二处理信号的熵函数通过以下公式得到:
和/或
Ypow(n,m)=abs(Y(n,m))2;
Y(n,m)=FFT(xw(n,m));
xw(n,m)=frame(n,m)*win(m);
其中,
H(n)用于表示分帧后的所述第二处理信号的的熵函数;
win(m)用于表示窗函数;
xw(n,m)用于表示对分帧后的所述第二处理信号进行加窗后获得的信号;
Y(n,m)用于表示对xw(n,m)做快速傅里叶变换后获得的信号;
Ypow(n,m)用于表示xw(n,m)的功率谱;
prob(n,m)用于表示Ypow(n,m)的概率。
18.根据权利要求5、7、8、9中任一所述的语音激活检测方法,其特征在于,所述倒谱检测结果通过以下公式进行:
tmax(n)=max(ceps(n,speech_range));
tmin(n)=min(ceps(n,speech_range));
ceps(n,m)=IFFT(Ypow_log(n,m));
Ypow_log(n,m)=log2(Ypow(n,m));
其中,
flag_ceps(n)用于表示所述倒谱检测结果;
Ypow(n,m)用于表示xw(n,m)的功率谱;
xw(n,m)用于表示对分帧后的所述第二处理信号进行加窗后获得的信号;
Ypow_log(n,m)用于表示xw(n,m)的倒谱;
ceps(n,m)用于表示对Ypow_log(n,m)进行反快速傅里叶变换后获得的信号;
tmax(n)用于表示ceps(n,m)的当前帧在人声输出段的最大值;
tmin(n)用于表示ceps(n,m)的当前帧在人声输出段的最小值;
speech_range用于表示人声输出段的范围;
thresh3用于表示倒谱判断阈值。
19.根据权利要求18所述的语音激活检测方法,其特征在于,thresh3的取值范围在0.5-1.5之间。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811552320.2A CN109360585A (zh) | 2018-12-19 | 2018-12-19 | 一种语音激活检测方法 |
US16/719,453 US11315591B2 (en) | 2018-12-19 | 2019-12-18 | Voice activity detection method |
EP19218058.6A EP3671743B1 (en) | 2018-12-19 | 2019-12-19 | Voice activity detection method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811552320.2A CN109360585A (zh) | 2018-12-19 | 2018-12-19 | 一种语音激活检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109360585A true CN109360585A (zh) | 2019-02-19 |
Family
ID=65329015
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811552320.2A Pending CN109360585A (zh) | 2018-12-19 | 2018-12-19 | 一种语音激活检测方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11315591B2 (zh) |
EP (1) | EP3671743B1 (zh) |
CN (1) | CN109360585A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110349566A (zh) * | 2019-07-11 | 2019-10-18 | 龙马智芯(珠海横琴)科技有限公司 | 语音唤醒方法、电子设备及存储介质 |
CN110610710A (zh) * | 2019-09-05 | 2019-12-24 | 晶晨半导体(上海)股份有限公司 | 一种自学习语音识别系统的构建装置和构建方法 |
CN110706706A (zh) * | 2019-11-01 | 2020-01-17 | 北京声智科技有限公司 | 一种语音识别方法、装置、服务器及存储介质 |
CN111640448A (zh) * | 2020-06-03 | 2020-09-08 | 山西见声科技有限公司 | 基于语音增强的视听辅助方法及系统 |
WO2021253235A1 (zh) * | 2020-06-16 | 2021-12-23 | 华为技术有限公司 | 语音活动检测方法和装置 |
WO2022206602A1 (zh) * | 2021-03-31 | 2022-10-06 | 华为技术有限公司 | 语音唤醒方法、装置、存储介质及系统 |
CN115457953A (zh) * | 2022-07-27 | 2022-12-09 | 杭州芯声智能科技有限公司 | 一种基于可穿戴设备的神经网络多命令词识别方法及系统 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109360585A (zh) * | 2018-12-19 | 2019-02-19 | 晶晨半导体(上海)股份有限公司 | 一种语音激活检测方法 |
CN113889109B (zh) * | 2021-10-21 | 2024-10-22 | 深圳市中科蓝讯科技股份有限公司 | 语音唤醒模式的调节方法、存储介质及电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103543814A (zh) * | 2012-07-16 | 2014-01-29 | 瑞昱半导体股份有限公司 | 信号处理装置以及信号处理方法 |
CN103996399A (zh) * | 2014-04-21 | 2014-08-20 | 深圳市北科瑞声科技有限公司 | 语音检测方法和系统 |
CN105023572A (zh) * | 2014-04-16 | 2015-11-04 | 王景芳 | 一种含噪语音端点鲁棒检测方法 |
CN106653062A (zh) * | 2017-02-17 | 2017-05-10 | 重庆邮电大学 | 一种低信噪比环境下基于谱熵改进的语音端点检测方法 |
US20180254041A1 (en) * | 2016-04-11 | 2018-09-06 | Sonde Health, Inc. | System and method for activation of voice interactive services based on user state |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05111020A (ja) * | 1991-10-17 | 1993-04-30 | Matsushita Electric Ind Co Ltd | テレビ会議用画面切替制御装置 |
US20040125962A1 (en) * | 2000-04-14 | 2004-07-01 | Markus Christoph | Method and apparatus for dynamic sound optimization |
FR2825826B1 (fr) * | 2001-06-11 | 2003-09-12 | Cit Alcatel | Procede pour detecter l'activite vocale dans un signal, et codeur de signal vocal comportant un dispositif pour la mise en oeuvre de ce procede |
RU2441286C2 (ru) * | 2007-06-22 | 2012-01-27 | Войсэйдж Корпорейшн | Способ и устройство для обнаружения звуковой активности и классификации звуковых сигналов |
WO2010070840A1 (ja) * | 2008-12-17 | 2010-06-24 | 日本電気株式会社 | 音声検出装置、音声検出プログラムおよびパラメータ調整方法 |
US20140122078A1 (en) * | 2012-11-01 | 2014-05-01 | 3iLogic-Designs Private Limited | Low Power Mechanism for Keyword Based Hands-Free Wake Up in Always ON-Domain |
WO2014094242A1 (en) * | 2012-12-18 | 2014-06-26 | Motorola Solutions, Inc. | Method and apparatus for mitigating feedback in a digital radio receiver |
US20140270259A1 (en) * | 2013-03-13 | 2014-09-18 | Aliphcom | Speech detection using low power microelectrical mechanical systems sensor |
US9712923B2 (en) * | 2013-05-23 | 2017-07-18 | Knowles Electronics, Llc | VAD detection microphone and method of operating the same |
US9984706B2 (en) * | 2013-08-01 | 2018-05-29 | Verint Systems Ltd. | Voice activity detection using a soft decision mechanism |
CN106409310B (zh) * | 2013-08-06 | 2019-11-19 | 华为技术有限公司 | 一种音频信号分类方法和装置 |
US10360926B2 (en) * | 2014-07-10 | 2019-07-23 | Analog Devices Global Unlimited Company | Low-complexity voice activity detection |
EP2980795A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor |
CN105261368B (zh) | 2015-08-31 | 2019-05-21 | 华为技术有限公司 | 一种语音唤醒方法及装置 |
CN107919116B (zh) | 2016-10-11 | 2019-09-13 | 芋头科技(杭州)有限公司 | 一种语音激活检测方法及装置 |
CN107945793A (zh) | 2017-12-25 | 2018-04-20 | 广州势必可赢网络科技有限公司 | 一种语音激活检测方法及装置 |
US10741192B2 (en) * | 2018-05-07 | 2020-08-11 | Qualcomm Incorporated | Split-domain speech signal enhancement |
US10861484B2 (en) * | 2018-12-10 | 2020-12-08 | Cirrus Logic, Inc. | Methods and systems for speech detection |
CN109360585A (zh) * | 2018-12-19 | 2019-02-19 | 晶晨半导体(上海)股份有限公司 | 一种语音激活检测方法 |
-
2018
- 2018-12-19 CN CN201811552320.2A patent/CN109360585A/zh active Pending
-
2019
- 2019-12-18 US US16/719,453 patent/US11315591B2/en active Active
- 2019-12-19 EP EP19218058.6A patent/EP3671743B1/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103543814A (zh) * | 2012-07-16 | 2014-01-29 | 瑞昱半导体股份有限公司 | 信号处理装置以及信号处理方法 |
CN105023572A (zh) * | 2014-04-16 | 2015-11-04 | 王景芳 | 一种含噪语音端点鲁棒检测方法 |
CN103996399A (zh) * | 2014-04-21 | 2014-08-20 | 深圳市北科瑞声科技有限公司 | 语音检测方法和系统 |
US20180254041A1 (en) * | 2016-04-11 | 2018-09-06 | Sonde Health, Inc. | System and method for activation of voice interactive services based on user state |
CN106653062A (zh) * | 2017-02-17 | 2017-05-10 | 重庆邮电大学 | 一种低信噪比环境下基于谱熵改进的语音端点检测方法 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110349566A (zh) * | 2019-07-11 | 2019-10-18 | 龙马智芯(珠海横琴)科技有限公司 | 语音唤醒方法、电子设备及存储介质 |
CN110349566B (zh) * | 2019-07-11 | 2020-11-24 | 龙马智芯(珠海横琴)科技有限公司 | 语音唤醒方法、电子设备及存储介质 |
CN110610710A (zh) * | 2019-09-05 | 2019-12-24 | 晶晨半导体(上海)股份有限公司 | 一种自学习语音识别系统的构建装置和构建方法 |
WO2021042969A1 (zh) * | 2019-09-05 | 2021-03-11 | 晶晨半导体(上海)股份有限公司 | 一种自学习语音识别系统的构建装置和构建方法 |
CN110610710B (zh) * | 2019-09-05 | 2022-04-01 | 晶晨半导体(上海)股份有限公司 | 一种自学习语音识别系统的构建装置和构建方法 |
CN110706706A (zh) * | 2019-11-01 | 2020-01-17 | 北京声智科技有限公司 | 一种语音识别方法、装置、服务器及存储介质 |
CN111640448A (zh) * | 2020-06-03 | 2020-09-08 | 山西见声科技有限公司 | 基于语音增强的视听辅助方法及系统 |
WO2021253235A1 (zh) * | 2020-06-16 | 2021-12-23 | 华为技术有限公司 | 语音活动检测方法和装置 |
CN115699173A (zh) * | 2020-06-16 | 2023-02-03 | 华为技术有限公司 | 语音活动检测方法和装置 |
WO2022206602A1 (zh) * | 2021-03-31 | 2022-10-06 | 华为技术有限公司 | 语音唤醒方法、装置、存储介质及系统 |
CN115457953A (zh) * | 2022-07-27 | 2022-12-09 | 杭州芯声智能科技有限公司 | 一种基于可穿戴设备的神经网络多命令词识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
US20200202890A1 (en) | 2020-06-25 |
US11315591B2 (en) | 2022-04-26 |
EP3671743A1 (en) | 2020-06-24 |
EP3671743B1 (en) | 2023-07-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109360585A (zh) | 一种语音激活检测方法 | |
EP2772910B1 (en) | Frame loss compensation method and apparatus for voice frame signal | |
CN110415728B (zh) | 一种识别情感语音的方法和装置 | |
CN108831499A (zh) | 利用语音存在概率的语音增强方法 | |
CN107393555B (zh) | 一种低信噪比异常声音信号的检测系统及检测方法 | |
CN114333781A (zh) | 用于在可穿戴设备上进行能量高效且低功率分布式自动语音辨识的系统和方法 | |
CN105023572A (zh) | 一种含噪语音端点鲁棒检测方法 | |
CN103440872B (zh) | 瞬态噪声的去噪方法 | |
CN105448303A (zh) | 语音信号的处理方法和装置 | |
CN101354889B (zh) | 一种语音变调方法及装置 | |
CA2699316A1 (en) | Apparatus and method for calculating bandwidth extension data using a spectral tilt controlled framing | |
CN104021789A (zh) | 一种利用短时时频值的自适应端点检测方法 | |
CN111192599B (zh) | 一种降噪方法及装置 | |
CN104599677B (zh) | 基于语音重建的瞬态噪声抑制方法 | |
CN102097095A (zh) | 一种语音端点检测方法及装置 | |
CN110232933A (zh) | 音频检测方法、装置、存储介质及电子设备 | |
EP3739582A1 (en) | Voice detection | |
US20230186943A1 (en) | Voice activity detection method and apparatus, and storage medium | |
CN103474074A (zh) | 语音基音周期估计方法和装置 | |
CN110867192A (zh) | 基于门控循环编解码网络的语音增强方法 | |
CN103996399B (zh) | 语音检测方法和系统 | |
US20160284364A1 (en) | Voice detection method | |
WO2017128910A1 (zh) | 一种语音出现概率的确定方法、装置及电子设备 | |
Poovarasan et al. | Speech enhancement using sliding window empirical mode decomposition and hurst-based technique | |
CN112102818B (zh) | 结合语音活性检测和滑动窗噪声估计的信噪比计算方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190219 |
|
RJ01 | Rejection of invention patent application after publication |