CN104067341A - 在存在背景噪声的情况下的语音活动检测 - Google Patents
在存在背景噪声的情况下的语音活动检测 Download PDFInfo
- Publication number
- CN104067341A CN104067341A CN201380005605.3A CN201380005605A CN104067341A CN 104067341 A CN104067341 A CN 104067341A CN 201380005605 A CN201380005605 A CN 201380005605A CN 104067341 A CN104067341 A CN 104067341A
- Authority
- CN
- China
- Prior art keywords
- frequency band
- snr
- noise
- outlier
- weighting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Mobile Radio Communication Systems (AREA)
- Telephone Function (AREA)
- Noise Elimination (AREA)
Abstract
在语音处理系统中,在平均信噪比SNR计算中对于背景噪声中的突然改变作出补偿。可单独或结合对所述平均SNR加权而使用SNR离群值滤波。可在计算所述SNR平均之前在每频带的所述SNR上施加自适应权重。所述加权函数可为噪声电平、噪声类型和/或瞬时SNR值的函数。另一加权机制应用零值滤波或离群值滤波,其将特定频带中的权重设定为零。此特定频带可表征为展现比其它频带中的所述SNR高几倍的SNR的频带。
Description
相关申请案的交叉参考
本申请案依据35U.S.C.§119(e)的权益主张2012年1月20日申请的第61/588,729号临时专利申请案的优先权。此临时专利申请案全文以引用的方式明确地并入本文中。
背景技术
对于在噪声环境中发生通信的应用,可能需要使所要语音信号与背景噪声分离。噪声可界定为干扰所要信号或以其它方式使所要信号降级的所有信号的组合。背景噪声可包含在声学环境内产生的许多噪声信号,例如其他人的背景对话,以及从所要信号和/或其它信号的任一者产生的反射和回响。
例如语音活动检测器(VAD)等信号活动检测器可用于使电子装置中的不必要处理的量最小化。语音活动检测器可遵循麦克风选择性地控制一个或一个以上信号处理阶段。举例来说,记录装置可实施语音活动检测器以使对噪声信号的处理和记录最小化。语音活动检测器可在无语音活动的周期期间解除激励或以其它方式解除激活信号处理和记录。类似地,例如智能电话、移动电话、个人数字助理(PDA)、膝上型计算机,或任何便携式计算装置等通信装置可实施语音活动检测器以便减少向噪声信号分配的处理功率,且减少发射或以其它方式传送到远程目的地装置的噪声信号。语音活动检测器可在无语音活动的周期期间解除激励或解除激活语音处理和发射。
语音活动检测器令人满意地操作的能力可能由于改变噪声条件且噪声条件具有显著噪声能量而被阻止。当将语音活动检测集成于经受动态噪声环境的移动装置中时,语音活动检测器的性能可能进一步复杂化。移动装置可在相对无噪声的环境下操作,或可在相当大噪声条件下操作,其中噪声能量与语音能量近似。动态噪声环境的存在使得语音活动决策变得复杂。
常规上,语音活动检测器将输入帧分类为背景噪声或活动语音。活动/不活动分类允许语音译码器利用典型电话对话中通常存在的谈话突峰之间的暂停。在高信噪比(SNR)(例如,SNR>30dB)下,简单的能量量度适于准确地检测用于在最小位速率下编码的语音不活动片段,借此满足较低位速率要求。然而,在低SNR下,语音活动检测器的性能显著降级。举例来说,在低SNR下,保守VAD可产生增加的错误语音检测,从而导致较高平均编码速率。激进VAD可错过检测活动语音片段,借此导致语音质量的损失。
大多数当前VAD技术使用长期SNR来估计用于执行关于输入帧是背景噪声还是活动语音的VAD决策的阈值(称为VAD_THR)。在低SNR下或在快速变化的非静止噪声下,平滑的长期SNR将产生不准确VAD_THR,从而导致错过语音的增加可能性或错误语音检测的增加可能性。并且,一些VAD技术(例如,自适应多速率宽带或AMR-WB)对于例如汽车噪声等静止类型的噪声较好工作,但对于低SNR(例如,SNR<15dB)下的非静止噪声产生极高语音活动因数(归因于广泛错误检测)。
因此,语音活动的错误指示可导致处理和发射噪声信号。对噪声信号的处理和发射可产生不良的用户体验,尤其是在归因于语音活动检测器指示无语音活动,噪声发射周期不时地被不活动周期打断的情况下。相反,不良的语音活动检测可导致语音信号的相当大部分的丢失。语音活动的初始部分的丢失可导致用户需要有规律地重复对话的部分,这是不合需要的情形。
发明内容
本发明针对补偿平均SNR(即,SNRavg)计算中的背景噪声中突然改变。在一实施方案中,带内的SNR值可通过离群值滤波和/或施加权重而选择性调整。SNR离群值滤波可单独或与为平均SNR加权结合使用。还提供子带内的自适应方法。
在一实施方案中,VAD可包括在还包含俘获声音的一个或一个以上麦克风的移动电话内或耦合到所述移动电话。所述装置将传入声音信号划分为时间块,或分析帧或部分。时间(或帧)中每一片段的持续时间足够短使得信号的频谱包络保持相对静止。
在一实施方案中,为平均SNR加权。自适应权重在计算平均SNR之前施加在每频带SNR上。加权函数可为噪声电平、噪声类型和/或瞬时SNR值的函数。
另一加权机制应用零值滤波或离群值滤波,其将特定频带中的权重设定为零。此特定频带可表征为展现比其它频带中的SNR高几倍的SNR的频带。
在一实施方案中,执行SNR离群值滤波包括以单调次序将频带中的经修改瞬时SNR值分类,确定频带中的哪些为离群值频带,以及通过将与离群值频带相关联的权重设定为零而更新自适应加权函数。
在一实施方案中,使用子带中的自适应方法。代替于逻辑上组合子带VAD决策,自适应加权子带中的阈值与平均SNR之间的差。确定每一子带中VAD阈值与平均SNR之间的差。将权重施加到每一差值,且将经加权差值相加在一起。可通过将结果与另一阈值(例如,零)比较而确定是否存在语音活动。
提供此概述是为了以简化形式介绍下文中在详细描述内容中进一步描述的概念选择。此概述不希望指明所主张标的物的关键特征或本质特征,也不希望用于限制所主张标的物的范围。
附图说明
当结合附图阅读时将更好地理解以上概述以及说明性实施例的以下详细描述。出于说明实施例的目的,图式中展示实施例的实例构造;然而,实施例不限于所揭示的特定方法和手段。图中:
图1是VAD阈值(VAD_THR)与可在估计VAD阈值时使用的长期SNR(SNR_LT)的映射曲线的实例;
图2是说明语音活动检测器的实施方案的框图;
图3是对可在检测语音活动时使用的平均SNR加权的方法的实施方案的操作流程;
图4是可在检测语音活动时使用的SNR离群值滤波的方法的实施方案的操作流程;
图5是错误检测期间每频带经分类SNR的概率分布函数(PDF)的实例;
图6是用于检测在存在背景噪声的情况下的语音活动的方法的实施方案的操作流程;
图7是可在检测语音活动时使用的方法的实施方案的操作流程;
图8是实例移动台的图;以及
图9展示示范性计算环境。
具体实施方式
参考且并入有图式的以下详细描述描述并说明了一个或一个以上特定实施例。展示并充分详细地描述了这些实施例(提供这些实施例并非用以限制而是仅用以示范和教示)以使得所属领域的技术人员能够实践所主张的内容。因此,为简洁起见,所述描述可省略所属领域的技术人员已知的某些信息。
在许多语音处理系统中,语音活动检测通常从例如麦克风信号(例如,移动电话的麦克风信号)等音频输入信号估计。语音活动检测是例如声码器和语音辨识装置等许多语音处理装置中的重要功能。语音活动检测分析可在时域或频域中执行。在存在背景噪声的情况下且在低SNR下,频域VAD通常比时域VAD优选。频域VAD具有分析频段的每一者中的SNR的优点。在典型的频域VAD中,首先语音信号分段为帧,例如10到30ms长。接下来,时域语音帧使用N点FFT(快速傅里叶变换)变换到频域。第一半(即,N/2)频段划分为若干频带,例如M频带。频谱段到频带的此分组通常模拟人类听觉系统的关键频带结构。作为一实例,对于以每秒16,000样本取样的宽带语音,假设N=256点FFT且M=20频带。第一频带可含有N1频谱段,第二频带可含有N2频谱段,等等。
第m频带中每频带的平均能量Ecb(m)通过将每一频带内的FFT频段的量值相加而计算。接下来,使用等式(1)计算每频带的SNR:
其中Ncb(m)是不活动帧期间更新的第m频带中的背景噪声能量。接下来,使用等式(2)计算平均信噪比SNRavg:
SNRavg与阈值VAD_THR比较,且如等式(3)中展示作出决策:
如果SNRavg>VAD_THR,那么
voice_activity=真;
否则
voice_activity=假。 (3)
VAD_THR通常为自适应性的且基于长期信号与噪声能量的比率,且VAD_THR逐帧改变。估计VAD_THR的一个常见方式是使用图1所示的形式的映射曲线。图1是VAD阈值(即,VAD_THR)与SNR_LT(长期SNR)的映射曲线的实例。使用指数平滑函数估计长期信号能量和噪声能量。接着,使用等式(4)计算长期SNR,SNRLT:
如上所述,大多数当前VAD技术使用长期SNR估计VAD_THR来执行VAD决策。在低SNR下或在快速变化的非静止噪声下,经平滑长期SNR将产生不准确的VAD_THR,从而导致增加错过语音的可能性或增加错误语音检测的可能性。并且,一些VAD技术(例如,自适应多速率宽带或AMR-WB)对于例如汽车噪声等静止类型的噪声作用较好,但对于低SNR(例如,小于15dB)下的非静止噪声产生极高语音活动因数(归因于广泛错误检测)。
本文的实施方案针对补偿SNRavg计算中的背景噪声中的突然改变。如本文相对于一些实施方案进一步描述,通过离群值滤波和/或施加权重而选择性调整频带中的SNR值。
图2是说明语音活动检测器(VAD)200的实施方案的框图,且图3是对平均SNR加权的方法300的实施方案的操作流程。
在一实施方案中,VAD200包括接收器205、处理器207、加权模块210、SNR计算模块220、离群值滤波器230和决策模块240。VAD200可包括在还包含俘获声音的一个或一个以上麦克风的装置内或耦合到所述装置。作为替代或另外,接收器205可包括俘获声音的装置。连续声音可发送到数字化器(例如,处理器,比如处理器207),数字化器以离散间隔对声音取样且量化(例如,数字化)所述声音。装置可将传入的声音信号划分为时间块,或分析帧或部分。时间(或帧)中每一片段的持续时间通常选择为足够短使得信号的频谱包络可预期保持相对静止。依据实施方案,VAD200可包括在移动台或其它计算装置内。相对于图8描述实例移动台。相对于图9描述实例计算装置。
在一实施方案中,(例如,通过加权模块210)对平均SNR加权。更特定来说,在计算SNRavg之前在每频带SNR上施加自适应权重。在一实施方案中,即,如等式(5)所表示:
加权函数权重(m)可为噪声电平、噪声类型和/或瞬时SNR值的函数。在310处,可在VAD200处接收声音的一个或一个以上输入帧。在320处,可例如由VAD200的处理器确定噪声电平、噪声类型和/或瞬时SNR值。可由例如SNR计算模块220确定瞬时SNR值。
在330处,可例如由VAD200的处理器基于噪声电平、噪声类型和/或瞬时SNR值确定加权函数。可在340处确定频带(也称为子带),且可在350处例如由VAD200的处理器在每频带SNR上施加自适应权重。可在360处例如由SNR计算模块220确定跨越频带的平均SNR。
举例来说,如果频带1、2和3中的瞬时SNR值显著低于(例如,20倍)频带≥4中的瞬时SNR值,那么针对m<4的SNRCB(m)可接收比针对频带m≥4低的权重。这通常是汽车噪声的情况,其中在语音活动区期间较低频带(<300Hz)下的SNR显著低于较高频带中的SNR。
可出于选择权重(m)曲线的目的检测噪声类型和背景噪声电平变化。在一实施方案中,一组权重(m)曲线预先计算并存储在数据库或其它存储或存储器装置或结构中,且依据检测到的背景噪声类型(例如,静止或非静止)和背景噪声电平变化(例如,噪声电平的3dB、6dB、9dB、12dB增加)而每处理帧选择每一权重(m)曲线。
如本文描述,实施方案通过借助离群值滤波和施加权重选择性调整频带中的SNR值而补偿SNRavg计算中背景噪声中的突然改变。
在一实施方案中,可单独或结合对平均SNR加权而使用SNR离群值滤波。更特定来说,另一加权机制可应用零值滤波或离群值滤波,其基本上将特定频带中的权重设定为零。此特定频带可表征为展现比其它频带中的SNR高几倍的SNR的频带。
图4是SNR离群值滤波的方法400的实施方案的操作流程。在此方法中,在410处将频带m=1、2、...、20中的SNR以升序分类,且在420处识别具有最高SNR(离群)值的频带。在430处将与所述离群值频带相关联的权重设定为零。此技术可由例如离群值滤波器230执行。
此SNR离群值问题可归因于例如数值精度或噪声能量的过低估计而产生,其在某些频带中的SNR中产生尖峰。图5是错误检测期间每频带的经分类SNR的概率分布函数(PDF)的实例。图5展示被错误分类为语音活动的所有帧上的经分类SNR的PDF。如图5所示,离群值SNR是20频带中的中值SNR的几百倍。此外,一个频带中的较高(离群)SNR值(在一些情况下归因于噪声的过低估计或数值精度)推动SNRavg高于VAD_THR且导致voice_activity=真。
图6是用于检测在存在背景噪声的情况下的语音活动的方法600的实施方案的操作流程。在610处,例如由比如VAD200的接收器205等VAD的接收器接收声音的一个或一个以上输入帧。在620处,确定每一输入帧的噪声特性。举例来说,例如由VAD200的处理器207确定例如输入帧的噪声电平变化、噪声类型和/或瞬时SNR值等噪声特性。
在630处,使用例如VAD200的处理器207,基于噪声特性,例如基于至少一个噪声电平变化和/或噪声类型而确定频带。在640处,基于噪声特性确定每频带的SNR值。在一实施方案中,由SNR计算模块220在640处基于至少噪声电平变化和/或噪声类型确定每频带的经修改瞬时SNR值。举例来说,可基于以下各项确定每频带的经修改瞬时SNR值:使用每频带信号能量的过去估计值基于输入帧的至少瞬时SNR选择性地使每频带信号能量的当前估计值平滑;使用每频带信号能量的过去估计值基于至少噪声电平变化和噪声类型选择性地使每频带信号能量的当前估计值平滑;以及确定每频带信号能量的经平滑估计值与噪声能量的经平滑估计值的比率。
在650处,可(例如,由离群值滤波器230)确定离群值频带。在一实施方案中,给定频带的任一者中的经修改瞬时SNR比频带的剩余者中的经修改瞬时SNR的总和大几倍。
在一实施方案中,在660处,可(例如,由加权模块210)基于至少噪声电平变化、噪声类型、离群值频带的位置和/或每频带经修改瞬时SNR值确定自适应加权函数。可由加权模块210在670处在每频带经修改瞬时SNR上应用自适应加权。
在680处,可由SNR计算模块220通过将频带上的经加权经修改瞬时SNR相加而确定每输入帧的经加权平均SNR。在690处,将经加权平均SNR与阈值比较以检测信号或语音活动的存在与否。此比较和确定可由例如决策模块240作出。
在一实施方案中,执行SNR离群值滤波包括以单调次序将频带中的经修改瞬时SNR值分类,确定频带中的哪些为离群值频带,以及通过将与离群值频带相关联的权重设定为零而更新自适应加权函数。
众所周知的方法是作出子带中的VAD决策且接着逻辑上组合这些子带VAD决策以获得每帧最终VAD决策。举例来说,增强型可变速率编解码器-宽带(EVRC-WB)使用三个频带(低或“L”:0.2到2kHz、中或“M”:2到4kHz,以及高或“H”:4到7kHz)以作出子带中的独立VAD决策。VAD决策经OR运算以估计帧的总体VAD决策。即,如等式(6)表示:
如果SNRavg(L)>VAD_THR(L)或SNRavg(M)>VAD_THR(M)或SNRavg(H)>VAD_THR(H)
voice_activity=真;
否则
voice_activity=假。 (6)
已实验上观察到,在大多数错过语音检测情况(尤其低SNR下)期间,子带SNRavg值稍小于子带VAD_THR值,而在过去帧中,子带SNRavg值的至少一者显著大于对应子带VAD_THR。
在一实施方案中,可使用子带中的自适应软-VAD_THR方法。代替于逻辑上组合子带VAD决策,对子带中的VAD_THR与SNRavg之间的差自适应加权。
图7是此方法700的实施方案的操作流程。在710处,例如由VAD200的处理器确定每一子带中VAD_THR与SNRavg之间的差。在720处将权重施加到每一差值,且在730处例如通过VAD200的加权模块210将经加权差值相加在一起。
可在740处(例如,由决策模块240)通过将730的结果与另一阈值(例如,零)比较而确定是否存在语音活动。即,如等式(7)和(8)中展示:
VTHR=αL(SNRavg(L)-VAD_THR(L))+αM(SNRavg(M)-VAD_THR(M))+αH(SNRavg(H)-VAD_THR(H)) (7)
如果VTHR>0,那么voice_activity=真,否则voice_activity=假。 (8)
作为一实例,例如由用户将加权参数αL、αM、αH首先初始化为0.3、0.4、0.3。加权参数可根据子带中的长期SNR自适应地变化。加权参数可例如由用户依据特定实施方案设定为任何值。
注意,当加权参数αL=αM=αH=1时,由等式(7)和(8)表示的以上子带决策等式类似于上文描述的全频带等式(3)。
因此,在一实施方案中,EVRC-WB使用三个频带(0.2到2kHz、2到4kHz,以及4到7kHz)来作出子带中的独立VAD决策。VAD决策经OR运算以估计帧的总体VAD决策。
在一实施方案中,可存在频带间的一些重叠如下(每倍频程),例如:0.2到1.7kHz、1.6kHz到3.6kHz以及3.7kHz到6.8kHz。已确定所述重叠给出较好结果。
在一实施方案中,如果两个子带的任一者中满足VAD准则,那么其视为语音活动帧。
尽管上文描述的实例使用具有不同频率范围的三个子带,但这不意图具有限制性。可依据实施方案或视需要使用具有任何频率范围和任何重叠量的任何数目的子带。
本文描述的VAD给出具有子带VAD与全频带VAD之间的折衷的能力以及从EVRC-WB类型的子带VAD改进的错误速率性能和从AMR-WB类型的全频带VAD改进的错过语音检测性能的优点。
本文描述的比较和阈值不意图具有限制性,因为可依据实施方案使用任何一个或一个以上比较和/或阈值。还可依据实施方案使用额外和/或替代比较和阈值。
除非另外指出,否则对具有特定特征的设备的操作的任何揭示内容还明确地希望揭示具有类似特征的方法(且反之亦然),且对根据特定配置的设备的操作的任何揭示内容还明确地希望揭示根据类似配置的方法(且反之亦然)。
如本文中所使用,术语“确定”(及其语法变体)在极广泛的含义上使用。术语“确定”涵盖许多种类的动作,且因此“确定”可包含计算、估计、处理、导出、调查、查找(例如,在表、数据库或另一数据结构中查找)、查实等。并且,“确定”可包含接收(例如,接收信息)、存取(例如,在存储器中存取数据)等等。并且,“确定”可包含解析、选择、挑选、建立等等。
贯穿本发明中使用词语“示范性”来表示“充当实例、例子或说明”。本文中被描述为“示范性”的任何对象没有必要解释为比其它方法或特征优选或有利。
术语“信号处理”(及其语法变型)可指代信号的处理和解译。所关注信号可包含声音、图像和许多其它信号。此类信号的处理可包含存储和重建、信息与噪声的分离、压缩,以及特征提取。术语“数字信号处理”可指代以数字表示的信号的研究和这些信号的处理方法。数字信号处理是例如移动台、非移动台和因特网等许多通信技术的元素。可使用专门计算机执行用于数字信号处理的算法,专门计算机可利用称为数字信号处理器(有时缩写为DSP)的专门微处理器。
可直接以硬件、由处理器执行的软件模块,或两者的组合来体现结合本文所揭示的实施例而描述的方法、过程或算法的步骤。可以所展示的次序或可以另一次序来执行方法或过程中的各种步骤或动作。另外,可省略一个或一个以上处理或方法步骤或可将一个或一个以上处理或方法步骤添加到方法和处理。可在方法和处理的开始、末尾或插入的现有元素中添加额外步骤、框或动作。
图8展示无线通信系统中的实例移动台800的设计的框图。移动台800可为智能电话、蜂窝式电话、终端机、手持机、PDA、无线调制解调器、无绳电话等。无线通信系统可为CDMA系统、GSM系统等。
移动台800能够经由接收路径和发射路径提供双向通信。在接收路径上,由天线812接收由基站发射的信号,且将其提供给接收器(RCVR)814。接收器814调节并数字化所接收的信号,且将样本提供给数字区段820以供进一步处理。在发射路径上,发射器(TMTR)816接收将要从数字区段820发射的数据,处理并调节所述数据,且产生经调制信号,所述经调制信号经由天线812发射到基站。接收器814和发射器816可为可支持CDMA、GSM等的收发器的一部分。
数字区段820包含各种处理、接口和存储器单元,例如调制解调器处理器822、精简指令集计算机/数字信号处理器(RISC/DSP)824、控制器/处理器826、内部存储器828、一般化音频编码器832、一般化音频解码器834、图形/显示处理器836和外部总线接口(EBI)838。调制解调器处理器822可执行用于数据发射和接收的处理,例如编码、调制、解调和解码。RISC/DSP824可执行用于无线装置800的一般和专门处理。控制器/处理器826可引导数字区段820内的各种处理和接口单元的操作。内部存储器828可存储数字区段820内的各种单元的数据和/或指令。
一般化音频编码器832可执行对于来自音频源842、麦克风843等的输入信号的编码。一般化音频解码器834可执行对于经译码音频数据的解码且可将输出信号提供到扬声器/头戴式耳机844。图形/显示处理器836可针对可呈现给显示单元846的图形、视频、图像和文本执行处理。EBI838可促进数据在数字区段820与主存储器848之间的传送。
可使用一个或一个以上处理器、DSP、微处理器、RISC等来实施数字区段820。也可将数字区段820制造在一个或一个以上专用集成电路(ASIC)和/或某一其它类型的集成电路(IC)上。
图9展示其中可实施实例实施方案和方面的示范性计算环境。计算系统环境仅是适宜的计算环境的一个实例,且不希望提示对用途或功能性的范围的任何限制。
可使用正由计算机执行的例如程序模块等计算机可执行指令。大体上,程序模块包含执行特定任务或实施特定抽象数据类型的例程、程序、对象、组件、数据结构等。可使用分布式计算环境,其中由经由通信网络或其它数据发射媒体链接的远程处理装置执行任务。在分布式计算环境中,程序模块和其它数据可位于本地和远程计算机存储媒体(包含存储器存储装置)两者中。
参看图9,用于实施本文描述的方面的示范性系统包含计算装置,例如计算装置900。在其最基本配置中,计算装置900通常包含至少一个处理单元902和存储器904。依据计算装置的确切配置和类型,存储器904可为易失性(例如,随机存取存储器(RAM))、非易失性(例如,只读存储器(ROM)、快闪存储器等),或两者的一些组合。此最基本配置在图9中由虚线906说明。
计算装置900可具有额外特征和/或功能性。举例来说,计算装置900可包含额外存储装置(可装卸和/或不可装卸),包含(但不限于)磁盘或光盘或磁带。此类额外存储装置在图9中由可装卸存储装置808和不可装卸存储装置910说明。
计算装置900通常包含多种计算机可读媒体。计算机可读媒体可为可由装置900存取的任何可用媒体,且包含易失性和非易失性媒体两者,以及可装卸和不可装卸媒体两者。计算机存储媒体包含在用于存储例如计算机可读指令、数据结构、程序模块或其它数据等信息的任何方法或技术中实施的易失性和非易失性以及可装卸和不可装卸媒体。存储器904、可装卸存储装置908和不可装卸存储装置910均为计算机存储媒体的实例。计算机存储媒体包含(但不限于)RAM、ROM、电可擦除编程只读存储器(EEPROM)、快闪存储器或其它存储器技术、CD-ROM、数字多功能磁盘(DVD)或其它光学存储装置、磁带盒、磁带、磁盘存储装置或其它磁性存储装置,或可用于存储所要信息且可由计算装置900存取的任何其它媒体。任何此类计算机存储媒体可为计算装置900的一部分。
计算装置900可含有允许装置与其它装置通信的通信连接912。计算装置900还可具有例如键盘、鼠标、笔、语音输入装置、触摸输入装置等输入装置914。还可包含例如显示器、扬声器、打印机等输出装置916。所有这些装置在此项技术中是众所周知的且此处不需要详细论述。
一般来说,本文描述的任何装置可表示各种类型的装置,例如无线或有线电话、蜂窝式电话、膝上型计算机、无线多媒体装置、无线通信PC卡、PDA、外部或内部调制解调器、经由无线或有线信道通信的装置等。装置可具有各种名称,例如接入终端(AT)、接入单元、订户单元、移动台、移动装置、移动单元、移动电话、移动体、远程站点、远程终端、远程单元、用户装置、用户设备、手持式装置、非移动台、非移动装置、端点等。本文描述的任何装置可具有用于存储指令和数据的存储器,以及硬件、软件、固件或其组合。
本文中所描述的技术可由各种装置实施。举例来说,可以硬件、固件、软件或其组合来实施这些技术。技术人员将进一步了解,在本文中结合揭示内容而描述的各种说明性逻辑块、模块、电路和算法步骤可实施为电子硬件、计算机软件,或两者的组合。为清楚地说明硬件与软件的此互换性,上文已大致关于其功能性而描述了各种说明性组件、块、模块、电路和步骤。此功能性是实施为硬件还是软件取决于特定应用和强加于整个系统的设计约束。熟练的技术人员可针对每一特定应用以不同方式实施所描述的功能性,但此类实施决策不应被解释为导致偏离本发明的范围。
对于硬件实施方案,用于执行所述技术的处理单元可实施在一个或一个以上ASIC、DSP、数字信号处理装置(DSPD)、可编程逻辑装置(PLD)、FPGA、处理器、控制器、微控制器、微处理器、电子装置、经设计以执行本文描述的功能的其它电子单元、计算机,或其组合内。
因此,结合本文的揭示内容描述的各种说明性逻辑块、模块和电路可以通用处理器、DSP、ASIC、FPGA或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或经设计以执行本文描述的功能的其任何组合实施或执行。通用处理器可以是微处理器,但在替代方案中,处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合,例如DSP与微处理器的组合、多个微处理器的组合、一个或一个以上微处理器与DSP核心的联合,或任何其它此类配置。
对于固件和/或软件实施方案,所述技术可体现为例如随机存取RAM、ROM、非易失性RAM、可编程ROM、EEPROM、快闪存储器、紧密光盘(CD)、磁性或光学数据存储装置等计算机可读媒体上的指令。所述指令可由一个或一个以上处理器执行且可使所述处理器执行本文中所描述的功能性的某些方面。
如果实施于软件中,那么可将所述功能作为一个或一个以上指令或代码存储在计算机可读媒体上或经由计算机可读媒体发射。计算机可读媒体包含计算机存储媒体和通信媒体两者,通信媒体包含促进将计算机程序从一处传递到另一处的任何媒体。存储媒体可为可由通用或专用计算机存取的任何可用媒体。举例来说(且并非限制),此些计算机可读媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置,或可用于携载或存储呈指令或数据结构的形式的所要程序代码装置且可由通用或专用计算机或者通用或专用处理器存取的任何其它媒体。并且,恰当地将任何连接称作计算机可读媒体。举例来说,如果使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)或例如红外线、无线电和微波等无线技术从网站、服务器或其它远程源发射软件,那么同轴电缆、光纤电缆、双绞线、DSL或例如红外线、无线电和微波等无线技术包含于媒体的定义中。如本文使用的磁盘和光盘包含CD、激光光盘、光学光盘、数字多功能光盘(DVD)、软性磁盘和蓝光光盘,其中磁盘通常以磁性方式再现数据,而光盘利用激光以光学方式再现数据。上文的组合也应包含在计算机可读媒体的范围内。
软件模块可驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可装卸盘、CD-ROM,或此项技术中已知的任一其它形式的存储媒体中。示范性存储媒体耦合到处理器,使得处理器可从存储媒体读取信息并将信息写入到存储媒体。在替代方案中,存储媒体可与处理器成一体式。处理器和存储媒体可驻留于ASIC中。ASIC可驻留于用户终端中。在替代方案中,处理器和存储媒体可作为离散组件驻留于用户终端中。
尽管示范性实施方案可提及在一个或一个以上独立计算机系统的上下文中利用当前所揭示的标的物的各方面,但所述标的物不限于此,而是可结合例如网络或分布式计算环境等任何计算环境实施。另外,当前所揭示的标的物的各方面可实施在多个处理芯片或装置中或跨越多个处理芯片或装置,且存储装置可类似地跨越多个装置实行。此类装置可能包含例如PC、网络服务器和手持式装置。
尽管已用结构特征和/或方法动作特有的语言描述了标的物,但应理解,所附权利要求书中所界定的标的物不一定限于上文所描述的特定特征或动作。相反,上文所描述的特定特征和动作是作为实施权利要求书的实例形式而揭示的。
Claims (52)
1.一种用于检测在存在背景噪声的情况下的语音活动的方法,其包括:
在移动台的语音活动检测器处接收声音的一个或一个以上输入帧;
确定所述输入帧的每一者的至少一个噪声特性;
基于所述噪声特性确定多个频带;
基于所述噪声特性确定每频带的信噪比SNR值;
确定至少一个离群值频带;
基于所述至少一个离群值频带确定加权;
在每频带的所述SNR上应用所述加权;以及
使用每频带的所述经加权SNR检测语音活动的存在与否。
2.根据权利要求1所述的方法,其进一步包括执行SNR离群值滤波。
3.根据权利要求1所述的方法,其中每一噪声特性包括噪声电平变化、噪声类型或瞬时SNR值的至少一者。
4.根据权利要求3所述的方法,其中基于所述噪声特性确定所述多个频带包括基于所述噪声电平变化或所述噪声类型的至少一者确定所述多个频带。
5.根据权利要求3所述的方法,其中确定每频带的所述SNR值包括基于所述噪声电平变化或所述噪声类型的至少一者确定每频带的经修改瞬时SNR值。
6.根据权利要求5所述的方法,其中确定每频带的所述经修改瞬时SNR值包括:
使用每频带信号能量的过去估计值基于所述输入帧的至少所述瞬时SNR选择性地使每频带信号能量的当前估计值平滑;
使用每频带噪声能量的过去估计值基于至少所述噪声电平变化和所述噪声类型选择性地使每频带噪声能量的当前估计值平滑;以及
确定每频带信号能量的经平滑估计值与噪声能量的经平滑估计值的比率。
7.根据权利要求6所述的方法,其中所述频带的任一者中的经修改瞬时SNR大于所述频带的剩余者中的经修改瞬时SNR的和。
8.根据权利要求5所述的方法,其中基于所述至少一个离群值频带确定所述加权包括基于所述噪声电平变化、所述噪声类型、所述离群值频带的位置或每频带的所述经修改瞬时SNR值的至少一者确定自适应加权函数。
9.根据权利要求8所述的方法,其中在每频带的所述SNR上应用所述加权包括在每频带的所述经修改瞬时SNR上应用所述自适应加权函数。
10.根据权利要求9所述的方法,其进一步包括:
通过将所述频带上所述经加权经修改瞬时SNR相加而确定每输入帧的经加权平均SNR;以及
将所述经加权平均SNR与阈值比较以检测信号或语音活动存在与否。
11.根据权利要求10所述的方法,其中将所述经加权平均SNR与阈值比较以检测信号或语音活动存在与否包括:
确定每一频带中所述经加权平均SNR与所述阈值之间的差;
将权重施加到每一差值;
将所述经加权差值相加在一起;以及
通过将所述相加的经加权差值与另一阈值比较而确定是否存在语音活动。
12.根据权利要求11所述的方法,其中所述阈值为零,且如果所述相加的经加权差值大于零,那么确定存在语音活动且否则确定不存在语音活动。
13.根据权利要求8所述的方法,其进一步包括执行SNR离群值滤波,包括:
将所述频带中的所述经修改瞬时SNR值以单调次序分类;
确定所述频带中哪些为所述离群值频带;以及
通过将与所述离群值频带相关联的权重设定为零而更新所述自适应加权函数。
14.一种用于检测在存在背景噪声的情况下的语音活动的设备,其包括:
用于接收声音的一个或一个以上输入帧的装置;
用于确定所述输入帧的每一者的至少一个噪声特性的装置;
用于基于所述噪声特性确定多个频带的装置;
用于基于所述噪声特性确定每频带的信噪比SNR值的装置;
用于确定至少一个离群值频带的装置;
用于基于所述至少一个离群值频带确定加权的装置;
用于在每频带的所述SNR上应用所述加权的装置;以及
用于使用每频带的所述经加权SNR检测语音活动的存在与否的装置。
15.根据权利要求14所述的设备,其进一步包括用于执行SNR离群值滤波的装置。
16.根据权利要求14所述的设备,其中每一噪声特性包括噪声电平变化、噪声类型或瞬时SNR值的至少一者。
17.根据权利要求16所述的设备,其中所述用于基于所述噪声特性确定所述多个频带的装置包括用于基于所述噪声电平变化或所述噪声类型的至少一者确定所述多个频带的装置。
18.根据权利要求16所述的设备,其中所述用于确定每频带的所述SNR值的装置包括用于基于所述噪声电平变化或所述噪声类型的至少一者确定每频带的经修改瞬时SNR值的装置。
19.根据权利要求18所述的设备,其中所述用于确定每频带的所述经修改瞬时SNR值的装置包括:
用于使用每频带信号能量的过去估计值基于所述输入帧的至少所述瞬时SNR选择性地使每频带信号能量的当前估计值平滑的装置;
用于使用每频带噪声能量的过去估计值基于至少所述噪声电平变化和所述噪声类型选择性地使每频带噪声能量的当前估计值平滑的装置;以及
用于确定每频带信号能量的经平滑估计值与噪声能量的经平滑估计值的比率的装置。
20.根据权利要求19所述的设备,其中所述频带的任一者中的经修改瞬时SNR大于所述频带的剩余者中的经修改瞬时SNR的和。
21.根据权利要求18所述的设备,其中所述用于基于所述至少一个离群值频带确定所述加权的装置包括用于基于所述噪声电平变化、所述噪声类型、所述离群值频带的位置或每频带的所述经修改瞬时SNR值的至少一者确定自适应加权函数。
22.根据权利要求21所述的设备,其中所述用于在每频带的所述SNR上应用所述加权的装置包括用于在每频带的所述经修改瞬时SNR上应用所述自适应加权函数的装置。
23.根据权利要求22所述的设备,其进一步包括:
用于通过将所述频带上的所述经加权经修改瞬时SNR相加而确定每输入帧的经加权平均SNR的装置;以及
用于将所述经加权平均SNR与阈值比较以检测信号或语音活动存在与否的装置。
24.根据权利要求23所述的设备,其中所述用于将所述经加权平均SNR与阈值比较以检测信号或语音活动存在与否的装置包括:
用于确定每一频带中的所述经加权平均SNR与所述阈值之间的差的装置;
用于将权重施加到每一差值的装置;
用于将所述经加权差值相加在一起的装置;以及
用于通过将所述相加的经加权差值与另一阈值比较而确定是否存在语音活动的装置。
25.根据权利要求24所述的设备,其中所述阈值为零,且如果所述相加的经加权差值大于零,那么确定存在语音活动且否则确定不存在语音活动。
26.根据权利要求21所述的设备,其进一步包括用于执行SNR离群值滤波的装置,包括:
用于将所述频带中所述经修改瞬时SNR值以单调次序分类的装置;
用于确定所述频带中哪些为所述离群值频带的装置;以及
用于通过将与所述离群值频带相关联的权重设定为零而更新所述自适应加权函数的装置。
27.一种包括指令的计算机可读媒体,所述指令致使计算机:
接收声音的一个或一个以上输入帧;
确定所述输入帧的每一者的至少一个噪声特性;
基于所述噪声特性确定多个频带;
基于所述噪声特性确定每频带的信噪比SNR值;
确定至少一个离群值频带;
基于所述至少一个离群值频带确定加权;
在每频带的所述SNR上应用所述加权;以及
使用每频带的所述经加权SNR检测语音活动的存在与否。
28.根据权利要求27所述的计算机可读媒体,其进一步包括致使所述计算机执行SNR离群值滤波的计算机可执行指令。
29.根据权利要求27所述的计算机可读媒体,其中每一噪声特性包括噪声电平变化、噪声类型或瞬时SNR值的至少一者。
30.根据权利要求29所述的计算机可读媒体,其中所述致使所述计算机基于所述噪声特性确定所述多个频带的指令包括致使所述计算机基于所述噪声电平变化或所述噪声类型的至少一者确定所述多个频带的指令。
31.根据权利要求29所述的计算机可读媒体,其中所述致使所述计算机确定每频带的所述SNR值的指令包括致使所述计算机基于所述噪声电平变化或所述噪声类型的至少一者确定每频带的经修改瞬时SNR值的指令。
32.根据权利要求31所述的计算机可读媒体,其中所述致使所述计算机确定每频带的所述经修改瞬时SNR值的指令包括致使所述计算机进行以下操作的指令:
使用每频带信号能量的过去估计值基于所述输入帧的至少所述瞬时SNR选择性地使每频带信号能量的当前估计值平滑;
使用每频带噪声能量的过去估计值基于至少所述噪声电平变化和所述噪声类型选择性地使每频带噪声能量的当前估计值平滑;以及
确定每频带信号能量的经平滑估计值与噪声能量的经平滑估计值的比率。
33.根据权利要求32所述的计算机可读媒体,其中所述频带的任一者中的经修改瞬时SNR大于所述频带的剩余者中的经修改瞬时SNR的和。
34.根据权利要求31所述的计算机可读媒体,其中所述致使所述计算机基于所述至少一个离群值频带确定所述加权的指令包括致使所述计算机基于所述噪声电平变化、所述噪声类型、所述离群值频带的位置或每频带的所述经修改瞬时SNR值的至少一者确定自适应加权函数的指令。
35.根据权利要求34所述的计算机可读媒体,其中所述致使所述计算机在每频带的所述SNR上应用所述加权的指令包括致使所述计算机在每频带的所述经修改瞬时SNR上应用所述自适应加权函数的指令。
36.根据权利要求35所述的计算机可读媒体,其进一步包括致使所述计算机进行以下操作的计算机可执行指令:
通过将所述频带上的所述经加权经修改瞬时SNR相加而确定每输入帧的经加权平均SNR;以及
将所述经加权平均SNR与阈值比较以检测信号或语音活动存在与否。
37.根据权利要求36所述的计算机可读媒体,其中所述致使所述计算机将所述经加权平均SNR与阈值比较以检测信号或语音活动存在与否的指令包括致使所述计算机进行以下操作的指令:
确定每一频带中的所述经加权平均SNR与所述阈值之间的差;
将权重施加到每一差值;
将所述经加权差值相加在一起;以及
通过将所述相加的经加权差值与另一阈值比较而确定是否存在语音活动。
38.根据权利要求37所述的计算机可读媒体,其中所述阈值为零,且如果所述相加的经加权差值大于零,那么确定存在语音活动且否则确定不存在语音活动。
39.根据权利要求34所述的计算机可读媒体,其进一步包括致使所述计算机执行SNR离群值滤波的计算机可执行指令,包括:
将所述频带中所述经修改瞬时SNR值以单调次序分类;
确定所述频带中哪些为所述离群值频带;以及
通过将与所述离群值频带相关联的权重设定为零而更新所述自适应加权函数。
40.一种用于检测在存在背景噪声的情况下的语音活动的语音活动检测器,其包括:
接收器,其接收声音的一个或一个以上输入帧;
处理器,其确定所述输入帧的每一者的至少一个噪声特性,且基于所述噪声特性确定多个频带;
信噪比SNR模块,其基于所述噪声特性确定每频带的SNR值;
离群值滤波器,其确定至少一个离群值频带;
加权模块,其基于所述至少一个离群值频带确定加权,且在每频带的所述SNR上应用所述加权;以及
决策模块,其使用每频带的所述经加权SNR检测语音活动的存在与否。
41.根据权利要求40所述的语音活动检测器,其中所述离群值滤波器执行SNR离群值滤波。
42.根据权利要求40所述的语音活动检测器,其中每一噪声特性包括噪声电平变化、噪声类型或瞬时SNR值的至少一者。
43.根据权利要求42所述的语音活动检测器,其中所述处理器基于所述噪声电平变化或所述噪声类型的至少一者确定所述多个频带。
44.根据权利要求42所述的语音活动检测器,其中所述SNR计算模块基于所述噪声电平变化或所述噪声类型的至少一者确定每频带的经修改瞬时SNR值。
45.根据权利要求44所述的语音活动检测器,其中所述SNR计算模块:
使用每频带信号能量的过去估计值基于所述输入帧的至少所述瞬时SNR选择性地使每频带信号能量的当前估计值平滑;
使用每频带噪声能量的过去估计值基于至少所述噪声电平变化和所述噪声类型选择性地使每频带噪声能量的当前估计值平滑;以及
确定每频带信号能量的经平滑估计值与噪声能量的经平滑估计值的比率。
46.根据权利要求45所述的语音活动检测器,其中所述频带的任一者中的经修改瞬时SNR大于所述频带的剩余者中的经修改瞬时SNR的和。
47.根据权利要求44所述的语音活动检测器,其中所述加权模块基于所述噪声电平变化、所述噪声类型、所述离群值频带的位置或每频带的所述经修改瞬时SNR值的至少一者确定自适应加权函数。
48.根据权利要求47所述的语音活动检测器,其中所述加权模块在每频带的所述经修改瞬时SNR上应用所述自适应加权函数。
49.根据权利要求48所述的语音活动检测器,其中所述SNR计算模块通过将所述频带上所述经加权经修改瞬时SNR相加而确定每输入帧的经加权平均SNR,且所述决策模块将所述经加权平均SNR与阈值比较以检测信号或语音活动存在与否。
50.根据权利要求49所述的语音活动检测器,其中所述决策模块确定每一频带中的所述经加权平均SNR与所述阈值之间的差,将权重施加到每一差值,将所述经加权差值相加在一起,且通过将所述相加的经加权差值与另一阈值比较而确定是否存在语音活动。
51.根据权利要求50所述的语音活动检测器,其中所述阈值为零,且如果所述相加的经加权差值大于零,那么所述决策模块确定存在语音活动且否则确定不存在语音活动。
52.根据权利要求47所述的语音活动检测器,其中所述离群值滤波器将所述频带中所述经修改瞬时SNR值以单调次序分类,确定所述频带中哪些为所述离群值频带,且通过将与所述离群值频带相关联的权重设定为零而更新所述自适应加权函数。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201261588729P | 2012-01-20 | 2012-01-20 | |
US61/588,729 | 2012-01-20 | ||
US13/670,312 US9099098B2 (en) | 2012-01-20 | 2012-11-06 | Voice activity detection in presence of background noise |
US13/670,312 | 2012-11-06 | ||
PCT/US2013/020636 WO2013109432A1 (en) | 2012-01-20 | 2013-01-08 | Voice activity detection in presence of background noise |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104067341A true CN104067341A (zh) | 2014-09-24 |
CN104067341B CN104067341B (zh) | 2017-03-29 |
Family
ID=48797947
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201380005605.3A Active CN104067341B (zh) | 2012-01-20 | 2013-01-08 | 在存在背景噪声的情况下的语音活动检测 |
Country Status (7)
Country | Link |
---|---|
US (1) | US9099098B2 (zh) |
EP (1) | EP2805327A1 (zh) |
JP (1) | JP5905608B2 (zh) |
KR (1) | KR101721303B1 (zh) |
CN (1) | CN104067341B (zh) |
BR (1) | BR112014017708B1 (zh) |
WO (1) | WO2013109432A1 (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106024018A (zh) * | 2015-03-27 | 2016-10-12 | 大陆汽车系统公司 | 实时风冲击噪声检测 |
CN107103916A (zh) * | 2017-04-20 | 2017-08-29 | 深圳市蓝海华腾技术股份有限公司 | 一种应用于音乐喷泉的音乐开始和结束检测方法及系统 |
CN108848435A (zh) * | 2018-09-28 | 2018-11-20 | 广州华多网络科技有限公司 | 一种音频信号的处理方法和相关装置 |
CN110390957A (zh) * | 2018-04-19 | 2019-10-29 | 半导体组件工业公司 | 用于语音检测的方法及设备 |
CN110556128A (zh) * | 2019-10-15 | 2019-12-10 | 出门问问信息科技有限公司 | 一种语音活动性检测方法、设备及计算机可读存储介质 |
CN116705017A (zh) * | 2022-09-14 | 2023-09-05 | 荣耀终端有限公司 | 语音检测方法及电子设备 |
US11763929B2 (en) | 2018-08-22 | 2023-09-19 | Centre For Addiction And Mental Health & Memotext Corporation | Medical tool aiding diagnosed psychosis patients in detecting auditory psychosis symptoms associated with psychosis |
Families Citing this family (175)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8948039B2 (en) * | 2012-12-11 | 2015-02-03 | Qualcomm Incorporated | Packet collisions and impulsive noise detection |
KR102516577B1 (ko) | 2013-02-07 | 2023-04-03 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) * | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
KR101959188B1 (ko) | 2013-06-09 | 2019-07-02 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
CN105453026A (zh) | 2013-08-06 | 2016-03-30 | 苹果公司 | 基于来自远程设备的活动自动激活智能响应 |
CN104424956B9 (zh) * | 2013-08-30 | 2022-11-25 | 中兴通讯股份有限公司 | 激活音检测方法和装置 |
CN103630148B (zh) * | 2013-11-01 | 2016-03-02 | 中国科学院物理研究所 | 信号取样平均仪和信号取样平均方法 |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
CN104916292B (zh) * | 2014-03-12 | 2017-05-24 | 华为技术有限公司 | 检测音频信号的方法和装置 |
US9516165B1 (en) * | 2014-03-26 | 2016-12-06 | West Corporation | IVR engagements and upfront background noise |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
TWI566107B (zh) | 2014-05-30 | 2017-01-11 | 蘋果公司 | 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置 |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
WO2016205296A1 (en) | 2015-06-16 | 2016-12-22 | Dolby Laboratories Licensing Corporation | Post-teleconference playback using non-destructive audio transport |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US12223282B2 (en) | 2016-06-09 | 2025-02-11 | Apple Inc. | Intelligent automated assistant in a home environment |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
US12197817B2 (en) | 2016-06-11 | 2025-01-14 | Apple Inc. | Intelligent device arbitration and control |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US10224053B2 (en) * | 2017-03-24 | 2019-03-05 | Hyundai Motor Company | Audio signal quality enhancement based on quantitative SNR analysis and adaptive Wiener filtering |
US10339962B2 (en) * | 2017-04-11 | 2019-07-02 | Texas Instruments Incorporated | Methods and apparatus for low cost voice activity detector |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770429A1 (en) | 2017-05-12 | 2018-12-14 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770411A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Multi-modal interfaces |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
CN109767774A (zh) | 2017-11-08 | 2019-05-17 | 阿里巴巴集团控股有限公司 | 一种交互方法和设备 |
US10332545B2 (en) * | 2017-11-28 | 2019-06-25 | Nuance Communications, Inc. | System and method for temporal and power based zone detection in speaker dependent microphone environments |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US11076039B2 (en) | 2018-06-03 | 2021-07-27 | Apple Inc. | Accelerated task performance |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | User activity shortcut suggestions |
DK201970510A1 (en) | 2019-05-31 | 2021-02-11 | Apple Inc | Voice identification in digital assistant systems |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11227599B2 (en) | 2019-06-01 | 2022-01-18 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
WO2021056255A1 (en) | 2019-09-25 | 2021-04-01 | Apple Inc. | Text detection using global geometry estimators |
TR201917042A2 (tr) * | 2019-11-04 | 2021-05-21 | Cankaya Ueniversitesi | Yeni bir metot ile sinyal enerji hesabı ve bu metotla elde edilen konuşma sinyali kodlayıcı. |
CN113314133B (zh) * | 2020-02-11 | 2024-12-20 | 华为技术有限公司 | 音频传输方法及电子设备 |
US11038934B1 (en) | 2020-05-11 | 2021-06-15 | Apple Inc. | Digital assistant hardware abstraction |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
US11620999B2 (en) | 2020-09-18 | 2023-04-04 | Apple Inc. | Reducing device processing of unintended audio |
CN112802463B (zh) * | 2020-12-24 | 2023-03-31 | 北京猿力未来科技有限公司 | 一种音频信号筛选方法、装置及设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070265842A1 (en) * | 2006-05-09 | 2007-11-15 | Nokia Corporation | Adaptive voice activity detection |
CN101197135A (zh) * | 2006-12-05 | 2008-06-11 | 华为技术有限公司 | 声音信号分类方法和装置 |
CN101197130A (zh) * | 2006-12-07 | 2008-06-11 | 华为技术有限公司 | 声音活动检测方法和声音活动检测器 |
CN101379548A (zh) * | 2006-02-10 | 2009-03-04 | 艾利森电话股份有限公司 | 语音检测器和用于语音检测器中抑制子频带的方法 |
US20090240495A1 (en) * | 2008-03-18 | 2009-09-24 | Qualcomm Incorporated | Methods and apparatus for suppressing ambient noise using multiple audio signals |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3739681A1 (de) * | 1987-11-24 | 1989-06-08 | Philips Patentverwaltung | Verfahren zum bestimmen von anfangs- und endpunkt isoliert gesprochener woerter in einem sprachsignal und anordnung zur durchfuehrung des verfahrens |
FR2697101B1 (fr) * | 1992-10-21 | 1994-11-25 | Sextant Avionique | Procédé de détection de la parole. |
DE4422545A1 (de) * | 1994-06-28 | 1996-01-04 | Sel Alcatel Ag | Start-/Endpunkt-Detektion zur Worterkennung |
RU2441286C2 (ru) | 2007-06-22 | 2012-01-27 | Войсэйдж Корпорейшн | Способ и устройство для обнаружения звуковой активности и классификации звуковых сигналов |
WO2009145192A1 (ja) * | 2008-05-28 | 2009-12-03 | 日本電気株式会社 | 音声検出装置、音声検出方法、音声検出プログラム及び記録媒体 |
-
2012
- 2012-11-06 US US13/670,312 patent/US9099098B2/en active Active
-
2013
- 2013-01-08 CN CN201380005605.3A patent/CN104067341B/zh active Active
- 2013-01-08 BR BR112014017708-2A patent/BR112014017708B1/pt active IP Right Grant
- 2013-01-08 WO PCT/US2013/020636 patent/WO2013109432A1/en active Application Filing
- 2013-01-08 EP EP13701880.0A patent/EP2805327A1/en not_active Withdrawn
- 2013-01-08 JP JP2014553316A patent/JP5905608B2/ja active Active
- 2013-01-08 KR KR1020147022987A patent/KR101721303B1/ko active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101379548A (zh) * | 2006-02-10 | 2009-03-04 | 艾利森电话股份有限公司 | 语音检测器和用于语音检测器中抑制子频带的方法 |
US20070265842A1 (en) * | 2006-05-09 | 2007-11-15 | Nokia Corporation | Adaptive voice activity detection |
CN101197135A (zh) * | 2006-12-05 | 2008-06-11 | 华为技术有限公司 | 声音信号分类方法和装置 |
CN101197130A (zh) * | 2006-12-07 | 2008-06-11 | 华为技术有限公司 | 声音活动检测方法和声音活动检测器 |
US20090240495A1 (en) * | 2008-03-18 | 2009-09-24 | Qualcomm Incorporated | Methods and apparatus for suppressing ambient noise using multiple audio signals |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106024018A (zh) * | 2015-03-27 | 2016-10-12 | 大陆汽车系统公司 | 实时风冲击噪声检测 |
CN107103916A (zh) * | 2017-04-20 | 2017-08-29 | 深圳市蓝海华腾技术股份有限公司 | 一种应用于音乐喷泉的音乐开始和结束检测方法及系统 |
CN110390957A (zh) * | 2018-04-19 | 2019-10-29 | 半导体组件工业公司 | 用于语音检测的方法及设备 |
US11763929B2 (en) | 2018-08-22 | 2023-09-19 | Centre For Addiction And Mental Health & Memotext Corporation | Medical tool aiding diagnosed psychosis patients in detecting auditory psychosis symptoms associated with psychosis |
CN108848435A (zh) * | 2018-09-28 | 2018-11-20 | 广州华多网络科技有限公司 | 一种音频信号的处理方法和相关装置 |
CN110556128A (zh) * | 2019-10-15 | 2019-12-10 | 出门问问信息科技有限公司 | 一种语音活动性检测方法、设备及计算机可读存储介质 |
CN116705017A (zh) * | 2022-09-14 | 2023-09-05 | 荣耀终端有限公司 | 语音检测方法及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN104067341B (zh) | 2017-03-29 |
BR112014017708B1 (pt) | 2021-08-31 |
BR112014017708A2 (zh) | 2017-06-20 |
US9099098B2 (en) | 2015-08-04 |
WO2013109432A1 (en) | 2013-07-25 |
KR101721303B1 (ko) | 2017-03-29 |
JP5905608B2 (ja) | 2016-04-20 |
JP2015504184A (ja) | 2015-02-05 |
EP2805327A1 (en) | 2014-11-26 |
US20130191117A1 (en) | 2013-07-25 |
BR112014017708A8 (pt) | 2017-07-11 |
KR20140121443A (ko) | 2014-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104067341A (zh) | 在存在背景噪声的情况下的语音活动检测 | |
US9251804B2 (en) | Speech recognition | |
EP3127114B1 (en) | Situation dependent transient suppression | |
US20230317096A1 (en) | Audio signal processing method and apparatus, electronic device, and storage medium | |
US20200219503A1 (en) | Method and apparatus for filtering out voice instruction | |
JP6058824B2 (ja) | パーソナライズされた帯域幅拡張 | |
CN106165015B (zh) | 用于促进基于加水印的回声管理的装置和方法 | |
KR20130124531A (ko) | 유사한 사운드 환경 내의 모바일 디바이스들을 식별하는 방법 및 장치 | |
CN105744084B (zh) | 移动终端及提升移动终端通话音质的方法 | |
US10984812B2 (en) | Audio signal discriminator and coder | |
CN110265065A (zh) | 一种构建语音检测模型的方法及语音端点检测系统 | |
US11164591B2 (en) | Speech enhancement method and apparatus | |
CN111883182A (zh) | 人声检测方法、装置、设备及存储介质 | |
CN114067822A (zh) | 通话音频处理方法、装置、计算机设备和存储介质 | |
US9978383B2 (en) | Method for processing speech/audio signal and apparatus | |
CN114333912A (zh) | 语音激活检测方法、装置、电子设备和存储介质 | |
KR20240100384A (ko) | 신호 부호화/복호화 방법, 장치, 사용자 기기, 네트워크측 기기 및 저장 매체 | |
US9484043B1 (en) | Noise suppressor | |
US9437211B1 (en) | Adaptive delay for enhanced speech processing | |
CN111739515B (zh) | 语音识别方法、设备、电子设备和服务器、相关系统 | |
CN109637540B (zh) | 智能语音设备的蓝牙评测方法、装置、设备及介质 | |
CN113658581B (zh) | 声学模型的训练、语音处理方法、装置、设备及存储介质 | |
US20150279373A1 (en) | Voice response apparatus, method for voice processing, and recording medium having program stored thereon | |
EP2784778B1 (en) | Sound echo canceling in case of rate-of-speech change | |
CN110600022B (zh) | 一种音频处理方法、装置及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |