CN103038823B - 用于语音提取的系统和方法 - Google Patents
用于语音提取的系统和方法 Download PDFInfo
- Publication number
- CN103038823B CN103038823B CN201180013528.7A CN201180013528A CN103038823B CN 103038823 B CN103038823 B CN 103038823B CN 201180013528 A CN201180013528 A CN 201180013528A CN 103038823 B CN103038823 B CN 103038823B
- Authority
- CN
- China
- Prior art keywords
- input signal
- signal
- component
- estimate
- estimator
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 100
- 238000000605 extraction Methods 0.000 claims description 80
- 238000004458 analytical method Methods 0.000 claims description 68
- 230000000737 periodic effect Effects 0.000 claims description 45
- 230000015572 biosynthetic process Effects 0.000 claims description 41
- 238000003786 synthesis reaction Methods 0.000 claims description 39
- 238000005070 sampling Methods 0.000 claims description 5
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 230000006978 adaptation Effects 0.000 claims 1
- 238000012886 linear function Methods 0.000 claims 1
- 239000011295 pitch Substances 0.000 description 123
- 230000006870 function Effects 0.000 description 90
- 238000000926 separation method Methods 0.000 description 64
- 239000011159 matrix material Substances 0.000 description 61
- 230000000875 corresponding effect Effects 0.000 description 34
- 238000010586 diagram Methods 0.000 description 27
- 238000012545 processing Methods 0.000 description 22
- 238000001514 detection method Methods 0.000 description 19
- 239000013598 vector Substances 0.000 description 19
- 230000015654 memory Effects 0.000 description 18
- 230000008569 process Effects 0.000 description 18
- 238000010606 normalization Methods 0.000 description 13
- XPHBRTNHVJSEQD-UHFFFAOYSA-N anidoxime Chemical compound C=1C=CC=CC=1C(CCN(CC)CC)=NOC(=O)NC1=CC=C(OC)C=C1 XPHBRTNHVJSEQD-UHFFFAOYSA-N 0.000 description 10
- 238000001914 filtration Methods 0.000 description 9
- 239000000203 mixture Substances 0.000 description 9
- 238000005311 autocorrelation function Methods 0.000 description 6
- 238000003860 storage Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000000354 decomposition reaction Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000030279 gene silencing Effects 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 241000269400 Sirenidae Species 0.000 description 2
- 230000002238 attenuated effect Effects 0.000 description 2
- 239000007943 implant Substances 0.000 description 2
- 238000002156 mixing Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000000523 sample Substances 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000005204 segregation Methods 0.000 description 1
- 238000005476 soldering Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/0308—Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/09—Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
- G10L2025/786—Adaptive threshold
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
- G10L2025/906—Pitch tracking
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Mathematical Physics (AREA)
- Telephone Function (AREA)
- Circuit For Audible Band Transducer (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
在一些实施例中,一种处理器可读介质存储代码,所述代码表示使得处理器接收具有第一分量和第二分量的输入信号的指令。基于所述输入信号的所述第一分量的音高的估计量计算所述输入信号的所述第一分量的估计量。基于所述输入信号的所述第一分量的估计量和所述输入信号的所述第二分量的估计量计算所述输入信号的估计量。基于尺度函数修改所述输入信号的所述第一分量的估计量以产生所述输入信号的经重建的第一分量。所述尺度函数是所述输入信号、所述输入信号的所述第一分量的估计量、所述输入信号的所述第二分量的估计量或从残余信号中的至少一个的函数。
Description
相关申请的交叉引用
本申请要求于2010年1月29日提交的、名称为“Method to Separate OverlappingSpeech Signals from a Speech Mixture for Use in a Segregation Algorithm”的美国临时专利申请第61/299,776号的优先权;上述申请的公开内容通过引用完整地被合并于此。
本申请涉及于2010年9月23日提交的、名称为“Systems and Methods forMultiple Pitch Tracking”的美国专利申请第12/889,298号,上述申请要求于2009年9月23日提交的、名称为“System and Algorithm for Multiple Pitch Tracking in AdverseEnvironments”的美国临时专利申请第61/245,102号的优先权;上述每个申请的公开内容通过引用完整地被合并于此。
本申请涉及于2010年10月25日提交的、名称为“Sequential Grouping in Co-Channel Speech”的美国临时专利申请第61/406,318号;上述申请的公开内容通过引用完整地被合并于此。
技术领域
一些实施例涉及语音提取,并且更特别地涉及语音提取的系统和方法。
背景技术
已知的语音技术(例如自动语音识别或说话人识别)典型地遇到由包括背景噪声、干扰说话人、信道失真等的外部因素干扰的语音信号。例如,在已知的通信系统(例如移动电话、陆线电话、其它无线技术和网络电话技术)中,正在传输的语音信号通常受到外部噪声和干扰源干扰。类似地,戴着助听器和耳蜗植入装置的用户常常受到外部干扰的折磨,外部干扰干扰他们试图理解的语音信号。这些干扰会变得无法抵挡使得用户常常宁愿关闭他们的医疗装置,因此,这些医疗装置在某些情况下对于一些用户是无用的。所以,需要一种语音提取方法来改善由这些装置(例如医疗装置或通信装置)产生的语音信号的品质。
另外,已知的语音提取方法常常试图通过依赖于多个传感器(例如麦克风)执行语音分离的功能(例如从语音分离干扰性语音信号或分离背景噪声)以利用它们的几何间隔改善语音信号的品质。然而先前所述的多数通信系统和医疗装置仅仅包括一个传感器(或某个其它有限数量)。所以,已知的语音提取方法不适合用于未进行昂贵修改的这些系统或装置。
因此,需要一种改进的语音提取方法,其可以使用单传感器将期望语音与干扰性语音信号或背景噪声分离并且也可以提供好于多麦克风解决方案的语音品质恢复。
发明内容
在一些实施例中,一种处理器可读介质存储代码,所述代码表示导致处理器接收具有第一分量和第二分量的输入信号的指令。基于所述输入信号的所述第一分量的音高的估计量计算所述输入信号的所述第一分量的估计量。基于所述输入信号的所述第一分量的估计量和所述输入信号的所述第二分量的估计量计算所述输入信号的估计量。基于尺度函数(scaling function)修改所述输入信号的所述第一分量的估计量以产生所述输入信号的重建第一分量。在一些实施例中,所述尺度函数是所述输入信号、所述输入信号的所述第一分量的估计量、所述输入信号的所述第二分量的估计量或从所述输入信号和所述输入信号的估计量导出的残余信号中的至少一个的函数。
附图说明
图1是实现根据实施例的语音提取系统的声装置的示意图。
图2是根据实施例的处理器的示意图。
图3是根据实施例的语音提取系统的示意图。
图4是根据另一个实施例的语音提取系统的块图。
图5是根据实施例的语音提取系统的标准化子模块的示意图。
图6是根据实施例的语音提取系统的频谱-时间分解子模块的示意图。
图7是根据实施例的语音提取系统的沉默检测子模块的示意图。
图8是根据实施例的语音提取系统的矩阵子模块的示意图。
图9是根据实施例的语音提取系统的信号分离子模块的示意图。
图10是根据实施例的语音提取系统的可靠性子模块的示意图。
图11是根据实施例的用于第一说话人的语音提取系统的可靠性子模块的示意图。
图12是根据实施例的用于第二说话人的语音提取系统的可靠性子模块的示意图。
图13是根据实施例的语音提取系统的组合器子模块的示意图。
图14是根据另一个实施例的语音提取系统的块图。
图15A是根据实施例的语音提取处理之前的语音混合的图形表示。
图15B是用于第一说话人的语音提取处理之后的图15A中所示的语音的图形表示。
图15C是用于第二说话人的语音提取处理之后的图15A中所示的语音的图形表示。
具体实施方式
在本文中描述了用于语音提取处理的系统和方法。在一些实施例中,本文中所述的语音提取方法是自动分离彼此重叠的两个信号(例如两个语音信号)的基于软件的方法的一部分。在一些实施例中,语音提取方法在其中体现的总系统可以被称为“分离系统”或“分离技术”。该分离系统例如可以具有三个不同的级:分析级、合成级和聚类级。在本文中详细地描述了分析级和合成级。可以在2010年10月25日提交的、名称为“SequentialGrouping in Co-Channel Speech”的美国临时专利申请第61/406,318号中找到聚类级的详细论述,上述申请的公开内容通过引用完整地被合并于此。分析级、合成级和聚类级在本文中分别被称为或体现为“分析模块”、“合成模块”和“聚类模块”。
为了该描述起见术语“语音提取”和“语音分离”是同义词并且可以可互换地使用,除非另外指出。
当在本文中使用时单词“分量”指的是信号或信号的一部分,除非另外说明。分量可以与语音、音乐、噪声(稳态或非稳态)或任何其它声音相关。一般而言,语音包括有声分量,以及在一些实施例中,语音也包括无声分量(或其它非语音分量)。分量可以是周期性的、大致周期性的、准周期性的、大致非周期性的或非周期性的。例如,有声分量(例如“语音分量”)是周期性的、大致周期性的或准周期性的。不包括语音的其它分量(即,“非语音分量”)也可以是周期性的、大致周期性的或准周期性的。非语音分量例如可以是具有周期性、大致周期性或准周期性特性的来自环境的声音(例如汽笛)。然而无声分量是非周期性的或大致非周期性的(例如“嘘”声或任何其它非周期性噪声)。无声分量可以包含语音(例如“嘘”声),但是该语音是非周期性的或大致非周期性的。不包括语音并且是非周期性的或大致非周期性的其它分量例如可以包括背景噪声。大致周期性分量例如可以指的是当在时域中图形表示时具有重复图案的信号。大致非周期性分量例如可以指的是当在时域中图形表示时不具有重复图案的信号。
当在本文中使用时术语“周期性分量”指的是周期性的、大致周期性的或准周期性的任何分量。所以周期性分量可以是有声分量(或语音分量)和/或非语音分量。当在本文中使用时术语“非周期性分量”指的是非周期性的或大致非周期性的任何分量。所以非周期性分量可以与上面定义的术语“无声分量”是同义的并且可互换。
图1是包括语音提取方法的执行的音频装置100的示意图。为了该实施例,音频装置100被描述为以类似于手机的方式操作。然而应当理解音频装置100可以是用于存储和/或使用本文中所述的语音提取方法或任何其它方法的任何合适的音频装置。例如,在一些实施例中,音频装置100可以是个人数字助理(PDA)、医疗装置(例如助听器或耳蜗植入物)、记录或采集装置(例如语音记录器)、存储装置(例如存储具有音频内容的文件的存储器)、计算机(例如超级计算机或大型计算机)和/或类似物。
音频装置100包括声输入部件102、声输出部件104、天线106、存储器108和处理器110。这些部件中的任何一个可以在任何合适的配置中布置在(或至少部分地布置在)音频装置100内。另外,这些部件中的任何一个可以以任何合适的方式(例如经由线的电互连或焊接到电路板、通信总线等)连接到另一个部件。
声输入部件102、声输出部件104和天线106例如可以以类似于在手机内发现的任何声输入部件、声输出部件和天线的方式操作。例如,声输入部件102可以是麦克风,其可以接收声波并且然后将那些声波转换成电信号供处理器110使用。声输出部件104可以是扬声器,其被配置成接收来自处理器110的电信号并且将那些信号作为声波输出。此外,天线106被配置成例如与移动转发器或移动通信基站。在音频装置100不是手机的实施例中,音频装置100可以包括或不包括声输入部件102、声输出部件104和/或天线106中的任何一个。
存储器108可以是被配置成适配在音频装置100(例如手机)内并且与音频装置操作的任何合适的存储器,例如只读存储器(ROM)、随机存取存储器(RAM)、闪存和/或类似物。在一些实施例中,存储器108从装置100可拆卸。在一些实施例中,存储器108可以包括数据库。
处理器110被配置成执行用于音频装置100的语音提取方法。在一些实施例中,处理器110将执行方法的软件存储在它的存储架构(未示出)内。处理器110可以是适配在音频装置100及其部件内并且与音频装置及其部件操作任何合适的处理器。例如,处理器110可以是执行存储在存储器中的软件的通用处理器(例如数字信号处理器(DSP));在其它实施例中,可以在硬件内执行方法,例如现场可编程门阵列(FPGA)或专用集成电路(ASIC)。在一些实施例中,音频装置100不包括处理器110。在其它实施例中,处理器的功能可以分配给通用处理器,例如DSP。
在使用中,音频装置100的声输入部件102接收来自它的周围环境的声波S1。这些声波S1可以包括用户讲入音频装置100的语音(即话音)以及任何背景噪声。例如,在用户正沿着繁忙街道行走的情况下,除了检测用户的语音以外,声输入部件102可以检测来自汽笛、汽车喇叭或人的叫声或谈话。声输入部件102将这些声波S1转化成电信号,然后所述电信号被发送到处理器110进行处理。处理器110执行软件,该软件执行语音提取方法。语音提取方法可以以下述方式中的任何一种分析电信号(例如参见图4)。然后基于语音提取方法的结果滤波电信号使得从信号大致去除(或衰减)非期望声音(例如其它说话人、背景噪声)并且剩余信号表示用户的语音的更智能形式或更接近匹配(例如参见图15A、15B和15C)。
在一些实施例中,音频装置100可以使用语音提取方法滤波经由天线106(例如从不同音频装置)接收的信号。例如,在接收到的信号包括语音以及非期望声音(例如嘈杂背景噪声或另一个说话人语音)的情况下,音频装置100可以使用该方法滤波接收到的信号并且然后经由声输出部件104输出经滤波的信号的声波S2。因此,音频装置100的用户可以听到远处说话人的语音,具有极小的或没有背景噪声或来自另一个说话人的干扰。
在一些实施例中,语音提取方法(或它的任何子方法)可以经由处理器110和/或存储器108包含到音频装置100中而没有任何附加硬件要求。例如,在一些实施例中,在商业分配音频装置100之前在音频装置100(即,处理器110和/或存储器108)内预编程语音提取方法(或它的任何子方法)。在其它实施例中,在已购买音频装置100之后可以通过偶然、例行或定期软件更新将存储在存储器108中的语音提取方法(或它的任何子方法)的软件形式下载到音频装置100。在另外的其它实施例中,语音提取方法(或它的任何子方法)的软件形式可以通过从提供商(例如手机提供商)购买获得,并且当购买软件时,可以下载到音频装置100。
在一些实施例中,处理器110包括执行语音提取方法的一个或多个模块(例如将在硬件中执行的计算机代码的模块或存储在存储器中并且将在硬件中执行的处理器可读指令的集合)。例如,图2是处理器210(例如DSP或其它处理器)的示意图,该处理器具有分析模块220、合成模块230并且可选地具有聚类模块240以执行根据实施例的语音提取方法。处理器210可以集成或包括在任何合适的音频装置中,例如上面参考图1所述的音频装置。在一些实施例中,处理器210是现成的产品,可以被编程以包括分析模块220、合成模块230和/或聚类模块240并且然后在制造后被加入音频装置(例如存储在存储器中并且在硬件中执行的软件)。在其它实施例中,处理器210在制造时包含到音频装置中(例如存储在存储器中并且在硬件中执行或者在硬件中实现的软件)。在这样的实施例中,分析模块220、合成模块230和/或聚类模块240可以在制造时被编程到音频装置中或者在制造后被下载到音频装置中。
在使用中,处理器210接收来自处理器210集成在其中的音频装置(例如参见图1中的音频装置100)的输入信号(图3中所示)。为了简单起见,输入信号在本文中被描述为在任何指定时间具有不超过两个分量,并且在某些时间的情况下可以具有零分量(例如沉默)。例如,在一些实施例中,输入信号可以具有在第一时段期间的两个周期性分量(例如来自两个不同说话人的两个有声分量)、在第二时段期间的一个分量和在第三时段期间的零分量。尽管在不超过两个分量的情况下论述了该例子,但是应当理解输入信号可以在任何指定时间具有任何数量的分量。
输入信号首先由分析模块220处理。分析模块220可以分析输入信号并且然后基于它的分析估计对应于输入信号的各分量的输入信号的部分。例如,在输入信号具有两个周期性分量(例如两个有声分量)的实施例中,分析模块220可以估计对应于第一周期性分量(例如“估计第一分量”)的输入信号的部分以及估计对应于第二周期性分量(例如“估计第二分量”)的输入信号的部分。分析模块220然后分离来自输入信号的估计第一分量和估计第二分量,如本文中更详细地所述。例如,分析模块220可以使用估计量将第一周期性分量与第二周期性分量分离;或者更特别地,分析模块220可以使用估计量将第一周期性分量的估计量与第二周期性分量的估计量分离。分析模块220可以以下述方式中的任何一种分离输入信号的分量(例如参见图9和相关论述)。在一些实施例中,在由分析模块220执行的估计和/或分离方法之前分析模块220可以标准化输入信号和/或滤波输入信号。
合成模块230接收来自分析模块220的输入信号分离的估计分量的每一个(例如估计第一分量和估计第二分量)。合成模块230可以评价这些估计分量并且确定分析模块220的输入信号的分量的估计是否可靠。换句话说,合成模块230可以至少部分地用于“复查”由分析模块220生成的结果。合成模块230可以以下述方式中的任何一种评价从输入信号分离的估计分量(例如参见图10和相关论述)。
一旦确定估计分量的可靠性,合成模块230可以使用估计分量重建对应于输入信号的实际分量的单独的语音信号,如本文中更详细地所述,从而产生经重建的语音信号。合成模块230可以以下述方式中的任何一种重建单独的语音信号(例如参见图11和相关论述)。在一些实施例中,合成模块230被配置成在一定程度上按比例调节(scale)估计分量并且然后使用经按比例调节的估计分量重建单独的语音信号。
在一些实施例中,合成模块230可以将经重建的语音信号(或经提取的/经分离的估计分量)发送到例如处理器210在其中实现的装置(例如装置100)的天线(例如天线106),使得经重建的语音信号(或经提取的/经分离的估计分量)被传递到另一个装置,在另一个装置处可以听到经重建的语音信号(或经提取的/经分离的估计分量)而没有来自输入信号的剩余分量的干扰。
返回图2,在一些实施例中,合成模块230可以将经重建的语音信号(或经提取的/经分离的估计分量)发送到聚类模块240。聚类模块240可以分析经重建的语音信号并且然后将每个经重建的语音信号分配给适当的说话人。聚类模块240的操作和功能未在本文中详细地论述,而是在上面通过引用被合并的美国临时专利申请第61/406,318号中进行了描述。
在一些实施例中,分析模块220和合成模块230可以经由具有一个或多个特定方法的一个或多个子模块实现。例如,图3是分析模块220和合成模块230经由一个或多个子模块实现的实施例的示意图。分析模块220可以至少部分地经由滤波器子模块321、多音高检测器子模块324和信号分离子模块328实现。分析模块220例如可以经由滤波器子模块321滤波输入信号、经由多音高检测器子模块324估计经滤波的输入信号的一个或多个分量的音高,并且然后基于它们的相应估计音高经由信号分离子模块328将那些一个或多个分量从经滤波的输入信号分离。
更具体地,滤波器子模块321被配置成滤波从音频装置接收的输入信号。例如可以滤波输入信号使得将输入信号分解成多个时间单位(或“帧”)和频率单位(或“信道”)。参考图6论述滤波方法的详细描述。在一些实施例中,在滤波输入信号之前滤波器子模块321被配置成标准化输入信号(例如参见图4和5以及相关论述)。在一些实施例中,滤波器子模块321被配置成识别是沉默或具有降到低于某个阈值水平的声音(例如分贝水平)的经滤波的输入信号的那些单位。在一些这样的实施例中,如本文中将更详细地所述,滤波器子模块321可操作地防止被识别“沉默”单位继续通过语音提取方法。以该方式,仅仅允许来自具有可感觉声音的经滤波的信号的单位继续通过语音提取方法。
在一些情况下,在由分析模块220的剩余子模块或合成模块230分析输入信号之前经由滤波器子模块321滤波该输入信号可以增加分析的效率和/或有效性。然而在一些实施例中,在分析输入信号之前不滤波输入信号。在一些这样的实施例中,分析模块220可以不包括滤波器子模块321。
一旦滤波输入信号,多音高检测器子模块324可以分析经滤波的输入信号并且估计经滤波的输入信号的每个分量的音高(如果有的话)。多音高检测器子模块324可以例如使用在2010年9月23日提交的、名称为“Systems and Methods for Multiple PitchTracking”的美国专利申请第12/889,298号中描述的AMDF或ACF方法分析经滤波的输入信号,上述申请的公开内容通过引用完整地被合并。多音高检测器子模块324也可以使用在上述美国专利申请第12/889,298中所述的方法中的任何一种估计来自经滤波的输入信号的任何数量的音高。
应当理解的是,在语音提取方法中的该点之前,输入信号的各分量是未知的,例如不知道输入信号包含一个周期性分量、两个周期性分量、零个周期性分量和/或无声分量。然而多音高检测器子模块324可以通过识别存在于输入信号内的一个或多个音高估计有多少周期性分量包含在输入信号内。所以,从语音提取方法中的该点开始,可以假设(为了简单起见)如果多音高检测器子模块324检测到音高,则被检测音高对应于输入信号的周期性分量并且更特别地对应于有声分量。所以,为了该论述,如果检测到一个音高,则输入信号可能包含一个语音分量;如果检测到两个音高,则输入信号可能包含两个语音分量,等等。然而实际上,多音高检测器子模块324也可以检测包含在输入信号内的非语音分量的音高。非语音分量以与语音分量相同的方式在分析模块220内进行处理。因而,语音提取方法有可能将语音分量与非语音分量分离。
一旦多音高检测器324估计来自输入信号的一个或多个音高,多音高检测器子模块324将该音高估计量输出到语音提取方法中的下一个子模块或块。例如,在输入信号具有两个周期性分量(例如两个有声分量,如上所述)的实施例中,多音高检测器子模块324输出第一有声分量的音高估计量(例如对应于150Hz的音高周期的6.7msec)和第二有声分量的另一个音高估计量(例如对应于186Hz的音高周期的5.4msec)。
信号分离子模块328可以使用来自多音高检测器子模块324的音高估计量估计输入信号的分量并且然后可以将输入信号的那些估计分量与输入信号的剩余分量(或部分)分离。例如,假设音高估计量对应于第一有声分量的音高,则信号分离子模块328可以使用音高估计量估计对应于该第一有声分量的输入信号的部分。为了重复,由信号分离子模块328从输入信号提取的第一周期性分量(即,第一有声分量)仅仅是输入信号的实际分量的估计,在该方法期间的该点,输入信号的实际分量是未知的。然而信号分离子模块328可以基于由多音高检测器子模块324估计的音高估计输入信号的分量。在一些情况下,如将要描述的,信号分离子模块328从输入信号提取的估计分量可能不与输入信号的实际分量完全匹配,原因是估计分量自身由估计值(即估计音高)导出。信号分离子模块328可以使用本文中所述的任何分离处理技术(例如参见图9和相关论述)。
一旦由分析模块220和其中的子模块321、324和/或328处理,输入信号由合成模块230进一步处理。合成模块230可以至少部分地经由功能子模块332和组合器子模块334实现。功能子模块332接收来自分析模块220的信号分离子模块328的输入信号的估计分量并且可以确定那些估计分量的“可靠性”。例如,功能子模块332通过各种计算可以确定输入信号的那些估计分量可以用于重建输入信号。在一些实施例中,功能子模块332用作开关,只有当该估计分量的一个或多个参数(例如功率水平)超过某个阈值时才允许估计分量在该方法中继续(例如用于重建)(例如参见图10和相关论述)。然而在一些实施例中,功能子模块332基于一个或多个因素修改(例如尺度)每个估计分量使得允许每个估计分量(以它们的修改形式)在该方法中继续(例如参见图11和相关论述)。功能子模块332可以评价估计分量,从而以本文中所述的方式中的任何一种确定它们的可靠性。
组合器子模块334接收从功能子模块332输出的估计分量(经修改的或其它形式)并且然后可以滤波那些估计分量。在输入信号由分析模块220中的滤波器子模块321分解成单位的实施例中,组合器子模块334可以组合单位以重组或重建输入信号(或对应于估计分量的输入信号的至少一部分)。更特别地,组合器子模块334可以通过组合每个单位的估计分量构造类似于输入信号的信号。组合器子模块334可以以本文中所述的方式中的任何一种滤波功能子模块332的输出(例如参见图13和相关论述)。在一些实施例中,合成模块230不包括组合器子模块334。
如图3中所示,合成模块230的输出是有声分量与无声分量分离(A)、有声分量与其它有声分量分离(B)或无声分量与其它无声分量分离(C)的输入信号的表示。更广义地说,合成模块230可以将周期性分量与非周期性分量分离(A)、将周期性分量与另一个周期性分量分离(B)或将非周期性分量与另一个非周期性分量分离(C)。
在一些实施例中,软件包括聚类模块(例如聚类模块240),该聚类模块可以评价经重建的输入信号并且将说话人或标记分配给输入信号的每个分量。在一些实施例中,聚类模块不是独立模块,而是合成模块230的子模块。
图1-3提供了可以用于实现语音提取方法的装置、部件和模块的类型的总图。其余的图更详细地示出并且描述语音提取方法及其过程。应当理解的是以下过程和方法可以在任何(一个或多个)基于硬件的模块(例如DSP)或在硬件中执行的任何(一个或多个)基于软件的模块中以上面关于图1-3所述的方式中的任何一种实现,除非另外指出。
图4是用于处理输入信号s的语音提取方法400的块图。语音提取方法可以在执行存储在存储器中的软件的处理器(例如处理器210)上执行或者可以集成在硬件中,如上所述。语音提取方法包括具有各种互连性的多个块。每个块被配置成执行语音提取方法的特定功能。
语音提取方法通过接收来自音频装置的输入信号s开始。输入信号s可以具有任何数量的分量,如上所述。在该特定情况下,输入信号s包括两个周期性信号分量sA和sB,所述分量分别是表示第一说话人的语音(A)和第二说话人的语音(B)的有声分量。然而在一些实施例中,分量中的仅仅一个(例如分量sA)是有声分量;另一个分量(例如分量sB)可以是非语音分量,例如汽笛。在另外的其它实施例中,分量中的一个可以是例如包含背景噪声的非周期性分量。尽管输入信号s关于图4被描述为具有两个有声、语音分量sA和sB,但是输入信号s也可以包括一个或多个其它周期性分量或非周期性分量(例如分量sC和/或sD),所述分量可以以与有声、语音分量sA和sB相同的方式进行处理。输入信号s例如可以从对着麦克风讲话的一个说话人(A或B)和在背景中讲话的另一个人(A或B)得到。备选地,其他说话人的语音(A或B)可以想要被听到(例如对着相同麦克风讲话的两个或以上说话人)。为了该论述,说话人的总语音被认为是输入信号s。在其它实施例中,输入信号s可以从使用不同的装置彼此交谈并且对着不同麦克风说话的两个说话人(A和B)得到(例如经记录的电话交谈)。在另外的其它实施例中,输入信号s可以从音乐得到(例如正在音频装置上回放的录音音乐)。
在音乐提取方法开始时,将输入信号s传到块421(标有“标准化”)进行标准化。可以以任何方式并且根据任何期望规范标准化输入信号s。例如,在一些实施例中,输入信号s可以被标准化以具有单位方差和/或零均值。图5描述了块421可以用以标准化输入信号s的一种特定技术,如下更详细地所述。然而在一些实施例中,语音提取方法不标准化输入信号s并且因此不包括块421。
返回图4,然后将经标准化的输入信号(例如“sN”)传到块422进行滤波。在输入信号s传到块422之前未被标准化(例如可选块421不存在)的实施例中,同样在块422处理输入信号s。如图4中所示,块422将经标准化的输入信号分成一组信道(每个信道分配有不同的频带)。经标准化的输入信号可以分成任何数量的信道,如本文中将更详细地所述。在一些实施例中,例如可以使用将输入信号分成一组信道的滤波器组在块422滤波经标准化的输入信号。另外,块422可以采样经标准化的输入信号以形成每个信道的多个时间-频率(T-F)单位。更具体地,块422可以将标准化输入信号分解成多个时间单位(帧)和频率单位(信道)。合成T-F单位被定义为s[t,c],其中t是时间并且c是信道(例如c=1,2,3)。在一些实施例中,块422包括将标准化输入信号滤波成T-F单位的一个或多个频谱-时间滤波器。图6描述了块422可以用以将标准化输入信号滤波成T-F单位的一种特定技术,如下面更详细地所述。
如图4中所示,每个信道包括沉默检测块423,该沉默检测块被配置成处理该信道内的每个T-F单位以确定它们是沉默的还是非沉默的。第一信道(c=1)例如包括块423a,该块处理对应于第一信道的T-F单位(例如s[t,c=1]);第二信道(c=2)例如包括块423b,该块处理对应于第二信道的T-F单位(例如s[t,c=2]),等等。在块423a提取和/或丢弃被认为是沉默的T-F单位使得不对那些T-F单位执行进一步处理。图7描述了块423a、423b、423c至423x可以用以处理T-F单位以进行沉默检测的一种特定技术,如下面更详细地所述。
参考图4,一般而言,沉默检测可以通过防止对没有任何相关数据(例如语音分量)的T-F单位进行非必要处理而增加信号处理效率。被认为是非沉默的剩余T-F单位进一步进行如下处理。在一些实施例中,块423a(和/或块423b、423c至423x)是可选的并且语音提取方法不包括沉默检测。因而,所有T-F单位如下进行处理,不管它们是沉默的还是非沉默的。
如图4中所示,非沉默T-F单位(不管它们被分配在其中的信道)被传到多音高检测器块424。非沉默T-F单位也根据它们的信道关联被传到相应分离块(例如块428a)和相应可靠性块(例如块432a)。在多音高检测器块424,评价来自所有信道的非沉默T-F单位并且估计组成音高频率P1和P2。尽管图4的描述将音高估计量的数量限制为二(P1和P2),但是应当理解多音高检测器块424可以估计任何数量的音高频率(基于存在于输入信号s中的周期性分量的数量)。音高估计量P1或P2可以是非零值或零。多音高检测器块424可以使用任何合适的方法计算音高估计量P1或P2,例如包含平均幅值差函数(AMDF)算法或自相关函数(ACF)算法,如通过引用被合并的美国专利申请第12/889,298中所述。
值得注意的是在语音提取方法中的该点,不知道音高频率P1属于说话人A还是说话人B。类似地,不知道音高频率P2属于说话人A还是B。在语音提取方法中的该点音高频率P1或P2两者可以不与第一周期性分量sA或第二周期性分量sB相关。
音高估计量P1和P2分别被传到块425和426。在备选实施例中,例如在图14所示的实施例中,音高估计量P1和P2附加地被传到尺度函数块并且用于测试估计信号分量的可靠性,如下面更详细地所述。返回图4,在块425,第一音高估计量P1用于形成第一矩阵V1。第一矩阵V1中的列的数量等于(T-F单位的)采样率Fs与第一音高估计量P1的比率。该比率在本文中被简称为“F”。在块426,第二音高估计量P2用于形成第二矩阵V2。从这里,第一矩阵V1、第二矩阵V2和比率F被传到块427。在块427将第一矩阵V1和第二矩阵V2加在一起以形成单矩阵V。图8描述了块425、426和/或427可以用以分别形成矩阵V1、V2和V的一种特定技术,如下面更详细地所述。
在块427形成的矩阵V和比率F被传到图4中所示的各信道的每个分离块428。如先前所述,非沉默T-F单位也被传到它们的相应信道内的分离块428。例如,第一信道(c=1)中的分离块428a接收来自第一信道中的沉默检测块423a的非沉默T-F单位并且也接收来自块427矩阵V和比率F。在块428a,使用从块423a(即,s[t,c=1])和块427(即,V)接收的数据估计第一分量sA和第二分量sB。更具体地,块428a产生第一信号xE 1[t,c=1](即,对应于信道c=1内的第一音高估计量P1的估计量)和第二信号xE 2[t,c=1](即,对应于信道c=1内的第二音高估计量P2的估计量)。然而在该点仍然不知道哪个说话人(A或B)可以归于音高估计量P1和P2。
块428a还可以产生第三信号xE[t,c=1],该信号是对应于总输入信号s[t,c]的估计量。可以在块428a通过相加第一信号xE 1[t,c=1]和第二信号xE 2[t,c=1]计算第三信号xE[t,c=1]。可以在块428a以任何合适的方式计算第一信号xE 1[t,c=1]、第二信号xE 2[t,c=1]和/或第三信号xE[t,c=1]。在备选实施例中,例如在图14所示的实施例中,块428a不产生第三信号xE[t,c=1]。图9描述了块428a可以用以计算这些估计信号的一种特定技术,如下面更详细地所述。返回图4,块428b和428c至428x以类似于428a的方式工作。
上述的方法和块例如可以在分析模块中执行。也可以被称为语音提取方法的分析级的分析模块因此被配置成执行上面关于每个块所述的功能。在一些实施例中,每个块可以用作分析模块的子模块。从分离块(例如分析模块的最后块428)输出的估计信号例如可以被传到另一个模块(合成模块)进行进一步分析。合成模块可以执行例如如下的块432和434的功能和方法。另外,在图14中示出并且描述了备选的合成模块。
如图4中所示,在块428a产生的三个信号(即,xE 1[t,c=1]、xE 2[t,c=1]和xE[t,c=1])被传到块432a进行进一步处理。块432a也接收来自沉默检测块423a的非沉默T-F单位,如上所述。指定信道内的每个可靠性块因此接收四个输入,第一估计信号xE 1[t,c]、第二估计信号xE 2[t,c]、第三估计信号xE[t,c]和非沉默T-F单位s[t,c]。在一些实施例中,例如在图14所示的实施例中,块428a仅仅产生第一估计信号xE 1[t,c=1]和第二估计信号xE 2[t,c=1]。所以,仅仅第一估计信号xE 1[t,c=1]和第二估计信号xE 2[t,c=1]被传到块432a进行进一步处理。另外,在多音高检测器块424导出的音高估计量P1和P2可以被传到块432a以用于尺度函数中,如图14中更详细地所示。
参考图4,块432被配置成检查第一估计信号xE 1[t,c]和第二估计信号xE 2[t,c]的“可靠性”。第一估计信号xE 1[t,c]和/或第二估计信号xE 2[t,c]的可靠性例如可以基于在块432接收的非沉默T-F单位中的一个或多个。然而估计信号xE 1[t,c]或xE 2[t,c]中的任何一个的可靠性可以基于规范或值的任何合适集合。可以以任何合适的方式执行可靠性测试。图10描述了块432可以用以评价并且确定估计信号xE 1[t,c]和/或xE 2[t,c]的可靠性的第一技术。在该特定技术中,块432可以使用基于阈值开关来确定估计信号xE 1[t,c]和/或xE 2[t,c]的可靠性。如果块432确定信号(例如xE 1[t,c])是可靠的,则该可靠信号同样被传到块434E1或块434E2以用于信号重建方法中。在另一方面,如果块432确定信号(例如xE 1[t,c])是不可靠的,则不可靠信号被衰减例如-20dB,并且然后被传到434E1或434E2块中的一个。
图11描述了块432可以用以评价并且确定估计信号xE 1[t,c]和/或xE 2[t,c]的可靠性的备选技术。该特定技术涉及使用尺度函数来确定估计信号xE 1[t,c]和/或xE 2[t,c]的可靠性。如果块432确定信号(例如xE 1[t,c])是可靠的,则该可靠信号由某个因素按比例调节并且然后被传到块434E1或块434E2以用于信号重建方法中。如果块432确定信号(例如xE 1[t,c])是不可靠的,则该不可靠信号由某个不同因素按比例调节并且然后被传到块434E1或块434E2以用于信号重建方法中。不管由块432使用的方法或技术,第一估计信号xE 1[t,c]的某个形式被传到块434E1并且第二估计信号xE 2[t,c]的某个形式被传到块434E2。
由块432使用的可靠性测试在某些情况下可能是可取的,从而保证随后在语音提取方法中的高品质信号重建。在一些情况下,由于一个说话人(例如说话人A)比另一个说话人(例如说话人B)占优,可靠性块432从指定信道内的分离块428接收的信号会是不可靠的。在其它情况下,由于分析级的方法中的一个或多个不适合于正在进行分析的输入信号,指定信道中的信号会是不可靠的。
一旦在块432建立估计第一信号xE 1[t,c]和估计第二信号xE 2[t,c],估计第一信号xE 1[t,c]和第二估计信号xE 2[t,c](或它们的形式)分别被传到块434E1和434E2。块434E1被配置成接收并且组合横越所有信道的估计第一信号的每一个以产生经重建的信号sE 1[t],该经重建的信号表示对应于音高估计量P1的输入信号s的周期性分量(例如有声分量)。仍然不知道音高估计量P1归于第一说话人(A)还是第二说话人(B)。所以,在语音提取方法中的该点,音高估计量P1不会与第一有声分量sA或第二有声分量sB中的任何一个精确地相关。经重建的信号sE 1[t]的函数中的“E”指示该信号仅仅是输入信号s的有声分量中的一个的估计量。
块434E2类似地被配置成接收并且组合横越所有信道的估计第二信号的每一个以产生经重建的信号sE 2[t],该经重建的信号表示对应于音高估计量P2的输入信号s的周期性分量(例如有声分量)。类似地,经重建的信号sE 2[t]的函数中的“E”指示该信号仅仅是输入信号s的有声分量中的一个的估计量。图13描述了块434E1和434E2可以用以重组(可靠或不可靠)估计信号以产生经重建的信号sE 1[t]和sE 2[t]的一种特定技术,如下面更详细地所述。
返回图4,在块434E1和434E2之后,输入信号s的第一有声分量sA和输入信号s的第二有声分量sB被认为是“经提取的”。在一些实施例中,经重建的信号sE 1[t]和sE 2[t](即,对应于第一音高估计量P1的有声分量和对应于第二音高估计量P2的另一个有声分量的经提取的估计量)从上述的合成级传到聚类级440。聚类级440的方法和/或子模块(未示出)被配置成分析经重建的信号sE 1[t]和sE 2[t]并且确定哪个经重建的信号属于第一说话人(A)和第二说话人(B)。例如,如果经重建的信号sE 1[t]被确定为可归于第一说话人(A),则经重建的信号sE 1[t]与第一有声分量sA相关,这由来自聚类级440的输出信号sE A指示。如上所述,输出信号sE A的函数中的“E”指示该信号仅仅是第一有声分量sA的估计量,虽然是第一有声分量sA的很精确估计,这由图15A、15B和15C中所示的结果证明。
图5是可以执行分析模块(例如分析模块220内的块421)的标准化方法的标准化子模块521的块图。更特别地,标准化子模块521被配置成处理输入信号s以产生标准化信号sN。标准化子模块521包括平均值块521a、减法块521b、乘方块521c和除法块521d。
在使用中,标准化子模块521接收来自声装置(例如麦克风)的输入信号s。标准化子模块521在平均值块521a计算输入信号s的平均值。然后在减法块521b从原始输入信号s减去(例如均匀地减去)平均值块521a的输出(即,输入信号s的平均值)。当输入信号s的平均值是非零值时,减法块521b的输出是原始输入信号s的经修改的形式。当输入信号s的平均值为零时,输出与原始输入信号s相同。
乘方块521c被配置成计算减法块521b的输出(即,从原始输入信号s减去输入信号s的平均值之后的剩余信号)的乘方。除法块521d被配置成接收乘方块521c的输出以及减法块521b的输出,并且然后用减法块521b的输出除以乘方块521c的输出的平方根。换句话说,除法块521d被配置成用剩余信号(从原始输入信号s减去输入信号s的平均值之后)除以该剩余信号的乘方的平方根。
除法块521d的输出sN是标准化信号sN。在一些实施例中,标准化子模块521处理输入信号s以产生具有单位方差和零均值的标准化信号sN。然而标准化子模块521可以以任何合适的方式处理输入信号s以产生期望的标准化信号sN。
在一些实施例中,标准化子模块521一次完整地处理输入信号s。然而在一些实施例中,在指定时间仅仅处理输入信号s的一部分。例如,在输入信号s(例如语音信号)连续地到达标准化子模块521的情况下,在更小窗口持续时间“τ”中(例如在500毫秒或1秒窗口中)处理输入信号可能是更可行的。窗口持续时间“τ”例如可以由用户预先确定或基于系统的其它参数进行计算。
尽管标准化子模块521被描述为是分析模块的子模块,但是在其它实施例中,标准化子模块521是与分析模块分离的独立模块。
图6是滤波器子模块622的块图,该滤波器子模块可以执行分析模块(例如分析模块220内的块422)的滤波方法。图6中所示的滤波器子模块622被配置成用作频谱-时间滤波器,如本文中所述。然而在其它实施例中,滤波器子模块622可以用作任何合适的滤波器,例如完美重建滤波器组或gammatone滤波器组。滤波器子模块622包括具有多个滤波器622a1-aC的听觉滤波器组622a和帧式分析块622b1-bC。滤波器组622的滤波器622a1-aC和帧式分析块622b1-bC的每一个被配置成用于特定频道c。
如图6中所示,滤波器子模块622被配置成接收并且然后滤波输入信号s(或备选地,标准化输入信号sN)使得输入信号s被分解成一个或多个时间-频率(T-F)单位。T-F单位可以表示为s[t,c],其中t是时间(例如时帧)并且c是信道。当输入信号s通过滤波器组622a时开始滤波方法。更具体地,输入信号s通过滤波器组622a中的C个数量的滤波器622a1-aC,其中C是信道的总数量。每个滤波器622a1-aC限定输入信号的路径并且每个滤波路径表示频道(“c”)。滤波器622a1例如限定滤波路径和第一频道(c=1),而滤波器622a2限定另一个滤波路径和第二频道(c=2)。滤波器组622a可以具有任何数量的滤波器和相应的频道。
如图6中所示,每个滤波器622a1-aC是不同的并且对应于不同的滤波方程。滤波器622a1例如对应于滤波方程“h1[n]”并且滤波器622a2例如对应于滤波方程“h2[n]”。滤波器622a1-aC可以具有任何合适的滤波系数,并且在一些实施例中,可以基于用户限定规范进行配置。滤波器622a1-aC的变化导致来自那些滤波器622a1-aC的输出的变化。更具体地,滤波器622a1-aC的每一个的输出是不同的并且由此产生输入信号的C个不同的经滤波的形式。来自每个滤波器622a1-aC的输出可以在数学上表示为s[c],其中第一频道中的滤波器622a1的输出为s[c=1]并且第二频道中的滤波器622a2的输出为s[c=2]。每个输出s[c]是包含比其它更重要的原始输入信号的某些频率分量的信号。
每个信道的输出s[c]在帧式基础上由帧式分析块622b1-bC处理。例如,第一频道的输出s[c=1]由在第一频道内的帧式分析块622b1处理。可以通过将从t至t+L的样本收集在一起分析在指定时刻t的输出s[c],其中L是可以用户指定的窗口长度。在一些实施例中,对于采样率Fs将窗口长度L设置成20毫秒。从t至t+L收集的样本在时刻t形成帧,并且可以表示为s[t,c]。通过收集从t+δ至t+δ+L的样本获得下一个时帧,其中δ是帧周期(即,跨越样本的数量)。该帧可以表示为s[t+1,c]。帧周期δ可以是用户限定的。例如,帧周期δ可以为2.5毫秒或任何其它合适的持续时间。
对于指定时刻,有C个不同的向量或信号(即,信号s[t,c],其中c=1,2..C)。帧式分析块622b1-bC可以被配置成将这些信号例如输出到沉默检测块(例如图4中的沉默检测块423)。
图7是沉默检测子模块723的块图,该沉默检测子模块可以执行分析模块(例如分析模块220内的块423)的沉默检测方法。更特别地,沉默检测子模块723被配置成处理输入信号的时间-频率单位(表示为s[t,c])以确定该时间-频率单位是否是非沉默的。沉默检测子模块723包括乘方块723a和阈值块723b。时间-频率单位首先通过计算时间-频率单位的乘方的乘方块723a。算出的时间-频率单位的乘方然后被传到阈值块723b,该阈值块比较算出的乘方和阈值。如果算出的乘方小于阈值,则假定时间-频率单位包含沉默。沉默检测子模块723将时间-频率单位设置成零并且在语音提取方法的剩余过程中丢弃或忽略该时间-频率单位。在另一方面,如果算出的时间-频率单位的乘方大于阈值,则时间-频率单位同样被传到下一级以用于语音提取方法的剩余过程中。以该方式,沉默检测子模块723用作基于能量的开关。
在阈值块723b中所使用的阈值可以是任何合适的阈值。在一些实施例中,阈值可以是用户定义的。阈值可以是固定值(例如0.2或45dB)或者可以取决于一个或多个因素而变化。例如,阈值可以基于它所对应的频道或基于正在处理的时间-频率单位的长度而变化。
在一些实施例中,沉默检测子模块723可以以类似于通过引用被合并的美国专利申请第12/889,298号中所述的沉默检测方法操作。
图8是矩阵子模块829的示意图,该矩阵子模块可以执行分析模块(例如分析模块220内的块425和426)的矩阵形成方法。矩阵子模块829被配置成限定从输入信号估计的一个或多个音高的每一个的矩阵M。更具体地,块425和426的每一个执行矩阵子模块829以产生矩阵M,如本文中更详细地所述。例如,在图4的块425中,矩阵子模块829可以限定第一音高估计量(例如P1)的矩阵M,并且在图4的块426中,可以独立地限定第二音高估计量(例如P2)的另一个矩阵M。如将要论述的,第一音高估计量P1的矩阵M可以被称为矩阵V1并且第二音高估计量P2的矩阵M可以被称为矩阵V2。语音提取方法中的后续块或子模块(例如块427)然后可以使用矩阵V1和V2来导出输入信号s的一个或多个信号分量估计量,如本文中更详细地所述。
为了该论述,矩阵子模块829使用关于块424在图4中所述的音高估计量P1和P2。例如,当矩阵子模块829由图4中的块425实现时,矩阵子模块829可以接收并且在它的计算中使用第一音高估计量P1。当矩阵子模块829由图4中的块426实现时,矩阵子模块829可以接收并且在它的计算中使用第二音高估计量P2。在一些实施例中,矩阵子模块829被配置成接收来自多音高检测子模块(例如多音高检测子模块324)的音高估计量P1和/或P2。音高估计量P1和P2可以以任何合适的形式(例如样本的数量)发送到矩阵子模块829。例如,矩阵子模块829可以接收数据,该数据指示43个样本对应于在8,000Hz的采样频率(Fs)下的5.4msec的音高估计量(例如音高估计量P1)。以该方式,音高估计量(例如音高估计量P1)可以是固定的,而样本将随着Fs变化。然而在其它实施例中,音高估计量P1和/或P2可以作为音高频率被发送到矩阵子模块829,然后可以根据样本的数量在内部转换成它们的相应音高估计量。
当矩阵子模块829接收音高估计量PN时开始矩阵形成方法(其中N在块425中是1或者在块426中是2)。可以按照任何顺序处理音高估计量P1和P2。
第一音高估计量P1被传到块825和826并且用于形成矩阵M1和M2。更具体地,第一音高估计量P1的值应用于在块825中确定的函数以及在块826中确定的函数。音高估计量P1可以按照任何顺序由块825和826处理。在一些实施例中,首先在块825接收并且处理音高估计量P1(反之亦然),而在其它实施例中,并行地或大致同时地在块825和826接收音高估计量P1。下面再现了块825的函数:
其中是n是M1的行数,k是M1的列数,并且Fs是对应于第一音高估计量P1的T-F单位的采样率。矩阵M1可以是具有L行和F列的任何大小。下面以类似的变量再现了在块826中确定的函数:
应当认识到矩阵M1与矩阵M2的区别在于M1应用负指数,而M2应用正指数。
矩阵M1和M2被传到块827,在该块将它们的相应列F加在一起以形成对应于第一音高估计量P1的单矩阵M。所以,矩阵M具有由Lx2F限定的大小并且可以被称为矩阵V1。相同的方法应用于第二音高估计量P2(例如在图4中的块426中)以形成可以被称为V2的第二矩阵M。矩阵V1和V2例如可以被传到图4中的块427并且然后加在一起以形成矩阵V。
图9是信号分离子模块928的示意图,该信号分离子模块可以执行分析模块(例如分析模块220内的块428)的信号分离方法。更具体地,信号分离子模块928被配置成基于先前导出的音高估计量估计输入信号的一个或多个分量并且然后将那些估计分量从输入信号分离。信号分离子模块928使用图9中所示的各块执行该方法。
如上所述,输入信号可以被滤波成多个时间-频率单位。信号分离子模块928被配置成串联地收集这些时间-频率单位中的一个或多个并且限定向量x,如图9中的块951中所示。该向量x然后被传到块952,该块也接收来自矩阵子模块(例如矩阵子模块829)的矩阵V和比率F。信号分离子模块928被配置成使用向量x、矩阵V和比率F在块952限定向量α。向量α可以被限定为:
α=(VH·V)-1·VH·x
其中VH是矩阵V的转置矩阵的负共轭矩阵。向量α例如可以表示超定方程组x=V·a的解并且可以使用任何合适的方法求出,所述方法包括迭代方法,例如单值分解方法、LU分解方法、QR分解方法和/或类似方法。
向量α接着被传到块953和954。在块953,信号分离子模块928被配置成抽取向量α的前2F个元素以形成较小向量b1。如图9中所示,向量b1可以被限定为:
b1=α·(1∶2F)
在块954,信号分离子模块928使用向量α的剩余元素(即,未在块953使用的向量α的F个元素)以形成另一个向量b2。在一些实施例中,向量b2可以为零。例如如果该特定信号的相应音高估计量(例如音高估计量P2)为零,则可能发生该情况。然而在其它实施例中,相应音高估计量可以为零,但是向量b2可以为非零值。
在块955信号分离子模块928再次使用矩阵V。在这里,分离子模块928被配置成从矩阵V抽取前两个F列以形成矩阵V1。矩阵V1例如可以与上面关于图8所述的矩阵V1相同或相似。以该方式,信号分离子模块928可以在块955操作以恢复来自图8的先前形成的矩阵M1,该矩阵对应于第一音高估计量P1。在块956信号分离子模块928使用矩阵V的剩余列以形成矩阵V2。类似地,矩阵V2可以与上面关于图8所述的矩阵V2相同或相似,并且由此对应于第二音高估计量P2。
在一些实施例中,信号分离子模块928可以在执行块953和/或954处的功能之前执行块955和/或956处的功能。在一些实施例中,信号分离子模块928可以与执行块953和/或954处的功能并行地或同时地执行块955和/或956处的功能。
如图6中所示,信号分离子模块928接着使来自块955的矩阵V1乘以来自块953的向量b1以产生输入信号的分量中的一个,xE 1[t,c]。类似地,类似地,信号分离子模块928使来自块956的矩阵V2乘以来自块954的向量b2以产生输入信号的分量中的一个,xE 2[t,c]。这些分量估计量xE 1[t,c]和xE 2[t,c]是输入信号的周期性分量(例如两个说话人的有声分量)的初始估计量,所述初始估计量可以在语音提取方法的剩余过程中用于确定最后估计量,如本文中所述。
在向量b2为零的情况下,相应估计第二分量xE 2[t,c]也将为零。不同于使空信号通过语音提取方法的剩余过程,信号分离子模块928(或其它子模块)可以将估计第二分量xE 2[t,c]设置成备选、非零值。换句话说,信号分离子模块928(或其它子模块)可以使用备选技术估计第二分量xE 2[t,c]应当为多少。一种技术将从估计第一分量xE 1[t,c]导出估计第二分量xE 2[t,c]。这例如可以从s[t,c]减去xE 1[t,c]而获得。备选地,从输入信号(即,输入信号s[t,c])的乘方减去估计第一分量xE 1[t,c]的乘方并且然后生成具有大致等于该乘方差的乘方的白噪声。所生成的白噪声被分配给估计第二分量xE 2[t,c]。
不管用于导出估计第二分量xE 2[t,c]的技术如何,信号分离子模块928被配置成输出两个估计分量。该输出然后例如可以由合成模块或它的子模块中的任何一个使用。在一些实施例中,信号分离子模块928也被配置成输出第三信号估计量xE 3[t,c],该第三信号估计量是输入信号自身的估计量。信号分离子模块928可以通过将两个估计分量相加在一起而简单地计算第三信号估计量xE[t,c],即,xE[t,c]=xE 1[t,c]+xE 2[t,c]。在其它实施例中,信号可以作为两个估计分量的加权估计量被计算,例如xE[t,c]=α1xE 1[t,c]+α2xE 2[t,c],其中α1和α2是一些用户限定常数或信号依赖变量。
图10是可靠性子模块1100的第一实施例的块图,该可靠性子模块可以执行合成模块(例如合成模块230内的块432)的可靠性测试方法。可靠性子模块1100被配置成确定由分析模块计算和输出的一个或多个估计信号的可靠性。如先前所述,可靠性子模块1100被配置成用作基于阈值的开关。
可靠性子模块1100使用图10中所示的各块执行可靠性测试方法。在开始,在块1102和1104,可靠性子模块1100接收输入信号的估计量xE[t,c]。如上所述,信号估计量xE[t,c]是第一信号估计量xE 1[t,c]和第二信号估计量xE 2[t,c]的和。在块1102,信号估计量xE[t,c]的乘方被计算并且确定为Px[t,c]。在块1104,可靠性子模块1100接收输入信号s[t,c](例如图4中所示的信号s[t,c])并且然后从输入信号s[t,c]减去信号估计量xE[t,c]以产生噪声估计量nE[t,c](也被称为残余信号)。噪声估计量nE[t,c]的乘方在块1104被计算并且确定为Pn[t,c]。
信号估计量的乘方Px[t,c]和噪声估计量的乘方Pn[t,c]被传到块1106,该块计算信号估计量的乘方Px[t,c]与噪声估计量的乘方Pn[t,c]的比率。更特别地,块1106被配置成计算信号估计量xE[t,c]的信噪比。该比率在块1106被确定为Px[t,c]/Pn[t,c]并且在图10中被进一步确定为信噪比SNR[t,c]。
信噪比SNR[t,c]被传到块1108,该块为可靠性子模块1100提供它的类似开关功能。在块1108,信噪比SNR[t,c]与可以被限定为T[t,c]的阈值比较。阈值T[t,c]可以是任何合适的值或函数。在一些实施例中,阈值T[t,c]是固定值,而在其它实施例中,阈值T[t,c]是自适应阈值。例如,在一些实施例中,阈值T[t,c]对于每个信道和时间单位是不同的。阈值T[t,c]可以是若干变量的函数,例如来自由可靠性子模块1100分析的先前或当前T-F单位(即,信号s[t,c])的信号估计量xE[t,c]和/或噪声估计量nE[t,c]的变量。
如图10中所示,如果在块1108信噪比SNR[t,c]不超过阈值T[t,c],则可靠性子模块1100认为信号估计量xE[t,c]是不可靠的估计量。在一些实施例中,当认为信号估计量xE[t,c]不可靠时,它的相应信号估计量xE[t,c]中的一个或多个(例如xE 1[t,c]和/或xE 2[t,c])也被认为是不可靠估计量。然而在其它实施例中,相应信号估计量的每一个由信号分离子模块928独立地评价并且每一个的结果几乎不暴露于其它相应信号估计量。如果在块1108信噪比SNR[t,c]不超过阈值T[t,c],则认为信号估计量xE[t,c]是可靠估计量。
在确定信号估计量xE[t,c]的可靠性之后,适当的尺度值(在图10中被确定为m[t,c])被传到块1110(或块1112)以与信号估计量xE 1[t,c]和/或xE 2[t,c]相乘。如图10中所示,用于不可靠信号估计量的尺度值m[t,c]被设置为0.1,而用于可靠信号估计量的尺度值m[t,c]被设置为1.0。所以不可靠信号估计量减小到它们的初始乘方的十分之一,而可靠估计量的乘方保持相同。以该方式,可靠性子模块1100在没有修改的情况下(即,相同地)将可靠信号估计量传到下一个处理级。传到下一个处理级的信号(经修改的或相同的)分别被称为sE 1[t,c]和sE 2[t,c]。
图13是组合器子模块1300的示意图,该组合器子模块可以执行合成模块(例如合成模块230内的块434)的重建或重组方法。更具体地,组合器子模块1300被配置成接收来自每个信道c的可靠性子模块(例如可靠性子模块432)的信号估计量sE N[t,c]并且组合那些信号估计量sE N[t,c]以产生经重建的信号sE N[t]。在这里,变量“N”可以是1或2,原因是它们分别与音高估计量P1和P2相关。
如图13中所示,信号估计量sE N[t,c]通过包括一组滤波器1302a-x(统称为1302)滤波器组1301。每个信道c包括针对它的相应频道c配置的一个滤波器(例如滤波器1302a)。在一些实施例中,滤波器1302的参数是用户限定的。滤波器组1301可以被称为重建滤波器组。滤波器组1301和其中滤波器1302可以是被配置成便于重建跨越多个信道c的一个或多个信号的任何合适的滤波器组和/或滤波器。
一旦信号估计量sE N[t,c]被滤波,组合器子模块1300被配置成合计跨越每个信道的经滤波的信号估计量sE N[t,c]以产生指定时间t的单信号估计量sE[t]。所以单信号估计量sE[t]不再是一个或多个信道的函数。另外,对于指定时间t的输入信号s的该特定部分T-F单位不再存在于系统中。
图14是用于实现语音分离方法1400的备选实施例。语音分离方法功能的块1401、1402、1403、1405、1406、1407、1410E1和1410E2以类似于图4中所示的语音分离方法的块421、422、423、425、426、427、434E1和434E2的方式工作和操作,并且因此未在本文中详细地进行描述。语音分离方法1400与图4中所示的语音分离方法400的区别至少部分在于语音分离方法1400确定估计信号的可靠性的机制或方法。在本文中将仅仅详细地论述与图4中所示的语音分离方法400不同的语音分离方法1400的那些部件。
语音分离方法1400包括以类似于图4中所示和所述的多音高检测器块424的方式操作和工作的多音高检测器块1404。然而,除了将音高估计量P1和P2传到矩阵块1405和1406进行进一步处理以外,多音高检测器块1404被配置成将音高估计量P1和P2直接传到尺度函数块1409。
语音分离方法1400包括分离块1408,该分离块也以类似于图4中所示和所述的方式操作和工作。然而,分离块1408仅仅计算并且输出两个信号估计量进行进一步处理,即,第一信号xE 1[t,c](即,对应于第一音高估计量P1的估计量)和第二信号xE 2[t,c](即,对应于第二音高估计量P2的估计量)。所以,分离块1408不计算第三信号估计量(例如总输入信号的估计量)。然而在一些实施例中,分离块1408可以计算这样的第三信号估计量。分离块1408可以以上面参考图4所述的任何方式计算第一信号估计量xE 1[t,c]和第二信号估计量xE 2[t,c]。
语音分离方法1400包括第一尺度函数块1409a和第二尺度函数块1409b。第一尺度函数块1409a被配置成接收第一信号估计量xE 1[t,c]和传自多音高检测器块1404的音高估计量P1和P2。第一尺度函数块1409a可以例如使用专门为该信号导出的尺度函数评价第一信号估计量xE 1[t,c]以确定该信号的可靠性。在一些实施例中,用于第一信号估计量xE 1[t,c]的尺度函数可以是第一信号估计量的乘方(例如P1[t,c])、第二信号估计量的乘方(例如P2[t,c])、噪声估计量的乘方(例如Pn[t,c])、原始信号的乘方(例如Pt[t,c])和/或输入信号的估计量的乘方(例如Px[t,c])的函数。该第一尺度函数块1409a处的尺度函数还可以针对特定的第一尺度函数块1409a位于其中的特定频道进行配置。图11描述了第一尺度函数块1409a可以用以评价第一信号估计量xE 1[t,c]以确定它的可靠性的一种特定技术。
返回图14,第二尺度函数块1409b被配置成接收第二信号估计量xE 2[t,c]以及音高估计量P1和P2。第二尺度函数块1409b可以例如使用专门为该信号导出的尺度函数评价第二信号估计量xE 2[t,c]以确定信号的可靠性。换句话说,在一些实施例中,在第二尺度函数块1409b用于评价第二信号估计量xE 2[t,c]的尺度函数对于第二信号估计量xE 2[t,c]是唯一的。以该方式,在第二尺度函数块1409b的尺度函数可以不同于在第一尺度函数块1409a的尺度函数。在一些实施例中,用于第二信号估计量xE 2[t,c]的尺度函数可以是第一信号估计量的乘方(例如P1[t,c])、第二信号估计量的乘方(例如P2[t,c])、噪声估计量的乘方(例如Pn[t,c])、原始信号的乘方(例如Pt[t,c])和/或输入信号的估计量的乘方(例如Px[t,c])的函数。而且,在第二尺度函数块1409b的尺度函数可以针对特定的第二尺度函数块1409b位于其中的特定频道进行配置。图12描述了第二尺度函数块1409b可以用以评价第二信号估计量xE 2[t,c]以确定它的可靠性的一种特定技术。
返回图14,在第一尺度函数块1409a处理第一信号估计量xE 1[t,c]之后,现在表示为sE 1[t,c]的经处理的第一信号估计量被传到块1410E1进行进一步处理。类似地,在第二尺度函数块1409b处理第二信号估计量xE 2[t,c]之后,现在表示为sE 2[t,c]的经处理的第二信号估计量被传到块1410E2进行进一步处理。块1410E1和1410E2可以以类似于关于图4所示和所述的块434E1和434E2的方式工作和操作。
图11是适合用于第一信号估计量(例如第一信号估计量xE 1[t,c])的尺度子模块1201的块图。图12是适合用于第二信号估计量(例如第二信号估计量xE 2[t,c])的尺度子模块1202的块图。除了分别在块1214和1224中导出的函数以外,由图11中的尺度子模块1201执行的方法大致类似于由图12中的尺度子模块1202执行的方法。
首先参考图11,在块1210,尺度子模块1201被配置成接收例如来自分离块的第一信号估计量xE 1[t,c],并且计算第一信号估计量xE 1[t,c]的乘方。该算出的乘方表示为PE 1[t,c]。在块1211,尺度子模块1201被配置成接收例如来自相同的分离块的第二信号估计量xE 2[t,c],并且计算第二信号估计量xE 2[t,c]的乘方。该算出的乘方表示为PE 2[t,c]。类似地,在块1212,尺度子模块1201被配置成接收输入信号s[t,c](或输入信号s的至少一些T-F单位),并且计算输入信号s[t,c]的乘方。该算出的乘方表示为PT[t,c]。
块1213接收以下信号串:s[t,c]-(xE 1[t,c]+xE 2[t,c])。更具体地,块1213接收通过从输入信号s[t,c]减去输入信号的估计量(限定为xE 1[t,c]+xE 2[t,c])计算的残余信号(即,噪声信号)。块1213然后计算该残余信号的乘方。该算出的乘方表示为PN[t,c]。
算出的乘方PE 1[t,c]、PE 2[t,c]和PT[t,c]与来自块1213的乘方PN[t,c]一起给送到块1214。函数块1214基于以上输入生成尺度函数λ1并且然后使尺度函数λ1乘以第一信号估计量xE 1[t,c]以产生尺度信号估计量sE 1[t,c]。尺度函数λ1表示为:
λ1=fP1.p2.c(PE 1[t,c],PE 2[t,c],PT[t,c],PN(t,c]).
尺度信号估计量sE 1[t,c]然后被传到语音分离方法中的后续方法或子模块。在一些实施例中,对于每个信道尺度函数λ1可以是不同的(或自适应的)。例如,在一些实施例中,每个音高估计量P1和/或P2和/或每个信道可以具有它自己的单独的预定尺度函数λ1或λ2。
现在参考图12,块1220、1221、1222和1223以分别类似于图11中所示的块1210、1211、1212和1213的方式工作并且因此未在本文中详细地进行论述。函数块1224基于以上输入生成尺度函数λ2并且然后将尺度函数λ2应用于第二信号估计量xE 2[t,c]以产生尺度信号估计量sE 2[t,c]。尺度函数λ2表示为:
λ2=fP1,P2,c(PE 2[t,c],PE 1[t,c],PT[t,c],Pn[t,c]).尺度函数λ2中的乘方估计量PE 2[t,c]和PE 1[t,c]的布置不同于尺度函数λ1中的那些相同估计量的布置。然而对于图12中所示的尺度函数λ2,乘方估计量PE 2[t,c]在函数中具有更高优先级。然而对于图11中所示的尺度函数λ1,乘方估计量PE 1[t,c]在函数中具有更高优先级。在其它方面,尺度函数λ1和λ2是几乎相同的。对于输入信号的该特定部分,对应于第一说话人的语音分量(即,第一信号估计量xE 1[t,c])大体上比对应于第二说话人的语音分量(即,第二信号估计量xE 2[t,c])更强。通过比较图15A-C中的波形的幅值可以看到能量的该差异。
图15A、15B和15C示出了特定应用中的语音提取方法。图15A是由提取或估计信号(灰线)重叠的真实语音混合(黑线)的图形表示1500。真实语音混合包括例如来自两个不同说话人(A和B)的两个周期性分量(未识别)。以该方式,真实语音混合包括第一有声分量A和第二有声分量B。然而在一些实施例中,真实语音混合可以包括一个或多个非语音分量(由A和/或B表示)。真实语音混合也可以包括非期望的非周期性或无声分量(例如噪声)。如图15中所示,在提取信号(灰线)和真实语音混合(黑线)之间有接近匹配。
图15B是由使用语音提取方法提取的估计第一信号分量(灰线)重叠的来自真实语音混合的真实第一信号分量(黑线)的图形表示1501。真实第一信号分量例如可以表示第一说话人(即,说话人A)的语音。如图15B中所示,经提取的第一信号分量在其幅值(或对语音混合的相对贡献)和其时间性质以及细微结构方面接近地模拟真实第一信号分量。
图15C是由使用语音提取方法提取的估计第二信号分量(灰线)重叠的来自真实语音混合的真实第二信号分量(黑线)的图形表示1502。真实第二信号分量例如可以表示第二说话人(即,说话人B)的语音。尽管在经提取的第二信号分量和真实第二信号分量之间存在接近匹配,但是经提取的第二信号分量与真实第二信号分量的匹配程度不如经提取的第一信号分量与真实第一信号分量的匹配程度高。这部分地由于真实第一信号分量比真实第二信号分量更强,即,第一说话人比第二说话人更强。第二信号分量实际上比第一信号分量近似地弱6dB(或4倍)。然而经提取的第二分量仍然在幅值和时间、细微结构方面接近地模拟真实第二分量。
图15C示出了语音提取系统/方法的特性的例子,尽管语音混合的该特定部分由第一说话人支配,但是语音提取方法仍然能够提取第二说话人的信息并且共享两个说话人之间的混合能量。
尽管上面已描述了各实施例,但是应当理解它们仅仅作为例子而不是限制被提供。在上述方法指示按照某个顺序发生的某些事件的情况下,某些事件的排序可以被修改。另外,在可能的情况下某些事件可以在并行方法中同时执行,以及如上所述顺序地执行。
尽管分析模块220在图3中被示出和描述为包括滤波器子模块321、多音高检测器子模块324和信号分离子模块328和它们的相应功能,但是在其它实施例中,合成模块230可以包括滤波器子模块321、多音高检测器子模块324和/或信号分离子模块328和/或它们相应功能中的任何一个。类似地,尽管合成模块230在图3中被示出和描述为包括功能子模块332和组合器子模块334和它们的相应功能,然而在其它实施例中,分析模块220可以包括功能子模块332和/或组合器子模块334和/或它们的相应功能中的任何一个。在另外的其它实施例中,以上子模块中的一个或多个可以与分析模块220和/或合成模块230分离使得它们是独立模块或是另一个模块的子模块。
在一些实施例中,分析模块(或更具体地,多音高追踪子模块)可以使用2D平均幅值差函数(AMDF)来检测并且估计指定信号的两个音高周期。在一些实施例中,2D AMDF方法可以修改为3DAMDF使得可以同时估计三个音高周期(例如三个说话人)。以该方式,语音提取方法可以检测或提取三个不同说话人的重叠语音分量。在一些实施例中,分析模块和/或多音高追踪子模块可以使用2D自相关函数(ACF)来检测并且估计指定信号的两个音高周期。类似地,在一些实施例中,2D ACF可以修改为3D ACF。
在一些实施例中,语音提取方法可以用于实时地处理信号。例如,语音提取可以用于处理在电话交谈期间从该电话交谈导出的输入和/或输出信号。然而在其它实施例中,语音提取方法可以用于处理记录信号。
尽管上面论述了语音提取方法在音频装置(例如手机)中用于处理具有较少数量的分量(例如两个或三个说话人)的信号,但是在其它实施例中,语音提取方法可以更大规模地用于处理具有任何数量的分量的信号。例如,语音提取方法可以从包括来自嘈杂房间的噪声的信号识别20个说话人。然而应当理解用于分析信号的处理能力随着待识别的语音分量的数量的增加而增加。所以,具有更大处理能力的更大装置(例如超级计算机或大型计算机)可以更好地适合于处理这些信号。
在一些实施例中,图1中所示的装置100的部件中的任何一个或图2或3中所示的模块中的任何一个可以包括计算机可读介质(也可以被称为处理器可读介质),所述介质在其上具有用于执行各种计算机执行操作的指令或计算机代码。介质和计算机代码(也可以被称为代码)可以是为了一个或多个特定目的而设计和构造的。计算机可读介质的例子包括、但不限于:磁存储介质,例如硬盘、软盘和磁带;光存储介质,例如光盘/数字视频光谱(CD/DVDs)、只读光盘驱动器(CD-ROMs)和全息装置;磁光存储介质,例如光学盘;载波信号处理模块;以及专门配置成存储并且执行程序代码的硬件装置,例如专用集成电路(ASICs)、可编程逻辑装置(PLDs)以及只读存储器(ROM)和随机存取存储器(RAM)装置。
计算机代码的例子包括、但不限于微代码或微指令、例如由编译器产生的机器指令、用于产生网络服务的代码以及包含由计算机使用解释器执行的更高级指令的文件。例如,可以使用Java、C++或其它编程语言(例如面向对象编程语言)和开发工具实现实施例。计算机代码的附加例子包括、但不限于控制信号、加密代码和压缩代码。
尽管各实施例被描述为具有特定特征和/或部件的组合,但是在适当的情况下具有来自任何实施例的任何特征和/或部件的组合的其它实施例是可能的。
Claims (20)
1.一种用于语音提取的方法,包括:
接收同时具有与第一源相关联的第一分量和与第二源相关联的第二分量的输入信号,所述第一源与所述第二源不同;
基于所述输入信号的所述第一分量的音高的估计量计算所述输入信号的所述第一分量的估计量,其中计算所述输入信号的所述第一分量的估计量包括将所述输入信号的所述第一分量的估计量与所述输入信号分离;
基于所述输入信号的所述第二分量的音高的估计量计算所述输入信号的所述第二分量的估计量,其中计算所述输入信号的所述第二分量的估计量包括将所述输入信号的所述第二分量的估计量与所述输入信号分离;
基于所述输入信号的所述第一分量的估计量和所述输入信号的所述第二分量的估计量计算所述输入信号的估计量;以及
基于尺度函数修改所述输入信号的所述第一分量的估计量以产生所述输入信号的经重建的第一分量,所述尺度函数是所述输入信号、所述输入信号的所述第一分量的估计量、所述输入信号的所述第二分量的估计量或从所述输入信号和所述输入信号的估计量导出的残余信号中的至少一个的函数。
2.根据权利要求1所述的方法,其中所述尺度函数是第一尺度函数,所述方法还包括:
基于第二尺度函数修改所述输入信号的所述第二分量的估计量以产生所述输入信号的经重建的第二分量,所述第二尺度函数不同于所述第一尺度函数并且是所述输入信号、所述输入信号的所述第一分量的估计量、所述输入信号的所述第二分量的估计量或所述残余信号中的至少一个的函数。
3.根据权利要求1所述的方法,还包括:
基于所述输入信号的所述经重建的第一分量的至少一个特性将所述第一源分配给所述输入信号的所述第一分量。
4.根据权利要求1所述的方法,还包括:
以指定帧率采样所述输入信号持续多个帧,来自所述多个帧的每个帧与多个频道关联,
其中计算所述输入信号的所述第一分量的估计量包括在来自所述多个帧的每个帧的所述多个频道的每个频道计算所述输入信号的所述第一分量的估计量,
其中所述修改包括用于基于尺度函数在来自所述多个帧的每个帧的所述多个频道的每个频道修改所述输入信号的所述第一分量的每个估计量,所述尺度函数基于来自所述多个频道的频道自适应,在所述输入信号的所述第一分量的每个经修改的估计量跨越来自所述多个帧的每个帧的所述多个频道的每个频道组合之后产生所述输入信号的所述经重建的第一分量。
5.根据权利要求1所述的方法,其中所述尺度函数被配置成用作非线性函数、线性函数或基于阈值的开关中的一个。
6.根据权利要求1所述的方法,其中所述残余信号对应于从所述输入信号减去所述输入信号的估计量。
7.根据权利要求1所述的方法,其中所述方法由用户的装置的数字信号处理器执行。
8.根据权利要求1所述的方法,其中所述尺度函数是所述输入信号的所述第一分量的估计量的乘方、所述输入信号的所述第二分量的估计量的乘方、所述输入信号的乘方和所述残余信号的乘方的函数。
9.根据权利要求1所述的方法,其中所述尺度函数基于所述输入信号的所述第一分量的音高的估计量自适应所述输入信号的所述第一分量的估计量。
10.一种用于语音提取的系统,其包括:
分析模块,所述分析模块被配置成接收同时具有与第一源相关联的第一分量和与第二源相关联的第二分量的输入信号,所述第一源与所述第二源不同,所述分析模块被配置成计算与所述输入信号的所述第一分量关联的第一信号估计量,所述分析模块被配置成计算与所述输入信号的所述第一分量或所述输入信号的所述第二分量中的任何一个关联的第二信号估计量,所述分析模块被配置成计算从所述第一信号估计量和所述第二信号估计量导出的第三信号估计量,其中计算所述第一信号估计量包括将所述第一信号估计量与所述输入信号分离,计算所述第二信号估计量包括将所述第二信号估计量与所述输入信号分离;以及
合成模块,所述合成模块被配置成基于尺度函数修改所述第一信号估计量以产生所述输入信号的经重建的第一分量,所述尺度函数是所述输入信号的乘方、所述第一信号估计量的乘方、所述第二信号估计量的乘方或基于所述输入信号和所述第三信号估计量计算的残余信号的乘方中的至少一个导出的函数。
11.根据权利要求10所述的系统,其还包括:
聚类模块,所述聚类模块被配置成基于所述输入信号的所述经重建的第一分量的至少一个特性,将第一源分配给所述输入信号的所述第一分量。
12.根据权利要求10所述的系统,其中所述分析模块被配置成估计所述输入信号的所述第一分量的音高以产生所述输入信号的所述第一分量的估计音高,所述分析模块被配置成基于所述输入信号的所述第一分量的估计音高计算所述第一信号估计量。
13.根据权利要求10所述的系统,其中所述尺度函数是第一尺度函数,所述合成模块被配置成基于第二尺度函数修改所述第二信号估计量以产生所述输入信号的经重建的第二分量,所述第二尺度函数不同于所述第一尺度函数。
14.根据权利要求10所述的系统,其中当所述输入信号的所述第一分量是有声语音信号并且所述输入信号的所述第二分量是噪声时,基于所述尺度函数修改所述第二信号估计量以产生所述输入信号的经重建的第二分量。
15.根据权利要求10所述的系统,其中所述合成模块被配置成通过从所述输入信号减去所述第三信号估计量计算残余噪声。
16.根据权利要求10所述的系统,其中所述尺度函数基于所述输入信号的所述第一分量的频道或所述输入信号的所述第一分量的音高估计量是自适应的。
17.根据权利要求10所述的系统,其中所述输入信号的所述第一分量是有声语音信号,所述输入信号的所述第二分量是噪声。
18.根据权利要求10所述的系统,其中所述第一分量是大致周期性的。
19.根据权利要求10所述的系统,其中所述分析模块被配置成基于所述第一信号估计量的乘方和所述输入信号的乘方计算所述第二信号估计量。
20.一种用于语音提取的方法,包括:
接收与来自多个频道的频道的输入信号的分量关联的第一信号估计量,其中所述第一信号估计量与所述输入信号分离;
接收与来自所述多个频道的所述频道的所述输入信号关联的第二信号估计量,所述第二信号估计量从所述第一信号估计量导出;
基于来自所述多个频道的所述频道、所述第一信号估计量的乘方或从所述第二信号估计量和所述输入信号导出的残余信号的乘方中的至少一个计算尺度函数;
基于所述尺度函数修改来自所述多个频道的所述频道的所述第一信号估计量以产生来自所述多个频道的所述频道的经修改的第一信号估计量;以及
组合来自所述多个频道的所述频道的所述经修改的第一信号估计量和来自所述多个频道的每个剩余频道的经修改的第一信号估计量以重建所述输入信号的所述分量,从而产生所述输入信号的经重建的分量。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US29977610P | 2010-01-29 | 2010-01-29 | |
US61/299,776 | 2010-01-29 | ||
PCT/US2011/023226 WO2011094710A2 (en) | 2010-01-29 | 2011-01-31 | Systems and methods for speech extraction |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103038823A CN103038823A (zh) | 2013-04-10 |
CN103038823B true CN103038823B (zh) | 2017-09-12 |
Family
ID=44320206
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201180013528.7A Expired - Fee Related CN103038823B (zh) | 2010-01-29 | 2011-01-31 | 用于语音提取的系统和方法 |
Country Status (4)
Country | Link |
---|---|
US (2) | US20110191102A1 (zh) |
EP (1) | EP2529370B1 (zh) |
CN (1) | CN103038823B (zh) |
WO (1) | WO2011094710A2 (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8666734B2 (en) | 2009-09-23 | 2014-03-04 | University Of Maryland, College Park | Systems and methods for multiple pitch tracking using a multidimensional function and strength values |
EP2529370B1 (en) | 2010-01-29 | 2017-12-27 | University of Maryland, College Park | Systems and methods for speech extraction |
JP5649488B2 (ja) * | 2011-03-11 | 2015-01-07 | 株式会社東芝 | 音声判別装置、音声判別方法および音声判別プログラム |
US8620646B2 (en) * | 2011-08-08 | 2013-12-31 | The Intellisis Corporation | System and method for tracking sound pitch across an audio signal using harmonic envelope |
WO2013142695A1 (en) | 2012-03-23 | 2013-09-26 | Dolby Laboratories Licensing Corporation | Method and system for bias corrected speech level determination |
US10839309B2 (en) * | 2015-06-04 | 2020-11-17 | Accusonus, Inc. | Data training in multi-sensor setups |
KR102444061B1 (ko) * | 2015-11-02 | 2022-09-16 | 삼성전자주식회사 | 음성 인식이 가능한 전자 장치 및 방법 |
WO2017094862A1 (ja) * | 2015-12-02 | 2017-06-08 | 日本電信電話株式会社 | 空間相関行列推定装置、空間相関行列推定方法および空間相関行列推定プログラム |
CN109308909B (zh) * | 2018-11-06 | 2022-07-15 | 北京如布科技有限公司 | 一种信号分离方法、装置、电子设备及存储介质 |
CN110827850B (zh) * | 2019-11-11 | 2022-06-21 | 广州国音智能科技有限公司 | 音频分离方法、装置、设备及计算机可读存储介质 |
WO2021252795A2 (en) * | 2020-06-11 | 2021-12-16 | Dolby Laboratories Licensing Corporation | Perceptual optimization of magnitude and phase for time-frequency and softmask source separation systems |
KR20230042998A (ko) * | 2021-09-23 | 2023-03-30 | 한국전자통신연구원 | 음성 구간 분리 장치 및 그 방법 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101366078A (zh) * | 2005-10-06 | 2009-02-11 | Dts公司 | 从单音音频信号分离音频信源的神经网络分类器 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6493665B1 (en) * | 1998-08-24 | 2002-12-10 | Conexant Systems, Inc. | Speech classification and parameter weighting used in codebook search |
US6507814B1 (en) * | 1998-08-24 | 2003-01-14 | Conexant Systems, Inc. | Pitch determination using speech classification and prior pitch estimation |
US6549587B1 (en) * | 1999-09-20 | 2003-04-15 | Broadcom Corporation | Voice and data exchange over a packet based network with timing recovery |
US6801887B1 (en) * | 2000-09-20 | 2004-10-05 | Nokia Mobile Phones Ltd. | Speech coding exploiting the power ratio of different speech signal components |
US7171355B1 (en) * | 2000-10-25 | 2007-01-30 | Broadcom Corporation | Method and apparatus for one-stage and two-stage noise feedback coding of speech and audio signals |
US7240001B2 (en) * | 2001-12-14 | 2007-07-03 | Microsoft Corporation | Quality improvement techniques in an audio encoder |
US20030182106A1 (en) * | 2002-03-13 | 2003-09-25 | Spectral Design | Method and device for changing the temporal length and/or the tone pitch of a discrete audio signal |
US7574352B2 (en) * | 2002-09-06 | 2009-08-11 | Massachusetts Institute Of Technology | 2-D processing of speech |
US20080046249A1 (en) * | 2006-08-15 | 2008-02-21 | Broadcom Corporation | Updating of Decoder States After Packet Loss Concealment |
KR100930584B1 (ko) * | 2007-09-19 | 2009-12-09 | 한국전자통신연구원 | 인간 음성의 유성음 특징을 이용한 음성 판별 방법 및 장치 |
US8538749B2 (en) * | 2008-07-18 | 2013-09-17 | Qualcomm Incorporated | Systems, methods, apparatus, and computer program products for enhanced intelligibility |
US8666734B2 (en) * | 2009-09-23 | 2014-03-04 | University Of Maryland, College Park | Systems and methods for multiple pitch tracking using a multidimensional function and strength values |
EP2529370B1 (en) | 2010-01-29 | 2017-12-27 | University of Maryland, College Park | Systems and methods for speech extraction |
-
2011
- 2011-01-31 EP EP11737836.4A patent/EP2529370B1/en not_active Not-in-force
- 2011-01-31 US US13/018,064 patent/US20110191102A1/en not_active Abandoned
- 2011-01-31 WO PCT/US2011/023226 patent/WO2011094710A2/en active Application Filing
- 2011-01-31 CN CN201180013528.7A patent/CN103038823B/zh not_active Expired - Fee Related
-
2015
- 2015-08-12 US US14/824,623 patent/US9886967B2/en not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101366078A (zh) * | 2005-10-06 | 2009-02-11 | Dts公司 | 从单音音频信号分离音频信源的神经网络分类器 |
Also Published As
Publication number | Publication date |
---|---|
EP2529370A4 (en) | 2014-07-30 |
CN103038823A (zh) | 2013-04-10 |
US20160203829A1 (en) | 2016-07-14 |
EP2529370B1 (en) | 2017-12-27 |
US9886967B2 (en) | 2018-02-06 |
WO2011094710A2 (en) | 2011-08-04 |
US20110191102A1 (en) | 2011-08-04 |
EP2529370A2 (en) | 2012-12-05 |
WO2011094710A3 (en) | 2013-08-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103038823B (zh) | 用于语音提取的系统和方法 | |
US10650796B2 (en) | Single-channel, binaural and multi-channel dereverberation | |
US20170061978A1 (en) | Real-time method for implementing deep neural network based speech separation | |
US10381025B2 (en) | Multiple pitch extraction by strength calculation from extrema | |
US8972255B2 (en) | Method and device for classifying background noise contained in an audio signal | |
KR101935183B1 (ko) | 멀티-채널 오디오 신호 내의 음성 성분을 향상시키는 신호 처리 장치 | |
US20160284346A1 (en) | Deep neural net based filter prediction for audio event classification and extraction | |
US20100067710A1 (en) | Noise spectrum tracking in noisy acoustical signals | |
Roman et al. | Pitch-based monaural segregation of reverberant speech | |
Kumar | Real-time performance evaluation of modified cascaded median-based noise estimation for speech enhancement system | |
US9245538B1 (en) | Bandwidth enhancement of speech signals assisted by noise reduction | |
Dadvar et al. | Robust binaural speech separation in adverse conditions based on deep neural network with modified spatial features and training target | |
Kim et al. | Nonlinear enhancement of onset for robust speech recognition. | |
CN114041185A (zh) | 用于确定深度过滤器的方法和装置 | |
Mack et al. | Declipping speech using deep filtering | |
WO2017143334A1 (en) | Method and system for multi-talker babble noise reduction using q-factor based signal decomposition | |
Hepsiba et al. | Computational intelligence for speech enhancement using deep neural network | |
Muhsina et al. | Signal enhancement of source separation techniques | |
Chu et al. | Suppressing reverberation in cochlear implant stimulus patterns using time-frequency masks based on phoneme groups | |
Mahmoodzadeh et al. | A hybrid coherent-incoherent method of modulation filtering for single channel speech separation | |
Roman et al. | A pitch-based model for separation of reverberant speech | |
Roman et al. | Pitch-Based Segregation of Reverberant Speech | |
Qi et al. | Cepstral smoothing of masks for single-channel speech segregation | |
George et al. | Co-Channel Speech Separation By Cochlear Filtering and Binary Masking | |
Kamaraju et al. | Speech Enhancement Technique Using Eigen Values |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170912 Termination date: 20180131 |