[go: up one dir, main page]

CN106653048A - 基于人声模型的单通道声音分离方法 - Google Patents

基于人声模型的单通道声音分离方法 Download PDF

Info

Publication number
CN106653048A
CN106653048A CN201611237076.1A CN201611237076A CN106653048A CN 106653048 A CN106653048 A CN 106653048A CN 201611237076 A CN201611237076 A CN 201611237076A CN 106653048 A CN106653048 A CN 106653048A
Authority
CN
China
Prior art keywords
power
sound
frequency
people
formula
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611237076.1A
Other languages
English (en)
Other versions
CN106653048B (zh
Inventor
曹裕行
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Yunzhixin Intelligent Technology Co Ltd
Unisound Shanghai Intelligent Technology Co Ltd
Original Assignee
SHANGHAI YUZHIYI INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI YUZHIYI INFORMATION TECHNOLOGY Co Ltd filed Critical SHANGHAI YUZHIYI INFORMATION TECHNOLOGY Co Ltd
Priority to CN201611237076.1A priority Critical patent/CN106653048B/zh
Publication of CN106653048A publication Critical patent/CN106653048A/zh
Application granted granted Critical
Publication of CN106653048B publication Critical patent/CN106653048B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明涉及一种基于人声模型的单通道声音分离方法,包括如下步骤:利用源滤波器模型建立人声模型,所建立的人声模型包括声带振动功率模型和声道口腔的滤波滤波器模型;提供输入信号;利用所述声带振动功率模型和所述声道口腔的滤波滤波器模型构建所述输入信号的人声功率;构建所述输入信号的背景声功率;依据所构建的人声功率和背景声功率对所述输入信号重建信号功率谱;以及求解重建的信号功率谱中的人声功率和背景声功率,并根据所求解得到的人声功率和背景声功率从所述输入信号中分离出人声信号和背景声信号。本发明的单通道声音分离方法可以在极端嘈杂的情况下分离出人声和背景声,可以用于语音增强和人声提取等领域,实用性较强。

Description

基于人声模型的单通道声音分离方法
技术领域
本发明涉及声音分离技术领域,特指一种基于人声模型的单通道声音分离方法。
背景技术
语噪分离(Speech and noise separation)是为了实现在复杂噪声环境中分离出目标说话语音而对带噪语音所做的处理,其中主要目标是消除环境噪声对语音的干扰,提高语音质量。语噪分离可以说是语音增强(Speech Enhancement)算法的一种扩展,其处理的噪声甚至可以包括其他说话人语音。
随着计算机信号处理技术和互联网技术的不断发展,单通道声音分离技术越来越受人们重视,其可以用于语音增强、人声提取等领域。该单通道声音分离技术在很多系数都会用到,比如KTV系统中音乐伴奏的获得,KTV系统歌唱水平打分中人声的获得,音乐推荐系统中利用歌唱者声音特质来推荐音乐等,为了保证系数有较好的性能,必须得到较为纯净的伴奏或者人声,由于现实中音乐信号大部分是单通道音乐信号,所以单通道音乐人声分离技术在这些系统中能够得到广泛的应用。然而,现在针对单通道声音分离技术还远远不能达到人耳系统的性能,因此对于单通道声音分离技术提出一种新的分离方法显得尤为重要。
发明内容
本发明的目的在于克服现有技术的缺陷,提供一种基于人声模型的单通道声音分离方法,解决现有分离技术不能达到人耳系统的性能问题。
实现上述目的的技术方案是:
本发明提供了一种基于人声模型的单通道声音分离方法,包括如下步骤:
利用源滤波器模型建立人声模型,所建立的人声模型包括声带振动功率模型和声道口腔的滤波滤波器模型;
提供输入信号;
利用所述声带振动功率模型和所述声道口腔的滤波滤波器模型构建所述输入信号的人声功率;
构建所述输入信号的背景声功率;
依据所构建的人声功率和背景声功率对所述输入信号重建信号功率谱;以及
求解重建的信号功率谱中的人声功率和背景声功率,并根据所求解得到的人声功率和背景声功率从所述输入信号中分离出人声信号和背景声信号。
本发明的单通道声音分离方法可以在极端嘈杂的情况下分离出人声和背景声,其分离出的信号能够达到人耳听觉系统的要求,本发明的分离方法采用源滤波器模型,将人的发声简化为声带振动和声道口腔的滤波的卷积,再针对两者进行建模,根据所建立的模型构建出输入信号的人声功率和背景声功率,再通过重建输入信号的信号功率谱,求解出人声功率和背景声功率,从而很好的将人声和背景声从输入信号中分离。本发明的单通道声音分离方法可以用于语音增强,比如电话会议、人机交互等,还可以用于人声提取,比如从单通道的音乐信号中提取出人声和伴奏带,实用性较强。
本发明基于人声模型的单通道声音分离方法的进一步改进在于,利用源滤波器模型建立人声模型,包括:
基于源滤波器模型将人声简化为声带振动e和声道口腔的滤波g的卷积;
构建声带振动功率模型:将所述声带振动e的时域波形利用短时傅里叶变换变换到频域,以变换得到的声带振动e的频域波形从而得到对应的幅度谱,根据声道振动e的幅度谱计算得出对应的功率谱以实现声带振动功率模型的构建;
构建声道口腔的滤波滤波器模型:设定滤波器的形状有k个,每一形状用p个不同的位置的窗函数进行线性组合从而组合得出k个形状的滤波器,将组合出的滤波器变换到频域以获得滤波器的频域波形从而得到对应的幅度谱,根据滤波器的幅度谱计算得出对应的功率谱以实现声道口腔滤波滤波器模型的构建。
本发明基于人声模型的单通道声音分离方法的进一步改进在于,构建声带振动功率模型,还包括:
采用KLGLOTT88模型计算声带振动e的时域波形:
式一和式二中,Oq为声带开闭的参数,Oq的取值为0.5,F(u)为第u个声带激励对应的频率,ch为第h次谐波幅度,eu(t)为声带振动e的时域波形,Ts为采样周期;
将所述声带振动e的时域波形利用短时傅里叶变换变换到频域时得到如下公式:
Eu(f)=STFT(eu) (式三)
式三中,Eu(f)为的声带振动e的频域波形;
第u个声带激励对应的频率F(u)表示为:
式四表示u与频率f的对应关系;
第u个声带激励产生的波形变换到频域后并计算出对应的功率谱为:
式五中,为频率f的功率幅度值。
本发明基于人声模型的单通道声音分离方法的进一步改进在于,利用所述声带振动功率模型和所述声道口腔的滤波滤波器模型构建所述输入信号的人声功率,包括:
估计出所述输入信号当前帧的人声基频,利用所述人声基频查找所述声带振动功率模型的功率谱中对应的功率幅度值,则声带激励部分的功率表示为:
式六中,S(f)表示声带激励在频率f处的功率,u0为与人声基频最接近的声带激励;表示第u0个声带激励产生的波形变换到频域后,在频率f的功率幅度值;
利用所述声道口腔的滤波滤波器模型计算滤波器在频率f的功率:
式七中,F(f)表示滤波器在频率f的功率,是由滤波器模型乘以其对应的激活系数H组成,Hk(f)为第k个滤波器在频率f的激活系数,Gk(f)为第k个滤波器在频率f的功率幅值;
由式六和式七构建人声功率:
本发明基于人声模型的单通道声音分离方法的进一步改进在于,构建所述输入信号的背景声功率,包括:
设定背景声的功率由背景声模型M和其对应的系数C组成:
式九中,SM(f)表示背景声在频率f的功率,是由背景声模型M乘以其对应的系数C组成,背景声含有J个形状,Mj(f)为第j个背景声在频率f的功率幅值,Cj(f)为第j个背景声在频率f的系数。
本发明基于人声模型的单通道声音分离方法的进一步改进在于,依据所构建的人声功率和背景声功率对所述输入信号重建信号功率谱,包括:
式十由式八和式九得出,式十中的SX(f)为重建的信号功率谱。
本发明基于人声模型的单通道声音分离方法的进一步改进在于,求解重建的信号功率谱中的人声功率和背景声功率,包括:
利用EM求解式十的信号功率谱;
将求解问题抽象成最小化方程:
min D(|X|2|SX) (式十一)
式十一中,X为输入信号,|X|2表示输入信号的功率谱,SX为重建的信号功率谱,D为代价函数,利用EM迭代方法求解出激活系数H、背景声模型M和背景声模型M对应的系数C。
本发明基于人声模型的单通道声音分离方法的进一步改进在于,根据所求解得到的人声功率和背景声功率从所述输入信号中分离出人声信号和背景声信号,包括:
利用维纳滤波求解出所述输入信号中的人声信号并予以输出;和/或
利用维纳滤波求解出所述输入信号中的背景声信号并予以输出。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
本发明提供了一种基于人声模型的单通道声音分离方法,可以在极端嘈杂的情况下分离出人声,分离出的人声信号质量较高。该单通道声音分离方法可以用于语音增强,比如电话会议、人机交互场景,还能实现人声提取,比如可用于从MP3的音乐信号中提取出人声和伴奏带,伴奏可以用于KTV演唱,人声可以用于用户歌唱水平打分。本发明的单通道声音分离方法应用范围广,实用性强。下面对本发明基于人声模型的单通道声音分离方法进行说明。
本发明提供了一种基于人声模型的单通道声音分离方法,包括如下步骤:
该单通道声音分离方法采用源滤波器(source-filter)模型来建模人声,源滤波器模型中经常做出的重要假设是源和滤波器的独立性。本发明也利用这一假设,假设信号X由人声V和背景声M独立,则有:
X=V+M (方程式一)
由上述的独立性假设可得:
SX(f)=SV(f)+SM(f) (方程式二)
方程式二中,f为频率,SX为信号X的功率,SV为人声V的功率,SM为背景声M的功率。
采用源滤波器模型来建模人声,人的发声可以简化为声带振动e和声道口腔的滤波g的卷积,由此得到人声的功率谱:
SV(f)=F(f)*S(f) (方程式三)
方程式三中,SV为人声的功率,F(f)为声道口腔的滤波g对应的功率谱在频率f处的幅值,S(f)为声带振动e对应的功率谱在频率f处的幅值。
利用源滤波器模型建立人声模型,所建立的人声模型包括声带振动功率模型和声道口腔的滤波滤波器模型;包括:
基于源滤波器模型将人声简化为声带振动e和声道口腔的滤波g的卷积;
构建声带振动功率模型:将声带振动e的时域波形利用短时傅里叶变换变换到频域,以变换得到的声带振动e的频域波形从而得到对应的幅度谱,根据声带振动e的幅度谱计算得出对应的功率谱以实现声带振动功率模型的构建,针对声带振动e的幅度谱求平方之后得到对应的功率谱;具体地,包括:
采用KLGLOTT88模型计算声带振动e的时域波形:
式一和式二中,Oq为声带开闭的参数,Oq的取值为0.5,F(u)为第u个声带激励对应的频率,ch为第h次谐波幅度,eu(t)为声带振动e的时域波形,Ts为采样周期;上述的KLGLOTT88模型可参见引文(D.Klatt and L.Klatt,“Analysis,synthesis,andperception of voice quality variations among female and male talkers,”Journalof the Acoustical Society of America,vol.87,no.2,pp.820-857,1990)。
将声带振动e的时域波形利用短时傅里叶变换(STFT)变换到频域时得到如下公式:
Eu(f)=STFT(eu) (式三)
式三中,Eu(f)为的声带振动e的频域波形;
根据心理声学,人对频率的感知是非线性的,故而可按照log域将频率离散成多个点,其不会影响声音的和谐,音程足够满足人耳的听觉要求。假设人的发音基频在100Hz至800Hz之间,也就是三个八度,假设每个八度平均离散成48个声带激励(source)点,那么总共有145个声带激励点,则第u个声带激励对应的频率F(u)表示为:
式四表示u与频率f的对应关系,这样根据式四可以找到与频率f最接近的u;
第u个声带激励产生的波形变换到频域后并计算出对应的功率谱为:
式五中,为频率f的功率幅度值。
构建声道口腔的滤波滤波器模型:
由于人能发有限数量的元音,所以只需要构建有限数量个的滤波器(filter)。设定滤波器的形状有k个,每一形状用p个不同的位置的窗函数进行线性组合从而组合得出k个形状的滤波器,将组合出的滤波器变换到频域以获得滤波器的频域波形从而得到对应的幅度谱,根据滤波器的幅度谱计算得出对应的功率谱以实现声道口腔的滤波滤波器模型的构建。利用幅度谱求平方得到对应的功率谱。第k个滤波器在频率f的功率幅值为Gk(f)。较佳地,将k取值为10,p为30。窗函数可以采用hanning窗(汉宁窗)、高斯窗、或者海明(Hamming)窗等。
提供输入信号,该输入信号即为待进行分离的信号;
利用声带振动功率模型和声道口腔的滤波滤波器模型构建输入信号的人声功率;包括:
估计出输入信号当前帧的人声基频f0,可以利用谐波和的方法估计出当前帧的人声的基频。利用人声基频f0查找声带振动功率模型的功率谱中对应的功率幅度值则声带激励部分的功率表示为:
式六中,S(f)表示声带激励在频率f处的功率,u0为与人声基频最接近的声带激励,该u0可通过式四计算得出;表示第u0个声带激励产生的波形变换到频域后,在频率f的功率幅度值;
利用声道口腔的滤波滤波器模型计算滤波器在频率f的功率:
式七中,F(f)表示滤波器在频率f的功率,是由滤波器模型乘以其对应的激活系数H组成,Hk(f)为第k个滤波器在频率f的激活系数,Gk(f)为第k个滤波器在频率f的功率幅值;
由式六和式七构建人声功率:
构建输入信号的背景声功率;
设定背景声的功率由背景声模型M和其对应的系数C组成:
式九中,SM(f)表示背景声在频率f的功率,是由背景声模型M乘以其对应的系数C组成,背景声含有了个形状,Mj(f)为第j个背景声在频率f的功率幅值,Cj(f)为第j个背景声在频率f的系数。较佳地,J的取值为40。
依据所构建的人声功率和背景声功率对所述输入信号重建信号功率谱;包括:
式十由式八和式九得出,式十中的SX(f)为重建的信号功率谱。其中式十中的人声的滤波器的激活系数H、背景声模型M和背景声模型M对应的系数C是待求的数值。而和Gk都是已经构建好的模型,为已知。
求解重建的信号功率谱中的人声功率和背景声功率,并根据所求解得到的人声功率和背景声功率从所述输入信号中分离出人声信号和背景声信号。
其中求解重建的信号功率谱中的人声功率和背景声功率,包括:
利用EM求解式十的信号功率谱;
将求解问题抽象成最小化方程:
min D(|X|2|SX) (式十一)
式十一中,X为输入信号,|X|2表示输入信号的功率谱,SX为重建的信号功率谱,D为代价函数,该常用的代价函数有欧式距离、KL散度等。利用EM迭代方法求解出激活系数H、背景声模型M和背景声模型M对应的系数C。
其中根据所求解得到的人声功率和背景声功率从所述输入信号中分离出人声信号和背景声信号,包括:
利用维纳滤波求解出输入信号中的人声信号并予以输出;和/或
利用维纳滤波求解出输入信号中的背景声信号并予以输出。
根据方程式一,可得:
在需要提取出人声时,利用维纳滤波可以得出人声信号,具体参见式十二,在需要提取出背景声时,利用维纳滤波可以得出背景声信号,具体参见式十三。
本发明基于人声模型的单通道声音分离方法的有益效果为:
本发明不需要任何训练数据,实现过程简单,可以直接对单通道的音频进行人声分离,并且能够实现在非常嘈杂的情况下分离出人声,还能够确保分离出的人声和背景声的语音质量。
以上结合实施例对本发明进行了详细说明,本领域中普通技术人员可根据上述说明对本发明做出种种变化例。因而,实施例中的某些细节不应构成对本发明的限定,本发明将以所附权利要求书界定的范围作为本发明的保护范围。

Claims (8)

1.一种基于人声模型的单通道声音分离方法,其特征在于,包括如下步骤:
利用源滤波器模型建立人声模型,所建立的人声模型包括声带振动功率模型和声道口腔的滤波滤波器模型;
提供输入信号;
利用所述声带振动功率模型和所述声道口腔的滤波滤波器模型构建所述输入信号的人声功率;
构建所述输入信号的背景声功率;
依据所构建的人声功率和背景声功率对所述输入信号重建信号功率谱;以及
求解重建的信号功率谱中的人声功率和背景声功率,并根据所求解得到的人声功率和背景声功率从所述输入信号中分离出人声信号和背景声信号。
2.如权利要求1所述的基于人声模型的单通道声音分离方法,其特征在于,利用源滤波器模型建立人声模型,包括:
基于源滤波器模型将人声简化为声带振动e和声道口腔的滤波g的卷积;
构建声带振动功率模型:将所述声带振动e的时域波形利用短时傅里叶变换变换到频域,以变换得到的声带振动e的频域波形从而得到对应的幅度谱,根据声带振动e的幅度谱计算得出对应的功率谱以实现声带振动功率模型的构建;
构建声道口腔的滤波滤波器模型:设定滤波器的形状有k个,每一形状用p个不同的位置的窗函数进行线性组合从而组合得出k个形状的滤波器,将组合出的滤波器变换到频域以获得滤波器的频域波形从而得到对应的幅度谱,根据滤波器的幅度谱计算得出对应的功率谱以实现声道口腔的滤波滤波器模型的构建。
3.如权利要求2所述的基于人声模型的单通道声音分离方法,其特征在于,构建声带振动功率模型,还包括:
采用KLGLOTT88模型计算声带振动e的时域波形:
式一和式二中,Oq为声带开闭的参数,Oq的取值为0.5,F(u)为第u个声带激励对应的频率,ch为第h次谐波幅度,eu(t)为声带振动e的时域波形,Ts为采样周期;
将所述声带振动e的时域波形利用短时傅里叶变换变换到频域时得到如下公式:
Eu(f)=STFT(eu) (式三)
式三中,Eu(f)为的声带振动e的频域波形;
第u个声带激励对应的频率F(u)表示为:
式四表示u与频率f的对应关系;
第u个声带激励产生的波形变换到频域后并计算出对应的功率谱为:
式五中,为频率f的功率幅度值。
4.如权利要求2所述的基于人声模型的单通道声音分离方法,其特征在于,利用所述声带振动功率模型和所述声道口腔的滤波滤波器模型构建所述输入信号的人声功率,包括:
估计出所述输入信号当前帧的人声基频,利用所述人声基频查找所述声带振动功率模型的功率谱中对应的功率幅度值,则声带激励部分的功率表示为:
式六中,S(f)表示声带激励在频率f处的功率,u0为与人声基频最接近的声带激励;表示第u0个声带激励产生的波形变换到频域后,在频率f的功率幅度值;
利用所述声道口腔的滤波滤波器模型计算滤波器在频率f的功率:
式七中,F(f)表示滤波器在频率f的功率,是由滤波器模型乘以其对应的激活系数H组成,Hk(f)为第k个滤波器在频率f的激活系数,Gk(f)为第k个滤波器在频率f的功率幅值;
由式六和式七构建人声功率:
5.如权利要求4所述的基于人声模型的单通道声音分离方法,其特征在于,构建所述输入信号的背景声功率,包括:
设定背景声的功率由背景声模型M和其对应的系数C组成:
式九中,SM(f)表示背景声在频率f的功率,是由背景声模型M乘以其对应的系数C组成,背景声含有J个形状,Mj(f)为第j个背景声在频率f的功率幅值,Cj(f)为第j个背景声在频率f的系数。
6.如权利要求5所述的基于人声模型的单通道声音分离方法,其特征在于,依据所构建的人声功率和背景声功率对所述输入信号重建信号功率谱,包括:
式十由式八和式九得出,式十中的SX(f)为重建的信号功率谱。
7.如权利要求6所述的基于人声模型的单通道声音分离方法,其特征在于,求解重建的信号功率谱中的人声功率和背景声功率,包括:
利用EM求解式十的信号功率谱;
将求解问题抽象成最小化方程:
min D(|X|2|SX) (式十一)
式十一中,X为输入信号,|X|2表示输入信号的功率谱,SX为重建的信号功率谱,D为代价函数,利用EM迭代方法求解出激活系数H、背景声模型M和背景声模型M对应的系数C。
8.如权利要求1所述的基于人声模型的单通道声音分离方法,其特征在于,根据所求解得到的人声功率和背景声功率从所述输入信号中分离出人声信号和背景声信号,包括:
利用维纳滤波求解出所述输入信号中的人声信号并予以输出;和/或
利用维纳滤波求解出所述输入信号中的背景声信号并予以输出。
CN201611237076.1A 2016-12-28 2016-12-28 基于人声模型的单通道声音分离方法 Active CN106653048B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611237076.1A CN106653048B (zh) 2016-12-28 2016-12-28 基于人声模型的单通道声音分离方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611237076.1A CN106653048B (zh) 2016-12-28 2016-12-28 基于人声模型的单通道声音分离方法

Publications (2)

Publication Number Publication Date
CN106653048A true CN106653048A (zh) 2017-05-10
CN106653048B CN106653048B (zh) 2019-10-15

Family

ID=58832394

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611237076.1A Active CN106653048B (zh) 2016-12-28 2016-12-28 基于人声模型的单通道声音分离方法

Country Status (1)

Country Link
CN (1) CN106653048B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107680611A (zh) * 2017-09-13 2018-02-09 电子科技大学 基于卷积神经网络的单通道声音分离方法
CN109801644A (zh) * 2018-12-20 2019-05-24 北京达佳互联信息技术有限公司 混合声音信号的分离方法、装置、电子设备和可读介质
CN112259120A (zh) * 2020-10-19 2021-01-22 成都明杰科技有限公司 基于卷积循环神经网络的单通道人声与背景声分离方法
CN113314140A (zh) * 2021-05-31 2021-08-27 哈尔滨理工大学 一种端到端时域多尺度卷积神经网络的音源分离算法
CN113393857A (zh) * 2021-06-10 2021-09-14 腾讯音乐娱乐科技(深圳)有限公司 一种音乐信号的人声消除方法、设备及介质
CN113593604A (zh) * 2021-07-22 2021-11-02 腾讯音乐娱乐科技(深圳)有限公司 检测音频质量方法、装置及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1349148A1 (en) * 2000-12-28 2003-10-01 NEC Corporation Noise removing method and device
CN1523573A (zh) * 2003-09-12 2004-08-25 中国科学院声学研究所 一种采用后置滤波器的多通道语音增强方法
DE60304859D1 (de) * 2003-08-21 2006-06-01 Bernafon Ag Bern Verfahren zur Verarbeitung von Audiosignalen
CN101589430A (zh) * 2007-08-10 2009-11-25 松下电器产业株式会社 声音分离装置、声音合成装置及音质变换装置
CN102402977A (zh) * 2010-09-14 2012-04-04 无锡中星微电子有限公司 从立体声音乐中提取伴奏、人声的方法及其装置
CN102982801A (zh) * 2012-11-12 2013-03-20 中国科学院自动化研究所 一种用于鲁棒语音识别的语音特征提取方法
CN103000174A (zh) * 2012-11-26 2013-03-27 河海大学 语音识别系统中基于快速噪声估计的特征补偿方法
CN105719657A (zh) * 2016-02-23 2016-06-29 惠州市德赛西威汽车电子股份有限公司 基于单麦克风的人声提取方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1349148A1 (en) * 2000-12-28 2003-10-01 NEC Corporation Noise removing method and device
DE60304859D1 (de) * 2003-08-21 2006-06-01 Bernafon Ag Bern Verfahren zur Verarbeitung von Audiosignalen
CN1523573A (zh) * 2003-09-12 2004-08-25 中国科学院声学研究所 一种采用后置滤波器的多通道语音增强方法
CN101589430A (zh) * 2007-08-10 2009-11-25 松下电器产业株式会社 声音分离装置、声音合成装置及音质变换装置
CN102402977A (zh) * 2010-09-14 2012-04-04 无锡中星微电子有限公司 从立体声音乐中提取伴奏、人声的方法及其装置
CN102982801A (zh) * 2012-11-12 2013-03-20 中国科学院自动化研究所 一种用于鲁棒语音识别的语音特征提取方法
CN103000174A (zh) * 2012-11-26 2013-03-27 河海大学 语音识别系统中基于快速噪声估计的特征补偿方法
CN105719657A (zh) * 2016-02-23 2016-06-29 惠州市德赛西威汽车电子股份有限公司 基于单麦克风的人声提取方法及装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107680611A (zh) * 2017-09-13 2018-02-09 电子科技大学 基于卷积神经网络的单通道声音分离方法
CN107680611B (zh) * 2017-09-13 2020-06-16 电子科技大学 基于卷积神经网络的单通道声音分离方法
CN109801644A (zh) * 2018-12-20 2019-05-24 北京达佳互联信息技术有限公司 混合声音信号的分离方法、装置、电子设备和可读介质
US11430427B2 (en) 2018-12-20 2022-08-30 Beijing Dajia Internet Information Technology Co., Ltd. Method and electronic device for separating mixed sound signal
CN112259120A (zh) * 2020-10-19 2021-01-22 成都明杰科技有限公司 基于卷积循环神经网络的单通道人声与背景声分离方法
CN112259120B (zh) * 2020-10-19 2021-06-29 南京硅基智能科技有限公司 基于卷积循环神经网络的单通道人声与背景声分离方法
CN113314140A (zh) * 2021-05-31 2021-08-27 哈尔滨理工大学 一种端到端时域多尺度卷积神经网络的音源分离算法
CN113393857A (zh) * 2021-06-10 2021-09-14 腾讯音乐娱乐科技(深圳)有限公司 一种音乐信号的人声消除方法、设备及介质
CN113593604A (zh) * 2021-07-22 2021-11-02 腾讯音乐娱乐科技(深圳)有限公司 检测音频质量方法、装置及存储介质

Also Published As

Publication number Publication date
CN106653048B (zh) 2019-10-15

Similar Documents

Publication Publication Date Title
CN106653048B (zh) 基于人声模型的单通道声音分离方法
CN102054480B (zh) 一种基于分数阶傅立叶变换的单声道混叠语音分离方法
CN105845127B (zh) 语音识别方法及其系统
CN111128214A (zh) 音频降噪方法、装置、电子设备及介质
Adiga et al. Gammatone wavelet cepstral coefficients for robust speech recognition
CN104064196B (zh) 一种基于语音前端噪声消除的提高语音识别准确率的方法
JP6371516B2 (ja) 音響信号処理装置および方法
CN108281150B (zh) 一种基于微分声门波模型的语音变调变嗓音方法
CN103456312A (zh) 一种基于计算听觉场景分析的单通道语音盲分离方法
Chaurasiya Time-frequency representations: Spectrogram, cochleogram and correlogram
CN111489763B (zh) 一种基于gmm模型的复杂环境下说话人识别自适应方法
CN108172210B (zh) 一种基于歌声节奏的演唱和声生成方法
Wang et al. Attention-based fusion for bone-conducted and air-conducted speech enhancement in the complex domain
CN110349565B (zh) 一种面向听障人士的辅助发音学习方法及其系统
CN106448673A (zh) 一种汉语电子喉语音转换方法
CN108198566A (zh) 信息处理方法及装置、电子设备及存储介质
Chang et al. Spectro-temporal features for noise-robust speech recognition using power-law nonlinearity and power-bias subtraction
Doumanidis et al. Rnnoise-ex: Hybrid speech enhancement system based on rnn and spectral features
Xu et al. The extraction and simulation of Mel frequency cepstrum speech parameters
Arai Estimating number of speakers by the modulation characteristics of speech
KR101610708B1 (ko) 음성 인식 장치 및 방법
CN111210845B (zh) 一种基于改进自相关特征的病理语音检测装置
Ferreira On the possibility of speaker discrimination using a glottal pulse phase-related feature
Zheng et al. A spectra-based equalization-generation combined framework for throat microphone speech enhancement
Sharma et al. Separating the source information in repetition-dependent music and enhancing it by real-time digital audio processing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20170929

Address after: 200233 Shanghai City, Xuhui District Guangxi 65 No. 1 Jinglu room 702 unit 03

Applicant after: Cloud known sound (Shanghai) Technology Co. Ltd.

Address before: 200233 Shanghai, Qinzhou, North Road, No. 82, building 2, layer 1198,

Applicant before: SHANGHAI YUZHIYI INFORMATION TECHNOLOGY CO., LTD.

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200416

Address after: 200233 Shanghai City, Xuhui District Guangxi 65 No. 1 Jinglu room 702 unit 03

Co-patentee after: Xiamen yunzhixin Intelligent Technology Co., Ltd

Patentee after: YUNZHISHENG (SHANGHAI) INTELLIGENT TECHNOLOGY Co.,Ltd.

Address before: 200233 Shanghai City, Xuhui District Guangxi 65 No. 1 Jinglu room 702 unit 03

Patentee before: YUNZHISHENG (SHANGHAI) INTELLIGENT TECHNOLOGY Co.,Ltd.