CN102402977A - 从立体声音乐中提取伴奏、人声的方法及其装置 - Google Patents
从立体声音乐中提取伴奏、人声的方法及其装置 Download PDFInfo
- Publication number
- CN102402977A CN102402977A CN2010102827059A CN201010282705A CN102402977A CN 102402977 A CN102402977 A CN 102402977A CN 2010102827059 A CN2010102827059 A CN 2010102827059A CN 201010282705 A CN201010282705 A CN 201010282705A CN 102402977 A CN102402977 A CN 102402977A
- Authority
- CN
- China
- Prior art keywords
- channel signals
- frequency
- signal
- time
- domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 239000000284 extract Substances 0.000 claims abstract description 39
- 238000009499 grossing Methods 0.000 claims description 54
- 238000004458 analytical method Methods 0.000 claims description 27
- 230000005236 sound signal Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 238000010606 normalization Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 239000012467 final product Substances 0.000 description 3
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Images
Landscapes
- Stereophonic System (AREA)
Abstract
本发明提供了一种从立体声音乐中提取伴奏、人声的方法及其装置,提取伴奏的方法包括:分别将左右声道信号由时域转换为频域;计算左右声道信号的相应频点对的归一化互相关值;分别对左右声道信号的相应频点对加权伴奏增益,伴奏增益与当前频点对的归一化互相关值成反比例取值;将加权伴奏增益后的左声道和右声道信号由频域转换为时域,分别提取出左声道和右声道伴奏。提取人声的方法包括:对左右声道信号相应频点对的均值信号加权人声增益,人声增益与当前频点对的归一化互相关值成正比例取值;将加权人声增益后的左声道和右声道的均值信号由频域转换为时域提取出人声。本发明可以有效的提取出人声和伴奏,并且提高音质效果。
Description
技术领域
本发明涉及音频处理技术领域,特别是涉及一种从立体声音乐中提取伴奏的方法及其装置、一种从立体声音乐中提取人声的方法及其装置。
背景技术
目前,一些音频播放软件或者是音频处理软件已经具备从歌曲中提取伴奏音乐的功能。例如,用户想录制自己演唱的歌曲,但是又找不到这首歌曲的伴奏音乐,就可以利用上述功能,从原唱歌曲中把伴奏音乐分离并提取出来。
现有的提取伴奏方法,往往利用大多数歌曲中人声在左右两个声道中基本相同的特点,采用将两个声道中的信号直接对减的方法来消除人声。如图1所示,为现有技术提取伴奏的方法示意图。从图中可以看出,用左声道的音频信号减去右声道的音频信号,由于两个声道中相同的人声部分被消除,因此得到的信号为左声道的伴奏,用右声道的音频信号减去左声道的音频信号,同样的,相同的人声部分被消除,得到的信号作新右声道的伴奏,然后将两路信号重新合成,即得到伴奏音乐。进一步,从立体声音乐中减去伴奏音乐可以得到人声。
上述方法具有如下缺点:有些歌曲中,人声在左右两个声道中并没有准确对齐,直接将左右两声道的音频信号对减,往往不能有效的消除人声,会有部分人声残余;此外,如果伴奏音乐在左右两个声道中出现相同部分时,通过对减也会消除部分伴奏,使得提取的伴奏音乐准确度较低,从而引起伴奏音乐的音质下降。由于提取的伴奏的音质效果不好,因此从立体声中通过消除伴奏音乐所得到的人声,质量也较差。
总之,需要本领域技术人员迫切解决的一个技术问题就是:如何能够提供一种人声与伴奏的分离技术,能够有效的提取出人声和伴奏,并且提高音质效果。
发明内容
本发明所要解决的技术问题是提供一种从立体声音乐中提取伴奏、人声的方法及其装置,能够有效的提取出人声和伴奏,并且提高音质效果。
为了解决上述问题,本发明公开了一种从立体声音乐中提取伴奏的方法,包括:
分别将左声道信号和右声道信号由时域信号转换为频域信号;
依次计算左声道信号和右声道信号的相应频点对的归一化互相关值;
分别对左声道信号和右声道信号的相应频点对加权伴奏增益;其中,所述伴奏增益与当前频点对的归一化互相关值成反比例取值;
将加权伴奏增益后的左声道信号和右声道信号由频域信号转换为时域信号,分别提取出左声道伴奏和右声道伴奏。
优选的,所述将左声道信号和右声道信号由时域信号转换为频域信号包括:
分别将时域的左声道信号和右声道信号经过分析窗加权;通过傅立叶变换分别将左声道信号和右声道信号由时域信号转换为频域信号。
优选的,所述将左声道信号和右声道信号由频域信号转换为时域信号包括:
通过傅立叶逆变换分别将左声道信号和右声道信号由频域信号转换为时域信号;分别将时域的左声道信号和右声道信号经过综合窗加权。
优选的,对左声道信号和右声道信号的相应频点对加权伴奏增益之前,还包括:
采用平滑窗对所述归一化互相关值进行频域平滑处理;采用一阶低通滤波对所述归一化互相关值进行时域平滑处理。
优选的,所述伴奏增益取值为:一减去当前频点对的归一化互相关值。
此外,本发明还公开了一种从立体声音乐中提取人声的方法,包括:
分别将左声道信号和右声道信号由时域信号转换为频域信号;
依次计算左声道信号和右声道信号的相应频点对的归一化互相关值;
对左声道信号和右声道信号相应频点对的均值信号加权人声增益;其中,所述人声增益与当前频点对的归一化互相关值成正比例取值;
将加权人声增益后的左声道和右声道的均值信号由频域信号转换为时域信号,提取出人声。
优选的,所述将左声道信号和右声道信号由时域信号转换为频域信号包括:
分别将时域的左声道信号和右声道信号经过分析窗加权;通过傅立叶变换分别将左声道信号和右声道信号由时域信号转换为频域信号。
优选的,所述将左声道和右声道的均值信号由频域信号转换为时域信号包括:
通过傅立叶逆变换分别将左声道和右声道的均值信号由频域信号转换为时域信号;将时域的左声道和右声道的均值信号经过综合窗加权。
优选的,对左声道信号和右声道信号相应频点对的均值信号加权人声增益之前,还包括:
采用平滑窗对所述归一化互相关值进行频域平滑处理;采用一阶低通滤波对所述归一化互相关值进行时域平滑处理。
优选的,所述人声增益取值为:当前频点对的归一化互相关值。
相应的,本发明还提出了一种从立体声音乐中提取伴奏的装置,包括:
第一频域信号转换模块,用于分别将左声道信号和右声道信号由时域信号转换为频域信号;
第一互相关值计算模块,用于依次计算左声道信号和右声道信号的相应频点对的归一化互相关值;
伴奏增益加权模块,用于分别对左声道信号和右声道信号的相应频点对加权伴奏增益;其中,所述伴奏增益与当前频点对的归一化互相关值成反比例取值;
第一时域信号转换模块,用于将加权伴奏增益后的左声道信号和右声道信号由频域信号转换为时域信号,分别提取出左声道伴奏和右声道伴奏。
优选的,所述第一频域信号转换模块包括:
第一分析窗加权子模块,用于分别将时域的左声道信号和右声道信号经过分析窗加权;
第一傅立叶变换子模块,用于通过傅立叶变换分别将左声道信号和右声道信号由时域信号转换为频域信号。
优选的,所述第一时域信号转换模块包括:
第一傅立叶逆变换子模块,用于通过傅立叶逆变换分别将左声道信号和右声道信号由频域信号转换为时域信号;
第一综合窗加权子模块,用于分别将时域的左声道信号和右声道信号经过综合窗加权。
优选的,所述装置还包括:
第一时频平滑处理模块,用于采用平滑窗对所述归一化互相关值进行频域平滑处理;以及采用一阶低通滤波对所述归一化互相关值进行时域平滑处理。
优选的,所述伴奏增益取值为:一减去当前频点对的归一化互相关值。
相应的,本发明还提出了一种从立体声音乐中提取人声的装置,包括:
第二频域信号转换模块,用于分别将左声道信号和右声道信号由时域信号转换为频域信号;
第二互相关值计算模块,用于依次计算左声道信号和右声道信号的相应频点对的归一化互相关值;
人声增益加权模块,用于对左声道信号和右声道信号相应频点对的均值信号加权人声增益;其中,所述人声增益与当前频点对的归一化互相关值成正比例取值;
第二时域信号转换模块,用于将加权人声增益后的左声道和右声道的均值信号由频域信号转换为时域信号,提取出人声。
优选的,所述第二频域信号转换模块包括:
第二分析窗加权子模块,用于分别将时域的左声道信号和右声道信号经过分析窗加权;
第二傅立叶变换子模块,用于通过傅立叶变换分别将左声道信号和右声道信号由时域信号转换为频域信号。
优选的,所述第二时域信号转换模块包括:
第二傅立叶逆变换子模块,用于通过傅立叶逆变换分别将左声道和右声道的均值信号由频域信号转换为时域信号;
第二综合窗加权子模块,用于将时域的左声道和右声道的均值信号经过综合窗加权。
优选的,所述装置还包括:
第二时频平滑处理模块,用于采用平滑窗对所述归一化互相关值进行频域平滑处理;以及采用一阶低通滤波对所述归一化互相关值进行时域平滑处理。
优选的,所述人声增益取值为:当前频点对的归一化互相关值。
与现有技术相比,本发明具有以下优点:
本发明利用立体声音乐的特点:人声往往在声场的中央,在左右声道差异较小,而乐器所演奏的伴奏在左右声道差异较大,创造性地提出了一种提取伴奏和人声的方法。具体的,将左右两个声道的信号由时域转换到频域,然后分析两路信号在各个频段的互相关性,将互相关性弱的频段给与较高增益,将互相关性强的频段给与较低增益,最后将频域信号恢复为时域信号,从而消弱了人声,提取了伴奏;同时,保留了伴奏音乐在左右两个声道中各自的特点,保持了立体声音乐的特性。
相反地,通过分析两路信号在各个频段的互相关性,将互相关性弱的频段给予较低增益,将互相关性强的频段给予较高增益,最后将频域信号恢复为时域信号。从而消弱了伴奏,提取了人声,从而达到分离伴奏和人声的目的,并且提高了音质效果。
附图说明
图1是本发明一种从立体声音乐中提取伴奏的方法实施例的流程图;
图2是本发明一种从立体声音乐中提取人声的方法实施例的流程图;
图3是本发明一种从立体声音乐中提取伴奏的装置实施例的结构图;
图4是本发明一种从立体声音乐中提取人声的装置实施例的结构图;
图5是本发明一种伴奏、人声相分离的系统实施例的原理示意图;
图6是本发明一种频域互相关伴奏、人声分离单元实施例的原理示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
参照图1,示出了本发明一种从立体声音乐中提取伴奏的方法实施例的流程图,包括:
步骤101,分别将左声道信号和右声道信号由时域信号转换为频域信号;
人声往往在声场的中央,在左右声道差异较小;而乐器所演奏的伴奏在左右声道差异较大。并且,人声的频率范围和伴奏的频率范围几乎不同。因此,本发明实施例将音频信号由时域转换到频域进行处理。具体的,所述步骤101包括如下子步骤:
子步骤1011,分别将时域的左声道信号和右声道信号经过分析窗加权;
为了对音频信号进行频域处理,一般采用截取函数对信号进行截断,分帧处理。截断函数称为窗函数,简称为窗。左右声道的信号分别经过分析窗加权,分析窗一般采用正弦窗,设置50%的叠加,叠加目的是使处理后信号的帧与帧之间能够平滑连接。
假设xL(n)表示左声道时域信号、xR(n)表示右声道时域信号,xLW(n)表示左声道加窗后的时域信号、xRW(n)表示右声道加窗后的时域信号,w(n)表示窗函数,窗长为N,则:
xLW(n)=xL(n)·w(n),xRW(n)=xR(n)·w(n),n=0,…,N-1。
子步骤1012,通过傅立叶变换分别将左声道信号和右声道信号由时域信号转换为频域信号。
针对加窗后的时域信号,通过傅立叶变换FFT分别将左声道时域信号xLW(n)和右声道时域信号xRW(n)从时域转换到频域。由于傅立叶变换由时域转换为频域的技术实现为本领域内的公知技术,本发明实施例在此不再赘述。
步骤102,依次计算左声道信号和右声道信号的相应频点对的归一化互相关值;
本步骤对左、右声道的频域信号进行归一化互相关处理。假设左声道信号第i个频点的实部为Re_L(i),虚部为Im_L(i);右声道信号第i个频点的实部为Re_R(i),虚部为Im_R(i);其中,i=0,...,N-1,即FFT的频点数为N。由于时域的相关等价于频域的共轭相乘,因此可以得出,
左声道信号第i个频点与右声道信号第i个频点的互相关为:
CorrLR(i)=Re_L(i)*Re_R(i)+Im_L(i)*Im_R(i);
左声道信号第i个频点的自相关为:
CorrLL(i)=Re_L(i)*Re_L(i)+Im_L(i)*Im_L(i);
右声道信号第i个频点的自相关为:
CorrRR(i)=Re_R(i)*Re_R(i)+Im_R(i)*Im_R(i);
则左声道信号和右声道信号的第i个频点对的归一化互相关值为:
需要说明的是,对于实信号而言,做N点FFT,生成N点频域样本,其中后半部分(N/2+1,....,N-1)和前半部分(N/2-1,....,1)样本值互为共轭复数,即实部相等,虚部相反。因此,只需要计算出所有i=0~N/2的左右声道信号的频点对的互相关值。
在本发明的一个优选是实施例中,所述方法还包括:采用平滑窗对所述归一化互相关值进行频域平滑处理;以及采用一阶低通滤波对所述归一化互相关值进行时域平滑处理。
为了保证频域互相关值的平滑性,需要做频域平滑,即用某频点及其周围若干频点的值进行加权平均,所得值作为该点的替代值以滤去小扰动的方法。针对帧内频点进行处理,平滑窗可以使用长度为S的正弦窗,窗函数为:
则频域平滑处理后的归一化互相关值为:
采用上述正弦窗对corrLR(i)做频域平滑。即得到了频域平滑后的归一化互相关corrLR_S(i),本发明实施例中可选取S=11,C=7。
为了保证时域互相关值的平滑性,还需要作时域平滑,即用某时刻及其前后若干时刻的值进行加权平均,所得值作为该时刻的替代值以滤去小扰动的方法,针对帧间频点进行处理。使用一个一阶低通滤波处理即可:
corrLR_T(i)=corrLR_Told(i)*α+corrLR_S(i)*(1-α);
其中,α为平滑因子,corrLR_Told(i)为前一帧的corrLR_T(i),本发明实施例中采用α=0.5。
步骤103,分别对左声道信号和右声道信号的相应频点对加权伴奏增益;其中,所述伴奏增益与当前频点对的归一化互相关值成反比例取值;
由于人声往往在声场中央,在左右声道差异较小;而乐器的伴奏音频往往左右声道差异较大。因此,伴奏在左右两个声道中的频点相关性较低,人声在左右两个声道中的频点相关性较强。为了提取出伴奏,对互相关性弱的频点加权较高增益,从而增强伴奏,对互相关性强的频点加权较低增益,从而消减人声。
具体的,加权的伴奏增益与当前频点对的归一化互相关值成反比例取值,则:当归一化互相关值较小时,说明左右声道频点对的相关性较低,加权的增益值较大;当归一化互相关值较大时,说明左右声道频点对的相关性较高,加权的增益较小。
在本发明的一个优选实施例中,所述伴奏增益取值为:一减去当前频点对的归一化互相关值。
由于通过频域和时域平滑处理后,得到的归一化互相关值corrLR_T(i)是一个0和1之间的数,当相关性强时,接近1;当相关性弱时,接近0。因此,本发明优选实施例中,根据corrLR_T(i)的值选取伴奏增益的值。设左、右声道信号第i个频点对的伴奏增益为gain_M(i),则:
gain_M(i)=1-corrLR_T(i)。
然后用求得的伴奏增益加权左、右声道的频域信号。假设左声道伴奏第i个频点的实部为Re_LM(i),虚部为Im_LM(i);右声道伴奏第i个频点的实部为Re_RM(i),虚部为Im_RM(i)。则有:
Re_LM(i)=Re_L(i)*gain_M(i);
Im_LM(i)=Im_L(i)*gain_M(i);
Re_RM(i)=Re_R(i)*gain_M(i);
Im_RM(i)=Im_R(i)*gain_M(i)。
通过对左右声道各个频点进行不同增益加权,就可以提取出了伴奏的频域信号。
步骤104,将加权伴奏增益后的左声道信号和右声道信号由频域信号转换为时域信号,分别提取出左声道伴奏和右声道伴奏。
具体的,所述步骤104包括如下子步骤:
子步骤1041,通过傅立叶逆变换分别将左声道信号和右声道信号由频域信号转换为时域信号;
针对加权伴奏增益后的频域信号,通过傅立叶逆变换IFFT分别将左、右声道的频域信号从频域转换到时域。具体的,将提取出的左声道的伴奏频域信号由频域转换到时域,获得左声道伴奏时域信号;将提取出的右声道的伴奏频域信号由频域转换到时域,获得右声道伴奏时域信号。
子步骤1042,分别将时域的左声道信号和右声道信号经过综合窗加权。
由于信号由时域转频域时进行了分析窗加权,因此,信号由频域转时域之后需要加权综合窗,以去除分析窗函数对信号的影响。同前面分析窗一样,对加综合窗后的时域信号也有50%叠加,以恢复出正确的时域信号。
假设x′L(n)表示IFFT变换后的左声道时域信号、x′R(n)表示右声道时域信号,x′LW(n)表示左声道加窗后的时域信号、x′RW(n)表示右声道加窗后的时域信号,w(n)表示窗函数,窗长为N,则:
x′LW(n)=x′L(n)·w(n);x′RW(n)=x’R (n)·w(n),n=0,…,N-1。
通过频域转时域,并加综合窗后,最终提取出左声道的伴奏信号和右声道的伴奏信号。
本发明实施例将左右两个通道的信号分别由时域转换到频域,然后分析两路信号在各个频段的互相关性,对互相关性弱的频段加权较高增益,对互相关性强的频段加权较低增益,最后将频域信号恢复为时域信号。从而消弱了人声,提取了伴奏,同时保留两个通道的立体声特性。
参照图2,示出了本发明一种从立体声音乐中提取人声的方法实施例的流程图,包括:
步骤201,分别将左声道信号和右声道信号由时域信号转换为频域信号;
具体的,所述步骤101包括如下子步骤:
子步骤2011,分别将时域的左声道信号和右声道信号经过分析窗加权;
子步骤2012,通过傅立叶变换分别将左声道信号和右声道信号由时域信号转换为频域信号。
上述步骤的处理过程与从立体声音乐中提取伴奏的方法类似,具体可参见提取伴奏方法实施例的步骤101。
步骤202,依次计算左声道信号和右声道信号的相应频点对的归一化互相关值;
与伴奏提取方法相同,左声道信号和右声道信号的第i个频点对的归一化互相关值为:
其中,CorrLR(i)为左声道信号第i个频点与右声道信号第i个频点的互相关;
CorrLL(i)为左声道信号第i个频点的自相关;CorrRR(i)为右声道信号第i个频点的自相关。
在本发明的一个优选是实施例中,所述方法还包括:采用平滑窗对所述归一化互相关值进行频域平滑处理;以及采用一阶低通滤波对所述归一化互相关值进行时域平滑处理。
需要说明的是,上述步骤201~202与提取伴奏实施例中的步骤101~102相同;平滑处理方法也与提取伴奏中的平滑处理方法相同,具体可参见上一实施例,本实施例此处不再赘述。
步骤203,对左声道信号和右声道信号相应频点对的均值信号加权人声增益;其中,所述人声增益与当前频点对的归一化互相关值成正比例取值;
由于,伴奏在左右两个声道中的频点相关性较低,人声在左右两个声道中的频点相关性较强。为了提取出人声,将互相关性弱的频点加权较低增益,从而消减伴奏;将互相关性强的频点加权较高增益,从而增强人声。
具体的,加权的人声增益与当前频点对的归一化互相关值成正比例取值,则:当归一化互相关值较小时,说明左右声道频点对的相关性较低,加权的增益值较小;当归一化互相关值较大时,说明左右声道频点对的相关性较高,加权的增益较大。
在本发明的一个优选实施例中,所述人声增益取值为:当前频点对的归一化互相关值。
由于通过频域和时域平滑处理后,得到的归一化互相关值corrLR_T(i)是一个0和1之间的数,当相关性强时,接近1;当相关性弱时,接近0。因此,本发明优选实施例中,根据corrLR_T(i)的值选取人声增益的值。
设左、右声道信号第i个频点对的人声增益为gain_V(i),则:
gain_V(i)=corrLR_T(i);
然后用求得的人声增益加权左、右声道的频域信号的均值。人声第i个频点的实部为Re_V(i),虚部为Im_V(i),则有:
Re_V(i)=[Re_L(i)+Re_R(i)]*0.5*gain_V(i);
Im_V(i)=[Im_L(i)+Im_R(i)]*0.5*gain_V(i)。
由于左右两声道信号都包含人声,左右两路信号相加合并后,为防止相加后溢出,需要取一半的值。通过对左右声道各个频点对的均值进行不同增益加权,就可以提取出了人声的频域信号。
步骤204,将加权人声增益后的左声道和右声道的均值信号由频域信号转换为时域信号,提取出人声。
具体的,所述步骤204包括如下子步骤:
子步骤2041,通过傅立叶逆变换分别将左声道和右声道的均值信号由频域信号转换为时域信号;
针对加权人声增益后的频域均值信号,通过傅立叶逆变换IFFT由频域转换到时域。
子步骤2042,将时域的左声道和右声道的均值信号经过综合窗加权。
由于信号由时域转频域时进行了分析窗加权,因此,信号由频域转时域之后需要加权综合窗,以去除分析窗函数对信号的影响。同前面分析窗一样,对加综合窗后的时域信号也有50%叠加,以恢复出正确的时域信号。
本发明实施例将左右两个通道的信号分别由时域转换到频域,然后分析两路信号在各个频段的互相关性,将互相关性弱的频段加权较低增益,将互相关性强的频段加权较高增益,最后将频域信号恢复为时域信号。从而消弱了伴奏,提取了人声,从而达到分离伴奏和人声的目的。
参照图3,示出了本发明一种从立体声音乐中提取伴奏的装置实施例的结构图,包括:
第一频域信号转换模块301,用于分别将左声道信号和右声道信号由时域信号转换为频域信号;
第一互相关值计算模块302,用于依次计算左声道信号和右声道信号的相应频点对的归一化互相关值;
伴奏增益加权模块303,用于分别对左声道信号和右声道信号的相应频点对加权伴奏增益;其中,所述伴奏增益与当前频点对的归一化互相关值成反比例取值;
第一时域信号转换模块304,用于将加权伴奏增益后的左声道信号和右声道信号由频域信号转换为时域信号,分别提取出左声道伴奏和右声道伴奏。
进一步,所述第一频域信号转换模块301包括:
第一分析窗加权子模块3011,用于分别将时域的左声道信号和右声道信号经过分析窗加权;
第一傅立叶变换子模块3012,用于通过傅立叶变换分别将左声道信号和右声道信号由时域信号转换为频域信号。
进一步,所述第一时域信号转换模块304包括:
第一傅立叶逆变换子模块3041,用于通过傅立叶逆变换分别将左声道信号和右声道信号由频域信号转换为时域信号;
第一综合窗加权子模块3042,用于分别将时域的左声道信号和右声道信号经过综合窗加权。
在本发明的一个优选实施例中,所述装置还包括:
第一时频平滑处理模块305,用于采用平滑窗对所述归一化互相关值进行频域平滑处理;以及采用一阶低通滤波对所述归一化互相关值进行时域平滑处理。
在本发明的优选实施例中,所述伴奏增益取值为:一减去当前频点对的归一化互相关值。
参照图4,示出了本发明一种从立体声音乐中提取人声的装置实施例的结构图,其特征在于,包括:
第二频域信号转换模块401,用于分别将左声道信号和右声道信号由时域信号转换为频域信号;
第二互相关值计算模块402,用于依次计算左声道信号和右声道信号的相应频点对的归一化互相关值;
人声增益加权模块403,用于对左声道信号和右声道信号相应频点对的均值信号加权人声增益;其中,所述人声增益与当前频点对的归一化互相关值成正比例取值;
第二时域信号转换模块404,用于将加权人声增益后的左声道和右声道的均值信号由频域信号转换为时域信号,提取出人声。
进一步,所述第二频域信号转换模块401包括:
第二分析窗加权子模块4011,用于分别将时域的左声道信号和右声道信号经过分析窗加权;
第二傅立叶变换子模块4012,用于通过傅立叶变换分别将左声道信号和右声道信号由时域信号转换为频域信号。
进一步,所述第二时域信号转换模块404包括:
第二傅立叶逆变换子模块4041,用于通过傅立叶逆变换分别将左声道和右声道的均值信号由频域信号转换为时域信号;
第二综合窗加权子模块4042,用于将时域的左声道和右声道的均值信号经过综合窗加权。
在本发明的一个优选实施例中,所述装置还包括:
第二时频平滑处理模块405,用于采用平滑窗对所述归一化互相关值进行频域平滑处理;以及采用一阶低通滤波对所述归一化互相关值进行时域平滑处理。
在本发明的优选实施例中,所述人声增益取值为:当前频点对的归一化互相关值。
需要说明的是,本发明可以针对上述从立体声音乐中提取伴奏的装置和从立体声音乐中提取伴奏的装置进行组合,将其作为一个伴奏、人声相分离的系统。如图5所示,为本发明一种伴奏、人声相分离的系统实施例的原理示意图。其中,左声道信号和右声道信号分别经过加权分析窗并通过FFT变换,然后进入频域互相关伴奏人声分离单元进行处理,输出的三路信号:左声道伴奏频域信号、右声道伴奏频域信号和人声频域信号,最后将三路频域信号通过IFFT变换并经过加权综合窗,得到左声道伴奏、右声道和人声。
如图6所示,为本发明一种频域互相关伴奏人声分离单元实施例的原理示意图,由于提取伴奏装置和提取人声装置的部分模块相同,因此将功能相同的模块进行整合。具体的,所述单元将第一互相关值计算模块和第二互相关值计算模块进行合并,组合为一个处理模块,将第一时频平滑处理模块和第二时频平滑处理模块进行合并,组合为一个处理模块;进一步,将伴奏增益加权模块拆分为左声道伴奏增益加权模块以及右声道伴奏增益加权模块,分别对左右声道的频域信号进行加权。本发明对上述各个模块的设置形式不做限定,在具体实施时,可以根据实际需要灵活的组合、拆分。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上对本发明所提供的一种从立体声音乐中提取伴奏的方法及其装置、以及一种立体声音乐中提取人声的方法及其装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (20)
1.一种从立体声音乐中提取伴奏的方法,其特征在于,包括:
分别将左声道信号和右声道信号由时域信号转换为频域信号;
依次计算左声道信号和右声道信号的相应频点对的归一化互相关值;
分别对左声道信号和右声道信号的相应频点对加权伴奏增益;其中,所述伴奏增益与当前频点对的归一化互相关值成反比例取值;
将加权伴奏增益后的左声道信号和右声道信号由频域信号转换为时域信号,分别提取出左声道伴奏和右声道伴奏。
2.如权利要求1所述的方法,其特征在于,所述将左声道信号和右声道信号由时域信号转换为频域信号包括:
分别将时域的左声道信号和右声道信号经过分析窗加权;
通过傅立叶变换分别将左声道信号和右声道信号由时域信号转换为频域信号。
3.如权利要求1所述的方法,其特征在于,所述将左声道信号和右声道信号由频域信号转换为时域信号包括:
通过傅立叶逆变换分别将左声道信号和右声道信号由频域信号转换为时域信号;
分别将时域的左声道信号和右声道信号经过综合窗加权。
4.如权利要求1所述的方法,其特征在于,对左声道信号和右声道信号的相应频点对加权伴奏增益之前,还包括:
采用平滑窗对所述归一化互相关值进行频域平滑处理;
采用一阶低通滤波对所述归一化互相关值进行时域平滑处理。
5.如权利要求4所述的方法,其特征在于,
所述伴奏增益取值为:一减去当前频点对的归一化互相关值。
6.一种从立体声音乐中提取人声的方法,其特征在于,包括:
分别将左声道信号和右声道信号由时域信号转换为频域信号;
依次计算左声道信号和右声道信号的相应频点对的归一化互相关值;
对左声道信号和右声道信号相应频点对的均值信号加权人声增益;其中,所述人声增益与当前频点对的归一化互相关值成正比例取值;
将加权人声增益后的左声道和右声道的均值信号由频域信号转换为时域信号,提取出人声。
7.如权利要求6所述的方法,其特征在于,所述将左声道信号和右声道信号由时域信号转换为频域信号包括:
分别将时域的左声道信号和右声道信号经过分析窗加权;
通过傅立叶变换分别将左声道信号和右声道信号由时域信号转换为频域信号。
8.如权利要求6所述的方法,其特征在于,所述将左声道和右声道的均值信号由频域信号转换为时域信号包括:
通过傅立叶逆变换分别将左声道和右声道的均值信号由频域信号转换为时域信号;
将时域的左声道和右声道的均值信号经过综合窗加权。
9.如权利要求6所述的方法,其特征在于,对左声道信号和右声道信号相应频点对的均值信号加权人声增益之前,还包括:
采用平滑窗对所述归一化互相关值进行频域平滑处理;
采用一阶低通滤波对所述归一化互相关值进行时域平滑处理。
10.如权利要求9所述的方法,其特征在于,
所述人声增益取值为:当前频点对的归一化互相关值。
11.一种从立体声音乐中提取伴奏的装置,其特征在于,包括:
第一频域信号转换模块,用于分别将左声道信号和右声道信号由时域信号转换为频域信号;
第一互相关值计算模块,用于依次计算左声道信号和右声道信号的相应频点对的归一化互相关值;
伴奏增益加权模块,用于分别对左声道信号和右声道信号的相应频点对加权伴奏增益;其中,所述伴奏增益与当前频点对的归一化互相关值成反比例取值;
第一时域信号转换模块,用于将加权伴奏增益后的左声道信号和右声道信号由频域信号转换为时域信号,分别提取出左声道伴奏和右声道伴奏。
12.如权利要求11所述的装置,其特征在于,所述第一频域信号转换模块包括:
第一分析窗加权子模块,用于分别将时域的左声道信号和右声道信号经过分析窗加权;
第一傅立叶变换子模块,用于通过傅立叶变换分别将左声道信号和右声道信号由时域信号转换为频域信号。
13.如权利要求11所述的装置,其特征在于,所述第一时域信号转换模块包括:
第一傅立叶逆变换子模块,用于通过傅立叶逆变换分别将左声道信号和右声道信号由频域信号转换为时域信号;
第一综合窗加权子模块,用于分别将时域的左声道信号和右声道信号经过综合窗加权。
14.如权利要求11所述的装置,其特征在于,所述装置还包括:
第一时频平滑处理模块,用于采用平滑窗对所述归一化互相关值进行频域平滑处理;以及采用一阶低通滤波对所述归一化互相关值进行时域平滑处理。
15.如权利要求14所述的装置,其特征在于,
所述伴奏增益取值为:一减去当前频点对的归一化互相关值。
16.一种从立体声音乐中提取人声的装置,其特征在于,包括:
第二频域信号转换模块,用于分别将左声道信号和右声道信号由时域信号转换为频域信号;
第二互相关值计算模块,用于依次计算左声道信号和右声道信号的相应频点对的归一化互相关值;
人声增益加权模块,用于对左声道信号和右声道信号相应频点对的均值信号加权人声增益;其中,所述人声增益与当前频点对的归一化互相关值成正比例取值;
第二时域信号转换模块,用于将加权人声增益后的左声道和右声道的均值信号由频域信号转换为时域信号,提取出人声。
17.如权利要求16所述的装置,其特征在于,所述第二频域信号转换模块包括:
第二分析窗加权子模块,用于分别将时域的左声道信号和右声道信号经过分析窗加权;
第二傅立叶变换子模块,用于通过傅立叶变换分别将左声道信号和右声道信号由时域信号转换为频域信号。
18.如权利要求16所述的装置,其特征在于,所述第二时域信号转换模块包括:
第二傅立叶逆变换子模块,用于通过傅立叶逆变换分别将左声道和右声道的均值信号由频域信号转换为时域信号;
第二综合窗加权子模块,用于将时域的左声道和右声道的均值信号经过综合窗加权。
19.如权利要求16所述的装置,其特征在于,所述装置还包括:
第二时频平滑处理模块,用于采用平滑窗对所述归一化互相关值进行频域平滑处理;以及采用一阶低通滤波对所述归一化互相关值进行时域平滑处理。
20.如权利要求19所述的装置,其特征在于,
所述人声增益取值为:当前频点对的归一化互相关值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010282705.9A CN102402977B (zh) | 2010-09-14 | 2010-09-14 | 从立体声音乐中提取伴奏、人声的方法及其装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010282705.9A CN102402977B (zh) | 2010-09-14 | 2010-09-14 | 从立体声音乐中提取伴奏、人声的方法及其装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102402977A true CN102402977A (zh) | 2012-04-04 |
CN102402977B CN102402977B (zh) | 2015-12-09 |
Family
ID=45885129
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201010282705.9A Active CN102402977B (zh) | 2010-09-14 | 2010-09-14 | 从立体声音乐中提取伴奏、人声的方法及其装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102402977B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103943113A (zh) * | 2014-04-15 | 2014-07-23 | 福建星网视易信息系统有限公司 | 一种歌曲去伴奏的方法和装置 |
CN104078051A (zh) * | 2013-03-29 | 2014-10-01 | 中兴通讯股份有限公司 | 一种人声提取方法、系统以及人声音频播放方法及装置 |
CN104134444A (zh) * | 2014-07-11 | 2014-11-05 | 福建星网视易信息系统有限公司 | 一种基于mmse的歌曲去伴奏方法和装置 |
WO2017028704A1 (zh) * | 2015-08-18 | 2017-02-23 | 阿里巴巴集团控股有限公司 | 伴奏音乐的提供方法和装置 |
CN106653048A (zh) * | 2016-12-28 | 2017-05-10 | 上海语知义信息技术有限公司 | 基于人声模型的单通道声音分离方法 |
CN107004427A (zh) * | 2014-12-12 | 2017-08-01 | 华为技术有限公司 | 增强多声道音频信号内语音分量的信号处理装置 |
CN107017005A (zh) * | 2017-04-27 | 2017-08-04 | 同济大学 | 一种基于dft的双通道语声分离方法 |
CN107146630A (zh) * | 2017-04-27 | 2017-09-08 | 同济大学 | 一种基于stft的双通道语声分离方法 |
CN108231091A (zh) * | 2018-01-24 | 2018-06-29 | 广州酷狗计算机科技有限公司 | 一种检测音频的左右声道是否一致的方法和装置 |
CN108962277A (zh) * | 2018-07-20 | 2018-12-07 | 广州酷狗计算机科技有限公司 | 语音信号分离方法、装置、计算机设备以及存储介质 |
CN110232931A (zh) * | 2019-06-18 | 2019-09-13 | 广州酷狗计算机科技有限公司 | 音频信号的处理方法、装置、计算设备及存储介质 |
CN111667805A (zh) * | 2019-03-05 | 2020-09-15 | 腾讯科技(深圳)有限公司 | 一种伴奏音乐的提取方法、装置、设备和介质 |
CN111988726A (zh) * | 2019-05-06 | 2020-11-24 | 深圳市三诺数字科技有限公司 | 一种立体声合成单声道的方法和系统 |
CN112053669A (zh) * | 2020-08-27 | 2020-12-08 | 海信视像科技股份有限公司 | 一种人声消除方法、装置、设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04271700A (ja) * | 1991-02-27 | 1992-09-28 | New Japan Radio Co Ltd | ステレオボイスチェンジ回路 |
CN1945689A (zh) * | 2006-10-24 | 2007-04-11 | 北京中星微电子有限公司 | 一种从歌曲中提取伴奏乐的方法及其装置 |
US20090202106A1 (en) * | 2008-02-12 | 2009-08-13 | Tae-Hwa Hong | Method for recognizing music score image with automatic accompaniment in mobile device |
CN101577117A (zh) * | 2009-03-12 | 2009-11-11 | 北京中星微电子有限公司 | 伴奏音乐提取方法及装置 |
-
2010
- 2010-09-14 CN CN201010282705.9A patent/CN102402977B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04271700A (ja) * | 1991-02-27 | 1992-09-28 | New Japan Radio Co Ltd | ステレオボイスチェンジ回路 |
CN1945689A (zh) * | 2006-10-24 | 2007-04-11 | 北京中星微电子有限公司 | 一种从歌曲中提取伴奏乐的方法及其装置 |
US20090202106A1 (en) * | 2008-02-12 | 2009-08-13 | Tae-Hwa Hong | Method for recognizing music score image with automatic accompaniment in mobile device |
CN101577117A (zh) * | 2009-03-12 | 2009-11-11 | 北京中星微电子有限公司 | 伴奏音乐提取方法及装置 |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104078051A (zh) * | 2013-03-29 | 2014-10-01 | 中兴通讯股份有限公司 | 一种人声提取方法、系统以及人声音频播放方法及装置 |
WO2014153922A1 (zh) * | 2013-03-29 | 2014-10-02 | 中兴通讯股份有限公司 | 一种人声提取方法、系统以及人声音频播放方法及装置 |
CN103943113A (zh) * | 2014-04-15 | 2014-07-23 | 福建星网视易信息系统有限公司 | 一种歌曲去伴奏的方法和装置 |
CN103943113B (zh) * | 2014-04-15 | 2017-11-07 | 福建星网视易信息系统有限公司 | 一种歌曲去伴奏的方法和装置 |
CN104134444B (zh) * | 2014-07-11 | 2017-03-15 | 福建星网视易信息系统有限公司 | 一种基于mmse的歌曲去伴奏方法和装置 |
CN104134444A (zh) * | 2014-07-11 | 2014-11-05 | 福建星网视易信息系统有限公司 | 一种基于mmse的歌曲去伴奏方法和装置 |
CN107004427A (zh) * | 2014-12-12 | 2017-08-01 | 华为技术有限公司 | 增强多声道音频信号内语音分量的信号处理装置 |
CN107004427B (zh) * | 2014-12-12 | 2020-04-14 | 华为技术有限公司 | 增强多声道音频信号内语音分量的信号处理装置 |
CN106469557A (zh) * | 2015-08-18 | 2017-03-01 | 阿里巴巴集团控股有限公司 | 伴奏音乐的提供方法和装置 |
WO2017028704A1 (zh) * | 2015-08-18 | 2017-02-23 | 阿里巴巴集团控股有限公司 | 伴奏音乐的提供方法和装置 |
CN106469557B (zh) * | 2015-08-18 | 2020-02-18 | 阿里巴巴集团控股有限公司 | 伴奏音乐的提供方法和装置 |
CN106653048B (zh) * | 2016-12-28 | 2019-10-15 | 云知声(上海)智能科技有限公司 | 基于人声模型的单通道声音分离方法 |
CN106653048A (zh) * | 2016-12-28 | 2017-05-10 | 上海语知义信息技术有限公司 | 基于人声模型的单通道声音分离方法 |
CN107017005B (zh) * | 2017-04-27 | 2020-03-24 | 同济大学 | 一种基于dft的双通道语声分离方法 |
CN107146630A (zh) * | 2017-04-27 | 2017-09-08 | 同济大学 | 一种基于stft的双通道语声分离方法 |
CN107017005A (zh) * | 2017-04-27 | 2017-08-04 | 同济大学 | 一种基于dft的双通道语声分离方法 |
CN107146630B (zh) * | 2017-04-27 | 2020-02-14 | 同济大学 | 一种基于stft的双通道语声分离方法 |
CN108231091B (zh) * | 2018-01-24 | 2021-05-25 | 广州酷狗计算机科技有限公司 | 一种检测音频的左右声道是否一致的方法和装置 |
CN108231091A (zh) * | 2018-01-24 | 2018-06-29 | 广州酷狗计算机科技有限公司 | 一种检测音频的左右声道是否一致的方法和装置 |
CN108962277A (zh) * | 2018-07-20 | 2018-12-07 | 广州酷狗计算机科技有限公司 | 语音信号分离方法、装置、计算机设备以及存储介质 |
CN111667805A (zh) * | 2019-03-05 | 2020-09-15 | 腾讯科技(深圳)有限公司 | 一种伴奏音乐的提取方法、装置、设备和介质 |
CN111667805B (zh) * | 2019-03-05 | 2023-10-13 | 腾讯科技(深圳)有限公司 | 一种伴奏音乐的提取方法、装置、设备和介质 |
CN111988726A (zh) * | 2019-05-06 | 2020-11-24 | 深圳市三诺数字科技有限公司 | 一种立体声合成单声道的方法和系统 |
CN110232931A (zh) * | 2019-06-18 | 2019-09-13 | 广州酷狗计算机科技有限公司 | 音频信号的处理方法、装置、计算设备及存储介质 |
CN110232931B (zh) * | 2019-06-18 | 2022-03-22 | 广州酷狗计算机科技有限公司 | 音频信号的处理方法、装置、计算设备及存储介质 |
CN112053669A (zh) * | 2020-08-27 | 2020-12-08 | 海信视像科技股份有限公司 | 一种人声消除方法、装置、设备及介质 |
CN112053669B (zh) * | 2020-08-27 | 2023-10-27 | 海信视像科技股份有限公司 | 一种人声消除方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN102402977B (zh) | 2015-12-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102402977A (zh) | 从立体声音乐中提取伴奏、人声的方法及其装置 | |
CN101960516B (zh) | 语音增强 | |
CN108417228B (zh) | 乐器音色迁移下的人声音色相似性度量方法 | |
CN103680517A (zh) | 一种音频信号的处理方法、装置及设备 | |
CN103943113B (zh) | 一种歌曲去伴奏的方法和装置 | |
CN1747608B (zh) | 音频信号处理装置和方法 | |
CN101536085A (zh) | 用于从音频信号中产生环境信号的设备和方法,用于从音频信号中导出多声道音频信号的设备和方法以及计算机程序 | |
CN106228973A (zh) | 稳定音色的音乐语音变调方法 | |
CN104134444B (zh) | 一种基于mmse的歌曲去伴奏方法和装置 | |
CN104282316A (zh) | 一种基于语音匹配的k歌计分方法和装置 | |
CN102129456A (zh) | 去相关稀疏映射音乐流派有监督自动分类方法 | |
KR101840015B1 (ko) | 스테레오 음악신호를 위한 반주신호 추출방법 및 장치 | |
CN102354500A (zh) | 一种基于谐波控制的虚拟低音增强处理方法 | |
CN106997765A (zh) | 人声音色的定量表征方法 | |
CN110516102B (zh) | 一种基于语谱图识别的歌词时间戳生成方法 | |
CN105976803B (zh) | 一种结合乐谱的音符切分方法 | |
Pishdadian et al. | A multi-resolution approach to common fate-based audio separation | |
CN102231279B (zh) | 基于听觉关注度的音频质量客观评价系统及方法 | |
CN107146630B (zh) | 一种基于stft的双通道语声分离方法 | |
Li et al. | Musical sound separation using pitch-based labeling and binary time-frequency masking | |
CN107017005A (zh) | 一种基于dft的双通道语声分离方法 | |
Chen et al. | Cochlear pitch class profile for cover song identification | |
Oh et al. | Spectrogram-channels u-net: a source separation model viewing each channel as the spectrogram of each source | |
Lopatka et al. | Improving listeners' experience for movie playback through enhancing dialogue clarity in soundtracks | |
TW582024B (en) | Method and system for determining reliable speech recognition coefficients in noisy environment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C56 | Change in the name or address of the patentee | ||
CP03 | Change of name, title or address |
Address after: 214000 Jiangsu province Wuxi District Qingyuan Road No. 18 Taihu International Science Park sensor network university science and Technology Park 530 building A1001 Patentee after: WUXI ZHONGGAN MICROELECTRONIC CO., LTD. Address before: 214028 national integrated circuit design (21-1), Changjiang Road, New District, Jiangsu, Wuxi, China, China (610) Patentee before: Wuxi Vimicro Co., Ltd. |