[go: up one dir, main page]

CN108962276B - 一种语音分离方法及装置 - Google Patents

一种语音分离方法及装置 Download PDF

Info

Publication number
CN108962276B
CN108962276B CN201810820474.9A CN201810820474A CN108962276B CN 108962276 B CN108962276 B CN 108962276B CN 201810820474 A CN201810820474 A CN 201810820474A CN 108962276 B CN108962276 B CN 108962276B
Authority
CN
China
Prior art keywords
signal
separation
signals
iteration
separated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810820474.9A
Other languages
English (en)
Other versions
CN108962276A (zh
Inventor
代金良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sinwt Science & Technology Co ltd
Original Assignee
Hangzhou Audiometry Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Audiometry Technology Co Ltd filed Critical Hangzhou Audiometry Technology Co Ltd
Priority to CN201810820474.9A priority Critical patent/CN108962276B/zh
Publication of CN108962276A publication Critical patent/CN108962276A/zh
Application granted granted Critical
Publication of CN108962276B publication Critical patent/CN108962276B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party

Landscapes

  • Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephone Function (AREA)

Abstract

本发明公开了一种语音分离方法,包括:获取各个信号通道的待分离语音数据;针对每一预设的采样时刻,利用盲源分离算法对待分离语音数据进行分离处理,得到P个分离信号;计算当前分离信号与P个分离信号中除当前分离信号之外的其他分离信号之间的交叉残留系数;并判断交叉残留系数是否小于第一预设阈值;若否,利用回声消除算法对所有交叉残留系数不小于第一预设阈值的分离信号,进行回声消除处理,并将处理后的分离信号与所有交叉残留系数不小于第一预设阈值的分离信号的集合作为目标分离信号;若是,将分离信号作为目标分离信号。本发明实施例还提供了一种语音分离装置。应用本发明实施例,可以降低语音信号中的交叉信号残留。

Description

一种语音分离方法及装置
技术领域
本发明涉及一种语音处理方法及装置,更具体涉及一种语音分离方法及装置。
背景技术
在语音处理领域,通常会遇到对多人同时说话的语音信号进行语音分离处理,进而得到每个人的语音信号,如何获得更好的声源分离的效果,即分离后的其他说话人的残留语音更少。这一问题在学术上称为“鸡尾酒会问题”,是长久以来困扰人机语音交互应用的难题,迄今仍没有在实际环境中稳定可用的产品或者方案。
目前,常用的语音分离的算法主要包括:神经网络算法、最大熵算法、最小互信息算法、最大似然算法、独立分量分析算法、遗传算法、机器学习、基于麦克风阵列的波束形成算法等。
但是,由于现有算法的基础理论限制,导致现有算法普遍分离效果不理想,交叉信号残留较大。
发明内容
本发明所要解决的技术问题在于提供了一种语音分离方法及装置,以解决现有技术中交叉信号残留较大的技术问题。
本发明是通过以下技术方案解决上述技术问题的:
本发明实施例提供了一种语音分离方法,所述方法包括:
获取各个信号通道的待分离语音数据,其中,所述待分离语音数据含有至少两个人同时说话时产生的语音数据;
针对每一预设的采样时刻,利用盲源分离算法对所述待分离语音数据进行分离处理,得到P个分离信号;
针对每一个分离信号,计算当前分离信号与所述P个分离信号中除所述当前分离信号之外的其他分离信号之间的交叉残留系数;并判断所述交叉残留系数是否小于第一预设阈值;
若否,利用回声消除算法对所有交叉残留系数不小于第一预设阈值的分离信号,进行回声消除处理,并将处理后的分离信号与所有交叉残留系数小于第一预设阈值的分离信号的集合作为目标分离信号;
若是,将所述分离信号作为目标分离信号。
可选的,所述盲源分离算法包括:非线性主分量分析、独立分量分析、神经网络算法、最大熵算法、最小互信息算法、最大似然算法中的一种或多个的组合。
可选的,所述利用盲源分离算法对所述待分离语音数据进行分离处理,包括:
针对各个所述待分离语音数据,利用NPCA准则建立针对所述待分离语音数据的代价函数
Figure BDA0001741277120000021
其中,
J(W)为第t时刻的分离矩阵的代价;E{.}为期望运算函数;x(t)为各个麦克风对应的信号通道所观测到的观测信号;W为分离矩阵;(.)T为转置运算;
Figure BDA0001741277120000022
为非线性函数;t为当前时刻;
对所述代价函数进行最小化处理,得到分离矩阵的迭代估计为:
W(t+1)=W(t)+θ*z(t)[xT(t)-zT(t)W(t)],其中,
W(t+1)为第t+1时刻的分离矩阵;W(t)为第t时刻的分离矩阵;θ为迭代步长,且
Figure BDA0001741277120000023
θ(t)为第t时刻的迭代步长,θ(t-1)为第t-1时刻的迭代步长,ρ为常数,
Figure BDA0001741277120000031
为梯度函数,J(t)为第t时刻的代价;z(t)为非线性函数,且
Figure BDA0001741277120000032
利用公式,W(t+1)=W(t)+θ*z(t)[xT(t)-zT(t)W(t)],迭代计算下一时刻的分离矩阵,直至所述分离矩阵收敛,得到各个待分离语音数据的目标分离矩阵;
利用公式,y(t)=Wx(t),得到所述待分离语音数据的分离后的信号,其中,y(t)为当前观测信号的分离后的信号。
可选的,所述计算当前分离信号与所述P个分离信号中除所述当前分离信号之外的其他分离信号之间的交叉残留系数,包括:
利用公式,
Figure BDA0001741277120000033
计算当前分离信号与所述P个分离信号中除所述当前分离信号之外的其他分离信号之间的交叉残留系数,其中,
Figure BDA0001741277120000034
为第i个通道的当前分离信号与所述P个分离信号中除所述当前分离信号之外的其他分离信号之间的交叉残留系数;i为当前分离信号的通道的编号;j为所述P个分离信号中除所述当前分离信号之外的其他分离信号的通道的编号;ai,k为第i个通道的分离信号与第k个分离信号之间的混合系数;aj,k为第j个通道的分离信号与第k个分离信号之间的混合系数;yk为第k个通道的声源信号;∑为求和函数。
可选的,所述利用回声消除算法对所有交叉残留系数不小于第一预设阈值的分离信号,进行回声消除处理,包括:
针对所有交叉残留系数不小于第一预设阈值的分离信号中的每一分离信号,将当前分离信号作近端信号;将交叉残留系数不小于第一预设阈值的分离信号中除所述当前分离信号之外的其他信号作为远端信号;
利用公式,
Figure BDA0001741277120000035
获取误差信号;其中,e(n)为误差信号;d(n)为理想输出信号;N为每一音频帧对应的时长,其取值为滤波器长度;k为音频帧中采样点的序号;
Figure BDA0001741277120000041
为第n次迭代时第k个采样点对应的滤波器系数;n为迭代次数;x(n-k)为第n-k次迭代时的观测信号;
利用公式,
Figure BDA0001741277120000042
更新迭代步长,其中,
μ(n)为第n次迭代时的迭代步长;
Figure BDA0001741277120000043
为近端信号的方差;N为每一音频帧对应的时长,其取值为滤波器长度,且k∈(0,N);x(n-i)为第n-i次迭代时的观测信号;Λ(n)为第l次迭代时的失调;
利用公式,
Figure BDA0001741277120000044
更新滤波器的系数的估计值,其中,
Figure BDA0001741277120000045
为第n+1次迭代时的滤波器系数的估计值;μ(n)为迭代步长;
Figure BDA0001741277120000046
为第l次迭代时滤波器系数的估计值;N为每一音频帧对应的时长,其取值为滤波器长度;x(n-i)为第n-i次迭代时的观测信号;x*(n-k)为第n-k次迭代时的观测信号共轭值;||为求模函数;
利用公式,d(n)=v(n)+∑kwk(n)x(n-k),计算第n次迭代时的期望信号,其中,v(n)为近端信号;wk(n)为第n次迭代时第k个采样点对应的滤波器系数的理论值;x(n-k)为第n-k次迭代时的观测信号;
判断第n次迭代时的期望信号是否收敛,若是,返回执行所述将当前分离信号作近端信号的步骤;若否,将所述第n次迭代时的期望信号作为消除回声后的信号。
本发明实施例提供了一种语音分离装置,所述装置包括:
第一获取模块,用于获取各个信号通道的待分离语音数据,其中,所述待分离语音数据含有至少两个人同时说话时产生的语音数据;
第二获取模块,用于针对每一预设的采样时刻,利用盲源分离算法对所述待分离语音数据进行分离处理,得到P个分离信号;
计算模块,用于针对每一个分离信号,计算当前分离信号与所述P个分离信号中除所述当前分离信号之外的其他分离信号之间的交叉残留系数;并判断所述交叉残留系数是否小于第一预设阈值;
消除模块,用于在所述计算模块的计算结果为否的情况下,利用回声消除算法对所有交叉残留系数不小于第一预设阈值的分离信号,进行回声消除处理,并将处理后的分离信号与所有交叉残留系数小于第一预设阈值的分离信号的集合作为目标分离信号;
设置模块,用于在所述计算模块的计算结果为是的情况下,将所述分离信号作为目标分离信号。
可选的,所述盲源分离算法包括:非线性主分量分析、独立分量分析、神经网络算法、最大熵算法、最小互信息算法、最大似然算法中的一种或多个的组合。
可选的,所述第二获取模块,还用于:
针对各个所述待分离语音数据,利用NPCA准则建立针对所述待分离语音数据的代价函数
Figure BDA0001741277120000051
其中,
J(W)为第t时刻的分离矩阵的代价;E{.}为期望运算函数;x(t)为各个麦克风对应的信号通道所观测到的观测信号;W为分离矩阵;(.)T为转置运算;
Figure BDA0001741277120000052
为非线性函数;t为当前时刻;
对所述代价函数进行最小化处理,得到分离矩阵的迭代估计为:
W(t+1)=W(t)+θ*z(t)[xT(t)-zT(t)W(t)],其中,
W(t+1)为第t+1时刻的分离矩阵;W(t)为第t时刻的分离矩阵;θ为迭代步长,且
Figure BDA0001741277120000061
θ(t)为第t时刻的迭代步长,θ(t-1)为第t-1时刻的迭代步长,ρ为常数,
Figure BDA0001741277120000062
为梯度函数,J(t)为第t时刻的代价;z(t)为非线性函数,且
Figure BDA0001741277120000066
利用公式,W(t+1)=W(t)+θ*z(t)[xT(t)-zT(t)W(t)],迭代计算下一时刻的分离矩阵,直至所述分离矩阵收敛,得到各个待分离语音数据的目标分离矩阵;
利用公式,y(t)=Wx(t),得到所述待分离语音数据的分离后的信号,其中,y(t)为当前观测信号的分离后的信号。
可选的,所述计算模块,还用于:
利用公式,
Figure BDA0001741277120000063
计算当前分离信号与所述P个分离信号中除所述当前分离信号之外的其他分离信号之间的交叉残留系数,其中,
Figure BDA0001741277120000064
为第i个通道的当前分离信号与所述P个分离信号中除所述当前分离信号之外的其他分离信号之间的交叉残留系数;i为当前分离信号的通道的编号;j为所述P个分离信号中除所述当前分离信号之外的其他分离信号的通道的编号;ai,k为第i个通道的分离信号与第k个分离信号之间的混合系数;aj,k为第j个通道的分离信号与第k个分离信号之间的混合系数;yk为第k个通道的声源信号;∑为求和函数。
可选的,所述消除模块,还用于:
针对所有交叉残留系数不小于第一预设阈值的分离信号中的每一分离信号,将当前分离信号作近端信号;将交叉残留系数不小于第一预设阈值的分离信号中除所述当前分离信号之外的其他信号作为远端信号;
利用公式,
Figure BDA0001741277120000065
获取误差信号;其中,e(n)为误差信号;d(n)为理想输出信号;N为每一音频帧对应的时长,其取值为滤波器长度;k为音频帧中采样点的序号;
Figure BDA0001741277120000071
为第n次迭代时第k个采样点对应的滤波器系数;n为迭代次数;x(n-k)为第n-k次迭代时的观测信号;
利用公式,
Figure BDA0001741277120000072
更新迭代步长,其中,
μ(n)为第n次迭代时的迭代步长;
Figure BDA0001741277120000073
为近端信号的方差;N为每一音频帧对应的时长,其取值为滤波器长度,且k∈(0,N);x(n-i)为第n-i次迭代时的观测信号;Λ(n)为第l次迭代时的失调;
利用公式,
Figure BDA0001741277120000074
更新滤波器的系数的估计值,其中,
Figure BDA0001741277120000075
为第n+1次迭代时的滤波器系数的估计值;μ(n)为迭代步长;
Figure BDA0001741277120000076
为第l次迭代时滤波器系数的估计值;N为每一音频帧对应的时长,其取值为滤波器长度;x(n-i)为第n-i次迭代时的观测信号;x*(n-k)为第n-k次迭代时的观测信号共轭值;||为求模函数;
利用公式,d(n)=v(n)+∑kwk(n)x(n-k),计算第n次迭代时的期望信号,其中,v(n)为近端信号;wk(n)为第n次迭代时第k个采样点对应的滤波器系数的理论值;x(n-k)为第n-k次迭代时的观测信号;
判断第n次迭代时的期望信号是否收敛,若是,返回执行所述将当前分离信号作近端信号的步骤;若否,将所述第n次迭代时的期望信号作为消除回声后的信号。
本发明相比现有技术具有以下优点:
应用本发明实施例,可以将分离后的信号中残留的交叉信号可以看作是其他声源的回声,再使用回声消除算法对各个分离信号进行回声消除处理,从而可以达到改善分离效果,进而降低目标信号中的交叉信号残留。
附图说明
图1为本发明实施例提供的一种语音分离方法的流程示意图;
图2为本发明实施例提供的一种语音分离装置的结构示意图。
具体实施方式
下面对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
本发明实施例提供了一种语音分离方法及装置,下面首先就本发明实施例提供的一种语音分离方法进行介绍。
首先需要说明的是,本发明实施例具有广泛的应用场景,比如:(1)传统上对于公共场合的监控只有视频监控,无法做到声音监控,因为公共场合中可能存在多个说话人同时说话,另外还会存在各种环境噪声、背景音乐等。应用本发明实施例可以在安防监控领域实现语音和视频的同时监控。(2)目前业内出现了用于实时完成会议纪要的会议转写系统,从而高效地完成会议纪要的功能,但是这一系统对于出现多人同时发言(如果会议讨论过程中出现激烈争论时)的情况就会失效,现有的语音识别系统完全无法应对多说话人语音识别的场景。应用本发明实施例,可以应用于智能会议系统。(3)可以应用于通用的语音降噪场景,通过声源分离,保留有用户正常话音的通道,去掉没有正常话音的通道,即可实现语音降噪。
图1为本发明实施例提供的一种语音分离方法的流程示意图,如图1所示,所述方法包括:
S101:获取各个信号通道的待分离语音数据,其中,所述待分离语音数据含有至少两个人同时说话时产生的语音数据。
具体的,使用至少两个设置在不同位置的麦克风,获取两个,或者两个的人以上同时说话时的语音数据,其中一个麦克风获得一路待分离语音数据,例如,麦克风-1获取的待分离语音数据-1、麦克风-2获取的待分离语音数据-2、麦克风-3获取的待分离语音数据-4、麦克风-1获取的待分离语音数据-5。
可以理解的是,一路待分离语音数据即对应一个信号通道。
S102:针对每一预设的采样时刻,利用盲源分离算法对所述待分离语音数据进行分离处理,得到P个分离信号。
具体的,所述盲源分离算法包括:非线性主分量分析、独立分量分析、神经网络算法、最大熵算法、最小互信息算法、最大似然算法中的一种或多个的组合
具体的,以S101步骤中的各路待分离语音数据位输入,利用如下方法,可以得到每一个预设的采样时刻对应的P路分离信号。可以针对各个所述待分离语音数据,利用NPCA(nonlinear principle component analysis,非线性主分量分析)准则建立针对所述待分离语音数据的代价函数:
Figure BDA0001741277120000091
其中,J(W)为第t时刻的分离矩阵的代价;E{.}为期望运算函数;x(t)为各个麦克风对应的信号通道所观测到的观测信号;W为分离矩阵;(.)T为转置运算;
Figure BDA0001741277120000092
为非线性函数;t为当前时刻;
对所述代价函数进行最小化处理,得到分离矩阵的迭代估计为:
W(t+1)=W(t)+θ*z(t)[xT(t)-zT(t)W(t)],其中,
W(t+1)为第t+1时刻的分离矩阵;W(t)为第t时刻的分离矩阵;θ为迭代步长,且
Figure BDA0001741277120000093
θ(t)为第t时刻的迭代步长,θ(t-1)为第t-1时刻的迭代步长,ρ为常数,
Figure BDA0001741277120000101
为梯度函数,J(t)为第t时刻的代价;z(t)为非线性函数,且
Figure BDA0001741277120000102
利用公式,W(t+1)=W(t)+θ*z(t)[xT(t)-zT(t)W(t)],迭代计算下一时刻的分离矩阵,直至所述分离矩阵收敛,得到各个待分离语音数据的目标分离矩阵;
利用公式,y(t)=Wx(t),得到所述待分离语音数据的分离后的信号,其中,y(t)为当前观测信号的分离后的信号。
例如,第1个采样时刻可以得到P路分离信号、第2个采样时刻可以得到P路分离信号、···、第n个采样时刻可以得到P路分离信号。
需要强调的是,前述观测信号是指,每一路的待分离语音数据。
S103:针对每一个分离信号,计算当前分离信号与所述P个分离信号中除所述当前分离信号之外的其他分离信号之间的交叉残留系数;并判断所述交叉残留系数是否小于第一预设阈值;若否,执行S104步骤;若是,执行S105步骤。
具体的,可以用si(n)表示得到的每一个分离信号,其中,i为该分离信号对应的信号通道序号,即麦克风的序号;n为每一个信号通道中的采样时刻的序号。发明人发现,在实际应用中,任何一个分离信号可以看作是同时刻的其他P-1路交叉残留信号混合而成的,因此,可以利用公式,
Figure BDA0001741277120000103
计算当前分离信号与所述P个分离信号中除所述当前分离信号之外的其他分离信号之间的交叉残留系数,其中,
Figure BDA0001741277120000104
为第i个通道的当前分离信号与所述P个分离信号中除所述当前分离信号之外的其他分离信号之间的交叉残留系数;i为当前分离信号的通道的编号;j为所述P个分离信号中除所述当前分离信号之外的其他分离信号的通道的编号;ai,k为第i个通道的分离信号与第k个分离信号之间的混合系数,可以理解的是,当k为1时,ai,k的值为1;aj,k为第j个通道的分离信号与第k个分离信号之间的混合系数;yk为第k个通道的声源信号;∑为求和函数。
当交叉残留系数不小于第一预设阈值,如0.0125时,执行S104步骤;若交叉残留系数小于第一预设阈值,执行S105步骤。
在实际应用中,可以使用ti(n)表示需要进行回声消除处理的分离信号,其中,i为该分离信号对应的信号通道序号,即麦克风的序号;n为每一个信号通道中的采样时刻的序号,且i∈(1,2,...,Q),Q≤P。
S104:利用回声消除算法对所有交叉残留系数不小于第一预设阈值的分离信号,进行回声消除处理,并将处理后的分离信号与所有交叉残留系数小于第一预设阈值的分离信号的集合作为目标分离信号。
具体的,所述回声消除算法,包括:频域MDF算法。在实际应用中,依次将需要进行回声消除处理的分离信号ti(n)依次作为近端信号,其他的需要进行回声消除处理的分离信号作为远端信号,分别使用回声消除算法进行处理。
具体的,所述利用回声消除算法对所有交叉残留系数不小于第一预设阈值的分离信号,进行回声消除处理,包括:
针对所有交叉残留系数不小于第一预设阈值的分离信号中的每一分离信号,将当前分离信号作近端信号;将交叉残留系数不小于第一预设阈值的分离信号中除所述当前分离信号之外的其他信号作为远端信号;
利用公式,
Figure BDA0001741277120000111
获取误差信号;其中,e(n)为误差信号;d(n)为理想输出信号;N为每一音频帧对应的时长,其取值为滤波器长度;k为音频帧中采样点的序号;
Figure BDA0001741277120000112
为第n次迭代时第k个采样点对应的滤波器系数;n为迭代次数;x(n-k)为第n-k次迭代时的观测信号;
利用公式,
Figure BDA0001741277120000121
更新迭代步长,其中,
μ(n)为第n次迭代时的迭代步长;
Figure BDA0001741277120000122
为近端信号的方差;N为每一音频帧对应的时长,其取值为滤波器长度,且k∈(0,N);x(n-i)为第n-i次迭代时的观测信号;Λ(n)为第l次迭代时的失调;
利用公式,
Figure BDA0001741277120000123
更新滤波器的系数的估计值,其中,
Figure BDA0001741277120000124
为第n+1次迭代时的滤波器系数的估计值;μ(n)为迭代步长;
Figure BDA0001741277120000125
为第l次迭代时滤波器系数的估计值;N为每一音频帧对应的时长,其取值为滤波器长度;x(n-i)为第n-i次迭代时的观测信号;x*(n-k)为第n-k次迭代时的观测信号共轭值;||为求模函数;
利用公式,d(n)=v(n)+∑kwk(n)x(n-k),计算第n次迭代时的期望信号,其中,v(n)为近端信号;wk(n)为第n次迭代时第k个采样点对应的滤波器系数的理论值;x(n-k)为第n-k次迭代时的观测信号;
判断第n次迭代时的期望信号是否收敛,若是,返回执行所述将当前分离信号作近端信号的步骤;若否,将所述第n次迭代时的期望信号作为消除回声后的信号。
将进行回声消除处理后的分离信号与所有交叉残留系数不小于第一预设阈值的分离信号,即不需要进行回声消除处理的分离信号的集合作为目标分离信号。
S105:将所述分离信号作为目标分离信号。
将交叉残留系数不小于第一预设阈值的分离信号,即不需要进行回声消除处理的分离信号的集合作为目标分离信号。
需要说明的是,针对第n+1时刻的P个分离信号也按照上述方法进行处理。最后得到了各个时刻的目标分离信号。
应用本发明图1所示实施例,可以将分离后的信号中残留的交叉信号可以看作是其他声源的回声,再使用回声消除算法对各个分离信号进行回声消除处理,从而可以达到改善分离效果,进而降低目标信号中的交叉信号残留。
另外,如果对盲源分离后的各分离信号全部采用回声消除进行后处理,又会带来极大的额外计算量,应用本发明实施例,可以有效判断哪些经盲源分离后的信号适合采用回声消除处理改善分离效果,进而有效提升整个系统的工作效率。
与本发明图1所示实施例相对应,本发明实施例还提供了一种语音分离装置。
图2为本发明实施例提供的一种语音分离装置的结构示意图,如图2所示,所述装置包括:
第一获取模块201,用于获取各个信号通道的待分离语音数据,其中,所述待分离语音数据含有至少两个人同时说话时产生的语音数据;
第二获取模块202,用于针对每一预设的采样时刻,利用盲源分离算法对所述待分离语音数据进行分离处理,得到P个分离信号;
计算模块203,用于针对每一个分离信号,计算当前分离信号与所述P个分离信号中除所述当前分离信号之外的其他分离信号之间的交叉残留系数;并判断所述交叉残留系数是否小于第一预设阈值;
消除模块204,用于在所述计算模块的计算结果为否的情况下,利用回声消除算法对所有交叉残留系数不小于第一预设阈值的分离信号,进行回声消除处理,并将处理后的分离信号与所有交叉残留系数小于第一预设阈值的分离信号的集合作为目标分离信号;
设置模块205,用于在所述计算模块的计算结果为是的情况下,将所述分离信号作为目标分离信号。
应用本发明图2所示实施例,可以将分离后的信号中残留的交叉信号可以看作是其他声源的回声,再使用回声消除算法对各个分离信号进行回声消除处理,从而可以达到改善分离效果,进而降低目标信号中的交叉信号残留。
在本发明实施例的一种具体实施方式中,所述盲源分离算法包括:非线性主分量分析、独立分量分析、神经网络算法、最大熵算法、最小互信息算法、最大似然算法中的一种或多个的组合。
在本发明实施例的一种具体实施方式中,所述第二获取模块202,还用于:
针对各个所述待分离语音数据,利用NPCA准则建立针对所述待分离语音数据的代价函数
Figure BDA0001741277120000141
其中,
J(w)为第t时刻的分离矩阵的代价;E{.}为期望运算函数;x(t)为各个麦克风对应的信号通道所观测到的观测信号;W为分离矩阵;(.)T为转置运算;
Figure BDA0001741277120000142
为非线性函数;t为当前时刻;
对所述代价函数进行最小化处理,得到分离矩阵的迭代估计为:
W(t+1)=W(t)+θ*z(t)[xT(t)-zT(t)W(t)],其中,
W(t+1)为第t+1时刻的分离矩阵;W(t)为第t时刻的分离矩阵;θ为迭代步长,且
Figure BDA0001741277120000143
θ(t)为第t时刻的迭代步长,θ(t-1)为第t-1时刻的迭代步长,ρ为常数,
Figure BDA0001741277120000144
为梯度函数,J(t)为第t时刻的代价;z(t)为非线性函数,且
Figure BDA0001741277120000145
利用公式,W(t+1)=W(t)+θ*z(t)[xT(t)-zT(t)W(t)],迭代计算下一时刻的分离矩阵,直至所述分离矩阵收敛,得到各个待分离语音数据的目标分离矩阵;
利用公式,y(t)=Wx(t),得到所述待分离语音数据的分离后的信号,其中,y(t)为当前观测信号的分离后的信号。
在本发明实施例的一种具体实施方式中,所述计算模块203,还用于:
利用公式,
Figure BDA0001741277120000151
计算当前分离信号与所述P个分离信号中除所述当前分离信号之外的其他分离信号之间的交叉残留系数,其中,
Figure BDA0001741277120000152
为第i个通道的当前分离信号与所述P个分离信号中除所述当前分离信号之外的其他分离信号之间的交叉残留系数;i为当前分离信号的通道的编号;j为所述P个分离信号中除所述当前分离信号之外的其他分离信号的通道的编号;ai,k为第i个通道的分离信号与第k个分离信号之间的混合系数;aj,k为第j个通道的分离信号与第k个分离信号之间的混合系数;yk为第k个通道的声源信号;∑为求和函数。
在本发明实施例的一种具体实施方式中,所述消除模块204,还用于:
针对所有交叉残留系数不小于第一预设阈值的分离信号中的每一分离信号,将当前分离信号作近端信号;将交叉残留系数不小于第一预设阈值的分离信号中除所述当前分离信号之外的其他信号作为远端信号;
利用公式,
Figure BDA0001741277120000153
获取误差信号;其中,e(n)为误差信号;d(n)为理想输出信号;N为每一音频帧对应的时长,其取值为滤波器长度;k为音频帧中采样点的序号;
Figure BDA0001741277120000154
为第n次迭代时第k个采样点对应的滤波器系数;n为迭代次数;x(n-k)为第n-k次迭代时的观测信号;
利用公式,
Figure BDA0001741277120000155
更新迭代步长,其中,
μ(n)为第n次迭代时的迭代步长;
Figure BDA0001741277120000161
为近端信号的方差;N为每一音频帧对应的时长,其取值为滤波器长度,且k∈(0,N);x(n-i)为第n-i次迭代时的观测信号;Λ(n)为第l次迭代时的失调;
利用公式,
Figure BDA0001741277120000162
更新滤波器的系数的估计值,其中,
Figure BDA0001741277120000163
为第n+1次迭代时的滤波器系数的估计值;μ(n)为迭代步长;
Figure BDA0001741277120000164
为第l次迭代时滤波器系数的估计值;N为每一音频帧对应的时长,其取值为滤波器长度;x(n-i)为第n-i次迭代时的观测信号;x*(n-k)为第n-k次迭代时的观测信号共轭值;||为求模函数;
利用公式,d(n)=v(n)+∑kwk(n)x(n-k),计算第n次迭代时的期望信号,其中,v(n)为近端信号;wk(n)为第n次迭代时第k个采样点对应的滤波器系数的理论值;x(n-k)为第n-k次迭代时的观测信号;
判断第n次迭代时的期望信号是否收敛,若是,返回执行所述将当前分离信号作近端信号的步骤;若否,将所述第n次迭代时的期望信号作为消除回声后的信号。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种语音分离方法,其特征在于,所述方法包括:
获取各个信号通道的待分离语音数据,其中,所述待分离语音数据含有至少两个人同时说话时产生的语音数据;
针对每一预设的采样时刻,利用盲源分离算法对所述待分离语音数据进行分离处理,得到P个分离信号;
针对每一个分离信号,计算当前分离信号与所述P个分离信号中除所述当前分离信号之外的其他分离信号之间的交叉残留系数;并判断所述交叉残留系数是否小于第一预设阈值;
若否,利用回声消除算法对所有交叉残留系数不小于第一预设阈值的分离信号,进行回声消除处理,并将处理后的分离信号与所有交叉残留系数小于第一预设阈值的分离信号的集合作为目标分离信号;
若是,将所述分离信号作为目标分离信号;
所述计算当前分离信号与所述P个分离信号中除所述当前分离信号之外的其他分离信号之间的交叉残留系数,包括:
利用公式,
Figure FDA0002669959560000011
计算当前分离信号与所述P个分离信号中除所述当前分离信号之外的其他分离信号之间的交叉残留系数,其中,
Figure FDA0002669959560000012
为第i个通道的当前分离信号与所述P个分离信号中除所述当前分离信号之外的其他分离信号之间的交叉残留系数;i为当前分离信号的通道的编号;j为所述P个分离信号中除所述当前分离信号之外的其他分离信号的通道的编号;ai,k为第i个通道的分离信号与第k个分离信号之间的混合系数;aj,k为第j个通道的分离信号与第k个分离信号之间的混合系数;yk为第k个通道的声源信号;∑为求和函数。
2.根据权利要求1所述的一种语音分离方法,其特征在于,所述盲源分离算法包括:非线性主分量分析、独立分量分析、神经网络算法、最大熵算法、最小互信息算法、最大似然算法中的一种或多个的组合。
3.根据权利要求1所述的一种语音分离方法,其特征在于,所述利用盲源分离算法对所述待分离语音数据进行分离处理,包括:
针对各个所述待分离语音数据,利用NPCA准则建立针对所述待分离语音数据的代价函数
Figure FDA0002669959560000021
其中,
J(W)为第t时刻的分离矩阵的代价;E{.}为期望运算函数;x(t)为各个麦克风对应的信号通道所观测到的观测信号;W为分离矩阵;(.)T为转置运算;
Figure FDA0002669959560000022
为非线性函数;t为当前时刻;
对所述代价函数进行最小化处理,得到分离矩阵的迭代估计为:
W(t+1)=W(t)+θ*z(t)[xT(t)-zT(t)W(t)],其中,
W(t+1)为第t+1时刻的分离矩阵;W(t)为第t时刻的分离矩阵;θ为迭代步长,且
Figure FDA0002669959560000023
θ(t)为第t时刻的迭代步长,θ(t-1)为第t-1时刻的迭代步长,ρ为常数,
Figure FDA0002669959560000024
为梯度函数,J(t)为第t时刻的代价;z(t)为非线性函数,且
Figure FDA0002669959560000025
利用公式,W(t+1)=W(t)+θ*z(t)[xT(t)-zT(t)W(t)],迭代计算下一时刻的分离矩阵,直至所述分离矩阵收敛,得到各个待分离语音数据的目标分离矩阵;
利用公式,y(t)=Wx(t),得到所述待分离语音数据的分离后的信号,其中,y(t)为当前观测信号的分离后的信号。
4.根据权利要求1所述的一种语音分离方法,其特征在于,所述利用回声消除算法对所有交叉残留系数不小于第一预设阈值的分离信号,进行回声消除处理,包括:
针对所有交叉残留系数不小于第一预设阈值的分离信号中的每一分离信号,将当前分离信号作近端信号;将交叉残留系数不小于第一预设阈值的分离信号中除所述当前分离信号之外的其他信号作为远端信号;
利用公式,
Figure FDA0002669959560000031
获取误差信号;其中,e(n)为误差信号;d(n)为理想输出信号;N为每一音频帧对应的时长,其取值为滤波器长度;k为音频帧中采样点的序号;
Figure FDA0002669959560000032
为第n次迭代时第k个采样点对应的滤波器系数;n为迭代次数;x(n-k)为第n-k次迭代时的观测信号;
利用公式,
Figure FDA0002669959560000033
更新迭代步长,其中,
μ(n)为第n次迭代时的迭代步长;
Figure FDA0002669959560000034
为近端信号的方差;N为每一音频帧对应的时长,其取值为滤波器长度,且k∈(0,N);x(n-i)为第n-i次迭代时的观测信号;Λ(n)为第l次迭代时的失调;
利用公式,
Figure FDA0002669959560000035
更新滤波器的系数的估计值,其中,
Figure FDA0002669959560000036
为第n+1次迭代时的滤波器系数的估计值;μ(n)为迭代步长;
Figure FDA0002669959560000037
为第l次迭代时滤波器系数的估计值;N为每一音频帧对应的时长,其取值为滤波器长度;x(n-i)为第n-i次迭代时的观测信号;x*(n-k)为第n-k次迭代时的观测信号共轭值;| |为求模函数;
利用公式,d(n)=v(n)+∑kwk(n)x(n-k),计算第n次迭代时的期望信号,其中,v(n)为近端信号;wk(n)为第n次迭代时第k个采样点对应的滤波器系数的理论值;x(n-k)为第n-k次迭代时的观测信号;
判断第n次迭代时的期望信号是否收敛,若是,返回执行所述将当前分离信号作近端信号的步骤;若否,将所述第n次迭代时的期望信号作为消除回声后的信号。
5.一种语音分离装置,其特征在于,所述装置包括:
第一获取模块,用于获取各个信号通道的待分离语音数据,其中,所述待分离语音数据含有至少两个人同时说话时产生的语音数据;
第二获取模块,用于针对每一预设的采样时刻,利用盲源分离算法对所述待分离语音数据进行分离处理,得到P个分离信号;
计算模块,用于针对每一个分离信号,计算当前分离信号与所述P个分离信号中除所述当前分离信号之外的其他分离信号之间的交叉残留系数;并判断所述交叉残留系数是否小于第一预设阈值;
消除模块,用于在所述计算模块的计算结果为否的情况下,利用回声消除算法对所有交叉残留系数不小于第一预设阈值的分离信号,进行回声消除处理,并将处理后的分离信号与所有交叉残留系数小于第一预设阈值的分离信号的集合作为目标分离信号;
设置模块,用于在所述计算模块的计算结果为是的情况下,将所述分离信号作为目标分离信号;
所述计算模块,还用于:
利用公式,
Figure FDA0002669959560000041
计算当前分离信号与所述P个分离信号中除所述当前分离信号之外的其他分离信号之间的交叉残留系数,其中,
Figure FDA0002669959560000042
为第i个通道的当前分离信号与所述P个分离信号中除所述当前分离信号之外的其他分离信号之间的交叉残留系数;i为当前分离信号的通道的编号;j为所述P个分离信号中除所述当前分离信号之外的其他分离信号的通道的编号;ai,k为第i个通道的分离信号与第k个分离信号之间的混合系数;aj,k为第j个通道的分离信号与第k个分离信号之间的混合系数;yk为第k个通道的声源信号;∑为求和函数。
6.根据权利要求5所述的一种语音分离装置,其特征在于,所述盲源分离算法包括:非线性主分量分析、独立分量分析、神经网络算法、最大熵算法、最小互信息算法、最大似然算法中的一种或多个的组合。
7.根据权利要求5所述的一种语音分离装置,其特征在于,所述第二获取模块,还用于:
针对各个所述待分离语音数据,利用NPCA准则建立针对所述待分离语音数据的代价函数
Figure FDA0002669959560000051
其中,
J(W)为第t时刻的分离矩阵的代价;E{.}为期望运算函数;x(t)为各个麦克风对应的信号通道所观测到的观测信号;W为分离矩阵;(.)T为转置运算;
Figure FDA0002669959560000052
为非线性函数;t为当前时刻;
对所述代价函数进行最小化处理,得到分离矩阵的迭代估计为:
W(t+1)=W(t)+θ*z(t)[xT(t)-zT(t)W(t)],其中,
W(t+1)为第t+1时刻的分离矩阵;W(t)为第t时刻的分离矩阵;θ为迭代步长,且
Figure FDA0002669959560000053
θ(t)为第t时刻的迭代步长,θ(t-1)为第t-1时刻的迭代步长,ρ为常数,
Figure FDA0002669959560000054
为梯度函数,J(t)为第t时刻的代价;z(t)为非线性函数,且
Figure FDA0002669959560000055
利用公式,W(t+1)=W(t)+θ*z(t)[xT(t)-zT(t)W(t)],迭代计算下一时刻的分离矩阵,直至所述分离矩阵收敛,得到各个待分离语音数据的目标分离矩阵;
利用公式,y(t)=Wx(t),得到所述待分离语音数据的分离后的信号,其中,y(t)为当前观测信号的分离后的信号。
8.根据权利要求5所述的一种语音分离装置,其特征在于,所述消除模块,还用于:
针对所有交叉残留系数不小于第一预设阈值的分离信号中的每一分离信号,将当前分离信号作近端信号;将交叉残留系数不小于第一预设阈值的分离信号中除所述当前分离信号之外的其他信号作为远端信号;
利用公式,
Figure FDA0002669959560000061
获取误差信号;其中,e(n)为误差信号;d(n)为理想输出信号;N为每一音频帧对应的时长,其取值为滤波器长度;k为音频帧中采样点的序号;
Figure FDA0002669959560000062
为第n次迭代时第k个采样点对应的滤波器系数;n为迭代次数;x(n-k)为第n-k次迭代时的观测信号;
利用公式,
Figure FDA0002669959560000063
更新迭代步长,其中,
μ(n)为第n次迭代时的迭代步长;
Figure FDA0002669959560000064
为近端信号的方差;N为每一音频帧对应的时长,其取值为滤波器长度,且k∈(0,N);x(n-i)为第n-i次迭代时的观测信号;Λ(n)为第l次迭代时的失调;
利用公式,
Figure FDA0002669959560000065
更新滤波器的系数的估计值,其中,
Figure FDA0002669959560000066
为第n+1次迭代时的滤波器系数的估计值;μ(n)为迭代步长;
Figure FDA0002669959560000067
为第l次迭代时滤波器系数的估计值;N为每一音频帧对应的时长,其取值为滤波器长度;x(n-i)为第n-i次迭代时的观测信号;x*(n-k)为第n-k次迭代时的观测信号共轭值;| |为求模函数;
利用公式,d(n)=v(n)+∑kwk(n)x(n-k),计算第n次迭代时的期望信号,其中,v(n)为近端信号;wk(n)为第n次迭代时第k个采样点对应的滤波器系数的理论值;x(n-k)为第n-k次迭代时的观测信号;
判断第n次迭代时的期望信号是否收敛,若是,返回执行所述将当前分离信号作近端信号的步骤;若否,将所述第n次迭代时的期望信号作为消除回声后的信号。
CN201810820474.9A 2018-07-24 2018-07-24 一种语音分离方法及装置 Active CN108962276B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810820474.9A CN108962276B (zh) 2018-07-24 2018-07-24 一种语音分离方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810820474.9A CN108962276B (zh) 2018-07-24 2018-07-24 一种语音分离方法及装置

Publications (2)

Publication Number Publication Date
CN108962276A CN108962276A (zh) 2018-12-07
CN108962276B true CN108962276B (zh) 2020-11-17

Family

ID=64464704

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810820474.9A Active CN108962276B (zh) 2018-07-24 2018-07-24 一种语音分离方法及装置

Country Status (1)

Country Link
CN (1) CN108962276B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111837119B (zh) * 2019-05-09 2023-12-19 广东省智能制造研究所 一种基于半非负矩阵分解的声音信号分离方法
CN113362847B (zh) * 2021-05-26 2024-09-24 北京小米移动软件有限公司 音频信号处理方法及装置、存储介质
CN113470689B (zh) * 2021-08-23 2024-01-30 杭州国芯科技股份有限公司 一种语音分离方法
CN115032634A (zh) * 2022-06-29 2022-09-09 江西理工大学 一种分离天线阵列信号的方法、装置、系统及介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894558A (zh) * 2010-08-04 2010-11-24 华为技术有限公司 丢帧恢复方法、设备以及语音增强方法、设备和系统
CN101917527A (zh) * 2010-09-02 2010-12-15 杭州华三通信技术有限公司 回声消除的方法和装置
CN101964670A (zh) * 2009-07-21 2011-02-02 雅马哈株式会社 回声抑制方法及回声抑制设备
CN102142259A (zh) * 2010-01-28 2011-08-03 三星电子株式会社 用于自动地选择阈值以分离声音源的信号分离系统和方法
CN103188184A (zh) * 2012-12-17 2013-07-03 中国人民解放军理工大学 基于npca的自适应变步长盲源分离方法
US20140105410A1 (en) * 2012-10-12 2014-04-17 Huawei Technologies Co., Ltd. Echo cancellation method and device
CN103780522A (zh) * 2014-01-08 2014-05-07 西安电子科技大学 基于双重迭代的非正交联合对角化瞬时盲源分离方法
CN105845148A (zh) * 2016-03-16 2016-08-10 重庆邮电大学 基于频点修正的卷积盲源分离方法
CN106057210A (zh) * 2016-07-01 2016-10-26 山东大学 双耳间距下基于频点选择的快速语音盲源分离方法
CN106898361A (zh) * 2017-03-16 2017-06-27 杭州电子科技大学 基于反馈变分模式分解的单通道盲源分离方法
CN107316650A (zh) * 2016-04-26 2017-11-03 诺基亚技术有限公司 关于与分离的音频信号相关联的特征的修改的方法、装置和计算机程序
US20180182412A1 (en) * 2016-12-28 2018-06-28 Google Inc. Blind source separation using similarity measure
CN108231087A (zh) * 2017-12-14 2018-06-29 宁波升维信息技术有限公司 一种单通道盲源分离法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101964670A (zh) * 2009-07-21 2011-02-02 雅马哈株式会社 回声抑制方法及回声抑制设备
CN102142259A (zh) * 2010-01-28 2011-08-03 三星电子株式会社 用于自动地选择阈值以分离声音源的信号分离系统和方法
CN101894558A (zh) * 2010-08-04 2010-11-24 华为技术有限公司 丢帧恢复方法、设备以及语音增强方法、设备和系统
CN101917527A (zh) * 2010-09-02 2010-12-15 杭州华三通信技术有限公司 回声消除的方法和装置
US20140105410A1 (en) * 2012-10-12 2014-04-17 Huawei Technologies Co., Ltd. Echo cancellation method and device
CN103188184A (zh) * 2012-12-17 2013-07-03 中国人民解放军理工大学 基于npca的自适应变步长盲源分离方法
CN103780522A (zh) * 2014-01-08 2014-05-07 西安电子科技大学 基于双重迭代的非正交联合对角化瞬时盲源分离方法
CN105845148A (zh) * 2016-03-16 2016-08-10 重庆邮电大学 基于频点修正的卷积盲源分离方法
CN107316650A (zh) * 2016-04-26 2017-11-03 诺基亚技术有限公司 关于与分离的音频信号相关联的特征的修改的方法、装置和计算机程序
CN106057210A (zh) * 2016-07-01 2016-10-26 山东大学 双耳间距下基于频点选择的快速语音盲源分离方法
US20180182412A1 (en) * 2016-12-28 2018-06-28 Google Inc. Blind source separation using similarity measure
CN106898361A (zh) * 2017-03-16 2017-06-27 杭州电子科技大学 基于反馈变分模式分解的单通道盲源分离方法
CN108231087A (zh) * 2017-12-14 2018-06-29 宁波升维信息技术有限公司 一种单通道盲源分离法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
An adaptive echo cancellation method based on a blind signal separation;LI Hong et al.;《2010 International Conference on Electrical and Control Engineering》;20101111;全文 *
BLIND SOURCE SEPARATION AND ACOUSTIC ECHO CANCELLATION: A UNIFIED FRAMEWORK;Muhammad Z. Ikram et al.;《2012 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP)》;20120831;全文 *

Also Published As

Publication number Publication date
CN108962276A (zh) 2018-12-07

Similar Documents

Publication Publication Date Title
CN108962276B (zh) 一种语音分离方法及装置
CN108986838B (zh) 一种基于声源定位的自适应语音分离方法
CN102739886B (zh) 基于回声频谱估计和语音存在概率的立体声回声抵消方法
Jan et al. A multistage approach to blind separation of convolutive speech mixtures
WO2009097413A1 (en) Enhanced blind source separation algorithm for highly correlated mixtures
CN110047478B (zh) 基于空间特征补偿的多通道语音识别声学建模方法及装置
CN1261759A (zh) 给助听器等加入盲源分离技术
KR100647286B1 (ko) 교차채널 간섭을 제거하기 위한 후처리장치 및 방법과이를 이용한 다채널 음원 분리장치 및 방법
CN1321358A (zh) 声音回波和噪声的消除
CN1914683A (zh) 频域中多通道卷积混合的盲分离方法和设备
CN101853665A (zh) 语音中噪声的消除方法
Li et al. Taylorbeamformer: Learning all-neural beamformer for multi-channel speech enhancement from taylor's approximation theory
CN113345465B (zh) 语音分离方法、装置、设备及计算机可读存储介质
Wang et al. NN3A: Neural network supported acoustic echo cancellation, noise suppression and automatic gain control for real-time communications
CN114863944B (zh) 一种低时延音频信号超定盲源分离方法及分离装置
Lee et al. Improved mask-based neural beamforming for multichannel speech enhancement by snapshot matching masking
Zhang et al. Hybrid AHS: A hybrid of Kalman filter and deep learning for acoustic howling suppression
Kothapally et al. Joint neural AEC and beamforming with double-talk detection
CN116364103A (zh) 一种语音信号处理方法和装置及电子设备
CN111462771B (zh) 一种啸叫处理方法
Kothapally et al. Joint AEC and Beamforming with Double-Talk Detection using RNN-Transformer
CN108074580B (zh) 一种噪声消除方法及装置
Nie et al. Masking-based neural beamformer for multichannel speech enhancement
CN109074811B (zh) 音频源分离
KR100863184B1 (ko) 간섭 및 반향신호 제거를 위한 다단계 암묵 디콘볼루션방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20201027

Address after: 310000 station 07, room 704, building 8, No. 20, Keji Garden Road, Baiyang street, Qiantang New District, Hangzhou City, Zhejiang Province

Applicant after: Hangzhou audiometry Technology Co.,Ltd.

Address before: 100176 FC-3, 6th floor, No. 5 Building, 2 Ronghua South Road, Daxing Economic and Technological Development Zone, Beijing

Applicant before: BEIJING SINWT SCIENCE & TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder

Address after: Room 703-1, building 8, No.20, kekeyuan Road, Qiantang New District, Hangzhou City, Zhejiang Province

Patentee after: Hangzhou audiometry Technology Co.,Ltd.

Address before: 310000 station 07, room 704, building 8, No. 20, Keji Garden Road, Baiyang street, Qiantang New District, Hangzhou City, Zhejiang Province

Patentee before: Hangzhou audiometry Technology Co.,Ltd.

CP02 Change in the address of a patent holder
TR01 Transfer of patent right

Effective date of registration: 20231213

Address after: 100176 1201-09, 12 / F, building 2, yard 1, No. 29, Kechuang 13th Street, Beijing Economic and Technological Development Zone, Daxing District, Beijing

Patentee after: BEIJING SINWT SCIENCE & TECHNOLOGY Co.,Ltd.

Address before: Room 703-1, building 8, No.20, kekeyuan Road, Qiantang New District, Hangzhou City, Zhejiang Province

Patentee before: Hangzhou audiometry Technology Co.,Ltd.

TR01 Transfer of patent right