[go: up one dir, main page]

CN117153186B - 声音信号处理方法、装置、电子设备和存储介质 - Google Patents

声音信号处理方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN117153186B
CN117153186B CN202210944168.2A CN202210944168A CN117153186B CN 117153186 B CN117153186 B CN 117153186B CN 202210944168 A CN202210944168 A CN 202210944168A CN 117153186 B CN117153186 B CN 117153186B
Authority
CN
China
Prior art keywords
sound
sound source
candidate
signal
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210944168.2A
Other languages
English (en)
Other versions
CN117153186A (zh
Inventor
陈俊彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen TCL New Technology Co Ltd
Original Assignee
Shenzhen TCL New Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen TCL New Technology Co Ltd filed Critical Shenzhen TCL New Technology Co Ltd
Priority to CN202210944168.2A priority Critical patent/CN117153186B/zh
Priority to PCT/CN2023/092372 priority patent/WO2024027246A1/zh
Publication of CN117153186A publication Critical patent/CN117153186A/zh
Application granted granted Critical
Publication of CN117153186B publication Critical patent/CN117153186B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种声音信号处理方法、装置、电子设备和存储介质,本发明在信号分离中增加信号质量评估机制,对待处理声源数据进行声源分离处理,得到待处理声源数据对应的候选声源以及待处理声源数据中属于各个候选声源的声音信号;对每个候选声源的声音信号进行质量评估,确定每个候选声源的声音信号的评估值;根据每个候选声源的声音信号的评估值,从多个候选目标声源中确定得到目标声源;对目标声源的声音信号进行处理,如此,通过对每个候选声源的声音信号进行质量评估,得到各个候选声源的评估值,确定最终的目标声源,提高分离出的声源信号的准确度,改善信号分离的稳定性不高的问题。

Description

声音信号处理方法、装置、电子设备和存储介质
技术领域
本发明涉及信号处理技术领域,具体涉及一种声音信号处理方法、装置、电子设备和存储介质。
背景技术
当电子设备通过多个麦克风通道进行声音信号采集时,这些所收集到的信号中往往存在环境噪声、干扰的相关源信号、在环境中的反射信号等属于非声源的干扰信号,由于信号在传输的过程中的种种复杂性表征,干扰信号与声源信号混合在一起,难以提取出声源信号。盲源分离便是解决这一问题的有效方法,它的目的就在于能从复杂混合信号中提取出声源信号。
虽然现有的盲源分离方法可以从复杂混合的声音信号中分离出声源信号,但是由于现有盲源分离方法可以从复杂混合的声音信号中分离出声源信号,却无法甄别分离出的多个声源信号是否是有效的,质量是否是符合需求的,使得分离出的声源信号的准确度不高,使得盲源分离的稳定性不高。
发明内容
本发明实施例提供一种声音信号处理方法、装置、电子设备和存储介质,可以提高信号分离的稳定性。
本发明实施例提供一种声音信号处理方法,包括:
对待处理声源数据进行声源分离处理,得到所述待处理声源数据对应的候选声源以及所述待处理声源数据中属于各个所述候选声源的声音信号;
对每个所述候选声源的声音信号进行质量评估,确定每个所述候选声源的声音信号的评估值;
根据每个所述候选声源的声音信号的评估值,从多个所述候选目标声源中确定得到目标声源;
对所述目标声源的声音信号进行处理。
相应的,本发明实施例还提供一种声音信号处理装置,包括:
分离模块,用于对待处理声源数据进行声源分离处理,得到所述待处理声源数据对应的候选声源以及所述待处理声源数据中属于各个所述候选声源的声音信号;
评估模块,用于对每个所述候选声源的声音信号进行质量评估,确定每个所述候选声源的声音信号的评估值;
选取模块,用于根据每个所述候选声源的声音信号对应的评估值,从多个所述候选目标声源中确定得到目标声源;
处理模块,用于对所述目标声源的声音信号进行处理。
相应地,本发明实施例还提供一种电子设备,包括:
存储器和处理器;所述存储器存储有计算机程序,所述处理器用于运行所述存储器内的计算机程序,以执行所述的声音信号处理方法中的操作。
此外,本发明实施例还提供一种存储介质,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行所述的声音信号处理方法中的步骤。
本发明实施例在信号分离中增加信号质量评估机制,对待处理声源数据进行声源分离处理,得到待处理声源数据对应的候选声源以及待处理声源数据中属于各个候选声源的声音信号;对每个候选声源的声音信号进行质量评估,确定每个候选声源的声音信号的评估值;根据每个候选声源的声音信号的评估值,从多个候选声源中确定得到目标声源;对目标声源的声音信号进行处理,如此,通过在信号分离中增加信号质量评估机制,根据各个候选声源的评估值,对各个候选声源的声音信号质量进行评估,以此选取出有效的目标声源提高分离出的声源信号的准确度,改善信号分离的稳定性不高的问题。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的声音信号处理方法的一个流程示意图;
图2是本发明实施例提供的声音信号处理方法中一种声源分离处理的一个流程示意图;
图3是本发明实施例提供的声音信号处理方法中候选声源的估计方法的一个流程示意图;
图4是本发明实施例提供的声音信号处理方法中另一种声源分离处理的一个流程示意图;
图5是本发明实施例提供的声音信号处理装置的结构示意图;
图6是本发明实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如背景技术所述,现有技术通过AuxICA(全称:Auxiliary Function BasedIndependent Component Analysis,中文:基于辅助函数的独立分量分析方法)、AuxIVA(全称:Auxiliary Function Based Independent Vector Analysis,基于辅助函数的独立向量分析方法)进行盲源分离时,对于分离出的目标声源并不进行声源的声音质量的评估和筛选,无法保障目标声源的准确度,进而降低分离出的声音信号的质量,使得盲源分离的稳定性不高。
基于此,为了提高盲源分离输出的稳定性,达到降噪的效果,本发明实施例提供一种声音信号处理方法,通过各个候选声源的评估值,确定最终的目标声源,提高了分离出的声源信号的准确度,改善信号分离的稳定性不高的问题,提高视听效果。
请参考图1,图1是本发明实施例提供的声音信号处理方法的一个流程示意图,所示声音信号处理方法可以应用于电子设备中,在本发明一些实施例中,电子设备可以移动终端,例如手机、平板电脑、计算机、电视机;在本发明一些实施例中电子设备还可以是语音设备,例如蓝牙音箱、智能音箱、麦克风、智能家居等。
所示的声音信号处理方法包括步骤101~104:
101,对待处理声源数据进行声源分离处理,得到待处理声源数据中的候选声源以及待处理声源数据中属于各个候选声源的声音信号。
其中,待处理声源数据指的是电子设备采集到的当前环境中的语音信号,其包括声源的语音信号以及环境中存在的噪音。候选声源指的是根据待处理声源数据中估计的当前环境中可能存在的声源,其包括目标声源。
在本发明一些实施例中,待处理声源数据可以是实时采集的当前环境中的语音信号;也可以是在预设时间段内采集到的当前环境中的语音信号。
电子设备中设置有麦克风阵列,电子设备通过麦克风阵列收集该电子设备所在的当前环境中的语音信号,由于声源与麦克风阵列中每个麦克风通道的距离是不同的,但是麦克风阵列中每个麦克风通道都可能接收到该声源的声音信号,并且房间的混响、其他声源的干扰、环境中的噪声以及设备内部的噪声都不可避免地降低了语音信号的质量和语言清晰度,而目前的语音识别技术无法完全像人的听觉那样具有高的灵敏度和鲁棒性,能够区分各种声源和排除干扰,于是这些干扰使得待处理声源数据中存在噪音,如果直接使用该待处理声源数据进行输出,影响视听效果并使得以语音为交互方式的电子设备的性能降低,因此需要对待处理声源数据进行声源分离处理,确定环境中的声源。其中,麦克风阵列可以是环形麦克风阵列,也可以是线性麦克风阵列,也可以是分布式麦克风阵列,其中麦克风阵列中包括至少一个麦克风通道。
在本发明一些实施例中,对待处理声源数据进行声源分离处理存在多种方式,示例性的包括:
(1)可以通过基于深度神经网络的声源分离方法从待处理声源数据中分离出不同声源的特征,根据分离出的不同声源的特征得到待处理声源数据中的候选声源以及每个候选声源的声音信号。其中,基于深度神经网络的声源分离方法包括但不限于基于深度聚类的声源分离方法、基于置换不变训练的声源分离方法和端到端的声源分离方法。
(2)可以通过基于独立子空间分析的分离方法对待处理声源数据进行盲源分离,得到待处理声源数据中的候选声源以及每个候选声源的声音信号。
(3)可以通过基于非负矩阵分解的分离方法对待处理声源数据进行盲源分离,得到待处理声源数据中的候选声源以及每个候选声源的声音信号。
(4)可以通过基于聚类的分离方法对待处理声源数据进行盲源分离,得到待处理声源数据中的候选声源以及每个候选声源的声音信号。例如通过高斯混合模型对待处理声源数据进行聚类,得到待处理声源数据中的候选声源以及每个候选声源的声音信号。
(5)可以通过主成分分析对待处理声源数据进行盲源分离,得到待处理声源数据中的候选声源以及每个候选声源的声音信号。
(6)可以基于独立成分分析的分离方法,通过分析待处理声源数据中信号之间的相互独立的统计特性对待处理声源数据进行盲源分离,得到待处理声源数据中的候选声源以及每个候选声源的声音信号。
(7)可以基于独立向量分析的分离方法对待处理声源数据进行盲源分离,得到待处理声源数据中的候选声源以及每个候选声源的声音信号。
(8)可以通过基于辅助函数优化的独立向量分析的分离方法对待处理声源数据进行盲源分离,得到待处理声源数据中的候选声源以及每个候选声源的声音信号。
需要说明的是,上述声源分离处理方法仅为示例性说明,不构成本发明实施例提供的声音信号处理方法的限定,例如还可以通过基于辅助函数优化的超定独立向量分析的分离方法对待处理声源数据进行声源分离处理,得到待处理声源数据中的候选声源以及每个候选声源的声音信号。
102,对每个候选声源的声音信号进行质量评估,确定每个候选声源的声音信号的评估值。
评估值表征每个候选声源的声音信号的声音质量,用于量化每个候选声源是目标声源的概率。
在本发明一些实施例中,存在多种方式对每个候选声源的声音信号进行质量评估,示例性的包括:
(1)可以通过计算每个候选声源的声音信号的信号干扰比对每个候选声源的声音信号进行质量评估,确定每个候选声源的声音信号的评估值。
(2)可以通过计算每个候选声源的声音信号的信号失真比对每个候选声源的声音信号进行质量评估,确定每个候选声源的声音信号的评估值。
(3)可以通过计算每个候选声源的声音信号的最大似然比对每个候选声源的声音信号进行质量评估,确定每个候选声源的声音信号的评估值。
(4)可以通过计算每个候选声源的声音信号的倒谱聚类对每个候选声源的声音信号进行质量评估,确定每个候选声源的声音信号的评估值。
(5)可以通过计算每个候选声源的声音信号的频率加权分段信噪比对每个候选声源的声音信号进行质量评估,确定每个候选声源的声音信号的评估值。
(6)可以通过计算每个候选声源的声音信号的语音质量感知评价分数对每个候选声源的声音信号进行质量评估,确定每个候选声源的声音信号的评估值。
(7)可以通过计算每个候选声源的声音信号的峭度值对每个候选声源的声音信号进行质量评估,确定每个候选声源的声音信号的评估值。
(8)可以通过计算每个候选声源的声音信号的语音特征向量所对应的概率分值对每个候选声源的声音信号进行质量评估,确定每个候选声源的声音信号的评估值。其中,概率分值用于表征每个候选声源的声音信号是目标声源的语音信号的概率。
需要说明的是,上述对每个候选声源的声音信号进行质量评估的方法仅为示例性说明,不构成对本发明实施例提供的声音信号处理方法的限定。在实际应用中,可以根据实际应用场景中电子设备的计算效力选取对应的评估值确定方法。
103,根据每个候选声源的声音信号的评估值,从多个候选目标声源中确定得到目标声源。
在本发明一些实施例中,步骤103包括:根据每个候选声源的声音信号的评估值,选取出最大评估值对应的候选声源,将选取出的最大评估值对应的候选声源设置为目标声源。
在本发明一些实施例中,步骤103包括:根据每个候选声源的声音信号的评估值,得到评估值的统计特征,根据评估值的统计特征,从多个候选目标声源中确定得到目标声源,其中,统计特征包括评估值的中位数或众数。具体地,根据每个候选声源的声音信号的评估值,得到评估值的中位数或众数,根据评估值的中位数或众数,从多个候选目标声源中选取出评估值大于中位数,或者评估值大于众数的评估值,将选取出的评估值大于中位数对应的候选声源设置为目标声源,或者评估值大于众数的评估值设置为目标声源。
104,对目标声源的声音信号进行处理。
其中,对目标声源的声音信号进行处理包括但不限于语音输出、语音识别、语音传输、语音存储等。
在本发明一些实施例中,当电子设备是以语音为交互方式的电子设备时,步骤104包括:获取该目标声源对应的声音信号,对该目标声源对应的声音信号中的语义分析,得到该目标声源对应的声音信号中的语音信息,电子设备响应该语音信息对应的指令,执行指令对应的操作,例如进行对话交互、执行查询操作、执行音乐播放操作等。
在本发明一些实施例中,当电子设备是语音收集设备时,步骤104包括:获取该目标声源对应的声音信号,将该语音信号进行存储,例如收音设备,也可以将该语音信号传输至与该电子设备通信连接的服务器。
本发明实施例提供一种声音信号处理方法,通过各个候选声源的评估值,确定最终的目标声源,提高了分离出的声源信号的准确度,改善信号分离的稳定性不高的问题。
考虑到现有盲源分离方法无法利用声源的位置信息,当声源的位置变化后,现有的盲源分离方法不能准确检测到声源位置的变化情况,因而经过现有盲源分离方法分离出的目标声源具有一定的不确定性,从而导致分离得到的目标声源的声音信号不稳定,因此为了进一步提高盲源分离得到的输出结果的确定性,降低输出的语音信号中的噪音,达到降噪的效果,在本发明一些实施例中,在步骤101的声源分离处理中,对待处理声源数据进行声源估计得到待处理声源数据中的声源先验信息,基于声源先验信息进行声源分离处理,提高盲源分离得到的候选声源的准确度,进而保证最终的目标声源的准确度。其中,声源先验信息指的是采集该待处理声源数据的电子设备所处的环境中可能存在的候选声源的位置信息。其中候选声源的位置信息可以是候选声源的空间坐标值,也可以是候选声源的在采集该待处理声源数据的电子设备所处的环境的空间中的俯仰角和方位角。需要说明的是,本发明实施例对空间坐标系的建立方式不作限定,例如可以电子设备中的几何中心为原点进行建立。
如图2所示,图2是本发明实施例提供的声音信号处理方法中一种声源分离处理的一个流程示意图,所示的声源分离处理方法包括步骤201~203:
201,对待处理声源数据进行声源位置估计,确定得到待处理声源数据对应的候选声源以及每个候选声源的位置信息。
在本发明一些实施例中,可以通过SPR(全称:Steered Response Power,中文:可控响应功率)方法对待处理声源数据进行声源估计,得到待处理声源数据对应的候选声源以及每个候选声源的位置信息。具体地包括:通过SPR方法估计待处理声源数据在空间上的功率谱分布,根据功率谱分布确定待处理声源数据对应候选声源以及每个候选声源的位置信息。
在本发明一些实施例中,可以根据功率谱分布确定最大功率的位置,将选取的最大功率的位置设置为候选声源的位置信息。在本发明一些实施例中,还可以根据功率谱分布,确定多个功率大于或等于预设功率值的位置,将选取出的多个功率大于预设功率值的位置设置为候选声源的位置信息。其中,预设功率值可以是功率谱分布中的平均功率值,也可以是根据功率谱分布对按照功率从大到小的顺序对空间上每个位置的功率进行排序,将排序后功率中排在第S位的功率设置位预设功率值。其中,S是大于0的整数,S的取值可以根据实际应用场景进行设置,例如S的取值可以是2、3、4、5等。
在本发明一些实施例中,考虑到通过SPR方法估计待处理声源数据的功率谱时,高频部分容易出现混叠现象,由于容易出现混叠现象,影响估计得到候选声源的位置信息的准确度,基于此,本发明实施例在通过SPR方法估计待处理声源数据的功率谱时,通过SPR对待处理声源数据的低频部分进行声源估计,得到候选声源所在的估计区域,通过SPR对待处理声源数据的高频部分进行声源估计,从候选声源所在的估计区域中选取出待处理声源数据对应的候选声源以及每个候选声源的位置信息。具体地,声源位置估计包括步骤a1~a4:
步骤a1,对待处理声源数据进行频域转换,得到待处理声源数据的频域信号。
步骤a2,通过滤波器对待处理声源数据的频域信号进行滤波处理,得到该频率信号的低频信号和高频信号。其中,滤波器可以是低通滤波器,也可以是高通滤波器。
步骤a3,根据该频率信号的低频信号,通过SPR方法对电子设备中设置的麦克风阵列中的每个麦克风通道的低频信号进行时延估计,得到麦克风阵列在每个预设区域的可控响应功率函数值,选取出多个可控响应功率函数值大于或等于预设函数值阈值的预设区域,将选取出的预设区域设置为候选声源所在的估计区域。
步骤a4,根据该频率信号的高频信号,通过SPR方法对电子设备中设置的麦克风阵列中的每个麦克风通道的高频信号进行时延估计,得到麦克风阵列在每个估计区域的可控响应功率函数值,选取出可控响应功率函数值大于或等于预设函数值阈值的估计区域,将选取出的每个可控响应功率函数值大于或等于预设函数值阈值的估计区域设置为每个候选声源所在的位置,将选取出的每个可控响应功率函数值大于或等于预设函数值阈值的估计区域的位置信息设置为每个候选声源的位置信息。
在本发明一些实施例中,步骤a3~步骤a4包括:将空间坐标系划分为多个第一网格区域,其中,每个第一网格区域对应有一个由俯仰角和方位角构成的位置信息;通过SPR方法对电子设备中设置的麦克风阵列中的每个麦克风通道的低频信号进行时延估计,得到麦克风阵列在每个第一网格区域的第一可控响应功率函数值;选取出第一可控响应功率函数值最大的第一网格区域,将选取出的第一网格区域设置为候选声源所在的估计区域;将候选声源所在的估计区域划分为多个第二网格区域,每一个第二网格区域对应有一个由俯仰角和方位角构成的位置信息,且每两个相邻第二网格区域之间的角度差小于每两个相邻第一网格区域之间的角度差;通过SPR方法对电子设备中设置的麦克风阵列中的每个麦克风通道的高频信号进行时延估计,得到麦克风阵列在每个第二网格区域的第二可控响应功率函数值,根据麦克风阵列在每个第二网格区域的第二可控响应功率函数值,选取出第二可控响应功率函数值大于或等于预设函数值阈值的第二网格区域,将选取出的每个第二可控响应功率函数值大于或等于预设函数值阈值的第二网格区域设置为每个候选声源所在的位置,将选取出的每个第二可控响应功率函数值大于或等于预设函数值阈值的第二网格区域的位置信息设置为每个候选声源的位置信息。
202,根据采集待处理声源数据的各声音通道位置以及各候选声源的位置信息,确定得到每个候选声源的位置导向信息。
其中,采集待处理声源数据的声音通道位置指的是采集待处理声源数据的电子设备中设置的麦克风阵列中的每个麦克风通道在预先设置的空间坐标系中的位置信息。
位置导向信息用于确定每个候选声源的位置信息与采集待处理声源数据的每个声音通道位置之间的位置向量。
在本发明一些实施例中,由于现有盲源分离方法并没有考虑声源位置,进而使得分离出的声音信号中存在噪音,因此为了提高盲源分离的稳定性,在盲源分离中,根据声源估计得到每个候选声源的位置信息,确定每个候选声源的位置信息与待处理声源数据的每个声音通道位置之间的位置向量,在盲源分离中,通过每个候选声源的位置信息与待处理声源数据的每个声音通道位置之间的位置向量、以及采集待处理声源数据的每个声音通道位置的声音信号对待处理声源数据进行声源分离,得到待处理声源数据中每个声音通道位置的声音信号中的每个候选声源的声音信号分量,通过采集待处理声源数据中每个声音通道位置的声音信号中的每个候选声源位置处的声音信号分量,得到每个候选声源的声音信号。
在本发明一些实施例中,可以根据采集待处理声源数据的声音通道位置以及各候选声源的位置信息,得到每个候选声源的位置信息与采集待处理声源数据的每个声音通道位置之间的距离,根据每个候选声源的位置信息与采集待处理声源数据的每个声音通道位置之间的距离、每个候选声源的位置信息与采集待处理声源数据的每个声音通道位置,得到每个候选声源的位置信息与采集待处理声源数据的每个声音通道位置之间的角度信息,根据每个候选声源的位置信息与采集待处理声源数据的每个声音通道位置之间的角度信息得到每个候选声源的位置导向信息。例如,可以根据每个候选声源的位置信息与采集待处理声源数据的每个声音通道位置之间的角度信息,通过得到每个候选声源在位置导向信息。其中,θ表示每个候选声源的位置信息与采集待处理声源数据的每个声音通道位置之间的角度信息,M为采集待处理声源数据的声音通道的数量。
在本发明一些实施例中,可以根据采集待处理声源数据的声音通道位置以及各候选声源的位置信息,得到每个候选声源的位置信息与采集待处理声源数据的每个声音通道位置之间的距离,根据每个候选声源的位置信息与采集待处理声源数据的每个声音通道位置之间的距离,得到声音信号从每个候选声源的位置信息到达采集待处理声源数据的每个声音通道位置需要的时间信息,根据声音信号从每个候选声源的位置信息到达采集待处理声源数据的每个声音通道位置需要的时间信息,得到每个候选声源的位置导向信息。例如,通过可以根据声音信号从每个候选声源的位置信息到达采集待处理声源数据的每个声音通道位置需要的时间信息,通过得到每个候选声源在位置导向信息,其中τ表征声音信号从每个候选声源的位置信息到达采集待处理声源数据的每个声音通道位置需要的时间信息,j是表示复数。
203,根据每个候选声源的位置导向信息,对待处理声源数据进行声源分离,得到每个候选声源的声音信号。
在本发明一些实施例中,可以根据每个候选声源的位置导向信息,按照步骤101中的分离方法对待处理声源数据进行声源分离,得到每个候选声源的声音信号。示例性,以基于辅助函数优化的超定独立向量分析的分离方法为例进行说明。
其中,在基于辅助函数优化的超定独立向量分析的分离方法对待处理声源数据进行声源分离中,通过假设接收到的声源数据是由环境中的N个发射端源信号S1,S2,...,SN经过传递函数hmn混合后被M个声音通道接收到的混合信号x1,x2,...,xM,即将声源数据表示为其中,N个发射端源信号为环境中的N个声源信号,并通过对声源数据进行短时傅立叶变换将声源数据转换到频域中,得到声源数据的频域信号X(l,k)=H(k)S(l,k),l=1,...,L,其中L为短时傅立叶变换的帧数,S(l,k)=[S1(l,k),...,SN(l,k)]T表示在频率点k的发射源信号,X(l,k)=[X1(l,k),...,XM(l,k)]T为接收到的混合信号的频域信号,H(k)为混合矩阵,根据声源数据的频域信号X(l,k)=H(k)S(l,k),l=1,...,L,可以将在各频率点上的分离信号表示为Y(l,k)=W(k)X(l,k),其中,Y(l,k)=[Y1(l,k),...,YN(l,k)]T为频率点k上的分离信号,该分离信号近似为N个发射端源信号,W(k)为频率点k上的分离参数,通过基于辅助函数优化求解出声源数据的频域信号中的每一帧频域信号在各频率点上的分离参数,通过分离参数和声源数据的频域信号中的每一帧频域信号在各频率点上的频率信号,从待处理声源数据的频域信号中的每一帧频域信号在各频率点上的频率信号中分离出候选声源的频域信号,并通过逆短时傅里叶变换,得到候选声源的声音信号。
在本发明一些实施例中,为了提高分离得到候选声源的声音信号的可靠性,降低分离得到的候选声源信号中的噪声,在基于辅助函数优化的超定独立向量分析的分离方法对声源数据进行声源分离中,通过导向信息结合基于辅助函数优化求解出声源数据的频域信号中的每一帧频域信号在各频率点上的分离参数,通过分离参数和声源数据的频域信号中的每一帧频域信号在各频率点上的频率信号,从声源数据的频域信号中的每一帧频域信号在各频率点上的频率信号中分离出候选声源的声音信号。具体地,具体地,分离方法包括步骤b1~b2:
步骤b1,根据每个候选声源的位置导向信息,确定得到待处理声源数据的分离参数。
其中,待处理声源数据可以是声源数据的频域信号中的当前帧频域信号。
在本发明一些实施例中,步骤b1包括:在得到待处理声源数据对应的辅助参数之后,根据每个候选声源的位置导向信息对待处理声源数据对应的辅助参数进行修正,得到待处理声源数据对应的修正后的辅助参数,基于修正后的辅助参数优化求解出待处理声源数据的分离参数。其中辅助参数包括待处理声源数据的频域信号中的每一帧频域信号在各频率点上的频率信号中辅助参数。具体地,根据位置导向信息确定待处理声源数据的分离参数的方法包括:
(1)获取历史声源数据的历史分离参数以及待处理声源数据对应的辅助参数。
(2)根据每个候选声源的位置导向信息,对辅助参数进行修正,得到修正后的辅助参数。
(3)根据修正后的辅助参数以及历史分离参数,得到待处理声源数据的分离参数。
其中,历史声源数据的历史分离参数指的是待处理声源数据的前一帧声源数据的分离参数。由于声源的声音信号在时序上存在相关性,因此基于辅助函数优化的超定独立向量分析的分离方法对待处理声源数据进行声源分离中,是通过交替更新分离参数和辅助参数对待处理声源数据进行声源分离,其中,辅助参数的更新是通过待处理声源数据的频域信号更新前一帧声源数据的分离参数实现的;分离参数的更新是通过待处理声源数据的频域信号的辅助参数更新前一帧声源数据的分离参数实现的。
在本发明一些实施例中,获取待处理声源数据对应的辅助参数的步骤包括:获取历史声源数据的历史分离参数以及离散声源数据的历史辅助参数,根据历史分离参数和待处理声源数据的声音信号,得到前一帧声源数据输出的每个候选声源的能量,根据历史辅助参数、待处理声源数据的声音信号以及前一帧声源数据输出的每个候选声源的能量得到待处理声源数据对应的辅助参数。其中,历史辅助参数指的是前一帧声源数据的辅助参数。例如,当分离出的候选声源的数量S小于或等于待处理声源数据的声音通道的数量M时,可以通过得到待处理声源数据的辅助参数
V(l,k)=[V1(l,k),V2(l,k),...,Vs(l,k),...,VS(l,k)],其中α是遗忘因子,并且α∈[0,1],l是待处理声源数据的帧数,Vs(l-1,k)是前一帧声源数据中第k个频率点的辅助参数,即历史辅助参数,是输出的每个候选声源的能量,Ws(l-1,k)是前一帧声源数据中第k个频率点的分离参数,即历史分离参数,(·)H表示共轭转置,其中第一帧处理声源数据的辅助参数Vs(1,k)是预先设置的对角线元素的值为1、其它位置的元素的值为零的矩阵。
在本发明一些实施例中,根据每个候选声源的位置导向信息,对辅助参数矩阵进行修正包括:根据每个候选声源的位置导向信息计算辅助参数中每个候选声源辅助参数Vs(l,k)对应的修正参数,将Vs(l,k)与修正参数对每个候选声源辅助参数Vs(l,k)进行修正,得到修正后的辅助参数。其中,可以根据每个候选声源的位置导向信息通过得到每个候选声源辅助参数Vs(l,k)对应的修正参数β,其中λs是预设的常数。在确定得到每个候选声源辅助参数Vs(l,k)对应的修正参数β后,通过Vs(l,k)+β得到每个修正后候选声源辅助参数Ds(l,k),汇总每个修正后候选声源辅助参数Ds(l,k)得到修正后的辅助参数D(l,k)=[D1(l,k),D2(l,k),...,Ds(l,k),...,DS(l,k)]。
在本发明一些实施例中,可以根据修正后的辅助参数和历史分离参数,通过D(l,k)W(l-1,k),得到待处理声源数据的分离参数W(l,k)。
在本发明一些实施例中,可以根据修正后的辅助参数和历史分离参数,通过(W(l-1,k)Ds(l,k))-1得到第s个中间参数Ps(l,k),通过得到分离参数W(l,k)。
在本发明一些实施例中,为了增加分离结果的准确度,以解决盲源分离的模糊性问题,在分离参数确定中,可以根据修正后的辅助参数和历史分离参数,通过(W(l-1,k)Vs(l,k))-1得到第s个第一中间参数Ps(l,k),通过得到第s个修正的第一中间参数Qs(l,k),通过Ps H(l,k)Ds(l,k)Ps(l,k)得到第s个第二中间参数Ψs(l,k),通过Ps H(l,k)Ds(l,k)Qs(l,k)得到第s个第三中间参数Φs(l,k),根据第s个第一中间参数、第s个修正的第一中间参数、第s个第二中间参数和第s个第三中间参数得到第s个元素的分离参数Ws(l,k),汇总每个元素的分离参数得到分离参数W(l,k)。具体地,对于分离参数W(l,k)中的第s个元素Ws(l,k),可以将该元素的第三中间参数Φs(l,k)的值与预设数值进行比对;如果该元素的第三中间参数Φs(l,k)的值与预设数值一致,则根据该元素的第二中间参数Ψs(l,k)、第一中间参数Ps(l,k)以及修正的第一中间参数Qs(l,k),通过得到分离参数W(l,k)中的第s个元素Ws(l,k);如果该元素的第三中间参数Φs(l,k)的值与预设数值不一致,则根据该元素的第二中间参数Ψs(l,k)、该元素的第三中间参数Φs(l,k)、第一中间参数Ps(l,k)以及修正的第一中间参数Qs(l,k),通过得到分离参数W(l,k)中第s个元素Ws(l,k)。其中,预设数值可以是0。
需要说明的是,上述分离参数的确定方法仅为基于辅助函数优化的超定独立向量分析的分离方法中确定分离参数的示例性说明,在实际应用中,可以根据采用的分离方法调整分离参数的确定方式。
步骤b2,根据分离参数,对待处理声源数据中的声音信号进行声源分离,确定得到每个候选声源的声音信号。
在本发明一些实施例中,步骤b2包括:在得到分离参数后,通过计算分离参数与待处理声源数据中的声音信号的频域信号的乘积,从待处理声源数据的中分离出分离信号,其中分离信号中的每一个元素表示每个候选声源的频域信号,对分离出每个候选声源的频域信号进行逆短时傅立叶变换,得到每个候选声源的声音信号。
在本发明一些实施例中,步骤b2包括:在得到分离参数后,根据分离参数得到噪声分离参数,通过噪声分离参数和分离参数得到待处理声源数据的总分离参数,通过计算总分离参数与待处理声源数据中的声音信号的频域信号的乘积,从待处理声源数据的中分离出分离信号,其中分离信号中的每一个元素表示每个候选声源的频域信号,对分离出每个候选声源的频域信号进行逆短时傅立叶变换,得到每个候选声源的声音信号。
在本发明一些实施例中,噪声分离参数的确定方法包括:根据分离参数,通过(A2C(l,k)WH(l,k))(A1C(l,k)WH(l,k))-1计算得到噪声子空间J(l,k),通过[J(l,k),-IM-S]得到噪声分离参数U(l,k),其中,A1和A2都是常数矩阵,并且A1=[IS,OS×M-S],A1=[O(M-S)×S,IM-S],I是单位矩阵,Q*×*是零矩阵,C(l,k)是M*M的噪声参数方阵,在本发明一些实施例中,可以根据前一帧声源数据的前序噪声分离参数中的前序噪声参数方阵C(l-1,k)、待处理声源数据的声音信号,通过αC(l-1,k)+(1-α)X(l,k)XH(l,k)得到C(l,k),其中,α是辅助参数计算中的遗忘因子,其数值设置与辅助参数中的遗忘因子设置相同,都可以设置为0.95;在本发明一些实施例中,C(l,k)的第一帧处理声源数据的噪声参数矩阵C(1,k)是零矩阵。
在本发明一些实施例中,在得到噪声分离参数U(l,k)后,通过得到总分离参数通过计算总分离参数与待处理声源数据中的声音信号X(l,k)的频域信号的乘积从待处理声源数据的中分离出分离信号Y(l,k),其中分离信号Y(l,k)是一个元素个数为S的列向量,其中每一个元素Ys(l,k),s=1,2,...,S表示每个候选声源的频域信号,对分离出每个候选声源的频域信号进行逆短时傅立叶变换,得到每个候选声源的声音信号ys(l)。
在本发明一些实施例中,为了增加分离信号的稳定性,增加分离结果的准确度,以解决盲源分离的模糊性问题,步骤b2中,在得到分离参数后,根据分离参数得到噪声分离参数,通过得到待处理声源数据的总分离参数通过得到总分离参数的第一变换矩阵提取第一变换矩阵中的第一行到第S行的元素,得到第二变换矩阵Wbp(l,k),通过从待处理声源数据的中分离出分离信号Y(l,k)。其中,A(l,k)是M*M的对角矩阵,A(l,k)中对角元素为总分离参数求逆后的对角线元素;(·)H表示共轭转置。
需要说明的是,上述通过分离参数从待处理声源数据中分离出候选声源的声音信号的方式仅为基于辅助函数优化的超定独立向量分析的分离方法的示例性说明,在实际应用中,可以根据采用的分离方法调整通过分离参数从待处理声源数据中分离出候选声源的声音信号的方式。
在本发明一些实施例中,在步骤201中,可以从采集该待处理声源数据的电子设备所处的声源空间中选取出一个初始声源区域,根据预设方位角对该初始声源区域进行均匀划分,得到多个方向向量,将每一个方向向量设置为一个初始声源位置,通过SRP(全称:Steered Response Power,全称:可控响应功率)计算待处理声源数据在每个初始声源位置的功率值,根据每个初始声源位置的功率值,从多个初始声源位置中选取出候选声源位置,根据选取的候选声源位置得到候选声源以及候选声源的位置信息。具体地,如图3所示,图3是本发明实施例提供的声音信号处理方法中候选声源的估计方法的一个流程示意图,所示的候选声源的估计方法包括步骤301~304:
301,根据预设的方位角,确定得到多个初始声源位置。
在本发明一些实施例中,可以电子设备中麦克风阵列的几何中心作为原点,以该原点建立空间坐标系,以该原点作为圆心、预设距离为半径按照顺时针方向或逆时针方向选取出预设角度范围的初始声源区域,在该初始声源区域中存在至少一个初始声源,以该原点作为圆心、预设距离为半径,按照顺时针方向转动或进行逆时针方向转动,在该初始声源区域中每转动预设的方位角选取一个位置,选取出多个位置,将每个选取出的位置设置为初始声源位置,将每个选取出的位置的方位角以及每个选取出的位置与该原点构成的俯仰角得到每个选取出的位置的方向向量,将每个选取出的位置的方向向量设置为初始声源位置的位置信息。
302,根据各初始声源位置,确定各初始声源位置与各声音通道位置的距离。
在本发明一些实施例中,步骤302包括:根据空间坐标系,确定电子设备中麦克风阵列的每个麦克风通道在该空间坐标系中的位置坐标,将电子设备中麦克风阵列的每个麦克风通道在该空间坐标系中的位置坐标设置为采集待处理声源数据的每个声音通道位置,根据每个初始声源位置的位置信息确定得到每个初始声源位置的位置坐标,对于每个初始声源位置,根据该初始声源位置的位置坐标以及每个声音通道位置,得到该初始声源位置与每个声音通道位置的距离。在本发明一些实施例中,可以通过计算该初始声源位置的位置坐标与每个声音通道位置之间的2-范数,得到该初始声源位置与每个声音通道位置的距离;还可以通过计算该初始声源位置的位置坐标与每个声音通道位置之间的欧式距离或马氏距离,得到该初始声源位置与每个声音通道位置的距离。
303,根据各初始声源位置与各声音通道位置的距离,确定得到各初始声源位置上的声音信号的功率。
在本发明一些实施例中,步骤303包括:对于每个初始声源位置,根据该初始声源位置与每个声音通道位置的距离,得到该初始声源位置与每两个相邻声音通道位置的距离差,根据该距离差,得到该两个相邻声音通道位置接收到该初始声源位置的信号的时间差,根据待处理声源数据,确定该两个相邻声音通道位置中的每个声音通道位置上的声音信号,根据该时间差、该两个相邻声音通道位置中的每个声音通道位置上的声音信号,得到该初始声源位置的信号在该两个相邻声音通道位置中的前一个声音通道位置上的功率,汇总该候选声源位置的信号在每个声音通道位置上的功率,得到该初始声源位置上的声音信号的功率。其中,两个相邻声音通道位置中的前一个声音通道位置可以是两个相邻声音通道位置中声音通道的位置坐标小于另一个声音通道的位置坐标的声音通道位置。
在本发明一些实施例中,步骤303还可以按照步骤a1~a3计算各初始声源位置上的声音信号的功率。
304,根据各初始声源位置上的声音信号的功率,确定得到候选声源以及候选声源的位置信息。
在本发明一些实施例中,步骤304包括:根据各初始声源位置上的声音信号的功率,按照功率从大到小的顺序对各初始声源位置进行排序,从排序后的初始声源位置中选取出预设数量的目标初始声源位置,将选取出的目标初始声源位置设置为候选声源,将每个目标初始声源位置的位置信息设置为候选声源的位置信息。需要说明的是,本发明实施例对预设数量的具体数值不作限定,即对候选声源的数量不作限定,例如,为了减少声源分离处理中的计算量,可以将候选声源的数量设置为候选声源的数量小于或等于采集待处理声源数据的声音通道的数量。
在本发明一些实施例中,步骤304包括:将各初始声源位置上的声音信号的功率依次与功率阈值进行比较,选取出功率大于或等于功率预设的初始声源位置,将选取出的功率大于或等于功率预设的初始声源位置设为候选声源,将每个选取出的功率大于或等于功率预设的初始声源位置的位置信息设置为候选声源的位置信息。在本发明一些实施例中,功率阈值可以是预先设置的,可以是根据各初始声源位置上的声音信号的功率的平均值、众数或中位数确定得到的,还可以根据各初始声源位置上的声音信号的功率,按照功率从大到小的顺序对各功率进行排序,从排序后的功率中第预设数量处的功率值设为功率阈值。
在本发明一些实施例中,步骤304包括:根据各初始声源位置上的声音信号的功率,确定各初始声源位置上的声音信号的功率中的最大功率,计算各初始声源位置上的声音信号的功率与该最大功率之间的功率差值,将功率差值小于或等于预设功率差阈值的功率所对应的初始声源位置设置为候选声源,将功率差值小于或等于预设功率差阈值的功率所对应的初始声源位置的位置信息设置为候选声源的位置信息。
在本发明一些实施例中,在步骤303中,对于每一个初始声源位置,可以通过该初始声源位置与各声音通道位置,得到该初始声源位置的信号到达各声音通道位置的时间信息,根据该初始声源位置的信号到达各声音通道位置的时间信息,确定得到该初始声源位置上的声音信号的功率,具体地,初始声源位置的功率计算方法包括步骤c1~c3:
步骤c1,针对每个初始声源位置,根据该初始声源位置与各声音通道位置的距离,确定该初始声源位置的信号到达各声音通道位置的时间信息。
在本发明一些实施例中,针对每个初始声源位置,可以通过该初始声源位置与采集待处理声源数据的各声音通道位置,得到该初始声源位置与各声音通道位置之间的距离,根据声音的传播速度以及该初始声源位置与各声音通道位置之间的距离,得到该初始声源位置的信号到达各声音通道位置的时间信息。
步骤c2,根据该初始声源位置的信号到达各声音通道位置的时间信息,确定得到各声音通道位置的声音信号的功率。
在本发明一些实施例中,可以根据该初始声源位置的信号到达各声音通道位置的时间信息进行时延估计,得到各声音通道的可控响应功率函数值,将各声音通道的可控响应功率函数值设置为各声音通道位置的声音信号的功率。其中,可控响应功率函数值可以通过基于相位变换加权的广义互相关函数根据该初始声源位置的信号到达各声音通道位置的时间信息进行时延估计得到。具体地,根据基于相位变换加权的广义互相关函数确定得到各声音通道位置的声音信号的功率的方法包括:
(1)针对每个声音通道位置,确定该初始声源位置的信号到达与该声音通道位置相邻的下一个声源通道位置的第一时间信息,以及该初始声源位置的信号到达与该声音通道位置相邻的下一个声源通道位置的第二时间信息。
(2)确定第一时间信息与第二时间信息的时间差。
(3)根据时间差、该声音通道位置的声音信号以及与该声音通道位置相邻的下一声源通道位置的声音信号,确定得到该声音通道位置的功率。
在本发明一些实施例中,可以通过该初始声源位置的信号到达与该声音通道位置相邻的下一个声源通道位置的第二时间信息减去该初始声源位置的信号到达该声音通道位置的第一时间信息,得到该初始声源位置的信号到达该声音通道位置以及到达与该声音通道位置相邻的下一个声源通道位置的时间差τij(dn),其中dn表示该初始声源位置,i表示第i个声源通道,j表示第j个声源通道,且j=i+1。
在本发明一些实施例中,在得到时间差τij(dn)之后,根据该声音通道位置的声音信号的各频率点k的频域信号Xi(k)以及与该声音通道位置相邻的下一声源通道位置的各频率点k声音信号的频域信号Xj(k),通过得到该声音通道位置的可控响应功率函数值Rijij(dn)],将该声音通道位置的可控响应功率函数值设置为该声音通道位置的声音信号的功率,其中,(·)*表示共轭,Fs是待处理声源数据中的是声音信号的采样频率,K为短时傅立叶变换的频率点数。
步骤c3,根据各声音通道位置的功率,确定得到该初始声源位置上的声音信号的功率。
在本发明一些实施例中,在得到该声音通道位置的声音信号的功率之后,通过得到该初始声源位置上的声音信号的功率F(dn)。
在本发明一些实施例中,考虑到对于该初始声源位置,电子设备中的不同的声音通道位置接收到该初始声源位置的信号质量是存在差异的,在基于相位变换加权的广义互相关函数确定得到各声音通道位置的声音信号的功率的方法中,如果对于每一个声音通道位置,不考虑该声音通道位置接收到的信号质量,仅通过得到该初始声源位置上的声音信号的功率F(dn),可能会降低后续声源估计的准确度,并且,在实际应用中,可以通过声音通道位置对的可控响应功率函数的最大值可表征该对声音通道位置接收信号的质量。
基于此,在步骤c2中,通过该初始声源位置的信号达到每个声音通道位置以及达到与每个声音通道位置相邻的下一声音通道位置的时间差,得到每个声音通道位置的初始功率以及每个声音通道位置相邻的下一声音通道位置的初始功率,根据每个声音通道位置的初始功率以及每个声音通道位置相邻的下一声音通道位置的初始功率中的最大值得到每个声音通道位置的功率权重,通过每个声音通道位置的初始功率以及该声音通道位置的功率权重,得到各声音通道位置的声音信号的功率,具体地,基于权重的声音信号的功率确定方法包括:
(1)根据该初始声源位置的信号到达各声音通道位置的时间信息,确定得到各声音通道位置的声音信号的初始功率。
(2)根据各声音通道位置对应的初始功率,确定得到每两个相邻声音通道位置对应的初始功率中的目标功率,目标功率表征每两个相邻声音通道位置对应的初始功率中的较大值。
(3)针对每个声音通道位置,根据该声音通道位置对应的初始功率、该声音通道位置相邻的下一声音通道位置对应的初始功率以及各目标功率,确定得到该声音通道位置的功率权重。
(4)根据该声音通道位置对应的初始功率以及该声音通道位置的功率权重,确定得到该声音通道位置的功率。
其中,对于该初始声源位置,可以按照上述基于相位变换加权的广义互相关函数确定得到各声音通道位置的声音信号的功率的方法得到每个声音通道位置的声音信号的初始功率。
在本发明一些实施例中,对于采集待处理声源数据的每个声音通道位置,确定该声音通道位置的声音信号的初始功率以及该声音通道位置相邻的下一声音通道位置的声音信号的初始功率中的最大初始功率Rmax ijij(dn)],将该最大初始功率Rmax ijij(dn)]设置目标功率。在得到每个目标功率后,通过累加每个目标功率,得到在该初始声源位置下,采集待处理声源数据的声音通道位置的目标功率总值针对每个声音通道位置,确定该声音通道位置的声音信号的初始功率以及该声音通道位置相邻的下一声音通道位置的声音信号的初始功率中的最大初始功率,通过该最大初始功率与目标功率总值的比值对该声音通道位置的声音信号的初始功率以及该声音通道位置相邻的下一声音通道位置的声音信号的初始功率中的最大初始功率进行归一化,得到该声音通道位置的声音信号的功率权重ωi,j
在本发明一些实施例中,在得到该声音通道位置的声音信号的功率权重ωi,j、该声音通道位置的声音信号的初始功率Rijij(dn)]后,根据ωi,jRijij(dn)]得到该声音通道位置的功率。
在本发明一些实施例中,在通过ωi,jRijij(dn)]得到该声音通道位置的功率后,通过得到该初始声源位置上的声音信号的功率F(dn)。
在本发明一些实施例中,步骤202中,可以根据候选声源的位置信息以及采集待处理声源数据的每个声音通道位置,得到每个候选声源的位置信息的信号达到待处理声源数据的每个声音通道位置的时间信息,根据每个候选声源的位置信息的信号达到待处理声源数据的每个声音通道位置的时间信息,得到每个候选声源的位置导向信息。具体地位置导向信息的确定方法包括步骤d1~d2:
步骤d1,针对每个候选声源,根据该候选声源的位置信息,确定得到该候选声源的信号到达各声源通道位置的时间信息。
步骤d2,根据该候选声源的信号到达各声源通道位置的时间信息,得到该候选声源的位置导向信息。
在本发明一些实施例中,步骤d1包括:根据已建立的空间坐标系,根据采集待处理声源数据的每个声源通道在空间坐标系中的位置信息以及该空间坐标系中的坐标原点的位置信息,得到采集待处理声源数据的每个声源通道的位置向量,针对每个候选声源,根据该候选声源的位置信息的方向向量与待处理声源数据的每个声源通道的位置向量之间的内积,得到该候选声源的位置处的信号到达采集待处理声源数据的每个声源通道位置的传播距离,根据该候选声源的信号到达采集待处理声源数据的每个声源通道的传播距离和声音传播速度,得到该候选声源的信号到达采集待处理声源数据的每个声源通道位置的时间信息。
在本发明一些实施例中,步骤d2包括:将该候选声源的信号到达采集待处理声源数据的每个声源通道位置的时间信息输入至预设的矢量模型得到该候选声源的位置导向信息其中,表示该候选声源的位置信息,ω是预选设置的模拟角频率,τm,m=1,2,...,M表征该候选声源的信号到达采集待处理声源数据的每个声源通道位置的时间信息。
在本发明一些实施例中,在得到每个候选声源的位置导向信息后,按照步骤203根据每个候选声源的位置导向信息,对待处理声源数据进行声源分离,得到每个候选声源的声音信号。
本发明实施例,在声源分离处理中,先是对待处理声源数据声源定位,得到候选声源的个数以及候选声源的位置信息,继而利用各个候选声源的位置信息求取各个候选声源的位置导向信息,采用结合位置导向信息的超定独立向量分析的分离方法对待处理声源数据进行声源分离,从待处理声源数据中分离出各个候选声源的声音信号,本发明实施例利用了位置导向信息来牵引盲源分离,加强了分离输出的声音信号的稳定性,避免了现有的仅通过超定独立向量分析的分离方法的在声源位置发生变化的情况下可能输出纯噪声的情况。
在本发明一些实施例中,考虑到201~203所示的声源分离处理方法需要进行候选声源的数量估计,这增加了声音信号处理方法的计算量,因此为了降低声音信号处理方法的计算量,本发明实施例提供一种无需声源估计的声源分离处理方法,具体地,如图4所示,图4是本发明实施例提供的声音信号处理方法中另一种声源分离处理的一个流程示意图,所示的声源分离处理方法包括步骤401~403:
401,对待处理声源数据进行声源分离处理,得到多个预测声源,以及每个初预测声源的声音信号。
考虑到现有的基于独立向量分析的分离方法在进行声源分离处理时,需要进行声源估计确定候选声源的数量或者预先知道需要分离出的候选声源数量,增加了声音信号处理方法的计算量,为了解决在基于独立向量分析的分离方法在进行盲源分离时,必须进行候选声源的数量估计问题,本发明实施例在基于独立向量分析的分离方法在进行声源分离时,通过待处理声源数据的声音通道的数量m建立初始分离参数WM×M(l),通过迭代更新初始分离参数WM×M(l),从待处理声源数据的分离出M个预测声源的声音信号,对分离出的M个预测声源的声音信号进行冗余信号检测与剔除,从分离出的M个预测声源的声音信号中提取出候选声源的声音信号。
在本发明一些实施例中,在步骤401中,可以通过待处理声源数据的声音通道的数量m建立初始分离参数WM×M(l),通过基于等变自适应分解算法的迭代模型对初始分离参数WM×M(l)进行迭代,每一次迭代时,从待处理声源数据分离出该次迭代的分离信号,当迭代次数达到预设迭代次数时,得到最终的分离信号从待处理声源数据的分离出M个预测声源的声音信号。其中,I时m*m维的单位矩阵,l表征迭代步数,α(l)表征迭代步长,E表示求期望,y表示非线性函数,其与待处理声源数据的声音信号的概率密度函数有关,y表示第l次挈带得到的分离信号,其中T表示转置。
在本发明一些实施例中,在步骤401中,还通过待处理声源数据的声音通道的数量m建立初始分离参数WM×M(l),通过基于自然梯度法的迭代模型对初始分离参数WM×M(l)进行迭代,每一次迭代时,从待处理声源数据分离出该次迭代的分离信号,当迭代次数达到预设迭代次数时,得到最终的分离信号,从待处理声源数据分离出M个预测声源的声音信号。其中,基于自然梯度法的迭代模型的参数含义与基于等变自适应分解算法的迭代模型相同,此处不再赘述。
在本发明一些实施例中,在步骤401中,也可以对待处理声源数据的M个声音通道的时域信号x={x1;x2;...;xM}进行短时傅里叶变换,得到待处理声源数据的M个声音通道的频域信号X(k),k=1,2,...,K,其中K是短时傅里叶变换的点数,X(k)={X1(k);...;XM(k)};根据基于辅助函数优化的独立向量分析的分离方法对各频率点的频域信号X(k)进行声源分离,从待处理声源数据分离出M个预测声源的声音信号。
402,计算各预测声源的声音信号之间的互相关系数,得到相关系数矩阵。
在本发明一些实施例中,候选声源的数量未知时,分离得到的M个预测声源的声音信号中存在S个独立分量,其余的M-S个分量是一个或者多个独立分量的拷贝或零信号,其中,S个独立分量即为S个候选声源的声音信号,由于M个预测声源的声音信号中存在的S个独立分量之间是相关性比较低,而由一个或者多个独立分量的拷贝或零信号构成的M-S个分量之间存在相关性,因此可以通过每个预测声源对应的声音信号之间的互相关系数,从M个预测声源的声音信号中提取出S个候选声源的声音信号。
具体地,步骤402包括:针对每个预测声源,计算该预测声源对应的声音信号与该预测声源对应的声音信号之间的自相关系数,以及该预测声源对应的声音信号与除该预测声源对应的声音信号外的每个预测声源的声音信号之间的互相关系数,得到该预测声源对应的声音信号的相关系数;根据每个始声源对应的声音信号的相关系数建立预测声源的声音信号对应的相关系数矩阵
403,根据相关系数矩阵,从各预测声源中确定得到候选声源以及候选声源的声音信号。
在本发明一些实施例中,相关系数矩阵中,矩阵对角线元素表示预测声源的声音信号的自相关系数,必然都为1,矩阵中其他元素表示任意两个预测声源的声音信号之间的互相关系数;将相关系数矩阵中每一列或每一行非对角线元素的数值与预设系数进行比较;若相关系数矩阵中每一列或每一行非对角线元素的数值中存在元素的数值与预设系数之间的绝对差小于或等于预设阈值的目标元素,说明预测声源中存在与对角线元素所对应的预测声源的声音信号相同或者相似的冗余信号,则将该目标元素对应的预测声源剔除;通过相关系数矩阵剔除冗余信号,对多个预测声源进行数据清洗,得到候选声源以及候选声源的声音信号。
考虑到分离得到的候选声源的声音信号中包括目标声源的声音信号和非目标声源的声音信号,并且该目标声源的声音信号中混叠的其他信号或噪声成分极少,语音质量较好,而非目标声源的声音信号,则由于混叠噪声或者其他信号使得非目标声源的声音信号的语音质量比目标声源的声音信号的质量差,因此可以通过评估每个候选声源的声音信号的语音质量,从分离得到的候选声源的声音信号中选取出目标声源的声音信号。因此,本发明实施例在得到待处理声源数据中的候选声源以及每个候选声源的声音信号之后,为了进一步去除候选声源中的噪声,对每个候选声源的声音信号的语音质量进行评估,得到每个候选声源的声音信号的评估值,根据评估值,对候选声源进行筛选,从多个候选声源中选取出目标声源。
在本发明一些实施例中,可以通过计算每个候选声源的声音信号的峭度值,得到每个候选声源的声音信号对应的评估值,其中峭度值用于描述声音信号的语音特征,声音信号的峭度值越大则该声音信号的语音质量越高。具体地,基于峭度值的声音信号评估方法包括:
(1)对每个候选声源的声音信号进行时频域转换,得到每个候选声源的声音信号的时域信号。
(2)确定每个候选声源的声音信号的时域信号对应的峭度值,将峭度值设置为该候选声源的声音信号对应的评估值。
在本发明一些实施例中,在分离得到多个候选声源的声音信号的频域信号Y(l,k)=[Y1(l,k),Y2(l,k),...,YS(l,k)],通过逆短时傅立叶变换,得到多个候选声源的声音信号的时域信号y(l)=[y1(l),y2(l),...,yS(l)],对于每一个候选声源,根据该候选声源的声音信号的时域信号ys(l),s=1,…,S,通过得到该候选声源的声音信号的峭度值K(ys(l)),将该候选声源的声音信号的峭度值K(ys(l))设置为该候选声源的声音信号对应的评估值。
在本发明一些实施例中,当电子设备是以语音为交互方式的电子设备时,还可以根据每个候选声源的声音信号的语音特征确定每个候选声源的声音信号中的唤醒词得分,将每个候选声源的声音信号中的唤醒词得分设置为每个候选声源的声音信号对应的评估值,即通过每个候选声源的声音信号中的唤醒词得分,从多个候选声源中选取出目标声源。其中,唤醒词得分用于量化每个候选声源的声音信号中语音质量,在本发明一些实施例中,可以通过确定每个候选声源的声音信号对应的声音特征是唤醒词的声音特征的概率,确定得到每个候选声源的声音信号中的唤醒词得分。具体地,基于唤醒词得分的声音信号评估方法包括:
(1)获取每个候选声源的声音信号的语音特征向量。
(2)确定每个候选声源的声音信号的语音特征向量所对应的概率分值。
(3)根据每个候选声源的声音信号的语音特征向量所对应的概率分值,确定每个候选声源的声音信号对应的评估值。
其中,概率分值表征语音特征向量是唤醒词对应的语音特征向量的概率。
在本发明一些实施例中,可以将分离得到多个候选声源的声音信号的频域信号Y(l,k)=[Y1(l,k),Y2(l,k),...,YS(l,k)],通过逆短时傅立叶变换,得到多个候选声源的声音信号的时域信号y(l)=[y1(l),y2(l),...,yS(l)],对于每一个候选声源,根据该候选声源的声音信号的时域信号ys(l),s=1,…,S,对每一个候选声源的时域信号ys(l),通过由频谱衍生出来的梅尔频率倒谱系数从该ys(l)中提取出反映语音信号特征的关键特征参数形成特征矢量序列,将特征矢量序列设置为候选声源的声音信号的语音特征向量。
在本发明一些实施例中,可以根据每个候选声源的声音信号的语音特征向量得到每个候选声源的声音信号的语义特征,将每个候选声源的声音信号的语义特征与预设语义特征进行比对,得到每个候选声源的声音信号的语义特征与预设语义特征的相似程度,将每个候选声源的声音信号的语义特征与预设语义特征的相似程度设置为每个候选声源的声音信号的语音特征向量所对应的概率分值。其中,可以根据步骤102中的语义特征提取方法得到每个候选声源的声音信号的语义特征。
在本发明一些实施例中,对于每个候选声源,可以将该候选声源的声音信号的语音特征向量所对应的概率分值设置为该候选声源的声音信号对应的评估值。
在本发明一些实施例中,对于每个候选声源,可以将该候选声源的声音信号的语音特征向量所对应的概率分值与预设概率阈值进行比较,若该候选声源的声音信号的语音特征向量所对应的概率分值大于预设概率阈值,则将该候选声源的声音信号对应的评估值设置为第一预设值;若该候选声源的声音信号的语音特征向量所对应的概率分值小于或等于预设概率阈值,则将该候选声源的声音信号对应的评估值设置为第二预设值。其中,第一预设值可以是1,第二预设值可以为0;第一预设值还可以是100,第二预设值还可以是0。
在本发明一些实施例中,对于每个候选声源,可以将该候选声源的声音信号的语音特征向量所对应的概率分值,查询预存的评估数据,确定该候选声源的声音信号的语音特征向量所对应的概率分值所在的概率区间,以及该概率区间所对应的评估分数,将该概率区间所对应的评估分数设置为该候选声源的声音信号对应的评估值。其中,预存的评估数据包括多个概率区间以及每个概率区间所对应的评估分数。
在本发明一些实施例中,在得到每个候选声源的声音信号对应的评估值之后,可以根据每个候选声源的声音信号对应的评估值确定最大评估值对应的候选声源,将最大评估值对应的候选声源设置为目标声源,并将最大评估值对应的候选声源的声音信号设置为目标声源的声音信号。
本发明实施例提供的声音信号处理方法,通过评估盲源分离得到的每个候选声源的声音信号确定最终的目标声源,改善盲源分离的稳定性不高的问题,通过提高目标声源的准确度,进行降噪,提高视听效果。
为了更好实施本发明实施例提供的声音信号处理方法,在声音信号处理方法实施例基础上,本发明实施例还提供一种声音信号处理装置,如图5所示,图5是本发明实施例提供的声音信号处理装置的结构示意图,所示的声音信号处理装置包括:
分离模块501,用于对待处理声源数据进行声源分离处理,得到待处理声源数据对应的候选声源以及待处理声源数据中属于各个候选声源的声音信号;
评估模块502,用于对每个候选声源的声音信号进行质量评估,确定每个候选声源的声音信号的评估值;
选取模块503,用于根据每个候选声源的声音信号对应的评估值,从多个候选目标声源中确定得到目标声源;
处理模块504,用于对目标声源的声音信号进行处理。
在本发明一些实施例中,分离模块501包括:
声源估计单元,用于对待处理声源数据进行声源位置估计,确定得到待处理声源数据对应的候选声源以及每个候选声源的位置信息;
矢量确定单元,用于根据采集待处理声源数据的各声音通道位置以及各候选声源的位置信息,确定得到每个候选声源的位置导向信息;
分离单元,用于根据每个候选声源的位置导向信息,对待处理声源数据进行声源分离,得到每个候选声源的声音信号。
在本发明一些实施例中,分离单元:
分离参数子单元,用于根据每个候选声源的位置导向信息,确定得到分离参数;
分离子单元,用于根据分离参数,对待处理声源数据中的声音信号进行声源分离,确定得到每个候选声源的声音信号。
在本发明一些实施例中,分离参数子单元用于:
获取历史声源数据的历史分离参数以及待处理声源数据对应的辅助参数;
根据每个候选声源的位置导向信息,对辅助参数矩阵进行修正,得到修正后的辅助参数;
根据修正后的辅助参数以及历史分离参数,得到待处理声源数据的分离参数。
在本发明一些实施例中,声源估计单元,用于:
根据预设的方位角,确定得到多个初始声源位置;
根据各初始声源位置,确定各初始声源位置与采集待处理声源数据的各声音通道位置的距离;
根据各初始声源位置与各声音通道位置的距离,确定得到各初始声源位置上的声音信号的功率;
根据各初始声源位置上的声音信号的功率,确定得到候选声源以及候选声源的位置信息。
在本发明一些实施例中,声源估计单元,用于:
针对每个初始声源位置,根据该初始声源位置与各声音通道位置的距离,确定该初始声源位置的信号到达各声音通道位置的时间信息;
根据该初始声源位置的信号到达各声音通道位置的时间信息,确定得到各声音通道位置的声音信号的功率;
根据各声音通道位置的声音信号的功率,确定得到该初始声源位置上的声音信号的功率。
在本发明一些实施例中,声源估计单元,用于:
针对每个声音通道位置,确定该初始声源位置的信号到达该声音通道位置的第一时间信息,以及该初始声源位置的信号到达与该声音通道位置相邻的下一个声源通道位置的第二时间信息;
确定第一时间信息与第二时间信息的时间差;
根据时间差、该声音通道位置的声音信号、与该声音通道位置相邻的下一声源通道位置的声音信号,确定得到该声音通道位置的声音信号的功率。
在本发明一些实施例中,声源估计单元,用于:
根据该初始声源位置的信号到达各声音通道位置的时间信息,确定得到各声音通道位置的声音信号的初始功率;
根据各声音通道位置对应的初始功率,确定得到每两个相邻声音通道位置对应的初始功率中的目标功率,目标功率表征每两个相邻声音通道位置对应的初始功率中的较大值;
针对每个声音通道位置,根据该声音通道位置对应的初始功率、该声音通道位置相邻的下一声音通道位置对应的初始功率以及各目标功率,确定得到该声音通道位置的功率权重;
根据该声音通道位置对应的初始功率以及该声音通道位置的功率权重,确定得到该声音通道位置的功率。
在本发明一些实施例中,矢量确定单元,用于:
针对每个候选声源,根据该候选声源的位置信息,确定得到该候选声源的信号到达各声源通道位置的时间信息;
根据该候选声源的信号到达各声源通道位置的时间信息,得到该候选声源的位置导向信息。
在本发明一些实施例中,分离模块501包括:
初始分离单元,用于对待处理声源数据进行声源分离,得到待处理声源数据对应的预测声源以及待处理声源数据中属于各个预测声源的声音信号;
相关计算单元,用于计算各预测声源的声音信号之间的互相关系数,得到相关系数矩阵;
筛选单元,用于根据相关系数矩阵,从各预测声源中确定得到候选声源以及候选声源的声音信号。
在本发明一些实施例中,评估模块502,用于:
对每个候选声源的声音信号进行时频域转换,得到每个候选声源的声音信号的时域信号;
确定每个候选声源的声音信号的时域信号对应的峭度值,将峭度值设置为该候选声源的声音信号对应的评估值。
在本发明一些实施例中,评估模块502,用于:
获取每个候选声源的声音信号的语音特征向量;
确定每个候选声源的声音信号的语音特征向量所对应的概率分值;概率分值表征语音特征向量是唤醒词对应的语音特征向量的概率;
根据每个候选声源的声音信号的语音特征向量所对应的概率分值,确定每个候选声源的声音信号对应的评估值。
在本发明一些实施例中,选取模块503,用于:
根据每个候选声源的声音信号对应的评估值,确定最大评估值对应的候选声源;
将最大评估值对应的候选声源设置为目标声源。
本发明实施例提供的声音信号处理装置,通过评估盲源分离得到的每个候选声源的声音信号确定最终的目标声源,改善盲源分离的稳定性不高的问题,通过提高目标声源的准确度,进行降噪,提高视听效果。
相应的,本发明实施例还提供一种电子设备,如图6所示,该电子设备可以包括射频(RF,Radio Frequency)电路601、包括有一个或一个以上计算机可读存储介质的存储器602、输入单元603、显示单元604、传感器605、音频电路606、无线保真(WiFi,WirelessFidelity)模块607、包括有一个或者一个以上处理核心的处理器608、以及电源609等部件。本领域技术人员可以理解,图6中示出的电子设备结构并不构成对电子设备的限定,可以,包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
RF电路601可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,交由一个或者一个以上处理器608处理;另外,将涉及上行的数据发送给基站。通常,RF电路601包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM,Subscriber Identity Module)卡、收发信机、耦合器、低噪声放大器(LNA,Low Noise Amplifier)、双工器等。此外,RF电路601还可以通过无线通信与网络和其他设备通信。无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(GSM,Global System of Mobile communication)、通用分组无线服务(GPRS,GeneralPacket Radio Service)、码分多址(CDMA,Code Division Multiple Access)、宽带码分多址(WCDMA,Wideband Code Division Multiple Access)、长期演进(LTE,Long TermEvolution)、电子邮件、短消息服务(SMS,Short Messaging Service)等。
存储器602可用于存储软件程序以及模块,处理器608通过运行存储在存储器602的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器602可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的计算机程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器602可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器602还可以包括存储器控制器,以提供处理器608和输入单元603对存储器602的访问。
输入单元603可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,在一个具体的实施例中,输入单元603可包括触敏表面以及其他输入设备。触敏表面,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器608,并能接收处理器608发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面,输入单元603还可以包括其他输入设备。具体地,其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元604可用于显示由用户输入的信息或提供给用户的信息以及电子设备的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元604可包括显示面板,可选的,可以采用液晶显示器(LCD,Liquid CrystalDisplay)、有机发光二极管(OLED,Organic Light-Emitting Diode)等形式来配置显示面板。进一步的,触敏表面可覆盖显示面板,当触敏表面检测到在其上或附近的触摸操作后,传送给处理器608以确定触摸事件的类型,随后处理器608根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图6中,触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能,但是在某些实施例中,可以将触敏表面与显示面板集成而实现输入和输出功能。
电子设备还可包括至少一种传感器605,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板的亮度,接近传感器可在电子设备移动到耳边时,关闭显示面板和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于电子设备还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路606、扬声器,传声器可提供用户与电子设备之间的音频接口。音频电路606可将接收到的音频数据转换后的电信号,传输到扬声器,由扬声器转换为声音信号输出;另一方面,传声器将收集的声音信号转换为电信号,由音频电路606接收后转换为音频数据,再将音频数据输出处理器608处理后,经RF电路601以发送给比如另一电子设备,或者将音频数据输出至存储器602以便进一步处理。音频电路606还可能包括耳塞插孔,以提供外设耳机与电子设备的通信。
WiFi属于短距离无线传输技术,电子设备通过WiFi模块607可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图6示出了WiFi模块607,但是可以理解的是,其并不属于电子设备的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器608是电子设备的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器602内的软件程序和/或模块,以及调用存储在存储器602内的数据,执行电子设备的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器608可包括一个或多个处理核心;优选的,处理器608可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和计算机程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器608中。
电子设备还包括给各个部件供电的电源609(比如电池),优选的,电源可以通过电源管理系统与处理器608逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源609还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
尽管未示出,电子设备还可以包括摄像头、蓝牙模块等,在此不再赘述。具体在本实施例中,电子设备中的处理器608会按照如下的指令,将一个或一个以上的计算机程序的进程对应的可执行文件加载到存储器602中,并由处理器608来运行存储在存储器602中的计算机程序,从而实现各种功能:
对待处理声源数据进行声源分离处理,得到待处理声源数据对应的候选声源以及待处理声源数据中属于各个候选声源的声音信号;
对每个候选声源的声音信号进行质量评估,确定每个候选声源的声音信号的评估值;
根据每个候选声源的声音信号的评估值,从多个候选目标声源中确定得到目标声源;
对目标声源的声音信号进行处理。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本发明实施例提供一种存储介质,其中存储有多条指令,该多条指令能够被处理器进行加载,以执行本发明实施例所提供的任一种声音信号处理方法中的步骤。例如,该计算机程序可以执行如下步骤:
对待处理声源数据进行声源分离处理,得到待处理声源数据对应的候选声源以及待处理声源数据中属于各个候选声源的声音信号;
对每个候选声源的声音信号进行质量评估,确定每个候选声源的声音信号的评估值;
根据每个候选声源的声音信号的评估值,从多个候选目标声源中确定得到目标声源;
对目标声源的声音信号进行处理。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的计算机程序,可以执行本发明实施例所提供的任一种声音信号处理方法中的步骤,因此,可以实现本发明实施例所提供的任一种声音信号处理方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本发明实施例所提供的一种声音信号处理方法、装置、电子设备和存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (15)

1.一种声音信号处理方法,其特征在于,所述方法包括:
对待处理声源数据进行声源位置估计,确定得到所述待处理声源数据对应的候选声源以及每个候选声源的位置信息,根据采集所述待处理声源数据的各声音通道位置以及各所述候选声源的位置信息,确定得到每个所述候选声源的位置导向信息,根据每个所述候选声源的位置导向信息,对所述待处理声源数据进行声源分离,得到每个所述候选声源的声音信号;
对每个所述候选声源的声音信号进行质量评估,确定每个所述候选声源的声音信号的评估值;
根据每个所述候选声源的声音信号的评估值,从多个所述候选目标声源中确定得到目标声源;
对所述目标声源的声音信号进行处理。
2.如权利要求1所述的声音信号处理方法,其特征在于,所述根据每个所述候选声源的位置导向信息,对所述待处理声源数据进行声源分离,得到每个所述候选声源的声音信号,包括:
根据每个所述候选声源的位置导向信息,确定得到分离参数;
根据所述分离参数,对所述待处理声源数据中的声音信号进行声源分离,确定得到每个所述候选声源的声音信号。
3.如权利要求2所述的声音信号处理方法,其特征在于,所述根据每个所述候选声源的位置导向信息,确定得到分离参数包括:
获取历史声源数据的历史分离参数以及所述待处理声源数据对应的辅助参数;
根据每个所述候选声源的位置导向信息,对所述辅助参数进行修正,得到修正后的辅助参数;
根据所述修正后的辅助参数以及所述历史分离参数,得到所述待处理声源数据的分离参数。
4.如权利要求1所述的声音信号处理方法,其特征在于,所述对待处理声源数据进行声源位置估计,确定得到所述待处理声源数据对应的候选声源以及每个候选声源的位置信息包括:
根据预设的方位角,确定得到多个初始声源位置;
根据各所述初始声源位置,确定各所述初始声源位置与采集待处理声源数据的各声音通道位置的距离;
根据各所述初始声源位置与各所述声音通道位置的距离,确定得到各所述初始声源位置上的声音信号的功率;
根据各所述初始声源位置上的声音信号的功率,确定得到候选声源以及所述候选声源的位置信息。
5.如权利要求4所述的声音信号处理方法,其特征在于,所述根据各所述初始声源位置与各所述声音通道位置的距离,确定得到各所述初始声源位置上的声音信号的功率包括:
针对每个所述初始声源位置,根据该初始声源位置与各所述声音通道位置的距离,确定该初始声源位置的信号到达各所述声音通道位置的时间信息;
根据该初始声源位置的信号到达各所述声音通道位置的时间信息,确定得到各所述声音通道位置的声音信号的功率;
根据各所述声音通道位置的声音信号的功率,确定得到该初始声源位置上的声音信号的功率。
6.如权利要求5所述的声音信号处理方法,其特征在于,所述根据该初始声源位置的信号到达各所述声音通道位置的时间信息,确定得到各所述声音通道位置的声音信号的功率,包括:
针对每个所述声音通道位置,确定该初始声源位置的信号到达该声音通道位置的第一时间信息,以及该初始声源位置的信号到达与该声音通道位置相邻的下一个声源通道位置的第二时间信息;
确定所述第一时间信息与所述第二时间信息的时间差;
根据所述时间差、该声音通道位置的声音信号、与该声音通道位置相邻的下一声源通道位置的声音信号,确定得到该声音通道位置的声音信号的功率。
7.如权利要求5所述的声音信号处理方法,其特征在于,所述根据该初始声源位置的信号到达各所述声音通道位置的时间信息,确定得到各所述声音通道位置的声音信号的功率,包括:
根据该初始声源位置的信号到达各所述声音通道位置的时间信息,确定得到各所述声音通道位置的声音信号的初始功率;
根据各所述声音通道位置对应的初始功率,确定得到每两个相邻声音通道位置对应的初始功率中的目标功率,所述目标功率表征每两个相邻声音通道位置对应的初始功率中的较大值;
针对每个所述声音通道位置,根据该声音通道位置对应的初始功率、该声音通道位置相邻的下一声音通道位置对应的初始功率以及各所述目标功率,确定得到该声音通道位置的功率权重;
根据该声音通道位置对应的初始功率以及该声音通道位置的功率权重,确定得到该声音通道位置的功率。
8.如权利要求1所述的声音信号处理方法,其特征在于,所述根据采集所述待处理声源数据的各声音通道位置以及各所述候选声源的位置信息,确定得到每个所述候选声源的位置导向信息,包括:
针对每个所述候选声源,根据该候选声源的位置信息,确定得到该候选声源的信号到达各声源通道位置的时间信息;
根据该候选声源的信号到达各所述声源通道位置的时间信息,得到该候选声源的位置导向信息。
9.如权利要求1所述的声音信号处理方法,其特征在于,所述对待处理声源数据进行声源分离,得到所述待处理声源数据对应的候选声源以及所述待处理声源数据中属于各个所述候选声源的声音信号包括:
对所述待处理声源数据进行声源分离,得到所述待处理声源数据对应的预测声源以及所述待处理声源数据中属于各个所述预测声源的声音信号;
计算各所述预测声源的声音信号之间的互相关系数,得到相关系数矩阵;
根据所述相关系数矩阵,从各所述预测声源中确定得到候选声源以及候选声源的声音信号。
10.如权利要求1所述的声音信号处理方法,其特征在于,所述对每个所述候选声源的声音信号进行质量评估,确定每个所述候选声源的声音信号对应的评估值包括:
对每个所述候选声源的声音信号进行时频域转换,得到每个所述候选声源的声音信号的时域信号;
确定每个所述候选声源的声音信号的时域信号对应的峭度值,将所述峭度值设置为该候选声源的声音信号对应的评估值。
11.如权利要求1所述的声音信号处理方法,其特征在于,所述对每个所述候选声源的声音信号进行质量评估,确定每个所述候选声源的声音信号对应的评估值包括:
获取每个所述候选声源的声音信号的语音特征向量;
确定每个所述候选声源的声音信号的语音特征向量所对应的概率分值;所述概率分值表征语音特征向量是唤醒词对应的语音特征向量的概率;
根据每个所述候选声源的声音信号的语音特征向量所对应的概率分值,确定每个候选声源的声音信号对应的评估值。
12.如权利要求1至11任一项所述的声音信号处理方法,其特征在于,所述根据每个所述候选声源的声音信号对应的评估值,从多个所述候选声源中确定得到目标声源包括:
根据每个所述候选声源的声音信号对应的评估值,确定得到最大评估值对应的候选声源;
将所述最大评估值对应的候选声源设置为目标声源。
13.一种声音信号处理装置,其特征在于,所述装置包括:
分离模块,用于对待处理声源数据进行声源位置估计,确定得到所述待处理声源数据对应的候选声源以及每个候选声源的位置信息,根据采集所述待处理声源数据的各声音通道位置以及各所述候选声源的位置信息,确定得到每个所述候选声源的位置导向信息,根据每个所述候选声源的位置导向信息,对所述待处理声源数据进行声源分离,得到每个所述候选声源的声音信号;
评估模块,用于对每个所述候选声源的声音信号进行质量评估,确定每个所述候选声源的声音信号的评估值;
选取模块,用于根据每个所述候选声源的声音信号对应的评估值,从多个所述候选目标声源中确定得到目标声源;
处理模块,用于对所述目标声源的声音信号进行处理。
14.一种电子设备,其特征在于,包括存储器和处理器;所述存储器存储有计算机程序,所述处理器用于运行所述存储器内的计算机程序,以执行权利要求1至12任一项所述的声音信号处理方法中的操作。
15.一种存储介质,其特征在于,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至12任一项所述的声音信号处理方法中的步骤。
CN202210944168.2A 2022-08-05 2022-08-05 声音信号处理方法、装置、电子设备和存储介质 Active CN117153186B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210944168.2A CN117153186B (zh) 2022-08-05 2022-08-05 声音信号处理方法、装置、电子设备和存储介质
PCT/CN2023/092372 WO2024027246A1 (zh) 2022-08-05 2023-05-05 声音信号处理方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210944168.2A CN117153186B (zh) 2022-08-05 2022-08-05 声音信号处理方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN117153186A CN117153186A (zh) 2023-12-01
CN117153186B true CN117153186B (zh) 2025-03-11

Family

ID=88904825

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210944168.2A Active CN117153186B (zh) 2022-08-05 2022-08-05 声音信号处理方法、装置、电子设备和存储介质

Country Status (2)

Country Link
CN (1) CN117153186B (zh)
WO (1) WO2024027246A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117935789B (zh) * 2024-01-17 2025-03-25 联通(广东)产业互联网有限公司 语音识别方法及系统、设备、存储介质
CN118010165B (zh) * 2024-04-08 2024-06-11 宁波泰利电器有限公司 一种直发梳自动感应温度预警方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113096684A (zh) * 2021-06-07 2021-07-09 成都启英泰伦科技有限公司 一种基于双麦克风阵列的目标语音提取方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101178801B1 (ko) * 2008-12-09 2012-08-31 한국전자통신연구원 음원분리 및 음원식별을 이용한 음성인식 장치 및 방법
JP6193823B2 (ja) * 2014-08-19 2017-09-06 日本電信電話株式会社 音源数推定装置、音源数推定方法および音源数推定プログラム
CN106797413B (zh) * 2014-09-30 2019-09-27 惠普发展公司,有限责任合伙企业 声音调节
WO2017108097A1 (en) * 2015-12-22 2017-06-29 Huawei Technologies Duesseldorf Gmbh Localization algorithm for sound sources with known statistics
CN113327624B (zh) * 2021-05-25 2023-06-23 西北工业大学 一种采用端到端时域声源分离系统进行环境噪声智能监测的方法
CN114220454B (zh) * 2022-01-25 2022-12-09 北京荣耀终端有限公司 一种音频降噪方法、介质和电子设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113096684A (zh) * 2021-06-07 2021-07-09 成都启英泰伦科技有限公司 一种基于双麦克风阵列的目标语音提取方法
CN113889138A (zh) * 2021-06-07 2022-01-04 成都启英泰伦科技有限公司 一种基于双麦克风阵列的目标语音提取方法

Also Published As

Publication number Publication date
CN117153186A (zh) 2023-12-01
WO2024027246A1 (zh) 2024-02-08

Similar Documents

Publication Publication Date Title
CN110164469B (zh) 一种多人语音的分离方法和装置
CN110288978B (zh) 一种语音识别模型训练方法及装置
CN109558512B (zh) 一种基于音频的个性化推荐方法、装置和移动终端
CN106710596B (zh) 回答语句确定方法及装置
CN117153186B (zh) 声音信号处理方法、装置、电子设备和存储介质
CN109119090A (zh) 语音处理方法、装置、存储介质及电子设备
CN110517677B (zh) 语音处理系统、方法、设备、语音识别系统及存储介质
CN110517702B (zh) 信号生成的方法、基于人工智能的语音识别方法及装置
CN108600559B (zh) 静音模式的控制方法、装置、存储介质及电子设备
CN116935883B (zh) 声源定位方法、装置、存储介质及电子设备
CN113225624B (zh) 一种语音识别耗时确定方法和装置
CN112948763B (zh) 件量预测方法、装置、电子设备及存储介质
CN117423355A (zh) 音频信号识别方法、装置、烟灶系统和计算机设备
CN106782614B (zh) 音质检测方法及装置
US12142288B2 (en) Acoustic aware voice user interface
US20220115007A1 (en) User voice activity detection using dynamic classifier
CN111091180B (zh) 一种模型训练方法和相关装置
CN117012202B (zh) 语音通道识别方法、装置、存储介质及电子设备
CN113835065A (zh) 基于深度学习的声源方向确定方法、装置、设备及介质
CN118658464A (zh) 声场景分类模型生成方法、声场景分类方法、装置、存储介质及电子设备
CN118968997A (zh) 一种低复杂度的高效注意力方法、装置、设备及存储介质
CN116246645A (zh) 语音处理方法、装置、存储介质及电子设备
HK40048719A (zh) 一種數據處理方法和相關設備

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant