CN110364161A

CN110364161A - 响应语音信号的方法、电子设备、介质及系统

Info

Publication number: CN110364161A
Application number: CN201910780342.2A
Authority: CN
Inventors: 侯海宁; 步兵
Original assignee: Beijing Xiaomi Intelligent Technology Co Ltd
Current assignee: Beijing Xiaomi Intelligent Technology Co Ltd
Priority date: 2019-08-22
Filing date: 2019-08-22
Publication date: 2019-10-22
Also published as: US11295740B2; US20210056965A1; EP3783604B1; EP3783604A1

Abstract

本公开是关于一种响应语音信号的方法、电子设备、介质及系统，该方法包括：由多个电子设备接收语音信号；对于每个电子设备，确定与所述语音信号相关联的目标声源点；对于每个电子设备，根据所述目标声源点，确定与所述语音信号相关联的直达声能量；从所述多个电子设备中选择其直达声能量满足预定条件的至少一个电子设备，并且由所述至少一个电子设备对所述语音信号进行响应。实现了一种基于多个电子设备的拾音决策系统，其能够更准确、更合理、更有针对性地响应用户的语音，从而提高语音交互体验。

Description

响应语音信号的方法、电子设备、介质及系统

技术领域

本公开涉及语音交互领域，尤其涉及多个电子设备对于语音信号的响应方法、电子设备、介质及系统。

背景技术

当前，越来越多的电子设备能够与用户进行语音交互，因此，用户可能同时拥有多个具有拾音功能的电子设备。这些电子设备的拾音功能可以通过例如分布式麦克风阵列来实现。如果这些电子设备能够被同一唤醒词唤醒，那么用户在进行语音交互时，将会同时唤醒接收到该唤醒词的所有电子设备，从而出现拾音结果混乱的情况，这大大降低了用户的交互体验。

发明内容

为克服相关技术中存在的问题，本公开提供一种。

根据本公开实施例的第一方面，提供一种语音信号响应语音信号的方法，包括：

由所述多个电子设备接收语音信号；

对于每个电子设备，确定与所述语音信号相关联的目标声源点；

对于每个电子设备，根据所述目标声源点，确定与所述语音信号相关联的直达声能量；

从所述多个电子设备中选择其直达声能量满足预定条件的至少一个电子设备，并且由所述至少一个电子设备对所述语音信号进行响应。

所述确定与所述语音信号相关联的目标声源点包括：

基于每个电子设备所包含的声音采集装置阵列的几何中心，选择该电子设备的多个候选声源点；

确定该电子设备的每个候选声源点相对于所述语音信号的总相关性；

确定所述总相关性最大的候选声源点作为该电子设备的目标声源点。

所述确定该电子设备的每个候选声源点相对于所述语音信号的总相关性包括：

对于每个候选声源点，确定所述声音采集装置阵列中的每两个声音采集装置在该候选声源点处对于所述语音信号的相关性；

对所述声音采集装置阵列中所确定的多个相关性求和，作为该候选声源点的总相关性。

所述对于每个候选声源点，确定所述声音采集装置阵列中的每两个声音采集装置在该候选声源点处对于所述语音信号的相关性包括：

根据所述每两个声音采集装置的位置以及该候选声源点的位置，确定所述每两个声音采集装置相对于该候选声源点的时延差；

根据所述时延差以及所述语音信号的频域表示，确定所述每两个声音采集装置在该候选声源点处对于所述语音信号的相关性。

所述根据所述目标声源点，确定与所述语音信号相关联的直达声能量包括：

基于目标声源点，确定直达声系数和混响系数；

基于直达声系数确定直达声模型，并且基于混响系数确定混响模型；

基于直达声模型和混响模型，建立空间协方差矩阵；

基于空间协方差矩阵，确定直达声能量。

所述基于空间协方差矩阵，确定直达声能量包括：

将直达声模型和混响模型的总和确定为空间协方差矩阵；

基于空间协方差矩阵和所述语音信号的频域表示，确定直达声功率谱；

基于直达声功率谱，确定所述直达声能量。

所述从所述多个电子设备中选择其直达声能量满足预定条件的至少一个电子设备包括：从所述多个电子设备中选择其直达声能量最大的一个电子设备，或者选择其直达声能量超过预定阈值的至少一个电子设备。

根据本公开实施例的第二方面，提供一种语音信号响应语音信号的系统，包括：

接收模组，用于由多个电子设备接收语音信号；

第一确定模组，用于对于每个电子设备，确定与所述语音信号相关联的目标声源点；

第二确定模组，用于对于每个电子设备，根据所述目标声源点，确定与所述语音信号相关联的直达声能量；

响应模组，用于从所述多个电子设备中选择其直达声能量满足预定条件的至少一个电子设备，并且由所述至少一个电子设备对所述语音信号进行响应。

根据本公开实施例的第三方面，提供一种语音信号响应语音信号的方法，包括：

由电子设备接收语音信号；

由所述电子设备确定与所述语音信号相关联的目标声源点；

由所述电子设备根据所述目标声源点，确定与所述语音信号相关联的直达声能量；

当所述电子设备的直达声能量满足预定条件时，由所述电子设备对所述语音信号进行响应。

根据本公开实施例的第四方面，提供一种语音信号响应语音信号的电子设备，包括：

接收单元，用于接收语音信号；

第一确定单元，用于确定与所述语音信号相关联的目标声源点；

第二确定单元，用于根据所述目标声源点，确定与所述语音信号相关联的直达声能量；

响应单元，用于当所述直达声能量满足预定条件时，对所述语音信号进行响应。

声音采集装置阵列，用于接收语音信号；

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

电子设备确定与所述语音信号相关联的目标声源点；

根据所述目标声源点，确定与所述语音信号相关联的直达声能量；

当所述直达声能量满足预定条件时，电子设备对所述语音信号进行响应。

根据本公开实施例的第六方面，提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行一种响应语音信号的方法，所述方法包括：

由电子设备接收语音信号；

确定与所述语音信号相关联的目标声源点；

当所述直达声能量满足预定条件，由所述电子设备对所述语音信号进行响应。

根据本公开实施例的第七方面，提供一种响应语音信号的系统，系统包括多个电子设备，当所述多个电子设备同时接收语音信号时，所述系统执行上述响应语音信号的方法。

根据本公开实施例的第八方面，提供一种响应语音信号的系统，所述系统包括多个上述响应语音信号的电子设备。

本公开的实施例提供的技术方案可以包括以下有益效果：通过对多个电子设备实时采集的语音信号进行处理，确定各电子设备对于该语音信号的直达声能量，从而能够根据直达声能量进行精准、有效的拾音决策，以从多个电子设备中选出满足预定条件的至少一个电子设备，由此，实现了一种基于多个电子设备的拾音决策系统，其能够更准确、更合理、更有针对性地响应用户的语音，从而提高语音交互体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种响应语音信号方法的流程图。

图2是根据一示例性实施例示出的一种响应语音信号的系统框图。

图3是根据一示例性实施例示出的一种响应语音信号方法的流程图。

图4是根据一示例性实施例示出的一种响应语音信号的电子设备框图。

图5是根据一示例性实施例示出的一种响应语音信号的电子设备框图。

图6是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种响应语音信号方法的流程图，如图1所示，响应语音信号方法应用于多个电子设备，包括以下步骤。

步骤S11，由多个电子设备接收语音信号；

步骤S12，对于每个电子设备，确定与语音信号相关联的目标声源点；

步骤S13，对于每个电子设备，根据目标声源点，确定与语音信号相关联的直达声能量；

步骤S14，从多个电子设备中选择其直达声能量满足预定条件的至少一个电子设备，并且由至少一个电子设备对所述语音信号进行响应。

在本公开实施例中，电子设备可以是具有语音交互功能的智能设备，例如智能家电、智能家居产品、智能可穿戴设备、智能终端等。示例性地，智能家电可以例如包括智能洗衣机、智能扫地机器人、智能空调、智能电视、智能电扇等；智能家居产品可以例如包括智能音箱、智能闹钟、智能台灯等；智能可穿戴设备可以例如包括智能手表、智能可穿戴眼镜、智能手环等；智能终端可以例如包括智能手机、智能平板电脑等。此外，电子设备可以包括声音采集装置阵列，该声音采集装置阵列是一组位于空间不同位置的多个(即，多于一个)声音采集装置按一定的形状规则布置形成的阵列，是对空间传播的语音信号进行空间采样的一种装置，采集到的语音信号包含了其空间位置信息。根据声音采集装置阵列的拓扑结构，该阵列可以是一维阵、二维平面阵、也可以是球状等三维阵。示例性地，电子设备中所包含的声音采集装置阵列中的多个声音采集装置可以例如呈现线性排列、圆形排列等。

在本公开实施例中，语音信号为用户发出的语音指令或者唤醒词，唤醒词是用于唤起电子设备来应答用户请求的特定词语或短语。

在本公开实施例中，根据预定条件从多个电子设备中选择至少一个电子设备，该预定条件可以例如是直达声能量超过一特定阈值，或者多个直达声能量中的最大者，又或者可以是满足用户需求的其它条件。在一个示例中，多个电子设备可以同时接收语音指令，根据接收的语音指令的直达声能量，选择一个或多个电子设备响应该语音指令。例如，用户的语音指令为将室温调整到25度，用户家中的不同房间的智能空调，或者智能风扇同时接收到用户的语音指令，并计算各自所接收的直达声能量，判断接收的直达声能量是否大于预设的阈值，如果大于阈值则响应用户指令，如果用户的声音比较大，全部电子设备接收的直达声能量都超过预定阈值，则打开全部房间的智能空调及智能风扇，如果声音比较小，则仅打开用户所在房间的空调或者距离用户最近的空调。由此，可以根据用户需求，更准确、更合理地选择一部分电子设备来响应语音命令。

在另一示例中，当同一空间中存在多个电子设备时，可能有多个电子设备设置了相同的唤醒词，当用户说出该唤醒词时，为了不引起一呼百应的现象，在电子设备对用户的语音信号做出响应之前，各个电子设备各自计算自己所接收到的语音信号的直达声能量，然后再将自己接收到的语音信号的直达声能量与其他电子设备接收到的直达声能量进行比较，进而在多个电子设备中确定出接收的直达声能量最大的一个电子设备，来响应语音信号。由此，可以解决具有相同唤醒词的多个电子设备在语音交互过程中“一呼百应”的问题。

在一实施例中，在步骤S12中，确定与语音信号相关联的目标声源点包括：

应当注意的是，候选声源点和目标声源点都是空间中的虚拟点，它并非实际存在，而是作为语音信号处理中的辅助点。目标声源点实际上表示最接近真实声源的方位，即可以理解为目标声源方位。另外，多个候选声源点的位置可以人为确定。例如，在一种可能的实现中，多个候选声源点的位置可以随机在相对于声音采集装置阵列的不同空间方位上确定；在另一可能的实现中，多个候选声源点可以以声音采集装置阵列为中心呈一维阵列式排布、或者呈二维平面式排布、或者呈三维空间式排布等。

在一实施例中，候选声源点的具体选择方法为以声音采集装置阵列的阵列中心为中心建立单位球面，例如半径为1米的球面，在球面上取s个点(s为大于2的整数)，并分别计算以每一个点为候选声源点时，声音采集装置阵列所采集的语音信号的总相关性；候选声源点取的点数越多，而且在球面上的分布越均匀，最后确定的目标声源点的方向就会越准确。同时，取的点数越多，计算量也会越大，耗时也会越长，为了不影响用户体验，所取点数应在准确性和耗时之间综合考虑。示例性地，在均匀离散采样的情况下可以取例如642个点。

在一实施例中，确定s个点中任一点作为候选声源点时，声音采集装置阵列所采集的语音信号的总相关性包括：

对于每个候选声源点，确定声音采集装置阵列中的每两个声音采集装置在该候选声源点处对于语音信号的相关性；

对声音采集装置阵列中所确定的多个相关性求和，作为该候选声源点的总相关性。

这里的总相关性是一个向量，具有空间特性。候选声源点和真正声源点越接近，这个总相关性值越大，因此总相关性最大的一个候选点可以被看成目标声源点，即最接近于真实声源的方位。在一个示例中，这里的总相关性可以是SRP(Steered Response Power，可控响应功率)。

在一实施例中，确定声音采集装置阵列中的每两个声音采集装置在任一候选声源点处对于语音信号的相关性包括：根据每两个声音采集装置的位置以及该候选声源点的位置，确定每两个声音采集装置相对于该候选声源点的时延差；根据时延差以及语音信号的频域表示，确定每两个声音采集装置在该候选声源点处对于所述语音信号的相关性。

通常，电子设备的拾音功能由分布式的声音采集装置阵列实现。在一实施例中，在确定每一个电子设备的目标声源点时，首先以该电子设备所包含的声音采集装置阵列的几何中心为原点建立坐标系。由此，可以确定声音采集装置阵列中的多个声音采集装置的坐标，并且确定根据上面步骤所选择的多个候选声源点的坐标。

例如，共有N个电子设备(N为大于等于2的整数)接收到用户发出的语音信号，其中第r(r为整数，且1≤r≤N)个电子设备的声音采集装置阵列由M个声音采集装置组成(M为大于等于2的整数)。应当注意的是，每个电子设备所包含的声音采集装置的个数可能不同，即对于不同电子设备，M的取值可能不同。

以下各种计算示例和公式以一个电子设备为例进行介绍，其余各个电子设备的实施例与此类似，因此不再赘述。

以第r个电子设备为例，针对该电子设备建立声音采集装置阵列的坐标系之后，其第m个声音采集装置的坐标为其中，m为整数，且1≤m≤M。此外，该电子设备的任一候选声源点S的坐标为满足

在一示例中，在确定第r个电子设备的声音采集装置阵列中的每两个声音采集装置相对于任一候选声源点的时延差之前，先计算每两个声音采集装置与该候选声源点的距离差。假设，每两个声音采集装置分别为第i个声音采集装置和第k个声音采集装置(i，k为整数，且1≤i，k≤M)，则第i、k个声音采集装置相对于候选声源点S的距离差为:

其中，分别为声源点S在x轴，y轴，z轴3个方向的坐标，r为电子设备的标记，为第i个声音采集装置的坐标，为第k个声音采集装置的坐标，通过上式计算得到第i个声音采集装置和第k个声音采集装置相对候选声源点S的距离差。

基于上述距离差，可以确定第i、k个声音采集装置相对于候选声源点S的时延差：

其中，f_s为系统采样率，v为声速。

然后，根据第i个声音采集装置和第k个声音采集装置的时延差确定相关性，具体公式如下：

其中，为第i个声音采集装置所采集的当前帧时域信号经过时频转换之后得到的频域信号，为第k个声音采集装置所采集的当前帧时域信号经过时频转换之后得到的频域信号的共轭。在一个示例中，时频转换可以是短时傅里叶变换STFT。例如，在对时域的语音信号进行信号进行分帧加窗之后，对当前帧进行STFT变换。

即为当以S点作为候选声源点时声音采集装置i和声音采集装置k作为一个声音采集装置对所采集的语音信号的相关性。

对声音采集装置阵列中不同的声音采集装置对所采集的语音信号的相关性求和，作为该点作为候选声源点时的总相关性。当有M个声音采集装置时，就会有个声音采集装置对，这里是组合数。例如某智能音箱中有6个麦克风，那么就会组合出15个麦克风对。

对于电子设备r，将所有声音采集装置对所采集的语音信号的相关性加在一起，可以确定该S点作为候选声源点时所有声音采集装置的总相关性：

同样，当以不同的点作为候选声源点时，也会得到对应的所有声音采集装置的总相关性。在所有s个点作为候选声源点并求出s个所有声音采集装置的总相关性中，确定出总相关性最大的点：

总相关性最大的候选声源点就是要确定的目标声源点，以表示目标声源点，坐标为

然后，在确定第r个电子设备的目标声源点之后，可以根据该目标声源点确定该电子设备的直达声能量。

在一个实施例中，根据目标声源点确定该电子设备的直达声能量可以包括：基于目标声源点，确定直达声系数和混响系数；基于直达声系数确定直达声模型，并且基于混响系数确定混响模型；基于直达声模型和混响模型，建立空间协方差矩阵；基于空间协方差矩阵，确定直达声能量。

在一示例中，根据前面确定的目标声源点的坐标可以确定每两个声音采集装置(第j个和第k个声音采集装置)相对于目标声源点的直达声系数：

其中，·代表两个向量的点积，j为虚数单位，v为声速，ω为当前帧的频域信号的频率，并且rⁱ和r^k分别为第i个声音采集装置和第k个声音采集装置的坐标，具体地，且因而(rⁱ-r^k)为表示第i个声音采集装置到第k个声音采集装置的距离向量。

接下来，利用辛格函数计算每两个声音采集装置接收的语音信号的混响系数：

其中，

然后，基于直达声系数确定直达声模型，并且基于混响系数确定混响模型。在一示例中，直达声模型和混响模型分别为：

其中，和分别表示电子设备r所接收的语音信号的当前帧的直达声功率谱和混响功率谱。

接下来，可以基于上述直达声模型和上述混响模型，建立空间协方差矩阵，然后基于空间协方差矩阵，确定直达声能量。

具体地，在一实施例中，可以通过以下步骤来确定直达声能量：将直达声模型和混响模型的总和确定为空间协方差矩阵；基于空间协方差矩阵和所述语音信号的频域表示，确定直达声功率谱；基于直达声功率谱，确定所述直达声能量。

一方面，在确定好直达声模型和混响模型之后，可以根据以下公式建立空间协方差矩阵：

另一方面_，可以基于电子设备r所接收的语音信号的当前帧的频域表示X^r(ω)_，来获取空间协方差矩阵的另一种表示形式C^r(ω)＝X^r(ω)*X^r(ω)^H _，其中_，电子设备r包括M个声音采集装置_，因此并且X^r(ω)^H为X^r(ω)的共轭转置_。

因此，空间协方差矩阵既可以用直达声模型和混响模型表示，也可以用当前帧的频域信号表示，由此可以得到以下公式：

整理后可以得到下式：

利用最小二乘算法，解上式得到：

其中F^r+(ω)是F^r(ω)的Moore-Penrose伪逆。

在向量中，第一个元素即为直达声功率谱其代表直达声在每个频点上的功率，第二个元素即为混响功率谱代表混响声在每个频点上的功率。

最后，将所有频点上的直达声功率加起来，即为所述语音信号的直达声能量，即：

应当注意的是，上面针对一个电子设备r详细描述了获得直达声能量的例子，其它任一电子设备的直达声能量的计算过程与此相似，因此不再赘述。换言之，通过上述步骤，可以分别获得与多个电子设备一一对应的多个直达声能量。

在一实施例中，从所确定的多个直达声能量中，选择满足预定条件的至少一个直达声能量包括：选择多个电子设备中直达声能量最大的直达声能量，或者选择超过预定阈值的直达声能量。

在本公开实施例中，可以将多个电子设备视为一个分布式拾音决策系统，通过本文的响应方法，可以从分布式拾音决策系统中决策出至少一个电子设备，以对用户的语音命令进行响应。在一示例中，选择多个电子设备中直达声能量最大的电子设备，可以由多个电子设备中的指定的一个电子设备来完成，其他电子设备将自己接收的、与语音信号相关的直达声能量发送给上述指定的电子设备，由该电子设备从自己接收的直达声能量和接收的其他电子设备的直达声能量中，选择出最大的直达声能量，并指示最大的直达声能量对应的电子设备进行响应。在另一示例中，也可以通过多个电子设备中的任意两个电子设备相互比较，由直达声能量较大的电子设备再和其他电子设备两两比较，直到确定出最大的直达声能量。

在本公开实施例的响应语音信号的方法中，通过对多个电子设备实时采集的语音信号进行处理，确定各电子设备对于该语音信号的直达声能量，从而能够根据直达声能量进行精准、有效的拾音决策，以从多个电子设备中选出满足预定条件的至少一个电子设备，由此，实现了一种基于多个电子设备的拾音决策系统，其能够更准确、更合理、更有针对性地响应用户的语音，从而提高语音交互体验。

图2是根据一示例性实施例示出的一种响应语音信号的系统200的框图，如图2所示，系统200包括：

接收模组201，用于由多个电子设备接收语音信号。

第一确定模组202，用于对于每个电子设备，确定与语音信号相关联的目标声源点。

第二确定模组203，用于对于每个电子设备，根据目标声源点，确定与语音信号相关联的直达声能量。

响应模组204，用于从所述多个电子设备中选择其直达声能量满足预定条件的至少一个电子设备，并且由所述至少一个电子设备对所述语音信号进行响应。

所述响应语音信号的系统200的各个模组的具体配置和操作已经在上面参照图1所述的响应语音信号的方法中详细描述，在此不再重复。

图3是根据一示例性实施例示出的一种响应语音信号方法的流程图，所述响应语音信号方法可以由任一电子设备执行。如图3所示，响应语音信号方法包括以下步骤。

步骤S31，由电子设备接收语音信号。

步骤S32，确定与语音信号相关联的目标声源点。

步骤S33，并根据目标声源点，确定与语音信号相关联的直达声能量。

步骤S34，当直达声能量满足预定条件，有该电子设备对语音信号进行响应。

在此，由单个电子设备执行的响应语音信号方法与上面参考图1描述的多个电子设备的响应语音信号方法的对应步骤中的相关配置和操作类似，在此不再重复。

图4是根据一示例性实施例示出的一种响应语音信号的电子设备400的框图。参考图4，该电子设备400包括：接收单元401，第一确定单元402，第二确定单元403和响应单元404。

该接收单元401被配置为用于接收语音信号。

该第一确定单元402被配置为用于确定与语音信号相关联的目标声源点。

该第二确定单元403被配置为用于根据目标声源点，确定与语音信号相关联的直达声能量。

该响应单元404被配置为用于当直达声能量满足预定条件，对语音信号进行响应。

图5是根据一示例性实施例示出的一种响应语音信号的电子设备500的框图。参考图5，该电子设备500包括：声音采集装置阵列501，处理器502，存储器503。

该声音采集装置阵列501被配置为用于接收语音信号。

该存储器503被配置为用于存储处理器502的可执行指令。

该处理器502被配置为执行图3所示的一种响应语音信号的方法。

图6是根据一示例性实施例示出的一种电子设备600的框图。例如，电子设备600可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图6，电子设备600可以包括以下一个或多个组件：处理组件602，存储器604，电力组件606，多媒体组件608，音频组件610，输入/输出(I/O)的接口612，传感器组件614，以及通信组件616。

处理组件602通常控制电子设备600的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件602可以包括一个或多个处理器620来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件602可以包括一个或多个模块，便于处理组件602和其他组件之间的交互。例如，处理组件602可以包括多媒体模块，以方便多媒体组件608和处理组件602之间的交互。

存储器604被配置为存储各种类型的数据以支持在电子设备600的操作。这些数据的示例包括用于在电子设备600上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器604可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件606为电子设备600的各种组件提供电力。电力组件606可以包括电源管理系统，一个或多个电源，及其他与为装置600生成、管理和分配电力相关联的组件。

多媒体组件608包括在所述电子设备600和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件608包括一个前置摄像头和/或后置摄像头。当设备600处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件610被配置为输出和/或输入音频信号。例如，音频组件610包括一个麦克风(MIC)，当电子设备600处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器604或经由通信组件616发送。在一些实施例中，音频组件610还包括一个扬声器，用于输出音频信号。

I/O接口612为处理组件602和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件614包括一个或多个传感器，用于为电子设备600提供各个方面的状态评估。例如，传感器组件614可以检测到设备600的打开/关闭状态，组件的相对定位，例如所述组件为电子设备600的显示器和小键盘，传感器组件614还可以检测电子设备600或电子设备600一个组件的位置改变，用户与电子设备600接触的存在或不存在，电子设备600方位或加速/减速和电子设备600的温度变化。传感器组件614可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件614还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件614还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件616被配置为便于电子设备600和其他设备之间有线或无线方式的通信。电子设备600可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件616经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件616还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备600可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器604，上述指令可由电子设备600的处理器620执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本公开实施例还提供了一种非临时性计算机可读存储介质，当存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行图3所示的一种响应语音信号的方法。

本公开实施例还提供了一种用于响应语音信号的拾音决策系统。该拾音决策系统可以执行参考图1描述的响应语音信号的方法。在一些实施例中，该拾音决策系统可以由多个如图4所示的电子设备组成。可替换地，该拾音决策系统可以由多个如图5所示的电子设备组成。

在本公开实施例的拾音决策系统中，通过对多个电子设备实时采集的语音信号进行处理，确定各电子设备对于该语音信号的直达声能量，从而能够根据直达声能量进行精准、有效的拾音决策，以从多个电子设备中选出满足预定条件的至少一个电子设备，由此，能够更准确、更合理、更有针对性地响应用户的语音，从而提高语音交互体验。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种响应语音信号的方法，应用于多个电子设备，其特征在于，包括：

由所述多个电子设备接收语音信号；

2.根据权利要求1所述的响应语音信号的方法，其特征在于，所述确定与所述语音信号相关联的目标声源点包括：

3.根据权利要求2所述的响应语音信号的方法，其特征在于，所述确定该电子设备的每个候选声源点相对于所述语音信号的总相关性包括：

4.根据权利要求3所述的响应语音信号的方法，其特征在于，所述对于每个候选声源点，确定所述声音采集装置阵列中的每两个声音采集装置在该候选声源点处对于所述语音信号的相关性包括：

5.根据权利要求1所述的响应语音信号的方法，其特征在于，所述根据所述目标声源点，确定与所述语音信号相关联的直达声能量包括：

基于所述目标声源点，确定直达声系数和混响系数；

基于所述直达声系数确定直达声模型，并且基于所述混响系数确定混响模型；

基于所述直达声模型和所述混响模型，建立空间协方差矩阵；

基于所述空间协方差矩阵，确定所述直达声能量。

6.根据权利要求5所述的响应语音信号的方法，其特征在于，所述基于空间协方差矩阵，确定直达声能量包括：

将所述直达声模型和所述混响模型的总和确定为所述空间协方差矩阵；

基于所述空间协方差矩阵和所述语音信号的频域表示，确定直达声功率谱；

基于所述直达声功率谱，确定所述直达声能量。

7.根据权利要求1所述的响应语音信号的方法，其特征在于，所述从所述多个电子设备中选择其直达声能量满足预定条件的至少一个电子设备包括：

从所述多个电子设备中选择其直达声能量最大的一个电子设备，或者选择其直达声能量超过预定阈值的至少一个电子设备。

8.一种响应语音信号的系统，其特征在于，包括：

接收模组，用于通过多个电子设备接收语音信号；

9.一种响应语音信号的方法，其特征在于，包括：

由电子设备接收语音信号；

由所述电子设备确定与所述语音信号相关联的目标声源点；

10.一种响应语音信号的电子设备，其特征在于，包括：

接收单元，用于接收语音信号；

11.一种响应语音信号的电子设备，其特征在于，包括：

声音采集装置阵列，用于接收语音信号；

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

电子设备确定与所述语音信号相关联的目标声源点；

12.一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行权利要求9所述的响应语音信号的方法。

13.一种响应语音信号的系统，其特征在于，所述系统包括多个电子设备，当所述多个电子设备同时接收语音信号时，所述系统执行如权利要求1-7所述的方法。

14.一种响应语音信号的系统，其特征在于，所述系统包括多个如权利要求10所述的电子设备，或者包括多个如权利要求11所述的电子设备。