CN112767931A

CN112767931A - 语音交互方法及装置

Info

Publication number: CN112767931A
Application number: CN202011458115.7A
Authority: CN
Inventors: 谢家晖; 刘永红
Original assignee: Midea Group Co Ltd; Guangdong Midea White Goods Technology Innovation Center Co Ltd
Current assignee: Midea Group Co Ltd; Guangdong Midea White Goods Technology Innovation Center Co Ltd
Priority date: 2020-12-10
Filing date: 2020-12-10
Publication date: 2021-05-07

Abstract

本申请公开了一种语音交互方法及装置。其中，该语音交互方法包括：响应于语音交互用户从第一空间进入第二空间，完成语音识别上下文继承，语音识别上下文继承是通过位于第一空间的第一语音设备所采集语音交互用户的第一语音所实现；与位于第二空间的第二语音设备交互，并且通过语音识别上下文继承对语音交互用户的第二语音进行识别和/或交互，第二语音由第二语音设备所采集。本申请语音交互方法能够保证跨空间的延续性语音识别和/或交互。

Description

语音交互方法及装置

技术领域

本申请涉及语音交互技术领域，特别是涉及一种语音交互方法及装置。

背景技术

随着语音识别技术的日趋成熟，语音设备的语音交互功能正在快速的加强和改进。目前，主要通过单设备远场语音识别方法解决用户在同一空间内的远场交互问题。单设备的远场语音识别要求用户和语音设备之间尽可能地没有遮挡，语音设备拾音能维持一定信噪比的情况下进行。但是，当用户从相邻空间A走到B，中间出现墙壁隔断的时候，直射传播路径被切断，导致设备拾音信噪比大幅降低，远场语音识别将无法正常工作。

发明内容

本申请提供一种语音交互方法及装置，以实现跨空间的延续性语音交互和/或识别。

为达到上述目的，本申请提供一种语音交互方法，该方法包括：

响应于语音交互用户从第一空间进入第二空间，完成语音识别上下文继承，语音识别上下文继承是通过位于第一空间的第一语音设备所采集语音交互用户的第一语音所实现；

与位于第二空间的第二语音设备交互，并且通过语音识别上下文继承对语音交互用户的第二语音进行识别和/或交互，第二语音由第二语音设备所采集。

其中，响应于语音交互用户从第一空间进入第二空间之前，包括：

通过第一语音设备获得语音交互用户的第一行为信息，通过第二语音设备获得语音交互用户的第二行为信息；

基于第一行为信息和第二行为信息确认语音交互用户是否从第一空间进入第二空间。

其中，基于第一行为信息和第二行为信息确认语音交互用户是否从第一空间进入第二空间，包括：

基于第一行为信息和第二行为信息确认语音交互用户是否发生跨空间行为；

响应于语音交互用户发生跨空间行为，获取第二语音；基于第二语音和第一语音确认两者对应的语音交互用户相同，则语音交互用户从第一空间进入第二空间；或，

响应于语音交互用户发生跨空间行为，获取第二语音对应的语音交互用户的身份；确认第二语音对应的语音交互用户和第一语音对应的语音交互用户相同，则语音交互用户从第一空间进入第二空间；或，

响应于语音交互用户发生跨空间行为，获取第二语音对应的语音交互用户的身份，则确认语音交互用户从第一空间进入第二空间。

其中，第一行为信息为语音交互用户离开第一空间的时间，第二行为信息为语音交互用户进入第二空间的时间；

基于第一行为信息和第二行为信息确认语音交互用户是否从第一空间进入第二空间，包括：

计算离开第一空间的时间和进入第二空间的时间的差值；

在差值满足预设条件时，语音交互用户发生跨空间行为。

其中，第一语音设备和第二语音设备安装有摄像装置，第一行为信息为包含语音交互用户的第一图像，第二行为信息为包含语音交互用户的第二图像；

基于第一行为信息和第二行为信息确认语音交互用户是否从第一空间进入第二空间，包括：从第一图像检测出语音交互用户；基于实时获取的第一图像和第二图像对语音交互用户进行跟踪，以确定语音交互用户是否从第一空间进入第二空间。

其中，基于第二语音和第一语音确认两者对应的语音交互用户相同，包括：

利用无关文本的声纹检测方法对第二语音进行检测以确定第二语音对应的语音交互用户的身份；

确认第二语音对应的语音交互用户和第一语音对应的语音交互用户是否相同。

其中，方法还包括：

响应于语音交互用户发生跨空间行为，向第二语音设备发出唤醒指令；和/或，

响应于语音交互用户从第一空间进入第二空间，向第一语音设备发送关闭指令，以使第一语音设备恢复到待唤醒状态。

其中，与位于第二空间的第二语音设备交互，并且通过语音识别上下文继承对语音交互用户的第二语音进行识别和/或交互，包括：

通过语音识别上下文继承对第二语音进行识别；基于第二语音的识别结果给识别结果相关的设备发送操作指令，以使识别结果相关的设备基于操作指令进行相应操作；或，

将语音识别上下文继承发送给第二语音设备，以使第二语音设备通过语音识别上下文继承对第二语音进行识别和/或交互。

为达到上述目的，本申请还提供一种语音交互方法，该方法包括：

响应于语音交互用户从第一空间进入第二空间，采集语音交互用户的第二语音；

与服务器交互，并且通过语音识别上下文继承对第二语音进行识别和/或交互，其中语音识别上下文继承是由服务器通过位于第一空间的第一语音设备所采集语音交互用户的第一语音所完成的。

将语音交互用户的第二行为信息发送给服务器，以使服务器基于第二行为信息确认语音交互用户是否从第一空间进入第二空间。

其中，将语音交互用户的第二行为信息发送给服务器，之后包括：

对第二语音进行检测以确定第二语音对应的语音交互用户的身份；

将第二语音对应的语音交互用户的身份发送给服务器，以使服务器确认第二语音对应的语音交互用户和第一语音对应的语音交互用户是否相同；或

从第一语音设备获取第一语音对应的语音交互用户的身份，确认第二语音对应的语音交互用户和第一语音对应的语音交互用户是否相同；若相同，将第二语音对应的语音交互用户的身份发送给服务器。

其中，方法还包括：

响应于第二语音对应的语音交互用户和第一语音对应的语音交互用户相同，向第一语音设备发送关闭指令，以使第一语音设备恢复到待唤醒状态。

其中，与服务器交互，并且通过语音识别上下文继承对第二语音进行识别和/或交互，包括：

从服务器获取语音识别上下文继承；通过语音识别上下文继承对第二语音进行识别和/或交互；或，

将第二语音发送给服务器；响应于操作指令，基于操作指令执行相应操作，其中，操作指令是服务器基于第二语音的识别结果下达的，识别结果是服务器通过语音识别上下文继承对第二语音进行识别得到的。

为达到上述目的，本申请提供一种电子设备，该电子设备包括处理器，处理器用于执行指令以实现上述方法。

为达到上述目的，本申请提供一种计算机可读存储介质，该计算机可读存储介质用于存储指令/程序数据，指令/程序数据能够被执行以实现上述方法。

在本实施方式中，响应于语音交互用户从第一空间进入第二空间，服务器获取第二语音设备采集的语音交互用户的第二语音，完成语音识别上下文继承，并通过语音识别上下文继承对第二语音进行识别，给第二语音的识别结果相关的设备下达指令，这样在语音交互用户从第一空间进入第二空间时，即可以通过第二语音设备采集语音交互用户的语音以保证采集到的语音的信噪比较高，保证语音交互用户的语音的识别效率，又可以通过语音交互用户与第一语音设备的交互内容对第二语音设备采集的第二语音进行识别，以保证跨空间的延续性语音识别和/或交互。

附图说明

图1是本申请语音交互方法一实施方式的流程示意图；

图2是本申请语音交互方法一实施方式中服务器的工作流程示意图；

图3是本申请语音交互方法一实施方式中第二语音设备的工作流程示意图；

图4是本申请语音交互方法另一实施方式的流程示意图；

图5是本申请语音交互方法另一实施方式中服务器的工作流程示意图；

图6是本申请语音交互方法另一实施方式中第二语音设备的工作流程示意图；

图7是本申请电子设备一实施方式的结构示意图；

图8是本申请计算机存储介质一实施方式的结构示意图。

具体实施方式

为使本领域的技术人员更好地理解本发明的技术方案，下面结合附图和具体实施方式对本申请所提供的一种语音交互方法及装置做进一步详细描述。

本申请语音交互方法应用于语音交互用户从第一空间进入第二空间，其中由于第一空间和第二空间之间存在距离较远或出现墙壁阻挡等情况，导致位于第一空间的第一语音设备拾取位于第二空间的语音交互用户的声音的信噪比大幅降低，从而第一语音设备无法正常与位于第二空间的语音交互用户进行交互的场景。

基于此，本申请的服务器会响应于语音交互用户从第一空间进入第二空间，完成语音识别上下文继承；以与位于第二空间的第二语音设备交互，并且通过第一语音设备与语音交互用户之间的语音识别上下文继承对第二语音进行识别，其中第二语音是由第二语音设备所采集的，这样语音交互用户能够实现跨空间的延续性语音交互。具体请参阅图1，图1是本申请语音交互方法第一实施方式的流程示意图。本实施方式语音交互方法包括以下步骤。需要注意的是，以下编号仅用于简化说明，并不旨在限制步骤的执行顺序，本实施方式的各步骤可以在不违背本申请技术思想的基础上，任意更换执行顺序。

S101：响应于语音交互用户从第一空间进入第二空间，第二语音设备采集语音交互用户的第二语音。

语音交互用户从第一空间进入第二空间，第二语音设备能够采集到语音交互用户的第二语音，从而第二语音设备可以将第二语音发送给服务器，以让服务器在完成语音识别上下文继承的情况下，通过第一语音设备与语音交互用户之间的语音识别上下文继承对第二语音进行识别，并基于识别结果对第二语音设备发送指令，以实现跨空间的延续性语音交互。

在一应用场景中，在语音交互用户进入第二空间时，第二语音设备已被唤醒，这样只要语音交互用户在一定时间内在第二空间说话，第二语音设备无需判断用户是否进行跨空间，就可以直接进行采集，以获得语音交互用户的第二语音。可以理解的是，在该场景中，第二语音的采集步骤，可以先于确认语音交互用户从第一空间进入第二空间的步骤执行，也可以与确认语音交互用户从第一空间进入第二空间的步骤同时执行，或者在确认语音交互用户从第一空间进入第二空间的步骤之后执行。

在另一应用场景中，在语音交互用户进入第二空间时，第二语音设备未被唤醒，此时第二语音设备可以先配合服务器确认语音交互用户从第一空间进入第二空间或者确认语音交互用户发生跨空间行为；然后响应于语音交互用户从第一空间进入第二空间或者确认语音交互用户发生跨空间行为，第二语音设备自动唤醒，这样第二语音设备就可采集到语音交互用户的第二语音。当然，在该应用场景中，第二语音设备也可在采集到第二语音设备说出的唤醒词的情况下进行唤醒操作，然后采集语音交互用户的第二语音。其中，上述的“第二语音设备自动唤醒”可以指，服务器确认语音交互用户从第一空间进入第二空间或者发生跨空间行为，服务器向第二语音设备发送唤醒指令，第二语音设备响应于唤醒指令执行唤醒操作。当然，“第二语音设备自动唤醒”还可以指，第二语音设备确认语音交互用户从第一空间进入第二空间或者发生跨空间行为，第二语音设备自发地执行唤醒操作。

可以理解的是，语音交互用户从第一空间进入第二空间时，第二语音设备或第二空间内的某些设备会配合服务器完成语音交互用户是否从第一空间进入第二空间的确认。如下所示，可以采用多种方式确认语音交互用户是否从第一空间进入第二空间。

在第一实现方式中，服务器可以具有计算信噪比的功能，第一语音设备采集到语音交互用户的第一语音并将其传输给服务器后，服务器实时或每隔一时间段可以基于第一语音计算出第一语音的信噪比；若第一语音信噪比低于第一阈值，则服务器可以先获取除第一语音设备以外的至少一个语音设备采集到的语音；然后利用声纹检测等方式确认至少一个语音设备采集到的语音是否具有语音交互用户的语音；接着确认至少一个语音设备采集到语音交互用户的语音的信噪比；可以将信噪比大于第二阈值的语音对应的语音设备作为第二语音设备，并确认语音交互用户从第一空间进入第二语音设备所处空间——第二空间。其中，第一阈值和第二阈值可以是预先设定的，第一阈值小于或等于第二阈值。

可以理解的是，第一实现方式中的计算信噪比的步骤可由采集到语音的语音设备自身执行，此时，第一语音设备计算出第一语音的信噪比且确认第一语音的信噪比低于第一阈值后，第一语音可直接向其他语音设备发出携带语音交互用户身份的通知，以让其他语音设备确认自身采集的语音是否包含语音交互用户的语音，并且采集的语音交互用户的语音的信噪比是否大于第二阈值；若存在一个语音设备采集的语音交互用户的语音的信噪比大于第二阈值时，则确定大于第二阈值的语音设备为第二语音设备，并确定语音交互用户从第一空间进入第二空间；另外，第二语音设备可以向服务器发送跨境指令，以向服务器告知语音交互用户从第一空间进入第二空间，以让服务器完成语音识别上下文继承，以实现跨空间的延续性语音交互。

在第二实现方式中，第一空间和第二空间内可安装有摄像装置，以分别采集第一空间和第二空间的影像，服务器可实时获取第一空间和第二空间的影像，首先服务器可采用图像检测技术对第一空间的影像进行检测以确认第一空间内与第一语音设备进行交互的语音交互用户，然后服务器利用目标跟踪算法对语音交互用户进行跟踪，以确定语音交互用户的实时位置，并且服务器可基于第二空间的影像确认语音交互用户从第一空间进入具有第二语音设备的第二空间。其中，第一空间的摄像装置可是第一语音设备的内置摄像装置或外置摄像装置，或，第二空间的摄像装置可是第二语音设备的内置摄像装置或外置摄像装置。

在第三实现方式中，服务器可通过语音交互用户身上的手环、手表、鞋等可穿戴式设备获取语音交互用户的位置信息，然后服务器可基于语音交互用户的位置信息确定语音交互用户从第一空间进入第二空间。

在第四实现方式中，第一语音设备和第二语音设备均可通过一些传感器获取到语音交互用户的第一行为信息和第二行为信息；第一语音设备和第二语音设备分别可将第一行为信息和第二行为信息发送给服务器，以让服务器基于所述第一行为信息和所述第二行为信息确认所述语音交互用户是否从所述第一空间进入所述第二空间。

具体地，服务器可以基于第一行为信息和所述第二行为信息确认语音交互用户是否发生跨空间行为；然后响应于语音交互用户发生跨空间行为，第二语音设备或服务器可以确定第一语音对应的语音交互用户和第二语音对应的语音交互用户是否相同；若相同则确认语音交互用户从所述第一空间进入所述第二空间；若不相同则语音交互用户未从所述第一空间进入所述第二空间。

其中，第一行为信息可为第一空间的移动者与第一语音设备之间的距离，第二行为信息可为语音交互用户与第二语音设备之间的距离。服务器可将第一行为信息大于第一阈值的时间作为第一空间的移动者离开第一空间的时间；将第二行为信息小于第二阈值的时间作为语音交互用户进入第二空间的时间；然后计算离开第一空间的时间和进入第二空间的差值；在差值满足预设条件时，确认语音交互用户发生跨空间行为。在本实施方式中，差值大于下限值时满足预设条件。其中，下限值可以是预先设定的，或者可以是从第一空间到第二空间的最短路径的长度与正常人最快步速的比值。另外，差值大于下限值且小于上限值时满足预设条件，以避免无意义地语音识别上下文继承。其中，上限值不受限制，例如可以是5min、6min。在其他实施方式中，第一行为信息可直接为第一空间的移动者离开第一空间的时间，第二行为信息可直接为语音交互用户进入第二空间的时间。或者，第一行为信息可直接为第一空间的移动者离开第一空间的状态信息，服务器收到第一行为信息时，可将收到第一行为信息的时间作为第一空间的移动者离开第一空间的时间；第二行为信息可直接为语音交互用户进入第二空间的状态信息，服务器收到第二行为信息时，可将收到第二行为信息的时间作为语音交互用户进入第二空间的时间。其中，第二语音设备的第二行为信息可以是响应于收集指令收集的，其中，收集指令可以是服务器或第一语音设备确认第一空间的移动者离开第一空间时下达给第二语音设备的。其中，第一语音设备和第二语音设备可安装有红外热释电、超声波测距传感器、TOF激光测距等类型的距离传感器，以便第一语音设备通过距离传感器确认第一行为信息，第二语音设备通过距离传感器确认第二行为信息。

此外本申请可通过多种方法确定第一语音对应的语音交互用户和第二语音对应的语音交互用户是否相同。

例如，第二语音设备对第二语音进行检测，以确定第二语音对应的语音交互用户的身份；并从第一语音设备获取第一语音对应的语音交互用户的身份；确认第二语音对应的语音交互用户和第一语音对应的语音交互用户是否相同。

又例如，第二语音设备对第二语音进行检测，以确定第二语音对应的语音交互用户的身份；第二语音设备将第二语音对应的语音交互用户的身份发送给服务器；服务器确认第二语音对应的语音交互用户和第一语音对应的语音交互用户是否相同。

另例如，第二语音设备将第二语音发送给服务器；服务器对第二语音进行检测，以确定第二语音对应的语音交互用户的身份；服务器确认第二语音对应的语音交互用户和第一语音对应的语音交互用户是否相同。可以理解的是，第一语音可以是确认语音交互用户从第一空间进入第二空间前第一语音设备采集的语音。其中，本申请可以对第二语音进行声纹检测，以确定第二语音对应的语音交互用户的身份。进一步地，本申请可以对第二语音进行无关文本的声纹检测，以准确地确认出第二语音对应的语音交互用户的身份。

可以理解的是，第一空间和第二空间可以同位于交互空间内，语音交互用户可能会在交互空间内的多个空间转换，且这多个空间的至少部分空间设有语音设备。交互空间的所有语音设备可与服务器连接。且交互空间的至少部分语音设备可位于同一个局域网中，可相互点对点传递信息。其中，交互空间可以是一套房、一栋楼或房屋中的一层。

另外，如果第二语音设备或服务器确认语音交互用户从第一空间进入第二空间，第二语音设备或服务器可向第一语音设备发送关闭指令，以使第一语音设备响应于关闭指令恢复到待唤醒状态，以避免第二语音设备在与语音交互用户正常语音交互的情况下第一语音设备还在唤醒状态，以节省能源，也避免第一语音设备对第二语音设备与语音交互用户之间的语音交互造成干扰。

S102：第二语音设备将第二语音发送给服务器。

第二语音设备采集到语音交互用户的第二语音后，可以将第二语音发送给服务器，以使服务器对其进行识别。

S103：服务器完成语音识别上下文继承。

确认语音交互用户从第一空间进入第二空间后，服务器可以完成语音识别上下文继承，其中，语音识别上下文继承是通过位于所述第一空间的第一语音设备所采集所述语音交互用户的第一语音所实现，以便配合第二语音设备通过语音识别上下文继承对语音交互用户的第二语音进行识别和/或交互。

在一实现方式中，第一语音设备自身对第一语音进行识别，并基于第一语音的识别结果与语音交互用户进行交互，这样服务器可以从第一语音设备获取语音交互用户与第一语音设备进行交互的语音识别上下文继承，以完成语音识别上下文继承。

在另一实现方式中，第一语音设备自身不对第一语音进行识别，第一语音设备是将第一语音发送给服务器，服务器对第一语音设备进行识别的，这样服务器自身就存储有语音交互用户与第一语音设备进行交互的语音识别上下文继承。从而服务器就可在确认语音交互用户从第一空间进入第二空间后，调取自身存储的语音交互用户与第一语音设备进行交互的语音识别上下文继承，以完成语音识别上下文继承。

S104：服务器通过语音识别上下文继承对第二语音进行识别，给第二语音的识别结果相关的设备发送操作指令。

完成语音识别上下文继承后，可以通过语音识别上下文继承对语音交互用户的第二语音进行识别。该第二语音的获取时间不受限制，例如，第二语音可以是在步骤S103之前由第二语音设备采集得到，也可以在步骤S103之后由第二语音设备采集得到。

可选地，服务器在完成语音识别上下文继承后，可以通过语音识别上下文继承对第二语音进行识别；然后基于第二语音的识别结果给识别结果相关地设备发送操作指令，以让相关的设备执行操作指令对应得操作。

可以理解的是，通过语音识别上下文继承对第二语音进行识别可以包括：对第二语音进行语音识别，获得第二语音的语音识别结果；并联系语音识别上下文继承，以确定第二语音的识别结果。例如，假设对第二语音进行识别得到的语音识别结果为“天气怎样”，且语音识别上下文继承包括“上海宝山今天交通拥堵不”，则联系语音识别上下文继承就可得到第二语音的识别结果为“上海宝山的天气怎样”。

其中，第二语音为“上海宝山的天气怎样”、“今天新上传的音乐有哪些”等交互内容时，识别结果相关的设备为第二语音设备，操作指令可以携带第二语音的回答内容，这样第二语音设备收到操作指令时，会播放回答内容。而第二语音为“将冰箱冷藏室的温度调到2℃”、“将空调的温度调到27℃”等对设备的控制指令时，识别结果相关的设备会响应于操作指令执行“开关”、“切换温度”等操作指令对应的操作，其中，识别结果相关的设备可以为第二语音设备，也可以是第二语音设备以外的设备。

例如，假设第二语音设备为第二空间内的空调，对第二语音进行识别得到的语音识别结果为“冷冻室的温度调到-10℃”，且语音识别上下文继承包括“将冰箱冷藏室的温度调到2℃”，则联系语音识别上下文继承就可得到第二语音的识别结果为“将冰箱冷冻室的温度调到-10℃，服务器就可向冰箱发送操作指令，以使冰箱将其冷冻室的温度调节到-10℃。

对于服务器，其实现语音交互方法的步骤请参阅图2，图2是本申请语音交互方法第一实施方式中服务器的工作流程示意图。

S201：响应于语音交互用户从第一空间进入第二空间，获取语音交互用户的第二语音。

其中，第二语音由位于第二空间的第二语音设备所采集。第二语音设备可以为智能家电等，例如冰箱或空调等。

S202：完成语音识别上下文继承。

语音识别上下文继承是通过位于第一空间的第一语音设备所采集语音交互用户的第一语音所实现。

其中，第一语音设备可以为智能家电等，例如冰箱或空调等。

S203：通过语音识别上下文继承对第二语音进行识别，给第二语音的识别结果相关的设备发送操作指令。

上述步骤与图1所示实施例中的相关步骤类似，具体不再赘述。响应于语音交互用户从第一空间进入第二空间，服务器获取语音交互用户的第二语音，完成语音识别上下文继承，并通过语音识别上下文继承对第二语音进行识别，给第二语音的识别结果相关的设备下达指令，这样在语音交互用户从第一空间进入第二空间时，即可以通过第二语音设备采集语音交互用户的语音以保证采集到的语音的信噪比较高，保证语音交互用户的语音的识别效率，又可以通过语音交互用户与第一语音设备的交互内容对第二语音设备采集的第二语音进行识别，以保证跨空间的延续性语音识别和/或交互。

对于第二语音设备，其实现语音交互方法的步骤请参阅图3，图3是本申请语音交互方法第一实施方式中第二语音设备的工作流程示意图。

S301：响应于语音交互用户从第一空间进入第二空间，采集所述语音交互用户的第二语音。

S302：将所述第二语音发送给所述服务器，以让服务器通过语音识别上下文继承对第二语音进行识别。

其中，语音识别上下文继承是服务器响应于语音交互用户从第一空间进入第二空间，并通过位于第一空间的第一语音设备所采集的语音交互用户的第一语音所完成的。

可以理解的是，在步骤S302之后，第二语音设备还可从服务器获取到操作指令，然后第二语音设备会基于操作指令执行操作指令对应地操作。其中，所述指令是服务器基于识别结果下达给所述第二语音设备的。

上述步骤与图1所示实施例中的相关步骤类似，具体不再赘述。响应于语音交互用户从第一空间进入第二空间，采集语音交互用户的第二语音，将第二语音发送给服务器，以让服务器通过语音识别上下文继承对第二语音进行识别，其中，语音识别上下文继承是服务器通过位于第一空间的第一语音设备所采集的语音交互用户的第一语音所完成的，这样在语音交互用户从第一空间进入第二空间时，即可以通过第二语音设备采集语音交互用户的语音以保证采集到的语音的信噪比较高，保证语音交互用户的语音的识别效率，又可以通过语音交互用户与第一语音设备的交互内容对第二语音设备采集的第二语音进行识别，以保证跨空间的延续性语音识别和/或交互。

具体请参阅图4，图4是本申请语音交互方法第二实施方式的流程示意图。

S401：响应于语音交互用户从第一空间进入第二空间，第二语音设备采集语音交互用户的第二语音。

具体方法可参见步骤S101，在此不做赘述。

S402：服务器完成语音识别上下文继承。

具体方法可参见步骤S103，在此不做赘述。

S403：服务器将语音识别上下文继承发送给第二语音设备。

通过步骤S402的方法完成语音识别上下文继承后，服务器可将语音识别上下文继承发送给第二语音设备，这样第二语音设备自身就可通过语音识别上下文继承对第二语音进行识别和/或交互。

S404：第二语音设备通过语音识别上下文继承对第二语音进行识别和/或交互。

第二语音设备获取到语音识别上下文继承后，可以通过语音识别上下文继承对语音交互用户的第二语音进行识别。

可选地，第二语音设备可以通过语音识别上下文继承对第二语音进行识别；然后基于识别结果与语音交互用户进行语音交互；若识别结果是对第二语音设备自身的操作指令时，第二语音设备执行识别结果相关的操作；或，识别结果是第二语音设备以外的设备的操作指令时，基于第二语音的识别结果给识别结果相关地设备发送操作指令，以让相关的设备执行操作指令对应的操作。

对于服务器，其实现语音交互方法的步骤请参阅图5，图5是本申请语音交互方法第二实施方式中服务器的工作流程示意图。

S501：响应于语音交互用户从第一空间进入第二空间，完成语音识别上下文继承。

S502：将语音识别上下文继承发送给第二语音设备。

服务器完成语音上下文继承后，可以将语音识别上下文继承发送给第二语音设备，以让第二语音设备通过语音识别上下文继承对第二语音进行识别和/或交互。

上述步骤与图4所示实施例中的相关步骤类似，具体不再赘述。响应于语音交互用户从第一空间进入第二空间，服务器完成语音识别上下文继承，并将语音识别上下文继承发送给第二语音设备，以让第二语音设备通过语音识别上下文继承对第二语音进行识别和/或交互，这样在语音交互用户从第一空间进入第二空间时，即可以通过第二语音设备采集语音交互用户的语音以保证采集到的语音的信噪比较高，保证语音交互用户的语音的识别效率，又可以通过语音交互用户与第一语音设备的交互内容对第二语音设备采集的第二语音进行识别，以保证跨空间的延续性语音识别和/或交互。

对于第二语音设备，其实现语音交互方法的步骤请参阅图6，图6是本申请语音交互方法第二实施方式中第二语音设备的工作流程示意图。

S601：响应于语音交互用户从第一空间进入第二空间，采集语音交互用户的第二语音。

S602：从服务器获取语音识别上下文继承，通过语音识别上下文继承对第二语音进行识别和/或交互。

上述步骤与图4所示实施例中的相关步骤类似，具体不再赘述。响应于语音交互用户从第一空间进入第二空间，第二语音设备采集语音交互用户的第二语音，从服务器获取语音识别上下文继承，然后通过语音识别上下文继承对第二语音进行识别和/或交互，其中，语音识别上下文继承是服务器通过位于第一空间的第一语音设备所采集的语音交互用户的第一语音所完成的，这样在语音交互用户从第一空间进入第二空间时，即可以通过第二语音设备采集语音交互用户的语音以保证采集到的语音的信噪比较高，保证语音交互用户的语音的识别效率，又可以通过语音交互用户与第一语音设备的交互内容对第二语音设备采集的第二语音进行识别，以保证跨空间的延续性语音识别和/或交互。

请参阅图7，图7是本申请电子设备一实施方式的结构示意图。本电子设备10包括处理器12，处理器12用于执行指令以实现上述语音交互方法。具体实施过程请参阅上述实施方式的描述，在此不再赘述。该电子设备10能够保证跨空间的延续性语音识别和/或交互。

处理器12还可以称为CPU(Central Processing Unit，中央处理单元)。处理器12可能是一种集成电路芯片，具有信号的处理能力。处理器12还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器12也可以是任何常规的处理器等。

语音设备10还可进一步包括存储器11，用于存储处理器12运行所需的指令和数据。

处理器12用于执行指令以实现上述本申请语音交互方法任一实施例及任意不冲突的组合所提供的方法。

请参阅图8，图8为本申请实施方式中计算机可读存储介质的结构示意图。本申请实施例的计算机可读存储介质20存储有指令/程序数据21，该指令/程序数据21被执行时实现本申请语音交互方法任一实施例以及任意不冲突的组合所提供的方法。其中，该指令/程序数据21可以形成程序文件以软件产品的形式存储在上述存储介质20中，以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质20包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等终端设备。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种语音交互方法，其特征在于，所述方法包括：

响应于语音交互用户从第一空间进入第二空间，完成语音识别上下文继承，所述语音识别上下文继承是通过位于所述第一空间的第一语音设备所采集所述语音交互用户的第一语音所实现；

与位于所述第二空间的第二语音设备交互，并且通过所述语音识别上下文继承对所述语音交互用户的第二语音进行识别和/或交互，所述第二语音由所述第二语音设备所采集。

2.根据权利要求1所述的语音交互方法，其特征在于，所述响应于语音交互用户从第一空间进入第二空间之前，包括：

通过所述第一语音设备获得所述语音交互用户的第一行为信息，通过所述第二语音设备获得所述语音交互用户的第二行为信息；

基于所述第一行为信息和所述第二行为信息确认所述语音交互用户是否从所述第一空间进入所述第二空间。

3.根据权利要求2所述的语音交互方法，其特征在于，所述基于所述第一行为信息和所述第二行为信息确认所述语音交互用户是否从所述第一空间进入所述第二空间，包括：

基于所述第一行为信息和所述第二行为信息确认所述语音交互用户是否发生跨空间行为；

响应于所述语音交互用户发生跨空间行为，获取所述第二语音；基于所述第二语音和所述第一语音确认两者对应的所述语音交互用户相同，则所述语音交互用户从所述第一空间进入所述第二空间；或，

响应于所述语音交互用户发生跨空间行为，获取所述第二语音对应的所述语音交互用户的身份；确认所述第二语音对应的所述语音交互用户和所述第一语音对应的所述语音交互用户相同，则所述语音交互用户从所述第一空间进入所述第二空间；或，

响应于所述语音交互用户发生跨空间行为，获取所述第二语音对应的所述语音交互用户的身份，则确认所述语音交互用户从所述第一空间进入所述第二空间。

4.根据权利要求2或3所述的语音交互方法，其特征在于，

所述第一行为信息为所述语音交互用户离开所述第一空间的时间，所述第二行为信息为所述语音交互用户进入所述第二空间的时间；

所述基于所述第一行为信息和所述第二行为信息确认所述语音交互用户是否从所述第一空间进入所述第二空间，包括：

计算离开所述第一空间的时间和进入所述第二空间的时间的差值；

在所述差值满足预设条件时，所述语音交互用户发生跨空间行为。

5.根据权利要求2所述的语音交互方法，其特征在于，所述第一语音设备和所述第二语音设备安装有摄像装置，所述第一行为信息为包含所述语音交互用户的第一图像，所述第二行为信息为包含所述语音交互用户的第二图像；

所述基于所述第一行为信息和所述第二行为信息确认所述语音交互用户是否从所述第一空间进入所述第二空间，包括：从所述第一图像检测出所述语音交互用户；基于实时获取的所述第一图像和所述第二图像对所述语音交互用户进行跟踪，以确定所述语音交互用户是否从第一空间进入所述第二空间。

6.根据权利要求3所述的语音交互方法，其特征在于，

所述基于所述第二语音和所述第一语音确认两者对应的所述语音交互用户相同，包括：

利用无关文本的声纹检测方法对所述第二语音进行检测以确定所述第二语音对应的所述语音交互用户的身份；

确认所述第二语音对应的所述语音交互用户和所述第一语音对应的所述语音交互用户是否相同。

7.根据权利要求3所述的语音交互方法，其特征在于，所述方法还包括：

响应于所述语音交互用户发生跨空间行为，向所述第二语音设备发出唤醒指令；和/或，

响应于所述语音交互用户从所述第一空间进入所述第二空间，向所述第一语音设备发送关闭指令，以使所述第一语音设备恢复到待唤醒状态。

8.根据权利要求1所述的语音交互方法，其特征在于，所述与位于所述第二空间的第二语音设备交互，并且通过所述语音识别上下文继承对所述语音交互用户的第二语音进行识别和/或交互，包括：

通过所述语音识别上下文继承对所述第二语音进行识别；基于所述第二语音的识别结果给所述识别结果相关的设备发送操作指令，以使所述识别结果相关的设备基于所述操作指令进行相应操作；或，

将所述语音识别上下文继承发送给所述第二语音设备，以使所述第二语音设备通过所述语音识别上下文继承对所述第二语音进行识别和/或交互。

9.一种语音交互方法，其特征在于，所述方法包括：

与服务器交互，并且通过语音识别上下文继承对所述第二语音进行识别和/或交互，其中所述语音识别上下文继承是由所述服务器通过位于所述第一空间的第一语音设备所采集所述语音交互用户的第一语音所完成的。

10.根据权利要求9所述的语音交互方法，其特征在于，所述响应于语音交互用户从第一空间进入第二空间之前，包括：

将所述语音交互用户的第二行为信息发送给所述服务器，以使所述服务器基于所述第二行为信息确认所述语音交互用户是否从所述第一空间进入所述第二空间。

11.根据权利要求10所述的语音交互方法，其特征在于，所述将所述语音交互用户的第二行为信息发送给所述服务器，之后包括：

对所述第二语音进行检测以确定所述第二语音对应的所述语音交互用户的身份；

将所述第二语音对应的所述语音交互用户的身份发送给所述服务器，以使所述服务器确认所述第二语音对应的所述语音交互用户和所述第一语音对应的所述语音交互用户是否相同；或

从所述第一语音设备获取所述第一语音对应的所述语音交互用户的身份，确认所述第二语音对应的所述语音交互用户和所述第一语音对应的所述语音交互用户是否相同；若相同，将所述第二语音对应的所述语音交互用户的身份发送给所述服务器。

12.根据权利要求10所述的语音交互方法，其特征在于，所述方法还包括：

响应于所述第二语音对应的所述语音交互用户和所述第一语音对应的所述语音交互用户相同，向所述第一语音设备发送关闭指令，以使所述第一语音设备恢复到待唤醒状态。

13.根据权利要求9所述的语音交互方法，其特征在于，所述与服务器交互，并且通过语音识别上下文继承对所述第二语音进行识别和/或交互，包括：

从所述服务器获取所述语音识别上下文继承；通过所述语音识别上下文继承对所述第二语音进行识别和/或交互；或，

将所述第二语音发送给所述服务器；响应于操作指令，基于所述操作指令执行相应操作，其中，所述操作指令是所述服务器基于所述第二语音的识别结果下达的，所述识别结果是所述服务器通过语音识别上下文继承对第二语音进行识别得到的。

14.一种电子设备，其特征在于，所述电子设备包括处理器；所述处理器用于执行指令以实现如权利要求1-13任一项所述的语音交互方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储指令/程序数据，所述指令/程序数据能够被执行以实现如权利要求1-13任一项所述的语音交互方法。