CN111246021B

CN111246021B - 用于实现对个人语音助理的远程访问的方法

Info

Publication number: CN111246021B
Application number: CN201911188893.6A
Authority: CN
Inventors: B.布维特
Original assignee: Ao Lanzhi
Current assignee: Ao Lanzhi
Priority date: 2018-11-28
Filing date: 2019-11-28
Publication date: 2024-04-12
Anticipated expiration: 2039-11-28
Also published as: CN111246021A; US20200168228A1; EP3661161A1; EP3661161B1; US11152004B2; FR3089084A1

Abstract

本发明涉及一种用于实现对语音助理的远程访问的方法，该语音助理适于经由电信网络与通信终端设立电话通信。该方法的值得注意之处在于，其包括以下步骤：与主叫方终端设立第一通信，经由设立的通信获得标识该语音助理的数据，向所标识的语音助理传送用于设立第二通信的设立消息，该消息包含适于激活该语音助理的远程操作模式的至少一个参数，并且连接所述第一和第二通信。

Description

用于实现对个人语音助理的远程访问的方法

技术领域

本发明涉及电信领域，并特别涉及用于实现对适于接收用户发音的语音命令的个人助理的远程访问的方法。

背景技术

语音助理是这样的软件应用，其适于接收以自然语言进行口头发音的命令，并适于通过语音合成来渲染作为回报的信息。已知这些助理采用由诸如平板电脑或智能手机之类的移动终端运行的软件包的形式。最近，这些助理也已开始采用包括麦克风和扬声器的连接对象的形式，这些对象适于解释用户发音的命令，例如关于执行因特网搜索或提出服务请求，以及通过语音合成渲染命令的结果。这种连接的“智能”对象受到公众的高度赞赏。

为此，语音助理通常借助因特网连接与远程服务器进行交互。当检测到由用户发音的特定关键词时，助理借助于麦克风触发音频流的记录，并经由因特网连接将记录的流传送到服务器。服务器实现语音识别算法，以便在所有有权使用助理的用户中标识发音该命令的用户，并以便解释所识别的命令。然后，服务器可以处理该命令，或者将所识别的命令传送到助理，使得可以在本地执行该命令。然后，助理经由扬声器渲染由语音合成算法合成的应答。

用户因此可以通过发音诸如“[关键词]播放滚石的歌曲”之类的短语来命令播放歌曲，或者通过简单地询问“[关键词]明天要下雨吗？”来检查天气预报。

某些助理还可以连接到家庭自动化系统，以便允许用户经由语音命令(例如“[关键词]，关闭百叶窗”或“[关键词]，将室温降低2度”)与其家庭进行交互。

语音助理甚至可以经由电信网络与其他终端或服务器设立电话通信。然后，语音助理表现得像“免提”电话终端，借助它可能通过发音诸如“[关键词]，呼叫鲍勃”、“[关键词]，挂断”或“[关键词]，接听电话”之类的命令来与其他终端设立通信。为了呼叫“鲍勃”，助理或与其关联的服务器然后根据其语音的音色标识用户，访问所标识的用户的通讯录，在通讯录中搜索“鲍勃”的号码，然后拨打对应的号码。

因此，这样的助理在用户与服务器上或数据库中托管的数据之间提供语音接口。

然而，已经观察到这些装置的使用仍然受到限制。尽管存在专用的移动应用，通过该应用可能实现对助理执行的某些功能的远程访问，但是其他功能只能通过语音命令访问。然后需要用户存在于装置附近，以便语音信号能够被麦克风捕获。

但是，有时希望能够远程命令这样的装置，同时保留对所有可用功能的访问。

因此，需要一种解决方案，该解决方案将允许如上所述的语音助理被远程且安全地访问。

发明内容

为此，提出了一种用于实现对语音助理的远程访问的方法，该语音助理适于经由电信网络与通信终端设立电话通信。

该方法的值得注意之处在于，其包括以下步骤：

-与主叫方终端设立第一通信，

-经由设立的通信获得标识语音助理的数据，

-向所标识的语音助理传送用于设立第二通信的设立消息，该消息包含适于激活该语音助理的远程操作模式的至少一个参数，

-连接所述第一和第二通信。

因此，服务器接收源自终端的电话呼叫，用户希望从该终端访问语音助理提供的服务。在凭借通信中传送的标识数据已经标识出语音助理之后，服务器与语音助理设立第二通信。允许设立第二通信的信令包含允许语音助理激活远程操作模式的特定参数。一旦已设立了第二通信，服务器就连接第一通信和第二通信，使得源自终端的音频流在设立的音频通道中被引导至助理，并使得源自助理的音频流在第一通信的音频通道中被定向到终端。服务器扮演主叫方终端和语音助理之间的中介角色。这样的布置使得可能向希望远程访问其语音助理的任何用户提供单个电话号码，控制对该助理的访问权限，并且在发送到该助理的用于远程访问的通信设立请求中插入特定参数。因此，可能实现从不适于将特定参数添加到呼叫信令的常规终端对语音助理的远程访问。

按照该方式，当用户不在助理的麦克风范围内时，用户可以向助理传送语音命令。

根据一个特定实施例，用于实现远程访问的方法使得其进一步包括从主叫方终端获得认证数据的步骤，所述向语音助理传送通信设立消息的步骤取决于验证所获得的认证元素的步骤。

因此，该方法允许更安全地进行对助理的访问。认证数据例如是由终端的用户传送的PIN码。如果服务器未验证所传递的PIN码，则不会与语音助理设立第二通信。根据一个特定实施例，标识数据是通过分析用户的语音的音色获得的声纹。从而改善了用户体验。

根据一个特定实施例，经由第一通信获得的标识语音助理的数据是主叫方终端的呼叫标识符。因此，用户不需要传递希望与之设立通信的语音助理的标识符。为此，服务器可以例如具有其可用的表，在该表中，语音助理的标识符或地址与电话号码相关联，从而允许标识在进行呼叫时要联系的语音助理。

根据一个特定实施例，该方法使得适于激活特定操作模式的数据是从以下参数中选择的参数：

-证实的主叫方号码，例如在SIP(RFC3261会话发起协议)PAI(P-断言-身份(P-Asserted-Identity))报头中递送，

-未经证实的主叫方号码，例如包含在SIP消息的“来自(FROM)”报头中，

-由CLIP(呼叫线路标识演示)服务递送的主叫方名称，通常在PAI和/或来自(FROM)报头中的SIP显示(SIP DISPLAY)字段中，

-关于主叫方终端位置的特定信息，通常是PANI(专用接入网信息)SIP字段，

-用户代理SIP报头的特定值，

-特定的SIP服务器标识符，

-特定于SIP协议的SDP(IETF RFC4566会话描述协议)协议的属性，允许协商媒体流，

-服务器的特定IP(因特网协议)源地址，

-URI(统一资源标识符)中的特定域名，

-特定的SIP报头，

-在采用与电路网络(例如与“通用通知标志”信息元素)的互连的情况下，对ISUP/BICC(ISDN信令用户部分/独立于承载者的呼叫控制)协议的扩展。

因此，呼叫信令中这种参数的存在允许语音助理检测该通信设立请求是由远程访问服务器主动发起的，而不是传统的电话呼叫，并且允许语音助理激活适于远程访问的资源管理模式。

根据一个特定实施例，用于实现远程访问的方法包括配置用于所述第一和第二通信的宽带编解码器的步骤。宽带音频编解码器允许在终端和语音助理之间设立高质量的音频通信，从而允许用户传送的命令的语音识别更加有效地工作。宽带编解码器还允许根据用户语音的音色更好地标识用户。这样的措施有助于进一步改善用户体验。

根据另一方面，本发明涉及一种用于实现对语音助理的远程访问的装置，该语音助理适于经由电信网络与通信终端设立电话通信，该装置使得其包括：

-第一通信模块，适于与主叫方终端设立第一通信，

-标识模块，适于经由设立的通信获得标识该语音助理的数据，并获得语音助理的地址，

-第二通信模块，适于向获得的地址传送用于设立第二通信的设立消息，该消息包含适于激活所标识的语音助理的远程操作模式的至少一个参数，以及

-连接模块，用于连接所述第一和第二通信，所述模块适于向该语音助理重传源自该终端的音频流，并且适于向该终端重传源自该语音助理的音频流。

在一个特定实施例中，这种装置还包括认证模块，适于获得和检验经由与主叫方终端设立的通信所传送的认证数据。

本发明还涉及一种服务器，包括诸如上述的用于实现远程访问的装置。

除了用于实现远程访问的方法之外，本发明还涉及一种用于处理对语音助理的远程访问的请求的方法，该语音助理适于经由电信网络与通信终端设立电话通信，该语音助理与用于分析用户发音的语音命令的语音识别装置相关联，并且与用于使得对所述语音命令的应答发声的语音合成装置相关联，该分析在检测到关键词之后由语音助理激活，该方法使得其包括以下步骤：

-接收用于设立语音通信的设立消息，该消息包含至少一个远程访问参数，

-激活特定操作模式，包括以下子步骤：

ο将电话通信的输入音频流重定向到关联的语音识别装置，代替麦克风所捕获的信号，

ο将关联的语音合成装置所生成的音频流重定向到该通信的输出音频通道，

-一旦已经激活了该特定操作模式，就传送通信接受消息。

因此，语音助理接收到包含特定参数的通信设置语音请求促使激活允许远程访问的特定操作模式。按照该方式，语音助理取决于输入通信是常规语音通信还是远程访问通信而表现不同。特定操作模式的激活包括至少一个步骤，在该步骤中，语音识别装置(无论是由助理本身还是由服务器实现)接收源自远程终端的音频数据，而不是麦克风捕获的音频信号。按照该方式，远程用户口头发音的语音命令经由设立的通信传送到语音助理，并由语音助理或与之关联的服务器处理，如同它们是麦克风本地捕获的说话(spoken)信号一样。同样，由语音助理或与之相关联的服务器合成、并且将由该助理的标称操作模式下的本地扬声器渲染的音频信号，经由设立的通信传送到远程终端。按照该方式，用户可以远程听到助理所处理的语音命令的结果。

根据一个特定实施例，用于处理对远程访问的请求的方法使得远程操作模式的激活还包括旨在成功的配置子步骤，使得在无需检测关键词的情况下激活捕获装置对通信的输入音频流的记录。换句话说，停用对用于标识用户发音的命令的关键词的先前检测，然后用户经由远程访问通信发音的任何单词然后由助理处理为命令。

传统地，当用户发音预定义的关键词时，语音助理记录命令。例如，在短语“[关键词]，明天的天气如何？”时，语音助理将询问天气服务，但是如果事先未检测到关键词，语音助理将忽略该命令。这种措施旨在防止语音助理将麦克风范围内的用户的对话解释为命令。因此改善了机密性。但是，在远程访问上下文中，由用户发音的单词打算专门用于语音助理，而通过关键词引入每个命令是多余的，语音通信可确保机密性。因此，该方法提出，经由允许用户不使用关键词的助理的特定配置，来简化助理与用户之间的交互。

根据一个特定实施例，用于处理对远程访问的请求的方法使得远程操作模式的激活还包括旨在成功的配置子步骤，使得激活对访问所述助理的至少一项服务的限制。

因此，该方法提出了使得对助理提供的某些服务(不希望远程访问的服务)的访问更加安全。因此提高了安全性。

根据一个特定实施例，所述远程操作模式的激活包括停用助理的麦克风和/或扬声器。

这样的措施允许保持在远程访问语音助理时进行的交换的机密性，不会使得命令的结果在助理的即时环境中发声。

根据另一方面，本发明涉及一种用于处理对语音助理的远程访问的请求的装置，该语音助理适于经由电信网络与通信终端设立电话通信，该语音助理与用于分析用户发音的语音命令的语音识别装置相关联，并且与用于使得对所述语音命令的应答发声的语音合成装置相关联，该分析在检测到关键词之后由语音助理激活，该装置包括：

-通信模块，适于接收用于设立语音通信的设立消息，该消息包含适于激活语音助理的远程操作模式的至少一个参数，

-激活模块，用于激活远程操作模式，包括音频路由模块，适于：

ο将电话通信的输入音频流重定向到语音识别装置，代替麦克风所捕获的信号，

ο将语音合成装置所生成的音频流重定向到该通信的输出音频通道，该通信模块还适于在激活特定操作模式时传送通信接受消息。

本发明还涉及一种语音助理，该语音助理包括如上所述的用于处理对远程访问的请求的装置。

在一个特定实施例中，通过计算机程序的指令来确定用于实现远程访问和用于处理对远程访问的请求的方法的各个步骤。

因此，本发明还涉及一种计算机程序，该计算机程序包含当处理器执行所述程序时、用于执行所述用于处理远程访问请求的方法的步骤的指令和/或用于执行所述用于实现远程访问的方法的步骤的指令。

这样的程序可以使用任何编程语言，并且采取源代码、目标代码、或源代码和目标代码之间的中间代码的形式，诸如部分编译的形式、或任何其他期望的形式。

最后，本发明涉及一种处理器可读数据介质，在该计算机可读数据介质上存储了包含用于执行分配方法的步骤的指令的计算机程序。

数据介质可以是能够存储程序的任何实体或装置。例如，介质可以包括存储部件，例如ROM，例如CD-ROM或微电子ROM电路，或者甚至是磁存储部件，例如软盘或硬盘或甚至闪存。此外，数据介质可以是诸如电或光信号之类的可传送介质，其可以经由电缆或光缆、通过无线电波或通过其他方式来输送。根据本发明的程序尤其可以通过诸如因特网的网络下载。

作为选择，数据介质可以是其中合并有程序的集成电路，该电路适于执行所讨论的方法或在所讨论的方法的执行中使用。

所述服务器、助理、装置、程序和数据介质至少具有与对应方法所赋予(conferred)的优点类似的优点。

可以将各个上述实施例和特征独立地或彼此组合地添加到它们所涉及的方法的步骤中。

附图说明

通过阅读以非限制性说明的方式给出的对一个特定实施例的以下描述、以及附图，本发明的其他特征和优点将变得更加明显，其中：

-图1图示了根据一个特定实施例的适于实现本发明的网络架构，

-图2示出了根据一个特定实施例的用于实现远程访问的方法的主要步骤，

-图3示出了根据一个特定实施例的用于处理对远程访问的请求的方法的主要步骤，

-图4a、4b和4c以简化方式图示了一个特定实施例中的用于处理对远程访问的请求的装置的架构，所述装置适于控制来自语音助理的音频流的路由，

-图5示出了根据一个特定实施例的为实现本发明而交换的消息的时序图，以及

-图6图示了根据一个特定实施例的适于实现所述用于实现远程访问的方法的装置的架构。

具体实施方式

图1示出了局域网101内的语音助理100。局域网101经由网关103与电信网络102互连。这样的网关例如是调制解调器-路由器类型的住宅网关。语音助理因此可以访问服务器104和105提供的服务。

传统上，诸如助理100之类的语音助理包括用于获取和渲染与扬声器和麦克风相关联的音频的装置、处理器、以及其中装载有包括打算由处理器执行的指令的软件包的存储器。助理100还包括至少一个通信接口，例如Wi-Fi或以太网网络接口或与蜂窝数据网络(例如3G或4G网络)的接口，这允许其经由通信网络发送和接收消息。

软件包被配置为分析由麦克风捕获的音频信号，以便在其中检测由助理附近的用户发音的关键词。此外，该关键词还允许助理根据用户的语音的音色的特性来标识发音该关键词的人(从多个预先配置的人中选择)，其目的是将该请求置于上下文中。

在检测到关键词之后，助理100记录由用户发音的命令，并将对应的数字化音频信号传送到服务器104。服务器104具有其可用的语音识别软件包，凭借该软件包，它解释请求。服务器104还例如根据所标识的用户和/或其中安装助理的位置而将请求置于上下文中。当用户简单地发音诸如“[关键词]明天的天气将如何？”之类的命令时，这种将请求置于上下文中例如允许助理100以当地天气来答复。

服务器104可以查阅各种数据库以获得对请求的应答。例如，服务器104将经解释和置于上下文中的请求传送到适于对其应答的伙伴服务器106。

服务器104然后将获得的应答返回给助理。该应答可以以通过语音合成所产生的音频信号的形式返回，或者实际上，助理100本身可以凭借其软件包来合成语音应答。

最后，助理凭借其渲染装置来渲染发声的应答。

助理100还包括电话模块，该电话模块允许与其他终端设立语音通信。例如，助理100可以经由电信网络102与电话终端107设立语音通信。

为此，助理可以包括根据DECT(数字增强型无绳电信)或CAT-iq(无绳高级技术的互联网和质量)标准的电话模块，所述模块适于向住宅网关103中包含的兼容基站进行注册。因此，从网关的角度来看，助理100被视为传统的DECT电话听筒(handset)。用户可以通过发音语音命令(例如“[关键词]，给我的女儿打电话”、“[关键词]，挂断电话”等)来控制电话功能。一旦已经设立了通信，就经由助理100的扬声器渲染远程用户的语音，并且通过助理的麦克风捕获本地用户的语音，并然后传送到对方。

语音助理100被配置为与其他终端设立电话通信，它与呼叫标识符相关联，例如电话号码、SIP URI、或允许其接收电话呼叫的任何其他地址。该呼叫号码可以在家庭设施的多个通信终端之间共享。

根据一个特定实施例，呼叫标识符不直接与语音助理100关联，而是与住宅网关103关联。网关103包括根据DECT(数字增强型无绳电信)或CAT-iq(无绳高级技术的互联网和质量)标准的电话基站，DECT终端可以向该基站注册。因此，从网关的角度来看，助理100被视为传统的DECT终端。其他兼容终端可以按照相同的方式与住宅网关相关联。在这种情况下，当网关103接收到呼叫设立消息时，网关103以传统方式向与基站相关联的所有终端传送呼叫设立信号CC-SETUP。

在另一个实施例中，助理包括SIP通信模块，该SIP通信模块适于向网络102提供的通信服务或向网关103中包括的SIP服务器进行直接注册。

图1还图示了适于实现根据本发明的用于实现远程访问的方法的服务器105。服务器105包括处理器、包含适于由处理器执行的计算机程序指令的存储器、以及经由所述指令控制的至少一个网络接口。

现在将参考图2至5来描述用于实现远程访问的方法。

图5示出了在终端107、远程访问服务器105、网关103和语音助理100之间交换的消息的时序图。当然，该示意图不是穷举的，并且其他消息可以在各个实体之间交换。电信网络可以进一步包括图5中未示出的其他中间实体。

在第一步骤200中，服务器105接收源自终端107的通信设立请求。例如，这是用于在终端107的主动下设立音频通信的SIP邀请(INVITE)消息500的问题。服务器然后以传统方式用SIP 200OK消息501应答，这然后用SIP ACK消息502确认。在这些消息交换之后，在终端107和远程访问服务器105之间设立双向RTP(实时传输协议)音频流503。当然，可以采用其他通信协议来设立服务器105与终端107之间的通信。

为此，服务器105具有适于与诸如终端107之类的终端交换消息的通信接口。例如，服务器105包括适于设立根据SIP或ISUP协议的通信或者甚至GSM、3G或4G通信的通信接口。服务器105还具有呼叫号码，例如能够由终端107拨号以设立通信的E.164标识符或SIPURI。

根据一个特定实施例，终端107经由“点击呼叫”类型的服务来访问该服务。在这种情况下，终端的用户107例如连接到网站，并经由为此目的提供的接口来输入终端107的电话号码，他希望通过该终端远程使用他的语音助理。然后，“点击呼叫”服务生成对终端107的号码的呼叫，以便设立通信。由于呼叫是在服务器的主动下进行的，因此不对终端107的用户计费。

根据另一特定实施例，终端107使用WebRTC(Web实时通信)技术(由IETF和W3C开发)来访问该远程访问服务，即通过http连接。

在步骤201中，在与终端107的通信设立之后，服务器105获得标识该语音助理100的数据。为此，服务器105采用交互式语音服务，所述交互式语音服务邀请终端107的用户指示他想要远程访问的语音助理的标识符。标识符例如通过DTMF或语音命令递送。这样的标识符例如是电话号码、电子邮件地址、客户帐号、或者甚至是助理的唯一标识符，例如序列号。

根据一个特定实施例，该标识符是终端107的呼叫号码。该标识符因此由服务器105直接从通信设立消息中获得。以这种方式，一旦接收到通信，服务器105就经由远程访问请求来标识所讨论的语音助理。为此，服务器10515分析通信设立消息，例如消息500，以便从中提取主叫方终端的号码。在根据SIP协议设立的通信的情况下，主叫方终端的标识符可以在SIP邀请消息500的“来自(FROM)”报头中找到，或者可以在同一消息的P-Asserted-Network-ID报头中找到。

在这种特定情况下，终端107的标识符预先与语音助理100相关联。该关联例如经由网络门户或专用应用来实现，并且存储在服务器105可访问的存储器中，例如数据库108中。按照该方式，终端107的用户不需要传送语音助理的标识符：标识语音助理的数据的获得是自动化的，并从而改善用户体验。

根据一个特定实施例，服务器105进一步获得认证数据，例如PIN(个人识别号码)码、声纹或密码。认证数据可以由终端107通过DTMF(双音多频)来传送。当验证数据为声纹时，服务器105可以将用户的标识委托给服务器104，然后服务器104可以具有其可用的为此目的而提供的功能。这样的措施通过防止不知道该认证数据的任何人进行访问来改善安全性。

在步骤202中，服务器105向语音助理100传送用于设立第二通信的设立消息，例如SIP INVITE消息504。该消息包含适于激活语音助理的远程操作模式的至少一个参数。

这样的特定参数可以是单个元素或以下元素中的元素的组合：

-SIP FROM报头。这是主叫方的未经正式的号码的问题，通信网络保证路由该主叫方，

-P-Asserted-ID(PAI)报头。这是主叫方的一个或多个已证实号码的问题，采用SIP URI格式或TEL URI格式，

-SIP FROM或PAI报头的SIP DISPLAY参数中存在的主叫方名称(CNIP)，

-特定的SDP(会话描述协议)属性，例如，经由SDP消息的属性“a＝”传送的值的添加，传统上用来指示媒体的方向(sendrecv，revvonly，sendonly，inactive)，例如，“a＝反向(reverse)”，

-SIP用户代理报头，

-SIP服务器报头，

-Request-URI和/或TO、FROM、PAI、联系地址、或适于用信令通知远程访问通信的任何其他字段的特定域名，

-SIP PANI报头，允许递送位置信息，

-与服务器105对应的源IP地址。

网关103接收消息504和参数。一旦接收到消息，网关就将呼入信令消息505传送到：

-要么仅助理100，

-或与网关相关联的所有通信终端，包括助理100。

第一种特殊情况要求网关能够在与之关联的其他通信终端之中标识语音助理100，例如，当与网关103关联的通信终端是能够在注册消息中标识自身并具有通信能力的SIP终端时，或者甚至当它们是根据与包括在网关103中的DECT基站相关联的DECT标准的终端时，这是可以想象的。

当网关103不能在所连接的终端之中标识能够处理该远程访问请求的语音助理时，将想到第二种特殊情况。

在步骤300中，助理100接收消息505，并在该消息中搜索上述远程访问参数的存在。网关可能已经使用与服务器105和网关103之间使用的通信协议不同的通信协议，而重传了消息505。例如，消息504可以由网关103使用DECT标准按照DECT消息505的形式中继到助理100。

当语音助理适于使用SIP协议设立通信时，消息505是SIP INVITE消息。消息505可以是消息504的简单重传，或者实际上网关可能会生成包含远程访问参数的新SIP INVITE消息。

当语音助理100适于以设立通信为目的向网关103的内部DECT基站注册时，消息505例如是CC-SETUP消息，网关将在消息504中接收到的远程访问参数插入CC-SETUP消息中。

根据一个特定实施例，当网关103接收的呼叫设立消息包含适于激活如上所述的语音助理的远程操作模式的至少一个参数时，网关仅向语音助理的DECT终端传送呼叫设立信号。以此方式，当这是远程访问请求的问题时，不请求与DECT基站相关联的其他DECT终端设立呼叫。每个DECT终端被分配特定的标识符，当它与网关103的DECT基站配对时，该标识符被存储在网关103的DECT基站中。因此，可能经由网关103的配置接口列出与网关103的内部DECT基站配对的一个或多个DECT终端，然后配置规则，该规则确保仅当主叫方号码是远程访问服务器105的号码时、才请求助理100的DECT终端设立呼入。这样的规则例如存储在网关103的存储器中存储的关联表中。当基站和终端例如是采用SIP标准的服务器和终端时，相同的原理是可应用的。

网关103的DECT基站可以被配置为收集输入的SIP消息的所有或一些参数，并且当可能时将它们插入DECT协议中。例如，可以将特定的已认证(PAI)或未认证(FROM)SIP主叫方号码添加到DECT CC-SETUP消息的字段“主叫方号码”中。网关103还可以将特定值赋予DECT协议的某些字段(例如，“号码类型”、“编号计划”、演示指示符”、“筛选指示符”、“主叫方地址”等)，以便语音助理100能够检测到该特定参数并配置远程访问操作模式。

消息505中包含的特定参数可以向语音助理指示其在步骤301中必须采用的特定操作模式，该特定操作模式包括用从主叫方接收的电话语音流来替代传统上由麦克风捕获的音频流，以便记录语音命令。以此方式，为了检测语音命令所分析的流不再是经由麦克风获得的流，而是电话通信中接收到的流。此外，响应于语音命令而获得的并且传统上打算由助理的扬声器渲染的音频流经由设立的电话通信被传送到主叫方。按照该方式，语音助理100传统上渲染的应答被传送到终端107并渲染到其用户。

可以以各种方式实现对输入和输出音频流的路由的这种修改。

图4a、4b和4c示意性地图示了根据各种特定实施例的适于控制来自语音助理100的音频流的路由的装置400的架构。这样的装置例如被集成到语音助理100中。

装置400包括通信模块401。这是例如Wi-Fi或以太网网络接口的问题，其允许助理与诸如与助理相关联的服务器104之类的其他装置交换数据。例如，模块401允许使用http协议将请求发送到服务器104，并接收对这些请求的应答。

装置400包括用于将音频流路由到各种接收方模块的可配置模块402和403。在图4a的配置中，模块402和403处于与标称助理操作模式对应的非活动状态，其中，由麦克风407和捕获模块408捕获的语音命令被路由到语音识别模块409和网络接口401，以便传送到服务器104，并且其中接口401所接收的应答由语音合成模块404和渲染系统405、406处理。流通过装置400的路径在图4a、4b和4c中用粗箭头表示。

模块402和403例如由DSP(数字信号处理器)或由通过实现其的编程指令配置的通用处理单元实现，使得将经由特定输入接收的音频流路由至特定输出。模块402和403还可以对应于继电器、晶体管或适于将经由输入接收的信号重定向到特定输出的任何其他组件，并且由由计算机程序指令所配置的处理单元来控制。模块402和403的配置由处理器取决于助理100的操作模式来控制，该操作模式由接收的消息505中是否存在远程访问参数来确定。

图4b示出了处于适于音频通信操作模式的配置中的路由装置400。在此操作模式下，助理100表现得类似于DECT电话终端。在该配置中，模块403被配置为使得由获取装置408和麦克风407捕获的流经由用于处理输出通信的装置411被定向到DECT通信模块412。模块411例如是适于将捕获的音频流压缩为与助理100所采用的通信标准兼容的格式的编码器。图4b所示的模块403的配置还允许将由DECT通信模块412所接收并由用于处理输入通信的模块410所解码的音频流定向到渲染模块405和扬声器406。

图4c图示了根据本发明的处于一种特定操作模式的路由装置400。在该配置中，模块402被配置为使得由语音合成模块404生成的音频流被定向到用于输出通信的音频处理模块411，并且使得经由呼入音频通信模块410接收的音频流被定向到语音识别模块409。通过这种方式，在与对方设立通信期间接收到的音频流被模块410解码，然后在经由通信接口401传送到服务器104之前传送到语音识别模块409。同样，服务器104的应答由通信接口401接收并由语音合成模块404发声，然后将由此处理产生的音频流传送到编码模块411，然后经由DECT通信模块412传送到对方。

在一个特定实施例中，装置400还包括用于当激活图4c的特定操作模式时停用扬声器的附加部件。按照该方式，终端107的用户发音的语音命令当语音助理100被远程访问时，不会被语音助理100本地渲染。机密性因此得以保留。同样，在一个特定实施例中，附加部件允许停用模块400的麦克风407。以此方式，当助理100被远程访问时，在助理100附近发音的单词不会冒着干扰终端107的用户发音的命令的风险。例如，用于停用扬声器和/或麦克风的这种部件是电磁继电器、晶体管、被配置为阻止对应音频输入或输出的DSP、或者允许断开合成模块404与扬声器406之间的电路和/或断开麦克风407与语音识别模块409之间的电路的任何其他部件。

在步骤302中，当消息505包含远程访问参数时，助理采用自动接受通信的特定操作模式。因此，语音助理100立即拾取该通信。以这种方式，当网关103从语音助理接收该通信接受消息时，它取消对其他可连接终端作出的呼叫设立请求。即使当网关不能在语音助理终端和常规电话终端之间进行区分时，这种措施也允许与语音助理设立远程访问通信。具体地，凭借消息505中包含的特定参数，语音助理100确定该通信是针对其的远程访问通信，并自动接受呼叫。

语音助理通过返回应答消息506接受呼叫，例如DECT CC-CONNECT消息或事实上SIP 200OK消息，这取决于语音助理所使用的技术。传统上，这种应答的传送是通过在呼叫设立之后检测到用户发音的合适语音命令来触发。然而，在本发明的上下文中，当设立消息包含远程访问参数时，该应答被自动发送，即，用户动作对于助理100接受呼叫是不必要的。

服务器105在步骤203中接收由语音助理100传送的呼叫接受消息507。当助理100和网关103之间采用的协议与网关103和服务器105之间使用的协议相同时，这可能是消息506的简单重传的问题，但是当助理使用与网关103和服务器105之间采用的协议不同的协议时，它可能是不同类型的消息。在接收到该消息时，服务器105可以例如通过向语音助理100或向网关103发送SIP ACK消息508，而确认该消息507。如果该终端是DECT终端，则网关103可以按照SIP ACK或CC-CONNECT-ACK消息509的形式将该消息重传到助理100。

在此阶段，在服务器105和语音助理100之间设立了双向音频连接510、511。

服务器105连接与终端107设立的通信和与助理100设立的通信。连接步骤203可以使用“背对背用户代理”(B2BUA)技术来实现。在这样的实施例中，服务器105包括两个SIP用户代理：第一个被分配与终端107的通信，另一个被分配与语音助理和/或网关103的通信。在这样的实施例中，影响一个通信的事件由服务器传递到另一通信。例如，当服务器105从终端107接收到“SIP BYE”消息时，服务器生成SIP BYE消息，并将其发送到语音助理。同样，服务器105经由连接504将音频流511、510双向中继到终端107。

图4a至图4c所示的装置包括语音合成和语音识别模块404和409。然而，在其他特定实施例中，语音合成和语音识别功能可以在服务器上实现，例如在服务器104上实现。在这种情况下，从终端107接收的音频流510以音频流512的形式被传送到服务器104。服务器104然后执行语音识别并执行由终端107的用户发音的命令。相反，服务器104使用语音合成模块发声对该请求的应答。服务器104以合成音频流513的形式传送对用户命令的应答。

根据一个特定实施例，当语音助理检测到通信设立消息505中特定参数的存在时，配置步骤301包括协商宽带编解码器，例如G.722或WB-AMR编解码器。为此，语音助理100和/或网关103分析在接收到的呼叫设立消息504或505中由终端107和/或服务器105声明的能力。这种能力例如在嵌入在SIP INVITE消息中SDP(会话描述协议)消息中声明。当终端107或服务器105在消息504或505中提出至少一个宽带编解码器时，语音助理100发送的呼叫接受消息506包含助理100支持并且与消息505中存在的提议(offer)兼容的一个或多个宽带编解码器。这样的措施使得可能保证终端107和助理之间的通信质量很好。因此，改善了由音色识别算法(其允许标识用户)和语音识别算法产生的结果。在该实施例中，当服务器105在步骤200中从终端107接收到通信设立请求时，应答消息501包括至少一个宽带编解码器提议。按照该方式，保证了终端107和助理之间的通信是高质量的，这允许音频处理算法运行良好。

本发明由此允许捕获语音命令并渲染应答的功能从助理100转移到终端107。用户由此远程访问助理所提议的所有服务。

图6示出了根据一个特定实施例的适于实现用于实现远程访问的方法的装置600的架构。

装置600包括存储空间601，例如存储器MEM，并且包括处理单元603，其例如配备有处理器PROC。处理单元可以由程序602控制，例如计算机程序PGR，其包含被配置为在由处理器PROC执行程序时、实现用于实现远程访问的方法的指令。程序PGR的指令特别地被配置为实现以下步骤：与主叫方终端设立第一通信；经由设立的通信获得标识语音助理的数据；向所标识的语音助理传送用于设立第二通信的设立消息，该消息包含适于激活该语音助理的远程操作模式的至少一个参数；以及连接所述第一和第二通信。

根据一个特定实施例，该程序PGR的指令进一步被配置为实现从主叫方终端获得认证数据的步骤，所述向语音助理传送通信设立消息的步骤取决于验证所获得的认证元素的步骤。

在一个特定实施例中，该程序PGR还被配置为实现配置用于所述第一和第二通信的宽带编解码器的步骤。

在初始化时，计算机程序602的指令例如在被处理单元603的处理器执行之前被加载到RAM(随机存取存储器)中。处理单元603的处理器根据计算机程序602的指令实施用于实现远程访问的方法的步骤。

为此，除了存储器601之外，该装置还包括第一通信模块604(COM1)，该第一通信模块604(COM1)允许该装置连接到电信网络，并经由该电信网络设立电话通信，特别是根据通信标准从电话终端接收语音通信。模块604例如是与适于从其他终端接收音频通信或向其他终端传送音频通信的SIP用户代理相关联的以太网、2G、3G或4G网络接口。

装置600还包括标识模块606，该标识模块606适于经由与模块604设立的通信来获得识别语音助理的数据，并且适于获取语音助理的地址。模块606例如是经由计算机程序指令来实现的，该计算机程序指令由处理器PROC执行，并且被配置为分析由通信模块604接收到的呼叫信令消息，以从中提取语音助理的标识符或允许标识特定语音助理的数据。模块606例如包括计算机程序指令，其允许从呼叫信令消息获得主叫方终端标识符，查询其中与呼叫号码相关联地存储语音助理的地址的数据库，并从获得的主叫方号码获得特定的语音助理的地址。

装置600包括第二通信模块605(COM2)，第二通信模块605(COM2)允许装置连接到电信网络，并经由该网络设立电话通信，特别是与语音助理设立双向音频通信。模块605例如是以太网、2G、3G或4G网络接口、或适于实现用于设立音频通信的协议的任何其他网络接口，诸如SIP协议。模块605可以由计算机程序指令控制，该计算机程序指令适于由处理器PROC执行，并且被配置为：从在经由通信模块604设立的第一通信中接收到的信令消息获得语音助理的地址，与获得其地址的语音助理设立第二通信，所述第二通信的设立包括发送包含适于激活语音助理的远程操作模式的至少一个参数的消息。

在一个特定实施例中，通信模块604和605可以采用单个通信模块的形式。

装置600最后包括连接模块607。连接模块607例如经由计算机程序指令来实现，该计算机程序指令适于由处理器(例如，处理器PROC)执行，并且被配置为经由接口604重传经由接口605接收的音频数据包，并且反之亦然。这些指令还被配置为将经由接口604接收的信令消息中继到接口605，并且反之亦然。

根据一个特定实施例，装置600还包括认证模块。该认证模块例如经由计算机程序指令来实现，该计算机程序指令适于由处理器执行，并且被配置为经由模块604从主叫方终端获得认证数据，例如PIN码，所述经由模块604与语音助理的通信的设立取决于验证所获得的认证元素的步骤。例如，这种验证步骤包括将获得的PIN码、和与期望被远程访问的语音助理的标识符关联存储在存储器中的代码进行比较。

根据一个特定实施例，用于实现远程访问的装置600被包括在服务器中，例如，IMS网络的AS(应用服务器)。

Claims

1.一种用于实现对语音助理的远程访问的方法，该语音助理适于经由电信网络与通信终端设立电话通信并且具有本地操作模式和远程操作模式，该方法的特征在于，其包括以下步骤：

-与主叫方终端设立(200)第一通信，

-经由设立的所述第一通信从所述主叫方终端获得(201)标识语音助理的数据，

-向所标识的语音助理传送(202)用于设立第二通信的设立消息，该消息包含适于激活该语音助理的所述远程操作模式的至少一个参数，其中，在所述远程操作模式中，所述语音助理：

用从所述主叫方终端接收的包含语音命令的语音流代替传统上由所标识的语音助理的麦克风所捕获的音频流，以及

向所述主叫方终端发送响应于所述语音命令所获得的音频流，

-连接(203)所述第一通信和所述第二通信，向所述语音助理传送源自所述主叫方终端并且包括所述语音命令的音频流，并且向所述主叫方终端传送源自所述语音助理并且响应于所述语音命令所获得的音频流。

2.根据权利要求1所述的方法，使得其进一步包括从主叫方终端获得认证数据的步骤，所述向所标识的语音助理传送用于设立第二通信的设立消息的步骤取决于验证所获得的认证数据的步骤。

3.根据权利要求1和2中的任一项所述的方法，其中所述标识语音助理的数据是所述主叫方终端的呼叫标识符。

4.根据权利要求1所述的方法，其中，适于激活特定操作模式的数据中的参数是选自以下参数的参数：

-特定的主叫方号码，

-特定的主叫方姓名，

-特定的地理定位信息，

-SIP消息的特定报头，

-特定的源IP地址。

5.根据权利要求1所述的方法，包括以下步骤：配置用于所述第一通信和第二通信的宽带编解码器。

6.一种用于实现对语音助理的远程访问的装置，该语音助理适于经由电信网络与通信终端设立电话通信并且具有本地操作模式和远程操作模式，该装置的特征在于，其包括：

-第一通信模块(604)，适于与主叫方终端设立第一通信，

-标识模块(606)，适于经由设立的所述第一通信从所述主叫方终端获得标识所述语音助理的数据，并获得所述语音助理的地址，

-第二通信模块(605)，适于向获得的地址传送用于设立第二通信的设立消息，该消息包含适于激活所标识的语音助理的所述远程操作模式的至少一个参数，其中，在所述远程操作模式中，所述语音助理：

以及

-连接模块(607)，用于连接所述第一通信和所述第二通信，所述模块适于向该语音助理传送源自该主叫方终端并包含所述语音命令的音频流，并且适于向该主叫方终端传送源自该语音助理并且响应于所述语音命令所获得的音频流。

7.一种服务器，包括根据权利要求6所述的用于实现远程访问的装置。

8.一种用于处理对语音助理的远程访问的请求的方法，该语音助理适于经由电信网络与通信终端设立电话通信，该语音助理与用于分析用户发音的语音命令的语音识别装置相关联，并且与用于使得对所述语音命令的应答发声的语音合成装置相关联，该分析在检测到关键词之后由语音助理激活，该方法的特征在于，其包括以下步骤：

-从控制装置接收(300)用于设立与所述控制装置的第二语音通信的设立消息，该消息包含适于激活所述语音助理的远程操作模式的至少一个远程访问参数，并且所述控制装置已经与主叫方终端建立了第一语音通信，

-响应于接收到所述设立消息，从本地操作模式切换到所述远程操作模式，以及

-传送(302)通信接受消息，

其中，在所述远程操作模式中，所述方法包括以下子步骤：

将所述电话通信的输入的第一音频流重定向到关联的语音识别装置，代替麦克风所捕获的信号，其中所述第一音频流通过所述第一语音通信和所述第二语音通信经由所述控制装置从所述主叫方终端接收，

将关联的语音合成装置所生成的第二音频流重定向到所述第二语音通信的输出音频通道。

9.根据权利要求8所述的方法，其中，切换到所述远程操作模式还包括旨在成功使得在无需检测关键词的情况下激活捕获装置对通信的输入音频流的记录的配置子步骤。

10.根据权利要求8和9中的任一项所述的方法，其中，切换到所述远程操作模式还包括旨在成功使得激活对访问所述语音助理的至少一项服务的限制的配置子步骤。

11.根据权利要求8和9中的任一项所述的方法，其中，切换到所述远程操作模式包括停用所述语音助理的麦克风和/或扬声器。

12.一种用于处理对语音助理的远程访问的请求的装置，该语音助理适于经由电信网络与通信终端设立电话通信，该语音助理与用于分析用户发音的语音命令的语音识别装置(409)相关联，并且与用于使得对所述语音命令的应答发声的语音合成装置(404)相关联，该分析在检测到关键词之后由语音助理激活，该装置的特征在于，其包括：

-通信模块(412)，适于从控制装置接收用于设立与所述控制装置的第二语音通信的设立消息，该消息包含适于激活语音助理的远程操作模式的至少一个参数，并且所述控制装置已经与主叫方终端建立了第一语音通信，

-激活模块(402、403)，用于响应于接收到所述设立消息，从本地操作模式切换到所述远程操作模式，通信模块(412)还适于当切换到所述远程操作模式时传送通信接受消息，

其中，所述激活模块(402、403)包括音频路由模块，适于：

将所述电话通信的输入的第一音频流重定向到语音识别装置(409)，代替麦克风(407、408)所捕获的信号，其中所述第一音频流通过所述第一语音通信和所述第二语音通信经由所述控制装置从所述主叫方终端接收，

将语音合成装置(404)所生成的第二音频流重定向到所述第二语音通信的输出音频通道。

13.一种语音助理，包括根据权利要求12所述的装置。

14.一种数据介质，其上存储有计算机程序，其中所述计算机程序包含当处理器执行该计算机程序时、用于实现根据权利要求1至5中的任一项所述的用于实现对语音助理的远程访问的方法的指令和/或用于实现根据权利要求8-11中的任一项所述的用于处理对语音助理的远程访问的请求的方法的指令。