CN105393302A

CN105393302A - 多级语音识别

Info

Publication number: CN105393302A
Application number: CN201480040360.2A
Authority: CN
Inventors: A.杰加西桑; J-H.李; J-H.安恩
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2013-07-17
Filing date: 2014-07-17
Publication date: 2016-03-09
Anticipated expiration: 2034-07-17
Also published as: US20150025890A1; US9305554B2; CN105393302B; EP3022733A1; WO2015009086A1; KR101786533B1; KR20160028468A; EP3022733A4

Abstract

提供了一种用于识别话语的方法和装置。该方法包括将与第一装置相关联的语境数据发送到第二装置。从第二装置接收第一语音识别模型。第一语音识别模型是存在于第二装置处的第二语音识别模型的子集。第一语音识别模型是基于语境数据的。确定是否能够在第一装置处基于第一语音识别模型识别话语。如果不能在第一装置处识别该话语，则将该话语的至少一部分发送到第二装置。如果能够在第一装置处识别该话语，则执行与被识别的话语相关联的动作。

Description

多级语音识别

技术领域

一个或多个实施例大体上涉及语音识别，更具体而言，涉及基于标准的在多个处理级之间进行的分级语音识别处理。

背景技术

自动语音识别(ASR)已经发展了很多年，并且有望成为计算和娱乐装置的主要输入形式。由于语音识别需要大量的计算能力和来自移动装置电池电源的能量，目前大多数用于语音处理的解决方案是在云环境中提供的，以便使语音-文本转换的精确度更高。

ASR涉及几个步骤和组件。最为重要的是，ASR组件是语言模型和声学模型。语言模型对正被转换成文本的语言或其语法进行解释；语言模型包括文本文件，该文本文件包含ASR能够识别的词语。声学模型描述每个词语是如何发音的。典型地，这些模型(声学和语言模型)很大，因为它们不得不覆盖针对不同说话者(和他们的话音声学)的语言的所有可能性。通常，较大的模型覆盖多个场景并降低错误率。

ASR系统目前是基于云的ASR(云-ASR)实现方式，其目的是大词汇量连续语音识别(LVCSR)，并且使用深度神经网络(DNN)声学模型。

发明内容

技术问题

一个或多个实施例大体上涉及基于标准(例如，能力，语境等等)在多个处理级之间进行的多级(例如，分层的或按序的)语音识别处理。在一个实施例中，该方法包括：将与第一装置相关联的语境数据发送到第二装置。从第二装置接收到第一语音识别模型。第一语音识别模型是存在于第二装置处的第二语音识别模型的子集。第一语音识别模型是基于语境数据的。确定是否能够在第一装置处基于第一语音识别模型识别话语(utterance)。如果不能在第一装置处识别该话语，则将该话语的至少一部分发送到第二装置。如果能够在第一装置处识别该话语，则执行与被识别的话语相关联的动作。

问题的解决方案

在一个实施例中，一种电子装置包括：将与电子装置相关联的语境数据发送到第二装置的发送器，和用于接收话语的麦克风。语音处理器配置成：从第二装置接收第一语音识别模型。该第一语音识别模型是存在于第二装置处的第二语音识别模型的子集并且是基于语境数据的。该语音处理器进一步配置成：确定是否能够在电子装置处基于第一语音识别模型识别话语，如果不能在电子装置处识别所述话语则将所述话语的至少一部分发送到第二装置，和如果能够在电子装置处识别所述话语，则执行与被识别的话语相关联的动作。

在一个实施例中，一种非暂时性计算机可读介质具有指令，该指令在计算机上执行时会执行一种方法，该方法包括：将与第一装置相关联的语境数据发送到第二装置。较高处理级从第二装置接收第一语音识别模型。第一语音识别模型是存在于第二装置处的第二语音识别模型的子集。第一语音识别模型是基于语境数据的。确定是否能够在第一装置处基于第一语音识别模型识别话语。如果不能在第一装置处识别该话语，则将该话语的至少一部分发送到第二装置。如果能够在第一装置处识别该话语，则执行与被识别的话语相关联的动作。

在另一个实施例中，一种方法包括：将与第一装置相关联的语境数据发送到第二装置。从第二装置接收第一语音识别模型。第一语音识别模型与第二装置处存在的第二语音识别模型不同。第一语音识别模型是基于语境数据的。确定是否能够在第一装置处基于第一语音识别模型识别话语。如果不能在第一装置处识别该话语，则将该话语的至少一部分发送到第二装置。如果能够在第一装置处识别该话语，则执行与被识别的话语相关联的动作。

本发明的有益效果

根据以下具体描述，一个或多个实施例的这些和其他方面和优点将变得很明显，该具体描述与附图结合起来以举例的方式说明了一个或多个实施例的原理。

附图说明

为了更充分地理解各实施例的本质和优点，以及使用的优选方式，应结合附图阅读以下详细描述，在附图中：

图1示出根据实施例的通信系统的示意图。

图2示出根据实施例的包括服务器和一个或多个电子装置的系统的架构的框图。

图3示出根据实施例的用于系统的高级架构。

图4示出根据实施例的示例自动语音识别(ASR)处理流程。

图5示出根据实施例的具有本机、邻近ASR和云ASR的示例分级语音识别(HSR)生态系统。

图6示出根据实施例的用于连接到云环境的HSR的示例场景。

图7A-图7C示出根据实施例的HSR生态系统低等级ASR的本地处理的示例。

图8示出根据实施例的示例ASR架构和说话者自适应。

图9示出对用于ASR/话音目标的不同技术和示例性实施例进行的示例性比较。

图10示出对仅使用云的ASR和利用示例性HSR实施例进行的示例性比较。

图11示出根据实施例的用于包括一个或多个本地选择性语言模型和声学模型的智能装置的示例性图形用户界面(GUI)。

图12示出根据一个实施例的示例性处理的框图。

图13是显示信息处理系统的高级框图，该信息处理系统包括实施一个或多个实施例的计算系统。

具体实施方式

以下描述是为了说明一个或多个实施例的普遍原理的目的做出的，并不旨在限制本文要求保护的发明概念。进一步地，本文描述的特定特征可以以各种可能的组合和排列方式中的每一种与其他描述特征相组合。除非本文中另作具体限定，不然所有术语应被赋予其最广泛的可能的解释，这种解释包括本说明书表示的意思，以及本领域技术人员理解的和/或在字典、论文等等中定义的意思。

一个或多个实施例涉及基于标准(例如，能力)在多个处理级之间进行的分级或按序语音识别处理。在一个示例中，处理级可以是可以具有不同的处理能力的平台、装置等等。在一个示例中，处理级可以包括由不同处理级组成的层次体系，其中每个处理级可以具有较多的、相同的或较少的处理能力，诸如语音处理、语言模型、处理功率等等。在另一个示例中，更高级别的处理级可以包括更大的处理功率、更强的语音识别能力和/或功能性(例如，更大的词汇量或识别语音能力、更大的声学文件库(acousticlibrary)、用于识别语音的更好的统计数据)，等等。在一个实施例中，一种方法包括将与第一装置相关联的语境数据发送到第二装置。第一装置从第二装置接收第一语音识别模型。第一语音识别模型是存在于第二装置处的第二语音识别模型的子集，第一语音识别模型是基于语境数据的。第一语音识别模型可以包括：例如，第一语言模型和第一声学模型。第二语音识别模型可以包括：例如，第二语言模型和第二声学模型。基于在第一装置的第一语音识别模型确定是否话语是否能够在第一装置处被识别。如果话语不能在第一装置处被识别，那么该话语的至少一部分被发送到第二装置。如果该话语能够在第一装置处能被识别，那么执行与被识别的话语相关联的动作。

在一个实施例中，定期地，处于较高处理级的装置更新存在于客户端装置(或较低处理级装置)的语言模型和声学模型，并且这种更新是基于客户端装置和/或其使用者的当前语境的。存在于客户端装置的语言模型可以是处于较高处理级上的装置处存在的语言模型的子集。存在于客户端装置的声学模型可以是处于较高处理级上的装置处存在的声学模型的子集。语言模型和声学模型被调整以便适应说话者和说话者可能使用该系统的环境，使得识别的精确度更高。经适应性调整的语言模型被称为个性化语言模型(PLM)，并且经适应性调整的声学模型被称为个性化声学模型(PAM)。

在可替换实施例中，处于特定处理级的装置上存在的语言模型可以不是子集，而仅仅是与处于较高处理级的装置处存在的语言模型不同。例如，客户端装置上存在的语言模型可以包含允许客户端装置识别词语的词语；然而，这些词语可以并没有存在于处于较高处理级的装置处的语言模型中。类似地，处于特定处理级的装置上存在的声学模型可以不是子集，而仅仅是与处于较高处理级的装置处存在的声学模型不同。

在另一个实施例中，处于较低处理级的装置能够从处于较高处理级的装置接收多个语言模型和多个声学模型。处于较低处理级的装置选择语言模型其中之一和声学模型其中之一作为语音识别将要基于的基本语言模型和声学模型。然而，被指定作为基本语言模型和声学模型的语言模型和声学模型能够根据语境而改变。

图1是根据一个实施例的通信系统10的示意性视图。通信系统10可以包括发起呼出通信操作的通信装置(发送装置12)和通信网络110，发送装置12可以使用该通信网络110来发起和实施与通信网络110内的其他通信装置的通信操作。例如，通信系统10可以包括接收来自发送装置12的通信操作的通信装置(接收装置11)。尽管通信系统10可以包括多个发送装置12和接收装置11，但为了简化附图在图1中仅示出了一个发送装置和一个接收装置。

可用来构建通信网络的任意合适的电路系统、装置、系统或其组合(例如，包括通信塔和电信服务器的无线通信基础设施)可用于构建通信网络110。通信网络110可以能够提供使用任意合适的通信协议的通信。在一些实施例中，通信网络110可以支持：例如，传统的电话线、有线电视、Wi-Fi(例如，IEEE802.11协议)、高频系统(例如，900MHz、2.4GHz和5.6GHz通信系统)、红外、其他相对本地化的通信协议，或以上的任意组合。在一些实施例中，通信网络110可以支持无线和蜂窝电话以及个人邮箱装置使用的协议。这样的协议可以包括：例如，GSM、GSM加EDGE、CDMA、四频带(quadband)和其他蜂窝协议。在另一个示例中，长距离通信协议可以包括Wi-Fi和用于通过使用VOIP、LAN、WAN或其它基于TCP-IP的通信协议来打电话或接电话的协议。发送装置12和接收装置11，在位于通信网络110内时，可以通过诸如路径13这样的双向通信路径，或通过两条单向通信路径进行通信。发送装置12和接收装置11二者可以均能够发起通信操作和接收发起的通信操作。

发送装置12和接收装置11可以包括用于发送和接收通信操作的任意合适装置。例如，发送装置12和接收装置11可以包括移动电话装置、电视系统、相机、便携式摄像机、具有视频音频能力的装置、平板、可穿戴装置和能够通过无线方式(在或不在提供无线功能的辅助系统的帮助下)或经由有线途径(例如，使用传统的电话线)进行通信的任意其他装置。通信操作可以包括任意合适形式的通信，包括：例如，语音通信(例如，电话呼叫)、数据通信(例如，电子邮件、文本消息、媒体消息)、视频通信或这些通信的组合(例如，视频会议)。

图2显示架构系统100的功能框图，该架构系统100可以用于使用电子装置120基于标准进行多级别语音识别。发送装置12和接收装置11二者均可以包括该电子装置的一些或全部特征。在一个实施例中，电子装置120可以与另一个电子装置互相传送同步数据、信息、内容等等，并提供互补的或类似的特征。在一个实施例中，电子装置120可以被实现为移动电话或智能电话装置、智能电视、智能家电、相机、便携式摄像机、具有音频视频能力的装置、平板装置、可穿戴装置、智能家居和能够通过无线方式(具有或不具有提供无线功能的辅助系统的帮助下)或经由有线途径(例如，使用传统的电话线、网络连接等等)进行通信的任意其他装置。

在一个实施例中，电子装置120可以包括显示器121、麦克风122、音频输出123、输入机构124、通信电路125、控制电路126、应用程序1-N127、相机模块128、模块129、Wi-Fi模块130和传感器1至N131(N是正整数)、语音模块132和任意其他合适的部件。在一个实施例中，应用程序1-N127是从云或服务器140、通信网络110等等提供的或者可以从其获得，其中N是等于或大于1的正整数。在一个实施例中，系统100包括行为和地理位置触发应用程序，该应用程序可以与基于云的业务或服务器140结合起来进行工作，以通过自身或者通过二者的组合帮助针对行为识别的训练。在一个实施例中，可穿戴装置可以包括电子装置120的特征、部件或模块的一部分或全部。

在一个实施例中，音频输出123、显示器121、输入装置124、通信电路125和麦克风122采用的全部应用程序可以被互相连接起来并且被控制电路126所管理。在一个示例中，可以将能够向其他调谐装置发送音乐的手持式音乐播放并入到电子装置120中。

在一个实施例中，音频输出123可以包括用于向电子装置120的使用者提供音频的任意合适的音频部件。例如，音频输出123可以包括内置到电子装置120中的一个或多个扬声器(例如，单声道扬声器或立体声扬声器)。在一些实施例中，音频输出123可以包括远程耦接到电子装置120的音频部件。例如，音频输出123可以包括可以用线(例如，用插头耦接到电子装置120)或通过无线方式(例如，头戴式受话器或头戴式耳麦)耦接到通信装置的头戴式耳麦、头戴式受话器或耳塞。

在一个实施例中，显示器121可以包括用于提供使用者可视的显示的任意合适的屏幕或投影系统。例如，显示器121可以包括结合到电子装置120中的屏幕(例如，LCD屏幕)。作为另一个示例，显示器121可以包括可移动显示器或用于在远离电子装置120的表面上提供内容显示的投影系统(例如，视频投影仪)。显示器121可以用于在控制电路126的指导下显示内容(例如，关于通信操作的信息或关于可用媒体选择的信息)。

在一个实施例中，输入装置124可以是用于将使用者输入或指令提供给电子装置120的任意合适的装置或使用者接口。输入装置124可以采取各种形式，诸如按钮、小键盘、转盘、滚轮或触摸屏。输入装置124可以包括多点触摸屏。

在一个实施例中，通信电路125可以是任意合适的通信电路，其可用于连接到通信网络(例如，通信网络110，图1)并且可用于从电子装置120向通信网络内的其它装置发送通信操作和媒体。通信电路125可以用于与使用任意合适的通信协议的通信网络相连接，所述通信协议诸如是，例如，Wi-Fi(例如，IEEE802.11协议)、高频系统(例如，900MHz、2.4GHz和5.6GHz通信系统)、红外、GSM、GSM加EDGE、CDMA、四频带、和其他蜂窝协议、VOIP、TCP-IP或任意其他合适的协议。

在一些实施例中，通信电路125可以用于构建使用任意适当的通信协议的通信网络。例如，通信电路125可以构建短距离通信网络，该短距离通信网络使用短距离通信协议来连接到其他通信装置。例如，通信电路125可以用于创建本地通信网络，该本地通信网络使用协议来将电子装置120与头戴式耳麦相耦接。

在一个实施例中，控制电路126可以用于控制电子装置120的操作和性能。控制电路126可以包括：例如，处理器、总线(例如，用于向电子装置120的其他部件传送指令)、内存、存储装置或用于控制电子装置120的操作的任意其他合适的部件。在一些实施例中，处理器可以驱动显示器和处理从用户接口接收到的输入。内存和存储装置可以包括：例如，缓存、闪存、ROM和/或RAM/DRAM。在一些实施例中，内存可以特别地专用于存储固件(例如，用于诸如操作系统、用户接口功能和处理器功能的装置应用程序)。在一些实施例中，内存可以用于存储关于与电子装置120执行通信操作的其他装置的信息(例如，保存关于通信操作的信息或者存储关于使用者选择的不同媒体类型和媒体项的信息)。

在一个实施例中，控制电路126可以用于执行在电子装置120上实施的一个或多个应用程序的操作。可以实施任意合适数目或类型的应用程序。尽管以下讨论将列举不同应用程序，但是将被理解的是，这些应用程序中的一些或全部可以组合到一个或多个应用程序中。例如，电子装置120可以包括自动语音识别(ASR)应用程序、对话应用程序、地图应用程序、媒体应用程序(例如，QuickTime、MobileMusic.app或MobileVideo.app、等等)、社交网络应用程序(例如，等等)、因特网浏览应用程序等等。在一些实施例中，电子装置120可以包括可用于执行通信操作的一个或多个应用程序。例如，电子装置120可以包括消息传送应用程序、邮件应用程序、语音邮件应用程序、即时消息传送应用程序(例如，用于聊天)、视频会议应用程序、传真应用程序或用于执行任意合适的通信操作的任意其他合适的应用程序。

在一些实施例中，电子装置120可以包括麦克风122。例如，电子装置120可以包括麦克风122，从而在通信操作期间或作为建立通信操作的一种方式或作为对使用物理用户接口的替代方式，允许使用者发送音频(例如，话音音频)以便进行语音控制和对应用程序1-N127的导航。麦克风122可以并入在电子装置120中、或者可以远程耦接到电子装置120。例如，麦克风122可以并入到无线头戴式受话器中，麦克风122可以并入到无线头戴式耳麦中，麦克风122可以并入到远程控制装置中，等等。

在一个实施例中，相机模块128包括一个或多个相机装置，其包括用于捕捉静态图像和视频图像的功能、编辑功能、用于对相片/视频等进行发送、共享等操作的通信互操作性。

在一个实施例中，模块129包括用于处理信息的处理和/或程序，并且可以包括接收器、发送器、收发器等等。

在一个实施例中，电子装置120可以包括多个传感器1至N131，诸如加速计、陀螺仪、麦克风、温度、光、气压计、磁力计、罗盘、射频(RF)辨识传感器、GPS等等。在一个实施例中，多个传感器1-N131向地理位置触发应用程序127提供信息。

在一个实施例中，电子装置120可以包括适合执行通信操作的任意其他部件。例如，电子装置120可以包括电源、端口或用于耦接到主机装置的接口、次要输入装置(例如，通/断开关)，或任意其它合适的部件。

在一个实施例中，电子装置120包括语音模块132，该语音模块132包括多级语音识别处理和一个或多个个性化语言模型(PLM)模块和个性化声学模型(PAM)模块，用于通过使用多个装置进行分级的或按序的语音识别处理。在一个实施例中，电子装置120和语音模块132被认为是ASR处理和其他智能装置(例如，智能电视、智能家居、智能家电等等)的较低的层次或顺序级别。

在一个实施例中，为语音识别实施多个小型的ASR。在一个示例中，多个小型的ASR和一个大型的ASR被分级实施，以获得这二者的好处。ASR的两个部件是语言模型(LM)和声学模型(AM)。这些用于训练ASR生成在语音至文本转换处理中使用的解码器。在将ASR用于生成解码器之前必须使用训练数据来训练ASR。训练数据和测试数据(实际运行)之间的显著差异导致更大的字错误率(WER)或识别精确度的劣化。基于说话者对通用语言模型和通用声学模型进行的个性化会产生PLM和PAM。在ASR引擎中的说话者个性化的概念是调整一般的声学模型(AM)和语言模型(LM)使其适应使用者自身的语音数据，使得经适应性调整的模型能够为特定使用者提供更好的识别精确度。在一个或多个实施例中，语音模块132提供分级自动语音识别(H-ASR或HSR)，其允许电子装置120尽可能独自执行“选择性语音识别”，而不必联系外部的基于云的ASR业务。在一个示例中，对LM和AM二者进行的选择性预处理在云(服务器)处发生，并且持续地更新客户端处的语音模块132的本地(客户端或电子装置120)ASR(仿佛它们正被缓存以保存语音处理一样)。

在一个实施例中，选择性的预处理在云140中执行，该云140实现了在电子装置120上对语音的“缓存处理”(或诸如图像的其它媒体识别)。一个或多个实施例为分布式处理提供范例，其中行为(使用者的访问模式历史)被用于确定每个ASR的使用语音模块132的处理能力。

在一个示例中，实施语音模块132的语音处理生态系统为LM使用发布-订阅方法学，其实现在多个层次/级别中发生的面向动作的语音识别。语音处理被从一个级别传递到另一个级别，直至其匹配一个级别处的预设动作项。在一个示例中，在生态系统中是在多个ASR中执行“可行命令”的，而不是使用单个大型ASR来执行。在ASR中对AM和LM的个性化是HSR的一部分。在一个示例中，尽管选择性预处理被用于在云140上针对具体模式训练ASR，可替换地，当网络不可用并且电子装置120的资源足够支持使用语音模块132进行处理时可以从电子装置120执行全部的适应性调整处理。

一个或多个实施例降低了时延并且使用消费者的边缘资源用于语音至文本至动作的翻译。实现了在云140中进行选择性预处理(顶层/较高层级别)和在电子装置120中进行缓存处理(较低层级别)，这与常规的ASR方法相反，常规的ASR方法使用由单个计算机系统(即，单个计算机、网络或云)执行的大词汇量连续语音识别(LVCSR)。在一个或多个实施例中，在语音处理的顺序(高层至底层)和较低层次仅仅进行了被选择的缓存处理的方式方面，该处理与常规的基于云的LVCSR和离线ASR从根本上是不同的。在常规的云-ASR方法中，语音命令首先被发送到云-ASR以便进行处理。在一个或多个实施例中，语音命令首先在同一个网络(在同一个计算装置，例如，电子装置120上)内被处理成文本。如果语音至文本的翻译不能在较低层上(例如，通过使用电子装置120)实现，那么语音被发送到紧邻的更高层(例如，智能家居ASR、智能TVASR或云140ASR)。

在一个示例中，在多个层次中语音处理的顺序可以基于多个网络和它们的邻近者。语音模块132的PLM和PAM被选择性地处理并且被从较高层发送出从而被存放在较低层中，几近于实现了在较低层中对语音进行的“缓存处理”。在本地层中用于“可行命令”的发布-订阅模型可以使用多个LM和AM，该多个LM和AM被结合在一起或者被用作“可行命令”的多个层次。在一个示例中，本地ASR可以从其周围的装置接收关于该装置处理了什么新词和命令的“发布信息(publications)”。例如，当使用者接近智能壁炉时，智能电话ASR和智能家居ASR可以接收到从智能壁炉向ASR发送的LM发布信息，该LM发布信息包括用于“将壁炉打开”的词语。这样，智能壁炉正在“订阅”命令“将壁炉打开”，该命令是“可行命令”。可行命令是以下这样的命令，这种命令能够在本地执行从而实现期望的动作，而并不立即需要求助于超出ASR本地网络或其邻近者的外部系统。

在一个示例中，任意装置的表示(represent)或“发布”语音命令的能力旨在使这些命令被诸如HSR(例如，智能壁炉)这样的ASR系统所用。任意装置的“可行命令”的数字表示被称作其装置语言模型和动作(DLMA)，该数字表示被作为DLMA文件存储起来或通过数字方式发送。在一个示例中，任意电子装置120(或代表装置作用的中央远程服务器)的通过网络动态通信的能力被提供，以将其话音命令(DLMA)公告(advertise)给ASR并且订阅其可行命令。

在一个实施例中，为了语音-动作处理，语音模块132可以在多个ASR环境中执行可行命令(而不是用单个ASR)。在可行命令中使用的具体词汇表和命令映射(语音-文本-命令)确定处理语音命令的ASR的顺序，直至确定出最可能可行的命令。在一个示例中，在相同层级内的语音处理的顺序(基于可用的动作命令和它们的类型)可以包括通过使用(或者被集中化的或者在目标装置自身上的)网关在目标装置(例如，智能壁炉)上执行可行命令的保证顺序(guaranteedorder)，该网关从一个或多个本地ASR接收语音-文本-动作的命令并按照正确的执行顺序(消除重复)转换这些命令。

图3示出了根据实施例的用于HSR系统300的高级架构。在一个实施例中，示例性HSR系统300包括云140、主机处理或装置310、智能电视310、电子装置120(例如，智能装置)、智能壁炉320和智能家居(或智能家居控制器)305。在一个实施例中，智能电视310包括PLM311和PAM312，而电子装置120包括PLM313和PAM314。在一个示例中，从较高级系统到较低级系统进行的对PLM和PAM的数字传送/传输根据具体环境出现在例如从云140到主机301的情况(或者从云到装置)。在一个示例中，对语音命令的数字表示、对ASR的订阅以及将要执行什么动作是在示例性HSR系统300中实施的。在装置没有“听到”的情况下，第三方可以将AM和LM提供给主机301。

在示例性HSR系统300中，PLM和PAM是在较高级别的装置(例如，在云140中的服务器)处预处理的，并且基于较低级别装置的当前语境(例如，位置、时间、使用较低级别电子装置的活动、移动/静止、对其他电子装置的使用等等)被发送到较低级别装置。在一个示例中，装置(例如，智能电视310、电子装置120等等)为了最终的语音识别输出选择性地使用经预处理的信息。

语音解码可以被从处于一个处理级的装置选择性地传递到处于较高处理级(例如，在有序的或分层的性质中)的另一个装置，直至特定的处理级能够识别该语音和执行与被识别的语音相关联的动作为止。例如，如果电子装置120和主机301不能识别语音，则该语音可以被从电子装置120(例如，智能电话或可穿戴装置)传送到主机301，然后被传送到云140上的服务器。仅仅在基于某标准不能在装置处处理语音的情况下，该语音才可以选择性地在更高级别的系统(例如，云140)处被处理。在一个示例中，装置基于该装置的能力执行命令(可行项)。命令将基于该概念发生改变，并且将被指引到“更适当的”装置。两个基本概念在一个或多个实施例中被实施为：从较高级别向较低级别发送PLM和PAM；并且可行项为：鉴于装置的能力可以被执行的命令。命令根据语境发生改变。智能装置(例如，电子装置120)能够具有以下能力，即如果电子装置120不能执行可行命令，则判断示例性HSR系统300中的哪个其它装置能够执行该可行命令。

在可替换实施例中，每当语音不能在较低处理级处被识别时，则更新处于较低处理级的装置上的语言模型和声学模型，而不是向处于较低处理级的装置定期地发送语言模型和声学模型。这种情况下，如果在较低的处理级处不能识别语音，则该语音和语境数据被发送到处于较高处理级的装置。处于较高处理级的装置试图处理/识别该语音。此外，处于较高处理级的装置根据由处于较低处理级的装置发送给处于较高处理级的装置的语境数据来更新处于较低处理级的装置的语言模型和声学模型。

在可替换实施例中，当语音处理发生在较高处理级时，只有语音的一部分被传递到较高处理级。例如，如果客户端装置不能处理/识别语音，那么则噪声被滤除出去并且仅仅语音被传送给处于较高处理级的装置，而作为噪声的部分并没有被传送给处于较高处理级的装置。在另一个示例中，如果有多个说话者提供语音输入，那么来自并非使用者的那些说话者的语音被滤除出去并且不会被发送到处于较高处理级的装置。

图4示出了根据实施例的示例性自动语音识别(ASR)处理流程400。在一个示例中，该处理400起始于方框410，在该方框410处接收到要被处理成文本的新语音(例如，使用麦克风122和语音模块132，图2)。在方框420中，确定接收语音的装置是否是在HSR分层生态系统中的顶层级别。如果确定接收到语音的装置是顶层级别，则处理400继续进行方框430，在方框430处在装置上本地处理该语音。如果确定接收到语音的装置不是HSR中的最高级别，则处理400继续进行方框440。在方框440中，在没有完全地处理所接收到的语音的情况下计算转发阈值F1。在一个示例中，所有话音命令均首先在较低层的ASR中进行处理，以查看是否是本地小型ASR能够自己处理的“热命令(hotcommand)”。一旦话音命令被接收，则本地ASR计算转发阈值以确定需要在本地处理该话音命令还是将该话音命令转发给HSR模型中的下一个层次级别(装置或云)。在一个示例中，转发阈值(例如，F1、F2等等)是以下项中的一个或多个项的函数：

估计出的误字率(如果命令将在本地被处理)，

话音命令的长度，

在话音命令中某些关键词的存在性(关键词定位)，

Wi-Fi或基站的可用性(以确定该装置电池为了发送数据可能耗费的能量)，

话音命令被如何处理的先前历史以及它们的度量(衡量标准)，以及

在那个具体装置上的处理器、图形处理单元(GPU)和网络/无线电处理器。

在一个实施例中，在方框450中确定计算出的/确定出的转发阈值(例如，F1：第一转发阈值)是否大于被选择来或被分配给HSR中的特定层级的转发阈值。如果确定该转发阈值大于针对HSR级别的转发阈值，那么该处理400进行方框430。否则，该处理400继续到方框460，在方框460处接收到的语音被转发给HSR中的下一个级别并且处理400返回到方框410。当HSR中的下一个级别被处理时，在方框450中计算下一个级别的转发阈值(例如，F2：第二转发阈值)并对其进行比较，并且该处理继续进行直至语音在能够(或最能够)处理语音以便识别和确定动作命令的HSR级别处被处理为止。

图5示出了根据实施例的具有本机510、邻近ASR和云ASR520的示例性HSR生态系统500。在示例性HSR生态系统500中，本地装置(例如，电子装置120)或HSR系统500中的另一个装置(例如，具有话音控制能力的智能装置530)被用于话音命令处理540。在示例性HSR生态系统500中，使用ASR层次体系的一个顺序来处理语音。在ASR离开或被添加到网络或邻近物中时(例如，随着使用者离开家，智能家居内的智能电话ASR远离住房中的HSR生态系统)，该顺序可以随着时间动态改变。这种网络邻近性的顺序可以基于信号强度、网络可用性、延迟、语音处理的WER和在自组织语音处理层次体系中的其他历史细节。在一个示例中，在可用的选择当中，可以有效处理频繁使用的动作命令的最低延迟被指定为要成为较低层次的优选项。在另一个示例中，针对范围广泛的命令具有更精确的WER的ASR被指定为更高层次级别的优选项(即使其延迟更多，诸如在另一个网络中的云)。可替换地，参与示例性HSR生态系统500中的多个ASR的网络邻近性顺序可以被预先确定或者由它们的等级类型(classtype)决定(例如，电子装置120(图2)是较低的等级1、智能电视是等级2，智能家具是等级3，智能家居系统是等级4，基于云的ASR可以是等级5)。

在一个实施例中，在示例中，在另一个网络中HSR生态系统500选择性预处理的语音模型(训练过或适应性调整过)被发送到本地装置(例如，电子装置120)。被“选择性处理”的且被从较高层次发送出的个性化语言模型(PLM)和个性化声学模型(PAM)将被存储在较低层次中，从而几近于实现了在较低层次中对语音进行的“缓存处理”。在示例性HSR生态系统500中，在层次体系中的较高级别的ASR(例如，云)可以使用其多次在说话者附近获得的数据来产生PLM和PAM。例如，如果其发现说话者很可能在周五晚上给某些朋友打电话，或者一旦在家就会打开电视，那么那些相关的语音命令以及仅与那个环境(例如，汽车或住宅)相关联的声学信息可以被用在PAM或PLM中。PLM是较小的、地理位置/时间特有的，并且并不覆盖一种语言中的所有词语及其变形，而是仅使用预期使用者会使用的词语和语法。类似地，在HSR中也使用较小的、地位位置/时间特有的PAM。在一个示例中，说话者的话音被用于构建PAM。此外，并不是为所有使用者均使用一刀切(one-size-fit-all)的模型，示例性HSR生态系统500使用基于使用者的与地位位置/时间有关的密切关系的多个PAM。因此，同一个使用者可能具有基于位置和时间信息的多个PAM(例如，一个PAM用在驾驶汽车中，一个PAM用于在办公室中或者家中，等等)。

在一个示例中，PLM和PAM代表对在特定时间点处说话者的高频或最被期待的话音命令进行的选择性处理。在一个实施例中，PLM和PAM被从处于较高层次级别(诸如云)的ASR通过数字方式传送到较低层次级别，使得其实现了对常见的热词的缓存处理，并且使得在较低层次级别装置上的处理较少。因为要处理的词或声学较少，这种特征提供了较低层次级别的ASR，从而能以较少的处理功率和更高的精确度(或较低的错误率)在本地处理高频的或“热的词或命令”。

图6示出了根据实施例的连接到云环境的HSR的示例性场景600。在示例600中，云140ASR发现说话者：一旦进入智能汽车中就会给妻子打电话、打开收音机和给出目的地名称。云140ASR完成对使用的所有词的所有处理，并且用特定于该智能汽车的音频设置和那辆车中的麦克风的PLM和PAM来更新那辆车的ASR。这将确保使用者的隐私更加安全，并且还能实现更快的(低时延的)语音处理。同一个使用者，一旦他到家，则会在智能家居中“打开电视”、“关闭车库门”等等。云140ASR再次根据在家中由一个或多个使用者使用的词语产生PLM，并且更新针对家的特定声学的和在智能家居中使用的麦克风的特定声学的PLM和PAM。

在示例600中，使用者在610处输入语音命令。基于位置和时间，云140请求620和接收630大众的词语列表，这些词语是位置(例如，邮政编码、地理位置、地方等等)以及专用于该位置的时间。在640，在特定位置、地方和时间的特定使用者的个性化最热门词语列表被用于确定PLM。在650，使用由云140在630接收到的信息和在640接收到的信息一起来确定，以在660转发PAM并在665转发PLM。在670，基于位置和时间来使用个性化智能语音识别器(例如，使用图2中的语音模块132)，以便识别在610输入的语音命令。

图7A-图7C显示了根据实施例的对HSR生态系统较低层次ASR的本地处理的示例。在一个示例中，图7A显示了正在显示GUI710的装置700(例如，电子装置120)，该装置具有的ASR具有针对特定时间(例如，早晨通勤、傍晚通勤等等)在汽车中的位置且关于交通的PLM和PAM是。图7B显示了正在显示GUI720的装置700，该装置700具有的ASR具有针对特定时间(例如，下班回家)在家中的位置用于家具命令的PLM和PAM。图7C显示了正在显示GUI740的装置730(例如，可穿戴装置)，该装置730具有的ASR具有针对在特定时间在特定城市的位置用于天气的PLM和PAM。在一个实施例中，图7A-图7C中的示例显示了没有联系更高层次(例如，智能电视或云140，图2)的情况下HSR生态系统较低层ASR的本地处理。

图8示出了根据实施例的示例性ASR架构和说话者适应性调整系统800。在一个示例中，电子装置120包括语音模块132(图2)，该语音模块132将来自使用者1(usr1)的语音转换成wav文件802，通过使用ASR引擎810、AM811(用于usr1)、LM812(用于usr1)和说话者适应性调整(SA)引擎813来处理该文件802。在较低的HSR级别，电子装置120自己处理该语音，并将该语音转换成文本801。在HSR中的较高级别处，云/服务器140也可以接收wav文件802，并通过使用ASR引擎820和基于在前使用的存储的usr1-N870的SA引擎860来处理语音，该usr1-N870被SA860使用以通过使用AM835和LM840生成PLM850(用于usr1-N的LM)和PAM830(用于usr1-N的AM)，其中PLM850与LM840组合起来(例如，通过使用MUX845)，而PAM830与AM835组合起来(例如，通过使用MUX836)。

在一个示例中，电子装置120具有表示或“发布”电子装置120的话音命令的能力，意图使该话音命令被诸如系统800的ASR系统所用。在一个示例中，电子装置120具有基于话音的接口，类似(仅仅通过语音的)远程控制。例如，电子装置120可以接收针对智能壁炉的话音命令，其具有诸如“打开壁炉”的“可行的”或“热的命令”。电子装置120的所有可行命令均通过数字方式表示在文件(例如，wav802、文本801)中。在提供了需要与PLM一起被添加来实现命令的本地处理的语言/语法以及需要进行的动作项(例如，通过网络将信号发送到具有参数“ON”的壁炉)的情况下，这种表示可以具有二进制或文本的格式。针对电子装置120的动作项的数字格式可以是DLMA文件。以下示出了示例性DLMA文件：

#DLMAV1.0；

grammarmain；

sub-grammarfireplace；

public<utt>＝((TURNONFIREPLACE)|

(TURNOFFFIREPLACE)|

(INCREASEFIRELEVEL)|

(REDUCEFIRELEVEL))；

.

在系统800中，实现了诸如电子装置120(或起到代表装置的作用的中央远程服务器)这样的任意装置通过网络动态通信以将其话音命令(DLMA)通告给ASR并且订阅其“可行命令”的能力。在一个实施例中，在系统800(例如，HSR生态系统或任意ASR)中，电子装置120通过网络将其话音命令发送(发布)给在其附近的ASR，该ASR使用DLMA或其它文件来从HSR生态系统中的特定ASR或任意ASR获得其动作命令。

在一个示例中，在系统800的层次体系内语音处理的顺序基于可用动作命令和它们的类型。尽管HSR生态系统为层次体系提供了从一个级别转移向下一个紧挨着的更高级别的ASR的一种方式，但是对于一些命令或关键词有可能的是，ASR可以将请求直接发送到多个ASR级别，或者基于特定关键词排除向顶端级别ASR发送。例如，“搜索泰姬陵的高度”。这里的搜索之后可能会跟随某个命令，该命令需要来自搜索引擎或“计算5+4”的更多信息或数据。这些命令可以仅仅被传送到云ASR，以便得到更快的处理。

在一个实施例中，系统800具有在目标装置(例如，使用网关的智能壁炉)上(或者集中化或者在目标装置自身上)执行可行命令的保证顺序，该目标装置从一个或多个本地ASR接收语音-文本-动作的命令，并以正确的执行顺序(消除重复)将这些命令进行转换。

在一个实施例中，一些命令必须仅仅执行一次(例如，在起居室中存在多个ASR(智能电视、智能电话、智能手表、智能房屋ASR，等等)。如果使用者说“增大炉火的水平”，所有ASR可以拾取命令并将其传递到处理单元(壁炉)，并且这可能在多次增大炉火的水平之后结束。为了避免这种现象，在一个实施例中，“动作命令”被分类为幂等的(idempotent)或非幂等的。网关可用于处理这些命令，使得重复的命令被避免。

在一个实施例中，在系统800中，使用者(例如，usr1)对着电子装置120说话，并且语音文件wav802被发送到云140(或服务器)，ASR引擎820位于云140处。ASR引擎820调用AM835和LM840，从而以自动的方式识别使用者的语音。SA引擎860检查在云140的文件系统870中存储的使用者语音文件的数目，以查看是否该数目超过了某个阈值(例如，100)。如果情况如此，则SA引擎860根据使用者的语音文件、副本和现有的AM(例如，usr1AM811)为每个使用者生成新的PAM830。产生的PAM830被存储到云的文件系统870。定期地，云140将最新的PAM发送回给电子装置120，以便由本地ASR引擎810在需要时使用。当使用者的电子装置120发现电池量低或者网络状况不稳定时，电子装置120中的本地ASR引擎810被加载并且被用于语音识别应用。对于网络不可用的情况，SA引擎860可以独立于云140而在电子装置120上操作。对于给定客户端装置，通过根据电池和网络状况从客户端装置或云140调用多个PAM和PLM，可以很容易设想出多个使用者场景。

图9示出了对用于ASR/语音目标的不同技术与示例性实施例的示例性比较900。如图所示，比较900将IVR910和私人助理920技术与一个或多个实施例的HSR实施方式930进行比较。该比较是基于装置上的词汇量、持续性能、语法、知识领域、计算复杂度、数据复杂度和能量效率。

图10示出了对仅用云的ASR-11030,ASR-21020和示例性HSR1010实施例做出的示例性比较1000。该比较显示了对于典型的移动装置实施方式来说消耗的能量(越低越好)、平均功率(越低越好)和电池寿命(越高越好)。

图11示出根据实施例的对于包括一个或多个本地选择性语言模型和声学模型的智能装置(例如，电子装置120)的示例性图形用户界面(GUI)1100。如图所示，示例性GUI1100显示解码结果1110、针对AM1120的选择，和针对LM1130的选择。另外，显示了针对场景的选择类型的菜单(例如，可滚动的、下拉的等等)，该场景具有通常使用的场景专用语言。

图12显示了根据一个实施例的示例性处理1200的框图。在一个实施例中，在方框1210中，在客户端装置(例如，电子装置120,图2)处接收到语音命令。在方框1220中，通过确定是否语音命令将在客户端装置处处理，执行对语音命令进行的选择性语音识别。在方框1230中，如果语音命令将在客户端装置处被处理，那么处理1200进行到方框1240，在方框1240中在客户端装置执行对语音命令进行的语音识别。否则，在方框1250中，关于语音命令的信息被提供给较高处理级(例如，处于较高级别的另一个电子装置120，云140，图2，等等)，以便在较高处理级处进行处理。在较高处理级处进行的处理包括在较高处理级处的PLM和PAM信息。在方框1260中，在客户端装置处从较高处理级接收到语音处理信息。

在一个示例中，处理1200可以包括：基于来自较高处理级的语音处理信息，在客户端装置处执行对于语音命令的语音识别。在一个实施例中，处理1200可以包括在客户端装置处接收语音处理信息，和基于该语音处理信息在客户端装置处执行对于语音命令的语音识别。

在一个示例中，语音识别包括基于语音命令确定可行命令。在一个示例中，处理1200可以包括获取用于执行可行命令的语音命令的数字表示。在一个示例中，获得该语音命令的数字表示包括从外部源获得所述数字表示。在一个实施例中，可行命令包括基于装置能力可执行的命令。在一个示例中，按照有序的处理顺序或分层处理顺序在客户端装置与一个或多个其他较高处理级装置之间选择性地传递语音解码。

在一个实施例中，有序的处理顺序或分层的处理顺序可以继续下去，直至特定处理级与执行可行命令相匹配。在一个示例中，处理1200可以包括基于一个或多个标准(例如，位置、地理位置、时间、当前的活动等等)在云环境中选择性地预处理语音识别，以及基于使用者标准确定对于多个ASR实施的能力。在一个示例中，可行命令是基于多个语言模型和多个声学模型执行的。多个可行命令可以被网络装置发布，并且被网络装置中的一个或多个所订阅。

在一个实施例中，处理1200可以包括将与第一装置相关联的语境数据发送到第二装置。从第二装置接收到第一语音模型。第一语音识别模型是第二装置处存在的第二语音识别模型的子集。第一语音识别模型是基于语境数据的。确定是否话语能够在第一装置处基于第一语音识别模型而被识别。如果在第一装置处不能识别话语，那么话语的至少一部分被发送到第二装置。如果在第一装置处能够识别话语，那么执行与识别出的话语相关联的动作。

处理1200可以包括第二装置处于比第一装置高的较高处理级。处理1200可以进一步包括：第一语音识别模型包括第一语言模型和第一声学模型中的至少一项；并且第二语音识别模型包括第二语言模型和第二声学模型中的至少一项。在一个示例中，如果在第一装置处能够处理话语，那么识别该话语并且在第一装置处的本地执行与该话语相关联的动作。处理1200可以进一步包括：当第一装置靠近第三装置时，则从该第三装置接收第三语音识别模型，并且该第三语音识别模型允许第一装置处理与该第三装置相关联的其他话语，并且允许第三装置在本地执行经处理的其他话语。在一个实施例中，确定话语是否能够在第一装置处基于第一语音识别模型来处理，包括：基于以下中的至少一项确定是否阈值被超过：估计的错词率、话语的长度、话语中关键词的存在性、网络连接的可用性、处理话语的先前历史，和第一装置的处理能力。

在一个示例中，处理1200可以在一个层级的装置内执行语音处理，这种语音处理包括基于使用网关在目标装置上执行动作的保证顺序，其中该网关确定动作执行的顺序。

在一个示例中，一个或多个HSR系统或装置实现了：使ASR为在智能家居或智能汽车环境中的本地处理做好准备；对于被动态个性化以在每个装置上工作的语音命令的延迟较低(或立即响应)(在运行时间中不需要将语音命令传送给云和使命令与个性化查找表相匹配)；通过避免频繁地使用智能电话射频和频繁到使用网络，实现了智能电话或其他电子装置120(图2)的节能；对于不再需要使用云-ASR的频繁语音命令，数据传送成本降低；当网络不稳定甚至是不可用时，客户端侧的ASR的业务是有用的；来自后端服务器的SA处理帮助节省了客户端装置的能量消耗；当网络不可用同时在ASR业务中普遍考虑服务器侧处理时，客户侧说话者适应性调整处理是有用的；由于客户端装置变得在计算方面以及在能量消耗的效率方面更加强大，客户端侧处理也变得更可取；以及其中一些工作在客户端装置中执行而其他工作在服务器中执行的混合SA模型对于减轻云ASR业务上的业务量(负载)是有用的(将负载分布到多个ASR中)。

图13是显示信息处理系统的高级别框图，该信息处理系统包括实施一个或多个实施例的计算系统1300。该系统1300包括一个或多个处理器1311(例如，ASIC、CPU等等)，并可以进一步包括：电子显示装置1312(用于显示图形、文本和其他数据)、主内存1313(例如，随机存取存储器(RAM)、缓存装置等等)、存储装置1314(例如，硬盘驱动)、可移除存储装置1315(例如，可移除存储装置、可移除内存模块、磁带驱动器、光盘驱动器、其中存储有计算机软件和/或数据的计算机可读介质)、用户接口装置1316(例如，键盘、触摸屏、小键盘、定点装置)，和通信接口1317(例如，调制解调器、无线收发器(诸如Wi-Fi、蜂窝)、网络接口(诸如以太网卡)、通信端口或PCMCIA槽和卡)。

通信接口1317允许通过因特网1350、移动电子装置1351、服务器1352、网络1353等在计算机系统与外部装置之间传送软件和数据。系统1300进一步包括上述装置/模块1311至1317所连接到的通信基础设施1318(例如，通信总线、交叉开关矩阵或网络)。

经由网络接口1317传送的信息的形式可以是：诸如电子信号、电磁信号、光学信号这样的信号，或者能够被通信接口1317经由通信链路接收到的其他信号，该通信链路承载信号，并且可以通过使用电线或电缆、光纤、电话线、蜂窝电话链路、射频(RF)链路和/或其他通信通道实施。

在移动无线装置中(例如，移动电话、智能电话、手写板、移动计算装置、可穿戴装置等等)的一个或多个实施例的一种实施方式中，系统1300进一步包括诸如相机128(图2)这样的图像捕捉装置1320，和诸如麦克风122(图2)这样的音频捕捉装置1319。系统1300可以进一步包括应用模块，如MMS模块1321、SMS模块1322、电子邮件模块1323、社交网络界面(SNI)模块1324、音频/视频(AV)播放器1325、网络浏览器1326,图像捕捉模块1327等等。

在一个实施例中，系统1300包括多级语音识别模型1330，其可以实施类似于相关描述的系统300处理(图3)和在框图100中的部件(图2)。在一个实施例中，多级语音识别模型1330可以实施系统300(图3)和800(图8)以及流程图400(图4)和1200(图12)。在一个实施例中，多级语音识别模型1330与操作系统1329一起可以被实施为驻留在系统1300的内存中的可执行代码。在另一个实施例中，多级语音识别模型1330可以在硬件、固件等等中提供。

如本领域技术人员已知的，以上描述的上述示例性架构，根据所述架构，可以以多种方式而被实施，诸如用于由处理器执行的程序指令、如软件模块、微代码、如在计算机可读介质上的计算机程序产品、如模拟/逻辑电路、如专用集成电路、如固件、如消费者电子装置、AV装置、无线/有线发送器、无线/有线接收器、网络、多媒体装置等等。进一步地，所述架构的实施例可以采取全硬件实施例、全软件实施例或者既包含硬件元素又包含软件元素的实施例。

参考根据一个或多个实施例的方法、设备(系统)和计算机程序产品的流程图和/或框图描述了一个或多个实施例。这种图示/示意图或其组合的每个功能块可以通过计算机程序指令来实施。当被提供给处理器时，计算机程序指令产生机器，使得经由处理器执行的指令生成用于实施在流程图和/或框图中指定的功能/操作。在流程图/框图中的每个功能块可以代表实施一个或多个实施例的硬件和/或软件模块或逻辑。在可替换实施方式中，方框中提到的功能可以与图中提到的顺序不同的顺序发生、同时地发生，等等。

术语“计算机程序介质”、“计算机可用介质”、“计算机可读介质”和“计算机程序产品”用于通常指的是诸如主要内存、次要内存、可移除存储驱动、安装在硬盘驱动中的硬盘这样的介质。这些计算机程序产品是用于向计算机系统提供软件的装置。计算机可读介质允许计算机系统从计算机可读介质读取数据、指令、消息或消息包和其他计算机可读信息。计算机可读介质，例如，可以包括非易失性内存，诸如软盘、ROM、闪存、磁盘驱动内存、CD-ROM，和其他永久性存储装置。例如，对于在计算机系统之间传输诸如数据和计算机指令这样的信息，这是有用的。计算机程序指令可以存储在计算机可读介质中，其能够指引计算机、其他可编程数据处理设备或其他装置以特定方式起作用，使得存储在计算机可读介质中的指令产生制造规程，该规程包括实施在流程图和/或框图的一个或多个框中指定的功能/行动。

表示本文中的框图和/或流程图的计算机程序指令可以被加载到计算机、可编程数据处理设备或处理装置上，导致在其上执行一系列操作，从而产生计算机实施的处理。计算机程序(即，计算机控制逻辑)被存储在主内存和/或次内存中。计算机程序也可以经由通信接口被接收到。这样的计算机程序，在被执行时，使计算机系统能够执行如本文中讨论的实施例的特征。尤其是，计算机程序，在被执行时，使处理器和/或多核处理器能够执行计算机系统的特征。这种计算机程序表示计算机系统的控制器。计算机程序产品包括有形存储介质，其能够由计算机读取并且存储被计算机系统执行从而执行一个或多个实施例的方法的指令。

尽管实施例是通过参考其某些版本描述的，然而，其他版本也是可能的。因此，所附强烈要求的精神和范围不应被限制到对本文中包含的优选版本的描述。

Claims

1.一种对话语进行识别的方法，包括：

将与第一装置相关联的语境数据发送到第二装置；

从所述第二装置接收第一语音识别模型，其中所述第一语音识别模型是存在于所述第二装置处的第二语音识别模型的子集，并且其中所述第一语音识别模型是基于所述语境数据的；

确定是否能够在所述第一装置处基于所述第一语音识别模型识别所述话语；

如果不能在所述第一装置处识别所述话语，则将所述话语的至少一部分发送到所述第二装置；和

如果能够在所述第一装置处识别所述话语，则执行与识别的话语相关联的动作。

2.如权利要求1所述的方法，其中所述第二装置处于比所述第一装置更高的处理级。

3.如权利要求1所述的方法，其中所述第一语音识别模型包括第一语言模型和第一声学模型中的至少一者，并且所述第二语音识别模型包括第二语言模型和第二声学模型中的至少一者。

4.如权利要求1所述的方法，其中如果能在所述第一装置处识别所述话语，则在所述第一装置处本地执行与所述话语相关联的动作。

5.如权利要求1所述的方法，进一步包括：

当所述第一装置接近第三装置时，接收来自所述第三装置的第三语音识别模型，该第三语音识别模型允许所述第一装置处理与所述第三装置相关联的其他话语，并且允许所述第三装置在本地执行经处理的其他话语。

6.如权利要求1所述的方法，其中所述确定是否能够在所述第一装置处基于所述第一语音识别模型处理所述话语的步骤包括：基于以下项中的至少一项确定是否超过阈值：估计的错词率、话语的长度、所述话语中关键词的存在性、网络连接的可用性、处理所述话语的先前历史，和所述第一装置的处理能力。

7.如权利要求1所述的方法，进一步包括：

基于当前位置和时间中的一者或多者为所述第一装置在云环境中选择性地预处理语音识别。

8.如权利要求4所述的方法，进一步包括由所述第一装置确定所述第一装置附近的哪个其他装置能够执行所述动作。

9.如权利要求1所述的方法，其中在一个层的装置内进行的语音处理包括：根据使用网关在目标装置上执行动作的保证顺序，该网关确定动作执行的顺序。

10.如权利要求1所述的方法，其中按照有序的处理顺序或分层的处理顺序在所述第一装置与一个或多个其他较高处理级装置之间选择性地传递语音解码。

11.如权利要求8所述的方法，其中继续所述有序的处理顺序或所述分层的处理顺序，直至特定处理级被匹配以执行可行命令。

12.如权利要求1所述的方法，进一步包括：

基于使用者标准确定多重自动语音识别(ASR)实施的能力，其中所述动作是基于多个语言模型和多个声学模型而被执行的，其中多个可行命令被网络装置发布并被所述网络装置中的一个或多个订阅。

13.如权利要求1所述的方法，其中所述第一装置包括移动电子装置、智能家具装置、智能电视装置和智能家居系统中的一个或多个。

14.一种电子装置，包括：

发送器，其将与电子装置相关联的语境数据发送到第二装置；

麦克风，用于接收话语；和

语音处理器，配置成：从所述第二装置接收第一语音识别模型，其中所述第一语音识别模型是存在于所述第二装置处的第二语音识别模型的子集并且是基于所述语境数据的，确定是否能够在所述电子装置处基于所述第一语音识别模型识别所述话语，如果不能在所述电子装置处识别所述话语则将所述话语的至少一部分发送到所述第二装置，和如果能够在所述电子装置处识别所述话语则执行与识别的话语相关联的动作。

15.如权利要求14所述的电子装置，其中所述第二装置处于比所述电子装置更高的处理级。