CN111164676B

CN111164676B - 经由环境语境采集进行的语音模型个性化

Info

Publication number: CN111164676B
Application number: CN201780095381.8A
Authority: CN
Inventors: 加百利·阿莫里斯; 吉列尔莫·佩雷斯; 摩西·瓦塞布拉特; 卢瓦克·迪弗雷森·德·维雷尔; 迈克尔·戴希尔
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2017-11-15
Filing date: 2017-11-15
Publication date: 2025-03-11
Anticipated expiration: 2037-11-15
Also published as: US20240038218A1; WO2019097276A1; US11776530B2; US20200243069A1; CN111164676A

Abstract

本文描述了一种用于经由环境语境采集实现的具有个性化的语音模型的装置。该装置包括麦克风、语境采集模块、置信度模块，以及训练模块。语境采集模块用于确定与所捕获的音频信号相关联的语境。置信度模块用于确定语境被应用于音频信号的置信度。训练模块用于响应于置信度高于预定阈值而训练神经网络。

Description

经由环境语境采集进行的语音模型个性化

背景技术

语音识别系统依赖于各种语音模型来将口语(spoken language)翻译成文本。使用了口语接口的目标用户的语音记录和转录(transcript)可用于通过训练语音模型来提高语音识别系统的准确性。用户可以阅读已知的脚本或文本来训练模型，以识别用户并对用户语音的识别进行微调。

附图说明

图1是经由环境语境采集(ambient context harvesting)实现的具有个性化的语音识别模型的图示；

图2是用于使能经由环境语境采集的具有个性化的语音模型的方法的过程流程图；

图3是用于即时标识语境的方法的过程流程图；

图4是电子设备的框图，该电子设备使能经由环境语境采集的具有个性化的语音模型；以及

图5是示出了一种介质的框图，该介质包含用于经由环境语境采集的具有个性化的语音模型的逻辑。

在整个公开和附图中使用相同的数字来引用相似的部件和特征。100系列中的数字是指最初在图1中找到的特征；200系列中的数字是指最初在图2中找到的特征；以此类推。

具体实施方式

对可靠的语音训练数据的收集通常具有侵扰性且耗时。如上所述，用户必须经常阅读已知的脚本或文本来训练模型，以识别用户并对用户语音的识别进行微调。传统系统通常会提示用户说出费时且用起来繁琐的注册(enrollment)短语。传统文本识别系统所使用的此类注册短语和其他训练材料并未被收集在目标使用设置中。在诸如“云”之类的远程网络中收集用户话语的语音识别系统会损害用户的隐私，并且仅限于云使用情况。例如，存储在云中的话语通常仅限于简短的查询，因为大量话语的传输经常计算量比较大并且能耗也比较大。此外，可靠的转录经常很难被开发和获取，因为现实的声学场景会改变与最直接的转录相对应的文本。

本文描述的实施例经由环境语境采集来进行语音模型个性化。如本文所用，语境可以指可以影响发生的话语类型的情形信息。语境可以基于，例如语言学、时间、位置、重复行为，或其任意组合。在实施例中，电子设备可以是佩戴式设备，其侦听其中存在高置信度的识别正确性的情形，包括结构化交互(例如，游戏、医疗方案等)和高频单词模式。高频单词模式可以是在特定语境中经常出现的一个单词或多个单词。例如，在给出方向时，可能经常会说出单词“向右”、“向左”以及“此处转弯”。此高置信度语音被用于调适存储在佩戴式电子设备上的声学模型，以使语音识别个性化，从而提高准确性。高置信度数据可以是高于预定置信度阈值的数据。本技术使得能够即时训练语音模型，而不会侵扰用户的日常行为。实际上，本技术可以用于训练、再训练、以及调适说话者相关的(speaker dependent)语音识别系统，而无需使用用户阅读的预定文本。在一些实施例中，可以使用本文描述的技术来识别来自多个说话者的语音。

一些实施例可以以硬件、固件以及软件中的一种或其组合来实现。此外，一些实施例还可以被实现为存储在机器可读介质上的指令，该指令可以由计算平台读取并执行，以执行本文描述的操作。机器可读介质可以包括用于以机器(例如，计算机)可读的形式存储或传输信息的任何机件。例如，机器可读介质可以包括只读存储器(ROM)；随机存取存储器(RAM)；磁盘存储介质；光学存储介质；闪存设备；或者电的、光学的、声学的或其他形式的传播信号，例如，载波、红外信号、数字信号、或发送和/或接收信号的接口等。

实施例是实现方式或示例。说明书中对“实施例”、“一个实施例”、“一些实施例”、“各种实施例”或“其他实施例”的引用是指结合这些实施例描述的特定的特征、结构、或特性被包括在本技术的至少一些实施例中，但不一定是所有实施例。“实施例”、“一个实施例”、或“一些实施例”的各种出现不一定都指相同的实施例。一实施例中的元素或方面可以与另一实施例的元素或方面相组合。

图1是经由环境语境采集的具有个性化的语音识别模型100的图示。尽管将模型图示为具有各个阶段，但是可以通过多于或少于图示的块来执行对模型的训练、再训练、以及调适。麦克风阵列102可以用于捕获音频。所捕获的音频被发送到语音识别块104、说话者识别块106、以及存档决策块108。语音识别块104可以用于确定与麦克风阵列102所捕获的音频中的语言相对应的文本。说话者识别块106可以用于标识特定的说话者。本技术可以用于标识多个说话者，并且可以用于训练模型以识别来自每个已标识用户的语音。存档决策块108可以被配置为确定特定的交互是否应当被存储为新交互，这将在下文中进一步描述。

语言模型110和声学模型112可以将数据提供给语音识别块104。在实施例中，语言模型110和声学模型112可以各自被实现为隐马尔可夫模型(Hidden Markov Model，HMM)，其使语音识别系统能够依赖于包括语言、声学、和句法元素在内的数据的组合。随着更多语境被得出，语言模型110可以通过调适语言模型来使语境能够被用作将各种声音匹配到单词序列的约束条件。在实施例中，如下文所述，可以采集语境并将其用于训练、再训练、以及调适。在实施例中，语言模型110可以提供一系列声音属于特定单词组的可能性。声学模型112可以用于标识音频信号和语音的语言学单元之间的关系。在实施例中，语言模型110和声学模型112可以基于典型的交互来以初始模型作为根源，并且基于观察到的结构化交互来调适。利用从语言模型110和声学模型112提供的信息，语音识别块104可以将识别出的文本流输出到对话模式识别116。

说话者识别块106可用于从麦克风102所捕获的音频中标识说话者。说话者识别可用于简化块104处的语音识别。在实施例中，说话者识别块106可用于确定主要用户以及与该用户交互的多个说话者。在实施例中，说话者识别块106可以是使用数据(例如行为数据118)，以标识用户以及其他说话者。在实施例中，可以从诸如日历和历史之类的可用数据库获得行为数据。例如，如果用户在日历上与特定的人/说话者有约会，则说话者识别可以使用该约会和任何其他先前的约会来应用语境以标识特定的人/说话者。而且，用户与特定的人/说话者一起使用的语言可以是重复的或累积的。本技术可以用于基于用户的行为来标识语境。

说话者识别块可以将多个已标识的说话者输出到说话者置信度块120。可以基于说话者识别技术来确定说话者置信度。在实施例中，说话者置信度是指在块106处通过说话者识别算法标识的说话者是真实说话者的可能性。在说话者识别中，可以将说话者分数(也许会通过反说话者(anti-speaker)或背景模型来标准化)与阈值进行比较，并做出二元决策。可以基于原始说话者、背景、反说话者等分数来得出置信度分数。另外，在实施例中，可以使用对如位置、地点等的其他信息的贝叶斯推理条件作用(Bayesian inferenceconditioning)来确定说话者置信度。给定上述信息，说话者置信度块可以输出说话者可能性。

来自块120的说话者置信度连同来自块122的时钟、位置及视频/摄像头数据可以被输入到对话模式识别块116。另外，如图所示，对话模式识别块116也可以将来自块104的识别出的语音和来自块124的结构化交互的清单作为输入。结构化交互的清单可以包括，例如对话流、语法、词典等。在块116处，可利用来自块120的说话者置信度，块122处的时钟、位置及摄像头，以及块114处的声学和语言置信度来分析在块104处确定的文本，以确定特定对话模式是否对应于结构化交互。当特定对话模式对应于结构化交互时，其可以在块124处被存储在结构化交互的清单中。对话模式可以指代一系列交互。在某些情况下，一系列交互可以采用意图和自变量(argument)的形式，例如“greeting+give_direction(right)+quit”。对话模式可以通过自动语音识别(ASR)转录加上意图及自变量标识部件来得出。

在块108处，做出存档当前模式的决策。如果当前模式没有被存档，则在块126处将其丢弃。如果当前模式被存档，则在块128处将其存储为特定于用户/语境的训练数据。在块128处，基于语法来创建或更新识别出的交互模式。文本序列和意图序列可用于识别交互模式。在实施例中，块128的输出可以是从文本/意图序列中得出的流程图。如果当前对话模式被存档，则针对存档中的每个模式来评估相似性度量，这可能通过使用散列来高效地实现。在块130处使用此训练数据来调适语言模型110和声学模型112。块130处的调适包括但不限于，提供数据以利用在特定语境期间获得的特定于模型的数据来调适语言模型和声学模型中的每一者。具体而言，调适包括利用从块128处获得的新的特定于用户的数据来训练新的统计模型。训练新的统计模型可以取决于为了获得声学和语言模型而被应用的统计技术。

在实施例中，声学模型可以通过如下操作来进行调适：通过调整声学模型的参数以对新数据做出解释，通过增加特定于说话者的参数，或通过创建将特征向量映射到规范声学空间的新特征向量变换等。语言模型可以通过如下操作来进行调适：通过调整n-gram频率以对新数据做出解释，通过内插新的n-gram频率，向词典添加新单词等。

因此，在通过模型100的初始遍历中，本技术可以建立包括用户身份和任何其他相关联说话者的初始语境。随着麦克风捕获更多数据，基于用户的使用模式，结构化交互的清单可能会增加以包括附加的结构化交互。该模型可以是始终开启且始终侦听的模型(analways on,always listening model)。传统技术着重于手动数据收集，并且需要大量的人工输入来训练模型。通常，数百小时的训练数据(音频)被用于训练语音识别模型。本技术介绍了一种模型，其可以在各种不同的语境中被训练并且不限于一个预定的文本或模式。

所提出的系统依赖于结构化交互的数据库。结构化交互是日常生活中发生的对话流的模式。示例包括玩游戏(具有特定的话轮(turn-taking)结构、词汇、对象关系等)、购买、打电话、社交互动、商业交易等。佩戴式或环境设备上的麦克风用于监视音频，使用语音识别引擎对其进行处理以将其转换为文本(具有一定的置信度)，并利用说话者识别引擎进行处理以标识讲话者(具有一定的置信度)。来自语音识别的文本(或文本点阵(lattice))、来自说话者识别引擎的说话者身份假设、置信度测量结果，连同其他传感器输入(时间、位置、对象等)以及其他相关数据库(日历、交互历史等)被用于标识和表征当前的交互模式。文本点阵可以是由ASR处理的用户输入的所有可能解释的集合，其通常采用非循环有向图(Acyclic Directed Graph)的形式。交互模式可以是，例如，问候，之后是问题/答案，之后是付款，之后是致意。

当结构化交互模式被标识出时(例如，用户在杂货店的收银台前购物)，可以利用特定于该模式的语法和词典来重新运行语音识别以确定置信度是否增加。如果置信度增加，则有助于确认已标识出正确的模式。如果某清楚(clear)的模式以高的声学和语言置信度被标识出来，但不与先前存储的模式之一匹配，则可以将其存储为新的模式。如果语音识别的声学置信度、语言置信度、以及模式置信度很高，则将音频及其转录保存下来，以备将来进行对声学和语言模型的调适或训练。置信度可以是指示在给定所有可用数据的情况下给定决策是正确的可能性的数字。在实施例中，置信度可以是指示相对于当前语境所确定的给定语言、声学、或模式是正确的分数。可以通过对相关辅助信息使用贝叶斯方法和条件作用来执行置信度计算。在实施例中，可以基于在声学、语言和模式置信度中使用的特定统计技术来确定置信度分数。例如，分数可以从神经网络的最后一层中的softmax获得。

图2是方法200的过程流程图，该方法使能经由环境语境采集的具有个性化的语音模型。在块202处，收集训练数据。在实施例中，训练数据被收集作为音频、视频、或其任何组合。音频和视频数据可以由始终开启且侦听的设备监视。在块204处，确定结构化交互。例如，可以通过使用语音识别引擎来处理监视的音频，以将其转换为文本(具有一定的置信度)。说话者识别引擎还可以处理文本，以标识讲话者(具有一定的置信度)。可以基于置信度值和对已标识的对话中的模式的识别来确定结构化交互。

在块206处，可以训练模型。在实施例中，基于与已识别出的结构化交互相对应的经标记的高置信度训练数据，以无监督方式来训练模型。如果结构化交互未被识别出，则可以将该新的结构化交互保存为已识别出的结构化交互。

可以基于当前模式来训练模型，并且从文本中标识所得到的结构化交互。在实施例中，训练包括对神经网络的修改，使得网络的各层可以将音频值作为输入并产生在结构化交互期间发现的文本。在实施例中，训练输入被应用于神经网络的输入层，并且期望的输出在输出层处被比较。在学习过程期间，通过神经网络进行正向传递(forward pass)，并逐层计算每个元素的输出。随着利用附加的音频和相应的结构化交互来再训练网络，模型的准确性将会提高。

在块208处，使用经过再训练的模型第二次执行语音识别。当结构化交互模式被标识出时，可以利用特定于标识出的模式的语法和词典来重新运行语音识别，以查看置信度分数是否已增加。在实施例中，如果置信度增加，则有助于确认标识出了正确的模式。如果某清楚的模式以高的声学和语言置信度被标识出来，但不与先前存储的模式之一匹配，则可以将其存储为新的模式。此外，如果声学置信度、语言置信度、和模式置信度中的每一者都很高，则保存音频及其转录，以备将来进行声学和语言模型调适或训练。

图3是用于即时标识语境的方法300的过程流程图。在框302处，定义结构化交互。可以基于特定人的使用模式来定义结构化交互。使用模式可以包括但不限于，位置数据、设备状态、环境噪声等。例如，如果用户每天中午左右进入已知为餐厅的位置，则可以确定将发生诸如点餐之类的结构化交互。这种交互包括子组成部分，例如问候语、食物名称、价格等。在这样的示例中，如果结构化交互可以将特定餐厅定位为结构化交互的位置，则来自该餐厅的菜单可以用作标识一些可能的训练数据的文本。

在框302处，获得置信度分数。置信度分数可以指示文本的一部分属于特定结构化交互的可能性。在框304处，当置信度高于预定阈值时，文本或数据的特定部分被标记为训练数据。在框306处，当置信度分数高于预定阈值时，可以将与结构化交互相对应的数据标记为训练数据。

图4是电子设备的框图，该电子设备使能经由环境语境采集的具有个性化的语音模型。电子设备400可以是，例如膝上型计算机、平板计算机、移动电话、智能电话，或可穿戴设备等。电子设备400可以包括被配置为执行所存储的指令的中央处理单元(CPU)402，以及存储可由CPU 402执行的指令的存储器设备404。CPU可以通过总线406耦接至存储器设备404。另外，CPU 402可以是单核处理器、多核处理器、计算集群、或任何数目的其他配置。此外，电子设备400可以包括一个以上的CPU 402。存储器设备404可以包括随机存取存储器(RAM)、只读存储器(ROM)、闪存，或任何其他合适的存储器系统。例如，存储器设备404可以包括动态随机存取存储器(DRAM)。

电子设备400还包括图形处理单元(GPU)408。如图所示，CPU402可通过总线406耦接到GPU 408。GPU 408可被配置为在电子设备400中执行任何数目的图形操作。例如，GPU408可以被配置为渲染或操纵要被显示给电子设备400的用户的图形图像、图形帧、视频等。在一些实施例中，GPU 408包括多个图形引擎，其中每个图形引擎被配置为执行特定的图形任务或执行特定类型的工作负载。

CPU 402可以通过总线406链接到显示接口410，显示接口410被配置为将电子设备400连接到显示设备412。显示设备412可以包括作为电子设备400的内置部件的显示屏。显示设备412还可以包括从外部连接至电子设备400的计算机监视器、电视、或投影仪等。

CPU 402还可以通过总线406连接到输入/输出(I/O)设备接口414，输入/输出(I/O)设备接口414被配置为将电子设备400连接到一个或多个I/O设备416。I/O设备416可以包括，例如键盘和定点设备，其中定点设备可以包括触摸板或触摸屏等。I/O设备416可以是电子设备400的内置部件，或者可以是从外部连接到电子设备400的设备。

电子设备还包括麦克风阵列418。麦克风阵列418可以具有任何数目的麦克风。麦克风阵列418可以用于捕获将被输入到语音识别模型中的音频。类似地，摄像头420可用于捕获视频和图像数据，该视频和图像数据可用于如上所述的环境语境采集。语音识别模块422可以用于以说话者相关的方式和说话者不相关的方式中的每一者来识别语音。语境采集模块424可以通过分析音频并使用其他信息确定可能是特定结构化交互的组成部分的对话模式，来确定语音发生的各种语境。训练模块426可以将音频数据与从音频数据得出的结构化交互一起使用，以训练要实现语音识别功能的神经网络。

电子设备还可以包括存储设备428。存储设备428是物理存储器，例如硬盘驱动器、光盘驱动器、闪存驱动器、驱动器阵列、或其任何组合。存储设备428可以存储用户数据，诸如音频文件、视频文件、音频/视频文件、以及图片文件等。存储设备428还可以存储诸如设备驱动程序、软件应用、操作系统等之类的编程代码。存储到存储设备428的编程代码可以由CPU 402、GPU 408、或可以被包括在电子设备400中的任何其他处理器执行。

CPU 402可以通过总线406链接到蜂窝硬件430。蜂窝硬件430可以是任何蜂窝技术，例如，4G标准(由国际电信联盟–无线电通信部门(International TelecommunicationsUnion–Radio communication Sector)(ITU-R)发布的高级国际移动电信(IMT-Advanced)标准)。以此方式，在网络436是蜂窝网络的情况下，电子设备400可以访问任何网络436，而无需被束缚或配对到另一设备。

CPU 402也可以通过总线406链接到WiFi硬件432。WiFi硬件是根据WiFi标准(作为电气与电子工程师协会(IEEE)802.11标准被发布的标准)的硬件。在网络436是互联网的情况下，WiFi硬件432使电子设备400能够通过使用传输控制协议和互联网协议(TCP/IP)来连接到互联网。因此，电子设备400可以通过根据TCP/IP协议寻址、路由、发送、以及接收数据来实现与互联网的端到端连接，而无需使用另一设备。另外，蓝牙接口434可以通过总线406耦接到CPU 402。蓝牙接口434是根据蓝牙网络(基于由蓝牙特别兴趣小组发布的蓝牙标准)的接口。蓝牙接口434使电子设备400能够通过个域网(PAN)与其他具有蓝牙功能的设备配对。因此，网络436可以是PAN。具有蓝牙功能的设备的示例包括膝上型计算机、台式计算机、超级本、平板计算机、移动设备、或服务器等。虽然图示了一个网络，但是电子设备400可以同时与多个网络连接。

图4的框图并不旨在指示电子设备400将包括图4所示的所有部件。而是，计算系统400可以包括更少的或附加的未在图4中示出的部件(例如，传感器、电源管理集成电路、附加的网络接口等)。视具体实现方式的细节而定，电子设备400可以包括图4中未示出的任何数目的附加部件。此外，CPU 402的任何功能可以部分地或全部地在硬件和/或处理器中实现。例如，功能可以利用专用集成电路，以在处理器中实现的逻辑，以在专用图形处理单元中实现的逻辑，或以任何其他设备来实现。

图5是示出介质500的框图，介质500包含用于经由环境语境采集的具有个性化的语音模型的逻辑。介质500可以是计算机可读介质，包括存储可以由处理器502通过计算机总线504访问的代码的非暂时性介质。例如，计算机可读介质500可以是易失性的或非易失性的数据存储设备。介质500还可以是逻辑单元，例如专用集成电路(ASIC)、现场可编程门阵列(FPGA)、或在例如一个或多个集成电路中实现的逻辑门的布置。

介质500可以包括模块506-510，该模块被配置为执行本文描述的技术。例如，收集模块506可以被配置为收集数据，以用作输入来训练用于语音识别的神经网络。在实施例中，数据包括音频数据。数据还可以包括行为数据，例如，日历信息、历史、位置信息等。语境采集模块508可以被配置为从收集的信息中得出语境。可以基于对话模式和结构化交互来确定语境。训练模块510可以被配置为基于所采集的语境和所收集的数据来训练神经网络。在一些实施例中，模块506-510可以是被配置为指导处理器502的操作的计算机代码的模块。

图5的框图并不旨在指示介质500将包括图5所示的所有部件。此外，介质500可以包括图5中未示出的任何数目的附加部件，这视具体实现方式的细节而定。

示例1是用于经由环境语境采集实现的具有个性化的语音模型的装置。该装置包括麦克风，用于捕获音频信号；语境采集模块，用于确定与所捕获的音频信号相关联的语境；置信度模块，用于确定语境被应用于音频信号的置信度分数；训练模块，用于响应于置信度高于预定阈值而训练神经网络。

示例2包括示例1的装置，包括或不包括可选特征。在此示例中，语境是通过基于音频信号内的对话模式得出结构化交互来确定的。

示例3包括示例1至2中任一者的装置，包括或不包括可选特征。在此示例中，语境至少部分地基于行为数据。

示例4包括示例1至3中任一者的装置，包括或不包括可选特征。在此示例中，置信度包括语言置信度。

示例5包括示例1至4中任一者的装置，包括或不包括可选特征。在此示例中，置信度包括声学置信度。

示例6包括示例1至5中任一者的装置，包括或不包括可选特征。在此示例中，置信度包括模式置信度。

示例7包括示例1至6中任一者的装置，包括或不包括可选特征。在此示例中，语境是通过基于音频信号内的对话模式得出结构化交互来确定的，并且响应于该结构化交互是新的结构化交互，该结构化交互被存储在数据库中。

示例8包括示例1至7中任一者的装置，包括或不包括可选特征。在此示例中，根据权利要求1所述的装置，响应于置信度高于预定阈值，使用语境和音频信号来调适语言模型和声学模型。

示例9包括示例1至8中任一者的装置，包括或不包括可选特征。在此示例中，语境是通过基于音频信号内的对话模式得出结构化交互来确定的，并且响应于结构化交互的附加识别部分，存储的结构化交互被扩展。

示例10包括示例1至9中任一者的装置，包括或不包括可选特征。在此示例中，训练模块基于附加语境和关联的音频数据来迭代地训练和调适神经网络。

示例11是用于经由环境语境采集实现具有个性化的语音模型的系统。该系统包括麦克风，用于捕获音频信号；存储器，用于存储指令并且通信地耦接到麦克风；以及处理器，通信地耦接到摄像头和存储器，其中，当处理器要执行指令时，处理器将进行以下操作：确定与所捕获的音频信号相关联的语境；确定语境被应用于音频信号的置信度分数；响应于置信度高于预定阈值而训练神经网络。

示例12包括示例11的系统，包括或不包括可选特征。在此示例中，语境是通过基于音频信号内的对话模式得出结构化交互来确定的。

示例13包括示例11至12中任一者的系统，包括或不包括可选特征。在此示例中，语境至少部分地基于行为数据。

示例14包括示例11至13中任一者的系统，包括或不包括可选特征。在此示例中，置信度包括语言置信度。

示例15包括示例11至14中任一者的系统，包括或不包括可选特征。在此示例中，置信度包括声学置信度。

示例16包括示例11至15中任一者的系统，包括或不包括可选特征。在此示例中，置信度包括模式置信度。

示例17包括示例11至16中任一者的系统，包括或不包括可选特征。在此示例中，语境是通过基于音频信号内的对话模式得出结构化交互来确定的，并且响应于该结构化交互是新的结构化交互，该结构化交互被存储在数据库中。

示例18包括示例11至17中任一者的系统，包括或不包括可选特征。在此示例中，根据权利要求11所述的系统，响应于置信度高于预定阈值，使用语境和音频信号来调适语言模型和声学模型。

示例19包括示例11至18中任一者的系统，包括或不包括可选特征。在此示例中，语境是通过基于音频信号内的对话模式得出结构化交互来确定的，并且响应于结构化交互的附加识别部分，存储的结构化交互被扩展。

示例20包括示例11至19中任一者的系统，包括或不包括可选特征。在此示例中，训练模块基于附加语境和关联的音频数据来迭代地训练和调适神经网络。

示例21是一种方法。该方法包括捕获音频信号；确定与所捕获的音频信号相关联的语境；确定语境被应用于音频信号的置信度分数；以及响应于置信度高于预定阈值而训练神经网络。

示例22包括示例21的方法，包括或不包括可选特征。在此示例中，语境是通过基于音频信号内的对话模式得出结构化交互来确定的。

示例23包括示例21至22中任一者的方法，包括或不包括可选特征。在此示例中，语境至少部分地基于行为数据。

示例24包括示例21至23中任一者的方法，包括或不包括可选特征。在此示例中，置信度包括语言置信度。

示例25包括示例21至24中任一者的方法，包括或不包括可选特征。在此示例中，置信度包括声学置信度。

示例26包括示例21至25中任一者的方法，包括或不包括可选特征。在此示例中，置信度包括模式置信度。

示例27包括示例21至26中任一者的方法，包括或不包括可选特征。在此示例中，语境是通过基于音频信号内的对话模式得出结构化交互来确定的，并且响应于该结构化交互是新的结构化交互，该结构化交互被存储在数据库中。

示例28包括示例21至27中任一者的方法，包括或不包括可选特征。在此示例中，根据权利要求21所述的方法，响应于置信度高于预定阈值，使用语境和音频信号来调适语言模型和声学模型。

示例29包括示例21至28中任一者的方法，包括或不包括可选特征。在此示例中，语境是通过基于音频信号内的对话模式得出结构化交互来确定的，并且响应于结构化交互的附加识别部分，存储的结构化交互被扩展。

示例30包括示例21至29中任一者的方法，包括或不包括可选特征。在此示例中，训练模块基于附加语境和关联的音频数据来迭代地训练和调适神经网络。

示例31是其中存储有指令的至少一种非暂时性机器可读介质。该计算机可读介质包括指令，这些指令指导处理器进行以下操作：捕获音频信号；确定与所捕获的音频信号相关联的语境；确定语境被应用于音频信号的置信度分数；以及响应于置信度高于预定阈值而训练神经网络。

示例32包括示例31的计算机可读介质，包括或不包括可选特征。在此示例中，语境是通过基于音频信号内的对话模式得出结构化交互来确定的。

示例33包括示例31至32中任一者的计算机可读介质，包括或不包括可选特征。在此示例中，语境至少部分地基于行为数据。

示例34包括示例31至33中任一者的计算机可读介质，包括或不包括可选特征。在此示例中，置信度包括语言置信度。

示例35包括示例31至34中任一者的计算机可读介质，包括或不包括可选特征。在此示例中，置信度包括声学置信度。

示例36包括示例31至35中任一者的计算机可读介质，包括或不包括可选特征。在此示例中，置信度包括模式置信度。

示例37包括示例31至36中任一者的计算机可读介质，包括或不包括可选特征。在此示例中，语境是通过基于音频信号内的对话模式得出结构化交互来确定的，并且响应于该结构化交互是新的结构化交互，该结构化交互被存储在数据库中。

示例38包括示例31至37中任一者的计算机可读介质，包括或不包括可选特征。在此示例中，根据权利要求31所述的机器可读介质，响应于置信度高于预定阈值，使用语境和音频信号来调适语言模型和声学模型。

示例39包括示例31至38中任一者的计算机可读介质，包括或不包括可选特征。在此示例中，语境是通过基于音频信号内的对话模式得出结构化交互来确定的，并且响应于结构化交互的附加识别部分，存储的结构化交互被扩展。

示例40包括示例31至39中任一者的计算机可读介质，包括或不包括可选特征。在此示例中，训练模块基于附加语境和关联的音频数据来迭代地训练和调适神经网络。

示例41是用于经由环境语境采集实现的具有个性化的语音模型的装置。该装置包括用于捕获音频信号的麦克风；用于确定与所捕获的音频信号相关联的语境的构件；用于确定语境被应用于音频信号的置信度分数的构件；以及用于响应于置信度高于预定阈值而训练神经网络的构件。

示例42包括示例41的装置，包括或不包括可选特征。在此示例中，语境是通过基于音频信号内的对话模式得出结构化交互来确定的。

示例43包括示例41至42中任一者的装置，包括或不包括可选特征。在此示例中，语境至少部分地基于行为数据。

示例44包括示例41至43中任一者的装置，包括或不包括可选特征。在此示例中，置信度包括语言置信度。

示例45包括示例41至44中任一者的装置，包括或不包括可选特征。在此示例中，置信度包括声学置信度。

示例46包括示例41至45中任一者的装置，包括或不包括可选特征。在此示例中，置信度包括模式置信度。

示例47包括示例41至46中任一者的装置，包括或不包括可选特征。在此示例中，语境是通过基于音频信号内的对话模式得出结构化交互来确定的，并且响应于该结构化交互是新的结构化交互，该结构化交互被存储在数据库中。

示例48包括示例41至47中任一者的装置，包括或不包括可选特征。在此示例中，根据权利要求41所述的装置，响应于置信度高于预定阈值，使用语境和音频信号来调适语言模型和声学模型。

示例49包括示例41至48中任一者的装置，包括或不包括可选特征。在此示例中，语境是通过基于音频信号内的对话模式得出结构化交互来确定的，并且响应于结构化交互的附加识别部分，存储的结构化交互被扩展。

示例50包括示例41至49中任一者的装置，包括或不包括可选特征。在此示例中，训练模块基于附加语境和关联的音频数据来迭代地训练和调适神经网络。

并非本文描述和图示的所有部件、特征、结构、特性等都需要包括在一个或多个特定方面中。如果说明书例如指出部件、特征、结构、或特性“可”、“可以”、“能”或“能够”被包括，则该特定部件、特征、结构、或特性不是必须被包括。如果说明书或权利要求书提及“一”元素，则并不意味着仅存在一个元素。如果说明书或权利要求书提及“附加”元素，则不排除存在一个以上附加元素。

要注意的是，尽管已经参考特定实现方式描述了一些方面，但是根据一些方面，其他实现方式也是可能的。另外，附图中图示和/或本文描述的电路元件或其他特征的布置和/或顺序不需要以图示和描述的特定方式布置。根据一些方面，许多其他布置是可能的。

在附图中所示的每个系统中，在某些情况下，元件可以各自具有相同的参考标记或不同的参考标记，以表明所表示的元件可以是不同的和/或相似的。然而，元件可以足够灵活，以具有不同的实现方式并且可以与本文示出或描述的一些或所有系统一起工作。附图中所示的各种元件可以是相同的或不同的。哪个被称为第一元件以及哪个被称为第二元件是任意的。

应当理解，在一个或多个方面的任何地方都可以使用前述示例中的细节。例如，还可相对于本文描述的方法或计算机可读介质来实现上述计算设备的所有可选特征。此外，尽管流程图和/或状态图可能已在本文中用于描述各方面，但是技术并不限于这些图或本文中的相应描述。例如，流程不需要经过每个图示的框或状态或者以与本文图示和描述的完全相同的顺序移动。

本技术不限于本文列出的特定细节。实际上，受益于本公开的本领域技术人员将理解，可以在本技术的范围内对前述描述和附图进行许多其他变型。因此，以下权利要求包括对其的任何修改，其限定了本技术的范围。

Claims

1.一种用于经由环境语境采集进行语音建模的装置，包括：

麦克风，用于捕获音频信号；

语境采集模块，用于基于所述音频信号检测语音，标识与所述音频信号的捕获相关联的位置或时间，并且基于所述位置或所述时间确定与所捕获的音频信号相关联的语境；

置信度模块，用于确定指示所述语音与所述语境相关联的可能性的置信度分数，并且执行所述置信度分数与置信度阈值的比较；以及

训练模块，用于响应于所述置信度分数高于所述置信度阈值而基于与所述语音相对应的所述音频信号来训练神经网络。

2.根据权利要求1所述的装置，其中，所述语境是通过基于所述音频信号内的对话模式得出结构化交互来确定的。

3.根据权利要求1所述的装置，其中，所述语境至少部分地基于行为数据。

4.根据权利要求1所述的装置，其中，所述置信度模块用于基于所述语音的语言置信度确定所述置信度分数。

5.根据权利要求1所述的装置，其中，所述置信度模块用于基于所述语音的声学置信度确定所述置信度分数。

6.根据权利要求1所述的装置，其中，所述置信度模块用于基于所述语音的模式置信度确定所述置信度分数。

7.根据权利要求1所述的装置，其中，所述语境是通过基于所述音频信号内的对话模式得出结构化交互来确定的，并且响应于所述结构化交互是新的结构化交互，所述结构化交互被存储在数据库中。

8.根据权利要求1所述的装置，其中，所述训练模块用于响应于所述置信度分数高于所述置信度阈值，通过使用所述语境和所述音频信号来调适语言模型和声学模型。

9.根据权利要求1所述的装置，其中，所述语境是通过基于所述音频信号内的对话模式得出结构化交互来确定的，并且响应于所述结构化交互的附加识别部分，存储的结构化交互被扩展。

10.根据权利要求1所述的装置，其中，所述训练模块基于附加的语境和关联的音频数据来迭代地训练和调适所述神经网络。

11.一种用于经由环境语境采集进行语音建模的系统，包括：

麦克风，用于捕获音频信号；

存储器，用于存储指令并且通信地耦接到所述麦克风；以及

处理器，通信地耦接到摄像头和所述存储器，其中，当所述处理器要执行所述指令时，所述处理器将进行以下操作：

基于所述音频信号检测语音；

标识与所述音频信号的捕获相关联的位置或时间；

基于所述位置或所述时间确定与所捕获的音频信号相关联的语境；

确定指示所述语音与所述语境相关联的可能性的置信度分数；

执行所述置信度分数与置信度阈值的比较；以及

响应于所述置信度分数高于所述置信度阈值而基于与所述语音相对应的所述音频信号来训练神经网络。

12.根据权利要求11所述的系统，其中，所述语境是通过基于所述音频信号内的对话模式得出结构化交互来确定的。

13.根据权利要求11所述的系统，其中，所述语境至少部分地基于行为数据。

14.根据权利要求11所述的系统，其中，当所述处理器要执行所述指令时，所述处理器将基于所述语音的语言置信度确定所述置信度分数。

15.根据权利要求11所述的系统，其中，当所述处理器要执行所述指令时，所述处理器将基于所述语音的声学置信度确定所述置信度分数。

16.根据权利要求11所述的系统，其中，当所述处理器要执行所述指令时，所述处理器将基于所述语音的模式置信度确定所述置信度分数。

17.根据权利要求11所述的系统，其中，所述语境是通过基于所述音频信号内的对话模式得出结构化交互来确定的，并且响应于所述结构化交互是新的结构化交互，所述结构化交互被存储在数据库中。

18.根据权利要求11所述的系统，其中，当所述处理器要执行所述指令时，所述处理器将响应于所述置信度分数高于所述置信度阈值，通过使用所述语境和所述音频信号来调适语言模型和声学模型。

19.根据权利要求11所述的系统，其中，所述语境是通过基于所述音频信号内的对话模式得出结构化交互来确定的，并且响应于所述结构化交互的附加识别部分，存储的结构化交互被扩展。

20.根据权利要求11所述的系统，其中，所述训练模块基于附加的语境和关联的音频数据来迭代地训练和调适所述神经网络。

21.一种方法，包括：

捕获音频信号；

基于所述音频信号检测语音；

标识与所述音频信号的捕获相关联的位置或时间；

确定指示所述语音与所述语境相关联的可能性的置信度分数；以及

执行所述置信度分数与置信度阈值的比较；

22.根据权利要求21所述的方法，其中，所述语境是通过基于所述音频信号内的对话模式得出结构化交互来确定的。

23.根据权利要求21所述的方法，其中，所述语境至少部分地基于行为数据。

24.根据权利要求21所述的方法，其中，所述置信度分数是基于所述语音的语言置信度而被确定的。

25.根据权利要求21所述的方法，其中，所述置信度分数是基于所述语音的声学置信度而被确定的。