CN114097025A

CN114097025A - 两遍端到端语音识别

Info

Publication number: CN114097025A
Application number: CN202080040823.0A
Authority: CN
Inventors: 塔拉·C·赛纳特; 庞若鸣; 戴维·雷巴赫; 何彦璋; 罗希特·普拉巴瓦尔卡尔; 李炜; 米可·维森泰; 梁桥; 特雷弗·施特勒曼; 吴永辉; 伊恩·C·麦格劳; 邱中镇
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2019-06-04
Filing date: 2020-06-03
Publication date: 2022-02-25
Also published as: AU2023202949A1; KR102772952B1; AU2020288565A1; EP4047596B1; JP2024019405A; AU2023202949B2; JP7651659B2; JP7566789B2; KR20210154849A; JP2022534888A; AU2020288565B2; EP3776536A1; EP4047596A1; EP3776536B1; WO2020247489A1; US20220310072A1

Abstract

两遍自动语音识别(ASR)模型能够被用于执行流传输设备上ASR以生成在音频数据中捕获的话语的文本表示。各种实施方式包括ASR模型的用于生成在音频数据中捕获的话语的(多个)流传输候选识别的第一遍部分。例如，第一遍部分能够包括循环神经网络变换器(RNN‑T)解码器。各种实施方式包括ASR模型的用于修订话语的流传输候选识别并且生成话语的文本表示的第二遍部分。例如，第二遍部分能够包括听参加拼写(LAS)解码器。各种实施方式包括在RNN‑T解码器与LAS解码器之间共享的共享编码器。

Description

两遍端到端语音识别

背景技术

自动助理(也称为“个人助理”、“移动助理”等)可以由用户经由诸如智能电话、平板计算机、可穿戴设备、汽车系统、独立个人助理设备等的各种客户端设备与之交互。自动助理从用户接收包括口语自然语言输入(即，话语)的输入，并且可以通过执行动作、通过控制另一设备和/或提供响应内容(例如，可视和/或可听自然语言输出)来响应。经由客户端设备与之交互的自动助理可以经由客户端设备它本身和/或经由与客户端设备网络通信的一个或多个远程计算设备(例如，云中的(多个)计算设备)来实现。

自动助理能够将与用户的口语话语相对应的音频数据转换成对应的文本(或其他语义表示)。例如，能够基于经由包括自动助理的客户端设备的一个或多个麦克风对用户口语的检测来生成音频数据。自动助理能够包括语音识别引擎，该语音识别引擎试图识别在音频数据中捕获的口语话语的各种特性，诸如通过口语话语产生的声音(例如，音素)、发出音的声音的顺序、语音的韵律、声调等。此外，语音识别引擎能够标识通过这些特性表示的文本词或短语。文本然后能够由自动助理进一步处理(例如，使用自然语言理解引擎和/或对话状态引擎)以确定口语话语的响应内容。语音识别引擎能够由客户端设备和/或由远离客户端设备但与客户端设备网络通信的一个或多个自动助理组件来实现。

发明内容

本文中描述的技术针对使用端到端(E2E)两遍自动语音识别(ASR)模型来生成口语话语的文本表示。两遍ASR模型包括流传输的第一遍部分以及非流传输的第二遍部分。在许多实施方式中，第一遍部分包括循环神经网络变换器(RNN-T)解码器并且能够以流传输方式生成口语话语的候选文本表示。在各种实施方式中，非流传输的第二遍部分(例如，包括听参加拼写(LAS)解码器的部分)能够被用于改进在第一遍部分中生成的初始候选文本表示。例如，LAS解码器能够被用于对使用RNN-T解码器生成的候选文本表示进行重新排名。在许多实施方式中，两遍ASR模型能够包括共享编码器，其中RNN-T解码器和LAS解码器共享该共享编码器。与例如使用用于RNN-T解码器的专用编码器并且使用用于LAS解码器的专用编码器相比，共享编码器的使用能够减小两遍ASR模型的模型尺寸和/或能够提供提高的计算效率。换句话说，当在生成口语话语的文本表示中利用两遍ASR模型时，共享编码器的使用能够实现对存储器和/或计算资源的高效利用。当两遍ASR模型由通常具有有限的存储器和/或计算资源的客户端设备存储和利用时，对存储器和/或计算资源的这种节省能够是尤其有影响的。例如，共享编码器的使用能够实现设备上ASR在其有限的资源能够(至少在诸如低电量情形的一些情形下)防止使用(多个)其他模型的设备上ASR的(多个)客户端设备上被执行。

作为示例，客户端设备能够使用客户端设备的一个或多个麦克风来捕获“turn onthe living room lights(打开起居室灯)”的口语话语。能够使用共享编码器来以流传输方式处理“turn on the living room lights”的口语话语以生成共享编码器输出，并且能够使用RNN-T解码器来处理共享编码器输出以生成“turn on the living room lights”的流传输第一遍候选文本表示。响应于确定用户已经结束讲话，能够使用LAS解码器来处理第一遍候选文本表示以及共享编码器输出以生成“turn on the living room lights”的文本表示。

在一些实施方式中，能够使用包括RNN-T损失和LAS损失两者的组合损失函数来训练两遍模型。在那些实施方式中的一些中，训练过程能够包括：(1)训练编码器和RNN-T解码器；(2)冻结在(1)中训练的编码器并且在训练LAS解码器时使用冻结后的编码器；以及(3)使用组合损失函数来同时训练共享编码器、RNN-T解码器和LAS解码器。在那些实施方式的一些版本中，能够另外使用最小词错误率(MWER)训练过程来训练LAS解码器。

因此，各种实施方式设置用于在设备上流传输ASR中使用两遍ASR模型的技术。例如，常规ASR系统能够需要在客户端设备捕获音频数据，向远程服务器传送音频数据和/或音频数据的表示，在远程服务器处理音频数据和/或音频数据的表示以生成在音频数据中捕获的话语的文本表示，以及将话语的文本表示传送回到客户端设备。相比之下，设备上ASR系统在客户端设备处在本地生成话语的文本表示，而无需向或从远程服务器发送数据。在许多实施方式中，当与常规ASR相比时，包括两遍ASR模型的设备上ASR的使用能够通过去除向远程服务器传送数据并从远程服务器接收数据的需要来节省计算资源(例如，电池电力、处理器周期、存储器等)。另外，设备上ASR能够通过处理音频数据以在本地生成文本表示而不将音频数据传送到远程服务器来提供用户隐私优点。此外，设备上ASR系统提供相对于常规ASR模型提高的可靠性。例如，当用于将音频数据传送到远程服务器的网络连接不可用时，诸如当无线网络出故障时，设备上ASR系统能够生成音频数据的文本表示。相比之下，当用于向和从远程服务器传送数据的网络连接不可用时，常规ASR系统不能够生成音频数据的文本表示。

应该理解，前面的构思和本文中更详细地描述的另外的构思的所有组合都被设想为本文中公开的主题的一部分。例如，在本公开末尾处出现的要求保护的主题的所有组合都被设想为本文中公开的主题的一部分。

附图说明

图1图示依照本文中公开的各种实施方式的生成话语的文本表示的示例。

图2图示依照本文中公开的各种实施方式的使用两遍ASR模型来生成话语的文本表示的示例。

图3图示可以在其中实现本文中公开的实施方式的示例环境的框图。

图4是图示依照本文中公开的各种实施方式的生成训练实例以用于训练两遍ASR模型的示例过程的流程图。

图5是图示依照本文中公开的实施方式的训练两遍ASR模型的第一遍部分的示例过程的流程图。

图6是图示依照本文中公开的实施方式的训练两遍ASR模型的第二遍部分的示例过程的流程图。

图7是图示依照本文中公开的实施方式的训练两遍ASR模型的示例过程的流程图。

图8是图示依照本文中公开的实施方式的使用两遍ASR模型来生成话语的文本表示的示例过程的流程图。

图9图示可以在其中实现本文中公开的实施方式的另一示例环境的框图。

图10图示计算设备的示例架构。

具体实施方式

对现有技术水平的语音识别系统的许多应用的要求能够不仅包括低词错误率(WER)而且还包括低时延。具体地，对于许多用例，系统必须能够以流传输方式并且比实时更快地对话语进行解码。最近，流传输循环神经网络变换器(RNN-T)端到端(E2E)模型已经被示出为用于设备上语音识别的良好候选，具有与常规设备上模型相比改进的WER和时延度量。然而，该模型能够在质量上仍然落后于大型现有技术水平的常规模型。另一方面，非流传输E2E听、参加和拼写(LAS)模型已经示出与大型常规模型相当的质量。本文中描述的技术通过将LAS网络作为第二遍组件并入使E2E流传输模型的质量更接近常规系统的质量，同时仍然遵守时延约束。

用于语音识别的E2E模型将声学模型(AM)、发音模型(PM)和语言模型(LM)合并成单个网络，并且与具有单独的AM、PM和LM的常规ASR系统相比已经示出有竞争力的结果。E2E模型对设备上ASR是特别有吸引力的，因为它们能够胜过可比较尺寸的设备上常规模型。

在许多实施方式中，利用直接用户交互在设备上运行ASR呈现许多挑战。首先，识别结果必须是流传输的。即，词一被讲出就应该出现在屏幕上。第二，模型必须具有小时延(即，用户讲话与文本出现之间的延迟)，从而在移动设备上实时地或比实时更快地运行。第三，模型必须能够利用用户情境(例如，联系人、歌曲名称等的列表)来改进识别准确性。RNN-T E2E模型能够满足这些约束。

非流传输E2E模型，诸如听、参加和拼写(LAS)，已经示出对大型常规模型有竞争力的性能。然而，LAS模型不是流传输的，因为它们必须参加整个音频分段，从而使在交互式应用中使用它们变得有挑战。

在两遍解码中，第二遍模型通常被用于通过使用格重新评分或n个最佳重新排名来改进来自第一遍模型的初始输出。在获得质量增益的同时使用户感知的时延保持低是在应用第二遍模型情况下的主要挑战。语言模型重新评分已经通常被用于多遍解码，但是最近已经与LAS模型一起用于对来自第一遍常规模型的假设进行重新评分。能够将从编码器取得声学信息并从先前预测取得语言模型信息的LAS解码器认为是绝对比第二遍语言模型更强大。因此，本文中描述的技术探索对于第二遍处理使用LAS模型。

具体地，探索了其中RNN-T解码器和LAS解码器共享编码器网络的两遍架构。与具有对于RNN-T解码器专用编码器并且具有对于LAS解码器根本不同的专用编码器相比，共享编码器允许减小的模型尺寸和计算成本。在推理期间，RNN-T解码器产生流传输预测，然而LAS解码器最后确定预测。各种实施方式通过将LAS解码器作为波束搜索运行与对由RNN-T解码器生成的假设进行重新评分相对来探索权衡。在一些实施方式中，能够通过以自适应波束运行第一遍RNN-T模型并且在重新评分之前修剪第一遍格来减小计算成本。

在一些实施方式中，两遍ASR架构如图2中所图示。参数化的输入声学帧能够被表示为x＝(x₁..x_r)，其中x_t＝R^d是log-mel滤波器组能量。在一些实施方式中，其中(d＝80)表示x中的帧数。在第一遍中，每个声学帧x_t都通过共享的编码器，包括多层LSTM，以得到输出e_t，该输出被传递到RNN-T解码器，以用于在每个时间步以流传输方式产生y_r。在第二遍中，所有帧的共享编码器的输出被传递到LAS解码器。在训练期间，LAS解码器根据e计算输出y_l。在解码期间，LAS解码器可以另外使用y_r，如下所述。

在这项工作中探索了在两种不同的解码模式中使用LAS解码器。具体地，在“第二波束搜索”模式下，LAS解码器能够从e单独产生输出y_l，忽略y_r，RNN-T解码器的输出。另外或替代地，当LAS解码器处于“重新评分”模式时，能够选择来自RNN-T解码器的前K个假设。LAS解码器能够在注意e的情况下在教师强制模式下处理每个序列，以计算得分，该得分结合序列的对数概率和注意力覆盖惩罚。具有最高LAS得分的序列作为输出序列被挑选。

在一些实施方式中，能够从具有以下组合损失的随机初始化训练两遍模型，其中y^*表示地面实况转录：

在上述等式中，λ是超参数。在许多实施方式中，λ能够被设置为0.5以同等地加权RNN-T和LAS损失。在实践中，直接从头开始训练两遍模型能够是不稳定的，主要是因为从头开始训练时，RNN-T和LAS的损失范围截然不同。因此，训练模型的多步过程：(1)训练编码器和RNN-T模型；(2)使用(1)中训练的编码器，训练LAS解码器，在训练LAS解码器的同时，训练后的编码器被冻结；以及(3)“深度微调”：与使用组合损失同时训练共享编码器和两个解码器。

等式1中的损失的缺点之一是第二遍LAS解码器独立于RNN-T解码器被优化。这意味着训练和解码策略之间能够存在不匹配。为了解决这个问题，能够使用另外的训练步骤来进一步细化LAS解码器以使用平均字错误率(MWER)训练过程来最小化错误。具体地，给定输入x、地面实况转录y^*、由LASP(y_m|x)为任何给定目标序列y_m在教师强迫情况下计算的概率(其中如果由RNN-T给定y_m则m＝r，并且如果由LAS给定y_m则m＝l)，预训练的两遍模型能够被细化如下。

首先，系统利用来自两遍模型的解码器m中的一个运行波束搜索以得到假设集H_m＝{h₁，...，h_b}，其中b是波束尺寸。为了使MWER训练匹配解码，H_m的生成取决于目标解码模式。对于要在“第二波束搜索”模式下使用的LAS解码器，系统通过利用LAS解码器本身在x(m＝l)上运行波束搜索来计算H_m。另一方面，对于要在“重新评分”模式下被使用的LAS解码器，系统通过使用第一遍RNN-T解码器(m＝r)运行波束搜索来计算H_m(x)。

对于每个序列y_m∈H_m，让W(y^*，y_m)为y_m的字错误的数量，让

为H_m的字错误的平均数量，并且让

为H_m中的y_m的相对字错误率。还让

表示LAS解码器在H_m中的所有假设当中分配给假设y_m的条件概率。MWER损失被定义为：

能够训练LAS解码器以最小化MWER损失和最大似然交叉熵损失的组合：

L_MWER(x，y^*)+λ_MLE log P(y^*|x) (3)

其中λ_MLE是超参数。在许多实施方式中，λ_MLE能够被设置为等于0.01。

现在转向图，图1图示依照许多实施方式的两遍ASR过程的示例。图1包括表示时间的水平轴线100，并且包括时间点102、104、106和108。第一时间点102指示用户开始讲出话语的地方，并且跟随了指示用户已经结束讲出话语的第二时间点104。时间点106提供当两遍ASR系统确定用户已经结束讲出话语时的指示，并且这跟随时间104。在所图示的示例中，时间104与时间106之间的持续时间(即，系统确定用户已经结束讲话所花费的时间)比时间102与104之间的持续时间(即，用户讲出话语的时间量)短得多。另外或替代地，时间点108指示系统何时生成话语的文本表示，其中时间108跟随时间106。

在一些实施方式中，ASR模型110的第一遍流传输部分是时间102与时间106之间的持续时间(即，从当用户开始讲出话语与系统确定用户已经结束讲出话语时的时间)。在所图示的示例中，ASR模型110的第一遍流传输部分在用户开始讲话时开始。然而，这仅仅是说明性的并且第一遍流传输部分110能够在用户开始讲话稍微之后开始(例如，第一遍部分110能够在用户开始讲话之后0.01秒、0.05秒、0.1秒、0.5秒、1秒和/或另外的持续时间开始)。类似地，在所图示的示例中，第一遍流传输部分110在系统确定用户已经结束讲出话语106时结束。然而，这仅仅是说明性的并且第一遍流传输部分110能够在系统确定用户已经结束讲出话语106稍微之后结束(例如，第一遍部分110能够在系统确定用户已经结束讲话之后0.01秒、0.05秒、0.1秒、0.5秒、1秒和/或另外的持续时间结束)。在许多实施方式中，ASR系统在用户正在讲出话语的同时以流传输方式生成话语的一个或多个候选流传输文本表示。在一些实施方式中，ASR模型110的第一遍流传输部分包括共享编码器和RNN-T解码器。另外或替代地，ASR模型110的第一遍流传输部分除了包括共享编码器和RNN-T解码器之外还能够包括附加编码器。

在一些实施方式中，ASR模型114的第二遍部分是时间106与时间108之间的持续时间(即，从当系统已经确定用户已经结束讲出话语时与当系统生成话语的最终文本表示时的时间)。在所图示的示例中，第二遍部分114在系统确定用户已经结束讲出话语106时开始。然而，这仅仅是说明性的并且第二遍流传输部分114能够在系统确定用户已经结束讲话稍微之后开始(例如，第二遍部分114能够在系统确定用户已经结束讲话之后0.01秒、0.05秒、0.1秒、0.5秒、1秒和/或另外的持续时间开始)。在一些实施方式中，第二遍部分114包括LAS解码器，其中LAS解码器能够通过处理诸如使用共享编码器生成的输出和/或使用附加编码器生成的输出的在第一遍部分中生成的输出来细化在第一遍期间以流传输方式生成的候选文本表示。

图2是图示使用两遍ASR模型来生成音频数据的文本表示的示例过程200的框图。使用共享编码器204处理捕获由人类讲出的话语的音频数据202以生成共享编码器输出206。在许多实施方式中，使用客户端设备的一个或多个麦克风来捕获音频数据202。ASR模型的第一遍部分能够包括使用共享编码器204处理音频数据202以生成共享编码器输出206，以及使用RNN-T解码器208处理共享编码器输出206以生成RNN-T输出210。在一些实施方式中，第一遍部分是流传输ASR，并且RNN-T输出210能够包括在以流传输方式生成的音频数据202中捕获的话语的一个或多个候选文本表示。

在许多实施方式中，第二遍部分是非流传输的并且能够包括使用LAS解码器212处理共享编码器输出206以及RNN-T输出210以生成LAS输出214。LAS输出214能够被用于生成音频数据202的最终文本表示216。在许多实施方式中，LAS解码器212能够被用于细化音频数据的(多个)候选文本表示(即，LAS解码器212能够细化RNN-T输出210)以生成音频数据216的文本表示。

图3图示能够在其中实现本文中公开的实施方式的示例环境300。图3包括客户端设备302。在许多实施方式中，客户端设备302能够执行自动助理(未描绘)的实例。客户端计算设备302可以是，例如：台式计算设备、膝上型计算设备、平板计算设备、移动电话计算设备、用户的车辆的计算设备(例如，车载通信系统和车载娱乐系统、车载导航系统)、独立交互式扬声器、诸如智能电视的智能器具和/或用户的包括计算设备的可穿戴装置(例如，用户的具有计算设备的手表、用户的具有计算设备的眼镜、虚拟或增强现实计算设备)。可以提供另外的和/或替代的客户端计算设备。

示例环境300包括两遍ASR引擎304、共享编码器模块306、RNN-T解码器模块310、LAS解码器模块312、训练引擎316、训练实例引擎318、两遍ASR模型314、训练实例320和/或另外的或替代的引擎和/或模型(未描绘)。两遍ASR引擎304、共享编码器模块306、RNN-T解码器模块310和LAS解码器模块312是本文中描述的技术可以在其中进行对接的示例组件。在一些实施方式中，可以组合图3的一个或多个引擎和/或模块304、306、310、312和316的一个或多个方面。例如，可以将共享编码器模块306的多个方面与LAS解码器模块312的多个方面组合。

训练实例引擎320能够生成训练实例318。例如，训练实例引擎320能够生成一个或多个训练实例，其中每个训练实例包括捕获话语的音频数据和话语的地面实况文本表示。在一些实施方式中，能够依照本文中描述的图4的过程400通过训练实例320来生成训练实例318。

训练引擎316能够使用训练实例318训练两遍ASR模型314。在一些实施方式中，两遍ASR模型314能够包括共享编码器部分、附加编码器部分、RNN-T解码器部分和LAS解码器部分(例如，两遍ASR模型能够是依照如本文中所描述的图2中图示的模型)。例如，训练引擎316能够通过以下步骤来训练两遍ASR模型314：(1)依照图5的过程500来训练共享编码器和RNN-T解码器部分，(2)使用在步骤(1)中训练的共享编码器来训练LAS解码器，其中共享编码器在依照图6的过程600训练LAS解码器期间被冻结，以及(3)依照图7的过程700使用共同损失来细化训练后的共享编码器、RNN-T解码器和LAS解码器。

在本文中关于图8的过程800描述生成话语的文本表示。两遍ASR引擎304能够使用两遍ASR模型314来生成捕获的音频数据的文本表示。在一些实施方式中，两遍ASR引擎304的共享编码器模块306能够使用两遍ASR模型314的共享编码器部分来处理捕获的音频数据以生成流传输方式的共享编码器输出。RNN-T解码器模块310能够使用两遍ASR模型314的RNN-T解码器部分来处理共享编码器输出以生成话语的一个或多个候选文本表示。在一些实施方式中，RNN-T解码器模块310能够处理由共享编码器模块306以流传输方式生成的共享编码器输出。LAS解码器模块312能够通过处理使用RNN-T解码器模块生成的话语的(多个)候选文本表示以及使用共享编码器模块306存储在缓冲器中的任一共享编码器输出来生成话语的文本表示。

图4是图示依照各种实施方式的生成能够被用于训练两遍ASR模型的一个或多个训练实例的过程400的流程图。为了方便，参考执行操作的系统来描述流程图的操作。该系统可以包括一个或多个组件，诸如一个或多个处理器(例如，(多个)CPU、(多个)GPU和/或(多个)TPU)。虽然以特定顺序示出过程400的操作，但是这不意在为限制性的。一个或多个操作可以被重新排序、省略和/或添加。

在框402，系统选择捕获话语的音频数据的实例。例如，音频数据的实例能够捕获人类讲出话语“Turn the thermostat up three degrees(将恒温器调高三度)”。

在框404，系统确定话语的文本表示。在许多实施方式中，话语的文本表示能够由音频数据的所选择的实例的人工审查者确定。另外或替代地，能够使用附加ASR系统来确定话语的文本表示。在许多实施方式中，能够使用其中所生成的文本表示由人工审查者审查以获得准确性的附加ASR系统来确定音频数据的文本表示。

在框406，系统存储包括(1)捕获话语的音频数据的实例和(2)话语的文本表示的训练实例。

在框408，系统确定是否生成任何附加训练实例。如果是，则系统往回进行到框402，在进行到框404和406使用音频数据的附加实例之前选择捕获话语的音频数据的附加实例。在许多实施方式中，系统能够基于是否满足一个或多个条件，诸如是否已经生成了阈值数量的训练实例、是否存在音频数据的任何剩余未处理的实例、和/或是否满足(多个)附加条件来确定是否生成(多个)附加训练实例。如果在框408，系统确定未生成任何附加训练实例，则过程结束。

图5是图示依照各种实施方式的训练两遍ASR模型的共享编码器和RNN-T解码器的过程500的流程图。为了方便，参考执行操作的系统来描述流程图的操作。该系统可以包括一个或多个组件，诸如一个或多个处理器(例如，(多个)CPU、(多个)GPU和/或(多个)TPU)。虽然以特定顺序示出过程500的操作，但是这不意在为限制性的。一个或多个操作可以被重新排序、省略和/或添加。

在框502，系统选择包括(1)捕获话语的音频数据的实例和(2)话语的地面实况表示的训练实例。在一些实施方式中，能够依照图4的过程400生成训练实例。

在框504，系统使用共享编码器来处理训练实例的音频数据部分以生成共享编码器输出，并且能够使用RNN-T解码器来处理共享编码器输出以生成预测的RNN-T输出。

在框506，系统基于预测的RNN-T输出和训练实例的地面实况文本表示部分来生成RNN-T损失。

在框508，系统基于RNN-T损失更新共享编码器的一个或多个部分和/或RNN-T解码器的一个或多个部分。

在框510，系统确定是否执行附加训练。如果是，则系统往回进行到框502，在执行框510的附加迭代之前，在进行到框504、506和508使用附加训练实例之前选择附加训练实例。在一些实施方式中，如果存在一个或多个附加未处理的训练实例和/或如果仍然不满足其他准则/标准，则系统能够确定执行更多训练。其他准则/标准能够包括，例如，是否已经发生了阈值数量的时期和/或是否已经发生了阈值持续时间的训练。尽管关于非分批学习技术描述了过程500，但是可以另外和/或替代地利用分批学习。如果在框510，系统确定不执行附加训练，则过程结束。

图6是图示依照各种实施方式的训练两遍ASR模型的LAS解码器的过程600的流程图。为了方便，参考执行操作的系统来描述流程图的操作。该系统可以包括一个或多个组件，诸如一个或多个处理器(例如，(多个)CPU、(多个)GPU和/或(多个)TPU)。虽然以特定顺序示出过程600的操作，但是这不意在为限制性的。一个或多个操作可以被重新排序、省略和/或添加。

在框602，系统选择包括(1)捕获话语的音频数据的实例和(2)话语的地面实况表示的训练实例。在一些实施方式中，所选择的训练实例与用于训练两遍ASR模型的共享编码器和/或RNN-T解码器部分的训练实例根本不同。在一些其他实施方式中，另外利用所选择的训练实例来训练两遍ASR模型的共享编码器和/或RNN-T解码器部分。在一些实施方式中，能够依照图4的过程400生成训练实例。

在框604，系统使用共享编码器和LAS解码器处理训练实例的音频数据部分，以生成预测的LAS输出。在许多实施方式中，共享编码器与RNN-T解码器一起由系统先前训练，诸如在图5的过程500中与RNN-T解码器一起训练的共享编码器。

在框606，系统基于预测的LAS输出和训练实例的话语部分的地面实况表示部分来生成LAS损失。

在框608，系统基于LAS损失更新LAS编码器的一个或多个部分，而不更新共享编码器。换句话说，在训练LAS解码器的同时冻结先前训练的共享编码器。

在框610，系统确定是否执行任何附加训练。如果是，则系统往回进行到框602，选择附加训练实例，然后基于附加训练实例执行框604、606和608的迭代，并且然后执行框610的附加迭代。在一些实施方式中，如果存在一个或多个附加未处理的训练实例和/或如果仍然未满足其他准则/标准，则系统能够确定执行更多训练。其他准则/标准能够包括，例如，是否已发生了阈值数量的时期和/或是否已发生了阈值持续时间的训练。尽管关于非分批学习技术描述了过程600，但是可以另外和/或替代地利用分批学习。如果在框610，系统确定不执行附加训练，则过程结束。

图7是图示依照各种实施方式的联合地训练共享编码器、RNN-T解码器和/或LAS解码器以细化训练后的两遍ASR模型的示例过程700的流程图。例如，能够依照图5的过程500训练共享编码器和/或RNN-T解码器并且/或者能够依照图6的过程600训练LAS解码器。为了方便，参考执行操作的系统来描述流程图的操作。该系统可以包括一个或多个组件，诸如一个或多个处理器(例如，(多个)CPU、(多个)GPU和/或(多个)TPU)。虽然以特定顺序示出过程700的操作，但是这不意在为限制性的。一个或多个操作可以被重新排序、省略和/或添加。

在框702，系统选择包括(1)捕获话语的音频数据和(2)话语的地面实况文本表示的训练实例。在一些实施方式中，所选择的训练实例与用于初始地训练两遍ASR模型的共享编码器、RNN-T解码器和/或LAS解码器的训练实例根本不同。在一些其他实施方式中，另外利用所选择的训练实例来初始地训练两遍ASR模型的共享编码器、RNN-T解码器和/或LAS解码器。在一些实施方式中，能够依照图4的过程400生成训练实例。

在框704，系统使用初始地训练的共享编码器来处理音频数据以生成共享编码器输出。例如，能够依照图5的过程500初始地训练共享编码器。

在框706，系统使用初始地训练的RNN-T解码器来处理共享编码器输出以生成共享编码器输出。例如，能够依照图5的过程500初始地训练RNN-T解码器。

在框708，系统使用初始地训练的LAS编码器来处理共享编码器输出以生成附加编码器输出。例如，能够依照图6的过程650初始地训练附加编码器。

在框710，系统能够基于预测的RNN-T输出、预测的LAS输出、以及训练实例的地面实况文本表示部分生成组合损失。例如，系统能够生成

的组合损失，其中x是音频数据的实例，y^*是训练实例的地面实况文本表示部分，L_RNNT是基于预测的RNN-T输出和训练实例的地面实况文本表示部分的RNN-T损失，并且L_LAS是基于预测的LAS输出和训练实例的地面实况文本表示部分的LAS损失。能够依照许多实施方式利用另外的和替代的组合损失。

在框712，系统基于组合损失：(1)共享编码器的一个或多个部分；(2)RNN-T解码器的一个或多个部分；和/或(3)LAS解码器的一个或多个部分来进行更新。

在框714，系统确定是否执行任何附加训练。如果是，则系统往回进行到框702，选择附加训练实例，然后基于附加训练实例执行框704、706、708、710、和712的迭代，并且然后执行框714的附加迭代。在一些实施方式中，如果存在一个或多个附加未处理的训练实例和/或如果仍然不满足其他准则/标准，则系统能够确定执行更多训练。其他准则/标准能够包括，例如，是否已发生了阈值数量的时期和/或是否已发生了阈值持续时间的训练。尽管关于非分批学习技术描述了过程700，但是能够另外和/或替代地利用分批学习。如果在框714，系统确定不执行附加训练，则过程结束。

图8是图示依照各种实施方式的使用两遍ASR模型来生成在音频数据中捕获的话语的文本表示的过程850的流程图，其中两遍ASR模型包括共享编码器、RNN-T解码器和LAS解码器。为了方便，参考执行操作的系统来描述流程图的操作。该系统可以包括一个或多个组件，诸如一个或多个处理器(例如，(多个)CPU、(多个)GPU和/或(多个)TPU)。虽然以特定顺序示出过程800的操作，但是这不意在为限制性的。一个或多个操作可以被重新排序、省略和/或添加。

在框802，系统接收流传输音频数据，其中音频数据捕获由人类讲出的话语。在许多实施方式中，使用客户端设备的一个或多个麦克风来捕获音频数据。例如，能够使用移动电话的(多个)麦克风来捕获音频数据。

在框804，在人类已经结束讲话之前并且以流传输方式，系统通过使用两遍ASR模型的第一遍部分来处理音频数据而生成话语的一个或多个候选文本表示。在许多实施方式中，系统通过以下步骤使用两遍ASR模型的第一遍部分来处理音频数据：(1)使用共享编码器来处理音频数据以生成共享编码器输出，和(2)使用RNN-T解码器来处理共享编码器输出以生成话语的一个或多个候选文本表示。

在框806，系统确定人类已经结束讲话。在一些实施方式中，系统能够基于使用RNN-T解码器生成的查询结束标记来确定人类已经结束讲话。在一些实施方式中，系统能够基于通过使用端点器模型(未描绘)来处理音频数据而生成的查询结束标记来确定人类已经结束讲话。

在框808，响应于确定人类已经结束讲话，系统通过使用LAS解码器来处理(1)共享编码器输出以及(2)话语的一个或多个候选文本表示以生成话语的文本表示来使用两遍ASR模型的第二遍部分来生成话语的文本表示。在一些实施方式中，LAS解码器能够被用于对使用RNN-T解码器生成的前K个假设(即，使用RNN-T解码器生成的前K个候选文本表示)进行重新评分。例如，LAS解码器能够被用于对使用RNN-T解码器生成的前三个假设、前五个假设、前二十个假设和/或另外的数量的前面的假设进行重新评分。例如，对于前面的假设中的每一个，能够在注意共享编码器输出情况下在教师强制模式下运行LAS解码器以生成组合候选假设的概率和(多个)注意力参数的LAS分数。系统能够选择具有最高LAS分数的假设作为话语的文本表示。另外或替代地，LAS解码器能够被用于对话语的顶部候选文本表示表示为格的基于树的格进行重新评分。例如，LAS解码器能够被用于在注意共享编码器输出情况下在教师强制模式下处理每个格弧，以更新弧中的概率。在使用LAS解码器来更新概率之后，系统能够将话语的文本表示标识为具有最高概率的候选文本表示。

在框810，系统基于话语的文本表示执行一个或多个动作。例如，系统能够为讲话者基于在客户端设备的屏幕上文本表示渲染输出。在一些实施方式中，系统能够在人类正在讲出话语的同时基于候选文本表示中的一个或多个渲染输出，诸如基于具有最高概率的候选文本表示渲染输出。在一些这种实施方式中，系统能够通过修订在人类正在讲出话语的同时渲染的输出来基于文本表示渲染输出。另外或替代地，系统能够渲染对话语的文本表示的一个或多个响应。例如，系统能够响应于人类讲出“what is the weather today(今天天气怎样)”的话语而渲染“it is 75 degrees and sunny(今天75度和阳光明媚)”的响应。另外或替代地，系统能够基于话语的文本表示控制一个或多个客户端设备。例如，系统能够响应于“set the temperature of my thermostat to 72 degrees(将我的恒温器的温度设置为72度)”的话语而将联网智能恒温器上的温度改变为72度。在各种实施方式中，系统能够基于话语的最终文本表示执行另外的和/或替代的动作。

现在转向图9，图示了能够在其中执行各种实施方式的示例环境。图9被初始地描述，并且包括客户端计算设备902，其执行自动助理客户端904的实例。能够在经由通常在908处指示的一个或多个局域网和/或广域网(例如，互联网)通信地耦合到客户端设备902的一个或多个计算系统(统称为“云”计算系统)上实现一个或多个基于云的自动助理组件910。

自动助理客户端904的实例通过其与一个或多个基于云的自动助理组件910的交互方式，可以形成从用户的角度看是用户可以与其一起参与人机对话的自动助理900的逻辑实例的东西。在图9中描绘了这样的自动助理900的实例。因此应该理解，在一些实施方式中，与在客户端设备902上执行的自动助理客户端904接洽的用户实际上可以与他或她自己的自动助理900的逻辑实例接洽。为了简洁和简单起见，如在本文中用作“服务”特定用户的术语“自动助理”将通常是指在由用户操作的客户端设备902上执行的自动助理客户端904和一个或多个基于云的自动助理组件910(其可以在多个客户端计算设备的多个自动助理客户端之间共享)的组合。还应该理解，在一些实施方式中，自动助理900可以对来自任何用户的请求做出响应，而不管用户是否由自动助理900的那个特定实例实际上“服务”。

客户端计算设备902可以是，例如：台式计算设备、膝上型计算设备、平板计算设备、移动电话计算设备、用户的车辆的计算设备(例如，车载通信系统、车载娱乐系统、车载导航系统)、独立交互式扬声器、诸如智能电视的智能电器和/或用户的包括计算设备的可穿戴装置(例如，用户的具有计算设备的手表、用户的具有计算设备的眼镜、虚拟或增强现实计算设备)。可以提供另外的和/或替代的客户端计算设备。在各种实施方式中，客户端计算设备902可以可选地操作除了自动助理客户端904之外的一个或多个其他应用，诸如消息交换客户端(例如，SMS、MMS、在线聊天)、浏览器等。在那些各种实施方式中的一些中，其他应用中的一个或多个能够可选地(例如，经由应用编程接口)与自动助理900对接，或者包括它们自己的自动助理应用(其也可以与(多个)基于云的自动助理组件910对接)的实例。

自动助理900经由客户端设备902的用户界面输入和输出设备参与与用户的人机对话会话。为了保护用户隐私和/或为了节省资源，在许多情形下用户必须通常在自动助理将完全处理口语发话语之前显式地调用自动助理900。对自动助理900的显式调用能够响应于在客户端设备902接收到的某些用户界面输入而发生。例如，能够经由客户端设备902调用自动助理900的用户界面输入能够可选地包括客户端设备902的硬件和/或虚拟按钮的致动。此外，自动助理客户端能够包括一个或多个本地引擎906，诸如可操作来检测一个或多个口语调用短语的存在的调用引擎。调用引擎能够响应于检测到口语调用短语中的一个而调用自动助理900。例如，调用引擎能够响应于检测到诸如“Hey Assistant(嘿助理)”、“OKAssistant(好的助理)”和/或“Assistant(助理)”的口语调用短语而调用自动助理900。调用引擎能够(例如，在不处于“不活动”模式的情况下)连续地处理基于来自客户端设备602的一个或多个麦克风的输出的音频数据帧的流，以监测口语调用短语的发生。在监测到口语调用短语的发生的同时，调用引擎(例如，在暂时存储在缓冲器中之后)丢弃不包括口语调用短语的任何音频数据帧。然而，当调用引擎在处理的音频数据帧中检测到口语调用短语的发生时，调用引擎能够调用自动助理900。如本文中所使用的，“调用”自动助理900能够包括使自动助理900的一个或多个先前不活动的功能被激活。例如，调用自动助理900能够包括使一个或多个本地引擎906和/或基于云的自动助理组件910进一步处理检测到调用短语所基于的音频数据帧，和/或一个或多个跟随的音频数据帧(然而在调用之前对音频数据帧的进一步处理未发生)。例如，本地和/或基于云的组件能够响应于对自动助理900的调用而使用两遍ASR模型来处理捕获的音频数据。

自动助理900的一个或多个本地引擎906是可选的，并且能够包括，例如，上述调用引擎、本地语音至文本(“STT”)引擎(其将捕获的音频转换为文本)、本地文本至语音(“TTS”)引擎(其将文本转换为语音)、本地自然语言处理器(其确定音频和/或从音频转换的文本的含义)和/或其他本地组件。因为客户端设备902在计算资源(例如，处理器周期、存储器、电池等)方面相对受约束，所以本地引擎906相对于被包括在基于云的自动助理组件910中的任何对应物可能具有有限的功能性。

相对于本地引擎906的任何对应物，基于云的自动助理组件910利用云的几乎无限的资源来执行对音频数据和/或其他用户界面输入的更鲁棒和/或更准确的处理。再次，在各种实施方式中，客户端设备902能够响应于调用引擎检测到口语调用短语或者检测到对自动助理900的某个其他显式调用而向基于云的自动助理组件910提供音频数据和/或其他数据。

所图示的基于云的自动助理组件910包括基于云的TTS模块912、基于云的STT模块914、自然语言处理器916、对话状态跟踪器918和对话管理器920。在一些实施方式中，自动助理900的引擎和/或模块中的一个或多个可以被省略、组合和/或实现在与自动助理900分开的组件中。此外，在一些实施方式中自动助理900能够包括另外的和/或替代的引擎和/或模块。基于云的STT模块914能够将音频数据转换成文本，该文本然后可以被提供给自然语言处理器916。

基于云的TTS模块912能够将文本数据(例如，由自动助理900制定的自然语言响应)转换成计算机生成的语音输出。在一些实施方式中，TTS模块912可以将计算机生成的语音输出提供给客户端设备902以例如使用一个或多个扬声器被直接地输出。在其他实施方式中，由自动助理900生成的文本数据(例如，自然语言响应)可以被提供给本地引擎906中的一个，该本地引擎然后可以将文本数据转换成在本地输出的计算机生成的语音。

自动助理900的自然语言处理器916处理自由形式自然语言输入并且基于该自然语言输入生成带注释的输出以用于由自动助理900的一个或多个其他组件使用。例如，自然语言处理器916能够处理自然语言自由形式输入，其是由STT模块914对由用户经由客户端设备902提供的音频数据的转换的文本输入。所生成的带注释的输出可以包括自然语言输入的一个或多个注释并且可选地包括自然语言输入的词语中的一个或多个(例如，全部)。

在一些实施方式中，自然语言处理器916被配置成标识并注释自然语言输入中的各种类型的语法信息。在一些实施方式中，自然语言处理器916可以另外和/或替代地包括实体标记器(未描绘)，该实体标记器被配置成注释一个或多个分段中的实体引用，诸如对人(包括，例如，文学角色、名人、公众人物等)、组织、地点(真实的和虚构的)等的引用。在一些实施方式中，自然语言处理器916可以另外和/或替代地包括被配置为基于一个或多个上下文线索对同一实体的引用进行分组或“聚类”的共指解析器(未描绘)。例如，可以利用共指解析器来将自然语言输入“I liked Hypothetical Café last time we ate there(我喜欢上次我们在那里吃饭的假想咖啡馆)”中的词语“there(在那里)”解析为“Hypothetical Café(假想咖啡馆)”。在一些实施方式中，自然语言处理器916的一个或多个组件可以依靠来自自然语言处理器916的一个或多个其他组件的注释。在一些实施方式中，在处理特定自然语言输入时，自然语言处理器916的一个或多个组件可以使用特定自然语言输入之外的相关的在先输入和/或其他相关数据来确定一个或多个注释。

在一些实施方式中，对话状态跟踪器918可以被配置成跟踪“对话状态”，该“对话状态”包括，例如，一个或多个用户的目标(或“意图”)在人机对话会话的过程中和/或跨多个对话会话的信念状态。在确定对话状态时，一些对话状态跟踪器可能寻求基于对话会话中的用户和系统话语来确定用于在对话中实例化的(多个)槽的最可能的(多个)值。一些技术利用定义槽集和与那些槽相关联的值集的固定本体论。一些技术另外或替代地可以被定制到个别槽和/或域。例如，一些技术可能需要针对每个域中的每种槽类型训练模型。

对话管理器920可以被配置成将例如由对话状态跟踪器918提供的当前对话状态映射到然后由自动助理900执行的多个候选响应动作中的一个或多个“响应动作”。响应动作可以取决于当前对话状态而以各种形式出现。例如，可以将对应于在最后轮次之前(例如，当最终的用户期望的任务被执行时)发生的对话会话的轮次的初始和中游对话状态映射到各种响应动作，其包括自动助理900输出另外的自然语言对话。该响应对话可以包括，例如，请求用户为对话状态跟踪器918相信用户打算执行的某个动作(即，填充槽)提供参数。在一些实施方式中，响应动作可以包括诸如“请求”(例如，寻找用于槽填充的参数)、“提议”(例如，为用户建议动作或动作过程)、“选择”、“通知”(例如，向用户提供请求的信息)、“不匹配”(例如，通知用户用户的最后输入未被理解)、对外围设备的命令(例如，要关闭灯泡)等。

图10是可以可选地被用于执行本文中描述的技术的一个或多个方面的示例计算设备1010的框图。在一些实施方式中，客户端计算设备和/或其他组件中的一个或多个可以包括示例计算设备1010的一个或多个组件。

计算设备1010通常包括经由总线子系统1012与许多外围设备进行通信的至少一个处理器1014。这些外围设备可以包括存储子系统1024，包括，例如，存储器子系统1025和文件存储子系统1026、用户界面输出设备1020、用户界面输入设备1022和网络接口子系统1016。输入和输出设备允许用户与计算设备1010交互。网络接口子系统1016提供到外部网络的接口并且被耦合到其他计算设备中的对应接口设备。

用户界面输入设备1022可以包括键盘、诸如鼠标、轨迹球、触摸板或图形平板的指点设备、扫描仪、并入到显示器中的触摸屏、诸如语音识别系统、麦克风的音频输入设备和/或其他类型的输入设备。一般地，术语“输入设备”的使用旨在包括用于将信息输入到计算设备1010中或到通信网络上的所有可能类型的设备和方式。

用户接口输出设备1020可以包括显示子系统、打印机、传真机或诸如音频输出设备的非可视显示器。显示子系统可以包括阴极射线管(“CRT”)、诸如液晶显示器(“LCD”)的平板设备、投影设备或用于创建可见图像的某种其他机制。显示子系统还可以诸如经由音频输出设备提供非可视显示。一般地，术语“输出设备”的使用旨在包括用于将信息从计算设备1010输出到用户或到另一机器或计算设备的所有可能类型的设备和方式。

存储子系统1024存储提供本文中描述的模块中的一些或全部的功能性的编程和数据构造。例如，存储子系统1024可以包括用于执行图4、图5、图6、图7和/或图8的过程中的一个或多个的所选择的方面以及实现图3和/或图9中描绘的各种组件的逻辑。

这些软件模块通常由处理器1014单独或结合其他处理器执行。存储子系统1024中使用的存储器1025能够包括许多存储器，包括用于在程序执行期间存储指令和数据的主随机存取存储器(“RAM”)1030和固定指令被存储在其中的只读存储器(“ROM”)1032。文件存储子系统1026能够为程序和数据文件提供持久存储，并且可以包括硬盘驱动器、软盘驱动器以及关联的可移动介质、CD-ROM驱动器、光驱或可移动介质盒。实现某些实施方式的功能性的模块可以由文件存储子系统1026存储在存储子系统1024中，或者存储在可由(多个)处理器1014访问的其他机器中。

总线子系统1012提供用于让计算设备1010的各种组件和子系统按预期彼此通信的机制。尽管总线子系统1012被示意性地示出为单个总线，但是总线子系统的替代的实施方式可以使用多个总线。

计算设备1010能够是各种类型，包括工作站、服务器、计算集群、刀片服务器、服务器场或任何其他数据处理系统或计算设备。由于计算机和网络的不断变化的性质，图10中描绘的计算设备1010的描述仅旨在作为出于图示一些实施方式的目的的特定示例。计算设备1010的许多其他配置可能具有比图10中描绘的计算设备更多或更少的组件。

在本文中描述的系统收集关于用户(或在本文中通常称为“参与者”)的个人信息或者可以利用个人信息的情形下，可以向用户提供用于控制程序或特征是否收集用户信息(例如，关于用户的社交网络、社交动作或活动、职业、用户的偏好或用户的当前地理位置的信息)或者用于控制是否和/或如何从内容服务器接收可能与用户更相关的内容的机会。另外，某些数据可以在它被存储或使用之前以一种或多种方式被处理，使得个人可标识的信息被去除。例如，可以处理用户的身份，使得对于该用户不能够确定个人可标识的信息，或者用户的地理位置可以在地理位置信息被获得的情况下被一般化(诸如到城市、邮政编码或州级别)，使得不能够确定用户的特定地理位置。因此，用户可以控制信息如何关于用户被收集和/或使用。

在一些实施方式中，提供了由(多个)处理器实现的方法并且该方法包括接收包括分段的序列并且捕获由人类讲话者讲出的话语的音频数据。该方法进一步包括，对于分段中的每一个，并且按顺序：使用自动语音识别(“ASR”)模型的第一遍部分来处理分段以生成循环神经网络变换器(“RNN-T”)输出。使用ASR模型的第一遍部分来处理分段中的每一个包括：使用共享编码器部分来处理分段以生成共享编码器输出；将共享编码器输出作为下一项添加在共享编码器缓冲器中；以及使用RNN-T解码器部分来处理共享编码器输出以生成RNN-T输出的对应部分。该方法进一步包括基于RNN-T输出确定话语的一个或多个第一遍候选文本表示，以及确定人类讲话者已经结束讲出话语。该方法进一步包括，响应于确定人类讲话者已经结束讲出话语：基于使用ASR模型的第二遍LAS解码器部分来处理来自共享编码器缓冲器的共享编码器输出以及(a)RNN-T输出和/或(b)话语的一个或多个第一遍候选文本表示，来生成听参加拼写(“LAS”)输出。该方法进一步包括基于LAS输出生成话语的最终文本表示。

该技术的这些和其他实施方式能够包括以下特征中的一个或多个。

在一些实施方式中，该方法进一步包括：基于话语的一个或多个第一遍候选文本表示中的至少一个以流传输方式渲染输出；以及基于话语的最终文本表示来更新所渲染的输出。

在一些实施方式中，该方法进一步包括基于话语的最终文本表示来控制一个或多个设备。

在一些实施方式中，该方法进一步包括响应于最终文本表示来确定内容，并其基于所确定的内容渲染输出。

在一些实施方式中，提供一种由(多个)处理器实现的方法并且包括：接收话语；使用多遍解码器处理话语，该多遍解码器包括第一遍、循环神经网络传感器(RNN-T)、端到端(E2E)解码器和第二遍、听参加拼写(LAS)解码器；以及输出使用多遍解码器处理话语的最终结果。

在一些实施方式中，使用多遍解码器处理话语包括：将表示话语的音频数据帧传送到RNN-T、E2E解码器以用于处理；在处理话语的结果被最终决定之前，为输出提供使用RNN-T、E2E解码器处理传送的音频数据帧的一个或多个流传输结果；在RNN-T、E2E解码器完成对所传送的帧的处理之后，将表示话语的音频数据帧传送到LAS解码器以用于处理；以及基于使用LAS解码器对所传送的音频数据帧的处理结果来最终决定处理话语的结果。在那些实施方式中的一些中，该方法进一步包括将使用RNN-T、E2E解码器处理所传送的音频数据的帧的一个或多个流传输结果传送到LAS解码器。基于使用LAS解码器处理一个或多个流传输结果的结果，能够进一步最终决定处理话语的结果。在那些实施方式中的一些实现中，最终决定处理话语的结果包括使用LAS解码器选择特定流传输结果，该特定流传输结果是从一个或多个流传输结果当中选择的，该一个或多个流传输结果从RNN-T、E2E解码器被传送到LAS解码器。

在一些实施方式中，当LAS解码器处于第二波束搜索模式时，由LAS解码器处理话语。

在一些实施方式中，当LAS解码器处于重新评分模式时，由LAS解码器处理话语。

在一些实施方式中，多遍解码器进一步包括与LAS解码器和RNN-T、E2E解码器共享的单个编码器。

在一些实施方式中，多遍解码器被训练以优化最小字错误率(MWER)。

在一些实施方式中，使用多步方法训练多遍解码器，该多步方法涉及独立地训练RNN-T、E2E解码器，然后停止训练RNN-T、E2E解码器，然后独立地训练LAS解码器。

另外，一些实施方式包括一个或多个计算设备的一个或多个处理器(例如，(多个)中央处理单元(CPU)、(多个)图形处理单元(GPU)和/或(多个)张量处理单元(TPU)，其中一个或多个处理器可操作来执行存储在相关存储器中的指令，并且其中指令被配置成引起本文中描述的方法中的任一种的执行。一些实施方式还包括一个或多个非暂时性计算机可读存储介质，其存储可由一个或多个处理器执行以执行本文中描述的方法中的任一种的计算机指令。

虽然已经在本文中描述并图示了若干实施方式，但是可以利用用于执行功能和/或获得结果和/或本文中描述的优点中的一个或多个的各种其他手段和/或结构，并且这种变化和/或修改中的每一个被认为在本文中描述的实施方式的范围内。更一般地，本文中描述的所有参数、尺寸、材料和配置意在为示例性的并且实际参数、尺寸、材料和/或配置将取决于教导被用于的一个或多个特定应用。本领域的技术人员将认识到或能够使用不止一个例行实验来查明本文中描述的特定实施方式的许多等同物。因此，应当理解，前面的实施方式仅作为示例被呈现，并且在所附权利要求及其等同物的范围内，可以不同于如具体地描述和要求保护的那样实践实施方式。本公开的实施方式涉及本文中描述的每个个别特征、系统、制品、材料、套件和/或方法。另外，两个或更多个这种特征、系统、制品、材料、套件和/或方法的任何组合在这种特征、系统、制品、材料、套件和/或方法不相互不一致的情况下，被包括在本公开的范围内。

Claims

1.一种计算机实现的方法，包括：

接收话语；

使用多遍解码器处理所述话语，所述多遍解码器包括第一遍循环神经网络传感器(RNN-T)、端到端(E2E)解码器以及第二遍听参加拼写(LAS)解码器；以及

输出使用所述多遍解码器处理所述话语的最终结果。

2.根据权利要求1所述的方法，其中，使用所述多遍解码器处理所述话语包括：

将表示所述话语的音频数据帧传送到所述RNN-T、E2E解码器以用于处理；

在处理所述话语的结果被最终决定之前，提供使用所述RNN-T、E2E解码器处理所传送的音频数据帧的一个或多个流传输结果以用于输出；

在所述RNN-T、E2E解码器完成对所传送的帧的处理之后，将表示所述话语的所述音频数据帧传送到所述LAS解码器以用于处理；以及

基于使用所述LAS解码器处理所传送的音频数据帧的结果，最终决定处理所述话语的结果。

3.根据权利要求2所述的方法，包括：

将使用所述RNN-T、E2E解码器处理所传送的音频数据帧的一个或多个流传输结果传送到所述LAS解码器，

其中，进一步基于使用所述LAS解码器处理所述一个或多个流传输结果的结果来最终决定处理所述话语的结果。

4.根据权利要求3所述的方法，其中，最终决定处理所述话语的结果包括由所述LAS解码器选择特定流传输结果，所述特定流传输结果是从所述一个或多个流传输结果当中选择的，所述一个或多个流传输结果是从所述RNN-T、E2E解码器被传送到所述LAS解码器的。

5.根据任意前述权利要求所述的方法，其中，在所述LAS解码器处于第二波束搜索模式的同时，由所述LAS解码器处理所述话语。

6.根据任意前述权利要求所述的方法，其中，在所述LAS解码器处于重新评分模式的同时，由所述LAS解码器处理所述话语。

7.根据任意前述权利要求所述的方法，其中，所述多遍解码器进一步包括与所述LAS解码器和所述RNN-T、E2E解码器两者共享的单个编码器。

8.根据任意前述权利要求所述的方法，其中，训练所述多遍解码器以优化最小字错误率(MWER)。

9.根据任意前述权利要求所述的方法，其中，使用多步方法训练所述多遍解码器，所述多步方法涉及独立地训练所述RNN-T、E2E解码器，然后停止训练所述RNN-T、E2E解码器，然后独立地训练所述LAS解码器。

10.一种由一个或多个处理器实现的方法，所述方法包括：

接收包括分段的序列并且捕获由人类讲话者讲出的话语的音频数据；

对于所述分段中的每一个，并且按顺序：

使用自动语音识别(“ASR”)模型的第一遍部分来处理所述分段以生成循环神经网络变换器(“RNN-T”)输出，其中，使用所述ASR模型的所述第一遍部分来处理所述分段包括：

使用共享编码器部分来处理所述分段以生成共享编码器输出，

将所述共享编码器输出作为下一项添加在共享编码器缓冲器中，以及

使用RNN-T解码器部分来处理所述共享编码器输出以生成RNN-T输出的对应部分；

基于所述RNN-T输出确定所述话语的一个或多个第一遍候选文本表示；

确定所述人类讲话者已经结束讲出所述话语；

响应于确定所述人类讲话者已经结束讲出所述话语，基于使用所述ASR模型的第二遍LAS解码器部分来处理来自所述共享编码器缓冲器的所述共享编码器输出以及(a)所述RNN-T输出或(b)所述话语的所述一个或多个第一遍候选文本表示中的至少一个，来生成听参加拼写(“LAS”)输出；以及

基于所述LAS输出生成所述话语的最终文本表示。

11.根据权利要求10所述的方法，进一步包括：

基于所述话语的所述一个或多个第一遍候选文本表示中的至少一个，以流传输方式渲染输出；以及

基于所述话语的最终文本表示来更新所渲染的输出。

12.根据权利要求10或权利要求11所述的方法，进一步包括：

基于所述话语的最终文本表示来控制一个或多个设备。

13.根据权利要求10-12中的任一项所述的方法，进一步包括：

确定响应所述最终文本表示的内容；以及

基于所确定的内容来渲染输出。

14.一种计算机程序，所述计算机程序包括指令，所述指令在由计算系统的一个或多个处理器执行时使所述计算系统执行根据任一前述权利要求所述的方法。

15.一种客户端设备，所述客户端设备包括一个或多个处理器，所述一个或多个处理器执行存储在所述客户端设备的存储器中的指令，以执行根据权利要求1至13中的任一项所述的方法。

16.一种计算机可读存储介质，所述计算机可读存储介质存储能够由计算系统的一个或多个处理器执行以执行根据权利要求1至13中的任一项所述的方法的指令。