CN116250039A

CN116250039A - 用于高度可配置的多语言语音识别的规范训练

Info

Publication number: CN116250039A
Application number: CN202180055194.3A
Authority: CN
Inventors: 李锦宇; 周龙; 孙绁; 刘树杰
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2021-06-29
Filing date: 2021-06-29
Publication date: 2023-06-09
Also published as: US20240265924A1; WO2023272466A1; US12249336B2; EP4364135A1

Abstract

提供了用于构建可配置的多语言模型的实施例。一种计算系统，其获得多个因语言而异的自动语音识别模块和通用自动语音识别模块，该通用自动语音识别模块在包括与多个不同语言中的每个不同语言相对应的训练数据的多语言训练数据集上被训练。该计算系统然后编译该通用自动语音识别模块与该多个因语言而异的自动语音识别模块以生成可配置的多语言模型，该多语言模型被配置成响应于标识与音频内容相关联的一个或多个目标语言的用户输入选择性地并动态地利用该多个因语言而异的自动语音识别模块的子集与该通用自动语音识别模块来处理该音频内容。

Description

用于高度可配置的多语言语音识别的规范训练

背景技术

自动语音识别(ASR)是一项深度学习任务，其允许机器学习模型识别语音并生成所识别语音的转录。一些ASR模型被训练以识别和转录一种语言。常规方法还集中于训练通用模型以支持多种语言而无需知道用户正在讲哪种语言，或者通过利用从语言标识系统生成的单个预定的语言ID来指导通用ASR模型来改进语音识别。另一解决方案涉及为不同的语言组合构建许多专门的模型。然而，开发成本是巨大的。例如，如果用户希望从十种不同的语言中获得双语和/或三语支持，则用户必须构建45到120个专用模型。

上述传统ASR模型在语音处理期间表现出计算开销和存储的显著浪费。因此，对于用于语音识别的改进的系统、方法和设备，特别是对于可用于改进多语言应用中的自动语音识别的改进的系统、方法和设备，存在着持续的需求和期望。

本文所要求保护的主题不限于必须解决传统系统的任何特定缺点或仅在诸如以上所描述的环境那样的环境中操作的各实施例。相反，提供本背景仅用于解说其中可实践本文中所描述的一些实施例的一个示例性技术领域。

发明内容

本文所公开的实施例涉及被配置成促进多语言音频内容的自动语音识别的系统、方法和设备，甚至更具体地，涉及可用于在多语言语音处理期间减少计算开销和存储的系统、方法和设备。

所公开的系统被配置成获得多个因语言而异的自动语音识别模块。在不同的因语言而异的训练数据集上训练多个因语言而异的自动语音识别模块中的每个因语言而异的自动语音识别模块，使得多个因语言而异的自动语音识别模块中的每个因语言而异的自动语音识别模块被配置成识别多个不同语言中的相应不同语言的语音。该系统还获得在包括与该多个不同语言中的每个语言相对应的训练数据的多语言训练数据集上训练的通用自动语音识别模块，使得该通用自动语音识别模块被训练成识别该多个不同语言中所有语言中的语音。

该系统被配置成然后编译该通用自动语音识别模块与该多个因语言而异的自动语音识别模块以生成可配置的多语言模型，该多语言模型被配置成响应于标识与音频内容相关联的一个或多个目标语言的用户输入选择性地并动态地利用该多个因语言而异的自动语音识别模块的子集与该通用自动语音识别模块来处理该音频内容。

公开的系统还被配置成获得可配置的多语言模型，其包括通用自动语音识别模块和多个因语言而异的自动语音识别模块。可配置的多语言模型被训练成动态地选择通用自动语音识别模块和来自多个因语言而异的自动语音识别模块的因语言而异的自动语音识别模块的子集以生成因用户而异的自动语音识别模型，其被配置成标识一种或多种经用户标识的语言的说出话语。

该系统还被配置成接收用户输入，该用户输入包括(i)与该通用自动语音识别模块相对应的空值，或者(ii)指示一个或多个目标语言的语言标识向量。随后，系统选择通用自动语音识别模块。当用户输入包括语言标识向量时，系统被配置成选择因语言而异的自动语音识别模块的子集。包括在因语言而异的自动语音识别模块的子集中的每个因语言而异的自动语音识别模块被训练以识别一个或多个目标语言中的一个不同语言的说出话语。

一些公开的系统被配置成利用可配置的多语言模型来生成因用户而异的自动语音识别模型。在这样的配置中，例如，这些系统获得包括通用自动语音识别模块和一个或多个因语言而异的自动语音识别模块的因用户而异的自动语音识别模型，其被训练以识别一个或多个经用户标识的语言的语音。

由可配置的多语言模型生成的因用户而异的自动语音识别模型包括通用自动语音识别模块和多个因语言而异的自动语音识别模块。基于一个或多个经用户标识的语言，从多个因语言而异的自动语音识别模块中选择一个或多个因语言而异的自动语音识别模块。该系统还将与特定用户相关联的新语音数据应用于因用户而异的自动语音识别模型，并基于应用于因用户而异的自动语音识别模型的新语音数据来生成转录。

提供本发明内容以便以简化的形式介绍以下在具体实施方式中还描述的概念的选集。本公开内容并不旨在详尽地标识所要求保护的主题的关键特征或必要特征，也不旨在用于限制所要求保护的主题的范围。

附加特征和优点将在以下描述中阐述，且部分会从描述中显而易见，或者可以通过实践本文中的示教来习得。本发明的特征和优点可借助于在所附权利要求书中特别指出的工具和组合来实现和获得。本发明的特征将从以下描述和所附权利要求书中变得更完全的显见，或者可以通过如下文所阐述的本发明的实践来习得。

附图说明

为了描述能够获得上述和其它优点和特征的方式，将通过参考附图中示出的各具体实施例来呈现对以上简述的主题的更为具体的描述。理解这些附图仅描述典型的实施例，因此不应被视为限制本发明的范围，各实施例将使用附图以附加的具体性和细节来描述和解释，附图中：

图1A例示了包括计算系统的示例架构，该计算系统包括和/或能够被用于实现所公开的实施例。

图1B例示了编译可配置的多语言模型的示例实施例。

图2A例示了用于生成因用户而异的模型的过程流图的示例实施例。

图2B例示了当LID信息包括空值时用于生成因用户而异的模型的过程流图的示例实施例。

图2C例示了当LID信息包括独热向量时用于生成因用户而异的模型的过程流图的示例实施例。

图2D例示了当LID信息包括多热向量时用于生成因用户而异的模型的过程流图的示例实施例。

图3例示了当LID信息包括多热向量时用于生成因用户而异的模型的过程流图的另一示例实施例。

图4例示了用于利用因用户而异的模型基于输入音频数据来生成新转录的过程流图的示例实施例。

图5例示了用于利用可配置的多语言模型基于输入音频数据来生成新转录的过程流图的示例实施例。

图6例示了计算环境的一个示例实施例，其中被配置成执行所公开的系统和方法的服务器与也被配置成执行所公开的系统和方法的一个或多个用户设备进行通信。

图7例示了在客户端设备和服务器之间传送和接收的网络通信用于从可配置的多语言模型生成和使用因用户而异的模型的过程流图的示例。

图8例示了在客户端设备和服务器之间传送和接收的网络通信用于从可配置的多语言模型生成和使用因用户而异的模型的过程流图的另一示例。

图9例示了在客户端设备和服务器之间传送和接收的网络通信用于从可配置的多语言模型生成和使用因用户而异的模型的过程流图的另一示例。

图10例示了在客户端设备和服务器之间传送和接收的网络通信用于从可配置的多语言模型生成因用户而异的模型的过程流图的另一示例。

图11例示了具有用于构建可配置的多语言模型的多个动作的流程图的示例实施例。

图12例示了具有用于配置可配置的多语言模型以生成因用户而异的ASR模型的多个动作的流程图的示例实施例。

图13例示了具有用于使用因用户而异的ASR模型来处理新的用户音频数据的多个动作的流程图的示例实施例。

具体实施方式

所公开的实施例可操作以促进多语言自动语音识别，特别是通过构建可配置的多语言模型，该可配置的多语言模型可配置成生成因用户而异的自动语音识别模型，并利用因用户而异的自动语音识别模型来处理多语言用户的新音频数据。

所公开的实施例提供了与现有系统相比的许多技术优势。例如，可配置的多语言模型经历单个训练过程，而不是重新迭代或多级训练过程，使得可配置的多语言模型能够基于用户的选择通过提取因语言而异的模块以及通用的多语言模型来生成不同的模型。因此，可以使用单个可配置模型部署单个可配置的多语言模型来识别由用户指定的任何语言组合。本文描述的所公开的可配置的多语言模型和后续经配置/经生成的因用户而异的模型可被用于相对于现有的系统/模型显著降低单词错误率，而不管用户选择哪个或哪些语言来由(诸)模型处理。还发现可配置的多语言模型在执行代码切换任务时提供了比现有模型更好的性能。

此外，因为通用模型是独立于语言的，并且表示用于训练通用模型的所有语言的共享信息，所以可配置的多语言模型只需要使用非常少量的参数来为每种不同语言的残差建模，从而节省计算开销和存储。最后，可配置的多语言模型被容易地放大到通用模型和多个因语言而异的模型所支持的任意数量的语言和/或语言组合，可配置的多语言模型是根据这些模型构建/配置的，如所描述的，并由以下公开所实现。

首先将注意力转向图1A，图1A例示了作为计算环境100的一部分的计算系统110，计算环境100还包括与计算系统110(经由网络130)处于通信的(诸)第三方系统120。计算系统110被配置成构建、训练和配置可配置的多语言模型，以生成用于处理多语言用户的新音频数据的因用户而异的多语言自动语音识别模型。计算系统110还被配置成操作机器学习模型，包括可配置的多语言模型和因用户而异的模型。

计算系统110例如包括一个或多个处理器112(诸如一个或多个硬件处理器)和存储计算机可读指令118的存储(即(诸)硬件存储设备140)，其中一个或多个硬件存储设备140能够容纳任何数目的数据类型以及任何数目的计算机可读指令118，计算系统110被配置成藉由该计算机可读指令118在计算机可读指令118由该一个或多个处理器112执行时来实现所公开的各实施例的一个或多个方面。计算系统110还被示为包括(诸)用户接口114和(诸)输入/输出(I/O)设备116。

如图1A所示，(诸)硬件存储设备140被示为单个存储单元。然而，将领会，(诸)硬件存储设备140是被分布到若干分开的且有时是远程系统和/或第三方系统120的分布式存储。计算系统110还可包括分布式系统，其中计算系统110的一个或多个组件由彼此远离并且各自执行不同任务的不同的分立系统来维护/运行。在一些实例中，多个分布式系统执行用于实现所公开的功能性的类似和/或共享任务，诸如在分布式云环境中。

(诸)硬件存储设备140被配置成存储不同的数据类型，包括训练数据141、LID(语言标识符)信息142、空值143、语言向量144、独热向量145和多热向量146，如本文所描述的。

存储(例如，(诸)硬件存储设备140)包括用于实例化或执行计算系统110中所示的一个或多个模型和/或引擎(例如，通用自动语音识别模块147、因语言而异的模块148和/或可配置的多语言模型149)的计算机可读指令118。。这些模型被配置成机器学习模型或经机器学习的模型，诸如深度学习模型和/或算法和/或神经网络。在一些实例中，该一个或多个模型被配置为引擎或处理系统(例如，集成在计算系统110内的计算系统)，其中每一引擎(即模型)包括一个或多个处理器(例如，(诸)硬件处理器112)和与计算系统110对应的计算机可读指令118。

训练数据141用于许多训练目的，包括：从头开始训练可配置的多语言模型149以能够配置其自身以生成因用户而异的自动语音识别模型，训练通用自动语音识别模块147以能够识别多种语言的语音(例如，独立于语言的语音识别模型)，以及训练一个或多个因语言而异的模块148以识别特定目标语言的语音。训练数据141包括一个或多个训练数据集。一些训练数据集包括特定语言的训练数据。这样的数据集可用于训练因语言而异的自动语音识别模块。一些训练数据集包括用于多种语言和/或多种语言组合的训练数据。当用于训练通用自动语音识别模块时，这些数据集被称为独立于语言的训练数据集并且可用于在各种语言上训练自动语音识别系统，其中经训练的自动语音识别系统能够识别包括在多种语言中的任何语言的说出话语，以及基于先前训练将识别扩展到新的语言。一些独立于语言的训练数据集包括各种语言的训练数据，但没有标记数据集中所包含数据的对应语言的任何标签或注释。训练数据141包括音频数据和对应于在音频数据中识别的说出话语的地面真实转录。

例如，包括在训练数据141中的一些训练数据集涵盖十种语言，包括英语、西班牙语、法语、意大利语、波兰语、葡萄牙语、荷兰语、德语、罗马尼亚语和希腊语。培训数据集还可以包括企业特定的方言和术语。每种语言的每个训练数据集的大小因转录数据的可用性而异。训练数据141还包括测试和验证数据集。所有训练和测试数据集都配置有移除个人可标识信息的匿名数据。包括每种语言的任何数量的说出话语(例如，5k个话语)的单独验证集被用于超参数调谐。

一些测试(或训练)数据集包括语言组合(例如，德语/英语或西班牙语/英语)，其在代码转换任务期间用于评估和/或训练不同模型的功能性和有效性以解决代码切换挑战。代码切换任务涉及对音频内容的自动语音识别，该音频内容包括两种或多种语言的说出的语言话语，其中话语在不同语言之间来回切换。可配置的多语言模型的一些参考训练数据集包含超过75000小时的转录企业数据。这些数据集中的一些还针对特定演讲者或用户、演讲者/用户的特定组合、目标企业或目标上下文进行了配置。

LID信息142包括由可配置的多语言模型149使用的语言标识信息以生成因用户而异的自动语音识别模型。LID信息142包括一个或多个用户选择的语言。LID信息142从用户输入中提取，从用户简档和/或从语言标识系统中自动检测。LID信息142包括空值143和语言向量144。空值是表示用户没有选择语言或语言标识系统没有检测到语言的情况的零值。当存在空值时，只有通用自动语音识别模块147被包括在因用户而异的模块中。

语言向量144被配置成独热向量145和多热向量146，独热向量145是表示单个语言被选择的向量(或向量表示)(例如，<1,0,0,0,…>,<0,1,0,0,…>，等)，而多热向量146是表示多个语言被选择的向量(例如，<1,1,0,0,…>,<0,1,0,1,0…>，等)。语言向量144被配置作为可配置的多语言模型149的输入以激活一个或多个因语言而异的模块148以便其被包括在因用户而异的模型中，其中包括在语言向量中的非零值正加权(即激活)因语言而异的模块层，而零值对因语言而异的模块层解除加权(即，解除加权或零加权的因语言而异的模块不被包括在因用户而异的模型中)。对于独热向量，通用自动语音识别模块147和多个因语言而异的模块148中的一个因语言而异的模块被包括在因用户而异的模型中。对于多热向量，通用自动语音识别模块147和多个因语言而异的模块148被包括在因用户而异的模型中。术语“独热向量”和“多热向量”应当被本领域技术人员理解为机器学习中用来指示模型的一个或多个状态或者在本例中表示同一模型的不同模块的术语。

用于存储机器学习(ML)引擎150的附加存储单元在图1A中被演示地呈现为存储多个机器学习模型和/或引擎。例如，计算系统110包括以下一者或多者：数据检索引擎151、LID引擎152、训练引擎153、配置引擎154、验证引擎155和实现引擎156，这些引擎被个别地和/或共同地配置成实现本文描述的不同功能性。

例如，数据检索引擎151被配置成定位和访问包括一个或多个数据类型的数据源、数据库和/或存储设备，数据检索引擎151可以从这些数据类型中提取要用作训练数据或输入音频数据(例如，新的音频数据/用户音频数据)的数据集或子集。数据检索引擎151从数据库和/或硬件存储设备接收数据，其中数据检索引擎151被配置成重新格式化或以其他方式扩增接收到的数据以供被用作训练数据。附加地或替换地，数据检索引擎151与包括第三方数据集和/或数据源的一个或多个远程系统(例如，(诸)第三方系统120)处于通信。在一些实例中，这些数据源包括可记录或流传输文本、图像和/或视频的可视服务。

数据检索引擎151访问包括模拟音频数据、自然音频数据、地面真值转录标签的电子内容和/或包括视频数据、图像数据、全息图像数据、3D图像数据等的其他类型的音频-视频数据。数据检索引擎151被配置成检索训练数据集，该训练数据集包括语音数据和对应于目标企业、目标讲话上下文或特定目标用户的目标域的对应转录。数据检索引擎151是智能引擎，该智能引擎能够学习最优数据集提取过程以及时的方式提供足量数据以及检索最适于机器学习模型/引擎将针对其被训练的期望应用的数据。例如，数据检索引擎151可以学习哪些数据库和/或数据集将生成将一模型(例如，针对特定查询或特定任务)进行训练以提高该模型在期望的音频数据处理技术中的准确性、效率和功效的训练数据。

数据检索引擎151定位、选择和/或存储原始记录的源数据，使得数据检索引擎151与计算系统110中包括的一个或多个其他ML引擎和/或模型处于通信。在此类实例中，与数据检索引擎151通信的其他引擎能够接收已经从一个或多个数据源检索(即，提取、拉取等)的数据，以使得接收到的数据被进一步扩增和/或应用于下游过程。例如，数据检索引擎151与训练引擎153和/或实现引擎156处于通信。

LID引擎152(即，语言标识引擎)被配置成检索并生成包括语言标识向量的语言标识信息/数据。LID引擎152访问包括多个用户简档的用户简档数据库，每个用户简档包括预选的偏好语言集合，并自动生成针对每个用户简档的语言标识向量，其中一个或多个目标语言是预选的偏好语言集合。LID引擎152还被配置成检测用户身份，并自动检索与要包括在用户输入中的用户身份相对应的语言标识向量。替换地或附加地，LID引擎被配置成呈现被配置成接收标识可配置的多语言模型应当被配置成识别的特定语言组合的任何用户输入的接口。该用户输入可由该接口解释为(i)与未从该用户输入标识出语言相对应的该空值，或者(ii)与特定语言组合相对应的该语言标识向量。

训练引擎153与数据检索引擎151、LID引擎152、配置引擎154、验证引擎155和/或实现引擎156中的一者或多者处于通信。在这样的实施例中，训练引擎153被配置成从数据检索引擎151接收一组或多组训练数据141，从LID引擎152接收语言标识数据(例如，语言向量144)。在接收到与特定应用或任务相关的训练数据之后，训练引擎153根据训练数据训练一个或多个模型。训练引擎153被配置成经由无监督训练和/或受监督训练来训练模型。训练引擎153被配置成针对多种语言的训练数据训练通用自动语音识别模块147，针对不同语言的训练数据训练每个因语言而异的自动语音识别模块，以及针对配置模型以生成因用户而异的模型的训练数据训练可配置的多语言模块。

所公开的实施例涵盖用于训练可配置的多语言模型149的许多不同策略。在一种策略中，从头开始训练可配置的多语言模型149。在另一策略中，通用自动语音识别模块147在被包括为可配置的多语言模型149的一部分之前，使用没有用户选择向量(例如，语言标识向量)的训练数据来训练。然后，在被包括在可配置的多语言模型149中之前，训练引擎153使用具有用户选择向量的训练数据来训练每个因语言而异的自动语音识别模块。训练引擎153还被配置成微调预训练模型。为了减少存储器消耗，因语言而异的线性层仅应用于顶层和底层，而不是所有编码器网络层(例如，仅训练可配置的多语言模型层的一部分)，使得每个因语言而异的模块不需要像通用模块那样多的参数。这有助于将模型扩展到任意数量的语言。

训练可配置的多语言模型的一个关键因素是模拟用户选择的语言组合。对于每个训练样本，系统通过将若干元素与地面真值元素一起随机设置为“1”(例如，正加权)，并将其他元素设置为“0”(例如空、零加权或解除加权)来生成用户选择多热向量(例如，指示多个用户选择的语言的语言标识向量)。以这种方式，可配置的多语言模型被告知当前训练样本来自由用户选择向量设置的若干语言之一。在训练期间，系统模拟用户选择向量支持的每种语言组合。可配置的多语言模型被训练成在推断时间(例如，运行时间)被配置成基于用户选择来识别任何语言组合。

配置引擎154被配置成在接收到语言标识向量时的推断时间处促进可配置的多语言模型的配置。因用户而异的模型的输出被公式化为来自通用自动语音识别模块的输出和来自所有因语言而异的模块的输出的加权组合。如果因语言而异的模块对应于语言标识向量中指示的语言，则对其进行正加权。如果因语言而异的模块对应于未包含在语言标识向量中的语言，则对其进行零加权或解除加权。因此，配置引擎154基于不同语言组合的用户选择将可配置的多语言模型149配置成不同的模型。

验证引擎155使用单独的验证训练数据集来验证模型。验证引擎155还被配置成测试引擎，其中可配置的多语言模型首先被训练，然后在不同任务下在单独的测试数据集上被测试。

计算系统110包括实现引擎156，实现引擎156与计算系统110中包括的模型和/或ML引擎150中的任一者(或全部模型/引擎)处于通信，以使得实现引擎156被配置成实现、发起、或运行多个ML引擎150的一个或多个功能。在一个示例中，实现引擎156被配置成运行数据检索引擎151，以使得数据检索引擎151在恰适的时间检索能够生成用于训练引擎153的训练数据的数据。实现引擎156促进一个或多个ML引擎150之间的过程通信和通信定时，并被配置成实现和操作机器学习模型(或一个或多个ML引擎150)。

计算系统与包括一个或多个处理器122、一个或多个计算机可读指令118和一个或多个硬件存储设备124的第三方系统120进行通信。在一些实例中，可以预期(诸)第三方系统120进一步包括容纳能够被用作训练数据的数据(例如，本地存储中不包括的音频数据)的数据库。附加地或替换地，(诸)第三方系统120包括在计算系统110外部的机器学习系统。(诸)第三方系统120是软件程序或应用。

现在将注意力转向图1B，其具有与图1A相似的附图标记，它例示了用于构建可配置的多语言模型149的示例实施例，该模型被称为规范的自动语音识别模型。如图1B所示，计算系统获得通用自动语音识别模块147，其被训练成支持任意数量的语言(例如，语言A(语言147A)、语言B(语言147B)、语言C(语言147C)和/或其他语言)的自动语音识别。

如本文所描述的，计算系统被配置成获得多个因语言而异的模块148(例如，语言AASR(模块148A)、语言B ASR(模块148B)、语言C ASR(模块148C)和/或其他因语言而异的模块)。如上文描述的，每个因语言而异的模块被训练成识别语音是特定语言。例如，语言AASR模块在对应于语言A(例如，语言A 147A)的训练数据集上进行训练；语言B ASR(模块148B)在对应于语言B(例如，语言B(语言147B))的训练数据集上进行训练；并且语言C ASR(模块148C)在对应于语言C(例如，语言C(语言147C))的训练数据集上进行训练。

对于通用自动语音识别模块147所支持的每种语言，计算系统获得/访问支持每种语言的因语言而异的模块。然后，计算系统对通用自动语音识别模块和因语言而异的模块148进行编译(例如，编译160)以生成可配置的多语言模型149，该模型现在包括通用自动语音识别模块149A、语言A ASR(模块149B)、语言B ASR(模块149C)、语言C ASR(模块149D)和/或其他因语言而异的模块。

作为编译的结果，可配置的多语言模型149包括基于多热向量和输入声学特征的因语言而异的嵌入、包括通用自动语音识别模块147和多个因语言而异的模块148的因语言而异的层。通过处理独热向量和输入声学特征来创建因语言而异的嵌入。在一个示例中，通过将多热向量和至少一个输入声学特征组合成包括因语言而异的嵌入的值来构建因语言而异的嵌入。从包括在输入用户音频和/或输入训练数据中的音频数据中提取输入声学特征。可配置的多语言模型149还包括响应于可解释为选择一个或多个语言的用户输入来合并一个或多个因语言而异的词汇表数据集的因语言而异的词汇表，其中每个语言与不同的因语言而异的词汇表数据集相对应。每个因语言而异的词汇表数据集包括词汇表数据，诸如特定语言中的词汇单词或短语。语言词汇表数据集还包括在特定语言中常见并且可用于标识特定语言的其他音素或标记。在这样的配置中，每个因语言而异的模块与因语言而异的词汇表相关联，因语言而异的词汇表帮助因语言而异的模块识别特定词汇表短语、单词、标记和/或音素，作为自动语音识别任务的一部分。因此，词汇表数据集可作为训练数据应用于因语言而异的模块，或在语音识别任务期间作为实现可配置的多语言模型(或因用户而异的模型)期间的输入。

应当理解，可配置的多语言模型149可配置成许多不同类型的模型。一个示例机器学习模型是RNN换能器(RNN-T)模型，其在端到端(E2E)网络模型中非常有前途。这些模型取代了传统的混合模型。RNN-T模型包括编码器网络、预测网络和联合网络。编码器网络将声学特征转换为高级表示。预测网络通过RNN-T模型对先前的非空白目标输出预测进行调节来产生高级表示。联合网络是前馈网络，其组合编码器网络输出和预测网络输出以生成用于计算SoftMax输出的另一输出。在其他配置中，使用转换器-换能器(T-T)模型以用具有显著增益的换能器的编码器中的转换器替代LSTM层。例如，这样的替代配置有助于减轻独立T-T的延迟和计算成本，同时保持高识别精度。

可配置的多语言模型149被训练成支持多语言语音识别。通过跨多语言共享对模型参数的学习，可配置的多语言模型149比单语言模型表现得更好，特别是对于那些数据较少的语言。可配置的多语言模型149还通过支持具有单个ASR模型而不是n个单独模型的任何数量(n)种语言，显著简化了因用户而异的模型部署和资源管理的过程。可配置的多语言模型149是有效的流式端到端多语言ASR系统，其基于先前的声学特征和目标序列预测下一输出上的分布。

现在将注意力转向图2A-2D，其例示了用于配置可配置的多语言模型214(例如，图1A-1B的可配置的多语言模型149)以基于包括LID信息204的用户输入202生成因用户而异的模型224的各种示例实施例。现在参考图2A，LID信息204被配置成空值206(例如，空值143)或语言标识向量208(例如，语言向量144)。语言标识向量208可配置成独热向量210(例如，独热向量145)或多热向量212(例如，多热向量146)。可配置的多语言模型214包括通用自动语音识别模块216(例如，通用自动语音识别模块149A)以及多个因语言而异的自动语音识别模块，包括：语言A ASR(模块218)(例如，语言A ASR(模块149B))、语言B ASR(模块220)(例如，语言B ASR(模块149C))、语言C ASR(模块222)(例如，语言C ASR(模块149D))、和/或其他因语言而异的模块。在某些实例中，这些因语言而异的模块仅在与通用自动语音识别模块组合时才可操作以执行自动语音识别任务。替换地，在一些实例中，一个或多个因语言而异的模块作为独立于自动语音识别模块执行自动语音识别的独立模块来发挥功能。

通过利用LID信息204，可配置的多语言模型214能够胜过不支持语言标识信息的通用自动语音识别。可配置的多语言模型214被配置成支持预选由因用户而异的模型224支持的多种语言的用户，而不仅仅是标识一种预选的语言。利用语言标识信息的一种方式是让计算系统将语言标识向量208附加到可配置的多语言模型214的编码器网络的输入层。

现在将注意力转向图2B，其例示了当用户输入202包括LID信息204(其为空值206)时配置可配置的多语言模型214的示例实施例。当LID信息204包括空值206时，这意味着用户没有预先选择任何偏好语言，或者更确切地说，语言标识向量是空向量。因此，在这些情况下，只有通用自动语音识别模块216被正加权，然后被包括作为因用户而异的模型224的一部分。因用户而异的模型224中不包括因语言而异的模块。替换地，所有因语言而异的模块与通用自动语音识别模块216一起被包括在因用户而异的模型224中。

现在将注意力转向图2C，其例示了当LID信息204包括独热向量210的语言标识向量208时配置可配置的多语言模型214的示例实施例。独热向量210表示指示单一语言的用户输入202。当接收到独热向量作为对可配置的多语言模型的输入时，计算系统将可配置的多语言模型214配置成因用户而异的模型224，该模型包括通用自动语音识别模块216并选择与该独热向量210所指示的语言相对应的因语言而异的模块。例如，当独热向量210对应于语言A时，语言A ASR(模块218)被选择。当独热向量210对应于语言B时，语言B ASR(模块220)被选择。当独热向量210对应于语言C时，语言C ASR(模块222)被选择为包括在因用户而异的模型224中。基于用户输入202/LID信息204，可选择包括在可配置的多语言模型214中的任何一个因语言而异的模块以包括在因用户而异的模型224中。

现在将注意力转向图2D，其例示了当用户输入202包括多热向量212的语言标识向量208的LID信息204时配置可配置的多语言模型214的示例实施例。当包括在用户输入202中的LID信息204是多热向量212时，多个语言(即，语言的组合)被用户选择。然后，计算系统激活将被包括在因用户而异的模型224中的通用自动语音识别模块216和多个因语言而异的模块。例如，当多热向量212对应于语言A和语言B时，因用户而异的模型224包括通用自动语音识别模块216、语言A ASR(模块218)和语言B ASR(模块220)。

当多热向量对应于语言A和语言C时，因用户而异的模型224包括通用自动语音识别模块216、语言A ASR(模块218)和语言C ASR(模块222)。当多热向量212对应于语言A、语言B和语言C时，计算系统激活通用自动语音识别模块216、语言A ASR(模块218)、语言B ASR(模块220)和语言CASR(模块222)。应当理解，可以由多热向量212指示任意数量的语言，其中与由多热向量212指示的语言相对应的每个因语言而异的模块被激活并包括在因用户而异的模型224中。

现在将注意力转向图3，其例示了当用户输入302包括被配置成多热向量(例如，向量306、向量308、向量310和/或向量312)的LID信息304时用于配置可配置的多语言模型314的另一示例实施例。包括在LID信息304中的一个或多个向量是包括一系列二进制码的语言标识向量(例如，语言标识向量208)，当被应用于可配置的多语言模型314时，其对包括在可配置的多语言模型314中的一个或多个模块进行加权或解除加权。

为了覆盖可配置的多语言模型314所支持的语言的所有可能组合，可配置的多语言模型314采用因语言而异的嵌入、因语言而异的层和因语言而异的词汇表来实现高度可配置的目标。多热向量(例如，向量306、向量308、向量310和/或向量312)被用作用户选择向量以表示用户选择的语言，并将其与输入声学特征联系在一起以构建因语言而异的嵌入。例如，[0,0,0,0]向量306是仅激活通用自动语音识别模块216的空向量(例如，空值206)。

在另一示例中，向量308([1,0,0,0])被配置成选择通用自动语音识别模块316和语言A ASR(模块318)的独热向量。向量310([1,0,1,0])是多热向量，其与通用自动语音识别模块316一起经由比特310A(1)选择语言A ASR(模块318)，以及经由比特310C(1)选择语言C ASR(模块320)。语言B ASR(模块320)经由向量310中包括的比特310B(0)解除加权，并且语言D ASR(模块324)经由向量310中包括的比特310D(0)解除加权。向量312([1,1,1,0])被配置成与语言A ASR(模块318)、语言B ASR(模块320)和语言C ASR(模块322)一起选择通用自动语音识别模块316。

为了进一步增强区分不同语言的模型能力，在编码器网络或预测网络中使用因语言而异的层。在可配置的多语言模型314的编码器网络的某一层处，嵌入通用自动语音识别模块和每个因语言而异的模块。层输入被传递到每个模块以生成输出。因为通用自动语音识别模块316被激活，所以每个因语言而异的模块使用较少的参数来将特定语言建模为所有语言的共享信息。

权重被应用于通用自动语音识别模块316中的每一者和/或由语言向量确定的因语言而异的自动语音识别模块中的每一者。因语言而异的层提示系统进一步将因语言而异的层的贡献分解为来自编码器网络和预测网络的贡献。

每个因语言而异的模块被进一步应用到预测网络的输出中。形式上，通过利用前馈网络，联合网络将编码器网络输出和预测网络输出相结合。当部署因用户而异的模型326时，计算系统为每个用户选择向量提取出相应的因语言而异的模块以及通用模块。附加地，给定每种语言的词汇表和总词汇表，对应于语言标识向量的词汇表在推断时被合并到临时词汇表。理论上，临时词汇表小于总词汇表，这可以用来避免从其他语言中产生意外的标记。尽管在没有因语言而异的词汇表输入的情况下，可配置的多语言模型314获得与具有词汇表输入的模型类似的单词错误率，但是使用因语言而异的词汇可以避免输出用户未选择的语言的意外标记，从而改善用户体验。

现在将注意力转向图4，其例示了使用因用户而异的模型404(例如，因用户而异的模型224或因用户而异的模型326)处理新音频数据402以生成新转录412的示例实施例。如图4所示，新音频数据402包括语言A的一个或多个说出的语言话语。在根据本文公开的各实施例从可配置的多语言模型配置了因用户而异的模型404之后，然后将新的音频数据402应用于因用户而异的模型404。图4所示的因用户而异的模型404包括通用ASR(模块406)(例如，通用自动语音识别模块316)、语言A ASR(模块408)和语言C ASR(模块410)。系统识别以语言A说出的话语，由此因用户而异的模型404输出包括在新音频数据402中的说出话语的转录(例如，新转录412)。

现在将注意力转向图5，其例示了使用可配置的多语言模型504处理新音频数据502以生成新转录516的示例实施例。图5显示了使用配置成因用户而异的模型(例如，因用户而异的模型404)的可配置的多语言模型504生成新转录的替换描述。例如，在应用指示语言A和C(未示出)的多热向量之后，系统激活通用自动语音识别模块506、语言A ASR(模块508)和语言C ASR(模块512)，如图5所示。语言B ASR(模块510)和语言D ASR(模块514)未被选择。在语言A的新音频数据502中识别的说出的语言话语然后被处理成转录(例如，新转录516)。

现在将注意力转向图6，其例示了包括可配置成与云网络614通信的服务器612的示例计算环境。服务器612可以备份在云网络614上。服务器612还与一个或多个用户设备(包括用户设备610和用户设备602)通信。用户设备610经由信号608与服务器612通信，并且用户设备602经由信号604与服务器612通信。每个用户设备被配置成向服务器612发送和从服务器612接收网络通信/请求。用户设备和/或服务器能够从彼此下载指令、数据或模型。

现在将注意力转向图7-10，其例示了用于经由用户设备和服务器之间的通信来构建和配置可配置的多语言模型的各种实施例。应当理解，虽然在不同的用户设备和服务器上执行不同的动作，但是与所公开的系统和方法相关联的所有动作都可以仅在用户设备上、仅在服务器上或在比图6或图7-10所示的网络更分段式或更分布式的网络上执行。首先参考图7，用户设备702与服务器704进行通信706。用户设备702接收用户输入(动作708)，生成请求，并然后向服务器704发送请求(动作710)。服务器704接收消息请求712(即，接收请求，动作714)。

响应于接收到该请求，系统访问已通过本文描述的方法和系统编译和存储的可配置的多语言模型(CMM)(动作716)。服务器704然后传送CMM(动作720)(例如，传送CMM(步骤718))。用户设备702下载CMM(例如，下载CMM，动作722)以及用于配置CMM的指令。在下载CMM之后，用户设备702然后执行一系列动作，包括配置CMM(动作724)并部署因用户而异的模型(动作726)。然后，用户设备702可以接收新的音频数据(动作728)，识别语言(动作730)，识别语音(即，说出的语言话语)(动作732)，并最终生成新音频数据中包括的话语的转录(动作734)。

现在将注意力转向图8，其示出了与服务器804通信806的用户设备802。用户设备被配置成接收用户输入(动作808)并经由消息811向服务器传送用户输入(动作810)。服务器被配置成接收用户输入(动作812)并响应于接收该用户输入来执行一系列动作。

如图所示，服务器804基于用户输入(包括空值或语言标识向量)来标识用户选择的语言(动作814)，并配置存储在其上的CMM(动作816)以生成因用户而异的模型(动作818)。服务器804然后被配置成向用户设备802传送因用户而异的模型822(动作820)，用户设备802被配置成接收因用户而异的模型(动作824)。响应于接收到因用户而异的模型，用户设备802被配置成执行一系列动作，包括使用因用户而异的模型来处理新的语音数据。例如，用户设备802接收新的音频数据(动作826)、识别特定语言(动作828)、识别包括在新音频数据中的说出的语言话语(动作830)、并最终生成所识别的说出的语言话语的新转录(动作832)。

现在将注意力转向图9，其例示了与服务器904通信906的用户设备902。用户设备902被配置成接收用户输入(动作908)，并将用户输入912(动作910)传送到被配置成接收用户输入的服务器(动作914)。响应于接收用户输入，服务器904被配置成执行一系列动作，包括基于包括在用户输入912中的LID信息来标识用户选择的语言(动作916)。系统然后配置CMM(动作918)以能够根据用户选择的一个或多个语言来识别说出的语言话语。然后从CMM生成因用户而异的模型(动作920)。

用户设备902还被配置成接收特定用户的新音频数据926(动作922)，并将新音频数据传送到服务器904(动作924)。在配置CMM和/或生成因用户而异的模型之后，服务器904被配置成接收新的音频数据(动作928)。响应于接收到新音频数据，服务器904被配置成执行一个或多个动作，诸如识别与新音频数据相关联的特定语言(动作930)，识别新音频数据926中的语音(即，话语)(动作932)，并生成新音频数据926中识别的语音的转录(动作934)。在生成转录之后，服务器904被配置成向被配置成接收或下载转录938(动作940)的用户设备传送转录938(动作936)。

现在将注意力转向图10，其例示了与服务器1004通信1006的用户设备1002。用户设备1002被配置成接收用户输入(动作1008)，并向被配置成接收请求消息1011的服务器1004(动作1012)传送用户请求(例如，请求消息1011)(动作1010)。响应于接收请求(动作1012)，服务器1004被配置成生成指令(动作1014)以构建CMM并配置CMM以在设备(例如，用户设备1002)上生成和部署因用户而异的模型1026。服务器1004被配置成将计算机可读指令或计算机可执行指令(例如，指令1018)传送到用户设备1002(动作1016)，该用户设备1002被配置成下载指令(动作1020)。在获得指令1018之后，用户设备1002被配置成根据指令1018执行一个或多个动作。例如，用户设备1002随后能够构建CMM(动作1022)、配置CMM(动作1024)和/或使用经配置的CMM来部署因用户而异的模型1026。

综上，图7-10例示了用于构建可配置的多语言模型并使用其生成能够识别多种用户选择语言的语音的因用户而异的模型的方法和系统的各种示例。

现在将注意力转向图11-13，其例示了包括与本文公开的方法和系统相关联的多个动作的流程图的示例实施例。首先将注意力转向图11(部分参考了图1A-1B)，其例示了包括与示例性方法相关联的各种动作(动作1110、动作1120和动作1130)的流程图1100，该示例性方法可以由计算系统110实现以构建、训练和细化用于执行多语言语音识别的机器学习模型。

计算系统获得多个因语言而异的自动语音识别模块(例如，因语言而异的模块148)(动作1110)。在不同的因语言而异的训练数据集上训练多个因语言而异的自动语音识别模块中的每个因语言而异的自动语音识别模块，使得多个因语言而异的自动语音识别模块中的每个因语言而异的自动语音识别模块被配置成识别多个不同语言中的相应不同语言的语音。计算系统还获得在包括与多个不同语言中的每种语言相对应的训练数据的多语言训练数据集上进行训练的通用自动语音识别模块(例如，通用自动语音识别模块147)(动作1120)。通用自动语音识别模块被训练成识别所有多种不同语言的语音。

随后，计算系统将通用自动语音识别模块与多个因语言而异的自动语音识别模块进行编译以生成可配置的多语言模型(例如，可配置的多语言模型149)(动作1130)。可配置的多语言模型被配置成响应于标识与音频内容相关联的一个或多个目标语言的用户输入选择性地并动态地利用多个因语言而异的自动语音识别模块的子集与通用自动语音识别模块来处理该音频内容。例如，响应于接收到用户输入，计算系统在运行时间(即实时地、在推断时间等)配置可配置的多语言模型，以基于标识用户希望该因用户而异的自动语音识别模型识别的一种或多种用户语言的用户输入来动态地选择多个因语言而异的自动语音识别模块的子集。在这方面，术语“动态”是指计算系统(或机器学习模型)响应于用户输入而动态地更新(例如，可配置的多语言模型可配置成基于不同的用户输入而动态地生成多个不同的因用户而异的模型)。术语“选择性”是指在编译和/或实现不同模型的过程中，根据需要基于模块属性从可选语言模块集合中选择某些模块，(例如，可配置的多语言模型和/或因用户而异的模型是通过在编译可配置的多语言和用户指定的模块时选择性地利用某些选定的语言模块来配置的)。

一个或多个计算机可读指令还可执行以进一步配置计算系统以通过获得对应于第一语言的独热向量(例如，独热向量145)和对应于第一语言和一个或多个附加语言的多热向量(例如，多热向量146)来训练和细化可配置的多语言模型。计算系统被配置成应用训练数据集(例如，训练数据141)，包括(i)第一语言的一个或多个说出话语和(ii)语言标识数据(例如，语言向量144)，并将独热向量和多热向量随机呈现给可配置的多语言模型以获得独热向量输出和多热向量输出。

最后，该计算系统被配置成通过将独热向量输出对齐至多热向量输出来细化可配置的多语言模型，使得当包括以第一语言说出的一个或多个说出的语言话语的新语音数据被应用于可配置的多语言模型时该可配置的多语言模型为独热向量和多热向量生成等效输出。

在应用包括(i)以第一语言说出的一个或多个说出的语言话语和(ii)语言标识信息的训练数据集之前，计算系统附加地或替换地应用没有语言标识数据的语言独立的训练数据集。

作为编译该可配置的多语言模型的结果，该可配置的多语言模型包括：通过将多热向量与输入声学特征相连接而建立的因语言而异的嵌入、包括该通用自动语音识别模块和该多个因语言而异的自动语音识别模块的因语言而异的层、以及响应于可解释为选择一个或多个语言的用户输入来合并一个或多个因语言而异的词汇表数据集，每个语言与不同的因语言而异的词汇表数据集相对应。

现在将注意力转向图12(部分参考了图2A-2D)，其例示了包括与示例性方法相关联的各种动作(动作1210、动作1220、动作1230和动作1240)的流程图1200，该示例性方法可以由计算系统110实现来配置可配置的多语言模型以生成因用户而异的自动语音识别模型。该计算系统获得可配置的多语言模型(例如，可配置的多语言模型214)，包括：通用自动语音识别模块(例如，通用自动语音识别模块216)和多个因语言而异的自动语音识别模块(例如，语言A ASR(模块218)、语言B ASR(模块220)、语言C ASR(模块222)和/或其他因语言而异的自动语音识别模块)(动作1210)。可配置的多语言模型被训练成动态地选择通用自动语音识别模块和来自多个因语言而异的自动语音识别模块的因语言而异的自动语音识别模块的子集以生成因用户而异的自动语音识别模型(因用户而异的模型224)，其被配置成识别一种或多种经用户标识的语言的说出的话语。

计算系统还接收用户输入(例如，用户输入202)，包括(i)与通用自动语音识别模块相对应的空值(例如，空值206)或(ii)指示一种或多种目标语言(动作1220)并自动地选择通用自动语音识别模块(动作1230)的语言标识向量(例如，语言标识向量208)。当用户输入包括语言标识向量时，计算系统选择因语言而异的自动语音识别模块的子集(动作1240)。包括在因语言而异的自动语音识别模块的子集中的每个因语言而异的自动语音识别模块被训练以识别一个或多个目标语言中不同语言的说出话语。

一个或多个计算机可读指令可进一步执行以进一步配置该计算系统以：从可配置的多语言模型中提取该通用自动语音识别模块与该因语言而异的自动语音识别模块的子集；以及在推断时并通过组合通用自动语音识别模块与因语言而异的自动语音识别模块的子集来生成因用户而异的自动语音识别模型。随后，计算系统被配置成向用户设备传送因用户而异的自动语音识别模型(例如，传送因用户而异的模型，图8的动作820)。

可配置的多语言模型通过以下来编译：标识一个或多个模块语言；获得一个或多个因语言而异的自动语音识别模块，一个或多个因语言而异的自动语音识别模块的每个因语言而异的自动语音识别模块在不同的因语言而异的训练数据集上进行训练以训练每个因语言而异的自动语音识别模块来识别一个或多个模块语言中不同语言的说出话语；获得通用自动语音识别模块，该通用自动语音识别模块在包括与一个或多个模块语言中的每个模块语言相对应的训练数据的多语言训练数据集上进行训练以训练通用自动语音识别模块来识别一个或多个模块语言中任何一个模块语言的说出话语；以及组合通用自动语音识别模块和一个或多个因语言而异的自动语音识别模块。

语言标识向量包括空向量、对应于单个目标语言的独热向量(例如，独热向量210)或对应于多个目标语言的多热向量(如，多热向量212)。语言标识向量通过以下被计算系统用于选择因语言而异的识别模块的子集：对包括在因语言而异的自动语音识别模块的子集中的每个因语言而异的自动语音识别模块进行正加权；以及对未包括在因语言而异的自动语音识别模块的子集中的每个因语言而异的自动语音识别模块解除加权。

当用户输入包括空值时，该计算系统被配置成对包括在多个因语言而异的自动语音识别模块中的每个因语言而异的自动语音识别模块解除加权，使得因语言而异的自动语音识别模块的子集是空子集。

该计算系统还被配置成生成可执行指令集合(例如，图10的指令1018)，该可执行指令集合配置成被传送给客户计算系统并由该客户计算系统执行以使得该客户计算系统通过以下来编译可配置的多语言模型：获得多个因语言而异的自动语音识别模块，该多个因语言而异的自动语音识别模块中的每个因语言而异的自动语音识别模块已经在不同的因语言而异的训练数据集上进行了训练，并且使得该多个因语言而异的自动语音识别模块中的每个因语言而异的自动语音识别模块被配置成识别多个不同语言中相应不同语言的语音。

为了编译(即建立)可配置的多语言模型，该计算系统还被配置成：获得通用自动语音识别模块，该通用自动语音识别模块在包括与该多个不同语言中的每个不同语言相对应的训练数据的多语言训练数据集上进行了训练，并且使得该通用自动语音识别模块被训练成识别该多个不同语言中所有不同语言的语音；以及然后编译该通用自动语音识别模块与该多个因语言而异的自动语音识别模块以生成可配置的多语言模型，该多语言模型被配置成响应于标识与音频内容相关联的一个或多个目标语言的用户输入选择性地并动态地利用该多个因语言而异的自动语音识别模块的子集与该通用自动语音识别模块来处理该音频内容。

计算系统还被配置成自动地或通过用户接口获得用户输入。例如，一个或多个计算机可读指令可进一步执行以进一步配置该计算系统以：访问包括多个用户简档的用户简档数据库，每个用户简档包括预选的偏好语言集合；针对每个用户简档自动地生成该语言标识向量，其中该一个或多个目标语言是该预选的偏好语言集合；检测用户身份；以及自动地检索与将包括在该用户输入中的该用户身份相对应的该语言标识向量。

附加地或替换地，在接收用户输入之前，该计算系统被配置成呈现被配置成接收标识可配置的多语言模型应当被配置成识别的特定语言组合的任何用户输入的接口。因此，计算系统被配置成在接口处接收用户输入，该接口被配置成接收标识可配置的多语言模型被配置成识别的特定语言组合的任何用户输入。该用户输入可由该接口解释为(i)与未从该用户输入标识出语言相对应的空值，或者(ii)与特定语言组合相对应的语言标识向量。

现在将注意力转向图13，部分参考了图4，其例示了流程图1300，该流程图1300包括与可由计算系统110实现以使用因用户而异的自动语音识别模型(例如，因用户而异的模型404)来处理新的用户音频数据(例如，新的音频数据402)以生成新转录(例如新转录412)的示例性方法相关联的各种动作(动作1310、动作1320和动作1330)。计算系统获得包括被训练以识别一个或多个用户标识的语言(例如，与新音频数据402相关联的语言A)的说出话语的通用自动语音识别模块(例如，模块406)和一个或多个因语言而异的自动语音识别模块(例如语言A ASR(模块408)和语言C ASR(模块410))的因用户而异的自动语音识别模型(动作1310)。

该因用户而异的自动语音识别模型由包括通用自动语音识别模块和多个因语言而异的自动语音识别模块的可配置的多语言模型生成，其中该一个或多个因语言而异的自动语音识别模块是基于一个或多个用户标识的语言从多个因语言而异的自动语音识别模块中选择的。随后，计算系统将与特定用户相关联的新语音数据应用于因用户而异的自动语音识别模型(动作1320)，并基于应用于因用户而异的自动语音识别模型的新语音数据来生成转录(动作1330)。

其中该新的语音数据包括第一语言的话语，该计算系统被进一步配置成：从一个或多个因语言而异的自动语音识别模块选择特定因语言而异的自动语音识别模块以用于生成转录，其中特定因语言而异的自动语音识别模块与第一语言相对应。

注意到新的语音数据包括多种语言的话语，并且因用户而异的模型包括多个因语言而异的自动语音识别模块，以及该一个或多个计算机可读指令进一步可执行以进一步配置该计算系统以在被包括在因用户而异的模型中的多个因语言而异的自动语音识别模块中进行选择性地切换来生成转录。在此类配置中，包括在因用户而异的模型中的多个因语言而异的自动语音识别模块中的每个因语音而异的自动语音识别模块与包括在与新的语音数据相关联的多个语言中的不同语言相对应。

在执行代码切换ASR任务时，在运行时间期间，计算系统进一步配置成在一个或多个因语言而异的自动语音识别模块之间选择性地切换以生成转录，其中每个因语言而异的自动语音识别模块与包括在多个语言中的不同语言相对应。

在获得该因语言而异的自动语音识别模块之前，计算系统被配置成从服务器下载可由该计算系统执行以从可配置的多语言模型生成因用户而异的自动语音识别模块的指令。

其中包括在可配置的多语言模型中的多个因语言而异的自动语音识别模块与多个模块语言相对应，包括在可配置的多语言模型中的每个因语言而异的自动语音识别模块被训练以识别多个模块语言中不同模块语言的说出话语。附加地，通用自动语音识别模块被训练以识别包括在多个模块语言中的每个语言的说出话语。

鉴于上述内容，将理解，所公开的实施例提供了比用于构建、训练和利用机器学习模型进行多语言语音识别的传统系统和方法更多的技术益处。所公开的实施例通过提供在推断时可配置以识别用户选择的语言的任何组合中的语音的单个机器学习模型(例如，可配置的多语言模型)，有益地改进了传统技术。

此外，尽管用结构特征和/或方法动作专用的语言描述了前述主题，但可以理解，所附权利要求书中定义的主题不必限于上述特征或动作。相反，上述特征和动作是作为实现权利要求的示例形式而公开的。

本发明的各实施例可以包括或利用包括计算机硬件的专用或通用计算机(例如，计算系统110)，这将在以下做出进一步讨论。本发明范围内的各实施例还包括用于携带或存储计算机可执行指令和/或数据结构的物理介质和其他计算机可读介质。这些计算机可读介质可以是通用或专用计算机系统能够访问的任何可用介质。存储计算机可执行指令(例如，图1A的计算机可读指令118)的计算机可读介质(例如，图1A的(诸)硬件存储设备140)是排除传输介质的物理硬件存储介质/设备。在一个或多个载波或信号中承载计算机可执行指令或计算机可读指令(例如，计算机可读指令118)的计算机可读介质是传输介质。由此，作为示例而非限制，本发明的各实施例可包括至少两种完全不同类型的计算机可读介质：物理计算机可读存储介质/设备以及传输计算机可读介质。

物理计算机存储介质/设备是硬件并且包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储(诸如CD、DVD等)、磁盘存储或其他磁存储设备、或可用于存储计算机可执行指令或数据结构形式的所需程序代码装置且可由通用或专用计算机访问的任何其他硬件。

“网络”(例如，图1A的网络130)被定义为使得电子数据能够在计算机系统和/或模块和/或其他电子设备之间传输的一个或多个数据链路。当信息通过网络或另一个通信连接(硬连线、无线、或者硬连线或无线的组合)传输或提供给计算机时，该计算机将该连接适当地视为传输介质。传输介质可包括可用于携带计算机可执行指令或数据结构形式的所需程序代码装置且可由通用或专用计算机访问的网络和/或数据链路。以上介质的组合也被包括在计算机可读介质的范围内。

此外，在到达各种计算机系统组件之后，计算机可执行指令或数据结构形式的程序代码装置可从传输计算机可读介质自动转移到物理计算机可读存储介质(或者相反)。例如，通过网络或数据链路接收到的计算机可执行指令或数据结构可被缓存在网络接口模块(例如，“NIC”)内的RAM中，并且然后最终被传送到计算机系统RAM和/或计算机系统处的较不易失的计算机可读物理存储介质。因此，计算机可读物理存储介质可被包括在同样(或甚至主要)利用传输介质的计算机系统组件中。

计算机可执行指令包括，例如使通用计算机、专用计算机、或专用处理设备执行某一功能或某组功能的指令和数据。计算机可执行指令可以是例如二进制代码、诸如汇编语言之类的中间格式指令、或甚至源代码。尽管用结构特征和/或方法动作专用的语言描述了本主题，但可以理解，所附权利要求书中定义的主题不必限于上述特征或动作。相反，上述特征和动作是作为实现权利要求的示例形式而公开的。

本领域的技术人员将理解，本发明可以在具有许多类型的计算机系统配置的网络计算环境中实践，这些计算机系统配置包括个人计算机、台式计算机、膝上型计算机、消息处理器、手持式设备、多处理器系统、基于微处理器的或可编程消费电子设备、网络PC、小型计算机、大型计算机、移动电话、PDA、寻呼机、路由器、交换机等等。本发明也可在其中通过网络链接(或者通过硬连线数据链路、无线数据链路，或者通过硬连线和无线数据链路的组合)的本地和远程计算机系统两者都执行任务的分布式系统环境中实施。在分布式系统环境中，程序模块可以位于本地和远程存储器存储设备二者中。

替换地或附加地，本文中所描述的功能性可以至少部分地由一个或多个硬件逻辑组件来执行。例如、但非限制，可使用的硬件逻辑组件的说明性类型包括现场可编程门阵列(FPGA)、程序专用的集成电路(ASIC)、程序专用的标准产品(ASSP)、片上系统系统(SOC)、复杂可编程逻辑器件(CPLD)、等等。

本发明可以不背离其本质特征的情况下体现为其他具体形式。所描述的实施例在所有方面都应被认为仅是说明性而非限制性的。因此，本发明的范围由所附权利要求书而非前述描述指示。落入权利要求书的等效方案的含义和范围内的所有改变都被权利要求书的范围所涵盖。

Claims

1.一种计算系统，包括：

一个或多个处理器；以及

存储一个或多个计算机可读指令的一个或多个硬件存储设备，所述一个或多个计算机可读指令能由所述一个或多个处理器执行以使得所述计算系统至少：

获得多个因语言而异的自动语音识别模块，所述多个因语言而异的自动语音识别模块中的每个因语言而异的自动语音识别模块已经在不同的因语言而异的训练数据集上进行了训练，并且使得所述多个因语言而异的自动语音识别模块中的每个因语言而异的自动语音识别模块被配置成识别多个不同语言中相应不同语言的语音；

获得通用自动语音识别模块，所述通用自动语音识别模块在包括与所述多个不同语言中的每个不同语言相对应的训练数据的多语言训练数据集上进行了训练，并且使得所述通用自动语音识别模块被训练成识别所述多个不同语言中所有不同语言的语音；以及

将所述通用自动语音识别模块与所述多个因语言而异的自动语音识别模块编译为可配置的多语言模型，所述多语言模型被配置成响应于标识与音频内容相关联的一个或多个目标语言的用户输入选择性地并动态地利用所述多个因语言而异的自动语音识别模块的子集与所述通用自动语音识别模块来处理所述音频内容。

2.如权利要求1所述的计算系统，其特征在于，所述一个或多个计算机可读指令进一步可执行以进一步配置所述计算系统来：

获得与第一语言相对应的独热向量；

获得与所述第一语言和一个或多个附加语言相对应的多热向量；以及

在所述可配置的多语言模型的训练期间，将所述独热向量和所述多热向量随机呈现给所述可配置的多语言模型。

3.如权利要求2所述的计算系统，其特征在于，所述一个或多个计算机可读指令进一步可执行以进一步配置所述计算系统来：

应用没有语言标识数据的独立于语言的训练数据集。

4.如权利要求2所述的计算系统，其特征在于，作为编译所述可配置的多语言模型的结果，所述可配置的多语言模型包括：基于所述多热向量和输入声学特征的因语言而异的嵌入、包括所述通用自动语音识别模块和所述多个因语言而异的自动语音识别模块的因语言而异的层、以及响应于可解释为选择一个或多个语言的用户输入来合并一个或多个因语言而异的词汇的因语言而异的词汇表，每个语言与不同的因语言而异的词汇表数据集相对应。

5.一种计算系统，包括：

一个或多个处理器；以及

存储一个或多个计算机可读指令的一个或多个硬件存储设备，所述一个或多个计算机可读指令由所述一个或多个处理器执行以使得所述计算系统至少：

获得包括通用自动语音识别模块与多个因语言而异的自动语音识别模块的可配置的多语言模型，所述可配置的多语言模型被训练成动态地选择所述通用自动语音识别模块和来自所述多个因语言而异的自动语音识别模块的因语言而异的自动语音识别模块的子集来生成配置成识别一个或多个用户标识的语言的说出话语的因用户而异的自动语音识别模型；

接收用户输入，所述用户输入包括(i)与所述通用自动语音识别模块相对应的空值，或者(ii)指示一个或多个目标语言的语言标识向量；

选择所述通用自动语音识别模块；以及

当所述用户输入包括所述语言标识向量时，选择所述因语言而异的自动语音识别模块的子集，所述因语言而异的自动语音识别模块的子集中包括的每个因语言而异的自动语音识别模块被训练以识别所述一个或多个目标语言中不同语言的说出话语。

6.如权利要求5所述的计算系统，其特征在于，所述一个或多个计算机可读指令进一步可执行以进一步配置所述计算系统来：

从所述可配置的多语言模型中提取所述通用自动语音识别模块与所述因语言而异的自动语音识别模块的子集；以及

在推断时，通过组合所述通用自动语音识别模块与所述因语言而异的自动语音识别模块的子集来生成所述因用户而异的自动语音识别模型。

7.如权利要求6所述的计算系统，其特征在于，所述一个或多个计算机可读指令进一步可执行以进一步配置所述计算系统来：

向用户设备传送所述因用户而异的自动语音识别模型。

8.如权利要求5所述的计算系统，其特征在于，所述一个或多个计算机可读指令进一步可执行以进一步配置所述计算系统通过以下步骤来编译所述可配置的多语言模型：

标识一个或多个模块语言；

获得一个或多个因语言而异的自动语音识别模块，所述一个或多个因语言而异的自动语音识别模块的每个因语言而异的自动语音识别模块在不同的因语言而异的训练数据集上进行训练以训练每个因语言而异的自动语音识别模块来识别所述一个或多个模块语言中不同语言的说出话语；

获得通用自动语音识别模块，所述通用自动语音识别模块在包括与所述一个或多个模块语言中的每个模块语言相对应的训练数据的多语言训练数据集上进行训练以训练所述通用自动语音识别模块识别所述一个或多个模块语言中任何模块语言的说出话语；以及

组合所述通用自动语音识别模块和所述一个或多个因语言而异的自动语音识别模块。

9.如权利要求5所述的计算系统，其特征在于，所述语言标识向量包括与单个目标语言相对应的独热向量。

10.如权利要求5所述的计算系统，其特征在于，所述语言标识向量包括与多个目标语言相对应的多热向量。

11.如权利要求5所述的计算系统，其特征在于，所述一个或多个计算机可读指令进一步可执行以进一步配置所述计算系统通过以下步骤来选择所述因语言而异的自动语音识别模块的子集：

对包括在所述因语言而异的自动语音识别模块的子集中的每个因语言而异的自动语音识别模块进行正加权；以及

对未包括在所述因语言而异的自动语音识别模块的子集中的每个因语言而异的自动语音识别模块解除加权。

12.如权利要求5所述的计算系统，其特征在于，所述一个或多个计算机可读指令进一步可执行以进一步配置所述计算系统来：

当所述用户输入包括所述空值时，对包括在所述多个因语言而异的自动语音识别模块中的每个因语言而异的自动语音识别模块解除加权，使得所述因语言而异的自动语音识别模块的子集是空子集。

13.如权利要求5所述的计算系统，其特征在于，所述一个或多个计算机可读指令进一步可执行以进一步配置所述计算系统来：

生成可执行指令集合，所述可执行指令集合配置成被传送给客户计算系统并由所述客户计算系统执行以使得所述客户计算系统通过以下步骤来编译所述可配置的多语言模型：

获得所述多个因语言而异的自动语音识别模块，所述多个因语言而异的自动语音识别模块中的每个因语言而异的自动语音识别模块已经在不同的因语言而异的训练数据集上进行了训练，并且使得所述多个因语言而异的自动语音识别模块中的每个因语言而异的自动语音识别模块被配置成识别多个不同语言中相应不同语言的语音；

获得所述通用自动语音识别模块，所述通用自动语音识别模块在包括与所述多个不同语言中的每个不同语言相对应的训练数据的多语言训练数据集上进行了训练，并且使得所述通用自动语音识别模块被训练成识别所述多个不同语言中所有不同语言的语音；以及

编译所述通用自动语音识别模块与所述多个因语言而异的自动语音识别模块以生成可配置的多语言模型，所述多语言模型被配置成响应于标识与音频内容相关联的一个或多个目标语言的用户输入选择性地并动态地利用所述多个因语言而异的自动语音识别模块的子集与所述通用自动语音识别模块来处理所述音频内容。

14.如权利要求5所述的计算系统，其特征在于，所述一个或多个计算机可读指令进一步可执行以进一步配置所述计算系统来：

访问包括多个用户简档的用户简档数据库，每个用户简档包括预选的偏好语言集合；

针对每个用户简档自动地生成所述语言标识向量，其中所述一个或多个目标语言是所述预选的偏好语言集合；

检测用户身份；以及

自动地检索与将包括在所述用户输入中的所述用户身份相对应的所述语言标识向量。

15.如权利要求5所述的计算系统，其特征在于，所述一个或多个计算机可读指令进一步可执行以进一步配置所述计算系统来：

在接口处接收所述用户输入，所述用户输入可由所述接口解释为(i)与未从所述用户输入标识出的语言相对应的所述空值，或者(ii)与特定语言组合相对应的所述语言标识向量。

16.一种计算系统，包括：

一个或多个处理器；以及

获得包括被训练以识别一个或多个用户标识的语言的说出话语的通用自动语音识别模块和一个或多个所选的因语言而异的自动语音识别模块的因用户而异的自动语音识别模型，所述因用户而异的自动语音识别模型由包括所述通用自动语音识别模块和多个因语言而异的自动语音识别模块的可配置的多语言模型生成，其中所述一个或多个所选的因语言而异的自动语音识别模块是基于所述一个或多个用户标识的语言从所述多个因语言而异的自动语音识别模块中选择的；

将与特定用户相关的新语音数据应用于所述因用户而异的自动语音识别模型；以及

基于应用于所述因用户而异的自动语音识别模型的所述新语音数据来生成转录。

17.如权利要求16所述的计算系统，其特征在于，所述新语音数据包括第一语言的话语，并且所述一个或多个计算机可读指令进一步可执行以进一步配置所述计算系统以：

从所述一个或多个因语言而异的自动语音识别模块选择特定因语言而异的自动语音识别模块以用于生成所述转录，所述特定因语言而异的自动语音识别模块与所述第一语言相对应。

18.如权利要求16所述的计算系统，其特征在于，所述新语音数据包括多个语言的话语，并且所述一个或多个计算机可读指令进一步可执行以进一步配置所述计算系统以：

在所述一个或多个所选的因语言而异的自动语音识别模块之间选择性地切换以生成所述转录，每个因语言而异的自动语音识别模块与包括在所述多个语言中的不同语言相对应。

19.如权利要求16所述的计算系统，其特征在于，所述一个或多个计算机可读指令进一步可执行以进一步配置所述计算系统来：

在获得所述因用户而异的自动语音识别模型之前，从服务器下载可由所述计算系统执行以从所述可配置的多语言模型生成所述因用户而异的自动语音识别模型的指令。

20.如权利要求16所述的计算系统，其特征在于，包括在所述可配置的多语言模型中的所述多个因语言而异的自动语音识别模块与多个模块语言相对应，包括在所述可配置的多语言模型中的每个因语言而异的自动语音识别模块被训练以识别所述多个模块语言中不同模块语言的说出话语，以及其中所述通用自动语音识别模块被训练以识别所述多个模块语言中包括的每个语言的说出话语。