CN110574049B

CN110574049B - 多任务多模态机器学习系统

Info

Publication number: CN110574049B
Application number: CN201880028587.3A
Authority: CN
Inventors: 诺姆·M·沙泽尔; 艾当·尼古拉斯·戈麦斯; 卢卡什·米奇斯瓦夫·凯泽; 雅各布·D·乌斯克雷特; 利昂·欧文·琼斯; 尼基·J·帕马; 阿希什·泰库·瓦斯瓦尼
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2017-05-19
Filing date: 2018-05-21
Publication date: 2023-05-16
Anticipated expiration: 2038-05-21
Also published as: US10789427B2; US20200089755A1; EP3596666A1; WO2018213841A1; CN110574049A; US20200364405A1; US11494561B2

Abstract

一种方法、系统和装置，包括在计算机存储介质上编码的计算机程序，用于训练机器学习模型，以执行来自多个机器学习域的多个机器学习任务。一种系统包括机器学习模型，所述机器学习模型包括：多个输入模态神经网络，对应于相应的不同模态，并且被配置成将接收到的所述相应模态的数据输入映射到来自统一表示空间的映射数据输入；编码器神经网络，被配置成处理来自所述统一表示空间的映射数据输入以生成相应的编码器数据输出；解码器神经网络，被配置成处理编码器数据输出以从所述统一表示空间生成相应的解码器数据输出；以及多个输出模态神经网络，对应于相应的不同模态，并且被配置成将解码器数据输出映射到对应模态的数据输出。

Description

多任务多模态机器学习系统

相关申请的交叉引用

本申请是于2017年5月19日提交的美国临时专利申请No.62/509,016的非临时申请并要求该申请的优先权，通过引用其全部内容并入于此。

背景技术

本说明书涉及神经网络。

神经网络是机器学习模型，其使用一层或多层非线性单元来预测接收到的输入的输出。一些神经网络除输出层外还包括一个或多个隐藏层。每个隐藏层的输出都用作网络中的下一层的输入，即下一隐藏层或输出层。网络的每一层都根据相应参数集的当前值从接收的输入生成输出。可以使用训练数据在机器学习任务上训练神经网络，以确定层参数的训练的值，并且该神经网络可用于在神经网络输入上执行机器学习任务。

发明内容

本说明书描述了用于训练单个机器学习模型以执行来自不同机器学习域的多个机器学习任务的、包括在计算机存储介质上编码的计算机程序的方法和系统。示例机器学习域包括图像识别、语音识别、机器翻译、图像标注或解析。

通常，本说明书中所述主题的一个创新方面能够体现为一种系统，该系统包括一个或多个计算机以及一个或多个存储设备，该存储设备存储指令，当这些指令被一个或多个计算机执行时，引起该一个或多个计算机实现机器学习模型，该机器学习模型包括：多个输入模态神经网络，其中，每个输入模态神经网络都对应于多个模态中的不同模态，并且被配置成将接收到的相应模态的数据输入映射到来自统一表示空间的映射数据输入；编码器神经网络，其被配置成处理来自该统一表示空间的映射数据输入以生成相应的编码器数据输出；解码器神经网络，其被配置成处理编码器数据输出以从该统一表示空间生成相应的解码器数据输出；以及多个多输出模态神经网络，其中，每个输出模态神经网络都对应于不同模态，并且被配置成将对应于所接收的相应模态的数据输入的来自统一表示空间的解码器数据输出，映射到相应模态的数据输出。

该方面的其它实施例包括相应方法、装置以及记录在一个或多个计算机存储设备上的计算机程序，每个计算机程序都被配置为执行方法的动作。一个或多个计算机的系统能够被配置成借助于安装在系统上的软件、固件、硬件或其任何组合来执行特定的操作或动作，该软件、固件、硬件或其任何组合在操作时可以引起系统执行这些动作。一个或多个计算机程序能够被配置成通过包括指令来执行特定的操作或动作，这些指令在由数据处理装置执行时使该装置执行动作。

上述和其它实施例能够各自可选地单独或组合地包括一个或多个以下特征。在一些实施方式中，多种模态包括：(i)图像识别；(ii)语音识别；(iii)翻译；(iv)图像标注或(v)解析中的一种或多种。

在一些实施方式中，所接收的数据输入包括来自不同模态且具有不同大小和维度的数据输入，并且其中，来自统一表示空间的映射数据输入的大小不同。

在一些实施方式中，多个输入模态网络包括对应于不同模态的神经网络，并且其中，多个输出模态网络包括对应于不同模态的神经网络。

在一些实施方式中，多个输入模态网络和多个输出模态网络模态包括：(i)语言模态网络；(ii)图像模态网络；(iii)音频模态网络；以及(iv)分类数据模态网络。

在一些实施方式中，语言输入模态网络被配置成：从令牌词汇表接收令牌序列作为输入，可选地，其中，所接收的令牌序列结束于终止令牌；并且将令牌序列映射到预定维度，该预定维度取决于编码器和解码器神经网络的维度。

在一些实施方式中，语言输出模态网络被配置成：接收来自解码器神经网络的解码器输出作为输入；执行学习的线性映射，然后执行softmax激活函数，以生成令牌词汇表上的概率分布。

在一些实施方式中，图像输入模态网络被配置成使用一个或多个残差卷积层加深接收到的输入图像特征深度。

在一些实施方式中，分类输出模态网络被配置成将一维解码器神经网络输出重构为二维输出并对二维输出执行渐进式下采样。

在一些实施方式中，解码器神经网络是自回归解码器神经网络。

在一些实施方式中，编码器神经网络和解码器神经网络包括来自多个机器学习域的神经网络组件，包括：(i)一个或多个卷积神经网络层；(ii)一个或多个注意力神经网络层，该注意力神经网络层被配置成执行各自的注意力机制；(iii)一个或多个稀疏门控神经网络层。

在一些实施方式中，每个卷积神经网络层都被配置成接收形状[批尺寸，序列长度，1，特征通道]的张量作为输入并返回相同形状的张量。

在一些实施方式中，每个卷积神经网络层都包括校正的线性单元非线性和层归一化。

在一些实施方式中，一个或多个卷积神经网络层被配置成执行卷积操作，包括执行深度可分离卷积。

在一些实施方式中，卷积操作被定义为ConvStep_d，s(W，x)＝LN(StepConv_d，s(W，ReLU(x)))，其中W表示卷积层权重，x表示卷积层输入张量，LN表示卷积层归一化，并且ReLU表示校正的线性单元非线性。

在一些实施方式中，一个或多个卷积神经网络层包括四个卷积层的堆栈，在第二和第四卷积层的堆栈输入与输出之间具有两个跳跃连接。

在一些实施方式中，每个注意力神经网络层都包括一个或多个卷积神经网络层，该卷积神经网络层包括一个或多个逐点卷积神经网络层。

在一些实施方式中，每个注意力神经网络层都被配置为接收以下输入作为输入：(i)源输入张量；和(ii)目标输入张量，源输入张量和目标输入张量的形状为[序列长度，特征频道]。

在一些实施方式中，每个注意力神经网络层都被配置成：用定时信号累加构成目标张量，并使用一个或多个卷积层混合目标张量以产生经混合的张量；自检经混合的张量以生成查询关键字；通过使源张量经过一个或多个逐点卷积层来生成记忆关键字和记忆值；以及使用生成的查询关键字、记忆关键字和记忆值在自检的目标输入张量和源输入张量之间施加注意力机制。

本说明书中描述的主题的另一创新方面能够体现为一种方法，该方法包括：接收在第一模态的输入上执行机器学习任务的请求，其中，机器学习任务包括来自将第一模态的输入转换为第二模态的输出的特定机器学习域的机器学习任务；从多个输入模态神经网络中选择与第一模态相对应的输入模态神经网络，其中，所选择的输入模态神经网络被配置成将第一模态的数据输入映射到统一表示空间的映射数据输入；使用选择的输入模态神经网络处理第一模态的输入，以生成统一表示空间的映射输入；处理编码器神经网络和解码器神经网络的统一表示空间的映射输入以生成解码器输出，该解码器输出表示统一表示空间中机器学习任务的输出的表示；从多个输出模态神经网络中选择与第二模态相对应的输出模态神经网络，其中，所选择的输出模态神经网络被配置成将统一表示空间的解码器输出映射到第二模态的映射数据输出；以及使用所选择的输出模态神经网络处理解码器输出，以生成表示机器学习任务的第二模态的输出的数据。

本说明书中描述的主题能够以特定实施例实施，以便实现一个或多个以下优点。

如本说明书中所述的，多任务多模态机器学习模型是能够在跨多个机器学习域的多个机器学习任务上实现高性能水平的单机器学习模型。能够训练模型以联合执行多个机器学习任务，因而简化和提高训练过程的效率。另外，通过联合训练模型，与为单独机器学习任务执行单独的训练过程时相比，在某些情况下，可能需要较少的训练数据来训练模型(以实现相同的性能)。

如本说明书中所述的，多任务多模态机器学习模型将专家神经网络层的混合应用于除语言处理任务之外的任务，以提高多任务多模态机器学习模型的性能。

如本说明书中所述的，多任务多模态机器学习模型结合了来自不同机器学习域的不同机制，例如深度方向可分离的卷积、注意力机制和专家层的稀疏门控混合，以提高多任务多模态机器学习模型的性能。实际上，在某些情况下，能够发现多任务多模态机器学习模型中存在来自特定域的机制，以在不同域中执行任务时，特别是当不同域中的任务具有可用的有限量训练数据时提高模型的性能。例如，尽管注意力机制对于与语言相关的机器学习任务通常很重要，但通过将注意力机制合并到多任务多模态机器学习模型中，这种模型能够在执行其它机器学习任务(诸如图像分类)时实现更高的性能。类似地，将一个或多个卷积层(通常与图像域关联)合并到模型中能够提高在语言域中的任务上的模型的性能。

在附图和以下描述中阐述了本说明书的主题的一个或多个实施例的细节。根据说明书、附图和权利要求书，本主题的其它特征、方面和优点将变得显而易见。

附图说明

图1是示例多任务多模态机器学习模型的框图。

图2是示例卷积模块的框图。

图3是示例输入编码器神经网络的框图。

图4是示例输入/输出混合器神经网络的框图。

图5是示例解码器神经网络的框图。

图6是用于在第一模态的输入上执行机器学习任务的示例过程的流程图。

在各种附图中相似的附图标记和标号指示相似的元件。

具体实施方式

本说明书描述了一种包括单个深度学习模型的多模型神经网络架构，深度学习模型能够从不同的机器学习域同时学习不同的机器学习任务。深度学习模型包括多个输入模态神经网络、编码器神经网络、解码器神经网络以及多个输出模态神经网络。使用下列组件能够构造编码器和解码器神经网络：(1)卷积，以允许模型来检测局部模式并在空间上进行泛化；(2)注意层，以允许模型专注于特定元素以改进模型的性能；以及(3)稀疏门控专家混合层，以为模型提供容量而不会产生过多的计算成本。

图1是示例多任务多模态机器学习模型100的框图，机器学习模型100执行来自不同机器学习域的多个机器学习任务。机器学习模型100是在其中能够实现下文所述的系统、组件和技术的一个或多个位置的一台或多台计算机上实现为计算机程序的系统的示例。

多任务多模态机器学习模型100被配置成接收与不同机器学习任务相对应的不同机器学习域/模态的机器学习模型数据输入作为输入。示例机器学习域/模态包括语音、图像、语言或文本。示例机器学习任务包括语音识别、图像分类、机器翻译或解析。例如，多任务多模态机器学习模型100可接收与机器翻译任务相对应的文本输入，例如，要被翻译成目标自然语言的输入自然语言中的输入文本段，或者与解析任务相对应的文本输入，例如要解析的输入文本段。

提供给多任务多模态机器学习模型100的数据输入可包括命令令牌，该命令令牌指示机器学习域和特定机器学习任务，诸如“To-English”或“To-Parse-Tree”，以使多模态机器学习模型100能够为不同机器学习任务(甚至具有相同的域/模态)生成相应的输出，例如，用于不同的机器翻译任务的不同目标语言的相应输出。

能够在训练期间或在执行机器学习任务时接收数据输入，即，数据输入可以表示训练示例或推论性数据输入。例如，多模态机器学习模型100可以在训练期间从一组训练数据接收数据输入，或者可以在推论性机器学习过程期间从用户设备接收数据输入。

多任务多模态机器学习模型100包括多个输入模态神经网络102a-102c、编码器神经网络104、解码器神经网络106以及多个输出模态神经网络108a-108c。由多任务多模态机器学习模型100接收的数据输入，例如数据输入110，被提供给多输入模态神经网络102a-102c，并由与数据输入的模态(域)相对应的输入模态神经网络进行处理。例如，语音输入可以由被配置成执行语音识别的输入模态神经网络处理，而文本输入可以由被配置成执行机器翻译的输入模态神经网络处理。输入模态神经网络102a-102c被配置成处理接收到的数据输入并生成从统一表示空间输入的映射数据作为输出，例如映射数据112。从统一表示空间输入的映射数据由编码器神经网络104接收和处理。来自编码器神经网络104的编码数据输出，例如编码器数据输出114，被提供给解码器神经网络106。解码数据输出，例如解码数据输出116，被提供给多输出模态神经网络108a-108c，并由与原始数据输入的模态(域)相对应的输出模态神经网络处理。输出模态神经网络生成第二模态的数据作为输出。例如，可以通过被配置成生成文本输出的输出模态神经网络来处理与原始语音输入相对应的解码器数据输出，其中文本输出表示语音输入。

为了方便起见，示例多任务多模态机器学习模型100被示为包括三个输入模态网络和三个输出模态神经网络。然而，在一些实施方式中，输入或输出模态神经网络的数量可以更少或更多，此外，输入模态神经网络的数量可以不等于输出模态神经网络的数量。

多个输入模态网络102a-c中的每个输入模态神经网络都被配置为将多个机器学习域或模态之一的接收到的机器学习模型数据输入映射到统一表示空间的映射数据输入。即，每个输入模态神经网络都特定于相应的模态(并且不一定是相应的机器学习任务)，并定义模态和统一表示之间的转换。例如，输入模态神经网络102a可被配置成将所接收的第一模态的机器学习模型数据输入(例如，数据输入110)映射到统一表示空间的映射数据输入。统一表示空间的映射数据输入大小可能有所不同。

在某些情况下，每个模态都与一个输入模态网络相关联。即，模型100可不包括与每个机器学习任务相对应的输入模态网络，但是包括与每个模态或域相对应的输入模态网络。例如，无论哪种语言对，所有机器翻译任务都可以共享相同的输入/输出模态神经网络。这种设计鼓励跨机器学习任务的通用化，并允许添加新任务而不会在模型100运行时中断该模型100。

接收的机器学习模型数据输入可以包括来自具有不同大小和维度的不同模态的数据输入。例如，数据输入可包括图像、音频或声波的表示。类似地，多输出模态网络108a-c的每个输出模态神经网络都被配置成将从解码器神经网络接收的统一表示空间的数据输出(例如，解码器数据输出116)映射到多个模态之一的映射数据输出。即，每个输出模态神经网络都特定于各自的模态，并定义了统一表示和该模态之间的转换。例如，输出模态神经网络108c可被配置成将解码器数据输出116映射到第二模态的映射数据输出，例如数据输出118。

如上文参考输入模态神经网络所述，在其中训练机器学习模型以执行来自两种模态的多个机器学习任务的情况下——多个机器翻译任务和不同的图像识别任务——多输出模态网络可包括两个输出模态神经网络——翻译输出模态网络和图像识别输出模态网络。即，模型100可以不包括与每个机器学习任务相对应的输出模态网络，但是包括与每个模态或域相对应的输入模态网络。下面描述示例输入模态神经网络和输出模态神经网络。

编码器神经网络104是被配置成处理来自统一表示空间的映射数据输入(例如，映射数据输入112)，以在统一表示空间中生成相应的编码器数据输出(例如，编码器数据输出114)的神经网络。编码器数据输出处于统一表示空间中。在下面参考图3更详细地示出和描述示例编码器神经网络。

解码器神经网络106是被配置成处理来自统一表示空间的编码器数据输出(例如编码器数据输出114)，以从输出空间生成相应的解码器数据输出(例如解码器数据输出116)的神经网络，例如自回归神经网络。在下面参考图5更详细地示出和描述示例解码器神经网络。

编码器神经网络104和解码器神经网络106可包括来自多个机器学习域的神经网络组件。例如，编码器神经网络104和解码器神经网络106可包括：(i)一个或多个卷积神经网络层，例如，多个卷积层的堆栈，在这些层之间具有各种类型的连接；(ii)一个或多个注意力神经网络层，其被配置成执行相应的注意力机制；(iii)一个或多个稀疏门控神经网络层。

在其中编码器神经网络104或解码器神经网络106包括卷积神经网络层的情况下，编码器神经网络104和解码器神经网络106可包括被配置成接收形状[批大小，序列长度，1，特征通道]的张量作为输入并返回相同形状的张量的卷积神经网络层的卷积模块。在某些情况下，卷积神经网络层可以包括校正的线性单元非线性和层归一化。在一些情况下，卷积神经网络层可被配置成执行不同的卷积操作，例如深度方向可分离的卷积。在FrancoisChollet的“Xception:Deep learning with depthwise separable convolutions”(arXivpreprint arXiv:1610.02357)中描述了深度方向可分离的卷积神经网络层，通过引用该申请的公开将其内容并入本文。

包括对输入的校正线性单元激活，然后进行深度可分离卷积SepConv，然后对下面层的h个隐藏单元进行层归一化处理的示例卷积操作，可被定义为：

ConvStep_d，s(W，x)＝LN(SepConv_d，s(W，ReLU(x))) (1)

其中ConvStep_d，s(W，x)表示深度可分离卷积，层权重W对应于f个大小为h×w的内核，该内核被施加至具有步幅为s并以因子d进行了放大的输入张量x，LN表示卷积层归一化，ReLU表示校正的线性单元非线性。下面参考图2更详细地描述示例卷积模块。

在其中编码器神经网络104或解码器神经网络106包括注意力神经网络层的情况下，编码器神经网络104或解码器神经网络106可包括一个或多个卷积神经网络层，该一个或多个卷积神经网络层包括一个或多个逐点卷积神经网络层。注意力神经网络层可以是被配置为接收以下输入作为输入的神经网络层：(i)源输入张量；和(ii)目标输入张量，源输入张量和目标输入张量的形状为[序列长度，特征通道]。目标张量可以与定时信号相加构成，并使用两个卷积模块进行混合以生成混合张量。定时信号使基于注意力使内容的能够集中在位置上，并通过连接正弦和余弦曲线来构造：

Δ(2d)＝1e4^-2d/depth↓

timing(t，[2d，2d+1])＝[Sin(tΔ(2d))||₂cos(tΔ(2d))] (2)

其中[a||_db]表示沿第d维连接a和b。

然后，可以使用多头点乘积注意力(具有输入被分为表示每个注意力头的多个单独的张量的点乘积注意力)对混合张量进行自检。然后，可以使源张量通过两个不同的逐点卷积，以生成查询关键字、记忆关键字和记忆值。所生成的查询关键字，记忆关键字和记忆值然后可以用于在自检的目标输入张量和源输入张量之间施加注意力机制。

在一些实施方式中，多任务多模态机器学习模型100还可包括输入输出混合器神经网络。输入输出混合器神经网络可被配置成处理例如从编码器神经网络104接收的编码输入，以及例如从解码器神经网络106接收的解码器输出。输入输出混合器神经网络还可被配置为生成编码输出，该编码输出可以由解码器神经网络106接收和处理。输入输出混合器神经网络可包括被配置成执行相应注意力机制的一个或多个注意力神经网络层，以及一个或多个卷积神经网络层。下面参考图4更详细地示出和描述示例输入输出混合器神经网络。

在一些实施方式中，多个输入模态神经网络102a-c和多个输出模态神经网络108a-c可包括语言模态神经网络。

语言输入模态网络是被配置成从令牌词汇表接收令牌序列作为输入的神经网络，例如，其中令牌序列结束于终止令牌，并将令牌序列映射到预定的维度。在一些情况下，将令牌序列映射到预定维度可包括执行学习的嵌入查找。预定维度可取决于编码器和解码器神经网络的维度。

语言输出模态网络是被配置成接收来自解码器神经网络的解码器输出作为输入并执行学习的线性映射，然后执行softmax激活函数以在令牌词汇表上生成概率分布的神经网络。可以将语言输入模态神经网络和语言输出模态神经网络的行为总结为：

LanguageModality_input(x，W_E)＝W_E·x.

LanguageModality_output(y，W_S)＝Softmax(W_s·y)

其中W_E、W_S表示神经网络权重，x表示模型输入并且y表示解码器输出。

在一些实施方式中，多个输入模态神经网络102a-c可包括图像输入模态神经网络。图像输入模态网络是被配置成使用一个或多个卷积层以及可选地跳跃连接、残差连接或两者来加深接收的输入图像特征深度的神经网络。例如，输入图像的特征深度可使用残差卷积模块ConvRes逐渐加深，残差卷积模块ConvRes定义为：

c1(x，F)＝ConvStep_f＝F(W^3×3，x)

c2(x，F)＝ConvStep_f＝F(W^3×3，c1(x，F))

p1(x，F)＝MaxPool₂([3×3]，c2(x，F))

ConvRes(x，F)＝p1(x，F)+ConvStep_s＝2(W^1×1，x)

其中MaxPool_s([h×x]，x)表示在具有步长s和窗口形状[h×x]的x上的最大池化层。然后可以将示例图像输入模态神经网络总结为：

h1(x)＝ConvStep_{s＝2，f＝32}(W^3×3，x)

h2(x)＝ConvStep_f＝64(W^3×3，h1(x))

r1(x)＝ConvRes(h2(x)，128)

r2(x)＝ConvRes(r1(x)，256)

ImageModality_in(x)＝ConvRes(r2(x)，d)

在一些实施方式中，多个输出模态网络108a-c可包括分类输出模态神经网络。分类输出模态网络是被配置为将一维解码器神经网络输出重构为二维输出并对该二维输出执行渐进式下采样的神经网络。例如，分类输出模态网络可被总结为：

h3(x)＝skip(x)+MaxPool₂([3×3]，h2(x))

h5(x)＝ConvStep_f＝2048(W^3×3，h4(x))

h6(x)＝GlobalAvgPool(ReLU(h5(x)))

CategoricalModality_out(x)＝PointwiseConv(W^classes，h6(x))

其中GlobalAvgPool表示在所有空间和时间维度上获得的平均值。

在一些实施方式中，多个输入模态神经网络102a-c和输出模态神经网络108a-c可包括音频模态网络。例如，模态神经网络102a-c或108a-c可包括在一段时间内以一维波形的形式(或作为二维声谱图)接收音频输入，并且包括例如其中第i个块的形式为l_i＝ConvRes(l_i-1，2ⁱ)的参考图像输入模态神经网络所述的ConvRes块的堆栈的神经网络，。在该示例中，频谱模态不沿着频率仓维度执行任何跨步操作，保留了频谱域中的全分辨率。

能够使用训练数据来训练多任务多模态机器学习模型100以执行来自不同机器学习域或模态的不同机器学习任务。能够联合训练多任务多模态机器学习模型100以执行来自不同机器学习域的不同机器学习任务，以便多任务多模态机器学习模型100同时从不同机器学习域学习多个机器学习任务。训练数据可包括来自不同语料库的多个标记的训练示例，例如，来自语音语料库、图像数据库、解析数据集或翻译语料库的标记训练示例。训练数据可用于将输入模态神经网络102a-c、编码器神经网络104、解码器神经网络106以及输出模态神经网络108a-c的权重从初始值调整为训练值，例如通过处理训练示例和调整神经网络权重以最小化相应的损失函数。

一旦已经训练了多任务多模态机器学习模型100，就能够使用多任务多模态机器学习模型100来执行来自不同机器学习域的多个推论性机器学习任务。作为许多可能示例之一，用户设备可以通过网络向多任务多模态机器学习模型100发送数据，该数据(i)表示输入自然语言中的输入文本段，和(ii)指示目标语言。多任务多模态机器学习模型100可处理接收到的数据，并将代表目标自然语言中的输入文本段的翻译的数据提供给用户设备。该翻译然后能够被显示，被添加到文档，被提交给应用程序或由用户设备以其它方式使用。

图2是如上文参考图1介绍的示例卷积模块200的框图。示例卷积模块200是被实现为在一个或多个位置中的一个或多个计算机上的计算机程序的系统的示例，其中能够实现下文所述的系统、组件和技术。

示例卷积模块200包括四个深度方向可分离的卷积神经网络层202-208的堆栈，每个层都执行上面的等式(1)中定义的卷积操作ConvStep。前两个深度方向可分离的卷积神经网络层202和204包括3x1个内核。后两个深度方向可分离的卷积神经网络层206和208包括15x1个内核。最终深度方向可分离的卷积神经网络层208可包括例如8倍的扩张，以提供广泛的接受场。

深度方向可分离的卷积神经网络层的堆栈在堆栈输入210与(i)第二卷积步骤204和(ii)第四卷积步骤208的输出之间包括两个跳跃连接220、222。深度方向可分离的卷积神经网络层的堆栈还包括两个残差连接214和216。在某些情况下，在训练过程中，还能够在卷积模块200的末端添加退化操作，例如50％退出。在训练后，能够删除退化操作。四个深度可分离的卷积神经网络层202-208中的每一个和卷积模块200作为整体执行的操作能够被描述为：

其中

表示每个可分离卷积的参数，ConvStep在上面的等式(2)中定义。

图3是如上文参考图1介绍的示例编码器神经网络104的框图。示例编码器神经网络104是被实现为在一个或多个位置的一个或多个计算机上的计算机程序的系统的示例，其中能够实现下文所述的系统、组件和技术。

示例编码器神经网络104包括在数据输入302和定时信号304之间的残差连接306。在将定时信号304添加到输入302之后，将组合的输入提供给卷积模块308进行处理。卷积模块308包括多个卷积神经网络层，例如，深度方向可分离的卷积神经网络层，如上文参考图1和图2所述。卷积模块308产生作为输出的卷积输出，例如，卷积输出322。

可选地，编码器神经网络104可包括专家神经网络层310的稀疏门控混合。专家神经网络层的混合包括多个前馈神经网络(专家)和可训练的门控网络，可训练的门控网络选择稀疏的专家组合来处理每个输入。在Maziarz等人的“Outrageously large neuralnetworks:The sparsely-gated mixture-of-experts Layer”(arXiv preprint1701.06538,2017)中描述了专家神经网络层的混合。

来自专家层310的混合的输出能够被提供给第二卷积模块312(其可以类似于参考图2所述的卷积模块200)和注意力神经网络层316以进行处理。注意力神经网络层316处理来自专家层310的混合的输出和来自第二卷积模块312的输出。第二残差连接318将第二卷积模块312和注意力神经网络层316的输出相加，以生成编码输入320。

图4是示例输入/输出混合器神经网络400的框图。示例输入/输出混合器神经网络400是被实现为在一个或多个位置中的一个或多个计算机上的计算机程序的系统的示例，其中能够实现下文所述的系统、组件和技术。

示例输入/输出混合器神经网络400包括注意力神经网络层406，该注意力神经网络层406接收来自上文参考图1和图3所述的编码器神经网络104的编码输入402，并且接收由上文和下文的参考图1和图5所述的解码器神经网络106生成的输出404。输入/输出混合器神经网络400将注意力神经网络层406的输出和输出404连接408起来。然后，使用多个深度方向可分离的卷积神经网络层的卷积层410来处理所连接的输出，如上文参考图1和图2所述。卷积层410的输出被提供给第二注意力神经网络层416和卷积模块412。卷积模块412(可类似于参考图2所述的卷积模块200)处理接收到的卷积层410的输出，并将处理后的输出提供给残差连接418。注意力神经网络层416处理卷积层410的输出和卷积模块412的输出，并将处理后的输出提供给残差连接418。残差连接418然后生成编码输出420。编码输出420然后可被传递到解码器神经网络106。

图5是上文参考图1介绍的示例解码器神经网络106的框图。示例解码器神经网络106是被实现为在一个或多个位置的一个或多个计算机上的计算机程序的系统的示例，其中能够实现下文所述的系统、组件和技术。

示例解码器神经网络106将例如从编码器神经网络104接收的编码输入504和例如从输入输出混合器神经网络400接收的编码输出503连接508起来。示例解码器神经网络106向卷积神经网络层510、512和卷积模块514的堆栈提供连接的输入和输出。卷积神经网络层510、512和卷积模块514可类似于参考图2所描述的那些。注意力神经网络层516处理卷积模块514的输出和编码输入504。残差连接518组合卷积模块514的输出和注意力神经网络层516，以生成解码输出520。

图6是用于在第一模态的输入上执行机器学习任务的示例过程的框图。为了方便，将过程600描述为由位于一个或更多位置的一个或更多计算机的系统执行。例如，多任务多模态机器学习模型，例如图1的模型100，能够执行过程600。

系统接收对在第一模态的输入上执行机器学习任务的请求(步骤602)。机器学习任务是来自特定机器学习域的机器学习任务，该任务将第一模态的输入转换成第二模态的输出。例如，系统可以接收执行将输入自然语言中的输入文本段机器翻译成目标自然语言的对应文本段的请求。在该示例中，第一模态是输入自然语言，并且第二模态是目标自然语言。作为另一示例，系统可接收对输入图像进行分类的请求。在该示例中，第一模态是图像，并且第二模态是分类。作为另一示例，系统可接收对表示输入自然语言中的口头话语的音频序列执行语音识别的请求。

系统从多个输入模态神经网络中选择与第一模态相对应的输入模态神经网络(步骤604)。所选择的输入模态神经网络被配置成将第一模态的数据输入映射到统一表示空间的映射数据输入，如上文参考图1所述。

系统使用所选择的输入模态神经网络处理第一模态的输入，以生成统一表示空间的映射输入(步骤606)。统一表示是可变大小的。

系统使用编码器神经网络和解码器神经网络处理统一表示空间的映射输入，以生成解码器输出(步骤608)。解码器输出表示统一表示空间中的机器学习任务的输出的表示。

系统从多个输出模态神经网络中选择与第二模态相对应的输出模态神经网络(步骤610)。所选择的输出模态神经网络被配置成将统一表示空间的解码器输出映射到第二模态的映射数据输出。

系统使用所选择的输出模态神经网络处理解码器输出，以生成表示机器学习任务的第二模态的输出的数据(步骤612)。

本说明书中所述的主题和功能操作的实施例能够以数字电子电路、以有形体现的计算机软件或固件、以计算机硬件实现，包括本说明书中公开的结构及其等效结构，或者其一种或多种的组合。本说明书中所述的主题的实施例能够被实现为一个或多个计算机程序，即，在有形的非暂时性程序载体上编码的计算机程序指令的一个或多个模块，该模块由数据处理装置执行或该模块控制数据处理装置的操作。替选地或另外，程序指令能够被编码在人工产生的传播信号上，例如机器产生的电、光或电磁信号，这些信号被产生以对信息进行编码以用于传输到合适的接收器装置从而由数据处理装置执行。计算机存储介质能够为机器可读存储设备、机器可读存储基板、随机或串行访问存储器设备或它们中的一个或多个的组合。然而，计算机存储介质不是传播的信号。

术语“数据处理装置”涵盖用于处理数据的所有类型的装置、设备和机器，例如包括可编程处理器、计算机或多个处理器或计算机。该设备能够包括专用逻辑电路，例如FPGA(现场可编程门阵列)或ASIC(应用程序专用集成电路)。除硬件之外，该装置还能够包括为所讨论的计算机程序创建执行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统或其一个或更多个的组合的代码。

计算机程序(也可以称为或描述为程序、软件、软件应用程序、模块、软件模块、脚本或代码)能够用任何形式的编程语言编写，包括编译或解释性语言，声明性或过程语言，并且能够以任何形式部署，包括作为独立程序或作为模块、组件、子例程或适用于计算环境的其它单元。计算机程序可以但不必对应于文件系统中的文件。程序能够存储在保存其它程序或数据的文件的一部分中，例如一个或多个脚本，该脚本被存储在标记语言文档中，存储在专用于所讨论程序的单个文件中，或存储在例如存储一个或多个模块、子程序或部分代码的文件多个协调文件中。能够将计算机程序部署成在一台计算机上或在位于一个站点或分布在多个站点上的多台计算机上执行。

本说明书中所使用的“引擎”或“软件引擎”是指软件实现的输入/输出系统，该系统提供与输入不同的输出。引擎能够为编码的功能性块，诸如库、平台、软件开发工具包(“SDK”)或对象。能够在任何适当类型的计算设备(例如，服务器、移动电话、平板电脑、笔记本电脑、音乐播放器、电子书阅读器、膝上型或台式计算机、PDA、智能电话或其它固定或便携式设备)上实现每个引擎，该计算设备包括一个或多个处理器和计算机可读介质。另外，两个或多个引擎可以在同一计算设备上或在不同的计算设备上实现。

本说明书中所述的过程和逻辑流程能够由执行一个或多个计算机程序以通过对输入数据进行操作并生成输出来执行功能的一个或多个可编程计算机来执行。过程和逻辑流程也能够由专用逻辑电路执行，并且设备也能够被实现为专用逻辑电路，例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。

适合于执行计算机程序的计算机包括，例如，能够基于通用或专用微处理器或两者，或者基于任何其它类型的中央处理单元。通常，中央处理单元将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于履行或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括，或可操作地，耦合成从一个或多个用于存储数据的大容量存储设备接收数据，或向该设备传输数据，该设备例如例如，磁盘、磁光盘或光盘。然而，计算机不必具有这种设备。此外，计算机能够被嵌入另一设备，例如，移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏机、全球定位系统(GPS)接收器或便携式存储设备，例如通用串行总线(USB)闪存驱动器等。

适用于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备，包括例如半导体存储器设备，例如EPROM、EEPROM和闪存设备；磁盘，例如内部硬盘或可移动盘；磁光盘；以及CD ROM和DVD-ROM盘。处理器和存储器能够由专用逻辑电路补充或被并入专用逻辑电路中。

为了提供与用户的交互，能够在具有显示设备以及键盘和定点设备的计算机上实现本说明书中所述的主题的实施例，该显示设备例如是CRT(阴极射线管)或LCD(液晶显示器)监视器，以向用户显示信息，用户能够通过键盘和例如鼠标或轨迹球的定点设备向计算机提供输入。也能够使用其它类型的设备以提供与用户的交互；例如，提供给用户的反馈能够为任何形式的感觉反馈，例如视觉反馈、听觉反馈或触觉反馈；并且能够以任何形式接收来自用户的输入，包括声音、语音或触觉输入。另外，计算机能够通过向用户使用的设备发送文档以及从该设备接收文档来与用户进行交互；例如，通过响应于从网页浏览器接收的请求而将网页发送到用户客户端设备上的网页浏览器。

本说明书中所述的主题的实施例能够在下列计算系统中实现，该系统包括后端组件(例如，作为数据服务器)，或者包括中间件组件(例如，应用程序服务器)，或者包括前端组件，例如具有用户能够通过其与本说明书中所述的主题的实现进行交互的图形用户界面或Web浏览器的客户端计算机，或者一个或更多这些后端、中间件或前端组件中的任何组合。系统的组件能够通过数字数据通信的任何形式或介质(例如，通信网络)互连。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”)，例如因特网。

计算系统能够包括客户端和服务器。客户端和服务器通常彼此远离，并且通常通过通信网络进行交互。客户端和服务器之间的关系是通过在各自计算机上运行并彼此具有客户端-服务器关系的计算机程序产生的。在一些实施例中，服务器发送例如HTML页面的数据到用户设备，例如以向与充当客户端的用户设备交互的用户显示数据并从该用户接收用户输入。能够在服务器上从用户设备接收在用户设备上生成的数据，例如由于用户交互的结果。

尽管本说明书包含许多特定的实施方式细节，但是这些细节不应被解释为对任何发明或可能要求保护的范围的限制，而应被解释为是特定于特别发明的特别实施例的特征的描述。在单独实施例背景下在本说明书中描述的某些特征也能够在单个实施例中组合地实现。相反，在单个实施例的背景下描述的各种特征也能够在多个实施例中单独地或以任何合适的子组合来实现。此外，虽然上文可能将特征描述为以某些组合起作用并且甚至最初如此要求，但是在某些情况下能够从该组合中排除所要求保护的组合的一个或多个特征。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求以所示的特定顺序或以连续顺序执行这些操作，或者执行所有所示操作以实现期望结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中都需要这种分离，并且应理解，所述的程序组件和系统通常能够一起集成在单个软件产品中，或被包装成多个软件产品。

已经描述了主题的特定实施例。其它实施例也在以下权利要求的范围内。例如，权利要求中所述的动作能够以不同的顺序执行并且仍然实现期望的结果。作为示例，附图中描绘的过程不一定需要所示的特定顺序或连续顺序来实现期望结果。在某些实施方式中，多任务和并行处理可能是有利的。

Claims

1.一种系统，所述系统包括一个或多个计算机以及存储指令的一个或多个存储设备，所述指令在被所述一个或多个计算机执行时使得所述一个或多个计算机实现：

机器学习模型，所述机器学习模型包括：

多个输入模态神经网络，其中，每个输入模态神经网络对应于多个模态中的不同模态并且被配置成将接收的所对应的模态的数据输入映射到来自可变大小的统一表示空间的映射数据输入，其中多个不同模态的数据输入被映射到相同的可变大小的统一表示空间，并且其中所接收的不同模态的数据输入具有不同的大小和维度，并且其中来自所述可变大小的统一表示空间的针对不同模态的所接收的数据输入的所述映射数据输入在大小上是变化的；

编码器神经网络，所述编码器神经网络被配置成处理来自所述统一表示空间的映射数据输入以生成相应的编码器数据输出；

解码器神经网络，所述解码器神经网络被配置成处理编码器数据输出以从所述统一表示空间生成相应的解码器数据输出；以及

多个输出模态神经网络，其中，每个输出模态神经网络对应于不同模态并且被配置成将对应于接收的所对应的模态的数据输入的来自所述统一表示空间的解码器数据输出映射到所对应的模态的数据输出。

2.根据权利要求1所述的系统，其中，所述多个模态包括：(i)图像识别；(ii)语音识别；(iii)翻译；(iv)图像标注或(v)解析中的一个或多个。

3.根据权利要求1所述的系统，其中，所述多个输入模态神经网络包括对应于不同模态的神经网络，并且其中，所述多个输出模态神经网络包括对应于不同模态的神经网络。

4.根据权利要求3所述的系统，其中，所述多个输入模态神经网络和所述多个输出模态神经网络的模态包括：(i)语言模态网络；(ii)图像模态网络；(iii)音频模态网络；以及(iv)分类数据模态网络。

5.根据权利要求1所述的系统，其中，所述多个输入模态神经网络包括语言输入模态网络，所述语言输入模态网络被配置成：

从令牌词汇表接收令牌序列作为输入，其中，所接收的令牌序列结束于终止令牌；并且

将所述令牌序列映射到预定维度，所述预定维度取决于所述编码器和解码器神经网络的维度。

6.根据权利要求5所述的系统，其中，语言输出模态网络被配置成：

接收来自所述解码器神经网络的解码器输出作为输入；

执行学习的线性映射，然后执行softmax激活函数，以生成所述令牌词汇表上的概率分布。

7.根据权利要求4所述的系统，其中，图像输入模态网络被配置成使用一个或多个残差卷积层来加深接收的输入图像特征深度。

8.根据权利要求4所述的系统，其中，分类数据输出模态网络被配置成将一维解码器神经网络输出重构为二维输出并且对所述二维输出执行渐进式下采样。

9.根据权利要求1至8中的任一项所述的系统，其中，所述解码器神经网络是自回归解码器神经网络。

10.根据权利要求1至9中的任一项所述的系统，其中，所述编码器神经网络和解码器神经网络包括来自多个机器学习域的神经网络组件，所述神经网络组件包括：(i)一个或多个卷积神经网络层；(ii)一个或多个注意力神经网络层，所述一个或多个注意力神经网络层被配置成执行相应的注意力机制；以及(iii)一个或多个稀疏门控神经网络层。

11.根据权利要求10所述的系统，其中，每个卷积神经网络层被配置成接收形状[批尺寸，序列长度，1，特征通道]的张量作为输入并且返回相同形状的张量。

12.根据权利要求10所述的系统，其中，每个卷积神经网络层包括校正的线性单元非线性和层归一化。

13.根据权利要求10所述的系统，其中，所述一个或多个卷积神经网络层被配置成执行卷积操作，包括执行深度可分离卷积。

14.根据权利要求13所述的系统，其中，卷积操作被定义成：

ConvStep_d，s(W，x)＝LN(StepCon_d，s(W，ReLU(x)))，

其中W表示卷积层权重，x表示卷积层输入张量，LN表示卷积层归一化，并且ReLU表示校正的线性单元非线性。

15.根据权利要求10所述的系统，其中，所述一个或多个卷积神经网络层包括四个卷积层的堆栈，在第二和第四卷积层的堆栈输入与输出之间具有两个跳跃连接。

16.根据权利要求10所述的系统，其中，每个注意力神经网络层包括一个或多个卷积神经网络层，所述一个或多个卷积神经网络层包括一个或多个逐点卷积神经网络层。

17.根据权利要求10所述的系统，其中，每个注意力神经网络层被配置为接收(i)源输入张量；和(ii)目标输入张量作为输入，所述源输入张量和目标输入张量的形状为[序列长度，特征频道]。

18.根据权利要求17所述的系统，其中，每个注意力神经网络层被配置成：

用定时信号累加地构成所述目标输入张量，并且使用所述卷积层中的一个或多个卷积层混合所述目标输入张量以产生经混合的张量；

自检所述经混合的张量以生成查询关键字；

通过使所述源输入张量经过一个或多个逐点卷积层来生成记忆关键字和记忆值；以及

使用所生成的查询关键字、记忆关键字和记忆值在所自检的目标输入张量和所述源输入张量之间施加注意力机制。

19.一种计算机实现的方法，包括：

接收在多个模态中的第一模态的输入上执行机器学习任务的请求，其中，所述机器学习任务包括来自将所述第一模态的输入转换为所述多个模态中的第二模态的输出的特定机器学习域的机器学习任务；

从多个输入模态神经网络中选择与所述第一模态相对应的输入模态神经网络，其中，所选择的输入模态神经网络被配置成将所述第一模态的数据输入映射到可变大小的统一表示空间的映射数据输入，其中多个不同模态的数据输入被映射到相同的可变大小的统一表示空间，并且其中不同模态的数据输入具有不同的大小和维度，并且其中来自所述可变大小的统一表示空间的针对不同模态的数据输入的所述映射数据输入在大小上是变化的；

使用所选择的输入模态神经网络处理所述第一模态的输入，以生成所述统一表示空间的映射输入；

使用编码器神经网络和解码器神经网络处理所述统一表示空间的映射输入以生成解码器输出，所述解码器输出表示所述统一表示空间中的所述机器学习任务的输出的表示；

从多个输出模态神经网络中选择与第二模态相对应的输出模态神经网络，其中，所选择的输出模态神经网络被配置成将所述统一表示空间的解码器输出映射到所述第二模态的映射数据输出；以及

使用所选择的输出模态神经网络处理所述解码器输出，以生成表示所述机器学习任务的所述第二模态的输出的数据。

20.根据权利要求19所述的方法，其中，所述多个输入模态神经网络和所述多个输出模态神经网络的模态包括：(i)语言模态网络；(ii)图像模态网络；(iii)音频模态网络；以及(iv)分类数据模态网络。

21.根据权利要求19所述的方法，其中，所述多个输入模态神经网络包括语言输入模态网络，所述语言输入模态网络被配置成：

22.根据权利要求21所述的方法，其中，语言输出模态网络被配置成：

接收来自所述解码器神经网络的解码器输出作为输入；

23.根据权利要求19所述的方法，其中，图像输入模态网络被配置成使用一个或多个残差卷积层来加深接收的输入图像特征深度。

24.根据权利要求19至23中的任一项所述的方法，其中，所述编码器神经网络和解码器神经网络包括来自多个机器学习域的神经网络组件，所述神经网络组件包括：(i)一个或多个卷积神经网络层；(ii)一个或多个注意力神经网络层，所述一个或多个注意力神经网络层被配置成执行相应的注意力机制；以及(iii)一个或多个稀疏门控神经网络层。

25.根据权利要求24所述的方法，其中，所述一个或多个卷积神经网络层被配置成执行卷积操作，包括执行深度可分离卷积。

26.根据权利要求25所述的方法，其中，卷积操作被定义成：

ConvStep_d，s(W，x)＝LN(StepConv_d，s(W，ReLUU(x)))，

27.根据权利要求24所述的方法，其中，所述一个或多个卷积神经网络层包括四个卷积层的堆栈，在第二和第四卷积层的堆栈输入与输出之间具有两个跳跃连接。

28.根据权利要求24所述的方法，其中，每个注意力神经网络层包括一个或多个卷积神经网络层，所述一个或多个卷积神经网络层包括一个或多个逐点卷积神经网络层。

29.根据权利要求24所述的方法，其中，每个注意力神经网络层被配置为接收(i)源输入张量；和(ii)目标输入张量作为输入，所述源输入张量和目标输入张量的形状为[序列长度，特征频道]。

30.根据权利要求29所述的方法，其中，每个注意力神经网络层被配置成：

自检所述经混合的张量以生成查询关键字；

31.一种编码有指令的一个或多个非暂时性计算机可读存储介质，所述指令在被一个或多个计算机执行时使得所述一个或多个计算机执行操作，所述操作包括：