CN110603583A

CN110603583A - 语音识别系统和用于语音识别的方法

Info

Publication number: CN110603583A
Application number: CN201780090477.5A
Authority: CN
Inventors: 堀贵明; 渡部晋治; J·赫尔希
Original assignee: Mitsubishi Corp
Current assignee: Mitsubishi Corp
Priority date: 2017-05-11
Filing date: 2017-11-10
Publication date: 2019-12-20
Anticipated expiration: 2037-11-10
Also published as: EP3417451A1; JP6827548B2; US20180330718A1; EP3417451B1; WO2018207390A1; CN110603583B; JP2020505650A

Abstract

语音识别系统包括接收声音的输入装置、一个或更多个处理器、以及存储参数和程序模块的一个或更多个储存装置，所述程序模块包括一个或更多个处理器可执行的指令。指令包括：从由声音转换的音频波形数据中提取声学特征序列；使用具有编码器网络参数的编码器网络将声学特征序列编码为隐藏向量序列(HVS)；通过将HVS馈送到具有解码器网络参数的解码器网络来预测第一输出标签序列概率(OLSP)；由联结主义时间分类(CTC)模块使用CTC网络参数和来自编码器网络的所述(HVS)，来预测第二(OLSP)；以及使用标签序列搜索模块，通过将从解码器网络和CTC模块提供的第一(OLSP)和第二(OLSP)组合，来搜索具有最高序列概率的输出标签序列。

Description

语音识别系统和用于语音识别的方法

技术领域

本发明总体涉及用于语音识别的系统和方法，更具体地，涉及用于端到端语音识别的方法和系统。

背景技术

自动语音识别是目前已经广泛部署的一组成熟技术，在诸如语音搜索等界面应用中取得了巨大成功。然而，构建实现高识别精度的语音识别系统并不容易。一个问题是它需要对系统接受的目标语言有深入的语言学知识。例如，音素集、词汇和发音词典对于构建这样的系统是必不可少的。音素集需要由语言的语言学家仔细定义。发音词典需要通过将一个或更多个音素序列分配给包括超过10万个单词的词汇表中的每个单词来手动创建。此外，某些语言没有明确地具有单词边界，因此我们可能需要标记化以从文本语料库创建词汇表。因此，非专家很难开发语音识别系统，特别是对于小语种。另一个问题是语音识别系统被分解成几个模块，包括被分开优化的声学、词典和语言模型。虽然每个模型都经过训练以匹配其它模型，但这种架构可能会导致局部最优。

发明内容

端到端语音识别的目标是将传统架构简化为深度学习框架内的单个神经网络架构。为了处理或解决这些问题，在一些文献中已经讨论了各种技术。然而，仍存在一些问题，包括基本的时间注意力机制就其允许极端非顺序对齐而言过于灵活，这导致删除和插入错误，以及它可以使标签序列假设由于局部丢失的标签序列而太短或者重复相同标记序列而太长。

本公开的一些实施方式基于以下认识：其可以通过将基于注意力的概率与基于CTC的概率组合，来减少用不相关对齐所获得的标签序列假设并提高识别准确度，以进行假设评分。

一种语音识别系统包括接收声音的输入装置、一个或更多个处理器、以及一个或更多个储存装置，其存储参数和程序模块，所述程序模块包括一个或更多个处理器可执行的指令，该指令在被执行时使得一个或更多个处理器执行操作。该操作包括：使用声学特征提取模块从由声音转换的音频波形数据中提取声学特征序列；使用具有编码器网络参数的编码器网络将声学特征序列编码为隐藏向量序列；通过将隐藏向量序列馈送到具有解码器网络参数的解码器网络来预测第一输出标签序列概率；由联结主义时间分类(CTC)模块使用CTC网络参数和来自编码器网络的隐藏向量序列，来预测第二输出标签序列概率；以及使用标签序列搜索模块，通过将从解码器网络和CTC模块提供的第一输出标签序列概率和第二输出标签序列概率组合，来搜索具有最高序列概率的输出标签序列。

此外，本公开的一些实施方式提供了一种用于语音识别的方法，该方法包括以下步骤：使用声学特征提取模块从由输入装置接收的声音转换的音频波形数据中提取声学特征序列；使用从一个或更多个储存装置获取编码器网络参数的编码器网络将声学特征序列编码为隐藏向量序列；通过将隐藏向量序列馈送到从一个或更多个储存装置获取解码器网络参数的解码器网络来预测第一输出标签序列概率；由联结主义时间分类(CTC)模块使用CTC网络参数和来自编码器网络的隐藏向量序列，来预测第二输出标签序列概率；以及使用标签序列搜索模块，通过将从解码器网络和CTC模块提供的第一输出标签序列概率和第二输出标签序列概率组合，来搜索具有最高序列概率的输出标签序列。

将参照附图进一步解释当前公开的实施方式。所示的附图不一定按比例绘制，而是通常将重点放在说明当前公开的实施方式的原理上。

附图说明

[图1]

图1是例示了根据相关技术的基于注意力的端到端语音识别方法的框图。

[图2]

图2是例示了根据本发明的实施方式的端到端语音识别模块的框图。

[图3]

图3是例示了根据本发明的实施方式的端对端语音识别模块中的神经网络的示意图。

[图4]

图4是例示了根据本发明的实施方式的端到端语音识别系统的框图。

[图5]

图5是通过对日语任务执行端到端语音识别而获得的评估结果。

[图6]

图6是通过对中国普通话任务执行端到端语音识别而获得的评估结果。

具体实施方式

虽然上述附图阐述了目前公开的实施方式，但如在讨论中所指出的，也可以预期其它实施方式。本公开通过表示而非限制的方式呈现示例性实施方式。本领域技术人员能够设计出落入当前所公开的实施方式的原理的范围和精神内的许多其它变型和实施方式。

以下描述仅提供示例性实施方式，并非旨在限制本公开的范围、适用性或配置。相反，示例性实施方式的以下描述将为本领域技术人员提供能够实现一个或更多个示例性实施方式的描述。在不脱离如所附权利要求中阐述的所公开主题的精神和范围的情况下，可以设想可以对元件的功能和布置进行各种变型。

在以下描述中给出了具体细节以提供对实施方式的全面理解。然而，本领域普通技术人员能够理解，可以在没有这些具体细节的情况下实践实施方式。例如，所公开主题中的系统、过程和其它元件可以以框图形式示出为组件，以免不必要的细节模糊实施方式。在其它情况下，可以在没有不必要的细节的情况下示出公知的过程、结构和技术，以避免模糊实施方式。此外，各附图中相似的附图标记和名称指示相似的元件。

另外，各个实施方式可以被描述为过程，该过程被描绘为流程图、作业图、数据流图、结构图或框图。尽管流程图可以将操作描述为顺序过程，但是许多操作能够并行或同时执行。另外，操作的顺序可以重新排列。过程可以在其操作完成时终止，但是可以具有在图中未讨论或未包括的附加步骤。此外，并非在任何特定描述过程中的所有操作都可以在所有实施方式中发生。过程可以对应于方法、函数、处理、子例程、子程序等。当过程对应于函数时，函数的终止可以对应于函数返回到调用函数或主函数。

此外，所公开主题的实施方式可以至少部分地手动或自动地实现。可以通过使用机器、硬件、软件、固件、中间件、微代码、硬件描述语言或其任何组合来实施或至少辅助手动或自动实现。当以软件、固件、中间件或微代码实现时，执行必要任务的程序代码或代码段可以被存储在机器可读介质中。处理器可以执行必要任务。

本公开中示例的模块和网络可以是能够使用一个或更多个处理器来执行指令的计算机程序、软件或指令代码。模块和网络可以存储在一个或更多个储存装置中或以其它方式存储在诸如存储介质、计算机存储介质或数据储存装置(可移动和/或不可移动)(诸如例如磁盘、光盘或磁带)之类的计算机可读介质中，其中，从一个或更多个处理器可访问计算机可读介质以执行指令。

计算机存储介质可以包括以用于存储信息(诸如计算机可读指令、数据结构、程序模块或其它数据)的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质可以是RAM、ROM、EEPROM或闪存、CD-ROM、数字通用盘(DVD)或其它光存储器、磁带盒、磁带、磁盘存储器或其它磁储存装置，或能够用于存储所需信息并且能够使用一个或更多个处理器由应用、模块或两者访问的任何其它介质。任何这样的计算机存储介质可以是装置的一部分或可访问或可连接到的装置。本文描述的任何应用或模块可以使用可以由这样的计算机可读介质存储或以其它方式保持的计算机可读/可执行指令来实现。

在下文中，在描述本公开的实施方式之前将讨论语音识别，以阐明在相关技术中发现的要求。

图1是例示了根据相关技术的基于注意力的端到端语音识别模块100的框图。

在基于注意力的端到端语音识别模块100中，编码器模块102首先使用从编码器网络参数103读取的编码器网络将声学特征序列101转换为隐藏向量序列。接下来，注意力解码器模块104接收来自编码器网络模块102的隐藏向量序列和来自标签序列搜索模块106的先前标签，并使用从解码器网络参数105读取的解码器网络来计算下一标签对于先前标签的后验概率分布，其中标签可以是字母、音节、单词或代表目标语言的任何单位，但广泛使用字母。标签序列搜索模块106使用由注意力解码器模块104给出的后验概率分布找到具有最高序列概率的标签序列，其中标签序列的后验概率被计算为序列中标签的后验概率的乘积。

然而，基于注意力的方法包括一个主要问题。注意力解码器模块104使用注意力机制来找到输出标签序列的每个元素与由编码器模块102针对声学特征生成的隐藏向量之间的对齐。在每个输出位置处，解码器模块104计算其状态向量与每个输入帧处编码器模块102的隐藏向量之间的匹配得分，以形成时间对齐分布，然后将其用于提取相应编码器隐藏向量的平均值。这种基本的时间注意力机制在允许极端非顺序对齐的意义上过于灵活，增加了语音识别的不准确性。

本发明的一些实施方式基于以下认识：通过将基于注意力的概率与基于CTC的概率组合，能够减少针对系统输出选择的、用不相关对齐获得的标签序列假设，以进行假设评分。

根据本公开的实施方式，能够将通过使用基于CTC的概率的严格约束合并到基于注意力的端到端语音识别的解码过程中。由于CTC允许使用动态编程有效地计算严格单调对齐，因此具有不相关的、非单调对齐的标记序列的后验概率能够比具有其它对齐的后验概率低。

本公开的实施方式还提供了不仅利用基于注意力的概率而且利用基于CTC的概率对每个标签序列假设进行评分，其中得分可以是由注意力解码器和CTC计算出的对数后验概率的线性组合。因此，本公开的端到端语音识别可以在输出标签和声学特征之间的相似性和对齐正确性方面选择最佳假设，这提高了识别准确度。因此，根据本公开实施方式的用于端到端语音识别的系统和方法能够减轻上面讨论的问题。

端到端语音识别设备能够从诸如麦克风、硬盘驱动器和计算机网络之类的输入装置接收声学特征序列。该设备使用针对声学特征序列的编码器网络参数、解码器网络参数和CTC网络参数来执行端到端语音识别方法，并将预测的标签序列输出到诸如硬盘驱动器、显示监视器和计算机网络之类的输出装置。

图2是例示了根据本发明的实施方式的端到端语音识别模块200的框图。

端到端语音识别模块200包括编码器网络模块202、编码器网络参数203、注意力解码器模块204、解码器网络参数205、标签序列搜索模块206、CTC模块208和CTC网络参数209。编码器网络参数203、解码器网络参数205和CTC网络参数209分别存储在储存装置中，以向相应模块202、204和208提供参数。使用图4中的声学特征提取模块434从音频波形数据或频谱数据中来提取声学特征序列201。音频波形数据或频谱数据可以存储在储存装置中并提供给编码器网络模块202。可以使用数字信号处理模块(未示出)经由图4中的输入装置475获得音频波形数据或频谱数据，该数字信号处理模块接收声音并将其转换成音频波形或频谱数据。此外，存储在储存装置430或存储器440中的音频波形或频谱数据可以被提供给编码器网络模块202。可以经由图4中的网络490提供声音的信号。输入装置475可以是麦克风装置。

编码器网络模块202包括编码器网络，其利用从编码器网络参数203读取参数的编码器网络将声学特征序列201转换为隐藏向量序列。

使用注意力解码器网络204的注意力机制描述如下。注意力解码器网络模块204包括解码器网络。注意力解码器网络模块204接收来自编码器网络模块202的隐藏向量序列以及来自标签序列搜索模块206的先前标签，然后使用从解码器网络参数205读取参数的解码器网络来计算下一标签相对于先前标签的第一后验概率分布。注意力解码器网络模块204将第一后验概率分布提供给标签序列搜索模块206。CTC模块208接收来自编码器网络模块202的隐藏向量序列以及来自标签序列搜索模块206的先前标签，并使用CTC网络参数209和动态编程技术来计算下一标签序列的第二后验概率分布。在计算之后，CTC模块208将第二后验概率分布提供给标签序列搜索模块206。

标签序列搜索模块206使用从注意力解码器网络模块204和CTC模块208提供的第一后验概率分布和第二后验概率分布来找到具有最高序列概率的标签序列。由注意力解码器网络模块204和CTC模块208计算出的标签序列的第一后验概率和第二后验概率被组合成一个概率。在这种情况下，可以基于线性组合来执行计算出的后验概率的组合。利用端到端语音识别模块200，可以考虑CTC概率以找到对输入声学特征序列更好的对齐假设。

基于注意力的端到端语音识别

端到端语音识别通常被定义为在给定输入声学特征序列X的情况下找到最可能的标签序列的问题，即，

其中，表示给定预定义字母集合的可能的标签序列集合。

在端到端语音识别中，在没有发音词典和语言模型的情况下，由预训练神经网络计算p(Y|X)。在相关技术的基于注意力的端到端语音识别中，神经网络由编码器网络和解码器网络组成。

编码器模块102包括用于按照下式将声学特征序列X＝x₁,…,x_T转换为隐藏向量序列H＝h₁,…,h_T的编码器网络，

H＝Encoder(X), (2)

其中，函数Encoder(X)可以由一个或更多个层叠的递归神经网络(RNN)组成。RNN可以实现为长短期记忆(LSTM)，其在每个隐藏单元中具有输入门、忘记门、输出门和记忆单元。另一个RNN可以是双向RNN(BRNN)或双向LSTM(BLSTM)。BLSTM是一对LSTM RNN，一个是前向LSTM并且另一个是后向LSTM。获得BLSTM的隐藏向量作为前向LSTM和后向LSTM的隐藏向量的级联。

利用前向LSTM，前向第t个隐藏向量被计算为

其中，σ(·)是逐元素的sigmoid函数，tanh(·)是逐元素双曲正切函数，和分别是x_t的输入门、忘记门、输出门和单元激活向量。⊙表示向量之间的逐元素乘法。权重矩阵和偏差向量是LSTM的参数，由下标z∈{x,h,i,f,o,c}来标识。例如，是隐藏到输入门矩阵，是输入到输出门矩阵。从输入向量x_t和先前隐藏向量递归地获得隐藏向量其中假设为零向量。

利用后向LSTM，后向第t个隐藏向量被计算为

其中，和分别是x_t的输入门、忘记门、输出门和单元激活向量。权重矩阵和偏差向量是LSTM的参数，其按照与前向LSTM相同的方式由下标来标识。隐藏向量由输入向量x_t和随后的隐藏向量递归地获得，其中假设为零向量。

通过按照下式将前向隐藏向量和后向隐藏向量级联来获得BLSTM的隐藏向量：

其中，假设所有向量为列向量，表示向量的转置操作。和被认为BLSTM的参数。

为了获得更好的隐藏向量，我们可以通过将第一BLSTM的隐藏向量馈送到第二BLSTM，然后将第二BLSTM的隐藏向量馈送到第三BLSTM，等等来层叠多个BLSTM。如果h_t′是由一个BLSTM获得的隐藏向量，则当将其馈送给另一BLSTM时，我们假设x_t＝h_t′。为了减少计算，可以仅将一个BLSTM的每个第二隐藏向量馈送到另一BLSTM。在这种情况下，输出隐藏向量序列的长度变为输入声学特征序列长度的一半。

注意力解码器模块104包括用于使用隐藏向量序列H计算标签序列概率p(Y|X)的解码器网络。假设Y是长度为L的标签序列y₁，y₂，...，y_L。为了有效地计算p(Y|X)，能够通过概率链规则将概率分解为：

并且每个标签概率p(y_l|y₁，…，y_l-1，X)是从标签上的概率分布获得的，其使用解码器网络估计为：

p(y|y1，…，y_l-1，X)＝Decoder(r_l，q_l-1)， (15)

其中，y是表示标签的随机变量，r_l称为内容向量，其具有H的内容信息。q_l-1其解码器状态向量，其包含先前内容向量r₀，…，r_l-1和先前标签y₁，…，y_l-1的上下文信息。因此，标签概率是给定上下文按照概率y＝y_l获得的，即，

p(y_l|y₁，…，y_l-1，X)＝p(y＝y_l|y₁，…，y_l-1，X) (16)

内容向量r_l通常由编码器网络的隐藏向量的加权和来给出，即，

其中，a_lt被称为注意力权重，满足∑_ta_lt＝1。注意力权重能够使用q_l-1和H计算为：

e_lt＝w^Ttanh(Wq_l-1+Vh_t+Uf_lt+b) (18)

f_l＝F*a_l-1 (19)

其中，W、V、F和U是矩阵，并且w和b是向量，其是解码器网络的可训练参数。e_lt是第(l-1)状态向量q_l-1和第t隐藏向量h_t之间的匹配得分，以形成时间对齐分布a_l＝{a_lt|t＝1,…,T}。a_l-1表示用于预测先前标签y_l-1的先前对齐分布{a_(l-1)t|t＝1,…,T}。f_l＝{f_lt|t＝1,…,T}是F对于a_l-1的卷积结果，这用于将先前对齐反映到当前对齐。“*”表示卷积运算。

利用状态向量q_l-1和内容向量r_l按照下式获得标签概率分布：

Decoder(r_l，q_l-1)＝softmax(W_qyq_l-1+W_ryr_l+b_y)， (21)

其中，W_qy和W_ry是矩阵并且b_y是向量，它们是解码器网络的可训练参数。对于K维向量v，softmax()函数按照下式进行计算：

其中v[i]表示v的第i元素。

之后，使用LSTM按照下式将解码器状态向量q_l-1更新至q_l

其中，和分别是输入向量x_l的输入门、忘记门、输出门和单元激活向量。权重矩阵和偏差向量是LSTM的参数，其按照与前向LSTM相同的方式由下标来标识。状态向量q_l由输入向量和先前状态向量q_l-1递归地获得，其中假设q_-1＝0、y₀＝<sos>并且a₀＝1/T来计算q₀。对于解码器网络，输入向量按照标签y_l和内容向量r_l的级联向量来给出，其能够按照获得，其中Embed(·)表示将标签转换为固定维向量的标签嵌入。

在基于注意力的语音识别中，估计适当的注意力权重对于预测正确的标签非常重要，这是因为内容向量r_l深度依赖于对齐分布a_l，如式(17)所示。在语音识别中，内容向量表示在对齐分布的峰值周围的编码器的隐藏向量中的声学信息，并且声学信息是预测标签y_l的最重要线索。不过，注意力机制通常提供不规则的对齐分布，这是因为没有明确的约束，因此当递增预测y_l时，分布的峰值沿着时间单调地前进。在语音识别中，输入序列和输出序列之间的对齐通常应该是单调的。虽然卷积特征f_lt减轻了生成不规则对齐，但它不足以避免不规则对齐。

基于CTC/注意力的联合的端到端语音识别

在根据本发明的实施方式的使用端到端语音识别模块200执行端到端语音识别的方法中，CTC前向概率式(34)与式(14)中基于注意力的概率相结合，以获得更准确的标签序列概率。

CTC模块208在给定隐藏向量序列H的情况下计算标签序列Y的CTC前向概率。注意CTC公式使用具有离散标签集合的长度为L的标签序列。通过引入具有附加“空白”标签的逐帧标签序列，Z＝{z_t∈u∪{b}|t＝1,…,T}，其中b表示空白标签。通过使用概率链规则和条件独立假设，后验分布p(Y|X)可以被分解为如下：

其中p(z_t|z_t-1|Y)被认为是包括空白标签的标签过渡概率。p(z_t|X)是以输入序列X为条件并且通过使用双向长短期记忆(BLSTM)来建模的逐帧后验分布：

其中h_t是用编码器网络获得的。是矩阵并且是向量，它们是CTC的可训练参数。尽管式(28)必须处理对于所有可能Z的总和，但是它通过使用前向算法有效地进行计算。

如下执行针对CTC的前向算法。我们使用长度2L+1的扩展标签序列Y′＝y′₁,′₂,…,y′_2L+1＝b,y₁,b,y₂,…,b,y_L，其中，空白标签“b”插入在每对相邻标签之间。假设α_t(s)是前向概率，其表示标签序列y₁,…,y_l对于时间帧1,…,t的后验概率，其中s表示在扩展标签序列Y′中的位置。

对于初始化，我们设置

α₁(1)＝p(z₁＝b|X) (30)

α₁(2)＝p(z₁＝y₁|X) (31)

对于t＝2至T，按照以下递归地计算α_t(s)：

其中，

最后，按照下式获得基于CTC的标签序列概率：

p(Y|X)＝α_T(2L+1)+α_T(2L) (35)

逐帧标签序列Z表示输入声学特征序列X和输出标签序列Y之间的对齐。当计算前向概率时，式(33)的递归强制Z单调，并且在对齐Z中不允许s的循环或大跳跃，这是因为获取α_t(s)的递归最多只考虑α_t-1(s)、α_t-1(s-1)、α_t-1(s-2)。这意味着当时间帧前进一帧时，标签会从先前标签或空白改变，或者保持相同的标签。该约束起到过渡概率p(z_t|z_t-1,Y)的作用，该过渡概率将对齐强制为单调的。因此，当基于不规则(非单调)对齐计算时，p(Y|X)能够是0或非常小的值。

图3是例示了根据本发明的实施方式的组合神经网络模块300的示意图。组合神经网络300包括编码器网络模块202、注意力解码器网络模块204和CTC模块208。每个箭头表示具有变换或不具有变换的数据传输，并且每个方形或圆形节点表示向量或预测标签。声学特征序列X＝x₁,…,x_T被馈送到编码器网络模块202，其中两个BLSTM层叠，并且第一BLSTM的每个第二隐藏向量被馈送到第二BLSTM。编码器模块202的输出导致隐藏向量序列H＝h′₁,h′₂,…,h′_T′，其中T′＝T/2。然后，H被馈送到CTC模块208和解码器网络模块204。基于CTC的序列概率和基于注意力的序列概率分别利用CTC模块208和解码器网络模块204来计算，并被组合以获得标签序列概率。

在本发明的实施方式中，概率可以按照下式在对数域中组合

logp(Y|X)＝λlogp_ctc(Y|X)+(1-λ)logp_att(Y|X) (36)

其中，p_ctc(Y|X)是式(35)中基于CTC的标签序列概率并且p_att(Y|X)是式(14)中基于注意力的标签序列概率。λ是缩放因子，以使基于CTC的概率和基于注意力的概率平衡。

标签序列搜索

标签序列搜索模块206根据标签序列概率分布p(Y|X)找到最可能的标签序列即，

在现有技术的基于注意力的语音识别中，假设p(Y|X)是p_att(Y|X)。在本发明的实施方式中，通过如式(36)中的标签序列概率的组合来计算p(Y|X)，即，根据下式找到

然而，因为可能的标签序列的数量与序列的长度呈指数增加，所以难以列举Y的所有可能的标记序列并且难以计算p(Y|X)。因此，通常使用波束搜索技术来查找其中首先生成较短的标签序列假设，并且仅扩展具有比其它假设更高得分的有限数量的假设以获得更长的假设。最后，在到达序列结尾的完整假设中选择最佳标签序列假设。

在波束搜索过程中，解码器需要计算每个标签序列假设的得分。然而，在波束搜索中将基于CTC的得分和基于注意力的得分组合并非易事，这是因为注意力解码器与输出标签同步地执行波束搜索，而CTC与帧同步地执行波束搜索。为了将CTC概率合并到假设得分中，根据本发明的实施方式的标签序列搜索模块206可以使用下述两种方法中的任一种。

(1)重新评分法

第一种方法是两轮法。第一轮使用波束搜索找到完整假设集，其中仅考虑基于注意力的得分。第二轮通过使用如式(36)所示的CTC概率和注意力概率的组合对完整假设重新评分，并找到最佳标签序列假设。

利用重新评分法，标签序列搜索模块206找到如下设Ω_l是长度为l的部分假设集。在第一轮波束搜索开始时，Ω₀仅包含带有起始符号<sos>的一个假设。对于l＝1至L_max，通过附加可能的单个标签来扩展Ω_l-1中的每个部分假设，并且将新假设存储在Ω_l中，其中L_max是要搜索的假设的最大长度。每个新假设的得分按照如下在对数域中计算：

ψ_att(h)＝ψ_att(g)+logp_att(y|g，X)， (39)

其中g是Ω_l-1中的部分假设，y是附加到g的单个标签，并且h是新假设，即，h＝g·y。概率p_att(y|g)能够通过式(16)计算，其中，我们假设ψ_att(<sos>)＝0。

如果y是表示序列结尾的特殊标签<eos>，则h添加到但不添加到Ω_l，其中Ω表示完整假设集。

第二轮基于CTC得分和注意力得分的组合按照下式找到

其中，CTC得分ψ_ctc(h,X)计算为logp_ctc(h|X)。

在波束搜索过程中，允许Ω_l仅保持具有较高得分的有限数量的假设，并且剪除其它假设以提高搜索效率。

重新评分法的更具体的过程总结如下。

Input:X,L_max

Output:

在该过程中，Ω_l和被实现为分别接收长度为l的部分假设以及完整假设的队列。在第1-2行中，Ω₀和被初始化为空队列。在第3行中，初始假设<sos>的得分被设置为0。在第4-23行中，Ω_l-1中的每个部分假设g通过标签集合中的每个标签y扩展，其中操作Head(Ω)返回队列Ω中的第一假设，并且Dequeue(Ω)将第一假设移出队列。

在第11行中，使用注意力解码器网络对每个扩展假设h进行评分。之后，如果y＝<eos>，则在第13行假设h是完整的并且存储在中，其中是将h添加到的操作。如果y≠<eos>，则在第15行中将h存储在Ω_l中，其中，在第16行中，将Ω_l中假设的数量(即，|Ω_l|)与预定数量beamWidth进行比较。如果|Ω_l|超过beamWidth，则在第17-18行中从Ω_l中去除具有最小得分h_min的假设，其中Remove(Ω_l,h_min)是从Ω_l中去除h_min的操作。最后，在第24行中选择作为最佳假设。

(2)一轮法

第二种方法是一轮法，其在波束搜索期间计算每个部分假设的得分作为基于CTC的概率和基于注意力的概率的组合。这里，我们利用被定义为具有h作为其前缀的所有标签序列的累积概率的CTC前缀概率：

并且我们定义CTC得分为：

其中，v表示除空串之外的所有可能的标签序列。不能如式(39)那样递归获得CTC得分，但是能够通过针对每个部分假设保留输入时间帧上的前向概率有效地计算CTC得分。然后，使用缩放因子λ将其与ψ_att(h)组合。

通过一轮法，标签序列搜索模块206根据以下过程找到

Input:X,L_max

Output

与重新评分法不同的是第12行和第18行，在第12中使用CTC得分ψ_ctc(h,X)和基于注意力的得分ψ_att(h)计算联合得分ψ_joint(h)，在第18行中，使用联合得分ψ_joint(h)来选择h_min。

能够使用修正的前向算法来计算CTC得分ψ_ctc(h,X)。设和是假设h在时间帧1…t上的前向概率，其中上标(n)和(b)分别表示其中所有CTC路径以非空白标签和空白标签结束的不同情况。在波束搜索开始之前，针对t＝1,…,T，按照下式初始化和

其中，我们假设并且b是空白标签。注意，由于编码器的子采样技术，时间索引t和输入长度T可以与输入话语X的不同。CTC得分函数能够如下实现。

Input:h，X

Output:ψ_ctc(h，X)

在该函数中，给定假设h在第1行中首先被分割为最后标签y和其余标签g。如果y是<eos>，则在第3行中假定h是完整假设，其返回前向概率的算法。根据和的定义，h的前向概率由下式给出：

如果y不是<eos>，则假定h不是完整假设，计算前向概率和以及前缀概率Ψ＝p_ctc(h,…|X)。在第5-13行中描述了关于那些概率的初始化和递归步骤。在该函数中，假定不论何时在第10-12行中计算和Ψ，已经通过波束搜索过程获得第9行中的概率和这是因为g是h的前缀，使得|g|＜|h|。因此，能够有效地计算前缀概率和前向概率。注意，在第9行中的last(g)是返回g的最后标签的函数。

因此，一轮法能够在波束搜索期间通过CTC得分排除具有不规则对齐的部分假设，并且希望与重新评分法相比以更少的计算来减少搜索错误的次数。搜索错误意味着波束搜索错过最可能的假设。在这种情况下，获得具有较低得分的备选假设而不是最佳假设，其中备选假设通常包含比最佳假设更多的识别错误。

网络训练

在训练阶段，所有网络参数203、205和209联合优化以减少损失函数：

其中，X和Y是包括声学特征序列和标签序列的训练数据。Φ表示网络参数集。N是训练样本数量，X_n和Y_n分别是训练数据中的第n个声学特征序列和相应标签序列。p_ctc(Y_n|X_n,Φ)是基于CTC的序列概率，并且p_att(Y_n|X_n,Φ)是基于注意力的序列概率。可以通过随机梯度下降法来优化网络参数。

训练过程使编码器、解码器和CTC网络联合优化。但是该方法仅使用CTC网络来使用于现有技术的基于注意力的端到端语音识别的编码器和解码器参数规则化。CTC网络在训练后被放弃并且在识别阶段中不被使用。在本发明的方法中，CTC网络用于在识别阶段中预测序列概率p(Y|X)，这减少了识别错误。这是本公开的实施方式的显著优点之一。

端到端语音识别设备

图4示出了根据本发明的一些实施方式的端到端语音识别系统400的框图。端到端语音识别系统400包括可与键盘411和定点装置/介质412连接的人机接口(HMI)410、一个或更多个处理器420、储存装置430、存储器440、可与包括局域网和互联网的网络490连接的网络接口控制器450(NIC)、显示接口460、可与麦克风装置475连接的音频接口470、可与打印装置485连接的打印机接口480。存储器440可以是一个或更多个存储器单元。端到端语音识别系统400能够经由连接到NIC 450的网络490接收电音频波形/频谱数据495。储存装置430包括端到端语音识别模块200、注意力解码器网络模块204、编码器网络模块202、CTC模块208和声学特征提取模块434。图中省略了标签序列搜索模块、编码器网络参数、解码器网络参数和CTC网络参数。定点装置/介质412可以包括读取计算机可读记录介质上所存储的程序的模块。注意力解码器网络模块204、编码器网络模块202和CTC模块208可以由神经网络参数形成。声学特征提取模块434是用于提取声学特征序列的程序。声学特征序列可以是具有它们的一阶和二阶时间导数和/或音调特征的梅尔标度(mel-scale)滤波器组系数的序列。

为了执行端到端语音识别，可以使用键盘411、定点装置/介质412或经由连接到其它计算机(图中未示出)的网络490向端到端语音识别系统400发送指令。系统400经由HMI410接收指令，并通过加载储存装置430中所存储的端到端语音识别模块200、注意力解码器网络模块204、编码器网络模块202、CTC模块208和声学特征提取模块434，使用处理器420结合存储器440执行用于执行端到端语音识别的指令。

评估结果

我们使用日语和中国普通话语音识别基准来呈现本发明的效果。

日语口语语料库(CSJ)

我们通过使用日语口语语料库(CSJ：MAEKAWA,K.,KOISO,H.,FURUI,S.,ANDISAHARA,H.Spontaneous speech corpus of Japanese.In International Conferenceon Language Resources and Evaluation(LREC)(2000),vol.2,pp.947–952.：前川.K、小矶.H、古井.S和谏早.H在语音资源和评估国际大会(LREC)(2000)中的第2卷，第947-952页中的日语自发语音语料库)来证明语音识别实验。CSJ是一种基于包括学术讲座和模拟演示的一系列独白语音数据的标准日语语音识别任务。它共有581小时的训练数据和三种评估数据(任务1、任务2、任务3)，每个评估任务由10个讲座(总共5个小时)组成。作为输入特征，我们使用了40个梅尔标度滤波器组系数，利用它们的一阶和二阶时间导数来获得每帧总共120维特征向量。编码器是4层BLSTM，在每个层和方向上具有320个单元，并且每个BLSTM层之后是线性投影层。编码器的第二和第三底层读取下面网络中的每个第二隐藏向量，将话语长度减少4分之一。我们使用基于位置的注意力机制，其中使用宽度为100的10个中央卷积滤波器来提取卷积特征。解码器网络是具有320个单元的1层LSTM。具有梯度裁剪的阿尔法德耳塔(AdaDelta)算法被用于进行优化。在多任务学习方法中训练编码器、解码器和CTC网络，其中缩放因子λ被设置为0.1。

图5比较了传统的基于注意力的语音识别和本发明的字符错误率(CER)。图5中的表格示出了通过本发明在所有三个任务中减少了现有技术的CER，其中缩放因子被设置为0.1。在本发明中，一轮法在任务1和任务3中略好于重新评分法。

中国普通话电话语音

我们针对HKUST中国普通话会话电话语音识别(MTS)来证明实验。它具有用于评估的5小时记录(Eval集)，并且我们从训练数据中提取5个小时作为开发集(Dev集)，并使用其余的(167小时)作为训练集。除了基于我们的初步调查，我们在训练和解码中使用λ＝0.5代替0.1并且使用具有音调特征的80个梅尔标度滤波器组系数之外，所有实验条件与CSJ实验中的相同。图6示出了本发明相对于现有技术的基于注意力的方法的效果。在开发集和评估集中，CER都显著减少。与CSJ实验一样，一轮法在两个集中都略好于重新评分法。

在本公开的一些实施方式中，当上述端到端语音识别系统被安装在计算机系统中时，能够用较少的计算能力有效且准确地执行语音识别，由此使用本公开的端到端语音识别方法或系统能够减少中央处理单元的使用和功耗。

此外，根据本公开的实施方式提供了用于执行端到端语音识别的有效方法，因此，使用端到端语音识别模型的方法和系统的使用能够减少中央处理单元(CPU)的使用、功耗和/或网络带宽使用。

能够以大量方式中的任何一种来实现本公开的上述实施方式。例如，可以使用硬件、软件或其组合来实现实施方式。当以软件实现时，无论是设置在单个计算机中还是分布在多个计算机之间，软件代码都能够在任何合适的处理器或处理器集合上执行。这样的处理器可以实现为集成电路，其中在集成电路组件中具有一个或更多个处理器。但是，可以使用任何合适格式的电路来实现处理器。

另外，本文概述的各种方法或过程可以被编码为软件，该软件在采用各种操作系统或平台中的任何一种的一个或更多个处理器上可执行。另外，可以使用许多合适编程语言和/或编程或脚本工具中的任何一种来编写这样的软件，并且还可以将这样的软件编译为在框架或虚拟机上执行的可执行机器语言代码或中间代码。通常，程序模块的功能可以根据需要在各种实施方式中组合或分布。

此外，本公开的实施方式可以体现为已经提供了其示例的方法。作为方法的一部分执行的动作可以以任何合适的方式排序。因此，实施方式可以被构造为其中以不同于所示顺序的顺序执行动作，其可以包括同时执行一些动作，即使这些动作在示例性实施方式中示出为顺序动作。此外，在权利要求中使用诸如第一、第二之类的序数术语来修改权利要求元素本身并不意味着一个权利要求元素相对于另一个权利要求元素有任何优先级、优先顺序或次序，也不意味着执行方法的动作的时间顺序，而是仅用作标签来将具有特定名称的一个权利要求元件与具有相同名称(但是使用了序数术语)的另一个元件区分开，以区分权利要求元件。

Claims

1.一种语音识别系统，该语音识别系统包括：

输入装置，该输入装置接收声音；

一个或更多个处理器；以及

一个或更多个储存装置，所述一个或更多个储存装置存储参数和程序模块，所述程序模块包含能够由所述一个或更多个处理器执行的指令，所述指令在被执行时使得所述一个或更多个处理器执行包括以下项的操作：

使用声学特征提取模块从由声音转换的音频波形数据中提取声学特征序列；

使用具有编码器网络参数的编码器网络将所述声学特征序列编码为隐藏向量序列；

通过将所述隐藏向量序列馈送到具有解码器网络参数的解码器网络来预测第一输出标签序列概率；

使用联结主义时间分类CTC网络参数和来自所述编码器网络的所述隐藏向量序列，由CTC模块来预测第二输出标签序列概率；以及

使用标签序列搜索模块，通过将从所述解码器网络和所述CTC模块提供的所述第一输出标签序列概率和所述第二输出标签序列概率组合，来搜索具有最高序列概率的输出标签序列。

2.根据权利要求1所述的语音识别系统，其中，所述解码器网络在预测所述第一输出标签序列概率之前从所述标签序列搜索模块接收先前标签。

3.根据权利要求1所述的语音识别系统，其中，所述CTC模块在预测所述第二输出标签序列概率之前从所述标签序列搜索模块接收先前标签。

4.根据权利要求1所述的语音识别系统，其中，所述编码器网络包括层叠的双向长短期记忆BLSTM。

5.根据权利要求1所述的语音识别系统，其中，所述解码器网络包括层叠的长短期记忆LSTM，并且使用针对所述隐藏向量序列的注意力机制来预测每个输出标签序列概率。

6.根据权利要求1所述的语音识别系统，其中，对数域中的线性组合用于将所述第一输出标签序列概率和所述第二输出标签序列概率组合。

7.根据权利要求1所述的语音识别系统，其中，搜索操作使用波束搜索，以找到具有所述最高序列概率的所述输出标签序列，所述最高序列概率通过将从所述解码器网络和所述CTC模块提供的所述第一输出标签序列概率和所述第二输出标签序列概率组合而获得。

8.根据权利要求7所述的语音识别系统，其中，所述波束搜索首先使用从所述解码器网络提供的所述第一标签序列概率找到完整标签序列假设集，然后从该完整标签序列假设集中找到具有所述最高序列概率的所述输出标签序列，所述最高序列概率通过将从所述解码器网络和所述CTC模块提供的所述第一输出标签序列概率和所述第二输出标签序列概率组合而获得。

9.根据权利要求7所述的语音识别系统，其中，所述波束搜索剪掉与其它不完整标签序列假设相比具有低序列概率的不完整标签序列假设，并且该序列概率是通过将从所述解码器网络和所述CTC模块提供的所述第一输出标签序列概率和所述第二输出标签序列概率组合而获得的。

10.根据权利要求1所述的语音识别系统，其中，所述CTC模块使用所述CTC网络参数和动态编程技术来计算后验概率分布，以预测所述第二输出标签序列概率。

11.一种语音识别方法，该语音识别方法包括以下步骤：

使用声学特征提取模块，从由输入装置接收的声音转换的音频波形数据中提取声学特征序列；

使用从一个或更多个储存装置获取编码器网络参数的编码器网络，将所述声学特征序列编码为隐藏向量序列；

通过将所述隐藏向量序列馈送到从所述一个或更多个储存装置获取解码器网络参数的解码器网络，来预测第一输出标签序列概率；

由联结主义时间分类CTC模块使用CTC网络参数和来自所述编码器网络的所述隐藏向量序列，来预测第二输出标签序列概率；以及

12.根据权利要求11所述的方法，其中，在预测所述第一输出标签序列概率之前，所述解码器网络从所述标签序列搜索模块接收先前标签。

13.根据权利要求11所述的方法，其中，在预测所述第二输出标签序列概率之前，所述CTC模块从所述标签序列搜索模块接收先前标签。

14.根据权利要求11所述的方法，其中，所述编码器网络包括层叠的双向长短期记忆BLSTM。

15.根据权利要求11所述的方法，其中，所述解码器网络包括层叠的长短期记忆LSTM，并且使用针对所述隐藏向量序列的注意力机制来预测每个输出标签序列概率。

16.根据权利要求11所述的方法，其中，对数域中的线性组合用于将所述第一输出标签序列概率和所述第二输出标签序列概率组合。

17.根据权利要求11所述的方法，其中，搜索步骤使用波束搜索，以找到具有所述最高序列概率的所述输出标签序列，所述最高序列概率通过将从所述解码器网络和所述CTC模块提供的所述第一输出标签序列概率和所述第二输出标签序列概率组合而获得。

18.根据权利要求17所述的方法，其中，所述波束搜索首先使用从所述解码器网络提供的所述第一标签序列概率找到完整标签序列假设集，然后从所述完整标签序列假设集中找出具有所述最高序列概率的所述输出标签序列，所述最高序列概率通过将从所述解码器网络和所述CTC模块提供的所述第一输出标签序列概率和所述第二输出标签序列概率组合而获得。

19.根据权利要求17所述的方法，其中，所述波束搜索剪掉与其它不完整标签序列假设相比具有低序列概率的不完整标签序列假设，并且该序列概率是通过将从所述解码器网络和所述CTC模块提供的所述第一输出标签序列概率和所述第二输出标签序列概率组合而获得的。

20.根据权利要求11所述的方法，其中，所述CTC模块使用所述CTC网络参数和动态编程技术来计算后验概率分布，以预测所述第二输出标签序列概率。