CN110232193B

CN110232193B - 一种结构化文本翻译方法及装置

Info

Publication number: CN110232193B
Application number: CN201910349677.9A
Authority: CN
Inventors: 刘洋; 张嘉成; 栾焕博; 孙茂松; 翟飞飞; 许静芳
Original assignee: Tsinghua University; Beijing Sogou Technology Development Co Ltd
Current assignee: Tsinghua University; Beijing Sogou Technology Development Co Ltd
Priority date: 2019-04-28
Filing date: 2019-04-28
Publication date: 2020-08-28
Anticipated expiration: 2039-04-28
Also published as: CN110232193A

Abstract

本发明实施例提供一种结构化文本翻译方法及装置，包括：将待翻译的目标结构化文本的结构化标记去除，得到目标文本；将所述目标文本输入到训练好的文本翻译神经网络模型中，根据短语搜索空间对所述目标文本的翻译候选词进行搜索翻译，得到目标翻译文本和对齐信息；根据所述对齐信息，对所述目标翻译文本进行结构化标记恢复处理，得到目标结构化翻译文本。本发明实施例通过将结构化文本的结构化标记去除，从而通过基于短语搜索空间的神经网络模型对去除结构化标记的文本进行翻译，并将翻译后的文本恢复结构化标记，得到结构化翻译文本，实现了通过神经网络模型对结构化文本进行翻译。

Description

一种结构化文本翻译方法及装置

技术领域

本发明涉及机器翻译技术领域，尤其涉及一种结构化文本翻译方法及装置。

背景技术

近年来，神经网络机器翻译技术快速地发展使得机器翻译的质量得到了显著的提升。进一步的，机器翻译质量的提升也使得其开始在实际生活中得到广泛的应用。

尽管神经机器翻译在翻译纯文本时效果卓越，但其仍然无法被很好地应用于翻译结构化文本，由于结构化文本的翻译需要满足结构化约束，例如，源端在一对HTML标签之间的内容在目标端所对应的翻译也必须被包含在同一对HTML标签之间，但由于在现有的神经机器翻译中，没有结构化文本的语料用于训练针对结构化文本翻译的模型；并且，神经机器翻译缺乏显式的对齐信息，无法加入结构化约束，导致现有的神经机器翻译难以翻译结构化文本。

因此，现在亟需一种结构化文本翻译方法及装置来解决上述问题。

发明内容

针对现有技术存在的问题，本发明实施例提供一种结构化文本翻译方法及装置。

第一方面，本发明实施例提供了一种结构化文本翻译方法，包括：

将待翻译的目标结构化文本的结构化标记去除，得到目标文本；

将所述目标文本输入到训练好的文本翻译神经网络模型中，根据短语搜索空间对所述文本的翻译候选词进行搜索翻译，得到目标翻译文本和对齐信息，所述训练好的文本翻译神经网络模型是由不含结构化标记的样本文本训练得到的；

根据所述对齐信息，对所述目标翻译文本进行结构化标记恢复处理，得到目标结构化翻译文本。

第二方面，本发明实施例提供了一种结构化文本翻译装置，包括：

结构化标记去除模块，用于将待翻译的目标结构化文本的结构化标记去除，得到目标文本；

文本翻译模块，用于将所述目标文本输入到训练好的文本翻译神经网络模型中，根据短语搜索空间对所述目标文本的翻译候选词进行搜索翻译，得到目标翻译文本和对齐信息，所述训练好的文本翻译神经网络模型是由不含结构化标记的样本文本训练得到的；

结构化标记恢复模块，用于根据所述对齐信息，对所述目标翻译文本进行结构化标记恢复处理，得到目标结构化翻译文本。

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所提供的方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。

本发明实施例提供的一种结构化文本翻译方法及装置，通过将结构化文本的结构化标记去除，从而通过基于短语搜索空间的神经网络模型对去除结构化标记的文本进行翻译，并将翻译后的文本恢复结构化标记，得到结构化翻译文本，实现了通过神经网络模型对结构化文本进行翻译。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的结构化文本翻译方法的流程示意图；

图2为本发明实施例提供的网格柱搜索法的示意图；

图3为本发明实施例提供的结构化文本翻译装置的结构示意图；

图4为本发明实施例提供的电子设备结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

机器翻译是通过计算机把一种自然语言转变成另一种自然语言的过程，近年来，神经网络机器翻译技术快速地发展，使得机器翻译的质量得到显著提高。尽管现有的机器翻译在对纯文本进行翻译时，具有卓越的效果，然而在对结构化文本进行翻译时，目标的机器翻译难以得到应用。本发明实施例通过基于短语搜索空间的神经网络模型对去除结构化标记的文本进行翻译，并将翻译后的文本恢复结构化标记，得到结构化翻译文本，从而实现了通过神经网络模型对结构化文本进行翻译。需要说明的是，在本发明实施例中，将待翻译端的文本(例如，待翻译的目标结构化文本、目标文本、去除结构化标记的样本文本和待翻译的样本结构化文本)的词或短语作为源端词，以及将完成翻译端的文本(例如，目标翻译文本、样本翻译文本和目标结构化翻译文本)的词或短语作为目标端词进行说明。

图1为本发明实施例提供的结构化文本翻译方法的流程示意图，如图1所示，本发明实施例提供了一种结构化文本翻译方法，包括：

步骤101，将待翻译的目标结构化文本的结构化标记去除，得到目标文本；

在本发明实施例中，首先需要对获取到的目标结构化文本进行处理，将携带的结构化标记去除，得到去除结构化标记且保留结构化约束的目标文本。

步骤102，将所述目标文本输入到训练好的文本翻译神经网络模型中，根据短语搜索空间对所述目标文本的翻译候选词进行搜索翻译，得到目标翻译文本和对齐信息，所述训练好的文本翻译神经网络模型是由不含结构化标记的样本文本训练得到的。

在本发明实施例中，通过训练好的文本翻译神经网络模型对目标文本进行翻译，首先，模型通过短语搜索空间对目标文本中每一个词或短语的翻译候选词进行搜索，在进行翻译候选词搜索时，搜索顺序不作限定，但是结构化约束的目标文本需要作为一个整体进行翻译。在短语搜索空间完成目标文本中每一个词或短语的翻译候选词的搜索之后，训练好的文本翻译神经网络模型根据每个翻译候选词和目标文本中的源端词的翻译概率，对这些翻译候选词进行选择，从中选择翻译概率最高的目标端词，得到目标翻译文本，并且得到目标翻译文本和目标文本之间的对齐信息。

步骤103，对所述目标翻译文本进行结构化标记恢复处理，得到目标结构化翻译文本。

在本发明实施例中，根据目标翻译文本和目标文本之间的对齐信息，对目标翻译文本进行结构化标记恢复，从而完成结构化文本的翻译。

本发明实施例提供的一种结构化文本翻译方法，通过将结构化文本的结构化标记去除，从而通过基于短语搜索空间的神经网络模型对去除结构化标记的文本进行翻译，并将翻译后的文本恢复结构化标记，得到结构化翻译文本，实现了通过神经网络模型对结构化文本进行翻译。

在上述实施例的基础上，所述训练好的文本翻译神经网络模型通过以下步骤训练得到：

根据不含结构化标记的样本文本构建训练样本集；

根据所述训练样本集，对预训练的文本翻译神经网络模型进行训练，得到训练好的文本翻译神经网络模型。

在本发明实施例中，将不含结构化标记样本文本输入到神经网络模型中进行训练，并在神经网络模型中构建基于短语的搜索空间(即语料库模型)，在样本文本输入到神经网络之后，首先通过短语搜索空间对样本文本中每一个词或短语的翻译候选词进行搜索，获取每个样本文本的源端词对应的翻译候选词，从而得到预训练的结构化文本翻译神经网络模型，预训练的结构化文本翻译神经网络模型根据每个翻译候选词和样本文本中源端词的翻译概率，对这些翻译候选词进行选择，从中选择翻译概率最高的样本目标端词，得到样本翻译文本从而完成文本翻译神经网络模型的训练。

在上述实施例的基础上，在所述根据不含结构化标记的样本文本构建训练样本集之前，所述方法还包括：

获取待翻译的样本结构化文本；

根据所述样本结构化文本的标签成对匹配信息，将所述样本结构化文本的结构化标记去除，得到不含结构化标记的样本文本，以用于构建训练样本集。

在本发明实施例中，在获取样本结构化文本之后，根据该文本中的标签成对匹配信息，将结构化标记去除，例如，“<a>The Raven</a>”的标签成对匹配信息为<a>和</a>，因此，将<a>和</a>去除掉，从而得到不含结构化标记的样本文本。需要说明的是，不含结构化标记的样本文本还保留有标签化约束，在完成样本文本的翻译之后，根据标签成对匹配信息以及样本翻译文本和样本文本之间的对齐信息，再对样本翻译文本进行结构化标记恢复处理。

在上述实施例的基础上，所述将所述目标文本输入到训练好的文本翻译神经网络模型中，根据短语搜索空间对所述目标文本的翻译候选词进行搜索翻译，得到目标翻译文本和对齐信息，包括：

根据所述目标文本中的源端词之间对应的停用词翻译频率，在所述目标文本的源端词之间的空词位置插入相应的停用词，以用于得到目标翻译文本和对齐信息。

进一步地，在上述实施例的基础上，所述将所述目标文本输入到训练好的文本翻译神经网络模型中，根据短语搜索空间对所述目标文本的翻译候选词进行搜索翻译，得到目标翻译文本和对齐信息，还包括：

根据所述目标文本的源端词遗漏概率，将所述目标文本中的对应的源端词翻译为空词，所述源端词遗漏概率的公式为：

其中，x_i表示所述目标文本的源端词中第i个词，<null>表示将x_i翻译为空词，O表示所有遗漏的源端词的位置；

根据源端词遗漏概率和文本翻译神经网络模型的翻译概率，得到所述目标文本的翻译对数概率，公式为：

其中，logP(y|x)表示文本翻译神经网络模型的翻译概率，y表示翻译后的目标文本对应的语句，x表示翻译前的目标文本对应的语句，λ表示一个超参数。

在本发明实施例中，为了提高翻译的灵活性，将源端词之间的空词翻译一个目标端的词(即插入一个词)，或者将源端词翻译到目标端的空词(即遗漏这个词)，例如，获取到去除结构化标记的目标文本为“American poet Edgar Allan Poe’s The Raven”，在目标文本(源端)“American”和“poet”之间插入一个停用词翻译为目标端词“的”，将源端词中的“The”作为遗漏词翻译为目标端词中的空词(即不翻译The)，最终得到的翻译为“美国的诗人爱伦坡的《乌鸦》”。对于前者，根据停用词翻译频率，只插入对齐到源端空词概率较高且出现频率较高的停用词。对于后者，和常规神经机器翻译解码不同的是，在遗漏一个源端词时，会同时将其遗漏概率考虑在最终的翻译概率里，从而得到最终的翻译对数概率。

在上述实施例的基础上，所述将所述目标文本输入到训练好的文本翻译神经网络模型中，根据短语搜索空间对所述目标文本的翻译候选词进行搜索翻译，得到目标翻译文本和对齐信息，还包括：

通过网格柱搜索法，根据所述短语搜索空间对所述目标文本的翻译候选词进行搜索翻译，以得到目标翻译文本和对齐信息。

在本发明实施例中，图2为本发明实施例提供的网格柱搜索法的示意图，可参考图2所示，通过网格柱搜索法，从没有翻译的状态开始进行扩展，每次扩展都从源端词中查询到当前假设可以翻译的词进行翻译，并生成新的翻译候选词，在对该翻译候选词评分后，根据假设评分选取评分靠前的翻译候选词进行下一步扩展，直到扩展到最后一个网格柱。在本发明实施例中，将已翻译出的目标端词数和已被翻译的源端词数作为索引进行保存，具体地，在每个网格柱中只保留若干个翻译概率较高的翻译候选词，而只有网格柱最上方的翻译候选词作为最终的翻译结果被选取。

图3为本发明实施例提供的结构化文本翻译装置的结构示意图，如图3所示，本发明实施例提供了一种结构化文本翻译装置，包括结构化标记去除模块301、文本翻译模块302和结构化标记恢复模块303，其中，结构化标记去除模块301用于将待翻译的目标结构化文本的结构化标记去除，得到目标文本；文本翻译模块302用于将所述目标文本输入到训练好的文本翻译神经网络模型中，根据短语搜索空间对所述目标文本的翻译候选词进行搜索翻译，得到目标翻译文本和对齐信息，所述训练好的文本翻译神经网络模型是由不含结构化标记的样本文本训练得到的；结构化标记恢复模块303用于根据所述对齐信息，对所述目标翻译文本进行结构化标记恢复处理，得到目标结构化翻译文本。

在本发明实施例中，结构化标记去除模块301对获取到的目标结构化文本进行处理，将携带的结构化标记去除，得到去除结构化标记且保留结构化约束的目标文本。文本翻译模块302通过短语搜索空间对目标文本中每一个词或短语的翻译候选词进行搜索，在进行翻译候选词搜索时，搜索顺序不作限定，但是结构化约束的目标文本需要作为一个整体进行翻译。在搜索空间完成目标文本中每一个词或短语的翻译候选词的搜索之后，文本翻译模块302根据每个翻译候选词和目标文本中的源端词的翻译概率，对这些翻译候选词进行选择，从中选择翻译概率最高的目标端词，得到目标翻译文本，并且得到目标翻译文本和目标文本之间的对齐信息。最后，结构化标记恢复模块303根据目标翻译文本和目标文本之间的对齐信息，对目标翻译文本进行结构化标记恢复，从而完成结构化文本的翻译。

本发明实施例提供的一种结构化文本翻译装置，通过将结构化文本的结构化标记去除，从而通过基于短语搜索空间的神经网络模型对去除结构化标记的文本进行翻译，并将翻译后的文本恢复结构化标记，得到结构化翻译文本，实现了通过神经网络模型对结构化文本进行翻译。

本发明实施例提供的装置是用于执行上述各方法实施例的，具体流程和详细内容请参照上述实施例，此处不再赘述。

图4为本发明实施例提供的电子设备结构示意图，如图4所示，该电子设备可以包括：处理器(Processor)401、通信接口(Communications Interface)402、存储器(Memory)403和通信总线404，其中，处理器401，通信接口402，存储器403通过通信总线404完成相互间的通信。处理器401可以调用存储器403中的逻辑指令，以执行如下方法：将待翻译的目标结构化文本的结构化标记去除，得到目标文本；将所述目标文本输入到训练好的文本翻译神经网络模型中，根据短语搜索空间对所述目标文本的翻译候选词进行搜索翻译，得到目标翻译文本和对齐信息，所述训练好的结构化文本翻译神经网络模型是由不含结构化标记的样本文本训练得到的；根据所述对齐信息，对所述目标翻译文本进行结构化标记恢复处理，得到目标结构化翻译文本。

此外，上述的存储器403中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：将待翻译的目标结构化文本的结构化标记去除，得到目标文本；将所述目标文本输入到训练好的文本翻译神经网络模型中，根据短语搜索空间对所述目标文本的翻译候选词进行搜索翻译，得到目标翻译文本和对齐信息，所述训练好的文本翻译神经网络模型是由不含结构化标记的样本文本训练得到的；根据所述对齐信息，对所述目标翻译文本进行结构化标记恢复处理，得到目标结构化翻译文本。

本发明实施例提供一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质存储服务器指令，该计算机指令使计算机执行上述实施例所提供的结构化文本翻译方法，例如包括：将待翻译的目标结构化文本的结构化标记去除，得到目标文本；将所述目标文本输入到训练好的文本翻译神经网络模型中，根据短语搜索空间对所述目标文本的翻译候选词进行搜索翻译，得到目标翻译文本和对齐信息，所述训练好的文本翻译神经网络模型是由不含结构化标记的样本文本训练得到的；根据所述对齐信息，对所述目标翻译文本进行结构化标记恢复处理，得到目标结构化翻译文本。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种结构化文本翻译方法，其特征在于，包括：

将所述目标文本输入到训练好的文本翻译神经网络模型中，根据短语搜索空间对所述目标文本的翻译候选词进行搜索翻译，得到目标翻译文本和对齐信息，所述训练好的文本翻译神经网络模型是由不含结构化标记的样本文本训练得到的；

根据所述对齐信息，对所述目标翻译文本进行结构化标记恢复处理，得到目标结构化翻译文本；

所述将所述目标文本输入到训练好的文本翻译神经网络模型中，根据短语搜索空间对所述目标文本的翻译候选词进行搜索翻译，得到目标翻译文本和对齐信息，还包括：

2.根据权利要求1所述的结构化文本翻译方法，其特征在于，所述训练好的文本翻译神经网络模型通过以下步骤训练得到：

根据不含结构化标记的样本文本构建训练样本集；

3.根据权利要求2所述的结构化文本翻译方法，其特征在于，在所述根据不含结构化标记的样本文本构建训练样本集之前，所述方法还包括：

获取待翻译的样本结构化文本；

4.根据权利要求1所述的结构化文本翻译方法，其特征在于，所述将所述目标文本输入到训练好的文本翻译神经网络模型中，根据短语搜索空间对所述目标文本的翻译候选词进行搜索翻译，得到目标翻译文本和对齐信息，包括：

5.根据权利要求1至4任一所述的结构化文本翻译方法，其特征在于，所述将所述目标文本输入到训练好的文本翻译神经网络模型中，根据短语搜索空间对所述目标文本的翻译候选词进行搜索翻译，得到目标翻译文本和对齐信息，还包括：

通过网格柱搜索法，根据所述短语搜索空间对所述目标文本的翻译候选词进行搜索翻译，以得到目标翻译文本和对齐信息，所述通过网格柱搜索法具体步骤为：

从未翻译的状态开始进行扩展，每次扩展从源端词中查询到当前假设可翻译的词进行翻译，并生成新的翻译候选词；

对所述新的翻译候选词进行评分后，根据假设评分选取评分靠前的翻译候选词进行下一步扩展，直到扩展到最后一个网格柱。

6.一种结构化文本翻译装置，其特征在于，包括：

结构化标记恢复模块，用于根据所述对齐信息，对所述目标翻译文本进行结构化标记恢复处理，得到目标结构化翻译文本；

所述文本翻译模块具体用于：

7.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任一项所述方法的步骤。

8.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。