[go: up one dir, main page]

CN110232193B - 一种结构化文本翻译方法及装置 - Google Patents

一种结构化文本翻译方法及装置 Download PDF

Info

Publication number
CN110232193B
CN110232193B CN201910349677.9A CN201910349677A CN110232193B CN 110232193 B CN110232193 B CN 110232193B CN 201910349677 A CN201910349677 A CN 201910349677A CN 110232193 B CN110232193 B CN 110232193B
Authority
CN
China
Prior art keywords
text
translation
target
structured
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910349677.9A
Other languages
English (en)
Other versions
CN110232193A (zh
Inventor
刘洋
张嘉成
栾焕博
孙茂松
翟飞飞
许静芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Beijing Sogou Technology Development Co Ltd
Original Assignee
Tsinghua University
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University, Beijing Sogou Technology Development Co Ltd filed Critical Tsinghua University
Priority to CN201910349677.9A priority Critical patent/CN110232193B/zh
Publication of CN110232193A publication Critical patent/CN110232193A/zh
Application granted granted Critical
Publication of CN110232193B publication Critical patent/CN110232193B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供一种结构化文本翻译方法及装置,包括:将待翻译的目标结构化文本的结构化标记去除,得到目标文本;将所述目标文本输入到训练好的文本翻译神经网络模型中,根据短语搜索空间对所述目标文本的翻译候选词进行搜索翻译,得到目标翻译文本和对齐信息;根据所述对齐信息,对所述目标翻译文本进行结构化标记恢复处理,得到目标结构化翻译文本。本发明实施例通过将结构化文本的结构化标记去除,从而通过基于短语搜索空间的神经网络模型对去除结构化标记的文本进行翻译,并将翻译后的文本恢复结构化标记,得到结构化翻译文本,实现了通过神经网络模型对结构化文本进行翻译。

Description

一种结构化文本翻译方法及装置
技术领域
本发明涉及机器翻译技术领域,尤其涉及一种结构化文本翻译方法及装置。
背景技术
近年来,神经网络机器翻译技术快速地发展使得机器翻译的质量得到了显著的提升。进一步的,机器翻译质量的提升也使得其开始在实际生活中得到广泛的应用。
尽管神经机器翻译在翻译纯文本时效果卓越,但其仍然无法被很好地应用于翻译结构化文本,由于结构化文本的翻译需要满足结构化约束,例如,源端在一对HTML标签之间的内容在目标端所对应的翻译也必须被包含在同一对HTML标签之间,但由于在现有的神经机器翻译中,没有结构化文本的语料用于训练针对结构化文本翻译的模型;并且,神经机器翻译缺乏显式的对齐信息,无法加入结构化约束,导致现有的神经机器翻译难以翻译结构化文本。
因此,现在亟需一种结构化文本翻译方法及装置来解决上述问题。
发明内容
针对现有技术存在的问题,本发明实施例提供一种结构化文本翻译方法及装置。
第一方面,本发明实施例提供了一种结构化文本翻译方法,包括:
将待翻译的目标结构化文本的结构化标记去除,得到目标文本;
将所述目标文本输入到训练好的文本翻译神经网络模型中,根据短语搜索空间对所述文本的翻译候选词进行搜索翻译,得到目标翻译文本和对齐信息,所述训练好的文本翻译神经网络模型是由不含结构化标记的样本文本训练得到的;
根据所述对齐信息,对所述目标翻译文本进行结构化标记恢复处理,得到目标结构化翻译文本。
第二方面,本发明实施例提供了一种结构化文本翻译装置,包括:
结构化标记去除模块,用于将待翻译的目标结构化文本的结构化标记去除,得到目标文本;
文本翻译模块,用于将所述目标文本输入到训练好的文本翻译神经网络模型中,根据短语搜索空间对所述目标文本的翻译候选词进行搜索翻译,得到目标翻译文本和对齐信息,所述训练好的文本翻译神经网络模型是由不含结构化标记的样本文本训练得到的;
结构化标记恢复模块,用于根据所述对齐信息,对所述目标翻译文本进行结构化标记恢复处理,得到目标结构化翻译文本。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所提供的方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。
本发明实施例提供的一种结构化文本翻译方法及装置,通过将结构化文本的结构化标记去除,从而通过基于短语搜索空间的神经网络模型对去除结构化标记的文本进行翻译,并将翻译后的文本恢复结构化标记,得到结构化翻译文本,实现了通过神经网络模型对结构化文本进行翻译。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的结构化文本翻译方法的流程示意图;
图2为本发明实施例提供的网格柱搜索法的示意图;
图3为本发明实施例提供的结构化文本翻译装置的结构示意图;
图4为本发明实施例提供的电子设备结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
机器翻译是通过计算机把一种自然语言转变成另一种自然语言的过程,近年来,神经网络机器翻译技术快速地发展,使得机器翻译的质量得到显著提高。尽管现有的机器翻译在对纯文本进行翻译时,具有卓越的效果,然而在对结构化文本进行翻译时,目标的机器翻译难以得到应用。本发明实施例通过基于短语搜索空间的神经网络模型对去除结构化标记的文本进行翻译,并将翻译后的文本恢复结构化标记,得到结构化翻译文本,从而实现了通过神经网络模型对结构化文本进行翻译。需要说明的是,在本发明实施例中,将待翻译端的文本(例如,待翻译的目标结构化文本、目标文本、去除结构化标记的样本文本和待翻译的样本结构化文本)的词或短语作为源端词,以及将完成翻译端的文本(例如,目标翻译文本、样本翻译文本和目标结构化翻译文本)的词或短语作为目标端词进行说明。
图1为本发明实施例提供的结构化文本翻译方法的流程示意图,如图1所示,本发明实施例提供了一种结构化文本翻译方法,包括:
步骤101,将待翻译的目标结构化文本的结构化标记去除,得到目标文本;
在本发明实施例中,首先需要对获取到的目标结构化文本进行处理,将携带的结构化标记去除,得到去除结构化标记且保留结构化约束的目标文本。
步骤102,将所述目标文本输入到训练好的文本翻译神经网络模型中,根据短语搜索空间对所述目标文本的翻译候选词进行搜索翻译,得到目标翻译文本和对齐信息,所述训练好的文本翻译神经网络模型是由不含结构化标记的样本文本训练得到的。
在本发明实施例中,通过训练好的文本翻译神经网络模型对目标文本进行翻译,首先,模型通过短语搜索空间对目标文本中每一个词或短语的翻译候选词进行搜索,在进行翻译候选词搜索时,搜索顺序不作限定,但是结构化约束的目标文本需要作为一个整体进行翻译。在短语搜索空间完成目标文本中每一个词或短语的翻译候选词的搜索之后,训练好的文本翻译神经网络模型根据每个翻译候选词和目标文本中的源端词的翻译概率,对这些翻译候选词进行选择,从中选择翻译概率最高的目标端词,得到目标翻译文本,并且得到目标翻译文本和目标文本之间的对齐信息。
步骤103,对所述目标翻译文本进行结构化标记恢复处理,得到目标结构化翻译文本。
在本发明实施例中,根据目标翻译文本和目标文本之间的对齐信息,对目标翻译文本进行结构化标记恢复,从而完成结构化文本的翻译。
本发明实施例提供的一种结构化文本翻译方法,通过将结构化文本的结构化标记去除,从而通过基于短语搜索空间的神经网络模型对去除结构化标记的文本进行翻译,并将翻译后的文本恢复结构化标记,得到结构化翻译文本,实现了通过神经网络模型对结构化文本进行翻译。
在上述实施例的基础上,所述训练好的文本翻译神经网络模型通过以下步骤训练得到:
根据不含结构化标记的样本文本构建训练样本集;
根据所述训练样本集,对预训练的文本翻译神经网络模型进行训练,得到训练好的文本翻译神经网络模型。
在本发明实施例中,将不含结构化标记样本文本输入到神经网络模型中进行训练,并在神经网络模型中构建基于短语的搜索空间(即语料库模型),在样本文本输入到神经网络之后,首先通过短语搜索空间对样本文本中每一个词或短语的翻译候选词进行搜索,获取每个样本文本的源端词对应的翻译候选词,从而得到预训练的结构化文本翻译神经网络模型,预训练的结构化文本翻译神经网络模型根据每个翻译候选词和样本文本中源端词的翻译概率,对这些翻译候选词进行选择,从中选择翻译概率最高的样本目标端词,得到样本翻译文本从而完成文本翻译神经网络模型的训练。
在上述实施例的基础上,在所述根据不含结构化标记的样本文本构建训练样本集之前,所述方法还包括:
获取待翻译的样本结构化文本;
根据所述样本结构化文本的标签成对匹配信息,将所述样本结构化文本的结构化标记去除,得到不含结构化标记的样本文本,以用于构建训练样本集。
在本发明实施例中,在获取样本结构化文本之后,根据该文本中的标签成对匹配信息,将结构化标记去除,例如,“<a>The Raven</a>”的标签成对匹配信息为<a>和</a>,因此,将<a>和</a>去除掉,从而得到不含结构化标记的样本文本。需要说明的是,不含结构化标记的样本文本还保留有标签化约束,在完成样本文本的翻译之后,根据标签成对匹配信息以及样本翻译文本和样本文本之间的对齐信息,再对样本翻译文本进行结构化标记恢复处理。
在上述实施例的基础上,所述将所述目标文本输入到训练好的文本翻译神经网络模型中,根据短语搜索空间对所述目标文本的翻译候选词进行搜索翻译,得到目标翻译文本和对齐信息,包括:
根据所述目标文本中的源端词之间对应的停用词翻译频率,在所述目标文本的源端词之间的空词位置插入相应的停用词,以用于得到目标翻译文本和对齐信息。
进一步地,在上述实施例的基础上,所述将所述目标文本输入到训练好的文本翻译神经网络模型中,根据短语搜索空间对所述目标文本的翻译候选词进行搜索翻译,得到目标翻译文本和对齐信息,还包括:
根据所述目标文本的源端词遗漏概率,将所述目标文本中的对应的源端词翻译为空词,所述源端词遗漏概率的公式为:
Figure BDA0002043525050000051
其中,xi表示所述目标文本的源端词中第i个词,<null>表示将xi翻译为空词,O表示所有遗漏的源端词的位置;
根据源端词遗漏概率和文本翻译神经网络模型的翻译概率,得到所述目标文本的翻译对数概率,公式为:
Figure BDA0002043525050000052
其中,logP(y|x)表示文本翻译神经网络模型的翻译概率,y表示翻译后的目标文本对应的语句,x表示翻译前的目标文本对应的语句,λ表示一个超参数。
在本发明实施例中,为了提高翻译的灵活性,将源端词之间的空词翻译一个目标端的词(即插入一个词),或者将源端词翻译到目标端的空词(即遗漏这个词),例如,获取到去除结构化标记的目标文本为“American poet Edgar Allan Poe’s The Raven”,在目标文本(源端)“American”和“poet”之间插入一个停用词翻译为目标端词“的”,将源端词中的“The”作为遗漏词翻译为目标端词中的空词(即不翻译The),最终得到的翻译为“美国的诗人爱伦坡的《乌鸦》”。对于前者,根据停用词翻译频率,只插入对齐到源端空词概率较高且出现频率较高的停用词。对于后者,和常规神经机器翻译解码不同的是,在遗漏一个源端词时,会同时将其遗漏概率考虑在最终的翻译概率里,从而得到最终的翻译对数概率。
在上述实施例的基础上,所述将所述目标文本输入到训练好的文本翻译神经网络模型中,根据短语搜索空间对所述目标文本的翻译候选词进行搜索翻译,得到目标翻译文本和对齐信息,还包括:
通过网格柱搜索法,根据所述短语搜索空间对所述目标文本的翻译候选词进行搜索翻译,以得到目标翻译文本和对齐信息。
在本发明实施例中,图2为本发明实施例提供的网格柱搜索法的示意图,可参考图2所示,通过网格柱搜索法,从没有翻译的状态开始进行扩展,每次扩展都从源端词中查询到当前假设可以翻译的词进行翻译,并生成新的翻译候选词,在对该翻译候选词评分后,根据假设评分选取评分靠前的翻译候选词进行下一步扩展,直到扩展到最后一个网格柱。在本发明实施例中,将已翻译出的目标端词数和已被翻译的源端词数作为索引进行保存,具体地,在每个网格柱中只保留若干个翻译概率较高的翻译候选词,而只有网格柱最上方的翻译候选词作为最终的翻译结果被选取。
图3为本发明实施例提供的结构化文本翻译装置的结构示意图,如图3所示,本发明实施例提供了一种结构化文本翻译装置,包括结构化标记去除模块301、文本翻译模块302和结构化标记恢复模块303,其中,结构化标记去除模块301用于将待翻译的目标结构化文本的结构化标记去除,得到目标文本;文本翻译模块302用于将所述目标文本输入到训练好的文本翻译神经网络模型中,根据短语搜索空间对所述目标文本的翻译候选词进行搜索翻译,得到目标翻译文本和对齐信息,所述训练好的文本翻译神经网络模型是由不含结构化标记的样本文本训练得到的;结构化标记恢复模块303用于根据所述对齐信息,对所述目标翻译文本进行结构化标记恢复处理,得到目标结构化翻译文本。
在本发明实施例中,结构化标记去除模块301对获取到的目标结构化文本进行处理,将携带的结构化标记去除,得到去除结构化标记且保留结构化约束的目标文本。文本翻译模块302通过短语搜索空间对目标文本中每一个词或短语的翻译候选词进行搜索,在进行翻译候选词搜索时,搜索顺序不作限定,但是结构化约束的目标文本需要作为一个整体进行翻译。在搜索空间完成目标文本中每一个词或短语的翻译候选词的搜索之后,文本翻译模块302根据每个翻译候选词和目标文本中的源端词的翻译概率,对这些翻译候选词进行选择,从中选择翻译概率最高的目标端词,得到目标翻译文本,并且得到目标翻译文本和目标文本之间的对齐信息。最后,结构化标记恢复模块303根据目标翻译文本和目标文本之间的对齐信息,对目标翻译文本进行结构化标记恢复,从而完成结构化文本的翻译。
本发明实施例提供的一种结构化文本翻译装置,通过将结构化文本的结构化标记去除,从而通过基于短语搜索空间的神经网络模型对去除结构化标记的文本进行翻译,并将翻译后的文本恢复结构化标记,得到结构化翻译文本,实现了通过神经网络模型对结构化文本进行翻译。
本发明实施例提供的装置是用于执行上述各方法实施例的,具体流程和详细内容请参照上述实施例,此处不再赘述。
图4为本发明实施例提供的电子设备结构示意图,如图4所示,该电子设备可以包括:处理器(Processor)401、通信接口(Communications Interface)402、存储器(Memory)403和通信总线404,其中,处理器401,通信接口402,存储器403通过通信总线404完成相互间的通信。处理器401可以调用存储器403中的逻辑指令,以执行如下方法:将待翻译的目标结构化文本的结构化标记去除,得到目标文本;将所述目标文本输入到训练好的文本翻译神经网络模型中,根据短语搜索空间对所述目标文本的翻译候选词进行搜索翻译,得到目标翻译文本和对齐信息,所述训练好的结构化文本翻译神经网络模型是由不含结构化标记的样本文本训练得到的;根据所述对齐信息,对所述目标翻译文本进行结构化标记恢复处理,得到目标结构化翻译文本。
此外,上述的存储器403中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:将待翻译的目标结构化文本的结构化标记去除,得到目标文本;将所述目标文本输入到训练好的文本翻译神经网络模型中,根据短语搜索空间对所述目标文本的翻译候选词进行搜索翻译,得到目标翻译文本和对齐信息,所述训练好的文本翻译神经网络模型是由不含结构化标记的样本文本训练得到的;根据所述对齐信息,对所述目标翻译文本进行结构化标记恢复处理,得到目标结构化翻译文本。
本发明实施例提供一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质存储服务器指令,该计算机指令使计算机执行上述实施例所提供的结构化文本翻译方法,例如包括:将待翻译的目标结构化文本的结构化标记去除,得到目标文本;将所述目标文本输入到训练好的文本翻译神经网络模型中,根据短语搜索空间对所述目标文本的翻译候选词进行搜索翻译,得到目标翻译文本和对齐信息,所述训练好的文本翻译神经网络模型是由不含结构化标记的样本文本训练得到的;根据所述对齐信息,对所述目标翻译文本进行结构化标记恢复处理,得到目标结构化翻译文本。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种结构化文本翻译方法,其特征在于,包括:
将待翻译的目标结构化文本的结构化标记去除,得到目标文本;
将所述目标文本输入到训练好的文本翻译神经网络模型中,根据短语搜索空间对所述目标文本的翻译候选词进行搜索翻译,得到目标翻译文本和对齐信息,所述训练好的文本翻译神经网络模型是由不含结构化标记的样本文本训练得到的;
根据所述对齐信息,对所述目标翻译文本进行结构化标记恢复处理,得到目标结构化翻译文本;
所述将所述目标文本输入到训练好的文本翻译神经网络模型中,根据短语搜索空间对所述目标文本的翻译候选词进行搜索翻译,得到目标翻译文本和对齐信息,还包括:
根据所述目标文本的源端词遗漏概率,将所述目标文本中的对应的源端词翻译为空词,所述源端词遗漏概率的公式为:
Figure FDA0002548226230000011
其中,xi表示所述目标文本的源端词中第i个词,<null>表示将xi翻译为空词,O表示所有遗漏的源端词的位置;
根据源端词遗漏概率和文本翻译神经网络模型的翻译概率,得到所述目标文本的翻译对数概率,公式为:
Figure FDA0002548226230000012
其中,logP(y|x)表示文本翻译神经网络模型的翻译概率,y表示翻译后的目标文本对应的语句,x表示翻译前的目标文本对应的语句,λ表示一个超参数。
2.根据权利要求1所述的结构化文本翻译方法,其特征在于,所述训练好的文本翻译神经网络模型通过以下步骤训练得到:
根据不含结构化标记的样本文本构建训练样本集;
根据所述训练样本集,对预训练的文本翻译神经网络模型进行训练,得到训练好的文本翻译神经网络模型。
3.根据权利要求2所述的结构化文本翻译方法,其特征在于,在所述根据不含结构化标记的样本文本构建训练样本集之前,所述方法还包括:
获取待翻译的样本结构化文本;
根据所述样本结构化文本的标签成对匹配信息,将所述样本结构化文本的结构化标记去除,得到不含结构化标记的样本文本,以用于构建训练样本集。
4.根据权利要求1所述的结构化文本翻译方法,其特征在于,所述将所述目标文本输入到训练好的文本翻译神经网络模型中,根据短语搜索空间对所述目标文本的翻译候选词进行搜索翻译,得到目标翻译文本和对齐信息,包括:
根据所述目标文本中的源端词之间对应的停用词翻译频率,在所述目标文本的源端词之间的空词位置插入相应的停用词,以用于得到目标翻译文本和对齐信息。
5.根据权利要求1至4任一所述的结构化文本翻译方法,其特征在于,所述将所述目标文本输入到训练好的文本翻译神经网络模型中,根据短语搜索空间对所述目标文本的翻译候选词进行搜索翻译,得到目标翻译文本和对齐信息,还包括:
通过网格柱搜索法,根据所述短语搜索空间对所述目标文本的翻译候选词进行搜索翻译,以得到目标翻译文本和对齐信息,所述通过网格柱搜索法具体步骤为:
从未翻译的状态开始进行扩展,每次扩展从源端词中查询到当前假设可翻译的词进行翻译,并生成新的翻译候选词;
对所述新的翻译候选词进行评分后,根据假设评分选取评分靠前的翻译候选词进行下一步扩展,直到扩展到最后一个网格柱。
6.一种结构化文本翻译装置,其特征在于,包括:
结构化标记去除模块,用于将待翻译的目标结构化文本的结构化标记去除,得到目标文本;
文本翻译模块,用于将所述目标文本输入到训练好的文本翻译神经网络模型中,根据短语搜索空间对所述目标文本的翻译候选词进行搜索翻译,得到目标翻译文本和对齐信息,所述训练好的文本翻译神经网络模型是由不含结构化标记的样本文本训练得到的;
结构化标记恢复模块,用于根据所述对齐信息,对所述目标翻译文本进行结构化标记恢复处理,得到目标结构化翻译文本;
所述文本翻译模块具体用于:
所述将所述目标文本输入到训练好的文本翻译神经网络模型中,根据短语搜索空间对所述目标文本的翻译候选词进行搜索翻译,得到目标翻译文本和对齐信息,还包括:
根据所述目标文本的源端词遗漏概率,将所述目标文本中的对应的源端词翻译为空词,所述源端词遗漏概率的公式为:
Figure FDA0002548226230000031
其中,xi表示所述目标文本的源端词中第i个词,<null>表示将xi翻译为空词,O表示所有遗漏的源端词的位置;
根据源端词遗漏概率和文本翻译神经网络模型的翻译概率,得到所述目标文本的翻译对数概率,公式为:
Figure FDA0002548226230000032
其中,logP(y|x)表示文本翻译神经网络模型的翻译概率,y表示翻译后的目标文本对应的语句,x表示翻译前的目标文本对应的语句,λ表示一个超参数。
7.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任一项所述方法的步骤。
8.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。
CN201910349677.9A 2019-04-28 2019-04-28 一种结构化文本翻译方法及装置 Active CN110232193B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910349677.9A CN110232193B (zh) 2019-04-28 2019-04-28 一种结构化文本翻译方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910349677.9A CN110232193B (zh) 2019-04-28 2019-04-28 一种结构化文本翻译方法及装置

Publications (2)

Publication Number Publication Date
CN110232193A CN110232193A (zh) 2019-09-13
CN110232193B true CN110232193B (zh) 2020-08-28

Family

ID=67860318

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910349677.9A Active CN110232193B (zh) 2019-04-28 2019-04-28 一种结构化文本翻译方法及装置

Country Status (1)

Country Link
CN (1) CN110232193B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113657396B (zh) * 2021-08-17 2024-02-09 北京百度网讯科技有限公司 训练方法、译文展示方法、装置、电子设备以及存储介质
CN114417898B (zh) * 2022-01-18 2024-08-23 腾讯科技(深圳)有限公司 数据处理方法、装置、设备及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1745379A (zh) * 2003-01-28 2006-03-08 法国电信公司 提供自动网页内容翻译服务的方法与系统
CN101685440A (zh) * 2008-09-25 2010-03-31 国际商业机器公司 应用路径信息改进结构化文档的翻译的方法和系统
CN103678284A (zh) * 2012-08-31 2014-03-26 上海斐讯数据通信技术有限公司 页面文字翻译方法及装置
CN104881406A (zh) * 2015-06-15 2015-09-02 携程计算机技术(上海)有限公司 网页翻译方法和系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101398815B (zh) * 2008-06-13 2011-02-16 中国科学院计算技术研究所 一种机器翻译方法
CN103425638A (zh) * 2013-08-30 2013-12-04 清华大学 一种词语对齐方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1745379A (zh) * 2003-01-28 2006-03-08 法国电信公司 提供自动网页内容翻译服务的方法与系统
CN101685440A (zh) * 2008-09-25 2010-03-31 国际商业机器公司 应用路径信息改进结构化文档的翻译的方法和系统
CN103678284A (zh) * 2012-08-31 2014-03-26 上海斐讯数据通信技术有限公司 页面文字翻译方法及装置
CN104881406A (zh) * 2015-06-15 2015-09-02 携程计算机技术(上海)有限公司 网页翻译方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
WEB网页文件的解析及翻译引擎的设计与实现;赵志辉;《中国优秀硕士学位论文全文数据库信息科技辑》;20130515(第05期);第I138-2101页 *
基于短语的对数线性模型的统计机器翻译方法与系统实现;宋彦;《中国优秀硕士学位论文全文数据库信息科技辑》;20111215(第S2期);第I138-1953页 *

Also Published As

Publication number Publication date
CN110232193A (zh) 2019-09-13

Similar Documents

Publication Publication Date Title
US9176936B2 (en) Transliteration pair matching
JP7413630B2 (ja) 要約生成モデルの訓練方法、装置、デバイス及び記憶媒体
CN111310470B (zh) 一种融合字词特征的中文命名实体识别方法
CN108804428A (zh) 一种译文中术语错译的纠正方法、系统及相关装置
CN103823857B (zh) 基于自然语言处理的空间信息检索方法
CN105068997B (zh) 平行语料的构建方法及装置
CN112633007B (zh) 一种语义理解模型构建方法及装置、语义理解方法及装置
CN114299930B (zh) 端到端语音识别模型处理方法、语音识别方法及相关装置
CN106383814A (zh) 一种英文社交媒体短文本分词方法
CN106649289A (zh) 同时识别双语术语与词对齐的实现方法及实现系统
CN111160026B (zh) 一种模型训练方法、装置、实现文本处理的方法及装置
CN107168953A (zh) 海量文本中基于词向量表征的新词发现方法及系统
CN115587590A (zh) 训练语料集构建方法、翻译模型训练方法、翻译方法
CN110232193B (zh) 一种结构化文本翻译方法及装置
CN115510863A (zh) 一种面向问句匹配任务的数据增强方法
CN111813923A (zh) 文本摘要方法、电子设备及存储介质
CN116737948A (zh) 一种面向中文短文本的实体链接方法
CN115688703B (zh) 一种特定领域文本纠错方法、存储介质和装置
CN106776590A (zh) 一种获取词条译文的方法及系统
CN111814433B (zh) 一种维吾尔语实体识别的方法、装置和电子设备
CN112507718B (zh) 一种跨语种实体标注方法、装置、设备及存储介质
CN114021589A (zh) 样本的生成方法、装置、计算机设备和存储介质
CN113569128B (zh) 数据检索方法、装置及电子设备
CN113486666A (zh) 一种医学命名实体识别方法及系统
CN114528861A (zh) 一种基于语料库的外语翻译训练方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant