CN114091483B - 翻译处理方法、装置、电子设备及存储介质 - Google Patents
翻译处理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114091483B CN114091483B CN202111257345.1A CN202111257345A CN114091483B CN 114091483 B CN114091483 B CN 114091483B CN 202111257345 A CN202111257345 A CN 202111257345A CN 114091483 B CN114091483 B CN 114091483B
- Authority
- CN
- China
- Prior art keywords
- original text
- translation
- segment
- acquiring
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013519 translation Methods 0.000 title claims abstract description 140
- 238000003672 processing method Methods 0.000 title claims abstract description 17
- 239000012634 fragment Substances 0.000 claims abstract description 34
- 238000000034 method Methods 0.000 claims description 31
- 238000012545 processing Methods 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 238000001514 detection method Methods 0.000 claims description 2
- 230000001915 proofreading effect Effects 0.000 abstract description 9
- 238000005516 engineering process Methods 0.000 abstract description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 238000010801 machine learning Methods 0.000 abstract description 3
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 230000014616 translation Effects 0.000 description 106
- 238000010586 diagram Methods 0.000 description 16
- 238000004590 computer program Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 230000000694 effects Effects 0.000 description 4
- 238000006748 scratching Methods 0.000 description 4
- 230000002393 scratching effect Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000009191 jumping Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002195 synergetic effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本公开提供了一种翻译处理方法、装置、电子设备及存储介质,涉及大数据、机器学习与自然语言处理等人工智能技术领域。具体实现方案为:获取用户在译文中划取的选定片段;基于所述选定片段和原文,获取所述选定片段在所述原文中对应的原文片段;基于所述原文片段,获取对应的至少两个翻译结果;展示所述原文片段和对应的所述至少两个翻译结果。采用本公开的技术,能够有效地提高机器翻译后的译后校对效率。
Description
技术领域
本公开涉及计算机技术领域,具体涉及大数据、机器学习与自然语言处理等人工智能技术领域,尤其涉及一种翻译处理方法、装置、电子设备及存储介质。
背景技术
翻译是一项技术性和专业性非常强的工作,传统技术中依靠专业的翻译人员来完成翻译。为了提高翻译效率,诞生了计算机辅助翻译(ComputerAided Translation;CAT)工具来辅助翻译员完成高质量的翻译。
为了确保翻译质量,CAT工具完成翻译之后,用户可以通过“看”或“改”,对“机翻结果”进行人工校对。在用户发现某词句机翻结果存疑时,自行查找对应的原文中的词句,可以借助于第三方平台进行查询原文中的词句的解释,然后再返回校对页面,基于查询结果对存疑的词句进行修改。
发明内容
本公开提供了一种翻译处理方法、装置、电子设备及存储介质。
根据本公开的一方面,提供了一种翻译处理方法,包括:
获取用户在译文中划取的选定片段;
基于所述选定片段和原文,获取所述选定片段在所述原文中对应的原文片段;
基于所述原文片段,获取对应的至少两个翻译结果;
展示所述原文片段和对应的所述至少两个翻译结果。
根据本公开的另一方面,提供了一种翻译处理装置,包括:
存疑获取模块,用于获取用户在译文中划取的选定片段;
原文获取模块,用于基于所述选定片段和原文,获取所述选定片段在所述原文中对应的原文片段;
翻译获取模块,用于基于所述原文片段,获取对应的至少两个翻译结果;
展示模块,用于展示所述原文片段和对应的所述至少两个翻译结果。
根据本公开的再一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的方面和任一可能的实现方式的方法。
根据本公开的又一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如上所述的方面和任一可能的实现方式的方法。
根据本公开的再另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如上所述的方面和任一可能的实现方式的方法。
根据本公开的技术,能够有效地提高机器翻译后的以后校对效率。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开第一实施例的示意图;
图2是根据本公开第二实施例的示意图;
图3是本公开实施例的对齐模型进行对齐处理的结果示意图;
图4是本公开实施例中的对齐模型的原理图;
图5是本公开实施例的对齐模型采用的多语言预训练语言模型的原理图;
图6是本公开实施例提供的一种界面示意图;
图7是根据本公开第三实施例的示意图;
图8是根据本公开第四实施例的示意图;
图9是用来实现本公开实施例的翻译处理方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本公开保护的范围。
需要说明的是,本公开实施例中所涉及的终端设备可以包括但不限于手机、个人数字助理(Personal Digital Assistant,PDA)、无线手持设备、平板电脑(TabletComputer)等智能设备;显示设备可以包括但不限于个人电脑、电视等具有显示功能的设备。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
对于现有的方案,用户需要自行查找原文中存疑词句对应的原词句,手动拷贝原词句并粘贴到第三方平台进行查询,或者直接在第三方平台拼写原词句进行查询,然后再返回校对页面,基于查询结果对存疑的词句进行修改。该方案中,用户跳跃感强烈,审校机翻译文是件需要注意力高度集中的工作,此方案易分散其注意力。而且全程手动人工操作,校对效率非常低。
图1是根据本公开第一实施例的示意图;如图1所示,本实施例提供一种翻译处理方法,可以应用于基于CAT工具实现的翻译平台中,具体可以包括如下步骤:
S101、获取用户在译文中划取的选定片段;
S102、基于选定片段和原文,获取选定片段在原文中对应的原文片段;
S103、基于原文片段,获取对应的至少两个翻译结果;
S104、展示原文片段和对应的至少两个翻译结果。
本实施例的翻译处理方法的应用场景是,采用翻译平台借助于CAT辅助工具进行机器翻译(Machine Translation;MT)得到译文之后,用户对译文进行校对。
用户在校对过程中,可以从译文中划取任意的选定片段。对应地,在翻译平台侧,可以检测并获取到用户在译文中划取的选定片段。然后基于该选定片段和原文,在原文中定位到选定片段对应的原文片段。此时翻译平台进一步基于原文片段,获取对应的至少两个翻译结果;并将原文片段和至少两个翻译结果展示给用户,以供用户基于展示的信息,对选定片段进行校对。
本实施例中获取到的用户在译文中划取得选定片段可以为词语、短语、句段等片段。
本实施例的翻译处理方法,与现有技术相比,不用自行查找选定片段对应的原文片段,也不用借助于第三方平台查询原文片段,能够自动地获取原文片段以及原文片段对应的至少两个翻译结果;并展示原文片段和对应的至少两个翻译结果,以供用户校对时进行参考。该方案中,不会给用户带来跳跃感,也不会分散用户的注意力,能够有效地提高机器翻译后的译后校对效率。
图2是根据本公开第二实施例的示意图;如图2所示,本实施例提供一种翻译处理方法,可以应用于基于CAT工具实现的翻译平台中,具体可以包括如下步骤:
S201、检测用户是否在译文中执行了划取操作;若是,执行步骤S202;否则继续检测;
例如,本实施例中用户的划取操作可以为通过鼠标、电脑的触控板或者显示屏为触摸屏时,通过触控笔或者手指执行的划取操作。实际应用中,还可以通过其他人机交互方式执行划取操作,在此不做限定。
可选地,本实施例中,也可以预先定义划取操作的规则,如横向划动超过预设距离,则认为用户在执行划取操作。然后基于划取操作的规则检测用户是否在执行划取操作。
通过该方式能够准确地检测到用户是否执行划取操作,进而可以准确地获取到选定片段。
S202、获取用户的划取操作划取的选定片段;
检测到用户的划取操作后,可以基于划取操作覆盖的范围,并识别划取操作覆盖的范围内的片段,确定用户划取的选定片段。
S203、采用预先训练的对齐模型,基于选定片段和原文,获取选定片段对应的原文片段在原文中的位置;
本实施例中预先训练的对齐模型,可以为一个基于多语言预训练语言模型(Multilingual Pre-trained Language Model)的词对齐算法所实现的模型。该词对齐算法可以将词对齐任务转化为SQuAD形式的问答任务,即给定一个目标句子作为上下文信息,一个源词作为问题,通过模型预测翻译后的目标词在目标句子中的字符范围作为答案。由于使用了多语言预训练模型,在有平行语料的情况下仅需少量数据进行精调,在无平行语料的情况下可利用模型的zero-shot能力。
例如,图3是本公开实施例的对齐模型进行对齐处理的结果示意图。如图3所示,对于一个源句子:Zhang San and co-founder Li Si are widelyrecognized as pioneersof the microcomputer revolution of 1970s and 1980s,目标句子:张三和联合创始人李四被广泛认为是20世纪70年代和80年代微电脑革命的先驱。若用户划取了源句子中的源词widely recognized,采用本实施例的对齐模型进行对齐时,可以定位到用户划取的源词“widelyrecognized”对应的目标词“被广泛认为”在目标句子中的位置。如图3所示,定位到句子中的目标词位置范围为11-15。进一步可选地,对齐模型进行对齐时,还可以参考源词在源句子中的上下文进一步更加准确地定位目标词在目标句子中的位置。
基于该对齐算法的原理,本实施例中,可以将选定片段作为源词,原文作为目标句子,原文片段作为目标词,采用该对齐模型,可以得到原文片段在原文中的位置。进一步优选地,还可以参考选定片段在译文中的上下文,进一步更加准确地定位原文片段在原文中的位置。
例如,图4是本公开实施例中的对齐模型的原理图。如图4所示,以输入同时包括源词的上下文为例,此时将源词和目标句子以“[CLS]目标句子[SEP]源词|源词的上文|源词的下文”的形式拼接后作为模型输入。对齐模型在多语言预训练语言模型的基础之上增加了两个独立的输出层,分别用于预测目标词在目标句子中的起始位置和结束位置。多语言预训练模型输出目标句子中各个位置的编码,与输出层中的参数做点乘后通过softmax函数得到各个位置作为起始点的概率。同理可得到各位置作为结束点的概率。用位置i的起始点概率和位置j(j>=i)的结束点概率之和表示由这两个位置所框定范围的分数,取分数最高的范围作为最终的预测结果。
如图4所示,仍以图3所述的示例为例,根据最终的范围分数矩阵,可以得到最高分数范围是位置11-15。
图5是本公开实施例的对齐模型采用的多语言预训练语言模型的原理图。如图5所示,该多语言预训练语言模型支持在同一分布空间下表示中文、英文等多种语言的语义,为多重语言的应用提供了更强大的语义表征。比如本实施例中所采用的模型共支持96种语言,其模型结构如下图所示。输入层分别由Token Embedding,Position Embedding和Language Embedding,其中Language Embedding用于区分语种,即不同的语种使用不同的Embedding进行表示。Transformer Block基于自注意力机制,用于对输入部分进行语义的抽取和表征。使用大规模数据预练后的模型,表征能力更强,效果更好。
S204、基于原文片段在原文中的位置和原文,获取原文片段;
步骤S203-S204为上述图1所示实施例的步骤S102的一种实现方式。采用该方式基于对齐模型可以准确地获取到原文片段在原文中的位置,进而可以基于该位置,准确地从原文中获取的原文片段。
S205、基于原文片段和译文采用的目标语言,获取采用目标语言翻译原文片段的至少两个翻译结果;
若仅基于原文片段获取对应的至少两个翻译结果,可能会造成对该原文片段能够翻译的所以语言都进行翻译,导致工作量过大。本实施例中,还可以进一步参考译文采用的目标语言,进一步限定翻译结果,这样可以提高翻译结果的获取效率。
在本公开的一个实施例中,可以通过Transformer模型以及BeamSearch算法得到原文片段的至少两个翻译结果。Transformer模型基于注意力机制而不是循环网络来获取输入和输出之间的全局依赖,因此可以并行计算,并且在机器翻译领域取得了很好的效果。Beam Search是一种启发式图搜索算法,常用于生成翻译结果。给定一个值为N的beamsize,生成第一个词时选择目标词表中概率最大的N个词,生成第二个词时将第一个词的N个候选分别与词表中的词组合,并其中得分最大的N个序列。此后不断迭代此过程直到生成结束符或达到序列最大长度,最终得到多个翻译结果。
S206、以突出标记的方式展示原文片段;
例如,本实施例的突出标记可以为高亮标记、字体表达标记以及字体加粗标记等中的至少一种。
S207、以弹框的形式展示至少两个翻译结果;
例如,具体可以在原文片段附近弹出一个对话框,并在该对话框中展示至少两个翻译结果。
S208、获取用户从至少两个翻译结果中选择的目标翻译结果;
S209、将译文中选定片段替换为目标翻译结果,得到校对后的译文。
可选地,步骤S207的弹框中还可以设置有选择按钮,用户可以直接基于选择按钮,选择一个目标翻译结果。如图6是本公开实施例提供的一种界面示意图。如图6所示,该界面为译后用户校对的界面,该界面可以分三栏展示,第一栏为原文,第二栏为译文,第三栏为其他信息展示。在用户校对过程中,用户若划取了译文中的选定片段A,对应的翻译平台可以定位到原文中的原文片段a,并突出显示。此时翻译平台可以进一步获取该原文片段a对应的N个翻译,并在原片片段a附近以弹出的对话框的形式来展示。如图6所示,在该对话框中,在每一条翻译后设置有一个替换按钮,若用户点击替换,此时采用该条翻译替换译文中的选定片段。
在本公开的一个应用场景中,用户在校对译文的过程中,在对译文中某个片段存在疑虑时,可以采用本实施例的方式划取存在疑虑的选定片段,并按照本实施例的上述方式进行处理。此时用户划取的选定片段可以为存疑片段。实际应用中,用户划取的选定片段还可以为其他功能或者性质的片段,在此不做限定。
本实施例的翻译处理方法,通过采用上述技术方案,能够准确地定位到选定片段对应的原文片段,准确地获取到原文片段对应的至少两个翻译结果;并以突出标记的形式展示原文片段,以对话框的形式展示至少两个翻译结果,非常方便用户查看和参考,有效地提高翻译的校对效率。
进一步地,本实施例中,还可以基于用户选择的目标翻译结果,自动替换选定片段,更新译文,能够进一步有效地提高机器翻译后的译后校对效率。
图7是根据本公开第三实施例的示意图;如图7所示,本实施例提供一种翻译处理装置700,包括:
存疑获取模块701,用于获取用户在译文中划取的选定片段;
原文获取模块702,用于基于选定片段和原文,获取选定片段在原文中对应的原文片段;
翻译获取模块703,用于基于原文片段,获取对应的至少两个翻译结果;
展示模块704,用于展示原文片段和对应的至少两个翻译结果。
本实施例的翻译处理装置700,通过采用上述模块实现翻译处理的实现原理以及技术效果,与上述相关方法实施例的实现相同,详细可以参考上述实施例的相关记载,在此不再赘述。
图8是根据本公开第四实施例的示意图;如图8所示,本实施例提供一种翻译处理装置800,在上述图7所示实施例的基础上,进一步更加详细地描述本申请的技术方案。
首先,如图8所示,本实施例的翻译处理装置800包括图7所示实施例的如下同名以及同功能模块:存疑获取模块801、原文获取模块802、翻译获取模块803、以及展示模块804。
如图8所示,在本公开的一个实施例中,翻译处理装置800还包括:
检测模块805,用于检测并确定用户在译文中执行了划取操作。
在本公开的一个实施例中,原文获取模块802,用于:
采用预先训练的对齐模型,基于选定片段和原文,获取选定片段对应的原文片段在原文中的位置;
基于原文片段在原文中的位置和原文,获取原文片段。
在本公开的一个实施例中,展示模块804,用于:
以突出标记的方式展示原文片段;
以弹框的形式展示至少两个翻译结果。
在本公开的一个实施例中,翻译获取模块803,用于:
基于原文片段和译文采用的目标语言,获取采用目标语言翻译原文片段的至少两个翻译结果。
如图8所示,在本公开的一个实施例中,翻译处理装置800还包括:
选择结果获取模块806,用于获取用户从至少两个翻译结果中选择的目标翻译结果;
替换模块807,用于将译文中选定片段替换为目标翻译结果。
本实施例的翻译处理装置800,通过采用上述模块实现翻译处理的实现原理以及技术效果,与上述相关方法实施例的实现相同,详细可以参考上述实施例的相关记载,在此不再赘述。
本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图9所示,设备900包括计算单元901,其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序,来执行各种适当的动作和处理。在RAM 903中,还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。
设备900中的多个部件连接至I/O接口905,包括:输入单元906,例如键盘、鼠标等;输出单元907,例如各种类型的显示器、扬声器等;存储单元908,例如磁盘、光盘等;以及通信单元909,例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理,例如本公开的上述翻译处理方法。例如,在一些实施例中,本公开的上述翻译处理方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元908。在一些实施例中,计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时,可以执行上文描述的本公开的上述翻译处理方法的一个或多个步骤。备选地,在其他实施例中,计算单元901可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行本公开的上述翻译处理方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (12)
1.一种翻译处理方法,包括:
获取用户在译文中划取的选定片段;
基于所述选定片段和原文,获取所述选定片段在所述原文中对应的原文片段;
基于所述原文片段,获取对应的至少两个翻译结果;
展示所述原文片段和对应的所述至少两个翻译结果;
基于所述选定片段和原文,获取所述选定片段在所述原文中对应的原文片段,包括:
采用预先训练的对齐模型,基于所述选定片段和所述原文,获取所述选定片段对应的所述原文片段在所述原文中的位置;所述对齐模型为一个基于多语言预训练语言模型的词对齐算法所实现的模型;所述对齐模型在所述多语言预训练语言模型的基础之上增加了两个独立的输出层,分别用于预测所述原文片段在所述原文中的起始位置和结束位置;其中,所述多语言预训练模型输出所述原文中各个位置的编码,分别与两个输出层中的参数做点乘后,通过softmax函数得到所述原文中各个位置作为起始点的概率和作为结束点的概率;用位置i的起始点概率和位置j的结束点概率之和表示由这两个位置所框定的范围的分数,取分数最高的范围的两个位置分别作为所述原文片段在所述原文中的起始位置和结束位置,其中j大于等于i;
基于所述原文片段在原文中的位置和所述原文,获取所述原文片段。
2.根据权利要求1所述的方法,其中,获取用户在译文中划取的选定片段之前,所述方法还包括:
检测并确定所述用户在所述译文中执行了划取操作。
3.根据权利要求1所述的方法,其中,展示所述原文片段和对应的所述至少两个翻译结果,包括:
以突出标记的方式展示所述原文片段;
以弹框的形式展示所述至少两个翻译结果。
4.根据权利要求1所述的方法,其中,基于所述原文片段,获取对应的至少两个翻译结果,包括:
基于所述原文片段和所述译文采用的目标语言,获取采用所述目标语言翻译所述原文片段的所述至少两个翻译结果。
5.根据权利要求1-4任一所述的方法,其中,展示所述原文片段和对应的所述至少两个翻译结果之后,所述方法还包括:
获取所述用户从所述至少两个翻译结果中选择的目标翻译结果;
将所述译文中所述选定片段替换为所述目标翻译结果。
6.一种翻译处理装置,包括:
存疑获取模块,用于获取用户在译文中划取的选定片段;
原文获取模块,用于基于所述选定片段和原文,获取所述选定片段在所述原文中对应的原文片段;
翻译获取模块,用于基于所述原文片段,获取对应的至少两个翻译结果;
展示模块,用于展示所述原文片段和对应的所述至少两个翻译结果;
所述原文获取模块,用于:
采用预先训练的对齐模型,基于所述选定片段和所述原文,获取所述选定片段对应的所述原文片段在所述原文中的位置;所述对齐模型为一个基于多语言预训练语言模型的词对齐算法所实现的模型;所述对齐模型在所述多语言预训练语言模型的基础之上增加了两个独立的输出层,分别用于预测所述原文片段在所述原文中的起始位置和结束位置;其中,所述多语言预训练模型输出所述原文中各个位置的编码,分别与两个输出层中的参数做点乘后,通过softmax函数得到所述原文中各个位置作为起始点的概率和作为结束点的概率;用位置i的起始点概率和位置j的结束点概率之和表示由这两个位置所框定的范围的分数,取分数最高的范围的两个位置分别作为所述原文片段在所述原文中的起始位置和结束位置,其中j大于等于i;
基于所述原文片段在原文中的位置和所述原文,获取所述原文片段。
7.根据权利要求6所述的装置,其中,所述装置还包括:
检测模块,用于检测并确定所述用户在所述译文中执行了划取操作。
8.根据权利要求6所述的装置,其中,所述展示模块,用于:
以突出标记的方式展示所述原文片段;
以弹框的形式展示所述至少两个翻译结果。
9.根据权利要求6所述的装置,其中,所述翻译获取模块,用于:
基于所述原文片段和所述译文采用的目标语言,获取采用所述目标语言翻译所述原文片段的所述至少两个翻译结果。
10.根据权利要求6-9任一所述的装置,其中,所述装置还包括:
选择结果获取模块,用于获取所述用户从所述至少两个翻译结果中选择的目标翻译结果;
替换模块,用于将所述译文中所述选定片段替换为所述目标翻译结果。
11.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。
12.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111257345.1A CN114091483B (zh) | 2021-10-27 | 2021-10-27 | 翻译处理方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111257345.1A CN114091483B (zh) | 2021-10-27 | 2021-10-27 | 翻译处理方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114091483A CN114091483A (zh) | 2022-02-25 |
CN114091483B true CN114091483B (zh) | 2023-02-28 |
Family
ID=80297923
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111257345.1A Active CN114091483B (zh) | 2021-10-27 | 2021-10-27 | 翻译处理方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114091483B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102193914A (zh) * | 2011-05-26 | 2011-09-21 | 中国科学院计算技术研究所 | 计算机辅助翻译的方法及系统 |
CN102446168A (zh) * | 2010-10-11 | 2012-05-09 | 英业达股份有限公司 | 即时翻译系统及其方法 |
CN102625935A (zh) * | 2009-08-21 | 2012-08-01 | 夏普株式会社 | 信息处理装置、显示控制方法以及程序 |
CN105183724A (zh) * | 2015-09-30 | 2015-12-23 | 北京奇虎科技有限公司 | 一种翻译方法及电子设备 |
CN108399166A (zh) * | 2018-02-07 | 2018-08-14 | 深圳壹账通智能科技有限公司 | 文本翻译方法、装置、计算机设备和存储介质 |
CN109918685A (zh) * | 2019-03-18 | 2019-06-21 | 百度在线网络技术(北京)有限公司 | 计算机辅助翻译方法、装置、计算机设备及存储介质 |
CN112765999A (zh) * | 2020-12-24 | 2021-05-07 | 中国人民解放军战略支援部队信息工程大学 | 机器翻译双语对照方法及系统 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4869281B2 (ja) * | 2008-04-10 | 2012-02-08 | 株式会社東芝 | 機械翻訳装置、プログラム及び方法 |
CN102456003A (zh) * | 2010-10-27 | 2012-05-16 | 王博 | 一种翻译结果的显示方法和设备 |
CN109299480B (zh) * | 2018-09-04 | 2023-11-07 | 上海传神翻译服务有限公司 | 基于上下文语境的术语翻译方法及装置 |
CN109710951B (zh) * | 2018-12-27 | 2023-10-17 | 北京百度网讯科技有限公司 | 基于翻译历史的辅助翻译方法、装置、设备及存储介质 |
CN112287696B (zh) * | 2020-10-29 | 2024-02-23 | 语联网(武汉)信息技术有限公司 | 译文后编辑方法、装置、电子设备和存储介质 |
-
2021
- 2021-10-27 CN CN202111257345.1A patent/CN114091483B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102625935A (zh) * | 2009-08-21 | 2012-08-01 | 夏普株式会社 | 信息处理装置、显示控制方法以及程序 |
CN102446168A (zh) * | 2010-10-11 | 2012-05-09 | 英业达股份有限公司 | 即时翻译系统及其方法 |
CN102193914A (zh) * | 2011-05-26 | 2011-09-21 | 中国科学院计算技术研究所 | 计算机辅助翻译的方法及系统 |
CN105183724A (zh) * | 2015-09-30 | 2015-12-23 | 北京奇虎科技有限公司 | 一种翻译方法及电子设备 |
CN108399166A (zh) * | 2018-02-07 | 2018-08-14 | 深圳壹账通智能科技有限公司 | 文本翻译方法、装置、计算机设备和存储介质 |
CN109918685A (zh) * | 2019-03-18 | 2019-06-21 | 百度在线网络技术(北京)有限公司 | 计算机辅助翻译方法、装置、计算机设备及存储介质 |
CN112765999A (zh) * | 2020-12-24 | 2021-05-07 | 中国人民解放军战略支援部队信息工程大学 | 机器翻译双语对照方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114091483A (zh) | 2022-02-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11423222B2 (en) | Method and apparatus for text error correction, electronic device and storage medium | |
US11928435B2 (en) | Event extraction method, event extraction device, and electronic device | |
CN113220836B (zh) | 序列标注模型的训练方法、装置、电子设备和存储介质 | |
US11907671B2 (en) | Role labeling method, electronic device and storage medium | |
CN113935339B (zh) | 翻译方法、装置、电子设备及存储介质 | |
CN113836314B (zh) | 知识图谱构建方法、装置、设备以及存储介质 | |
US10402497B2 (en) | Processing method, processing apparatus, and recording medium | |
EP4170542A2 (en) | Method for sample augmentation | |
CN112528681A (zh) | 跨语言检索及模型训练方法、装置、设备和存储介质 | |
CN114417871B (zh) | 模型训练及命名实体识别方法、装置、电子设备及介质 | |
EP3992814A2 (en) | Method and apparatus for generating user interest profile, electronic device and storage medium | |
CN112527819B (zh) | 通讯录信息检索方法、装置、电子设备及存储介质 | |
CN113407610A (zh) | 信息抽取方法、装置、电子设备和可读存储介质 | |
CN113221566B (zh) | 实体关系抽取方法、装置、电子设备和存储介质 | |
CN112307183B (zh) | 搜索数据识别方法、装置、电子设备以及计算机存储介质 | |
CN114091483B (zh) | 翻译处理方法、装置、电子设备及存储介质 | |
US20230081015A1 (en) | Method and apparatus for acquiring information, electronic device and storage medium | |
CN116244432B (zh) | 语言模型的预训练方法、装置及电子设备 | |
CN114818736B (zh) | 文本处理方法、用于短文本的链指方法、装置及存储介质 | |
CN112784599B (zh) | 诗句的生成方法、装置、电子设备和存储介质 | |
CN113377904A (zh) | 行业动作识别方法、装置、电子设备及存储介质 | |
CN114020918A (zh) | 分类模型训练方法、翻译方法、装置及电子设备 | |
CN115730586A (zh) | 答案的生成方法、装置、设备及存储介质 | |
CN114328855A (zh) | 文档查询方法、装置、电子设备和可读存储介质 | |
CN115470198B (zh) | 数据库的信息处理方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |