CN102662933A

CN102662933A - 分布式智能翻译方法

Info

Publication number: CN102662933A
Application number: CN2012100853077A
Authority: CN
Inventors: 张马成; 王兴强; 伍华; 杨明; 王小龙
Original assignee: CHENGDU URELITE INFORMATION TECHNOLOGY Co Ltd
Current assignee: CHENGDU URELITE INFORMATION TECHNOLOGY Co Ltd
Priority date: 2012-03-28
Filing date: 2012-03-28
Publication date: 2012-09-12

Abstract

本发明公开了一种分布式智能翻译方法，包括如下步骤：步骤1，在客户端导入需要翻译的原文，对原文进行分析，将原文划分成最大的识别单元——段；步骤2，对每一段按句进行拆分；步骤3，将每一句与数据库中的数据进行查找，若找到句的匹配则直接进入步骤5，若没找到则进入步骤4；步骤4，将句再按照相邻一字至相邻N个字进行组合，再将组合后的多个词组及单个最小单位的词组都先与本地数据库的数据进行匹配查找；步骤5，查询到结果后，实时返回用户界面供用户选择，同时将翻译的原文和译文记录到本地数据库和动态数据库中，以供以后翻译时使用；步骤6，提示。本方法提供了比较专业的翻译词汇库，提高了翻译过程中的翻译效率和翻译速度。

Description

分布式智能翻译方法

技术领域

本发明涉及翻译方法，具体涉及一种分布式智能翻译方法。

背景技术

CAT软件发展到今天，已经形成了翻译、记忆、存储等不同的技术原理。就记忆数据库来讲，一般的翻译软件在翻译时，是将单个一行的字、词或者句与译文作为一个语言对存入数据库，并且这个存入的数据只作为安装翻译软件的本机器在翻译后续内容时使用，在翻译另外一篇文章时，如果上一篇文章的记忆内容未导出，在翻译下一篇文章时又未导入上一篇的记忆内容，这样是无法共享之前翻译过的记忆内容。这种在本地生成数据的方法，操作起来就比较繁琐，再加上记忆库无法在一个项目的过程中被实时使用，这样使得翻译效率非常低。

随着对翻译产量和质量要求的提高，对翻译软件有更高的要求，准确、快速完成对一篇文章的翻译要求更智能化的翻译软件来提高翻译产量和质量。针对一个项目来说，现有翻译技术，针对翻译质量不高，同一篇翻译文章在一个团队中分为几份翻译，翻译中会出现不同译员翻译相同的含义的一句话而翻译的译文不一致，翻译团队难以共享记忆数据库中的信息，并且在翻译过程中，未智能记忆整个翻译信息。在专有词汇及其准确性上，现有分词算法有可能造成无法匹配对一句中出现的专有词汇，从而造成翻译文章的准确性大大降低。

同时，现有的翻译软件，有以下几大缺点：1.专有词汇库（短语）缺乏以及不专业；2.翻译效率低；3.没有项目协同工作功能，翻译过程中整个翻译团队无法实时共享翻译中的翻译信息；4.翻译项目无实时智能学习整个翻译过程。

发明内容

本发明克服了现有技术的不足，提供一种分布式智能翻译方法，该方法主要提供了比较专业的翻译词汇库，提高了翻译过程中的翻译效率和翻译速度，解决了现有技术中存在的技术问题。

本发明采用以下技术方案：

一种分布式智能翻译方法，包括如下步骤：

步骤1，在客户端导入需要翻译的原文，对原文进行分析，将原文划分成最大的识别单元——段；

步骤2，对每一段按句进行拆分；

步骤3，将每一句与数据库中的数据进行查找，上述的数据库分为位于客户端的本地数据库和位于服务器端的后台数据库，而后台数据库又分为静态数据库和动态数据库，查询匹配时都先查询本地数据库，若找到句的匹配则直接进入步骤5，如果没查到，再查静态数据库，静态数据库查到了则也直接进入步骤5，在静态数据库没有查到的情况下，最后查询动态数据库若找到句的匹配也直接进入步骤5，若没找到则进入步骤4；

步骤4，将句再按照相邻字1至N个字进行组合，再将组合后的多个词组及单个最小单位的词组都先与本地数据库的数据进行匹配查找；若查到则进步骤5，若没查到，则与和静态数据库中的数据进行匹配查找；若查到则进步骤5，若没查到，则与动态数据库中的数据进行匹配查找；

步骤5，查询到结果后，实时返回用户界面供用户选择，同时将翻译的原文和译文记录到本地数据库和动态数据库中，以供以后翻译时使用；

步骤6，将组合查询后的结果记录在客户端的内存中，并且在原文处以标注的方式，将查询出来的结果明显的表现出来，当需要使用时，鼠标点击此处会将译文立刻显示在用户界面供选择，再次点击译文后会立刻将译文显示在译文行。

更进一步的是：

上述的本地数据库位于每个客户端，按每一句记录译员自己翻译的原文、译文信息，译员每翻译一句的原文、译文都添加到此本地数据库和服务器端的动态数据库中。

上述的步骤4中将句再按照相邻一字至相邻N个字进行组合，是指将含有N个字的句子按如下步骤进行组合拆分：

步骤4-1：将第一个字和第二个字、第一、第二和第三个字、第一、第二、第三和第四个字直至第一、第二……和第N—1个字进行组合拆分成多种结果；

步骤4-2：将第二字与第三个字，第二、第三和第四个字，第二、第三、第四和第五个字，直至第二、第三、第四……和第N个字进行组合拆分成多种结果；

步骤4-3：将第三字与第四个字，第三、第四和第五个字，第三、第四、第五和第六个字，直至第三、第四……和第N个字进行组合拆分成多种结果；

并以此类推直至步骤4—N-1。

上述的静态数据库存入的数据由专有词汇组成，而动态数据库中的数据则为多个客户端实时翻译时记录的信息之和，包括了词汇和句子。

上述的步骤1中是通过段与段之间的回车换行符作为标记，将每段话拆分开来。

上述的步骤2中是将句末标点符号作为标记，将每句话拆分开来。

与现有技术相比，本发明的有益效果是：

1) 提供了项目的协同工作，多个客户端可同时在不同的物理网络内实现对同一个项目的协同工作，从而节省了更多的资源；

2) 拆分方法科学合理，能够提供准确无误的查询结果；

3) 查找匹配方法科学合理，提高了翻译效率；

4) 在翻译进行当中，第一个人翻译的词句后续人员可以用到，如果翻译的词句有错误的话，可以在项目结束时统一进行修改，这就避免了不同人翻译相同的内容时出现的各种偏差不一致；

5) 动态数据库中记录的信息也可进行审核。

附图说明

图1为本发明的工作流程图；

图2为本发明的详细实现原理图。

具体实施方式

下面结合附图对本发明作进一步阐述。

一种分布式智能翻译方法，如图1所示，包括如下步骤：

步骤1，在客户端导入需要翻译的原文，对原文进行分析，通过段与段之间的回车换行符作为标记，将原文划分成最大的识别单元——段；

步骤2，将句末标点符号作为标记，将每一段话拆分成每句话。

步骤4，将句再按照相邻字1至N个字进行组合，具体来说是指将含有N个字的句子按如下步骤进行组合拆分：

并以此类推直至步骤4—N-1；再将组合后的多个词组及单个最小单位的词组都先与本地数据库的数据进行匹配查找；若查到则进步骤5，若没查到，则与和静态数据库中的数据进行匹配查找；若查到则进步骤5，若没查到，则与动态数据库中的数据进行匹配查找；

上述的本地数据库位于每个客户端，按每一句记录译员自己翻译的原文、译文信息，译员每翻译一句的原文、译文都添加到此本地数据库。静态数据库存入的数据由专有词汇组成，而动态数据库中的数据则为多个客户端实时翻译时记录的信息之和，包括了词汇和句子。

下面再来详细叙述本专利的技术关键点：关键点包括：拆分，分词，组合，提示，记忆，共享数据库信息、本地数据库、静态数据库、动态数据库。

本专利中所涉及的本地数据库是指：按每一句记录译员自己翻译的原文/译文信息，译员每翻译一句的原/译文都将添加到此本地数据库，在翻译下一句或者以后的文章时，后先会查此数据库，如果查到了，则后续动作不需要再做，如果没查到，再查静态数据库，静态数据库查到了则不需要再差动态数据库，在静态数据库都没有查到的情况下，最后查动态数据库。

静态数据库是指：存放积累下来的专有词汇（非单个单字或者词），此专有词汇是经过审核认可、无误的一种信息积累。静态数据库中存储了2个字段内容，一列中文一列英文，中英文一一对照，中文的含义对照了英文；反过来英文的含义也对照了唯一的中文含义。

动态数据库：译员每翻译一句文章，将原文和译文作为一个语言对，存储于此动态数据库。数据库中存储了2个字段内容，一列中文一列英文，中英文一一对照，中文的含义对照了英文；反过来英文的含义也对照了唯一的中文含义。

本专利在翻译一篇文章时，是将一段原文一段译文（译文为空）呈现出来。原文用于后期分析使用，译文用于显示对应的翻译后的信息。

下面再来以一个具体实施例的方式详细叙述实现翻译的过程：

拆分

如图2所示：打开一篇原文后，进行如下分析：

举例说明，先将原文按进行分析，在一篇原文中，段与段之间是以回车换行符作为标记，程序中通过此标记可将每段话区别开来。呈现在系统中就是一段原文，一段译文（为空）；一段原文，一段译文（为空）… …；然后段中的每一句话是以句号（。.）或者叹号（！!）作为结束标记，程序中通过此标记将每句话区别开来，此过程就是拆分过程。拆分完成后，即将拆分后的每一句先与本地数据库进行匹配查找，如果找到了则相应的此句的后续分词、组合、查询动作都不需要，如果没有找到再到静态数据库进行对比查找，如果在静态中找到了内容，则相应的此句的后续分词、组合、查询动作都不需要，提高了整个系统效率。如果没有找到再到动态数据库中去进行匹配查找等工作。

分词组合

在此步骤中是将未在数据库中查找到的句，按照逐句进行分词。这里以中文为例，例如：我是中国人。先将此句拆分为一个个词：“我”“我是”“我是中”“我是中国”“我是中国人”“是”“是中”“是中国”“是中国人”“中”“中国”“中国人”“国”“国人”“人”。这样拆分避免了分词后在静态词汇库中进行查询的疏漏，能够提供准确无误的查询结果。

查询

将以上分词组合后的词（排除单个字或者单个单词）先在本地数据库中查找，本地数据库没找到，则再从静态数据中进行查询，例如，将“我是”“我是中”“我是中国”“我是中国人”“是中”“是中国”“是中国人”“中国”“中国人”“国人”。如果找到了对应的内容，则将对应的英文直接提示给用户使用，提高了工作效率，不需要手工再次翻译。而一般的字典软件只能做到对单个单词或者常用组词的翻译，而对整个一句话并不能做到翻译，或者对一句话中间出现的专有词汇更不能做到精确翻译。

记忆

在整个翻译过程中，如果在本地数据、静态数据库或动态数据库中找到了匹配项，则表明数据库中已经有本句的原文/译文信息，如果没有相应的匹配项，则会将每一句原文/译文对的内容按句记录到本地数据库和动态数据库（除非动态数据库已存有和原文相同的内容则不记忆），记忆的方法也是按照原文的句号（。.）或者叹号（！!），对应着译文的句号（。.）或者叹号（！!），每翻译完成一段会将按句划分出来后的原/译文对写入动态数据库。此本地数据库和服务器端的动态数据库，供后期翻译别的文章时使用。如果遇到本地数据库中有的内容，则直接给出结果，不需要人工翻译也不需要去读取服务器端，大大提高了工作效率。并且随着翻译文章的增加，此动态数据库会越来越丰富。

提示

将组合查询后的结果记录在内存中，并且在原文处以加下划线/改变字体颜色的方式，将查询出来的结果明显的表现出来，当需要使用时，调用自主研发的提示模块，鼠标点击此处会将译文立刻显示在用户界面供用户选择。用户再次点击译文后会立刻将译文显示在译文行。

共享数据

本方法提供了项目的协同工作，多个客户端可同时在不同的物理网络内实现对同一个项目的协同工作。从而节省了更多的资源。在翻译进行当中，第一个人翻译的词句后续人员可以用到，如果翻译的词句有错误的话，可以在项目结束时统一进行修改，这就避免了不同人翻译相同的内容时出现的各种偏差不一致。动态数据库中记录的信息在此也可进行审核。

Claims

1.一种分布式智能翻译方法，其特征在于：包括如下步骤：

步骤2，对每一段按句进行拆分；

步骤3，将每一句与数据库中的数据进行查找，所述的数据库分为位于客户端的本地数据库和位于服务器端的后台数据库，而后台数据库又分为静态数据库和动态数据库，查询匹配时都先查询本地数据库，若找到句的匹配则直接进入步骤5，如果没查到，再查静态数据库，静态数据库查到了则也直接进入步骤5，在静态数据库没有查到的情况下，最后查询动态数据库若找到句的匹配也直接进入步骤5，若没找到则进入步骤4；

步骤4，将句再按照相邻一字至相邻N个字进行组合，再将组合后的多个词组及单个最小单位的词组都先与本地数据库的数据进行匹配查找；若查到则进步骤5，若没查到，则与和静态数据库中的数据进行匹配查找；若查到则进步骤5，若没查到，则与动态数据库中的数据进行匹配查找；

2.根据权利要求1所述的分布式智能翻译方法，其特征在于：所述的本地数据库位于每个客户端，按每一句记录译员自己翻译的原文、译文信息，译员每翻译一句的原文、译文都添加到此本地数据库和服务器端的动态数据库。

3.根据权利要求1所述的分布式智能翻译方法，其特征在于：所述的步骤4中将句再按照相邻一字至相邻N个字进行组合，是指将含有N个字的句子按如下步骤进行组合拆分：

并以此类推直至步骤4—N-1。

4.根据权利要求2所述的分布式智能翻译方法，其特征在于：所述的静态数据库存入的数据由专有词汇组成，而动态数据库中的数据则为多个客户端实时翻译时记录的信息之和。

5.根据权利要求1所述的分布式智能翻译方法，其特征在于：所述的步骤1中是通过段与段之间的回车换行符作为标记，将每段话拆分开来。

6.根据权利要求1所述的分布式智能翻译方法，其特征在于：所述的步骤2中是将句末标点符号作为标记，将每句话拆分开来。