CN1910574A - 自动翻译器及其方法和用于编写该方法的记录媒体 - Google Patents
自动翻译器及其方法和用于编写该方法的记录媒体 Download PDFInfo
- Publication number
- CN1910574A CN1910574A CNA200580002031XA CN200580002031A CN1910574A CN 1910574 A CN1910574 A CN 1910574A CN A200580002031X A CNA200580002031X A CN A200580002031XA CN 200580002031 A CN200580002031 A CN 200580002031A CN 1910574 A CN1910574 A CN 1910574A
- Authority
- CN
- China
- Prior art keywords
- chinese
- word
- sentence
- speech
- english
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/53—Processing of non-Latin text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及自动翻译器、由该自动翻译器所使用的自动翻译方法和用于编写该自动翻译方法的记录媒体。本发明使句子的翻译(英语句子<=>中文句子)更正确、自然。因为在将英语翻译为中文及将中文翻译为英语时,通过特定的算法将中文语法的特殊属性考虑在内了。特定算法是本发明的主要概念。本发明的自动翻译器由以下各项所组成:1)词库(100);2)分析装置(200);3)排列装置(300);4)装置(400)-调节性翻译模块;5)装置(500)-特定翻译模块;6)装置(600)-一般翻译模块;7)装置(700)-其输出完整的中文译句。与装置(500)(即特定翻译模块)链接的特定句子元素的链接指针与5个(特殊)翻译模块(501~505)相互配合。通过1)、2)、3)、4)、5)、6)、7)的过程和第一特定翻译模块(501)至第五特定翻译模块(505),可使句子的翻译(英语句子<=>中文句子)更正确、自然。本发明已通过本申请人于2003年3月开发的演示程序(应用了特定的算法)得到了完全证实。具体实施方式和图5、6、7、8、9中的所有示例句子都是从演示程序引用的。
Description
技术领域
本发明涉及自动翻译器、由该自动翻译器所使用的自动翻译方法和用于编写该自动翻译方法的记录媒体。
更具体地说,本发明使英语句子<=>中文句子的翻译更正确、自然。
因为在将英语翻译为中文或将中文翻译为英语时,通过特定的算法将中文语言的独特语法属性考虑在内了。本发明已通过本申请人于2003年3月开发的演示程序(应用了特定的算法)得到了完全证实。
背景技术
总体上看,近年来通过各种方式开发了许多机器翻译器,其将每种语言的词典、语言的语法存储在计算机存储装置中并编成程序,以便执行将一种语言翻译成另一种语言的指令。
举例来说,过去在韩国注册的一份专利,“Machine Translator utilizing Doorframeof which including Protector and Syntax Nod(注册号:10-0329109)”——这里让我们称之为MTD——具有下面的翻译过程。
MTD的用户将需要翻译成目标语言的原始句子输入之后,MTD将原始的句子分析成词素单位,然后确定单词的词性。
接下来,其搜索那些本身具有确定含义的单词,例如习惯用语、复合名词或复合词,并将这些单词重新分类,然后加上保护器标记,以便在这一过程之后不再进行分析。
并且在原始句子具有重要词类作用的单词,例如动词、连词、关系词、符号,也加上保护器标记,以便在这一过程之后不再进行分析。现在,MTD对保护器之间的局部句子结构进行分析,检查其是否是名词短语或介词短语,如果是,则标上适当的句子结构标记。
接下来,由局部句子结构和保护器所组成的原始门框将原始门框数据库与标有保护器标记的单词(动词、连词、关系词、符号等)相匹配,以便选择相互对应的翻译门框。翻译门框数据库已具有与标有保护器标记的原始单词有联系的译词。现在,将标有适当句子结构标记的名词短语和介词短语翻译成目标语言的字词,这样MTD就完成了原始句子的翻译。
上述MTD机器翻译器适合英语<=>韩语翻译,并且在某些语法领域可以用于英语<=>中文翻译,在这些领域,英语和中文语言具有相同的句法模式。但MTD有严重的问题。
这些问题的根源在于这样的事实,即中文语法具有英语语法所没有的某些特殊属性。因此,MTD对于英语<=>中文翻译无法产生有利的效果。现在,让我们来考虑一下中文语法的某些特殊属性。
首先,离合词(中文动词的一种,中文语法中的双音节或三音节动词)是非常独特的动词。当中文译句中存在离合词并且原始的英语句子是过去时态时,将离合词分成两部分,并且应在两者之间插入“了”字(该中文字表示句子是过去时态)。同时,如果在原始的英语句子中存在频率副词作为句子的元素,则对应的中文译词应紧跟在“了”字后面。当原始英语句子不是过去时态时,应将英语频率副词对应的中文译词插入离合词的两个分开的字词之间,不需要加“了”字。
MTD机器翻译器不能处理这种中文句法结构。
第二,当中文的句子具有程度补语作为句子的元素时,中文语言的语法具有特殊的属性。当中文译句中存在程度补语时,应在翻译出的中文动词与程度补语的中文译词之间插入“得”字(中文句子中用来表达动词的程度的中文字)。
MTD机器翻译器不能处理这种中文句法结构。
第三,当中文的句子具有结果补语作为句子的元素时,中文语言具有特殊的属性。当中文译句中存在结果补语时,结果补语应紧跟在翻译出的中文动词之后。
MTD机器翻译器不能处理这种中文句法结构。
第四,当中文句子是被动语态结构时,中文语言的语法具有特殊的属性。当将英语句子中的被动语态(句子结构是“be+过去分词”)翻译为中文时,中文译句也属于被动语态结构。但中文语言的被动语态句子结构分成两种模式。
一种模式是:如果属于被动语态结构的中文动词支配生物/事物的动作或对其产生影响,则应在该中文动词的前面加上中文的“被”字(这个字在中文中表示句子是被动语态)。另一种模式是:如果属于被动语态结构的中文动词不支配生物/事物的动作,也不对其产生影响,则不应在该中文动词的前面加上中文的“被”字。
MTD机器翻译器不能处理这种中文句法结构。
第五,当原始的英语句子是形容词短语句子时,中文语言的语法具有特殊的属性。(英语的形式是“be+形容词”。)原因是中文语言在中文形容词短语句子的结构中不使用英语单词“be”(在中文语言中为“是”)的中文译词。当将英语中的形容词短语句子翻译成中文时,精确的机器翻译器应删除原始英语单词“be”的中文译词,并且应根据中文语言的词序规则重新构造中文译句。
MTD机器翻译器不能处理这种中文句法结构。
如上所述,在英语<=>中文的机器翻译中,应考虑中文语法的五个特殊属性。
发明内容
本发明解决了过去和目前在英语<=>中文机器翻译中所存在的中文语法的五个特殊属性的问题。
为了获得解决上述五个问题的解决方案,本申请人开发了本发明的自动翻译器。
该自动翻译器由下列各项所组成:(1)词库(100):其具有4个对应的词典数据库。每个数据库均以字母顺序排列,并且根据英语和中文语言的词典编辑系统记录了英语单词和中文译词的全部信息。
(2)装置(200):其将输入的原始句子的单词分析成词素单位。
(3)装置(300):其针对包含词性的基本句子元素排列装置(200)的结果,并且根据词库的词典数据库将原始的英语单词翻译成中文的字词。
(4)装置(400)——调节性翻译模块:其检查在(300)的结果中是否存在复合词、习惯用语、俗语。如果存在,则该装置将它们的基本句子元素调节成调节性句子元素,如果需要,转换它们的词性(在该过程中,创建新转换的词类)。并且该装置根据第一、第二、第三词典数据库将原始的英语单词翻译为中文字词。
(5)装置(500)——特定翻译模块:其检查(300)的结果、(400)的结果,并通过特定句子元素的链接指针检查所输入的原始句子。如果两者之间存在链接数据,则特定句子元素的链接指针检查单词的数据是否标有辨别因子。如果是,则特定句子元素的链接指针和辨别因子指示,单词应由5个(特殊)特定翻译模块之一来控制。该装置(500)具有5个(特殊)特定翻译模块(501~505),由特定句子元素的链接指针和辨别因子共同激活。并且该装置重新检查每个特定翻译模块的结果并根据中文语言的词序规则重新排列中文译词和词序。
(6)装置(600)——一般翻译模块:其检查(500)的结果,并根据中文语法的特殊翻译状况删除最终中文译句中不需要的中文译词,并插入最终中文译句中需要的特殊中文字词。其重新检查第二次翻译的中文字词(其由特定翻译模块(500)再次转换而来)是否与词库的词序规则有联系。如果是,该装置根据中文语言的词序规则重新构造第二次翻译的中文字词的词序。
(7)装置(700):其输出完整的中文译句。
与装置(500)(即特定翻译模块)链接的特定句子元素的链接指针与5个(特殊)特定翻译模块(501~505)相互配合。
第一特定翻译模块(501)通过特定句子元素的链接指针和辨别因子检查原始英语句子翻译出的中文动词是否属于离合词——中文语法的一种动词。如果其属于离合词,则该模块通过特定句子元素的链接指针和辨别因子检查原始的英语句子是否是过去时态。
如果检查结果是过去时态,则该模块将“了”字插入翻译出的中文动词的两个分开的字词之间。同时,该模块检查原始的英语句子是否具有频率副词。如果具有,则该模块将英语频率副词的中文译词紧跟在“了”字的后面。如果原始的英语句子不是过去时态,则放置英语频率副词的中文译词即可,不需要加“了”字。
第二特定翻译模块(502)通过特定句子元素的链接指针和辨别因子检查中文译词是否存在作为句子元素的程度补语。如果存在,则特定句子元素的链接指针和辨别因子检查程度补语是否伴随原始英语句子翻译出的中文动词。如果是,该模块将中文字“得”紧跟在翻译出的中文动词后面。并且在“得”字的后面,该模块紧接着插入程度补语的中文译词。
第三特定翻译模块(503)通过特定句子元素的链接指针和辨别因子来检查中文译词中是否存在作为句子元素的结果补语。如果存在,则特定句子元素的链接指针和辨别因子检查结果补语是否伴随着原始英语句子翻译出的中文动词。如果是,该模块在翻译出的中文动词后面紧接着插入结果补语的中文译词。
第四特定翻译模块(504)通过特定句子元素的链接指针和辨别因子检查原始的英语句子结构是否是“be+过去分词”。如果是,则该模块检查原始英语句子翻译出的中文动词是否支配生物/事物的动作或对其施加影响。如果是,则将中文字“被”加在翻译出的中文动词前面。并且该模块根据中文语法重新检查英语介词(其紧跟在英语动词的后面)的中文译词是否适合翻译出的中文动词。因为该英语介词中文译词在中文语言中具有一些特殊的翻译状况。接下来,该模块根据中文语言的词序规则重新构造中文译词。
第五特定翻译模块(505)通过特定句子元素的链接指针和辨别因子检查原始的英语句子是否是形容词短语句子。如果是,则该模块删除原始英语单词“be”的中文译词,然后根据中文语言的词序规则重新构造中文译词。
词库中的每个英语单词具有与词素单位(共同特征)、基本句子元素(共同特征)、调节性句子元素(独立特征)、特定句子元素(独立特征)相关的数据。尤其是特定句子元素在第一、第二、第三词典数据库中标有辨别因子。辨别因子检查英语单词中的特定句子元素的信息,并在特定翻译模块中通过特定句子元素的链接指针来激活。辨别因子和特定句子元素的链接指针将具有特定句子元素的英语单词和中文译词指派给对应的第一至第五特定翻译模块。
并且其帮助5个特定翻译模块(501-505)将原始的英语句子翻译为正确的、自然的中文译句。
词库的第一词典数据库存储了常见单词的信息。词库的第二、第三词典数据库存储了复合词、习惯用语、俗语的信息。第四词典数据库存储了术语的信息。
将原始的英语句子翻译成中文句子时,
1)如果翻译出的中文动词(其选自词库)属于离合词,则特定句子元素的链接指针和辨别因子检查原始的英语句子是否是过去时态,并检查原始的英语句子是否具有频率副词。
2)如果检查发现中文译词是程度补语,则特定句子元素的链接指针和辨别因子检查该程度补语本身是否伴随着原始英语句子翻译出的中文动词。
3)如果检查发现中文译词是结果补语,则特定句子元素的链接指针和辨别因子检查该结果补语本身是否伴随着原始英语句子翻译出的中文动词。
4)如果原始的英语句子结构是“be+过去分词”,则特定句子元素的链接指针和辨别因子检查原始英语句子翻译出的中文动词是否支配生物/事物的动作或对其施加影响。接下来,特定句子元素的链接指针和辨别因子根据中文语法重新检查英语介词(其紧跟在英语动词后面)的中文译词——该中文译词是否适合翻译出的中文动词。因为英语介词的中文译词在中文语法中具有一些特殊的翻译状况。
5)如果原始的英语句子结构是形容词短语句子,则特定句子元素的链接指针和辨别因子删除原始英语单词“be”的中文译词,然后根据中文语法的词序规则重新构造中文译词。
如上所述用于编写该自动翻译方法的记录媒体由下列各项所组成:(1)词库(100):其具有4个对应的词典数据库。每个数据库均以字母顺序排列,并且根据英语和中文语言的词典编辑系统记录了英语单词和中文译词的全部信息。
(2)装置(200):其将输入的原始句子的单词分析成词素单位。
(3)装置(300):其针对包含词性的基本句子元素排列(200)的结果,并且根据词典数据库将原始的英语单词翻译成中文的字词。
(4)装置(400)——调节性翻译模块:其检查在(300)的结果中是否存在复合词、习惯用语、俗语。如果存在,则该装置将它们的基本句子元素调节成调节性句子元素,如果需要,转换它们的词性(在该过程中,创建新转换的词类)。并且该装置根据词典数据库将原始的英语单词翻译为中文字词。
(5)装置(500)——特定翻译模块:其检查(300)的结果、(400)的结果,并通过特定句子元素的链接指针检查所输入的原始句子。如果两者之间存在链接数据,则特定句子元素的链接指针检查单词的数据是否标有辨别因子。如果是,则特定句子元素的链接指针和辨别因子指示单词应由5个(特殊)特定翻译模块之一来控制。该模块(500)具有5个(特殊)特定翻译模块,由特定句子元素的链接指针和辨别因子共同激活。并且该装置(500)重新检查每个特定翻译模块的结果并根据中文语言的词序规则重新排列中文译词和词序。
(6)装置(600)——一般翻译模块:其检查(500)的结果,并根据中文语法的特殊翻译状况删除最终中文译句中不需要的中文译词,并插入最终中文译句中需要的特殊中文字词。其重新检查第二次翻译出的中文字词(其由特定翻译模块再次转换而来)是否与词库的词序规则有联系。如果是,该装置根据中文语言的词序规则重新构造中文译词的词序。
(7)装置(700):其输出完整的中文译句。
与装置(500)链接的特定句子元素的链接指针与5个(特殊)特定翻译模块(501~505)相互配合。
第一特定翻译模块(501)通过特定句子元素的链接指针与辨别因子检查原始英语句子翻译出的中文动词是否属于离合词。如果是属于离合词,该模块检查原始的英语句子是否是过去时态。如果检查结果是过去时态,则该模块在翻译出的中文动词的两个分开的字词之间插入“了”字。同时,该模块检查原始的英语句子是否具有频率副词。如果具有,则该模块通过特定句子元素的链接指针和辨别因子将英语频率副词的中文译词紧跟在“了”字后面。如果原始的英语句子不是过去时态,则放置英语频率副词的中文译词即可,不需要加“了”字。
第二特定翻译模块(502)通过特定句子元素的链接指针和辨别因子检查中文译词是否存在作为句子元素的程度补语。如果存在,则特定句子元素的链接指针和辨别因子检查程度补语是否伴随原始英语句子翻译出的中文动词。如果是,该模块将中文字“得”紧跟在翻译出的中文动词后面。并且在“得”字的后面,该模块紧接着插入程度补语的中文译词。
第三特定翻译模块(503)通过特定句子元素的链接指针和辨别因子来检查中文译词中是否存在作为句子元素的结果补语。如果存在,则特定句子元素的链接指针和辨别因子检查结果补语是否伴随着原始英语句子翻译出的中文动词。如果是,该模块在翻译出的中文动词后面紧接着插入结果补语的中文译词。
第四特定翻译模块(504)通过特定句子元素的链接指针和辨别因子检查原始的英语句子结构是否是“be+过去分词”。如果是,则该模块检查原始英语句子翻译出的中文动词是否支配生物/事物的动作或对其施加影响。如果是支配或施加影响,则将中文字“被”加在翻译出的中文动词前面。接下来,该模块通过特定句子元素的链接指针和辨别因子根据中文语法重新检查英语介词(其紧跟在英语动词后面)的中文译词——该中文译词是否适合翻译出的中文动词。因为英语介词的中文译词在中文语法中具有一些特殊的翻译状况。接下来,该模块根据中文语言的词序规则重新构造中文译词。
第五特定翻译模块(505)通过特定句子元素的链接指针和辨别因子检查原始的英语句子是否是形容词短语句子。如果是,则该模块删除原始英语单词“be”的中文译词,然后根据中文语言的词序规则重新构造中文译词。
词库中的每个英语单词具有与词素单位(共同特征)、基本句子元素(共同特征)、调节性句子元素(独立特征)、特定句子元素(独立特征)相关的数据。尤其是特定句子元素在第一、第二、第三词典数据库中标有辨别因子。
辨别因子检查英语单词中的特定句子元素的信息,并在在特定翻译模块中通过特定句子元素的链接指针来激活。
辨别因子和特定句子元素的链接指针将具有特定句子元素的英语单词和中文译词指派给对应的第一至第五特定翻译模块。并且其帮助5个特定翻译模块(501-505)将原始的英语句子翻译为正确的、自然的中文译句。
词库的第一词典数据库存储了常见字词的信息。词库的第二、第三词典数据库存储了复合词、习惯用语、俗语的信息。第四词典数据库存储了术语的信息。
将原始的英语句子翻译成中文句子时,
1)如果翻译出的中文动词(其选自词库)属于离合词,则特定句子元素的链接指针和辨别因子检查原始的英语句子是否是过去时态,并检查原始的英语句子是否具有频率副词。
2)如果检查发现中文译词是程度补语,则特定句子元素的链接指针和辨别因子检查该程度补语本身是否伴随着原始英语句子翻译出的中文动词。
3)如果检查发现中文译词是结果补语,则特定句子元素的链接指针和辨别因子检查该结果补语本身是否伴随着原始英语句子翻译出的中文动词。
4)如果原始的英语句子结构是“be+过去分词”,则特定句子元素的链接指针和辨别因子检查原始英语句子翻译出的中文动词是否支配生物/事物的动作或对其施加影响。接下来,特定句子元素的链接指针和辨别因子根据中文语法重新检查英语介词(其紧跟在英语动词后面)的中文译词——该中文译词是否适合翻译出的中文动词。因为英语介词的中文译词在中文语法中具有一些特殊的翻译状况。
5)如果原始的英语句子结构是形容词短语句子,则特定句子元素的链接指针和辨别因子删除原始英语单词“be”的中文译词,然后根据中文语法的词序规则重新构造中文译词。
本发明的自动翻译方法由以下各项所组成:
阶段(S100):具有词库。
阶段(S200):将所输入的原始句子的单词分析成词素单位。
阶段(S300):其针对包含词性的基本句子元素排列(200)的结果,并且根据词典数据库将原始的英语单词翻译成中文的字词。
阶段(S400):检查在(300)的结果中是否存在复合词、习惯用语、俗语。如果存在,则该阶段将它们的基本句子元素调节成调节性句子元素,如果需要,转换它们的词性(在该过程中,创建新转换的词类)。并且该阶段根据词典数据库将原始的英语单词翻译为中文字词。
阶段(S500):检查(300)的结果、(400)的结果,并通过特定句子元素的链接指针检查所输入的原始句子。如果两者之间存在链接数据,则特定句子元素的链接指针检查单词的数据是否标有辨别因子。如果是,则特定句子元素的链接指针和辨别因子指示单词应由5个(特殊)特定翻译模块之一来控制。并且该阶段重新检查每个特定翻译模块的结果并根据中文语言的词序规则重新排列中文译词和词序。
阶段(S600):检查(500)的结果,并根据中文语法的特殊翻译状况删除最终中文译句中不需要的中文译词,并插入最终中文译句中需要的特殊中文字词。并且该阶段重新检查第二次翻译出的中文字词(其由特定翻译模块再次转换而来)是否与词库的词序规则有联系。如果是,则该阶段根据中文语言的词序规则重新构造中文译词。
阶段(S700):输出完整的中文译句。
在装置的阶段(S500)中:与装置(500)链接的特定句子元素的链接指针和辨别因子检查原始英语句子翻译出的中文动词是否属于离合词。如果其属于离合词,则通过第一特定翻译模块来控制翻译出的中文动词。在第一特定翻译模块中,辨别因子和特定句子元素的链接指针检查原始的英语句子是否是过去时态。如果检查结果是过去时态,则该模块在翻译出的中文动词的两个分开的字词之间插入“了”字。同时,特定句子元素的链接指针和辨别因子检查原始的英语句子是否具有频率副词。如果具有,则第一特定翻译模块将英语频率副词的中文译词紧跟在“了”字之后。如果原始的英语句子不是过去时态,则放置英语频率副词的中文译词即可,不需要加“了”字。(S501)
在装置的阶段(S500)中:如果检查发现中文译词是程度补语,则第二特定翻译模块通过特定句子元素的链接指针和辨别因子检查该程度补语本身是否伴随着原始英语句子翻译出的中文动词。如果是,则该模块在翻译出的动词后面紧接着插入中文字“得”。并且在“得”字的后面,该模块紧接着插入程度补语的中文译词。(S502)
在装置的阶段(S500)中:如果检查发现中文译词是结果补语,则第三特定翻译模块通过特定句子元素的链接指针和辨别因子检查该结果补语本身是否伴随着原始英语句子翻译出的中文动词。如果是,该模块在翻译出的中文动词后面紧接着插入结果补语的中文译词。(S503)
在装置的阶段(S500)中:如果原始的英语句子结构是“be+过去分词”,则在第四特定翻译模块中,特定句子元素的链接指针和辨别因子检查原始英语句子翻译出的中文动词是否支配生物/事物的动作或对其施加影响。如果是,则将中文字“被”加在翻译出的中文动词前面。接下来,该模块根据中文语法重新检查英语介词(其紧跟在英语动词的后面)的中文译词——该中文译词是否适合翻译出的中文动词。因为英语介词的中文译词在中文语法中具有一些特殊的翻译状况。接下来,其根据中文语言的词序规则重新构造中文译词。(S504)
在装置的阶段(S500)中:在第五特定翻译模块中,特定句子元素的链接指针和辨别因子检查原始的英语句子是否是形容词短语句子。如果是,则该模块删除原始英语单词“be”的中文译词,然后根据中文语言的词序规则重新构造中文译词。”(S505)
在装置的阶段(S500)中,特定句子元素的链接指针、辨别因子和每个特定翻译模块是三位一体的。
附图说明
下文参照附图详细说明了通过该自动(机器)翻译器的操作来实际翻译示例句子的情况(演示程序,于2003年3月开发)。
图1:本发明的自动翻译器的系统组成。
图2:作为该自动翻译器的组成单元的特定翻译模块装置的框图。
图3:显示了该自动翻译器中的翻译过程的流程图。
图4:显示了5个特定翻译模块(501-505)的功能。
图5:本发明的操作的第一例子,显示了离合词动词结构的翻译过程。图5至图9是本申请人从本发明的演示结果中引用的。
图6:本发明的操作的第二例子,显示了程度补语句法结构的翻译过程。
图7:本发明的操作的第三例子,显示了结果补语句法结构的翻译过程。
图8:本发明的操作的第四例子,显示了被动语态句法结构的翻译过程。
图9:本发明的操作的第五例子,显示了形容词短语句子句法结构的翻译过程。
具体实施方式
现在,让我们来观察一下本发明的自动翻译器的操作。当用户输入原始的英语句子“I have not chatted with him once.”(参照图5)时,该句子便出现在了用于翻译的活动窗口的输入空间中。(参照图3/S100)用户输入该英语句子并点击活动窗口中的翻译菜单之后,该自动翻译器将会立即显示中文译句。让我们观察一下该自动翻译器的翻译过程。
首先,用于分析词素单位的装置(200)将所输入的原始英语句子的每一个单词分析成词素单位。用于排列基本句子元素的装置(300)将原始英语句子的每个词素单位逐一与词库中的词典数据库匹配。同时,该装置将其排列并定义成代词、名词、动词、否定词、助词、形容词、介词、副词、冠词、连词、关系词、叙述词、分词、动名词、数词等。(S300)用于调整调节性句子元素的装置(400)首先检查在(300)的结果中是否存在复合词、习惯用语、俗语。如果存在,则该装置将它们的基本句子元素调节成调节性句子元素,接下来,该装置将它们与词库中的词典数据库匹配。同时,如果需要,该装置(400)转换并调整它们的词性。在这一过程中,创建了新转换的词类,调整并重新定义了所输入的原始句子中的时态、主语、短语动词、介词短语、名词短语、副词短语的特征。(S400)
接下来,装置(500),即特定翻译模块,通过特定句子元素的链接指针检查装置(400)的结果,确定所输入的原始英语单词中是否存在辨别因子。通过特定句子元素的链接指针来激活的辨别因子检查原始英语单词的调节性句子元素的特征,如果需要,重新排列特定句子元素的调节性句子元素。然后,辨别因子和特定句子元素的的链接指针指示,由5个特殊的特定翻译模块之一来控制具有特定句子元素的单词。该过程显示了原始英语单词的每个特定句子元素的功能意义。该过程将原始的英语单词翻译成正确的、自然的中文译句。
所输入的原始英语句子“I have not chatted with him once.”通过装置(200)、(300)、(400)和词典数据库,然后相关的数据就到达了装置(500)。
在(200)、(300)、(400)的过程中,将原始英语句子中的单词“I”翻译成中文字“我”,单词“have”和“not”翻译成中文字“有”和“没”,单词“chatted”翻译成中文词“闲谈”,“with”翻译为中文字“跟”,“him”翻译成中文字“他”,并且“once”翻译成中文词“一次”。
特定句子元素的链接指针检查原始英语句子的全部相关数据,并发现动词“chatted”标有“离合词”的辨别因子。该辨别因子和特定句子元素的链接指针决定应在第一特定翻译模块(501)中执行该单词的下一个过程。第一特定翻译模块参照单词数据检查动词“chatted”,并发现动词“chatted”是过去时态动词。同时,在第一特定翻译模块中,特定句子元素的链接指针和辨别因子在词典数据库中检查动词“chatted”并发现其正确、自然的中文译词不是“闲谈”,而是离合词“聊天儿”。
接着,特定句子元素的链接指针和辨别因子在离合词“聊天儿”之间插入“了”字(该中文字表示句子是过去时态)。
于是,翻译出的中文动词就成了“聊了天儿”。
在该过程之后,在第一特定翻译模块中,特定句子元素的链接指针和辨别因子识别出原始英语句子具有频率副词“once”。特定句子元素的链接指针和辨别因子检查词典数据库并发现翻译出的中文频率副词是“一次”。接下来,该模块在“聊了天儿”之间插入词语“一次”。于是,翻译出的中文动词和翻译出的中文副词就形成了“聊了一次天儿”。第一特定翻译模块将原始英语句子中的单词“chatted”和“once”翻译成了中文译词“聊了一次天儿”。
该结果在中文语言中是非常正确、自然的。
将该自动翻译器的第一特定翻译模块中的特定句子元素的链接指针和辨别因子编成程序,以检查原始英语句子翻译出的中文动词是否属于离合词。并且用于检查原始英语句子是否具有频率副词。
当特定句子元素的链接指针找不到标有辨别因子的单词时,特定翻译模块(500)就完成了原始英语句子的特定句子元素的翻译过程。
在该过程之后,便将所输入的原始英语句子“I have not chatted with him once.”翻译成了“我有没聊了一次天儿跟他”。一般翻译模块(600)接收并检查(500)的结果,并根据中文语法的特殊翻译状况删除最终中文译句中不需要的中文译词,并插入最终中文译句中需要的特殊中文字词。接下来,该模块检查(500)的每个结果是否与词库中的词序规则有联系。如果是,则该模块根据中文语言中的词序规则重新构造中文译词。
这个过程中,在最终的中文译句中删除了翻译出的中文字“有”。并且根据中文语言的词序规则,将原始英语句子中的单词“with him”对应的中文译词“跟他”紧跟在中文字“没”后面。
一般翻译模块(600)的过程建立了最终中文译句“我没跟他聊了一次天儿”。(S600)
最后,装置(700)输出完整的中文译句。自动翻译器在计算机屏幕上的输出空间显示“我没跟他聊了一次天儿”。
这是一个正确、自然的中文句子。并且这种技术算法在此之前并不存在。
从输入原始英语句子直至对调节性句子元素进行调节的连续过程(S100-S400)都是一样的。
因此,下面将对照5张图解释装置(500)——特定翻译模块——如何操作和控制原始英语单词的特定句子元素及5个特定翻译模块(501-505)的过程(参照图5、6、7、8、9)。
所输入的原始英语句子“He always answers correctly.”(参照图6)通过装置(200)、(300)、(400)的过程进行分析、排列和调节,并且通过对应的词典数据库与中文译词匹配。
“he”对应于“他”,“always”对应于“总是”,“answers”对应于“回答”,“correctly”对应于“正确地”。
当将装置(_400)的结果传达到装置(500)时,特定句子元素的链接指针检查原始英语句子中的每个单词及中文译词——“He always answers correctly”/他总是回答正确地。
在该过程中,检查每个单词是否标有辨别因子。当该过程发现单词“correctly”标有辨别因子时,特定句子元素的链接指针激活单词“correctly”的该辨别因子。该辨别因子和特定句子元素的链接指针开始通过词典数据库来检查单词“correctly”的特征。
其发现英语单词“correctly”的中文译词在中文语法中应视为程度补语。
现在,单词“correctly”的辨别因子和特定句子元素的链接指针指示,该原始英语单词必须由第二特定翻译模块(502)来处理。其决定,根据中文语法,第一次翻译出的对应中文词“正确地”是不正确的。在第二特定翻译模块中,辨别因子和特定句子元素的链接指针通过词典数据库来重新检查单词“correctly”,并发现正确、自然的中文词不是“正确地”,而是“对”。
第二特定翻译模块通过特定句子元素的链接指针和辨别因子来检查第二次翻译出的中文字“对”是否伴随着原始英语动词“answers”翻译出的中文动词“回答”。结果是肯定的,在第二特定翻译模块中,特定句子元素的链接指针和辨别因子将特殊的中文字“得”紧跟在翻译出的中文动词“回答”后面插入,并且紧跟在“得”字后面,放置第二次翻译出的中文字“对”,作为中文语言的程度补语。
现在,装置(500)检查中文语言的词序规则,并将原始的英语句子“He alwaysanswers correctly.”翻译成中文译句“他总是回答得对”。
一般翻译模块(600)接收并检查装置(500)的结果,并且没有找到需要重新排列结果的线索。
现在,该模块建立最终的中文译句“他总是回答得对”。(S600)
最后,装置(700)输出完整的中文译句。自动翻译器在计算机屏幕上的输出空间显示“他总是回答得对”。(S700)
这是一个正确、自然的中文句子。并且这种技术算法在此之前并不存在。
所输入的原始英语句子“I translated it into English wrongly”(参照图7)通过装置(200)、(300)、(400)的过程进行分析、排列和调节,并且通过词典数据库与中文译词匹配。
“I”对应于“我”,“translated”对应于“翻译”,“it”对应于“那个”,“into”对应于“成”,“English”对应于“英语”,并且“wrongly”对应于“错误地”。
当将装置(400)的结果传达到装置(500)时,特定句子元素的链接指针检查原始英语句子中的每个单词及中文译词——I translated it into English wrongly./我翻译那个成英语错误地。
在该过程中,通过特定句子元素的链接指针检查每个单词是否标有辨别因子。当其发现单词“wrongly”标有辨别因子时,特定句子元素的链接指针激活单词“wrongly”的该辨别因子。该辨别因子和特定句子元素的链接指针开始通过词典数据库来检查单词“wrongly”的特征。其发现,英语单词的“wrongly”中文译词在中文语言中应视为结果补语。
现在,单词“wrongly”的辨别因子和特定句子元素的链接指针指示,该原始英语单词必须由第三特定翻译模块(503)来处理。其决定,根据中文语法,第一次翻译出的中文词“错误地”是不正确的。在第三特定翻译模块中,其通过词典数据库来重新检查单词“correctly”,并发现正确、自然的中文词不是“错误地”,而是“错了”。
第三特定翻译模块通过特定句子元素的链接指针和辨别因子来重新检查第二次翻译出的中文词“错了”是否伴随着原始英语动词“translated”翻译出的中文动词“翻译”作为结果补语。结果是肯定的,第三特定翻译模块根据中文的词序规则紧跟在中文动词“翻译”后面插入中文译词“错了”。
一般翻译模块(600)接收(500)的结果并根据中文语法的特殊翻译状况检查中文译句是否需要删除或插入特殊的中文字词。接着,该模块重新检查每一个中文译词是否与词典数据库的词序规则有联系。如果是,该模块根据中文语言的词序规则重新构造中文译词的词序。
这时,一般翻译模块的装置根据中文语言的词序规则检查(500)的结果并决定应将中文字“把”插在词语“那个”前面,并且在词语“把那个”后面紧跟中文动词“翻译”。该模块(600)建立最终的中文译句“我把那个翻译错了成英语”。(S600)
最后,装置(700)输出完整的中文译句。自动翻译器在计算机屏幕上的输出空间显示“我把那个翻译错了成英语”。(S700)
这是一个正确、自然的中文句子。并且这种技术算法在此之前并不存在。
所输入的原始英语句子“He is besieged with visitors from abroad.”(参照图8)通过装置(200)、(300)、(400)的过程进行分析、排列和调节,并且通过词典数据库与中文译词匹配。
“He”对应于“他”,并且“is”对应于“是”,“besieged”对应于“包围了”,“with”对应于“跟”,“visitors”对应于“客人”,“from”对应于“从”,并且“abroad”对应于“外国”。
当将装置(400)的结果传达到装置(500)时,特定句子元素的链接指针检查原始英语句子中的每个单词及中文译词——“He is besieged with visitors from abroad.”/他是包围了跟客人从外国。
在该过程中,检查每个单词是否标有辨别因子。当其发现原始英语句子是被动语态的结构“be+过去分词”并标有被动语态的辨别因子时,该辨别因子和特定句子元素的链接指针开始通过词典数据库来检查原始英语句子的特征。
现在,该辨别因子和特定句子元素的链接指针指示,该原始英语句子必须由第四特定翻译模块(504)来处理。在第四特定翻译模块中,其搜索单词数据“isbesieged”,并检查原始英语句子翻译出的中文动词“包围了”是否支配生物/事物的动作或对其施加影响。结果是肯定的。其决定将中文字“被”加在翻译出的中文动词前面。该模块将第一次翻译出的中文短语动词“包围了”转换成“被包围了”。
辨别因子和特定句子元素的链接指针应根据中文语法重新检查英语介词(其紧跟在英语动词后面)的中文译词——该中文译词是否适合翻译出的中文动词。
因此,该辨别因子和特定句子元素的链接指针根据中文语法重新检查英语介词“with”第一次翻译出的中文字“跟”是否适合翻译出的中文动词“被包围了”。因为英语介词的中文译词在中文语法中具有一些特殊的翻译状况。结果是否定的,其决定,根据中文语法的特殊翻译状况,正确、自然的中文译词不是“跟”,而是“与”。
接着,在第四特定翻译模块中,其根据中文语言的词序规则,决定应在与“withvisitors”对应的介词短语“与客人”后面紧跟翻译出的中文短语动词“被包围了”。第四特定翻译模块重建中文译句“他是与客人被包围了从外国”。
接收并检查(500)的结果的一般翻译模块(600)删除与“is”对应的中文译词。因为在最终的中文译句中,英语单词“is”的中文译词是不需要的。并且,该模块重新检查每一个中文译词是否与词典数据库的词序规则有联系。并且结果是这样的:对应于“from abroad”的介词短语“从外国”与词典数据库的词序规则有联系。因此,该模块如下重新构造词序:在“与客人”后面紧跟与“from abroad”对应的介词短语“从外国”。
该模块建立最终的中文译句“他与客人从外国被包围了”。(S600)
最后,装置(700)输出完整的中文译句。自动翻译器在计算机屏幕上的输出空间显示“他与客人从外国被包围了”。(S700)
这是一个正确、自然的中文句子。并且这种技术算法在此之前并不存在。
所输入的原始英语句子“He is sensitive to light.”(参照图9)通过装置(200)、(300)、(400)的过程进行分析、排列和调节,并且通过词库的对应词典数据库与中文译词匹配。
“He”对应于“他”,“is”对应于“是”,“sensitive”对应于“敏感”,“to”对应于“对”,并且“light”对应于“光”。
现在,特定句子元素的链接指针检查原始英语句子中的每个单词和中文译词———He is sensitive to light./他是敏感对光。
在该过程中,检查每个单词是否标有辨别因子。当特定句子元素的链接指针发现标有辨别因子的单词时,其激活该辨别因子。
特定句子元素的链接指针和(用语“is sensitive”的)辨别因子将该句子结构确认为“be+形容词”。该用语的辨别因子和特定句子元素的链接指针指示,该原始英语句子必须由第五特定翻译模块(505)来处理。
在第五特定翻译模块中,该用语的辨别因子和特定句子元素的链接指针寻找单词数据“is sensitive”,并且该模块根据中文语言的词序规则删除原始英语单词“be”的中文译词,然后重新构造中文译句。
现在,原始的英语句子“He is sensitive to light.”翻译成了中文句子“他敏感对光”。
接下来,接收和检查(500)的结果的一般翻译模块(600)的过程决定,根据中文语法的特殊状况删除最终中文译句中不需要的字词的过程及插入最终中文译句中需要的特殊中文字词的过程是不需要的。接着,该模块重新检查中文译词是否与词库的词序规则有联系。结果是这样的:根据中文语言的词序规则,翻译出的中文介词短语“对光”(其对应于“to light”)的后面应紧跟翻译出的中文形容词“敏感”(其对应于“sensitive”)。因此,该模块重新构造词序并建立最终的中文译句“他对光敏感”。(S600)
最后,装置(700)输出完整的中文译句。自动翻译器在计算机屏幕上的输出空间显示“他对光敏感”(S700)。
这是一个正确、自然的中文句子。并且这种技术算法在此之前并不存在。
可在本发明的概念和范围内对上文详细解释的本发明进行更改和改造。此类更改和改造属于本申请人在本专利范围内所提出的权利要求。
Claims (5)
1.一种自动翻译器,其由以下各项组成:
(1)词库(100):其具有4个对应的词典数据库;每个数据库均以字母顺序排列,并且根据英语和中文语言的词典编辑系统记录了英语单词和中文译词的全部信息;
(2)装置(200):其将输入的原始句子的单词分析成词素单位;
(3)装置(300):其针对包含词性的基本句子元素排列装置(200)的结果,并且根据词典数据库将原始的英语单词翻译成中文的字词;
(4)装置(400)——调节性翻译模块:其检查在(300)的结果中是否存在复合词、习惯用语、俗语;如果存在,则该装置将它们的基本句子元素调节成调节性句子元素,如果需要,转换它们的词性(在该过程中,创建新转换的词类);并且该装置根据词典数据库将原始的英语单词翻译为中文字词;
(5)装置(500)——特定翻译模块:其检查(300)的结果、(400)的结果,并通过特定句子元素的链接指针检查所输入的原始句子;如果两者之间存在链接数据,则特定句子元素的链接指针检查单词的数据是否标有辨别因子;如果是,则特定句子元素的链接指针和辨别因子指示单词应由5个(特殊)特定翻译模块之一来控制;
特定翻译模块的装置(500)具有5个(特殊)特定翻译模块(501-505),由特定句子元素的链接指针和辨别因子共同激活;并且该装置重新检查每个(特殊)特定翻译模块的结果并根据中文语言的词序规则重新排列中文译词和词序;
(6)装置(600)——般翻译模块:其检查(500)的结果,并根据中文语法的特殊翻译状况删除最终中文译句中不需要的中文译词,并插入最终中文译句中需要的特殊中文字词;并且该装置重新检查第二次翻译出的中文字词(其由特定翻译模块再次转换而来)是否与词库的词序规则有联系;如果是,则该装置根据中文语言的词序规则重新构造中文译词;
(7)装置(700):其输出完整的中文译句;
与装置(500)(即特定翻译模块)链接的特定句子元素的链接指针与5个(特殊)特定翻译模块(501~505)相互配合;
第一特定翻译模块(501)通过特定句子元素的链接指针与辨别因子检查原始英语句子翻译出的中文动词是否属于离合词;如果其属于离合词,则该模块通过特定句子元素的链接指针与辨别因子检查原始的英语句子是否是过去时态;结果是肯定的,该模块将“了”字插入翻译出的中文动词的双音节或三音节(其也分成两部分)词之间;同时,该模块通过特定句子元素的链接指针和辨别因子检查原始的英语句子是否具有频率副词;如果具有,则该模块通过特定句子元素的链接指针和辨别因子将英语频率副词的中文译词紧跟在“了”字后面;如果原始的英语句子不是过去时态,则放置英语频率副词的中文译词即可,不需要加“了”字;
第二特定翻译模块(502)通过特定句子元素的链接指针和辨别因子检查中文译词是否存在作为句子元素的程度补语;如果存在,则特定句子元素的链接指针和辨别因子检查程度补语是否伴随原始英语句子翻译出的中文动词;如果是,则该模块在翻译出的中文动词后面紧接着插入中文字“得”(在中文句子中表示动词的程度的中文字);并且该模块将程度补语的中文译词紧跟在“得”字之后;
第三特定翻译模块(503)通过特定句子元素的链接指针和辨别因子来检查中文译词中是否存在作为句子元素的结果补语;如果存在,则特定句子元素的链接指针和辨别因子检查结果补语是否伴随着原始英语句子翻译出的中文动词;如果是,该模块在翻译出的中文动词后面紧接着插入结果补语的中文译词;
第四特定翻译模块(504)通过特定句子元素的链接指针和辨别因子检查原始的英语句子结构是否是“be+过去分词”;如果是,该模块通过特定句子元素的链接指针和辨别因子检查原始英语句子翻译出的中文动词是否支配生物/事物的动作或对其产生影响;如果是,则将中文字“被”加在翻译出的中文动词前面;接下来,该模块通过特定句子元素的链接指针和辨别因子根据中文语法重新检查英语介词(其紧跟在英语动词后面)的中文译词——该中文译词是否适合翻译出的中文动词;因为英语介词的中文译词在中文语法中具有一些特殊的翻译状况;接下来,该模块根据中文语言的词序规则重新构造中文译词;
第五特定翻译模块(505)通过特定句子元素的链接指针和辨别因子检查原始的英语句子是否是形容词短语句子;如果是,则该模块通过特定句子元素的链接指针和辨别因子删除原始英语单词“be”的中文译词,然后根据中文语言的词序规则重新构造中文译词;
词库中的每个英语单词具有与词素单位(共同特征)、基本句子元素(共同特征)、调节性句子元素(独立特征)、特定句子元素(独立特征)相关的数据;尤其是特定句子元素在第一、第二、第三词典数据库中标有辨别因子;辨别因子检查英语单词中的特定句子元素的信息,并在特定翻译模块中通过特定句子元素的链接指针来激活;
辨别因子和特定句子元素的链接指针将与其链接的英语单词指派给将原始英语句子翻译成正确、自然的中文译句的第一至第五特定翻译模块;
词库的第一词典数据库存储了常见字词的信息;
词库的第二、第三词典数据库存储了复合词、习惯用语、俗语的信息;第四词典数据库存储了术语的信息。
2.如权利要求1所述的自动翻译器,其包括:词库(100)中的4个词典数据库;其以字母顺序排列并记录了英语单词和中文译词的全部信息;尤其是第一、第二、第三词典数据库记录了与英语单词和中文字词两方面的特定句子元素的字词数据有关的全部信息;
通过词库(100),使用与装置(500)链接的特定句子元素的链接指针来检查每个中文译词和原始英语句子的每个单词;
通过词库(100),特定句子元素的链接指针检查每个翻译出的中文动词和原始英语句子的每个动词是否标有离合词的辨别因子;如果标有,则特定句子元素的链接指针和该离合词辨别因子检查原始的英语句子是否是过去时态;同时,其检查原始的英语句子是否具有频率副词;这是第一特定翻译模块(501)的过程;
通过该词库(100),特定句子元素的链接指针检查每个中文译词和每个输入的原始英语单词是否标有程度补语的辨别因子;如果标有,则特定句子元素的链接指针和该辨别因子检查该中文译词(程度补语)是否伴随原始英语句子翻译出的中文动词;这是第二特定翻译模块(502)的过程;通过该词库(100),特定句子元素的链接指针检查每个中文译词和每个输入的原始英语单词是否标有结果补语的辨别因子;如果标有,则特定句子元素的链接指针和该辨别因子检查该中文译词(结果补语)是否伴随原始英语句子翻译出的中文动词;这是第三特定翻译模块(503)的过程;
通过该词库(100),特定句子元素的链接指针检查中文译词和原始英语单词是否标有被动语态的辨别因子;结果是肯定的,特定句子元素的链接指针和该辨别因子检查原始英语句子翻译出的中文动词是否支配生物/事物的动作或对其产生影响;并且其检查紧跟在英语动词后面的英语介词的中文译词在中文语言中是否正确;这是第四特定翻译模块(504)的过程;通过该词库(100),特定句子元素的链接指针检查每个翻译出的中文短语和每个原始英语短语是否标有“be+形容词”的辨别因子;如果是,则特定句子元素的链接指针和该辨别因子删除原始英语单词“be”的中文译词,然后根据中文语言的词序规则重新构造中文译词;这是第五特定翻译模块(505)的过程。
3.一种用于编写自动翻译方法的记录媒体,其由以下各项所组成:
(1)词库(100):其具有4个对应的词典数据库;每个数据库均以字母顺序排列,并且根据英语和中文语言的词典编辑系统记录了英语单词和中文译词的全部信息;
(2)装置(200):其将输入的原始句子的单词分析成词素单位;
(3)装置(300):其针对包含词性的基本句子元素排列(200)的结果,并且根据词典数据库将原始的英语单词翻译成中文的字词;
(4)装置(400)——调节性翻译模块:其检查在(300)的结果中是否存在复合词、习惯用语、俗语;如果存在,则该装置将它们的基本句子元素调节成调节性句子元素,如果需要,转换它们的词性(在该过程中,创建新转换的词类);并且该装置根据第一、第二、第三词典数据库将原始的英语单词翻译为中文字词;
(5)装置(500)——特定翻译模块:其检查(300)的结果、(400)的结果,并通过特定句子元素的链接指针检查所输入的原始句子;如果两者之间存在链接数据,则该装置检查单词的数据是否标有辨别因子;如果是,则特定句子元素的链接指针和辨别因子指示单词应由5个(特殊)特定翻译模块之一来控制;该装置重新检查每个(特殊)特定翻译模块的结果并根据词典数据库重新排列中文译词和词序;
特定翻译模块的装置(500)具有5个(特殊)特定翻译模块(501-505),由特定句子元素的链接指针和辨别因子共同激活;通过该装置(500)的过程,根据词库将原始英语单词的数据翻译成正确、自然的中文字词;
(6)装置(600)——般翻译模块:其检查(500)的结果,并根据中文语法的特殊翻译状况删除最终中文译句中不需要的中文译词,并插入最终中文译句中需要的特殊中文字词;现在,该模块重新检查第二次翻译出的中文字词(其由特定翻译模块再次转换而来)是否与词库的词序规则有联系;如果是,该模块根据中文语言的词序规则重新构造第二次翻译出的中文字词的词序;
(7)装置(700):其输出完整的中文译句;
装置(500)——特定句子元素的链接指针与该装置链接——具有5个(特殊)特定翻译模块;
第一特定翻译模块(501)通过特定句子元素的链接指针与辨别因子检查原始英语句子翻译出的中文动词是否属于离合词;如果是属于离合词,该模块检查原始的英语句子是否是过去时态;如果检查结果是过去时态,则该模块在翻译出的中文动词的两个分开的字词之间插入“了”字;接下来,该模块检查原始的英语句子是否具有频率副词;如果具有,则该模块将英语频率副词的中文译词紧跟在“了”字的后面;如果原始的英语句子不是过去时态,则放置英语频率副词中文译词即可,不需要加“了”字;
第二特定翻译模块(502)通过特定句子元素的链接指针和辨别因子检查中文译词是否存在作为句子元素的程度补语;如果存在,则特定句子元素的链接指针和辨别因子检查程度补语是否伴随原始英语句子翻译出的中文动词;如果是,该模块将中文字“得”紧跟在翻译出的中文动词后面;并且该模块将程度补语的中文译词紧跟在“得”字之后;
第三特定翻译模块(503)通过特定句子元素的链接指针和辨别因子来检查中文译词中是否存在作为句子元素的结果补语;如果存在,则特定句子元素的链接指针和辨别因子检查结果补语是否伴随着原始英语句子翻译出的中文动词;如果是,则该模块在翻译出的中文动词后面紧接着插入结果补语的中文译词;
第四特定翻译模块(504)通过特定句子元素的链接指针和辨别因子检查原始的英语句子结构是否是“be+过去分词”;如果是,则该模块检查原始英语句子翻译出的中文动词是否支配生物/事物的动作或对其施加影响;如果是,则将中文字“被”(这个字在中文中表示被动语态)加在该翻译出的中文动词前面;现在,该模块通过特定句子元素的链接指针和辨别因子根据中文语法重新检查英语介词(其紧跟在英语动词后面)的中文译词——该中文译词是否适合翻译出的中文动词;因为英语介词的中文译词在中文语法中具有一些特殊的翻译状况;接下来,该模块根据中文语言的词序规则重新构造中文译词;
第五特定翻译模块(505)通过特定句子元素的链接指针和辨别因子检查原始的英语句子是否是形容词短语句子;如果是,则该模块删除原始英语单词“be”的中文译词,然后根据中文语言的词序规则重新构造中文译词;
词库中的每个英语单词具有与词素单位(共同特征)、基本句子元素(共同特征)、调节性句子元素(独立特征)、特定句子元素(独立特征)相关的数据;尤其是特定句子元素在第一、第二、第三词典数据库中标有辨别因子;辨别因子检查英语单词中的特定句子元素的信息,并在5个(特殊)特定翻译模块中通过特定句子元素的链接指针来激活;
辨别因子和特定句子元素的链接指针将与其链接的英语单词指派给将原始英语句子翻译成正确、自然的中文译句的第一至第五特定翻译模块;
词库的第一对应词典数据库存储了常见字词的信息;第二、第三词典数据库存储了复合词、习惯用语、俗语的信息;第四词典数据库存储了术语的信息。
4.如权利要求3所述的记录媒体,其包括:
词库(100),其以字母顺序排列并记录了英语单词和中文译词的全部信息;尤其是第一、第二、第三词典数据库记录了与英语单词和中文字词两方面的特定句子元素的字词数据有关的全部信息;
通过词库(100),在特定翻译模块(500)的过程中,使用与装置(500)链接的特定句子元素的链接指针来检查每个中文译词和原始英语句子的每个单词;
通过词库(100),特定句子元素的链接指针检查每个翻译出的中文动词和原始英语句子的每个动词是否标有离合词的辨别因子;如果标有,则特定句子元素的链接指针和该离合词辨别因子检查原始的英语句子是否是过去时态;同时,其检查原始的英语句子是否具有频率副词;这是第一特定翻译模块(501)的过程;
通过词库(100),特定句子元素的链接指针检查每个中文译词和每个输入的原始英语单词是否标有程度补语的辨别因子;如果标有,则特定句子元素的链接指针和该辨别因子检查该中文译词(程度补语)是否伴随原始英语句子翻译出的中文动词;这是第二特定翻译模块(502)的过程;通过词库(100),特定句子元素的链接指针检查每个中文译词和每个输入的英语单词是否标有结果补语的辨别因子;如果标有,则特定句子元素的链接指针和该辨别因子检查该中文译词(结果补语)是否伴随原始英语句子翻译出的中文动词;这是第三特定翻译模块(503)的过程;
通过词库(100),特定句子元素的链接指针检查中文译词和原始英语单词是否标有被动语态的辨别因子;结果是肯定的,特定句子元素的链接指针和该辨别因子检查原始英语句子翻译出的中文动词是否支配生物/事物的动作或对其产生影响;并且其检查紧跟在英语动词后面的英语介词的中文译词在中文语言中是否正确;这是第四特定翻译模块(504)的过程;
通过词库(100),特定句子元素的链接指针检查每个翻译出的中文短语和每个原始英语短语是否标有“be+形容词”的辨别因子;如果是,则特定句子元素的链接指针和该辨别因子删除原始英语单词“be”的中文译词,然后根据中文语言的词序规则重新构造中文译词;这是第五特定翻译模块(505)的过程。
5.一种自动翻译方法,其由以下各阶段所组成:
阶段(S100):具有词库;
阶段(S200):将所输入的原始句子的单词分析成词素单位;
阶段(S300):其针对包含词性的基本句子元素排列(200)的结果,并根据词典数据库将英语单词翻译成中文的字词;
阶段(S400):检查在(300)的结果中是否存在复合词、习惯用语、俗语;如果存在,则该装置(400)将它们的基本句子元素调节成调节性句子元素,如果需要,转换它们的词性(在该过程中,创建新转换的词类);并且该装置根据词典数据库将原始的英语单词翻译为中文字词;
阶段(S500):检查(300)的结果、(400)的结果,并通过特定句子元素的链接指针检查所输入的原始句子;如果两者之间存在链接数据,则该装置(500)检查单词的数据是否标有辨别因子;如果是,则特定句子元素的链接指针和辨别因子指示单词应由5个(特殊)特定翻译模块之一来控制;该装置重新检查每个(特殊)特定翻译模块的结果并根据中文语言的词序规则重新排列中文译词和词序;
阶段(S600):检查(500)的结果,并根据中文语法的特殊翻译状况删除最终中文译句中不需要的中文译词,并插入最终中文译句中需要的特殊中文字词;并且该阶段重新检查第二次翻译出的中文字词(其由特定翻译模块再次转换而来)是否与词库的词序规则有联系;如果是,该阶段根据中文语法的词序规则重新构造第二次翻译出的中文字词的词序;
阶段(S700):输出完整的中文译句;
并且阶段(S500)由以下各阶段所组成:
阶段(S501):特定句子元素的链接指针和辨别因子检查原始英语句子翻译出的中文动词是否属于离合词——中文语法中的一种动词;如果是属于离合词,则第一特定翻译模块检查原始的英语句子是否是过去时态;
结果是过去时态,第一特定翻译模块在翻译出的中文动词的两个分开的字词之间插入“了”字(该中文字表示句子是过去时态);接下来,第一特定翻译模块通过特定句子元素的链接指针和辨别因子检查原始的英语句子是否具有频率副词;如果具有,则该模块将英语频率副词的中文译词紧跟在“了”字的后面;如果英语句子不是过去时态,则放置英语频率副词的中文译词即可,不需要加“了”字;
阶段(S502):如果检查发现中文译词是程度补语,则第二特定翻译模块通过特定句子元素的链接指针和辨别因子检查该程度补语是否伴随着原始英语句子翻译出的中文动词;如果是,则该模块将中文字“得”紧跟在翻译出的中文动词后面;并且该模块将程度补语的中文译词紧跟在“得”字之后;
阶段(S503):如果检查发现中文译词是结果补语,则第三特定翻译模块通过特定句子元素的链接指针和辨别因子检查该结果补语是否伴随着原始英语句子翻译出的中文动词;如果是,则该模块在翻译出的中文动词后面紧接着插入结果补语的中文译词;
阶段(S504):特定句子元素的链接指针和辨别因子检查原始的英语句子结构是否是“be+过去分词”;如果是,则第四特定翻译模块检查原始英语句子翻译出的中文动词是否支配生物/事物的动作或对其施加影响;如果是,则在该翻译出的中文动词前面加上中文字“被”(这个字在中文中表示被动语态);接下来,该模块根据中文语法重新检查英语介词(其紧跟在英语动词的后面)的中文译词——该中文译词是否适合翻译出的中文动词;因为英语介词的中文译词在中文语法中具有一些特殊的翻译状况;接下来,该模块根据中文语言的词序规则重新构造中文译词;
阶段(S505):特定句子元素的链接指针和辨别因子检查原始的英语句子是否是形容词短语句子;如果是,则第五特定翻译模块删除原始英语单词“be”的中文译词,然后根据中文语言的词序规则重新构造中文译词;
在装置的阶段(S500)中,特定句子元素的链接指针、辨别因子和每个特定翻译模块是三位一体的。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020040000801 | 2004-01-06 | ||
KR10-2004-0000801A KR100502460B1 (ko) | 2003-05-16 | 2004-01-06 | 자동번역기, 그 자동번역기를 이용한 자동번역방법 및 그자동번역기가 기록된 기록매체 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1910574A true CN1910574A (zh) | 2007-02-07 |
Family
ID=36869784
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA200580002031XA Pending CN1910574A (zh) | 2004-01-06 | 2005-01-03 | 自动翻译器及其方法和用于编写该方法的记录媒体 |
Country Status (7)
Country | Link |
---|---|
US (1) | US20070150256A1 (zh) |
JP (1) | JP2007518164A (zh) |
CN (1) | CN1910574A (zh) |
AU (1) | AU2005203870A1 (zh) |
CA (1) | CA2552622A1 (zh) |
GB (1) | GB2425384A (zh) |
WO (1) | WO2005065061A2 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009103208A1 (zh) * | 2008-02-18 | 2009-08-27 | Liu Shugen | 语句构件装置和母语读外文并生成世界文及文本转换方法 |
CN103544274A (zh) * | 2013-10-21 | 2014-01-29 | 王冠 | 一种韩语文章汉字显现系统及其方法 |
CN105512106A (zh) * | 2015-12-09 | 2016-04-20 | 江苏科技大学 | 一种汉语离合词的自动识别方法 |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102388383A (zh) * | 2006-12-08 | 2012-03-21 | 帕特里克·J·霍尔 | 在线计算机辅助翻译 |
KR101023209B1 (ko) * | 2008-10-13 | 2011-03-18 | 한국전자통신연구원 | 문서 번역 장치 및 그 방법 |
KR20120017861A (ko) * | 2010-08-20 | 2012-02-29 | 윤혁희 | 영어 색깔 학습법 |
JP5697202B2 (ja) | 2011-03-08 | 2015-04-08 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 用語の対応を見出す方法、プログラム及びシステム |
US9591052B2 (en) | 2013-02-05 | 2017-03-07 | Apple Inc. | System and method for providing a content distribution network with data quality monitoring and management |
CN103793378B (zh) * | 2014-01-20 | 2017-05-10 | 中国建设银行股份有限公司 | 一种翻译方法和装置 |
CN113761848A (zh) * | 2014-07-25 | 2021-12-07 | 北京三星通信技术研究有限公司 | 文本编辑方法和装置 |
KR102407630B1 (ko) * | 2015-09-08 | 2022-06-10 | 삼성전자주식회사 | 서버, 사용자 단말 및 이들의 제어 방법. |
KR101834436B1 (ko) | 2016-07-13 | 2018-03-05 | 김태완 | 텍스트 생성 방법 및 장치 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6014615A (en) * | 1994-08-16 | 2000-01-11 | International Business Machines Corporaiton | System and method for processing morphological and syntactical analyses of inputted Chinese language phrases |
US5893133A (en) * | 1995-08-16 | 1999-04-06 | International Business Machines Corporation | Keyboard for a system and method for processing Chinese language text |
US6067520A (en) * | 1995-12-29 | 2000-05-23 | Lee And Li | System and method of recognizing continuous mandarin speech utilizing chinese hidden markou models |
US5963893A (en) * | 1996-06-28 | 1999-10-05 | Microsoft Corporation | Identification of words in Japanese text by a computer system |
US6341372B1 (en) * | 1997-05-01 | 2002-01-22 | William E. Datig | Universal machine translator of arbitrary languages |
JP2000298667A (ja) * | 1999-04-15 | 2000-10-24 | Matsushita Electric Ind Co Ltd | 構文情報による漢字変換装置 |
KR100327114B1 (ko) * | 1999-12-23 | 2002-03-13 | 오길록 | 문장골격을 기반으로 한 자동번역 시스템 및 그 방법 |
KR20020002527A (ko) * | 2000-06-30 | 2002-01-10 | 조용환 | 실시간 다 국어 다중 번역 대화 장치 및 그 방법 |
KR100481453B1 (ko) * | 2002-11-13 | 2005-04-07 | 한국전자통신연구원 | 동사구 패턴 기반 한중 자동 번역 시스템의 '하다' 동사의번역장치 및 방법 |
-
2005
- 2005-01-03 AU AU2005203870A patent/AU2005203870A1/en not_active Abandoned
- 2005-01-03 CN CNA200580002031XA patent/CN1910574A/zh active Pending
- 2005-01-03 JP JP2006546858A patent/JP2007518164A/ja active Pending
- 2005-01-03 WO PCT/KR2005/000065 patent/WO2005065061A2/en active Application Filing
- 2005-01-03 CA CA002552622A patent/CA2552622A1/en not_active Abandoned
- 2005-01-03 US US10/597,016 patent/US20070150256A1/en not_active Abandoned
- 2005-01-03 GB GB0613032A patent/GB2425384A/en not_active Withdrawn
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009103208A1 (zh) * | 2008-02-18 | 2009-08-27 | Liu Shugen | 语句构件装置和母语读外文并生成世界文及文本转换方法 |
CN102007490B (zh) * | 2008-02-18 | 2016-09-21 | 刘树根 | 语句构件制作方法和母语读外文并生成世界文方法 |
CN103544274A (zh) * | 2013-10-21 | 2014-01-29 | 王冠 | 一种韩语文章汉字显现系统及其方法 |
CN103544274B (zh) * | 2013-10-21 | 2019-11-05 | 王冠 | 一种韩语文章汉字显现系统及其方法 |
CN105512106A (zh) * | 2015-12-09 | 2016-04-20 | 江苏科技大学 | 一种汉语离合词的自动识别方法 |
CN105512106B (zh) * | 2015-12-09 | 2018-04-06 | 江苏科技大学 | 一种汉语离合词的自动识别方法 |
Also Published As
Publication number | Publication date |
---|---|
AU2005203870A1 (en) | 2005-07-21 |
JP2007518164A (ja) | 2007-07-05 |
US20070150256A1 (en) | 2007-06-28 |
GB2425384A (en) | 2006-10-25 |
CA2552622A1 (en) | 2005-07-21 |
WO2005065061A2 (en) | 2005-07-21 |
GB0613032D0 (en) | 2006-08-23 |
WO2005065061A3 (en) | 2005-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1205572C (zh) | 对拼写、打字和转换错误具有容错能力的将一种文本形式转换为另一种文本形式的语言输入体系结构 | |
CN1834955A (zh) | 多语种翻译存储器、翻译方法以及翻译程序 | |
CN1892643A (zh) | 通过执行语言间的翻译来支持交流的交流支持装置和方法 | |
CN1503161A (zh) | 获悉词组之间的转换关系的统计方法和装置 | |
CN1770107A (zh) | 提取小树转换对 | |
CN1869976A (zh) | 通过执行不同语言之间的翻译来支持交流的装置和方法 | |
CN1871597A (zh) | 利用一套消歧技术处理文本的系统和方法 | |
CN1113305C (zh) | 语言处理装置和方法 | |
CN1319836A (zh) | 转换表达方式的方法和装置 | |
CN1841367A (zh) | 用于通过在语言之间执行翻译来支持交流的交流支持设备和方法 | |
CN1542649A (zh) | 自然语言生成系统中用于句子实现中排序的成分结构的语言信息统计模型 | |
CN1471029A (zh) | 自动检测文件中搭配错误的系统和方法 | |
CN1578954A (zh) | 机器翻译 | |
CN1465018A (zh) | 机器翻译技术 | |
CN1652107A (zh) | 语言变换规则产生装置、语言变换装置及程序记录媒体 | |
CN1625739A (zh) | 内容转换方法和装置 | |
CN1490744A (zh) | 检索确认句的方法和系统 | |
CN1172994A (zh) | 文件检索系统 | |
CN1842767A (zh) | 用于多个异常处理模型的中间表示 | |
CN1910574A (zh) | 自动翻译器及其方法和用于编写该方法的记录媒体 | |
KR101797125B1 (ko) | 다국어 사업 표시 큐레이션 및 음역 합성 | |
CN1894688A (zh) | 对译判断装置、方法及程序 | |
JP2010061645A (ja) | フレーズベースの統計的機械翻訳方法及びシステム | |
CN1415096A (zh) | 语言翻译系统 | |
CN1494713A (zh) | 用于访问信息系统的自然语言查询系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20070207 |