CN1156287A

CN1156287A - 机器翻译用中文生成装置

Info

Publication number: CN1156287A
Application number: CN 96112514
Authority: CN
Inventors: 郭俊桔
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1995-09-11
Filing date: 1996-09-05
Publication date: 1997-08-06
Anticipated expiration: 2016-09-05
Also published as: CN1120439C; JPH0981568A

Abstract

本发明提供一种机器翻译用中文生成装置。它的前处理部，在语句结构中添加主语属性的空节点；基本句型部存储有动词细分类码和对应的基本句型结构；基本要素展开部生成基本语句结构；语句要素信息部存储有修饰语的格标识等以及与之对应的句首表层符号等；自由要素展开部，生成自由要素；特殊句型生成部生成特殊句型；要素位置调整部检查和调整要素排列顺序；后处理部生成辅助要素和标点符号。

Description

机器翻译用中文生成装置

本发明与机器翻译有关，特别是与利用文意与构文信息进行机器翻译的中文生成装置有关。

(下面就日翻中、(中翻日)的机器翻译技术用语的定义和汉语的文法等进行说明)

本发明申请与机器翻译用的中文生成装置有关，但现在在日本，对中文并不十分熟悉，而且机器翻译这项技术是一个特殊的技术领域。因此，在说明本发明申请有关的现有技术和实施例等之前，有必要在最小限度下，包括间接有关的领域，说明涉及关连文献和本发明的主旨的日翻中、(中翻日)的机器翻译，并对用语的意义或定义等加以描述。(因而，严格来说，还有关于本发明的主旨的描述，不是纯粹的“先有技术”的描述。)

(关连文献)

1.关于汉语

相浦呆著“汉语入门”日本广播协会会刊等。

2.关于机器翻译

牧野武则著“机器翻译导论” 欧姆公司出版

长尾真主编“机器翻译” 欧姆公司出版

3.关于日翻中(中翻日)的机器翻译

(1)特开平3-102568号“从日语到汉语的机器翻译”

(2)特开平3-20295号“机器翻译装置”，此外，还有特开昭61-077639号等。

4.术语的意义或定义等

文法分析、语音结构等中的树形结构、各种节点：

在树形结构中，每个单位，亦即一个单位就是一个节点。此外，当一个节点之下还连接着其它的节点时，那么上层的节点叫作父节点，下层节点叫作子节点。

下面，说明本发明使用的各种“节点”

动词节点，指具有动词属性的节点。

形容词节点，指具有形容词属性的节点。

叶节点，指不具有子节点的节点。

主语属性零节点，指具有主语属性的零节点。

所谓零节点，是为了便于处理而添加的节点。

此外，若所处理的节点的格的属性为主语属性，则叫做主语属性节点。

其次，对树形结构，按它的性质“从下到上”、“从左到右”进行处理。

例如，图16中所示的树形结构，按d，e，b，f，c，a的顺序进行处理。

此外，在本发明中，着眼于动词和形容词在汉语的语法及文法分析中起着重要的作用。并且，这时，将树形结构用于分析。

依存结构：

指在构成语句的各要素(形态要素)之间的主要素(argument)和修饰语(modifier)之间的关系。在依存结构的图中，通常在主要素之下配置修饰语，根据修饰语的主格、宾格、场所格等格标识表示二者间的关系。例如，“他患感冒”的语句结构如图17(a)所示，它的依存结构示于17(b)中。

由本图可知，由于只将必要的节点表示在依存结构中，因而结构简单，当进行中间变换处理时，只要输入依存结构，该处理所需的必要规则数目便很少，并且编辑等也很容易。为此，在转换式的机器翻译系统中，它的输入、输出结构一般就是“依存结构”。(参见后述的“先有的技术”以及图11)

表层符号，特别是本发明中的母语表层符号，句首表层符号，句尾表层符号的处理：日语的助词是一种功能词。换言之，虽然看起来是相同的助词，但是，根据语句不同，其功能也不同。例如，对于“ご”，既有“手ごつかむ”等的工具格，也有“大阪ご会う”等的地点格。因此，“ご”被叫作表层符号，而语句中的“ご”的意义则称为深层符号。换言之，一个表层符号可具有不同的含意。因此，在进行日语等自然语言的处理时，必须决定“ご”等表层符号的真实含义。

“句首表层符号”在本发明中指中文的前置词。通常，放在前置词句的句首，因此，称为句首表层符号。

“句尾表层符号”：在汉语中，若某个名词具有地点格时，其地点格可按照诸如“里”、“上”、“下”、“左”、“右”等来表示各种地点格。并且，这些字通常被放在前置词句的句尾。因此，本发明中称它们为文尾表层符号。

中文生成的自由元素的位置、空隙和空隙位：

所谓空隙，就是孔洞的意思。对中文的语句(句型)加以分析，可分为基本要素和自由要素。当决定了主语、动词等基本要素的位置之后，在基本要素和基本要素之间，就可设置叫作空隙的空间，并且，这些空隙就是放置自由要素的位置。若以主语、动词和宾语构成的SVO句型为例，可有如下所示的(1)～(4)的四个空隙的位置。

(1)S(2)V(3)O(4)

在本发明中，也着眼于这些空隙的形成规则。

连词修饰词及连词：

它们相当于日语的助词。与多个单词构成另一个单词的例如“日本晴れ”、“藤の间”等的日语的文法用言的连词不同。可参见前面提到的“特开平3-102568号”或“特开昭61-077639号”

形态因素：

它是有意义的最小单位。例如汉语中的“他”等字或“老师”等单词。

时间副词：

它是具有时间性的副词或名词。例如“今天”“昨天”等。

汉语的助动词：

例如“能”、“可以”、“要”等词。它的语法作用和英语的助动词相同。本发明中，把日语的句子(句型)中的助动词和它的意义作为检索关键字，参照“日汉助动词对照表”来检索出对应的汉语助动词。例如，日语的助动词“たい”的意义是“希望”。因而，对应于“たい”的汉语助动词就是“想”。此外，“想”在句型中的位置是空隙2。

接续词：

在汉语中它们是“和”、“或”、“及”等，分别与“と、and”，“しかし、but”，“と、and”相当。

动词和形容词：

活用等细节是不同的，但日语和汉语的意义大致相同。指示代名词和助数词等也一样。

标题(TOPIC)

在汉语中，进行特别强调时，将某个字或某个单词放在句子的开头。这个字或词被叫作“标题”。

汉语中的特殊句型的属性值：

汉语有许多特殊句型。这些特殊句型，由构成句子的要素来决定。例如“把”句、“被”句、“使”句等。如对“把”句加以说明，在汉语中，若及物动词有两个宾语(直接宾语，间接宾语)时，自然会形成“把”句。例如“把书放在车子里”就比“放书在车子里”更加自然。(在后述实施例中，根据动词的属性SENATTR存储产生的上述哪种句型。)

汉语中的“被”句、“把”句：

在汉语中，“被”句通常是指被动句。这就是日语中的“被动句”或“利害被动句”。汉语中，“把”句中通常使用双重及物动词，并且具有直接宾语和间接宾语。一般在直接宾语之前放置“把”字，并将它移动到动词之前。

本发明着眼于上述特殊句型的规则。

双重及物动词：

汉语中的双宾动词，就是英语中的双重及物动词(能够具有二个宾语的及物动词)，和He gave me a car(SVOO)中的与“gave”相当的类似的动词。

使役句：

使他人进行某个动作的内容的语句。此外，在汉语中，可以用“给”字来生成使役句。

例如：老师“给”他吃饭。(先生让他吃饭)

被动句：

即日本的“被动文”。通常汉语中用“被”字来表示。

汉语的表语：

相当于日语的目的语。

(本来的先有技术)

以下把本来这个词换一个说法，说明纯粹的先有的技术。

在技术急剧进步的今天，为了不落后于时代，必须不断地吸收知识和信息。但是，在交通和通信很发达的基础上，应当吸收的知识绝不仅仅局限于国内，也从国外大量输入。在这样的情况下，多数人对外语并不那么娴熟，加之作为信息来源的外国语种类很多，翻译就变得很重要。并且，为了提高翻译的效率，使其质量和速度得以提高，就要把手工作业改由机器来进行，也就是说，已经进入了必须考虑机器翻译系统的时代。但是，就机器翻译的方式而言，按照语言翻译的特性，可分为直接方式、中间转换方式、核心语言方式(PIVOT)等。其中，正如已经说明过的，为了能用较少的转换规则便可达到目的，通常多采用“中间转换方式”。

采用上述中间转换方式的机器翻译装置，如图13所示，大致由下述四个部分构成：

(1)源语言(已被输入并被翻译为外国语的语言)分析部

(2)中间结构转换部

(3)目的语言(被翻译并输出的语言)生成部

(4)参照用字典、辞典

一般来说，应当简化源语言的数据结构，使全部能够处理的信息转换为一种简单的中间结构，例如依存结构(dependencystructure)，进而获得目的语言。

但是，由于这个内容是例如由本申请人另外在上述特开平3-202954号中公开的所谓众所周知的技术，因而不再加以说明。

在这样的情况下，机器翻译的质量好坏，正如我们已说明过了一部分，它们由下述因素决定：即对源语言分析部所输入的语句是如何正确地进行分析的、在中间结构转换部中是怎样解除源语言(本说明书中为日语)和目的语言(本说明书中为汉语)之间的差异的，(例如，解除构句和语义之间的差异，或者正确地选择译语等)，以及在目的语言生成部怎样遵循目的语言的生成文法规则，正确地生成目的语言等。

尤其是在汉语中，一个词在句子中所处的位置至关重要，而翻译装置很难把握它们，基于此种特性，对上述各种处理是好是坏关系极大。

也就是说，如果某个单词在句中的位置不同，这个句子的意义便会大相径庭。例如，“在桌子上”这个短语在句子中的位置不同，“他*在桌子上*跳(他正在书桌上跳。)”和“他跳*在桌子上*(他跳到了桌子上。)”，其意义全然不同。

此外，某个字(若为汉语，原则上即汉字)，单词一定按某个顺序进行排列，若不这样，便会形成一个病句。例如，正如下面所述，时间词(表示时间的单词。以下对“场所词”“工具词”等也按类似的意义使用。但是，“主语”等文法用语当然不受此限。)一定要放在表示地点的场所词之前。

正确的汉语句子：他*昨天**在学校*吃饭。(他昨天在学校吃过饭。)

错误的汉语句子：他*在学校**昨天*吃饭。

但是，有时却与此相反，某个特定的、或者是确定的字、单词的排列其顺序却很自由。例如，如下所示，时间词放在主语的前后均可。

时间词放于主语之前：昨天他去学校。(他昨天去过学校。)

时间词放于主语之后：他昨天去学校。

工具词+场所词：他*借着公司的力量*在社会*打拼(他凭借公司的力量在社会上奋斗。)

场所词+工具词：他*在社会**借着公司的力量*打拼。

从上述例子可知，对目的语言为汉语的机器翻译来说，句中的字、词的排列、顺序等的决定是极其重要的问题。

作为现有的生成汉语的翻译装置，例如有特开平3-102568号公报中所示的装置。该装置的构成如图14所示。该图中，10是日语输入装置，当从日语处理机利用“平假名”，“片假名”或者“罗马字”等的读音符号输入日文时，参照后面说明的日语文字字型文件11和日语词汇文件18和英字母/数字/符号文字字型文件15，将输入的读音符号变换为假名和汉字混合的句子。11是日文文字字型文件，它预先登录了作为关键字的文字代码以及和该代码对应的日语文字(汉字.假名)。15是英字母/数字/符号字型文件，它预先登录有作为检索关键字的文字码以及和它对应的英文字母、数字、符号。18是日语词汇文件，预先登录有作为检索关键字的汉字文字代码、假名文字代码和与它们对应的日语的字和词。20是译文选择学习装置，对已输入的日语文字，按音节分开后，去除连语修饰词。35是日语辞典文件，预先登录有日语中的字、句子的品词。30是日语品词添加装置，对删除了连词之后的日语句子，以句为单位，参照日语辞典文件，添加品词。40是品词排列变换装置，根据该装置内所存储之汉语语法，对添加过品词的日语句子，进行品词的排列变换。55是汉语知识数据库文件，预先登录有作为检索关键字的日语文字代码、日语文字、单词以及与它们对应的汉语文字代码、读音符号码，汉语文字及单词。50是从日文翻译为中文的翻译装置，它参照上述汉语知识数据库55，把输入的日语句子翻译为中文。60是中文文法调查装置，对每个从日译中的翻译装置送来的翻译过的中文句子，按照图15所示的中文构句规则进行构句分析。并且对符合构句规则的句子，添加中文语法要素。例如主语、状语等。此外，对不能分析的中文句子，先把它当作成语加以保存。70是中文语法变换装置，对经过构文分析的中文句子进行语法变换，进而作为成语输出。85是中文文字字型文件，预先登录有作为检索关键字的文字代码、读音符号以及与它们对应的汉字、单词等。80是中文输出装置，沿用了日语文字处理机，参照汉字字型文件85和英字母/数字/符号字符字型文字15，输出中文。

以下，说明先有例的动作。

从日语文字处理机用“平假名”输入了“わたしはしやんはいからぺきんまごひこうきにのつた”之后，使用日文字型文件11和日语语汇文件18，英字母/数字/符号字型文件15，由日文输入装置10，按下述形式，变换为日文的文书。

私は上海から北京まで飛行機に乗つた。

此后，进入译文选择学习装置进行处理。译文选择学习装置20，对上述日语文字进行音节划分，删除连语修饰词“は”和“に”。其结果变为：

私上海から北京まで飛行機乗つた。

此后，日语品词添加装置对每个单词，使用日语辞典文件35，添加品词。其结果成为：

私上海から北京まで飛行機乗つた。

其次，由品词排列变换装置，参照其自身所存储的语法规则，来使之与中文语法中品词的排列相吻合。例如，对日语中为“名词+助词”的场合，作为对应的中文，重排为“助词+名词”。其处理结果由以下所示。

名词格助词名词副助词名词名词动词

私から上海まご北京 -飛行機乘つた。

然后，由译为中文的翻译装置50，以日语的形态因素作为检索关键字，参照汉语知识数据库55，对每一形态因素检索出中文的译文，将它替换掉上述日文中的形态因素。其结果为如下形式：

我从上海到北京飞机坐了

对其审查之后，由中文语法调查装置60，遵循图15中所示的中文构文规则，对输入语句中的中文的每一形态因素添加语法功能的名称(如主语、状语等)。以上的处理结果如下所示：(语法功能名称)主语地点修饰语宾语动词

我从上海到北京飞机坐了

然后，由中文语法变换装置70，参照所存储的日语和汉语之间的语法差异，进行变换。

例如，在日语为“宾语(如同既述的那样，即日语的目的语)+动词”的场合，汉语中必须调整为“动词+宾语”这种形式。按照此规则进行变换之后，结果为：(语法功能名称)主语地点修饰语动词宾语

我从上海到北京坐了飞机

最后，进行中文输出装置80的处理。为了在日语的文字处理机上来显示中文，必须用中文文字码作为检索关键字，参照中文文字字型文件85，输出对应的中文。对上述中文文字码用中文来输出时成为：

“我从上海到北京坐了飞机”

但是，在这种与先有技术有关的装置中，存在着下述问题。

1.这类装置要根据汉语语法的构句规则来决定中文句子中的各形态因素的位置。因此，若某个构文规则未预先加以定义，就不能生成相应于该规则的中文语句(句型)。结果便不能决定形态因素的位置。例如，图15中所示的一般构句中，由于状语(地点修饰语)放置在主语和动词之间，在上述例文的情形，就不能生成“我从上海坐了飞机到北京”这样高质量的中文句子。为此就要收集一个可称为完全(完备)的构句规则，因而必须投入庞大的开发费用和工时(人力)。

2.当生成中文句子时，只利用了构句信息。因此，当符合多个构句规则时，就很难选择出最贴切的译文。因此在这样的情形，也就很难生成高质量的中文语句。例如，状语要根据动词的词义的类别，有时放在动词之前(例如动词“读”“教”等)，有时又要放在动词之后(例如动词“放”、“储存”等)。因此，若没有按动词的意义进行分类的数据资料，就不能生成正确的中文句子。具体地，如下述括号中的情形。*书被放“在车子里”。(书被放在车内。)

(错误：书“在车子里”被放)*他“在车子里”读书。(他在车内读书。)

(错误：他读书“在车子里”)

3.随着中文构句规则数的增加，生成中文语句的时间也会更长，因此，翻译系统的效率将会降低。

因此，希望能实现一种没有上述问题的翻译用中文生成装置。本发明的目的正是为了解决上述课题。

为了解决上述课题，在权利要求1的发明中，是一种将对日语等源语言的语句进行语言分析、中间转换而得到的中文的依存结构转换为中文语句的机器翻译用的中文生成装置。它的特征在于，具有下述部分：基本句型部，它预先登录有对应于汉语动词的各细分类码和与该码对应的汉语基本句型结构(以可利用和参照的形式进行存储)；语句要素信息部，它预先登录有修饰语的格标识，源语言的表层符号、意义支配码、意义码和与它们对应的汉语句首表层符号，句尾表层符号，空隙位置等要素信息；构文要素顺序部，该部预先登录有能放置自由要素的空隙位置以及与之对应的构文要素的顺序限制；语句结构生成部，对输入的中文的依存结构，检出省略了主语的动词、形容词，在该语句的结构上添加主语属性零节点之后，根据作为依存结构中的主要素的动词或者形容词的动词细分类码(也适用于形容词)，参照上述的基本句型部，取出对应的基本句型，从而生成中文的词句结构；自由要素生成部，对上述中文的依存结构，除基本要素之外，对每一种其它的语句要素，根据格标识、源语言表层符号、意义支配码等，从上述语句要素信息部中取出对应的中文句首表层符号，句尾表层符号，空隙位置，并进而参照此取出的空隙位置，在语句结构中的对应位置生成自由要素之后，参照各动词、形容词的特殊句型的属性值，对每一个语句结构，生成特殊句型；语句生成部，该部从前述的构文要素顺序部中按顺序取出各空隙中的构文要素顺序限制，按规定的步骤检查对应于上述语句结构的空隙要素的配置顺序是否合适，如果不合适，则对之进行调整后，把语句结构作为一个语句序列进行线性化，生成中文语句。

在权利要求2的发明中，其特征是，上述语句结构生成部具有前处理装置和基本要素展开装置，前处理装置对输入的中文的依存结构检出省略了主语的动词和形容词，并对该语句结构添加主语属性零节点；基本要素展开装置根据上述依存结构中的主要素的动词细分类码参照基本句型部取出对应的基本句型，并生成中文的基本句型结构；上述自由要素生成部具有自由要素生成装置和特殊句型生成装置，自由要素生成装置对于上述依存结构，除了基本要素之外，还对其它要素，按各要素根据格标志、源语言表层符号、意义支配码和意义码等，从上述语句要素信息部提取出对应的中文句型表层符号、句尾表层符号和空隙位置并参照这些提取出的空隙位置，在语句结构的相应位置生成自由要素，特殊句型生成装置对于由上述自由要素展开装置生成的语句结构，参照各动词、形容词的特殊句型的属性值，对每一个语句结构生成特殊句型；上述语句生成部具有要素位置调整装置和后处理装置，要素调整装置从构句要素顺序部顺序取出各构句要素的顺序限制，检查并调整对应于上述语句结构的空隙要素配置顺序，后处理装置将语句结构线性化，并获得流畅的中文语句。

根据上述结构，在权利要求1的发明中，通过本装置的制造者的手，参照辞书等，预先将汉语动词的各细分类码以及与之相对应的汉语基本句型结构登录到基本句型部中。预先将修饰语的格标识、源语言表层符号、意义支配码、意义码以及对应于它们的汉语的句首表层符号、句尾表层符号、空隙位置等登录到语句要素信息部中。同样，预先将对应于空隙位置的构义要素的顺序限制登录到构文要素顺序部中。语句结构生成部对所输入的中文的依存结构，参照内藏的辞典等，检出省略了主语的动词、形容词，在相应的语句结构中添加主语属性零节点之后，根据依存结构中的主要素的动词细分类码，参照前述的基本句型部，取出对应的基本句型，生成中文的语句结构。自由要素生成部对上述的依存结构，除了基本要素之外，还对其它语句要素，按各语句要素根据格标志、源语言表层符号、意义支配码、意义码等，从前述的语句要素信息部取出对应的中文句首表层符号、句末表层符号、空隙位置，并进而参照取出的空隙位置，在语句结构的对应位置处，生成自由要素之后，参照各动词、形容词的特殊句型的属性值，对每一个语句结构生成特殊句型。语句生成部从前述构句要素顺序部顺序取出各空隙中的构句要素顺序限制，检查上述语句结构对应的空隙要素排列顺序，若有必要，还要进行置换调整，然后将语句结构加以线性化，也就是按照人阅读的形式，将各单词进行直线状的正确排列，从而得到中文语句。

在权利要求2的发明中，上述语句结构生成部具有前处理装置和基本要素展开装置。前处理装置对已输入的中文的依存结构，检出省略了主语的动词、形容词，并对该语句结构添加主语属性零节点。基本要素展开装置，根据依存结构中的主要素(动词或形容词)的动词细分类码，参照前述的基本句型部，取出对应的基本句型，生成中文的基本语句结构。前述自由要素生成部具有自由要素展开装置和特殊句型生成装置。自由要素展开装置对上述的中文的依存构造，除基本要素之外，对每一种要素，根据格标志、源语言表层符号、意义支配码、意义码等，从上述语句要素信息存储部取出对应的中文句首表层符号、句尾表层符号及空隙位置，进而参照已取出的空隙位置，在语句结构的对应位置生成自由要素。特殊句型生成装置对由前述自由要素展开装置所生成的语句结构，参照各动词、形容词的特殊句型的属性值，对每一语句结构，生成特殊句型。前述语句生成部由要素位置调整装置和后处理装置构成。要素位置调整装置从构句要素顺序部中顺序取出各构句要素顺序限制，检查并调整对应于上述语句结构的空隙的要素排列顺序。后处理装置将语句结构线性化，得到适合于人们阅读的最终的中文语句。

以下，根据实施例对本发明加以说明。

在用机器翻译进行中文生成时，为了使必要的构句规则数最少，首先，着眼于汉语的以下特性。

(1)如前所述的那样，由于可以由动词决定或影响句型(因而也就决定了语句结构)，所以，根据动词的细分类，决定包含该动词的基本句型。关于这方面的情况，例如可参考“Longman英文辞典(Longman Dictionary of Contemporary English，LongmanGroup Limited，1978年”等)辞典的动词分类码(例如tl、di等)或“K.J.Chen等人的下述论文：A Classification of Chinese verbsfor Language Parsing”，Procoeding of International Conferenceof Chinese and Oriental Language”，(P414-417，(Toronto)，1988)等。

本实施例所使用的动词细分类码、对应的基本句型及其例句被示于图8中。汉语语句的主要素是动词和形容词。并且，所有的形容词作为动词细分类码(VC，动词分类)给定“I1”。基于动词，例如在汉语中，“说”的细分类码是“I3”和“T1”。据此，参照图8，可得到基本句型“S+V+CN”和“S+V+O”。例如，“我说老师来了”和“我说故事”是“说”的基本句型。并且语句要素S(主语、前述的汉语的例文中的“我”)、V(动词，前述例文中的“说”)、CN(叙述形容词、前述中的“老师来了”)和O(间接宾语、前述的“故事”)就是动词“说”的基本要素。也就是说，上述各要素是无论如何也必须存在的必不可缺的要素。假若没有上述某个要素，这个语句的意义便不完整(不明了)。例如、“我说”(S+V)就不是一个完整的汉语语句。

此外，在图8的例句中，I1的第2例句的意义是“他漂亮”(注，“漂亮”是形容词)，T2的例句的意义是“他砍了敌人一刀。”、D2的例句的意义是“他向弟弟赠送了玩具车。”

(2)除了基本句型的要素外，其它要素的语句中的生成位置，要根据自身的格(对语句中的动词，单词具有什么作用？)标识、自身的意义和意义支配码(在依存构造中，该主要素(主元)的动词或形容词的意义)，在上述必须要素之间的一个或多个位置生成。此处，将这些要素称为自由要素。并且，如上所述，将放置它们的位置叫作空隙位置。例如，时间副词可以放在第1或第2空隙处。在本实施例中，把可以生成自由要素的位置分为以下所示的四个空隙。

(1)+主语+(2)+动词+(3)+宾语(O，Oi，Od，C，CN)+(4)

此处，上式中用括号括住的数字表示空隙的位置，数字表示空隙的编号，宾语后的括号内的记号表示形成宾语，“O”表一般的宾语，“Oi”表间接宾语，“Od”表直接宾语，“C”表补语，“CN”表叙述补语。

自由要素的生成位置的例子示于图9中。

(3)除了位于每个空隙的时间要素受到限制之外，各自由要素的配置位置基本上没有什么限制。此外，作为时间要素的限制，例如，第2个空隙的时间格必须放在地点格之前。本实施例的各空隙的要素的顺序的限制示于图10中。

其次，关于“词义”，这是指形态因素自身的意义(或者叫意义码)。在以下所示的实施例中，采用了日本角川书店出版的类语字典(1985年)中所给出的意义分类方法。按该意义分类法，对大分类(第1位)，中分类(第2位)，小分类(第3位)，细分类(第4位)的4级使用由十六进制数构成的四位数进行分类，示出了一个形态因素的所有信息。这个类语字典将所有的形态因素分为“自然”、“性状”、“变动”、“行动”、“心情”、“人物”、“性向”、“社会”、“学艺”、“品物”的十大分类，此外，对每个大分类又分为十个中分类。本实施例中，在这个四位数之前加上S表示如下的意义。

SO(“自然”类)

SO2(属于“自然”类的“气象”)

SO28(属于“气象”类的“风”)

SO28a(属于“风”类的“强弱”)

这样的层次性的分类码，高位的意义码的意义范围比低位的范围更广。也就是说，位数越低，其意义码的意义范围越狭。因此，根据实际需要，若利用低位的意义码就可以了，那就不必预先将不必要的低位意义码一一进行登录，从而可节省内存。此外，由于该意义码用数字表示，因而可对之进行数字运算，例如可作逻辑与运算、字串的对比(对两个字串的匹配运算)等，根据意义分类码选择和转换译文等时，不仅可以用计算机进行简单的处理(参照前已公开的特原开平3-202954号)，而且还可以获得从意义码产生的更有价值的信息。另外，有关意义码的详细说明，由于在特开平3-202954中同样进行了公开，因而在此省略。

图1是本发明的一个实施例的结构图。

图2是上述实施例中的前处理部的动作流程图。

图3是上述实施例中的基本要素展开部的动作流程图。

图4是上述实施例的自由要素展开部的动作流程图。

图5是上述实施例中的特殊句型生成部的动作流程图。

图6是上述实施例中的要素位置调整部的动作流程图。

图7是上述实施例的后处理部的结构示意图。

图8是上述实施例中的基本句型部的存储着的数据结构的示意图。

图9是上述实施例的语句要素信息部的存储着的数据结构的示意图。

图10是上述实施例的构句要素顺序部所存储的数据结构的示意图。

图11是上述实施例的处理内容，以一个具体的例子来加以表示的一张图的前半部分。(注：在输入时分开了)

图12是对上述实施例的处理内容，以一个具体的例子来进行表示，这是表示图的后半部分。

图13表示一般的中间结构方式中的机器翻译装置的翻译处理过程的系统框图。

图14是先有例的系统方框图。

图15是先有例的中文构句规则示意图。

图16是为了说明“从下到上”，“从左到右”这一树型结构处理顺序的示意图。

图17是以日文语句为例来说明语句结构和依存结构的示意图。

图1中，各部件说明如下：

100 输入部

200 前处理部

300 基本要素展开部

350 基本句型部

400 自由要素展开部

450 语句要素信息部

500 特殊句型部

600 要素位置调整部

650 构文要素顺序部

700 后处理部

800 输出部

图1是本实施例的机器翻译用的中文生成装置的构成图。本图中100是输入部。200是前处理部。300是基本要素展开部。350是基本句型部。400是自由要素展开部。450是语句要素信息部。500是特殊句型生成部。600是要素位置调整部。650是构句要素顺序部。700是后处理部。800是输出部。除上述之外，带有日语、汉语意义码的参照用辞典、译文转换部、各种逻辑运算部、显示部、打印部等与机器翻译装置的本体部可说是连接成一个整体，这是不言自明的，另外，由于与本发明申请的主旨没有直接的关系，因而省略了它们的图示等。

以下，就上述各部的作用、构成等加以说明。

从输入部100输入中文的依存结构。对需要处理的日语语句进行日语的各种分析和中间结构转换(日文→中文)之后，例如，可得到图11(a)内所示的中文依存结构，这就完成了输入。本图中，例如在语句主语“我”的左边所添加的“LEX”表示这个“我”是一个形态因素，其下部的小的“S501”就是已说明过的意义码。此外的“放”的下面所添加的“VC：T1”表示作为细分类码的VC就是T1。“DETERMINATIVE”表示指示代名词。图11(a)中的“放”是主要素，右边方框内的“N”表示它是名词。前处理部200对已省略主语的中文依存结构，添加带有主语属性的零节点。关于其处理步骤，后面再根据图2进行详细说明。在基本句型部350中预先登录有作为检索关键字的动词细分类码和与之对应的中文基本句型，可以在生成汉语句子时加以利用。其构造由图8表示。根据本图，例如动词“笑”，属于动词分类码的“I2”，基本句型为“S+V”，作为例句可以确认“他笑”这一句子。基本要素展开部300参照以中文依存构造中的主要素(动词、形容词)的动词细分类码作为检索关键字的基本句型存储部350，来生成基本语句结构。关于其处理流程，后面根据图3进行详细说明。语句要素信息部450中预先登录有作为检索关键字的修饰语格标识、源语言表层符号、意义码、意义支配码(该动词的意义码)以及与之对应的句首表层符号，句尾表层符号，空隙位置等，当然它们是以在生成中文语句时可以加以利用的状态进行存储。其构造如图9所示。根据该图，例如可以看出前面列举的例句“他*昨日**在学校*吃饭”的“在”字的格标识是“LOCATION”。此外，同样，还可以看出“我从上海到北京飞机坐了”的“从”和“到”的格标识分别为“STATE_FROM”和“LOC_TO”。进而，还可得知意义码被意义支配码所使用。自由要素展开部400中，对基本要素以外的语句要素，它以格标识、意义码及意义支配码、源语言表层符号等作为检索关键字，参照上述语句要素信息部450，在上述的基本语句结构中展开自由要素。关于其动作，后面将按图4加以详细说明。特殊句型生成部500参照动词、形容词的特殊句型的属性，对每一个语句结构，分别生成其特殊句型。例如，生成“被”(bei)句，“把”(ba)句等特殊句。关于其动作，也按后面的图5进行详细说明。构句要素顺序部650预先登录有关于构句要素的顺序限制的规则。其结构示于图10。要素位置调整部600根据上述构句要素顺序部650中所预先登录的限制，调整构句结构中的自由要素的排列顺序。后处理部700对语句结构添加若干的辅助要素(例如接续词)和标点符号之后，将该语句结构线性化并向输出部800输出。关于其动作的流程，也在后面根据图7加以详细说明。输出部800具有监视器等。就上述各部的动作流程进行说明。

首先，根据图2来说明前处理部200的动作流程。

(S210步)从输入部100，输入中文的依存结构。

(S220步)已经说明过按从下向上，从左到右的顺序，取出未处理的动词节点、形容词节点。

(S230步)判断取出是否成功。若不成功，结束处理。若成功，则转到(S240步)。

(S240步)判断该节点的修饰短语(modifier)中是否存在主语。若存在，则返回(S220步)。若不存在，则转到(S250步)。

(S250步)对该修饰短语中添加带有主语属性的零节点。

下面，根据图3，对基本要素展开部300的动作流程进行说明。

(S310步)从前处理部300接受中文的依存结构，并将所接收的依存结构存储于缓冲区中。

(S320步)按从下到上，从左到右的顺序，从依存结构中取出未处理的动词节点、形容词节点。

(S330步)判断取出是否成功。若不成功，结束处理。如果成功，转到(S340步)，

(S340步)取出该节点的动词的细分类码。

(S350步)以该分类码作为检索关键字，从基本句型部检出基本句型，并将该检出的基本句型存储于缓冲区内。然后，转到(S360步)。

(S360步)参照缓冲区内存储的基本句型，生成基本语句结构，并与关连节点的属性一起进行存储。然后，返回(S320步)。

下面，根据图4说明自由要素展开部400的动作流程。

(S410步)从基本要素展开部300发送构文结构。

(S420步)按从下到上，从左到右的顺序从构句结构中取出未处理的语句结构。

(S430步)判断取出是否成功。若不成功，结束处理。若成功，则转到(S440步)。

(S440步)以相应的语句结构中的动词、形容词作为检索关键字，参照存储在缓冲区内的依存结构，检索出该动词、形容词所对应的依存结构。并将该检索的依存结构存储于缓冲区内。

(S450步)参照上述缓冲区内所存储的依存结构，取出未处理的自由要素。

(S460步)判断取出是否成功。若不成功，转(S465步)。若成功，则转到(S470步)。

(S465步)把原处理中的语句结构置换为处理终了的语句结构。然后，转到(S420步)。

(S470步)把自由要素的格标识和日语的表层符号、意义码、意义支配码作为检索关键字来检索语句要素信息部450，查找出中文的句首表层符号、句尾表层符号和生成的空隙位置。

(S480步)参照句首表层符号、句尾表层符号和场所后置词，生成PP句(Preposition phrase前置短语)。此后，转到(S490步)。

(S490步)参照空隙位置，将上述PP句生成到语句结构中。然后，返回上述(S450步)。

下面根据图5说明特殊句型生成部500的动作流程。

(S570步)根据自由要素展开部400输入构文结构。

(S520步)按从下到上，从左到右的顺序，取出未处理的语句结构，然后转到(S530步)。

(S530步)判断取出是否成功。若不成功，结束处理。若成功，则转到(S540步)。

(S540步)根据中文的构文规则(亦即，在宾语之后出现前置词短语或者如副词等其它要素)，判断是否为“把”(ba)句。若为“把”句(ba)，则转到(S545步)。若非“把”句，则转到(S550步)。

(S545步)在空隙2中生成“把”(ba)短语。

(S550步)判断是否为使役句或被动句。若为使役句或被动句，则转到(S555步)。若既非使役句也非被动句，则转到(S560步)。

(S555步)在空隙2内生成“使役句”或“被动句”。然后，进入(S560步)。

(S560步)判断是否为否定句。若为否定句，则转到(S565步)。若为肯定句，则转到(S570步)。

(S565步)在空隙2内，生成如“不”，“没有”(“没有”之义)等的否定助词节点。

(S570步)判断有无未处理的其它要素(例如助动词等)。若有，则转到(S575步)。若没有，则返回(S520步)。

(S575步)在对应的空隙中生成其它要素的节点之后，返回(S520步)。

其次，根据图6来说明要素位置调整部600的动作流程。

(S610步)根据特殊句型生成部500接收构文结构。

(S620步)按从下到上，从左到右的顺序取出未处理语句结构之后，转到(S630步)。

(S630步)判断取出是否成功。若不成功，结束处理。若成功则转到(S640步)。

(S640步)将未处理的语句结构存储于缓冲区中。

(S650步)变量i赋初值1。然后，进入(S660步)。

(S660步)参照缓冲区内存储的语句结构，将第i个空隙中的全部要素取出，作为ES集合(一个缓冲区的名字。并且，这个英语没有特别的含义)。

(S665步)判断ES集合中的要素数是否为0或1。若为0或1，则转到(S690步)。否则，就转到(S670步)。

(S670步)以i作为检索关键字，参照构文要素顺序部650，检出构文顺序限制，把它作为SSLS集合(构文要素顺序存储部。此外，这个英文没有特别的含义)。

(S680步)参照图10中所示的SSLS的限制条件，在生成语句中的每一个空隙，对它的要素的顺序和空隙的要素顺序限制，进行匹配运算。在同格要素存在的情形，根据限制条件的排列顺序，置换为处理中的空隙的要素顺序。

(此处由于较难理解，因此再举其它例文加以说明。对“他在学校*昨天＇玩”这个句子，空隙2的要素排列顺序是：“LOC(场所)+TIME(时间)”。进行上述匹配运算，成为“TIME，LOC”。因此，使用第一条件“TIME+LOC”，置换生成语句的空隙要素顺序。其结果成为“TIME+LOC”。这时，生成文变为“他昨天在学校玩”。

(S685步)把缓冲区内存储的语句结构的第i个空隙的要素集合置换为ES。此后，进入(S690)。

(S690步)变量i加1。

(S950步)判断i是否大于4。当i＞4不成立时，返回上述(S660步)。若成立，则返回上述(S620步)。

其次，后处理部700的动作流程示于图7中。

(S710步)输入由要素位置调整部生成的语句结构。

(S720步)生成其它的辅助要素(例如疑问副词、语句连词等。)

(S730步)生成标点符号。

(S740步)将中文语句线性化。从左到右取出作为叶节点的中文要素。然后，进入(S750步)。

(S750步)将生成的中文句子送往输出部800之后，结束处理。

下面，以日翻中为例，对本实施例中的中文语句的生成动作加以具体说明。

图11(a)所示的“私は車の中にこの本を置いている。(我把这本书放到车内)”这一个日文句子相当的中文的依存结构，由输入部100进行输入，送到前处理部200。然后，由前处理部200以图2所说明的步骤进行处理。此外，在图11(a)中，主要素(主元)“放”的修饰语是“我”、“书”、“车子”。其格标识分别为“主格”、“宾格”、“地点”格。主要素(主元)“书”的修饰格为“这”，其格标识为指示格。进而，该依存结构中的主语没有省略，因此，可直接送到基本要素展开部300。在基本要素展开部300中，按图3中所说明过的步骤进行处理。通过图3中S340步中所示的处理从主要素的动词节点“放”的属性中取出动词的细分类码VC。此外，被取出的VC就是TI。把这个细分类码作为检索码，参照基本句型部350，得到中文的基本句型“S+V+O”。其次，参照所得的基本句型，生成中文的基本语句结构。该中文语句的基本语句结构示于图11(b)中。并且，此处图中的“NP”表示名词子句，“VF”表动词子句。

继而进入图4中所示的自由要素展开部400的处理，由自由要素展开部400，从依存结构中找出作为自由要素的“车子”。这个找到的节点的格标识(LOCATION)，如图9所示有两个候选。因此，用自由要素的格标识和日语的表层符号、意义码(S9970)和意义支配码(S3830)作为检索关键字，参照图9的语句要素信息部，对格标识进行匹配运算，从而检出可能候补。图9的“LOCATION”的场合，由于日语表层符号栏是空白栏，因此没有必要进行运算。因此，只要将意义支配码和意义码进行逻辑与运算。在运算结果的基础上，查找出最适当的候补。若这些候选有多个，就选择第1候选的句首表层符号、句末表层符号，空隙位置。其结果，获得了图9的最上栏的句首表层符号“在”和空隙位置“4”。根据上述，参照图11(b)中的语句结构，在空隙4的位置展开该自由要素之后，成为图12(c)所示的语句结构。

此后，进入图5的特殊语句生成部500的处理。由于语句结构中的宾语之后有PP子句，就必须生成“把”(ba)句。由特殊句型处理部的处理结果示于图12(d)。

进而转入图6所示的位置调整部600的处理。参照构文要素顺序部650，对每一个空隙，取出要素顺序限制。然后，对每一个空隙，利用比较和匹配，调整要素的排列顺序。本例中，如图12(d)所示，主语“我”的前面没有要素，同样地，由于动词“放”和宾语之间没有要素(真正的宾语移动到动词之前，在动词之后，存在一个宾语的空节点)，空隙1及空隙2中的要素数均分别为零，主语和动词之前有PP要素，由于空宾语之后还有PP要素，空隙1和空隙2中的要素数均分别为1，因而没有调整之必要。

继而，进入图7所示的后处理部700的处理。作为S720步的处理，生成指示代词“这”和助数词“本”。其语句结构如图12(c)所示。此后，生成标点符号“。”，语句结构进行线性化，亦即从左到右，检索出作为终端节点的中文形态因素。其结果，正确的译文“我把这本书放在车子里。”已被得到，而绝不会生成“我在车子里放这本书。”这样不自然的中文语句。最后，将翻译结果送到监视器，打印机等输出部800进行输出。

以上，根据实施例说明了本发明，但是，本发明不限于上述实施例。也就是说，在不改变其主旨的范围内，也可适当变形加以实施。例如：

(1)在进行制造时，将本发明的不可少的一个构造要素、从物理上、机械上多次使用，或者相反，将多个要素组成一个，进行适当的组合。

(2)在现有的装置内添加必要的硬件及软件，使之具有本发明的功能。

(3)源语言是英语等非日语语言。

(4)输入的语言结构不是依存结构，而是其它的构句结构，并以此为基础，生成中文语句。

如上所述，本发明的机器翻译用中文生成装置，完全解决了前述现存的诸问题。具体来说，得到了下列的效果。

(1)根据中文的动词细分类码，可以决定中文的基本句型。进而，由于导入了基本要素、自由要素、空隙位置等方式，从而可以减少中文语句的生成构句规则的数目。从而，可以比较容易地对中文的构成规则进行维护和管理。

(2)由于更进一步减少了系统规则数，所以，例如，很难同时发生能适用的多个规则数等竞争的问题。因此，可以有效地提高执行中文生成系统时的效率。

(3)由于同时使用中文的意义和构句的信息，因而能生成更接近实际、自然，而且高质量的中文。

由于以上诸项，本发明的实用效果非常大。

Claims

1.一种通过对源语言的语句进行语言分析、中间转换后获得其中文的依存结构，并将之转换为中文语句的机器翻译用的中文生成装置，其特征在于具有基本句型部、语句要素信息部、构句要素顺序部、语句结构生成部、自由要素生成部和语句生成部，基本句型部预先登录有中文各动词的细分类码以及与之对应的基本句型结构；语句要素信息部预先登录有修饰语的格标识、源语言的表层符号、意义支配码、意义码以及与之对应的中文句首表层符号、句尾表层符号、空隙位置等要素信息；构句要素顺序部预先登录有空隙位置以及与之对应的构文要素的顺序限制；语句结构生成部对输入的中文依存结构，检出省略了主语的动词、形容词，对该语句结构添加了主语属性的空节点之后，对依存结构中的由动词、形容词形成的主要素，根据动词的动词细分类码或形容词的模拟动词分类码，参照前述句型部，取出对应的基本句型，生成中文语句结构；自由要素生成部对于上述的依存结构，对基本要素之外的其它要素，也参照上述的语句要素信息部，对每一个要素，根据其格标识、源语言表层符号、意义支配码、意义码等取出对应的中文句首表层符号、句尾表层符号、空隙位置，并进而参照此取出的空隙位置，在语句结构的对应位置生成自由要素之后，参照各动词、形容词的特殊句型的属性值，对每一语句结构生成特殊句型；语句生成部从前述的构文要素顺序部，顺序取出各空隙中的构句要素顺序限制，检查并调整对应于上述语句结构的空隙要素配置顺序，然后使语句结构线性化，最后生成中文的语句。

2.根据权利要求1所述的机器翻译用的中文生成装置的特征在于：上述语句结构生成部具有前处理装置和基本要素展开装置，前处理装置对输入的中文的依存结构，检出省略了主语的动词和形容词，并对该语句结构添加主语属性的空节点，基本要素展开装置根据上述依存结构中的主要素的动词细分类码，参照前述基本句型部，取出对应的基本句型，生成中文的基本语句结构；上述自由要素生成部具有自由要素展开装置和特殊句型生成装置，上述自由要素展开装置对于上述依存结构，对基本要素之外的其它要素，也按每个要素根据格标识、源语言表层符号、意义支配码、意义码从上述语句要素信息部取出对应的中文句首表层符号、句尾表层符号、空隙位置等，参照该取出的空隙位置，在语句结构的对应位置生成自由要素；特殊句型生成装置对由前述自由要素展开装置生成的语句结构，参照各动词、形容词的特殊句型的属性值，对每一个语句结构生成特殊句型；上述语句生成部具有要素位置调整装置和后处理装置，要素位置调整装置从构句要素顺序部顺序取出各构句要素顺序限制，检查并调整对应于上述语句结构中的空隙的要素配置顺序；后处理装置对语句结构进行线性化，从而得到中文的语句。