CN1008016B

CN1008016B - 输入处理系统

Info

Publication number: CN1008016B
Application number: CN86105459A
Authority: CN
Inventors: 齐藤裕美; 武田公人; 河田勉; 中里茂美; 楠元达治
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1985-08-01
Filing date: 1986-07-31
Publication date: 1990-05-16
Also published as: JPH0433069B2; KR870002521A; US4777600A; JPS6231467A; CN86105459A; KR900005899B1

Abstract

输入处理系统输入含有日文汉字字符和对应语音数据的字符数据串。输入装置依次输入语音数据和语句结束数据。转换部分包括转换处理器，语法分析器和优先权等级变换器。转换处理器在预先确定的转换单元中依次转换字符串数据。语法分析器按照语句结束数据对由字符串数据组成的语句进行语法分析。根据语法分析的结果，优先权变换器更改对应相同语音数据的转换可能性的优先权等级，按需要更改已选择出来的可能性。

Description

本发明涉及一种用于把包括日文汉字的串式数据输入到一个计算机系统或一个文字处理机中的输入处理系统。本发明特别涉及一种采用以语音数据输入日文汉字，并且把该语音数据转换成对应的日文汉字字符以便得到所需要的日文汉字字符的方案的输入处理系统。在该系统中，从语音数据转换成对应的日文汉字字符时把一个恰当的单词（或一个词组）从许多同音异义词中选择出来，因此简化了输入操作。

近来日文文字处理机在日本国内的使用者、在国外的日本人以及学习日语的外国人中非常普及。在用于日文文字处理机的传统输入处理系统中，构成含有日文汉字的句子、词组或从句的语音数据以音词、从句或成套从句为单元输入，并被转换成既含有日文汉字（用于书面日文的表意符号）又含有假名（仅用于书面日文的日文语音字符）的字符串。假名字符分为平假名字符和片假名字符，它们根据日文的习惯进行适当的选用。因为这些假名字符就是语音符号，所以它们直接对应语音数据。日文汉字字符来源于中国。通常用含有日文汉字字符和假名字符的字符串来书写日文的句子、词组或从句。语音数据是通过表示日文语音符号的假名字符或字母字符输入的。在从语音数据转换成含有日文汉字字符和假名字符的字符串时，对一个作为转换数据库的假名-日文汉字转换词典进行检索。这个词典是一个用语音数据作为关键字去检索日文汉字字符串或含有日文汉字字符和假名字符的字符串的数据库。

因为日本语言中有许多同音异义词，所以在假名-日文汉字转换时经常会列出多种转换的可能性或可供选择的转换结果。在传统的系统中，如果出现多种转换的可能性，操作员要操作一个用来开关在所要选择的转换可能性之中一个接一个地进行可能性显示的键。也就是说，通过操作另一个转换可能性键在多种可能性之中去显示恰当的单词或词组。当显示出恰当的可能性时，这种可能性就被选择为转换的结果。

但是，对同音异义词的选择操作是既麻烦又费时的。在传统的系统中，连续地检测同音异义词之前的选用频率，而且根据频率的次序来确定转换可能性的优先级次序。对于具有相同组合的同音异义词，那个在先前的操作中被最频繁地选用的单词或词组被显示为第一转换可能性。在另一种传统的系统中，如果相同的单词在同一个句子里频繁重复，那个刚刚在先前选用的单词或词组或者最后一次选用的单词或词组被显示为第一转换可能性。

这些系统大大地减轻了操作负担，特别是大大地减少了在选择同音异义词时的击键次数。

然而，不同意义的同音异义词经常会出现在同一个句子里。按照上述频率检测的方案，虽然要选用的是具有最低选用频率的转换可能性，但是具有较高选用频率的转换可能性也要经过选择。按照后一种转换可能性选择方案，每当出现对应的语音数据时，就必须进行同音异义词的选择。上述的执行过程引起了使用上的不方便。

或许可能把机器翻译技术的语法分析引进用于选择同音异义词的输入处理中。但是，因为语法分析仅在句子单元中执行，所以它不能用于在单词单元或从句单元中把假名符号转换成日文汉字符号的输入处理系统。

还有一种也可用于日文文字处理机的经过改进的传统输入处理系统。按照这种系统，未分段的语音数据输入到该系统中，在该系统中分段，并且顺序地经过假名-日文汉字转换处理。然而实际上，由于在该系统中以组合形式能够处理的数据数目的限度，因而限制了通过单一操作周期输入的构成语音数据的字符的数目。按照另一种系统，通过该系统自动地从句子的始端以单词或从句为单元测定语音数据的分段，在被测定的分段单元中进行假名-日文汉字的转换。

即使输入的是一个句子，这个句子也被分段成单词或从句，然后再把它们从假名字符转换成日文汉字字符。因此，完整句子的语法分析不能用于这些传统的输入处理系统。

此外，为便于进行语法分析，一个句子必须完整地输入。如果句子没有完整地输入，就不能得到转换的结果。从句子的输入开始以后到得到转换的结果需要一段很长的时间。如果一个文件边起草边输入语音数据，已经输入的数据（对应其转换结果尚未显示出来的部分）就不能被检测。

本发明的一个目的是提供一种输入处理系统，在该系统中可以选择一个有意义的单词或词组作为一种具有较高优先级的转换可能性，不需要延长为得到从语音数据到日文汉字字符转换结果所需的时间和（或）不需要增加用于转换处理所需的数据区，以及在该系统中可以简化选择同音异义词的操作。

为了达到本发明的上述目的，本发明提供一种根据对应的语音数据输入含有日文汉字字符的字符串数据的输入处理系统，该系统包括：用于输入语音数据和表示句子结束的句子结束数据的输入装置;转换处理器，该转换处理器用于在预定的转换单元中把由输入装置输入的语音数据顺序地转换成字符串数据，如果有多种转换的可能性则在预定的转换单元中按照预定的优先级次序选择具有最高优先级的字符串数据，并且得到含有日文汉字字符并且对应语音数据的字符串数据;

用于对应来自输入装置的句子结束数据分析来自能转换处理器的字符串数据中语法关系的语法分析器;用于改变对应转换处理器中同音异义词数据的多种转换可能性的优先级次序的优先级次序变更器，该优先级次序变更器还用于根据已经改变的优先级次序来改变对字符串数据的选择;以及用于顺序显示来自转换处理器的字符串输入的输出装置。

按照本发明的输入处理系统，语音数据在预定的转换单元中转换成日文汉字字符，并根据出现频率数据和最后一次选用数据显示在萤光屏上。既不会延迟转换结果显示，又不用增加系统中的处理数据区。并且当输入句子结束数据时，就对已经转换的句子进行语法分析。选择地显示的转换可能性（即：同音异义词）的优先级次序根据分析结果而改变。尤其是，作为分析的结果那些与其它单词的语义关系（即：从语义观点来看表示紧密联系的关系）不明确的转换可能性的优先级次序被降低。如果一种转换可能性（其与句子中其它单词的语法关系不明确）已经显示了，它会被另一个较高优先级次序的存储有与其它单词语义关系的转换可能性取代。可以有效地减少显示毫无意义同音异义词的概率。因此，可以减少用于同音异义词选择的击键次数，以便改善输入句子或类似内容时的操作性能。

附图的简要说明：

图1是方框图，表示根据本发明一种实施方案的输入处理系统示意图;

图2是表示图1所示系统中词典存储器内容的一个表;

图3是表示图1所示系统中转换控制器控制序列的流程图;

图4A-图6用来说明图1所示系统的输入处理。

图1中示出了根据本发明的一种实施方案用于日文文字处理机输入装置的输入处理系统。

输入装置1包括一个字母数字键盘。语音数据在装置上输入。在这种实施方案中语音数据是以字母形式在装置1上输入的。但是，假名键盘也可以用来构成输入装置1，以便输入语音数据。用另一种方法，装置1可以具有语言识别功能，这样就能通过语言输入来输入语音数据，字母语音数据直接对应日文中的假名字符。句子结束数据和转换单元结束数据也在输入装置1上输入。通过句号键或括号键输入句子结束数据。转换单元结束数据则是来自一个预定的功能键的键控输入。

通过输入装置1输入的语音数据存储在作为缓冲存储器的输入存储器2中，并且从存储器2传送到转换控制器3。在控制器3的控制下语音数据以预定的处理单元进行分段，例如以单词单元或以从句单元。被分段的数据接着进行假名-日文汉字转换处理。（在这种情况下，字母语音数据转换成日文汉字字符。这种语音数据直接对应假名字符，可以立即根据一个预定的转换表转换成假名数据。从语音数据到日文汉字字符的转换在下文中统称为假名-日文汉字转换）。

转换处理器4把词典数据用于假名-日文汉字转换，并对预定处理单元形式的输入语音数据产生假名-日文汉字转换结果。如果多个同音异义词，即转换可能性，对应同一个语音数据，处理器4选择具有最高优先级的作为转换结果，这个最高优先级是由不断变化和存入优先级信息存储器6中的出现频率数据和（或）最后一次选用的数据来确定的。

假名-日文汉字转换处理包括词尾变化和修饰语检测操作。根据假名-日文汉字转换处理结果，不断地修正存储在优先级信息存储器6中的频率数据和（或）最后一次选用的数据。

顺序转换的含有日文汉字字符和假名字符的字符串存入作为缓冲存储器的输出存储器7中。存储在存储器7中的数据在具有显示功能的输出装置8上显示出来。

当表示句子结束，如句号等句子结束数据在输入装置1上输入时，转换控制器3就开始语法分析。分析存储在输出存储器7中的由转换可能性串组成的一个句子数据，并检验转换可能性之间的语义关系（从语义观点来看的紧密关系）。如果一种表示多个同音异义词（还有其它转换可能性）的转换可能性与其它单词没有语义关系，则因为这种转换可能性不适当而降低其优先级次序。因此，另一个转换可能性，即一种与其它单词具有语义关系的可能性被选用为对应语音数据的转换结果。最后一次转换结果存入存储器7中以便修正先前的转换结果。

词典存储器5是一个数据库，用于存储以假名字符和日文汉字字符混合的字符串形式的转换可能性数据，以便对应每一个语音数据、词类数据、分类码数据和语义关系数据。

对应语音数据及其词类的字符串具有与传统转换处理系统中相同的词典数据格式-以从句单元的形式。

分类码和语义关系用于上述的语法分析。分类码用来对单词的特征从语义观点上进行简单的分类。例如，表示“自然人”的名词分类为a，表示“组织机构或法人团体”的名词分类为b，表示“车辆”的名词分类为c，表示“地点”、的名词分类为d，动词则由分类码s来表示。语义关系涉及动词的主语和宾语。因此，每一条语法关系都表示一个动词与一个具有给定分类码和给定命题词功能（Kakujoshi）的名词之间的关系作为对主要单词的补充。（以下称为命题词。）

参见图2，语音数据“Kisha”存储在地址P11中。字符串K11（它表示“贵公司”）与“Kisha”对应。这个单词是个名词，分类码为b，没有存储的语义关系，语音数据“Kisha”还存储在地址P12中。字符串K12（它表示“记者”）与地址P12中的“Kisha”对应。这个单词是个名词，分类码为a，没有存储的语义关系。语音数据“Kisha”还存储在地址P13中。字符串K13（它表示“火车”）与地址P13中的“Kisha”对应，这个单词是个名词。分类码为c，没有存储的语义关系。语音数据“toukyou”存储在地址P21中。字符串K21（它表示东京-日本的首都）与地址P21中的语音数据对应。这个单词是个专有名词，分类码为d，没有存储的语义关系。语音数据“nasshasuru”存储在地址P31中。字符串K31（它表示“起动”）与“nasshasuru”对应。这个单词是个动词，分类码为s，有存储的语义关系R31，即“（a/c）从（d）起动。语音数据“noumonsuru”存储在地址P41中。字符串K41（它表示“访问”）与“noumousuru”对应。这个单词是个动词，分类码为s，有存储的语义关系R41，即“（a）访问（a/b/d）”。

例如，由R31给定了用于动词“nasshasuru”字符串K31的语义关系，因此得到：“一辆车或一个人”从“一个地点”起动。

以下将参见图3中的流程图详细说明转换控制器3的操作。

如果转换控制器3接收到来自输入装置1的语音数据（步长100），输入的数据被栈入到输入存储器2（步长102）。

转换控制器3接着判定该语音数据是否表示代表句子结束的句号或括号？该语音数据是否表示转换单元结束数据？该语音数据是否表示仅仅代表语音信息的字母字符数据？（步长104和106）。

如果该输入数据是表示语音信息的字母字符代码，流程就返回到步长100。下一个数据输入（步长100），并接着栈入到输入存储器2（步长102）中。

如果该输入数据是表示句号或其它符号的句子结束数据，或是表示通过操作预定的功能键输入的转换单元结束数据，就对已经层叠到输入存储器2的语音数据串执行假名-日文汉字转换处理（步长108）。这个处理是通过向转换处理器提供语音数据串来执行的。

如果是由存取词典存储器5输入字符串而使转换处理4得到转换可能性，则转换控制器3将根据储存在优先权信息存储器6（步长110）中的优先权信息选择出一种可能性。对于具有多个转换可能性的情况，则类似于同音异义词，转换可能性的选择乃是借助于向转换处理器发出指令来实现的。具有最高优先级的转换可能性是由处理器4按照出现频率数据和最后一次的选择数据来进行选择的。选定的转换可能性是对应输入语音数据的转换结果。

这个转换结果被送到输出存储器7并在输出设备8上显示出来（步长112）。

在预先确定的处理单元中完成了假名-日文汉字（Kana-Kanji）的转换处理之后，转换结果被存在输出存储器7中，转换控制器3擦掉储存在输入存储器2中的语音数据串（步长114），同时为下一个语音数据输入作好准备。

转换控制器3或者确定上述转换的输入数据串的最后一次的输入数据是代表完全停止的语句结束数据或者确定相类同的内容（步长120）。如果确定最后一次输入数据为转换单元的分段数据，则以上操作将重复。在预先确定的转换单元中输入的语音数据串再次受到假名-日文汉字转换的支配。然而，如果最后一次输入数据确定为语句结束数据（也就是完全停止），则将执行顺序的操作。必须指出的是，对于确定最后一次输入数据为语句结束数据乃是依靠检索标记来实现的，在步长104中，这个标记确定输入数据为语句结束数据。

如果最后一次输入数据为语句结束数据，而且如果至此已经检测出输入数据串的语句分段，则在预先确定的转换单元中的转换结果代表的一个语句数据存在输出存储器7中。转换控制器3读出这些被顺序存储在输出存储器7中的在转换单元中转换的转换结果，同时搜索语句的始端（步长122）。根据语句始端，指定在转换单元中的转换结果的分类码和语义关系，并由此进行语法分析（步长124）。

语法分析是这样进行的，那就是根据转换结果的语义关系，校验其它词的分类码，以确定连结条件是满足的。依靠语法分析，转换控制器3确定在输出存储器7中转换结果同其它的转换结果满足预先确定的语法关系。

如果发现不满足语义关系的转换可能性，则控制器3认定这是一个错误的可能性，并降低转换可能性的优先级。输出优先级结果的更换导致选择另一个转换可能性（也就是一个同音异义词）作为具有最高优先级的可能性。这种转换可能性的语义关系也按上述步骤进行校验。

一个同其它词满足语义关系的转换可能性能从多个同音异义词进行选择（步长126）。应该指出，具有最高优先级的同音异义词在满足语义关系的同音异义词中进行选择。

一种新的选择可能性，取代输出转换器7中相应不满足语义关系的转换结果。这样，在输出存储器7中只包括满足语义关系的转换结果的语句信息，这个语句数据校正后显示在输出装置8上（步长128）。

如果需要的话，对于具有多个转换可能性字符串的下一个转换可能性根据来自输入装置1的下一个转换可能性选择指令加以改变。然而，由于用上述处理方法可以消除具有不正确语言关系的转换可能性，通常能得到正确的转换结果。既然是这样，下一个操作就能启动。

参照图4至图6，详细描述用本系统进行处理的一个例子。

如果语音数据“Kisha-ga”和转换结束单元数据输入到输入装置1，语音数据加到转换处理器4，这样假名字符转到日文汉字字符。

既然是这样，则如图2所示，对语音数据“Kisha”存在着三种转换可能性，那就是K11，K12，和K13。

如果这些转换可能性储存在词典存储器5里，其中有一个具有最高的优先级。例如选用字符串K11（贵公司）为转换结果，其转换结果数据将储存在输出存储器7中，同时如图4A所示，在输出装置8上显示出来。

然后输入语音数据“toukyou-wo”并通知转换单元。因为只有一个字符串对应这语音数据，字符串K21被选作转换结果。所得转换结果存到输出存储器7，紧接上述的转换结果。因此，如图4B所示，一个包括一串K11和K21的字符串显示在输出装置8上。

再输入语音数据“noumonsuru”和语句结束数据，同语音数据“noumonsuru”相对应，得出字符串K41为转换结果。然后根据语句结束数据启动语法分析步骤。

为了进行语法分析，所有在转换单元中构成相应语句并储存在输出存储器7中的转换可能性统统从这里读出，并送到转换器3，以便校验每一个转换可能性的同音异义词，并按照分类码和语义关系校验转换可能性的语义连结关系。

读出输出存储器7就能得到如图5所示的转换可能性数据，在图5中，用标记“＃”和“＊”隔开的转换可能性K11到K13属于同音异义词。图6说明作为同音异义词的转换可能性与通过命题词相连接的其它的转换可能性之间的关系。

当按分类码和语义关系校验语义连结关系的正确性时，对字符串K41只给出语义连结关系：

“（a）ga（a/b/d）wo homonsuru”

那就是

（a）访问（a/b/d）

因此，

“（a）ga（K21）wo（K41）”

此外，因为（K11）具有分类码（b）

“（K11）ga（K21）wo（K41）”

上面不显示语义连结，而且是不恰当的。既然是这样，只有转换可能性K12具有分类码（a），而且只有它对K41才满足语义关系，那就是：

“（k12）ga（K21）wo（K41）”

转换可能性K11的输出优先级被降低，因此，校正转换结果选择转换可能性K12代替K11，结果得到如图4c所表示的转换结果。

根据语句结束数据分析已经转换的语句结构，人们将选择到满足预先确定的语义关系的转换可能性。

由于根据以出现频率数据或相类似的数据为基础的优先级信息选择并较正作为同音异义词的转换可能性，因此，能有效地获得正确的转换结果。对于同音异义词能够减少选择操作的次数，并能改善输入操作的有效性。此外，能高速度获得输入语音数据的转换结果。一旦输入语句，不正常的语义关系转换可能性能够得到校正或者消除，从而得到更正确的转换结果，由此进而简化文件起草的输入操作。

本发明并不局限于上述特定的实施例。

例如，用手动输入代替规定的转换单元，语音数据在系统预先确定的处理单元里可以自动地进行分段以及在预先确定的处理单元里须经假名-日文汉字转换处理。

本发明并不局限于对日本字的处理，而且能扩展到使用独特字符的汉字处理。本发明也可以用于含有日文汉字字符的日语或汉字处理系统，例如用于在日-英计算翻译系统或其它类似系统中用来输入数据的处理系统。

Claims

1、一个按字符串数据读音的相应语音数据输入包涵有汉字字符的字符串数据的输入数据处理系统，具有下列单元：输入装置，用于输入语音数据和代表一个语句结束的语句结束数据；存储装置，用于存储语音数据和与其读音相对应的包括汉字字符的至少一个单词；转换处理装置，接受从输入装置来的语音数据，用于在该存储装置中查找单词，并将语音数据的转换单元转换成包括汉字字符的词，如果具有多个转换可能性则按预先确定的优先级暂时对从语音数据转换单元的转换可能性作优先权等级处理；和输出装置，用于按顺序地显示具有最高优先权一个转换可能结果，其特征在于：

存储装置进一步存储有语义数据，用来表示存储在那里的词之间的正确语义关系；及

该转换处理装置包括，

(a)语义分析装置，接收从输入装置来的语句结束数据，用于提取一个句子暂时转换的字符串数据，该句子是由包括多个转换单元的句子结束数据确定的，对每一个具有多个转换可能性的转换单元进行分析它们在这样句子中间的语义关系；及

(b)优先级变更装置，用于将一个词的转换可能性的暂时确定的优先的变更到更高的优先级，该词在此句子中相对其它所有单词具有语义上的正确的内在关系。

2、按照权利要求1的一个系统，其特征为语义分析装置检测到句子中转换单元的转换可能性与该句中其它词的语义关系不明确，优先级变更装置将这一转换可能性的暂定优先级别降低。

3、根据权利要求1的系统，其特征为，转换处理装置用语音数据查询存储装置将输入的语音数据分为词或分句单元，而将语音数据转换为包括汉字字符的字符串。

4、根据权利要求I的系统，其特征为：输入装置对转换处理装置提供一个句号或一个括号作为语句结束数据。

5、根据权利要求1的系统，其特征为，输入装置对转换处理装置提供按字母排列的字符串，作为表示字符读音的语音数据。

6、根据权利要求1的系统，其特征为，输入装置对转换处理装置提供一个日语假各字符串，作为表示字符串读音的语音字数据。

7、根据权利要求1的系统，其特征为，输入装置包括用于输入语音数据的键盘。

8、根据权利要求1的系统，其特征为，转换处理装置对相应的作为对相同语音的最后转换结果一个确定的词的可能转换给出最高优先级。

9、根据权利要求1的系统，存储装置存储每次作为语音数据读音转换结果的确定单词，并按次确定同音异义词的预定优先级。

10、根据权利要求1的系统，其特征为：转换处理装置将日语读音的语音数据转换为包括汉字字符的日语字符串数据。

11、根据权利要求1的系统，其特征为，转换处理装置将汉语读音的语音数据转换为包括汉字字符的汉语字符串数据。

12、根据权利要求1的系统，其特征为，输入装置包括输入变更转换可能数据的装置，以指示转换处理装置显示输入语音数据转换单元的另一个转换可能，以替换该转换单元原先显示的转换可能;及转换处理装置，响应变更转换可能数据，使输出装置显示另一个转换可能，替代当前显示的下一个优先级的转换可能。