CN1083234A

CN1083234A - 脉络会意法

Info

Publication number: CN1083234A
Application number: CN 93108698
Authority: CN
Inventors: 许闻廉
Original assignee: Individual
Current assignee: Individual
Priority date: 1993-07-23
Filing date: 1993-07-23
Publication date: 1994-03-02

Abstract

本发明乃相关于一种中文语言输入的脉络会意法，属中文信息输入与处理领域。它包含电脑装置、一注音输入装置、及储存在电脑的存贮器内的样板资料库，其中该样板资料库中储存了许多样板的基本形态。当使用者由注音输入装置输入同音字所构成的词句时，电脑即同时检索样板资料库中之样板形态，并确认每个音转字之正确性，以获得一个正确的词句，且当同音字彼此间发生抢字情形时，经由样板之前后所赋予的加权值，以决定何者为最适当之样板。

Description

本发明仍相关于一种中文语言输入方法，属中文信息输入与处理领域。本发明特别适合于处理电脑上的中文信息，如中文同音字的自动辨认;中文字转音及语音合成系统;语音辨认的后处理（音转字及容错系统）;光学符号读出器的后处理系统;各类字形输入法同码字的自动选取系统和中文句型剖析以及断词系统。

中文的自然语言在电脑处理上是相当复杂的。一般人在使用中文时相当的灵活，然而，中文文法所提供的讯息经常含混不清，例如石块和十块，因而造成了电脑处理上的莫大困扰。

中文字、词的使用在文法结构上不像英文那样有明显的标示，所以句型的分析单纯用语法成效不彰，必须借重上下文的语意分析，才能避免混淆。最明显的就是，人们在对话时需要靠上下文才能辨别同音字，这种情况由于潜意识已习以为常，我们反而不清楚自己的大脑是如何作这些辨认工作的。这也就造成了人工智能研究上的一大困扰。一般说来，上下文所提供的信息相当地多，而且经常有相互矛盾之处，所以如何能抽丝剥茧，去芜存菁，归纳出最合适的结论才是最重要的。但是语意分析牵涉甚广，所需的专业知识浩瀚无边，即令是一般常识，也有无从下手之感。因此，时下绝大部分的句型剖析系统都利用统计频率及语言结构的一般规则去作无意识的运算，以达成一种概括性的解决方法。如台湾松下电器公司的“汉音输入法”即采用“长辞优先、频率高低”此类方法。这种统计，在电脑处理上虽然不需要太多人力的辅助，然而其效果也相当有限，最糟糕的是很快就遇到瓶颈一经常会犯一些“无谓”的错误，且不能轻易修正。再者，统计频率无法轻易地在不同的题材上自动调整，所以频率所显示的只是一个庸俗的平均值，离所谓的人工智能相去甚远，甚至于一开始就注定只能达到一个平庸的境界。

本发明的目的乃在提供一种脉络（英文为Context）会意法，即利用上下文信息输入中文的方法。藉此，中文语言可在电脑上获得正确的信息，而不会混淆不清。

本发明包含一个电脑装置、一个注音输入装置，以及储存在电脑的储存器内的样板资料库，其中该样板资料库中储存了许多样板的基本型态。当使用者藉由注音装置输入同音字所构成的词句时，电脑装置即同时检索样板资料库中之样板型态，并确认每个音转字之正确性，以获得一个正确的词句，且当同音字彼此间发生互相抢字之情形时，经由样板之前后所赋予之加权值，以决定何者为最适当之样板。

本发明与单纯使用词及统计频率方法相比，最明显的优点是：

统计频率随不同的文章题材而有不同的分布，如果在同一篇文章中掺杂着不同的题材，使用起来就非常地不方便。相对地，本发明脉络会意法的基本原则就是在不同的领域内发掘出不同的规则，所以规则之间极少有互相矛盾的，只是变得更加细腻。因此同样的规则资料库可以很容易地适用于不同的使用者。

一般以词汇配对、频率为主的分析方法，在使用时，字词的修正都是在刚刚输入或修改的字旁边的一、两个字，无法影响到六、七字以前的部分。也就是说，这种系统所处理的只达到“词”的层次。本发明的方法则可以达到“句子”（sentence）甚至“言谈”（discourse）的层次。

单纯的词汇收集用在“音转字”系统上所能达到的正确率仅为80～85%左右，这是因为同音词本身所产生的混淆以及词的“界线”不清所致。这些问题不能依靠存词来解决，有些甚至是词存得愈多问题愈大。然而本发明则可以将此正确率不断地提高至理论的极限。

以下将结合实施例详述本发明之脉络会意法。

人类的常识判断与理解过程是人工智能研究中最不可捉摸的。本发明就是尽量模拟人类的思维方式，将常识性的逻辑判断转变成电脑可以理解的符号运算。我们的基本假设是：人类理解的方式主要是依“样板”（template）记忆、联想及推论，这里“样板”是一个综合了语意信息、语法及字串这些成分的某种组合单位。以下以“音转字”系统为例阐述样板理论的概念：

（1）引例

先看一例：台北市一位小孩昨天走失了

这句话如果只打出它的注音，则可能组成的词就相当的多。让我们暂且看一下前面五个音所能构成的词：

台北市一位小孩昨天走失了

台北市

台北

事宜

适宜

一位

一味

移位

我们再看下面的例子，有时长词不一定“优先”：

台北是一个美丽的城市

台北市一位小孩走失了

传统的句型剖析法将所有可能的句子分解方式一一列出，再加上语意的匹配以决定最后合适的对应汉字。这样的作法速度非常慢，而且需要相当多的语言学知识辅佐。

本发明的目标是尽量模拟人类的“理解”（understanding）系统，避免使用难分难解的句型剖析法。我们以常识为出发点，再利用上下文加上适当的推断、比较来得出结论。在自然语言中，一个字、词的“样板”就是这个字、词所有出现的“情况”，也是综合语法、语意的特征规则。下面我们以“一只非常可爱的猫”为例，说明有关“只”的样板形式。各个字、词的词类标示在其下方：

一只非常可爱的猫

数词量词副词形容词助词名词

从这样的词类次序关系，我们大略可归纳出以下的样板（其中圆括弧内的副词表示可有可无;“1”的记号表示紧邻。）：

【数词】1只1（【副词】）1【形容词】1的1【动物】

如果再省略形容词和“的”，便得到：

【数词】1只1【动物】

另外，也有一种用法是“他买了小猫两只”

【动物】1【数词】1只

类似这样的样板可以规范出“只”的使用规则。当我们收集了足够多“只”的样板后，“只”字就能掌握自如了。比如，当我们输入了一个单音“ㄓ”（zhi）时，有许多可能对应的字，但当上下文里陆续出现了许多其它的讯息时，电脑系统内存的样板就会一一地与之对应，如果其中一个样板对上了，“只”字就会出现。

（2）样板的基本形态

“名词片语”的样板范例-一只非常可爱的猫

【数词】1只1（【副词】）1【形容词】1的1【动物】

“动词片语”的样板范例-洗了一个很舒服的澡

洗1（了）1【定词】1（【副词】）1【形容词】1的1澡

“简单句子”的样板范例-他用斧头把这根树枝劈成柴火

【人】1用1【工具】1把1【物体】1【动词】1成1【物件】

（3）样板的搜集原则

本发明脉络会意法可以应用的范围甚广，样板的搜集方式也不尽相同，完全视需要而定。譬如在“音转字”系统中，样板搜集的对象主要是在于区别同音字、词以及帮助断词的规则。在“字转音”系统中样板则主要在于帮助断词点的确定。搜集方式则是利用电脑统计以及语意分析师的专业判断。

（4）样板的检索原则

样板通常依附在（或记录于）其最重要的“成分”（Key）上。如果一个样板的重要成分多于一个时，就有可能被记录多次。这些成分主要是由连续的字串或字和语意的组合。其中，字串是指一些习惯用的字组，当然也包括我们通常所谓的“词”。譬如，字串中有“有时”和“有十”以及“台北市”和“台北是”等等。“一只可爱的猫”的样板可记录在“只”上，也可记录在“猫”上，需视实际情况而定。我们可以对这些主要成分事先加以排序，以加速检索。

（5）样板有冲突时的处理原则

两个样板中可能有部分重叠，造成互相抵触的现象。这时在系统内可事先将这两个样板的“强度”予以标定，预先决定当两者同时出现时，何者优先被使用。譬如在医学名词上有一样板：【器官名称】｜科，在职业名称上有一样板：【姓氏】｜【职业名称】。这两个样板就可能造成以下的同音字“互抢”：皮肤科、柯医生。当“皮肤科医生”出现时，系统被告知应该将第一个样板的强度提高，使其“胜过”第二个样板，“科”字才会辨认正确。当然如此的强度调整有可能在另一种情况下产生不合适的效果。这时这两个样板就可能需要再加以细分，使其更为精确，避免重叠。这些改变的取舍原则可以由统计决定之。下面就最基本的样板-“词”的强度加以说明：

每个双字以上的词都赋与“左”、“右”分数，这个分数是介于0和255之间的整数。当两个双字以上的词之头、尾共用一个字音时，就可利用各个字词的左右分数之大小决定那个词应该出现。譬如：当使用者输入“ㄐ\ㄏㄨㄚ\ㄊㄧ/”或者输入“ji\hua\ti/”时，系统发现“计划”可对应到前面两个音，而“话题”可对应至后面两个音。由于是“计划”右边的“划”字和“话题”左边的“话”字在抢，故决定断词点的位置就由“计划”的右分数和“话题”的左分数之大小来决定。因此，如果系统内定的分数显示“计划”的右分数低于“话题”的左分数时，“话题”一词会被选上，断词点在“ㄐ\”与“ㄏㄨㄚ\ㄊㄧ/”之间;反之，“计划”会被选上，断词点将会在“ㄐ\ㄏㄨㄚ\”与“ㄊㄧ/”之间。

词的左右强度主要用在脉络会意法的样板在比对（对词）时所没有“照顾到”的地方，这个强度可由统计学在语料库内计算出一“合理值”来决定。然而，如果一个词的样板被对应上时，我们会将这个样板的强度“加分”，以增加这个词“抢赢”的机会。

以下说明本发明脉络会意法的处理步骤：

当使用者藉由注音输入装置（如键盘等）输入一连串注音或拼音符号后，电脑装置即对每一个“音”检索其同音字及以此字开头的同音词，并记录其语意特征;

由左至右地将每个音所对应“两个字以上之词”的样板从样板资料库中选出，并一一和目前“线上”（on-line）的资料对应，凡对应成功者，将其分数记录于所对应之字词上;

利用各个词所加得的分数决定单字词或多字词的位置及断词点，并将不用的词去除;

由左而右将每个单字词所对应的样板与目前“线上”的资料对应，并将对应成功的单字加分;

由电脑显示装置显示得分最高的单字词和多字词，而构成一完整无误的词句。

例如，输入“一只可爱的小狗”，我们可以看到的变化过程如下（带下划线者表示输入的注音符号）：

丨\→义ㄓ→义肢ㄎㄜ∨→义肢可ㄞ\→义肢可爱ㄉㄜ·→义肢可爱的ㄒㄧㄠ∨→义肢可爱的小ㄍㄡ∨→一只可爱的小狗

本发明方法输入正确率可达96%。

本发明除用于中文输入外，在语音输入的后处理系统上，藉由使用本发明，不但在音确定的情况下能将之转换为正确的字，并可以在音不确定时，有效地帮助其判断正确的转换（即所谓的容错），在语音合成辅助系统上，籍由本发明可协助其确定断词点。对于其它的中文输入系统中偏高的错误输入，亦可藉由本发明加以改善。

Claims

1、一种脉络会意法，包含一个电脑装置、一个注音输入装置、以及储存在电脑的存贮器内的样板资料库，其中该样板资料库中储存了许多样板的基本型态，其特征是：

a.使用者籍由注音输入装置输入一连串注音或拼音符号；

b.建立字、词以及语意特征之“线上”资料结构，即对输入的每一个“音”检索其同音字及以此字开头的同音词，并记录其语意特征；

c.由左而右地将每个音所对应“二个字以上之词”的样板从资料库中选出，并一一和目前“线上”资料对应，凡是对应成功者，将其分数记录于所对应之字词上；

d.利用各个词所加得的分数决定单字词或多字词的位置以及断词点，并将不用的词去掉；

e.由左而右将每个单字词所对应的样板一一和目前的“线上”资料对应，并将对应成功的单字加分；

f.令电脑显示得分最高之单字词和多字词。

2、根据权利要求1所述的脉络会意法，其特征在于所说样板资料库可进一步区分为许多专业的样板资料库，以利于各行业在其领域内之专用名词之使用。