CN100390711C

CN100390711C - 一种中文词的计算机处理和键盘输入的方法

Info

Publication number: CN100390711C
Application number: CNB2005101354752A
Authority: CN
Inventors: 贾惠波; 焦慧; 刘迁; 熊剑平; 马骋
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2005-12-31
Filing date: 2005-12-31
Publication date: 2008-05-28
Anticipated expiration: 2025-12-31
Also published as: CN1790238A

Abstract

本发明属于中文信息处理技术领域，其特征在于，本方法依次含有以下步骤：把《信息处理用现代汉语常用词词表》里的词汇按词性分类，形成词典词；把词典词进行四字节编码形成词典码；把词典码与表示汉字的机内码对应，形成词典码表；以拼音方式、用词作基本单位，通过键盘操作输入拼音码，根据拼音码与词典码对照表形成词典码，再按词典码表从词典码对应到机内码，完成输入，并形成以词为基本单位的词典码格式文件。本发明避免了分词对中文信息处理造成的困难，通过词典码中的第一字节实现了词性自动分类，在不改变现行计算机任何内部结构和设置的条件下，即实现了以词为基本单位的文档表示。

Description

一种中文词的计算机处理和键盘输入的方法

技术领域

本发明属于中文信息处理领域。特别涉及到中文在计算机中的表示和存储方式。

背景技术

随着计算机技术和人工智能理论的迅速发展，人们开始用形式的方法研究自然语言，从而诞生了人工智能的一个分支——自然语言处理(NLP)。几乎所有自然语言处理系统均以词为重要信息载体与基本操作单元。而在汉语语言学里，“词”的确切定义尚无定论，在此，我们称中文里有意义的，可独立运用的最小单位为词。英语等西方语言的书面形式以空格作为词与词之间分隔标志，而汉语的书面形式却是连续的汉字串，在计算机中汉语文档也是以字为单位进行编码的，机内码是连续的码字，词与词之间没有明显区别标志。这样，理解汉语的首要任务是把连续的汉字串分割成词的序列，即所谓的分词。

为了方便中文在计算机中的应用，人们开始研究自动分词，即用计算机实现中文分词的技术。随着中文信息处理研究的深入，自动分词的重要性愈加突出，它是一切中文信息处理的基础，如汉语分析与理解、汉语-外语机器翻译、中文文献自动标引或全文信息检索、汉字识别、汉语语音识别与合成、中文简繁体自动转换及中文文稿自动校对等多项应用中均需要首先分好词。

关于自动分词，虽然海内外已有十年的研究历史，付诸的努力很大，取得的成绩也很多(已建立的分词系统，中国大陆、台湾、香港及新加坡合计20个以上)，但迄今为止并无真正成熟的实用系统面世，成为严重制约中文信息处理发展的瓶颈之一。

发明内容

分词产生于基于字平台的中文内码表示方法，是中文所特有的，它造成了中文信息处理的瓶颈。本发明的目的是从根本上解决长期以来束缚中文信息处理发展的自动分词问题。提出一种基于词平台的计算机用汉字编码方法，从而形成一种新的中文文档格式。其特征是文档基于词平台，而不像目前常用的中文文档是基于字平台。由于在汉语语言学里，“词”的确切定义尚无定论，这里我们所说的词，是指中文语句中有意义的，可独立运用的最小单位，即通常所说的词、词组、短语和成语等。本发明根据《信息处理用现代汉语常用词词表》(以下称《常用词词表》，此表完全符合《信息处理用现代汉语分词规范》GB13715，是目前普遍使用的词表)对其中的每个词进行编码，文章使用这样基于词的编码格式就可以使词成为计算机中文处理中的最小信息载体，无须再进行中文分词，使中文计算机处理与西文处在相同的起点水平，而且有了这个系统，西文对于语言处理的研究成果都可以在中文处理中应用。

本发明提出一种基于词平台的计算机用汉字编码方法，包括新的中文文档编码格式，《常用词词表》中每个词的新编码与机内码对应的词典码表(即一个数据库)和生成新文档格式的汉字键盘输入方法。其特征在于，所说的中文文档编码格式，包括符合国际标准的ASCII控制码、标准的西文和符号的ASCII字符集，以及中文词条和中文标点符号的四字节编码；所说的词典码表是根据词性分类，在每一类词中再按拼音字母顺序排列，给每一个词用四个字节编码，并对应组成这个词的汉字的机内码，构成一个词典码表的数据库；所说的新文档格式的汉字键盘输入方法，是以目前拼音码输入方法为基础，使按字音方案产生的键盘码经过译码后在拼音-词典码对照表里查找对应的词典码，再通过词典码表，即词典码与机内码对应关系，找到对应的机内码进行显示和输入。

本发明的特征在于：所述方法是以拼音方式、以词为基本输入单位、基于拼音码-词典码、词典码-机内码依次顺序对照地进行处理的一种中文词计算机和键盘输入的方法，所述的词是指中文语句中包含词、词组、短语和成语在内的有意义的供用户独立运用的最小单位，所述方法依次含有以下步骤：

步骤1：把《常用词词表》中的汉语词汇按它们最常用的词性分为名词、动词(包括动词短语)、形容词、副词、代词、数词、量词、象声词、叹词、介词、连词、助词和语气词，还有成语，形成词典词，每一个词典词都由1到7个汉字构成；

步骤2：对步骤1中的每个词典词按以下方式进行编码，形成词典码。每一个词典码都由4个字节构成，按十六进制表示的具体形式为：

[AxH xxH xxH xxH](H是十六进制的表示符号，以下词典码均用十六进制表示)第一个字节的高四位必须是AH，二进制表示是1010；第一个字节的低四位x的范围是1H到FH，表示这个词的词性，其中1到9依次表示名词、形容词、副词、代词、数词、量词、成语、介词和连词、以及包括象声词、叹词、助词和语气词在内的小词，A表示标点符号，B至F表示《常用词词表》中的动词和动词短语，每一类分别按表中顺序排列。第二字节的高四位为保留位，第二字节的低四位表示该词所包含的汉字个数；第三字节和第四字节组成一个顺序码，范围是1H到FFFFH，即65535，用来把词汇按拼音字母顺序进行排列并编号，按此方式编码至少可容纳14×65536条词条；

步骤3：根据步骤1的结果和步骤2的结果形成拼音码-词典码对照表输入计算机；

步骤4：建立《常用词词表》中的词的词典码和该词在计算机中的机内码之间的对照表，称为词典码表：所述词典码表中包含按词性区分的12种表，分别是非词典词表，一般名词表，形容词表，动词表，副词表，代词表，数词表，量词表，介词/连词表，象声词/叹词/助词/语气词表，成语表以及标点符号表，表中记录每个词的词典码以及该词典码所对应的机内码，构成词典码表，其中所述非词典词是指包含人名、地名、商品名在内的一些专有名词，所述非词典词和标点符号同样采用四字节法编码；

步骤5：把步骤4得到的词典码表输入到所述计算机中去，中文输入时分别形成词典码格式和机内码格式的文件；

步骤6：以拼音方式、以词为基本单位向所述计算机输入中文词。

所述四字节法对标点符号进行编码时，其中第一字节恒为AaH，第二字节恒取00H；第三字节和第四字节为该标点符号的机内码。

所述四字节法对非词典词进行编码时，其中第一字节恒取AOH；第二字节高四位保留，第二字节低四位表示该非词典词所包含的汉字个数；第三字节和第四字节表示该非词典词在词典码表中的非词典词表里的顺序号。

本发明的功能和特点：

(1)实现了以词为最小信息载体的文档格式，从而完全避免了分词对中文信息处理带来的障碍，使得中文处理与西文处理站在了同样高度上；

(2)实现了词性的自动分类，词典码中已经明确表示出了词的词性，无须再用其它方法进行标注；

(3)不改变现行计算机任何内部结构和设置，仍使用汉字内码国际标准，只在其基础上建立一套系统，构造基于词平台的文档格式。

附图说明

图1为总体结构示意图。

图2为处理过程示意图。

具体实施方式本发明的编码原则是：整个文档文件由一系列码字组成，控制码采用国际标准的ASCII码表示，西文字符采用国际标准的表示西文字符和符号的ASCII码表示，而对《常用词词表》里的中文词汇建立了一套编码方式。

本发明提出的编码方法是把《常用词词表》中的汉语词汇按它的最常用的词性进行分类，分为：名词、动词、形容词、副词、代词、数词、量词、象声词、叹词、介词、连词、助词和语气词。此外，汉语中还有大量的成语，把它们归为一类词。我们称按以上方法分好类的词为词典词。《常用词词表》中的词汇最少包含1个汉字，最多包含7个汉字，所以本发明的每一个词典词都是由1到7个汉字构成，给每个词典词进行编码，称为词典码，所有词典码都是由4个字节构成，按十六进制表示的具体形式为：

[AxH xxH xxH xxH](H是十六进制的表示符号，下同，以下词典码均用十六进制表示)

其中第一个字节的高四位必须是AH(二进制表示为1010)，第一字节的低四位x的范围是1H到FH，用来表示这个词的词性，名词、形容词等大类词性独立为一组，助词、叹词、语气词等小类词性合成为一组，对于动词和动词短语，时态、数等情况比较复杂，B代表单字实义动词，C代表多字实义动词，D代表动词短语，E和F保留，以待将来扩充功能。具体对应如下：

1	2	3	4	5	6	7	8	9	A	B-F
1	2	3	4	5	6	7	8	9	A	B-F	名词	形容	副词	代词	数词	量词	成语	介词、	小词	标点	动词

词

连词

(助词、语气词、象声词、叹词)

符号

和动词短语

第二字节的高四位为保留位，第二字节低四位用来表示该词所包含的字数(1-7个)：将剩余的第三字节和第四字节组成一个顺序码，范围是1到FFFFH(即65535)，用来将词汇按拼音顺序进行排列。按此方式编码至少能容下的词条数是14×65535＝917490条，《常用词词表》中一级常用词、二级常用词以及单字词共39016条，另外还包括一些专有名词的附表，所以词典码的空间已经足够。

如：《常用词词表》中有“阿弟”这个词，我们为它编的词典码为：

[A1020002]

其中A1代表这个词是一般名词，02代表这个词包含两个汉字，0002表示这个词在词典码表里名词表中的顺序号。

本发明称一类词为非词典词，即一些专有名词，如人名、地名、商品名等。我们对这类词的编码也采用四字节编码的方法，

[AxH xxH xxH xxH]

只是第一个字节AxH中x恒取零，即非词典词的第一字节总是A0H，其余部分与以上编码方法相同。如：“阿拉伯”这个专有名词，词典码为[A0030001]，其中A0代表这个词是非词典词，03代表这个词包含三个汉字，0001表示这个词在词典码表里非词典词表中的顺序号。

本发明对于汉字标点等符号(或全角符号)，同样采用四字节编码：

[AaH xxH xxH xxH]其中第一个字节恒为AaH，第二个字节恒为00H，后面两个字节是这个标点符号的机内码。常用标点的编码如下：

，	Aa00a3ac
，	Aa00a3ac	.	Aa00a1a3
：	Aa00a3ba	.	Aa00a1a3
：	Aa00a3ba	；	Aa00a3bb
？	Aa00a3bf	；	Aa00a3bb
？	Aa00a3bf	、	Aa00a1a2
‘	Aa00a1ae	、	Aa00a1a2
‘	Aa00a1ae	，	Aa00a1af
《	Aa00a1b6	，	Aa00a1af

》	Aa00a1b7
》	Aa00a1b7	“	Aa00a1b0
”	Aa00a1b1	“	Aa00a1b0
”	Aa00a1b1	(	Aa00a3a8
)	Aa00a3a9	(	Aa00a3a8
)	Aa00a3a9	！	Aa00a3a1
...	Aa00a1ad	！	Aa00a3a1
...	Aa00a1ad	—	Aa00a1aa
-	Aa00a3ad	—	Aa00a1aa

为了使本发明提出的编码方式能在计算机上实现，需要将本发明的词典码与目前计算机中表示汉字的机内码联系起来，本发明通过一个数据库建立起词典码与机内码的对应关系，称为词典码表。词典码表中包含按词性区分的12种表，分别是非词典词表，一般名词表，形容词表，动词表，副词表，代词表，数词表，量词表，介词/连词表，象声词/叹词/助词/语气词表，成语表和标点符号表，表中记录每个词典码以及该词典码所对应的机内码串。数据库的结构举例说明如下(ISN即internalstatement number，机内码)：

表0非词典词

编号	dictionarynumber	ISN
编号	dictionarynumber	ISN	1	A0030001	b0a2c0adb2ae
2	A0040002	b0c2c1d6c6a5bfcb	1	A0030001	b0a2c0adb2ae
2	A0040002	b0c2c1d6c6a5bfcb	......	......	......

表1一般名词

编号	dictionarynumber	ISN
编号	dictionarynumber	ISN	1	A1020001	b0a2b0d6
2	A1020002	b0a2b5dc	1	A1020001	b0a2b0d6
2	A1020002	b0a2b5dc	3	A1020003	b0a2b8e7
4	A1020004	b0a2c2e8	3	A1020003	b0a2b8e7
4	A1020004	b0a2c2e8	5	A1020005	b0a2c3c3
6	A1020006	b0a2c6c5	5	A1020005	b0a2c3c3
6	A1020006	b0a2c6c5	......	......	......

本发明提出的汉字键盘输入法，是以拼音为主要输入手段，以词为基本输入单位，建立一个拼音码与词典码的对照表，根据所输入词的拼音，在对照表中查找与拼音所匹配的词典码，再通过词典码表找到对应的机内码进行显示和输入，最终形成两个文件，一个是输入内容的词典码格式的文件，另一个是普通的机内码格式的文件。显示或打印时还是由词典码表中对应的机内码进行显示或打印。拼音码与词典码的对照表按照《常用词词表》的顺序，把每个词的拼音与它的词典码对应起来。现代汉语中虽然同音字广泛存在，但同音词却少得多。故在一般语言环境中，采用词输入基本可以达到一对一的映射。但是有的情况下还会产生重码，这样一组拼音码可能对应几种词典码，系统找到符合该拼音码的所有的词让输入者进行选择，从而确认要输入的词。拼音码与词典码对照表结构如下：

编号	pinyin	dictionarynumber
编号	pinyin	dictionarynumber	1	a	A9010001
2	aha	A9020002	1	a	A9010001
2	aha	A9020002	3	aba	A1020001
4	adi	A1020002	3	aba	A1020001
4	adi	A1020002	......	......	......

例如要输入“春天”这个词时，用键盘键入拼音键盘码“chuntian”八个字母，译码程序就在对照表中查找与“chuntian”对应的词典码，再通过词典码找到这个词所对应的机内码，然后显示在屏幕上让输入者进行确认，确认之后把这个词的词典码和机内码都保存下来，分别存在两个文件中。这样把每个词都输入完之后，就可形成一篇完整的文章，而且文档的内部格式就是以词典码表示的。这样在这个词典码的平台上，就可以进行一些信息处理，比如文本分类，自动文摘等，处理时直接读取每四个字节，就是一个词可以直接进行处理，从而绕过了分词这个难题。

Claims

1.一种中文词的计算机处理和键盘输入的方法，其特征在于，所述方法是以拼音方式、以词为基本输入单位、基于拼音码-词典码、词典码-机内码依次顺序对照地进行处理的一种中文词计算机和键盘输入的方法，所述的词是指中文语句中包含词、词组、短语和成语在内的有意义的供用户独立运用的最小单位，所述方法依次含有以下步骤：

步骤1：把《信息处理用现代汉语常用词词表》中的汉语词汇按它们最常用的词性分为名词、动词、动词短语、形容词、副词、代词、数词、量词、象声词、叹词、介词、连词、助词和语气词，还有成语，形成词典词，每一个词典词都由1到7个汉字构成；

步骤2：对步骤1中的每个词典词按以下方式进行编码，形成词典码，每一个词典码都由4个字节构成，按十六进制表示的具体形式为：

[AxH xxH xxH xxH]，H是十六进制的表示符号，以下词典码均用十六进制表示，第一个字节的高四位必须是AH，二进制表示是1010；第一个字节的低四位x的范围是1H到FH，表示这个词的词性，其中1到9依次表示名词、形容词、副词、代词、数词、量词、成语、介词和连词、以及包括象声词、叹词、助词和语气词在内的小词，A表示标点符号，B至F表示《信息处理用现代汉语常用词词表》中的动词和动词短语，每一类分别按表中顺序排列，第二字节的高四位为保留位，第二字节的低四位表示该词所包含的汉字个数；第三字节和第四字节组成一个顺序码，范围是1H到FFFFH，即65535，用来把词汇按拼音字母顺序进行排列并编号，按此方式编码至少可容纳14×65536条词条；

步骤3：根据步骤1的结果和步骤2的结果形成拼音码-词典码对照表存入计算机；

步骤4：建立《信息处理用现代汉语常用词词表》中的词的词典码和该词在计算机中的机内码之间的对照表，称为词典码表：所述词典码表中包含按词性区分的12种表，分别是非词典词表，一般名词表，形容词表，动词表，副词表，代词表，数词表，量词表，介词/连词表，象声词/叹词/助词/语气词表，成语表以及标点符号表，表中记录每个词的词典码以及该词典码所对应的机内码，构成词典码表，其中所述非词典词是指包含人名、地名、商品名在内的一些专有名词，所述非词典词和标点符号同样采用四字节法编码；

步骤5：把步骤4得到的词典码表存储到所述计算机中去，中文输入时分别形成词典码格式和机内码格式的文件；

步骤6：以拼音方式、以词为基本单位向所述计算机输入中文词；

所述四字节法对标点符号进行编码时，其中第一字节恒为AaH，第二字节恒取00H；第三字节和第四字节为该标点符号的机内码；

所述四字节法对非词典词进行编码时，其中第一字节恒取A0H；第二字节高四位保留，第二字节低四位表示该非词典词所包含的汉字个数；第三字节和第四字节表示该非词典词在词典码表中的非词典词表里的顺序号。