CN1661594A - 汉字数码化方案 - Google Patents
汉字数码化方案 Download PDFInfo
- Publication number
- CN1661594A CN1661594A CN 200410007562 CN200410007562A CN1661594A CN 1661594 A CN1661594 A CN 1661594A CN 200410007562 CN200410007562 CN 200410007562 CN 200410007562 A CN200410007562 A CN 200410007562A CN 1661594 A CN1661594 A CN 1661594A
- Authority
- CN
- China
- Prior art keywords
- code
- word
- scheme
- code element
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Document Processing Apparatus (AREA)
Abstract
“汉字数码化方案”是一种文字编码技术方案,它将每一个汉字(无论简体繁体)都用阿拉伯数字代码表示,最长码数为6码。其码元采用形似、音似、意似等方法,以顺口溜的形式编排分布定位,相对易学易记。其主体码元的助记词为:金木水火土,手足人心口;大中小工厂,日月天方舟;王止儿女言,予由耳目又; 竹门有广犬,习马米皮牛;下上我为了,刀乃力廿尸;一二三四五,六七八九十;已而山巳午,立曲白久石;甲乙丙丁文,子丑寅卯史;东南西北面,春夏秋冬年;国泰民安生,家和万事成。本“方案”用于字典查字可以加快查阅速度;用于手机输入能使之更为轻松自如。
Description
技术领域
本发明涉及一个文字编码方案——“汉字数码化方案”(以下简称“方案”)。
背景技术
当今社会已进入信息时代,时间和精力也由此显得更为宝贵。然而,作为国人与之天天打交道的中华文明之精萃的汉字,却总在无声无息地吞噬着我们有限的时间和精力。这种现象,在下列两个方面表现得最为突出:
一.字典查字不容易。
——用偏旁部首查吧,先要数偏旁或部首笔画,在《部首目录》中查得其在《检字表》中所在位置的页码;翻到该页后,再要数所查字除偏旁部首外的笔画,以确定其在“几画”名下;然后再逐个字找下去,直至找到其在“字典正文”中最终位置的页码。若碰到偏旁部首不清楚的还得在多个部首和《难检字笔画索引》表中翻来复去的查找,可谓不胜其“繁”,枉费时间。
——用汉语拼音查吧,往往需查之字为不能认读之字,则根本就无从查起。即使是“似曾相识”,也还存在卷舌音和非卷舌音、鼻韵母与非鼻韵母、是AI还是EI等区分不清的问题。纵然这些都清楚了,又还得在“五声”之间上下求索,也会搞得人昏头胀脑,可谓不胜其“烦”,徒耗精力。
二.手机输入不轻松。
现有的手机汉字输入法仅有笔画、拼音和注音三种。
注音符号现在能够认读并使用的人已经极少,显然已失“大众化”优势。
拼音输入除了上述“烦恼”之外,还存在输入字母“时不待人”(稍慢即错,又得重输),同音字太多而选择频繁等缺憾。
笔画输入虽易掌握,但一笔一画一寻觅,或选部首或选字,选到部首再续输,这样“一步三回头”的折腾,不亦苦乎!
发明内容
基于上述原因,本人设计了一个解决方案——“汉字数码化方案”。现介绍如下:
一.码元设置:顾名思义,“汉字数码化”就是将每一个汉字都用阿拉伯数字代码表示,这就必须有一个码元与数码关系的对应表,下面的《“汉字数码化方案”码元表》(以下简称《码元表》)明确规定了彼此间的对应关系。
“汉字数码化方案”码元表
关于《码元表》的说明:
1.本《表》共有十组(横向为组)八类(纵向为类)名称的码元计202个,采用形似、音似、意似等方法,以顺口溜的形式编排分布定位,相对易学易记。其主体码元的助记词为:
金木水火土,手足人心口; 大中小工厂,日月天方舟;
王止儿女言,予由耳目又; 竹门有广犬,习马米皮牛;
下上我为了,刀乃力廿尸; 一二三四五,六七八九十;
已而山巳午,立曲白久石; 甲乙丙丁文,子丑寅卯史;
东南西北面,春夏秋冬年; 国泰民安生,家和万事成。
2.《表》中加有括弧的“横竖撇点折”五字不作码元使用,仅提示其前面的“下上我为了”五字各以后面的“一丨丿丶乛”(排列顺序也即组号是12345)为起笔。
此外,“填充码元”主要是为查阅字典时的方便而设,因为它们与前七类标有数码列中的码元字一样,都是两位数的编码(参见下述),这在有序数列中可起到“分节引导”的作用。其次,它们也参与相关汉字的组拼。
3.与《表》中某些码元字相通而已变形的字符尚未列入,如:(小)、(心)、氺(水)、飠(食)、覀(西)、罒(四)等。
另,笔形名称不同而实质意义相同以及组合笔形、笔顺相同(通)的字符也未列入,如:提(横)、捺(点)。“车”、“尧”的起始两笔(均与“七”字相通),“衣”、“象”的最后两笔(均与“飞”字的最后两笔相通),“牙”、
的起始两笔(各与“匚”、“勹”部首相通),“彝”、“贯”的起始两笔(均与“毋”框的折笔组合相通)等。
再,“折”的概念在此包含所有带“折”的单笔,无论其是一折二折三折四折,还是左折右折横折竖折,组拼编码时须予注意。
二.编码规则:
1.无论简体繁体以及字的笔画(码元)多少,最多以6个阿拉伯数字进行编码。
2.凡(码元表》内标有数字的行、列中的字,均用两码——组码(横向数码)+织码(纵向数码)编码。如:一=10、木=21、小=32、女=43、犬=54,刀=65、曲=76、寅=87、冬=98、成=09等。其中,“○”与作为“零头”的“雨”两字,则在原编码基础上再加织码一码,即:○=000、雨=066。此外,“金”、“言”二字在作为繁体字的左偏旁且又是第一码时,则用其本组代码加下组代码两码编码,即:釒=12、言=56。凡标有“SM”(“首”、“末”两字的拼音缩写)列中的字符,则均用其组码加该字的首、末两个笔画码编码。如:虫=224、其=714、彐=651、匚=015等。其中,五个单笔画则用两码组码加“0”编码,即:一=110、丨=220、丿=330、丶=440、
=550。
3.凡《码元表》外众多需要“组拼”的字符,则一律用其组码相拼。但须特别注意:
——当某字有二至四个码元时,须加上该字的首、末两个笔画码。如:相=2911、想=29914、箱=112931等。
——当某字有五个码元时,须加上该字的首笔笔画代码。如:煎=817644、瞻=965852等。
——当某字有五个以上码元时。则第六码一律取其最后一码。如:觐=901735、壑=217185等。
4.凡《码元表》中已给出的码元一般以整体形式参加组拼,不得拆拼,如:盥=937213、围=911522、燕=904414等;另,凡由三个并列码元组成的字符。一般先取中间位置的。如:非=23321、兆=32834、兜=880335、燮=544044、率=412804等。
5.附较难掌握及容易混淆的组拼字36例:
身=853333 追=800034 藏=955134 曹=176Il 鸦=053841 巫=48814
象=606834 彝=518139 贯=50754 皿=72121 鬼=835434 那=62852
肆=446222 豸=32633 觏=191755 眉=023951 曾=842641 弊=873039
辫=615160 延=321554 卸=012523 殷=565303 遐=022000 长=37434
馬=7424 門=2255 鬥=211525 韋=50552 夾=188814 蕭=960322
具体实施方式
一.字典查字:
本“方案”用于字典查字,因涉及页码,故须附设《编码、汉字、页码对照表》(参见附件)。这样,见字生码,由码得字,据字知页,可大大加快查字速度。如:欲查“馨”字,先由编码规则确定其编码为502336,然后翻到《对照表》第“50五”部分往下找到“502336馨533”,即知该字在字典正文的第533页,据此查阅便是。
附:关于《编码、汉字、页码对照表》的说明:
1.此《表》系据《新华字典》(商务印书馆2004年1月第10版修订本)而编制,总计61页(附件给出的为第1、31、60页三页)共10145个汉字。
2.每个字的起笔基本按照《辞海》(上海辞书出版社1979年版缩印本)中的《辞海部首笔画笔形索引》表而定,惟有“力”、“皮”二字例外,“力”以“丿”作起笔,“皮”以“丨”作起笔。
二.手机输入:
本“方案”用于手机输入,其相关编码规则完全相同,且可实现单字、词语、标点符号以及阿拉伯数字的混合输入。
补充说明:
1.据实编统计,本“方案”对于《新华字典》中的10145个汉字,其重码率为7.26%,最多重码字个数为6个(仅一组,是1414:太丈玉灭麦灰);对于GB2312-80《信息交换用汉字编码字符集》中的6763个汉字字符,其重码率为6.54%。详细情况见附表。
2.本“方案”留有充分余地,可对其他大型字、词、辞典(书)或大字符集的汉字字符进行数码化编码。
附表:
组号 | 对于《新华字典》(10145字) | 对于BG2312《字符集》(6763字) | 备注 | ||||
每组字数 | 重码字组数 | 重码率% | 每组字数 | 重码字组数 | 重码率% | ||
1 | 1087 | 74 | 6.81 | 666 | 42 | 6.31 | |
2 | 975 | 81 | 8.31 | 664 | 54 | 8.13 | |
3 | 1054 | 71 | 6.74 | 687 | 38 | 5.53 | |
4 | 1048 | 75 | 7.16 | 677 | 42 | 6.20 | |
5 | 1019 | 62 | 6.08 | 685 | 35 | 5.11 | |
6 | 988 | 63 | 6.38 | 671 | 41 | 6.11 | |
7 | 991 | 68 | 6.86 | 683 | 41 | 6.00 | |
8 | 974 | 90 | 9.24 | 682 | 58 | 8.50 | |
9 | 1032 | 76 | 7.36 | 681 | 43 | 6.31 | |
0 | 977 | 77 | 7.88 | 667 | 48 | 7.20 |
“汉字数码化方案”之编码、汉字、页码对照表
——本表系据《新华字典》第10版编制——
(汉字左边的数码为该汉字的编码,右边的数码为该汉字所在页的页码)
Claims (1)
- 一种文字编码方案——“汉字数码化方案”(以下简称“方案”),其技术特征是将中文汉字用阿拉伯数字代码表示。“方案”内容简介如下:A.码元设置:本“方案”的码元设置具体见于下面的《“汉字数码化方案”码元表》(以下简称《码元表》),《表》中明确规定了码元与阿拉伯数字彼此间的对应关系。“汉字数码化方案”码元表关于《码元表》的说明:a.本《码元表》为本“方案”的技术核心。b.本《表》共有十组(横向为组)八类(纵向为类)名称的码元计202个,采用形似、音似、意似等方法,以顺口溜的形式编排分布定位,相对易学易记。其主体码元的助记词为:金木水火土,手足人心口; 大中小工厂,日月天方舟;王止儿女言,予由耳目又; 竹门有广犬,习马米皮牛;下上我为了,刀乃力廿尸; 一二三四五,六七八九十;已而山巳午,立曲白久石: 甲乙丙丁文,子丑寅卯史;东南西北面,春夏秋冬年; 国泰民安生,家和万事成。B.编码规则:a.无论简体繁体以及字的笔画(码元)多少,最多以6个阿拉伯数字进行编码。b.凡《码元表》内标有数字的行、列中的字,均用两码——组码(横向数码)+织码(纵向数码)编码。如:木=21、成=09等。其中,“○”与作为“零头”的“雨”两字,则在原编码基础上再加织码一码,即:○=000、雨=066。此外,“金”、“言”二字在作为繁体字的左偏旁且又是第一码时,则用其本组代码加下组代码两码编码,即:釒=12、言=56。凡标有“SM”(“首”、“末”两字的拼音缩写)列中的字符,则均用其组码加该字的首、末两个笔画码编码。如:虫=224、彐=651等。其中,五个单笔画则用两码组码加“0”编码,即:一=110、丨=220、丿=330、丶=440、乛=550。c.凡《码元表》外众多需要“组拼”的字符,则一律用其组码相拼。但须特别注意:——当某字有二至四个码元时,须加上该字的首、末两个笔画码。如:相=2911、想=29914、箱=112931等。——当某字有五个码元时,须加上该字的首笔笔画代码。如:煎=817644、瞻=965852等。——当某字有五个以上码元时,则第六码一律取其最后一码。如:觐=901735、壑=217185等。C.字典查字:本“方案”用于字典查字,因涉及页码,故须附设《编码、汉字、页码对照表》。本“方案”根据《新华字典》(商务印书馆2004年1月第10版修订本)编制了这一《对照表》。据此《表》查字可提高速度。D.手机输入:本“方案”用于手机输入,其相关编码规则完全相同,且可实现单字、词语、标点符号以及阿拉伯数字的混合输入。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200410007562 CN1661594A (zh) | 2004-02-26 | 2004-02-26 | 汉字数码化方案 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200410007562 CN1661594A (zh) | 2004-02-26 | 2004-02-26 | 汉字数码化方案 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1661594A true CN1661594A (zh) | 2005-08-31 |
Family
ID=35010914
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 200410007562 Pending CN1661594A (zh) | 2004-02-26 | 2004-02-26 | 汉字数码化方案 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1661594A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112287100A (zh) * | 2019-07-12 | 2021-01-29 | 阿里巴巴集团控股有限公司 | 文本识别方法、拼写纠错方法及语音识别方法 |
-
2004
- 2004-02-26 CN CN 200410007562 patent/CN1661594A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112287100A (zh) * | 2019-07-12 | 2021-01-29 | 阿里巴巴集团控股有限公司 | 文本识别方法、拼写纠错方法及语音识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1661594A (zh) | 汉字数码化方案 | |
CN1243277A (zh) | 一种可用数字键盘输入的汉字输入方法及键盘 | |
CN1074559C (zh) | 构形识别码及其键盘 | |
CN1025135C (zh) | 汉字元音码计算机输入方法及键盘 | |
CN1220931C (zh) | 音形数码汉字输入法 | |
CN1388696A (zh) | 汉字象形数字编码方法及输入键盘 | |
CN1595340A (zh) | 通俗五笔字型法及其键盘 | |
CN1313565A (zh) | 网络(因特网)汉语输入技术 | |
CN1167296A (zh) | 四笔汉字码 | |
CN2476059Y (zh) | 姜码输入法的键盘 | |
CN1120406C (zh) | 计算机汉字部首输入方法 | |
CN1207648C (zh) | 五三码及其键盘 | |
CN1534443A (zh) | 自定义笔画数字键中文输入法 | |
CN1466035A (zh) | 优选编码部件汉字编码键盘及电脑输入方法 | |
CN1056456C (zh) | 优化合书汉字编码的计算机输入方法 | |
CN1043381C (zh) | 汉字四笔画数码输入法 | |
CN1115055A (zh) | 基于四角号码的汉字输入方法 | |
CN1276557A (zh) | 一种汉字和英文的数字小键盘输入方法 | |
CN1100288C (zh) | 四笔序音计算机汉字键盘输入方法 | |
CN1369767A (zh) | 一号码汉字输入法 | |
CN1360246A (zh) | 汉字编码数字化及其使用方法 | |
CN1185602A (zh) | 一种汉字编码输入系统 | |
CN1288186A (zh) | 一种电脑汉字输入码 | |
CN1167994C (zh) | 一二三四输入法 | |
CN1749933A (zh) | 拼音区位输入法(字母、符号键方案) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |