[go: up one dir, main page]

CN1661594A - 汉字数码化方案 - Google Patents

汉字数码化方案 Download PDF

Info

Publication number
CN1661594A
CN1661594A CN 200410007562 CN200410007562A CN1661594A CN 1661594 A CN1661594 A CN 1661594A CN 200410007562 CN200410007562 CN 200410007562 CN 200410007562 A CN200410007562 A CN 200410007562A CN 1661594 A CN1661594 A CN 1661594A
Authority
CN
China
Prior art keywords
code
word
scheme
code element
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 200410007562
Other languages
English (en)
Inventor
汤汉林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN 200410007562 priority Critical patent/CN1661594A/zh
Publication of CN1661594A publication Critical patent/CN1661594A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

“汉字数码化方案”是一种文字编码技术方案,它将每一个汉字(无论简体繁体)都用阿拉伯数字代码表示,最长码数为6码。其码元采用形似、音似、意似等方法,以顺口溜的形式编排分布定位,相对易学易记。其主体码元的助记词为:金木水火土,手足人心口;大中小工厂,日月天方舟;王止儿女言,予由耳目又; 竹门有广犬,习马米皮牛;下上我为了,刀乃力廿尸;一二三四五,六七八九十;已而山巳午,立曲白久石;甲乙丙丁文,子丑寅卯史;东南西北面,春夏秋冬年;国泰民安生,家和万事成。本“方案”用于字典查字可以加快查阅速度;用于手机输入能使之更为轻松自如。

Description

汉字数码化方案
技术领域
本发明涉及一个文字编码方案——“汉字数码化方案”(以下简称“方案”)。
背景技术
当今社会已进入信息时代,时间和精力也由此显得更为宝贵。然而,作为国人与之天天打交道的中华文明之精萃的汉字,却总在无声无息地吞噬着我们有限的时间和精力。这种现象,在下列两个方面表现得最为突出:
一.字典查字不容易。
——用偏旁部首查吧,先要数偏旁或部首笔画,在《部首目录》中查得其在《检字表》中所在位置的页码;翻到该页后,再要数所查字除偏旁部首外的笔画,以确定其在“几画”名下;然后再逐个字找下去,直至找到其在“字典正文”中最终位置的页码。若碰到偏旁部首不清楚的还得在多个部首和《难检字笔画索引》表中翻来复去的查找,可谓不胜其“繁”,枉费时间。
——用汉语拼音查吧,往往需查之字为不能认读之字,则根本就无从查起。即使是“似曾相识”,也还存在卷舌音和非卷舌音、鼻韵母与非鼻韵母、是AI还是EI等区分不清的问题。纵然这些都清楚了,又还得在“五声”之间上下求索,也会搞得人昏头胀脑,可谓不胜其“烦”,徒耗精力。
二.手机输入不轻松。
现有的手机汉字输入法仅有笔画、拼音和注音三种。
注音符号现在能够认读并使用的人已经极少,显然已失“大众化”优势。
拼音输入除了上述“烦恼”之外,还存在输入字母“时不待人”(稍慢即错,又得重输),同音字太多而选择频繁等缺憾。
笔画输入虽易掌握,但一笔一画一寻觅,或选部首或选字,选到部首再续输,这样“一步三回头”的折腾,不亦苦乎!
发明内容
基于上述原因,本人设计了一个解决方案——“汉字数码化方案”。现介绍如下:
一.码元设置:顾名思义,“汉字数码化”就是将每一个汉字都用阿拉伯数字代码表示,这就必须有一个码元与数码关系的对应表,下面的《“汉字数码化方案”码元表》(以下简称《码元表》)明确规定了彼此间的对应关系。
                              “汉字数码化方案”码元表
Figure A20041000756200031
关于《码元表》的说明:
1.本《表》共有十组(横向为组)八类(纵向为类)名称的码元计202个,采用形似、音似、意似等方法,以顺口溜的形式编排分布定位,相对易学易记。其主体码元的助记词为:
               金木水火土,手足人心口;    大中小工厂,日月天方舟;
               王止儿女言,予由耳目又;    竹门有广犬,习马米皮牛;
               下上我为了,刀乃力廿尸;    一二三四五,六七八九十;
               已而山巳午,立曲白久石;    甲乙丙丁文,子丑寅卯史;
               东南西北面,春夏秋冬年;    国泰民安生,家和万事成。
2.《表》中加有括弧的“横竖撇点折”五字不作码元使用,仅提示其前面的“下上我为了”五字各以后面的“一丨丿丶乛”(排列顺序也即组号是12345)为起笔。
此外,“填充码元”主要是为查阅字典时的方便而设,因为它们与前七类标有数码列中的码元字一样,都是两位数的编码(参见下述),这在有序数列中可起到“分节引导”的作用。其次,它们也参与相关汉字的组拼。
3.与《表》中某些码元字相通而已变形的字符尚未列入,如:(小)、(心)、氺(水)、飠(食)、覀(西)、罒(四)等。
另,笔形名称不同而实质意义相同以及组合笔形、笔顺相同(通)的字符也未列入,如:提(横)、捺(点)。“车”、“尧”的起始两笔(均与“七”字相通),“衣”、“象”的最后两笔(均与“飞”字的最后两笔相通),“牙”、
Figure A20041000756200041
的起始两笔(各与“匚”、“勹”部首相通),“彝”、“贯”的起始两笔(均与“毋”框的折笔组合相通)等。
再,“折”的概念在此包含所有带“折”的单笔,无论其是一折二折三折四折,还是左折右折横折竖折,组拼编码时须予注意。
二.编码规则:
1.无论简体繁体以及字的笔画(码元)多少,最多以6个阿拉伯数字进行编码。
2.凡(码元表》内标有数字的行、列中的字,均用两码——组码(横向数码)+织码(纵向数码)编码。如:一=10、木=21、小=32、女=43、犬=54,刀=65、曲=76、寅=87、冬=98、成=09等。其中,“○”与作为“零头”的“雨”两字,则在原编码基础上再加织码一码,即:○=000、雨=066。此外,“金”、“言”二字在作为繁体字的左偏旁且又是第一码时,则用其本组代码加下组代码两码编码,即:釒=12、言=56。凡标有“SM”(“首”、“末”两字的拼音缩写)列中的字符,则均用其组码加该字的首、末两个笔画码编码。如:虫=224、其=714、彐=651、匚=015等。其中,五个单笔画则用两码组码加“0”编码,即:一=110、丨=220、丿=330、丶=440、
Figure A20041000756200043
=550。
3.凡《码元表》外众多需要“组拼”的字符,则一律用其组码相拼。但须特别注意:
——当某字有二至四个码元时,须加上该字的首、末两个笔画码。如:相=2911、想=29914、箱=112931等。
——当某字有五个码元时,须加上该字的首笔笔画代码。如:煎=817644、瞻=965852等。
——当某字有五个以上码元时。则第六码一律取其最后一码。如:觐=901735、壑=217185等。
4.凡《码元表》中已给出的码元一般以整体形式参加组拼,不得拆拼,如:盥=937213、围=911522、燕=904414等;另,凡由三个并列码元组成的字符。一般先取中间位置的。如:非=23321、兆=32834、兜=880335、燮=544044、率=412804等。
5.附较难掌握及容易混淆的组拼字36例:
         身=853333  追=800034  藏=955134  曹=176Il   鸦=053841  巫=48814
         象=606834  彝=518139  贯=50754   皿=72121   鬼=835434  那=62852
         肆=446222  豸=32633   觏=191755  眉=023951  曾=842641  弊=873039
         辫=615160  延=321554  卸=012523  殷=565303  遐=022000  长=37434
         馬=7424    門=2255    鬥=211525  韋=50552   夾=188814  蕭=960322
         龜=371125  齊=482682 
Figure A20041000756200044
=861543  婁=012421  鐵=125014  議=568134
具体实施方式
一.字典查字:
本“方案”用于字典查字,因涉及页码,故须附设《编码、汉字、页码对照表》(参见附件)。这样,见字生码,由码得字,据字知页,可大大加快查字速度。如:欲查“馨”字,先由编码规则确定其编码为502336,然后翻到《对照表》第“50五”部分往下找到“502336馨533”,即知该字在字典正文的第533页,据此查阅便是。
附:关于《编码、汉字、页码对照表》的说明:
1.此《表》系据《新华字典》(商务印书馆2004年1月第10版修订本)而编制,总计61页(附件给出的为第1、31、60页三页)共10145个汉字。
2.每个字的起笔基本按照《辞海》(上海辞书出版社1979年版缩印本)中的《辞海部首笔画笔形索引》表而定,惟有“力”、“皮”二字例外,“力”以“丿”作起笔,“皮”以“丨”作起笔。
二.手机输入:
本“方案”用于手机输入,其相关编码规则完全相同,且可实现单字、词语、标点符号以及阿拉伯数字的混合输入。
补充说明:
1.据实编统计,本“方案”对于《新华字典》中的10145个汉字,其重码率为7.26%,最多重码字个数为6个(仅一组,是1414:太丈玉灭麦灰);对于GB2312-80《信息交换用汉字编码字符集》中的6763个汉字字符,其重码率为6.54%。详细情况见附表。
2.本“方案”留有充分余地,可对其他大型字、词、辞典(书)或大字符集的汉字字符进行数码化编码。
附表:
  组号         对于《新华字典》(10145字)       对于BG2312《字符集》(6763字) 备注
  每组字数 重码字组数     重码率% 每组字数 重码字组数     重码率%
  1     1087     74     6.81     666     42     6.31
  2     975     81     8.31     664     54     8.13
  3     1054     71     6.74     687     38     5.53
  4     1048     75     7.16     677     42     6.20
  5     1019     62     6.08     685     35     5.11
  6     988     63     6.38     671     41     6.11
  7     991     68     6.86     683     41     6.00
  8     974     90     9.24     682     58     8.50
  9     1032     76     7.36     681     43     6.31
  0     977     77     7.88     667     48     7.20
“汉字数码化方案”之编码、汉字、页码对照表
               ——本表系据《新华字典》第10版编制——
    (汉字左边的数码为该汉字的编码,右边的数码为该汉字所在页的页码)
Figure A20041000756200081

Claims (1)

  1. 一种文字编码方案——“汉字数码化方案”(以下简称“方案”),其技术特征是将中文汉字用阿拉伯数字代码表示。“方案”内容简介如下:
    A.码元设置:本“方案”的码元设置具体见于下面的《“汉字数码化方案”码元表》(以下简称《码元表》),《表》中明确规定了码元与阿拉伯数字彼此间的对应关系。
                           “汉字数码化方案”码元表
    关于《码元表》的说明:
    a.本《码元表》为本“方案”的技术核心。
    b.本《表》共有十组(横向为组)八类(纵向为类)名称的码元计202个,采用形似、音似、意似等方法,以顺口溜的形式编排分布定位,相对易学易记。其主体码元的助记词为:
          金木水火土,手足人心口;         大中小工厂,日月天方舟;
          王止儿女言,予由耳目又;         竹门有广犬,习马米皮牛;
          下上我为了,刀乃力廿尸;         一二三四五,六七八九十;
          已而山巳午,立曲白久石:         甲乙丙丁文,子丑寅卯史;
          东南西北面,春夏秋冬年;         国泰民安生,家和万事成。
    B.编码规则:
    a.无论简体繁体以及字的笔画(码元)多少,最多以6个阿拉伯数字进行编码。
    b.凡《码元表》内标有数字的行、列中的字,均用两码——组码(横向数码)+织码(纵向数码)编码。如:木=21、成=09等。其中,“○”与作为“零头”的“雨”两字,则在原编码基础上再加织码一码,即:○=000、雨=066。此外,“金”、“言”二字在作为繁体字的左偏旁且又是第一码时,则用其本组代码加下组代码两码编码,即:釒=12、言=56。凡标有“SM”(“首”、“末”两字的拼音缩写)列中的字符,则均用其组码加该字的首、末两个笔画码编码。如:虫=224、彐=651等。其中,五个单笔画则用两码组码加“0”编码,即:一=110、丨=220、丿=330、丶=440、乛=550。
    c.凡《码元表》外众多需要“组拼”的字符,则一律用其组码相拼。但须特别注意:
    ——当某字有二至四个码元时,须加上该字的首、末两个笔画码。如:相=2911、想=29914、箱=112931等。
    ——当某字有五个码元时,须加上该字的首笔笔画代码。如:煎=817644、瞻=965852等。
    ——当某字有五个以上码元时,则第六码一律取其最后一码。如:觐=901735、壑=217185等。
    C.字典查字:
    本“方案”用于字典查字,因涉及页码,故须附设《编码、汉字、页码对照表》。本“方案”根据《新华字典》(商务印书馆2004年1月第10版修订本)编制了这一《对照表》。据此《表》查字可提高速度。
    D.手机输入:
    本“方案”用于手机输入,其相关编码规则完全相同,且可实现单字、词语、标点符号以及阿拉伯数字的混合输入。
CN 200410007562 2004-02-26 2004-02-26 汉字数码化方案 Pending CN1661594A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200410007562 CN1661594A (zh) 2004-02-26 2004-02-26 汉字数码化方案

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200410007562 CN1661594A (zh) 2004-02-26 2004-02-26 汉字数码化方案

Publications (1)

Publication Number Publication Date
CN1661594A true CN1661594A (zh) 2005-08-31

Family

ID=35010914

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200410007562 Pending CN1661594A (zh) 2004-02-26 2004-02-26 汉字数码化方案

Country Status (1)

Country Link
CN (1) CN1661594A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112287100A (zh) * 2019-07-12 2021-01-29 阿里巴巴集团控股有限公司 文本识别方法、拼写纠错方法及语音识别方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112287100A (zh) * 2019-07-12 2021-01-29 阿里巴巴集团控股有限公司 文本识别方法、拼写纠错方法及语音识别方法

Similar Documents

Publication Publication Date Title
CN1661594A (zh) 汉字数码化方案
CN1243277A (zh) 一种可用数字键盘输入的汉字输入方法及键盘
CN1074559C (zh) 构形识别码及其键盘
CN1025135C (zh) 汉字元音码计算机输入方法及键盘
CN1220931C (zh) 音形数码汉字输入法
CN1388696A (zh) 汉字象形数字编码方法及输入键盘
CN1595340A (zh) 通俗五笔字型法及其键盘
CN1313565A (zh) 网络(因特网)汉语输入技术
CN1167296A (zh) 四笔汉字码
CN2476059Y (zh) 姜码输入法的键盘
CN1120406C (zh) 计算机汉字部首输入方法
CN1207648C (zh) 五三码及其键盘
CN1534443A (zh) 自定义笔画数字键中文输入法
CN1466035A (zh) 优选编码部件汉字编码键盘及电脑输入方法
CN1056456C (zh) 优化合书汉字编码的计算机输入方法
CN1043381C (zh) 汉字四笔画数码输入法
CN1115055A (zh) 基于四角号码的汉字输入方法
CN1276557A (zh) 一种汉字和英文的数字小键盘输入方法
CN1100288C (zh) 四笔序音计算机汉字键盘输入方法
CN1369767A (zh) 一号码汉字输入法
CN1360246A (zh) 汉字编码数字化及其使用方法
CN1185602A (zh) 一种汉字编码输入系统
CN1288186A (zh) 一种电脑汉字输入码
CN1167994C (zh) 一二三四输入法
CN1749933A (zh) 拼音区位输入法(字母、符号键方案)

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication