CN109271610A - 一种汉字的向量表达方法 - Google Patents
一种汉字的向量表达方法 Download PDFInfo
- Publication number
- CN109271610A CN109271610A CN201810838971.1A CN201810838971A CN109271610A CN 109271610 A CN109271610 A CN 109271610A CN 201810838971 A CN201810838971 A CN 201810838971A CN 109271610 A CN109271610 A CN 109271610A
- Authority
- CN
- China
- Prior art keywords
- chinese character
- chinese
- stroke
- character
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明涉及一种汉字的向量表达方法,属于汉语信息处理技术领域。本发明通过中文点阵字库提取汉字的矩阵特征,通过五笔书写顺序规则提取汉字的笔画特征,通过汉语拼音数据库提取汉字的拼音特征,将汉字所对应的三种特征以一定的规则生成16维空间特征向量,该特征向量在计算机处理汉字时可以替代汉字进行相关计算。本发明与现有技术相比,主要解决了现有技术在计算机处理汉字时支持度低、不利于编程实现等现象,增加了目前依靠计算机对汉字进行处理的灵活性。
Description
技术领域
本发明涉及一种汉字的向量表达方法,属于汉语信息处理技术领域。
背景技术
在汉语研究中,将汉字表示为数学表达式后可以对汉字进行计算机处理,有助于研究汉字的字形相似,对汉语教学、汉文编辑、汉文机器识别等业务具有重要意义。
目前,将汉字表示为数学表达式的方法主要是根据汉字的笔画、偏旁、拼音等固有属性对其进行编码实现,但是在汉语中拼旁部首有非常多,特别是针对一些复杂的复合字来讲,这种方式只能在理论研究中使用,在计算机处理中却难以实现。
发明内容
本发明要解决的技术问题是针对现有技术的局限和不足,提供一种汉字的向量表达方法,以解决现有技术在计算机处理汉字时支持度低、不利于编程实现等现象,致力于增加目前依靠计算机对汉字进行处理的灵活性。
本发明的技术方案是:一种汉字的向量表达方法,具体步骤为:
Step1:获取汉字X;
Step2:提取汉字X的矩阵特征,即根据16×15像素中文点阵字库,将点阵按照从上至下的规则(i=1→8)划分为8个2×15像素的小矩阵,记2×15像素小矩阵中汉字X所占像素数为pi,i∈[1,8],记p1,p2,…,p8为汉字X的矩阵特征;
Step3:提取汉字X的笔画特征,即按照汉字五笔书写顺序规则,将横、竖、撇、捺、折编码为字母a、b、c、d、e,生成汉字X所对应的笔顺编码字符串x1x2…xz,其中z为汉字X的笔画数,xi为汉字X第i笔的笔画,并且xi∈{a,b,c,d,e},i∈[1,z];同时由笔顺编码字符串x1x2…xz提取出横、竖、撇、捺、折各自所占笔画数za、zb、zc、zd、ze;
Step4:提取汉字X的拼音特征,即根据汉语拼音数据库获取汉字X的常用读音StrpX;同时将读音StrpX分为声母StrsX、韵母StryX和拼音声调StrdX,以及声母、韵母和拼音声调所对应的编码数字IntsX、IntyX和IntdX;
Step5:由Step2、Step3、Step4步骤所产生的数据,按照p1、p2、p3、p4、p5、p6、p7、p8、z1、z2、z3、z4、z5、IntsX、IntyX、IntdX的顺序生成汉字X的16维空间特征向量
进一步的,所述步骤Step2中,2×15像素小矩阵中汉字所占像素数pi,i∈[1,8]应满足公式(1)的要求:
0≤pi≤30,i∈[1,8] (1)。
进一步的,所述步骤Step3中,汉字X的笔画数z,以及横、竖、撇、捺、折各自所占笔画数za、zb、zc、zd、ze,应满足公式(2)的要求:
进一步的,所述步骤Step4中,将汉语拼音字母表中21个声母按顺序编码为数字1~21;将汉语拼音字母表中39个韵母按顺序编码为数字1~39;将将汉语拼音字母表中4个拼音声调按顺序编码为数字1~4;若汉字X没有声母StrsX或韵母StryX,则将IntsX或IntyX赋值为0;即声母、韵母和拼音声调所对应的编码数字IntsX、IntyX和IntdX满足公式(3)的要求:
本发明的有益效果是:本发明与现有技术相比,主要解决了现有技术在计算机处理汉字时支持度低、不利于编程实现等现象,增加了目前依靠计算机对汉字进行处理的灵活性。
附图说明
图1是本发明流程示意图;
图2是本发明16×15像素中文点阵示意图;
图3是本发明实施例1中所使用的汉字点阵示意图。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
实施例1:如图1所示,一种汉字的向量表达形式,具体步骤为:
Step1:获取汉字X;
Step2:提取汉字X的矩阵特征,即根据16×15像素中文点阵字库,将点阵按照从上至下的规则(i=1→8)划分为8个2×15像素的小矩阵,记2×15像素小矩阵中汉字X所占像素数为pi,i∈[1,8],记p1,p2,…,p8为汉字X的矩阵特征;
Step3:提取汉字X的笔画特征,即按照汉字五笔书写顺序规则,将横、竖、撇、捺、折编码为字母a、b、c、d、e,生成汉字X所对应的笔顺编码字符串x1x2…xz,其中z为汉字X的笔画数,xi为汉字X第i笔的笔画,并且xi∈{a,b,c,d,e},i∈[1,z];同时由笔顺编码字符串x1x2…xz提取出横、竖、撇、捺、折各自所占笔画数za、zb、zc、zd、ze;
Step4:提取汉字X的拼音特征,即根据汉语拼音数据库获取汉字X的常用读音StrpX;同时将读音StrpX分为声母StrsX、韵母StryX和拼音声调StrdX,以及声母、韵母和拼音声调所对应的编码数字IntsX、IntyX和IntdX;
Step5:由Step2、Step3、Step4步骤所产生的数据,按照p1、p2、p3、p4、p5、p6、p7、p8、z1、z2、z3、z4、z5、IntsX、IntyX、IntdX的顺序生成汉字X的16维空间特征向量
所述步骤Step1中,汉字X可以是编码方式为Unicode的中日韩统一表意文字基本字符集所收录的20902个汉字(Unicode码为4E00~9FA5)。
所述步骤Step2中,16×15像素中文点阵如附图2所示,以虚线组成的小方格作为像素点,共计240个像素点;以实线组成2×15像素的小矩阵,共计8个2×15像素的小矩阵。
所述步骤Step2中,2×15像素小矩阵中汉字所占像素数pi,i∈[1,8]应满足公式(1)的要求。
0≤pi≤30,i∈[1,8] (1)。
所述步骤Step3中,汉字X的笔画数z,以及横、竖、撇、捺、折各自所占笔画数za、zb、zc、zd、ze,应满足公式(2)的要求。
所述步骤Step4中,将汉语拼音字母表中21个声母按顺序编码为数字1~21;将汉语拼音字母表中39个韵母按顺序编码为数字1~39;将将汉语拼音字母表中4个拼音声调按顺序编码为数字1~4;需注意若汉字X没有声母StrsX或韵母StryX,则将IntsX或IntyX赋值为0;即声母、韵母和拼音声调所对应的编码数字IntsX、IntyX和IntdX满足公式(3)的要求。
实施例2:如图1所示,一种汉字的向量表达形式,通过中文点阵字库提取汉字的矩阵特征,通过五笔书写顺序规则提取汉字的笔画特征,通过汉语拼音数据库提取汉字的拼音特征,将汉字所对应的三种特征以一定的规则生成16维空间特征向量,该特征向量在计算机处理汉字时可以替代汉字进行相关计算。
Step1:获取汉字X;
具体的:所获取的汉字X为“藉”;
Step2:提取汉字X的矩阵特征,即根据16×15像素中文点阵字库,将点阵按照从上至下的规则(i=1→8)划分为8个2×15像素的小矩阵,记2×15像素小矩阵中汉字X所占像素数为pi,i∈[1,8],记p1,p2,…,p8为汉字X的矩阵特征;
具体的:汉字“藉”所对应的汉字点阵如附图3所示,由附图可得到p1=4、p2=17、p3=14、p4=10、p5=16、p6=12、p7=14、p8=10;
Step3:提取汉字X的笔画特征,即按照汉字五笔书写顺序规则,将横、竖、撇、捺、折编码为字母a、b、c、d、e,生成汉字X所对应的笔顺编码字符串x1x2…xz,其中z为汉字X的笔画数,xi为汉字X第i笔的笔画,并且xi∈{a,b,c,d,e},i∈[1,z];同时由笔顺编码字符串x1x2…xz提取出横、竖、撇、捺、折各自所占笔画数za、zb、zc、zd、ze;
具体的:汉字“藉”所对应的笔顺编码字符串为abbaaabcdabbabeaa,其中z=17,横、竖、撇、捺、折各自所占笔画数za=8、zb=6、zc=1、zd=1、ze=1;
Step4:提取汉字X的拼音特征,即根据汉语拼音数据库获取汉字X的常用读音StrpX;同时将读音StrpX分为声母StrsX、韵母StryX和拼音声调StrdX,以及声母、韵母和拼音声调所对应的编码数字IntsX、IntyX和IntdX;
具体的:汉字“藉”所对应的常用读音StrpX为“ji”,声母StrsX为“j”,韵母StryX为“i”,拼音声调StrdX为二声,同时声母、韵母和拼音声调所对应的编码数字IntsX、IntyX和IntdX分别为12、4和2。
Step5:由Step2、Step3、Step4步骤所产生的数据,按照p1、p2、p3、p4、p5、p6、p7、p8、z1、z2、z3、z4、z5、IntsX、IntyX、IntdX的顺序生成汉字X的16维空间特征向量
具体的:汉字“藉”的16维空间特征向量为{4,17,14,10,16,12,14,10,8,6,1,1,1,12,4,2}。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (4)
1.一种汉字的向量表达方法,其特征在于具体步骤为:
Step1:获取汉字X;
Step2:提取汉字X的矩阵特征,即根据16×15像素中文点阵字库,将点阵按照从上至下的规则(i=1→8)划分为8个2×15像素的小矩阵,记2×15像素小矩阵中汉字X所占像素数为pi,i∈[1,8],记p1,p2,…,p8为汉字X的矩阵特征;
Step3:提取汉字X的笔画特征,即按照汉字五笔书写顺序规则,将横、竖、撇、捺、折编码为字母a、b、c、d、e,生成汉字X所对应的笔顺编码字符串x1x2…xz,其中z为汉字X的笔画数,xi为汉字X第i笔的笔画,并且xi∈{a,b,c,d,e},i∈[1,z];同时由笔顺编码字符串x1x2…xz提取出横、竖、撇、捺、折各自所占笔画数za、zb、zc、zd、ze;
Step4:提取汉字X的拼音特征,即根据汉语拼音数据库获取汉字X的常用读音StrpX;同时将读音StrpX分为声母StrsX、韵母StryX和拼音声调StrdX,以及声母、韵母和拼音声调所对应的编码数字IntsX、IntyX和IntdX;
Step5:由Step2、Step3、Step4步骤所产生的数据,按照p1、p2、p3、p4、p5、p6、p7、p8、z1、z2、z3、z4、z5、IntsX、IntyX、IntdX的顺序生成汉字X的16维空间特征向量
2.根据权利要求1所述的汉字的向量表达方法,其特征在于:所述步骤Step2中,2×15像素小矩阵中汉字所占像素数pi,i∈[1,8]应满足公式(1)的要求:
0≤pi≤30,i∈[1,8] (1)。
3.根据权利要求1所述的汉字的向量表达方法,其特征在于:所述步骤Step3中,汉字X的笔画数z,以及横、竖、撇、捺、折各自所占笔画数za、zb、zc、zd、ze,应满足公式(2)的要求:
4.根据权利要求1所述的汉字的向量表达方法,其特征在于:所述步骤Step4中,将汉语拼音字母表中21个声母按顺序编码为数字1~21;将汉语拼音字母表中39个韵母按顺序编码为数字1~39;将将汉语拼音字母表中4个拼音声调按顺序编码为数字1~4;若汉字X没有声母StrsX或韵母StryX,则将IntsX或IntyX赋值为0;即声母、韵母和拼音声调所对应的编码数字IntsX、IntyX和IntdX满足公式(3)的要求:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810838971.1A CN109271610A (zh) | 2018-07-27 | 2018-07-27 | 一种汉字的向量表达方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810838971.1A CN109271610A (zh) | 2018-07-27 | 2018-07-27 | 一种汉字的向量表达方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109271610A true CN109271610A (zh) | 2019-01-25 |
Family
ID=65153319
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810838971.1A Pending CN109271610A (zh) | 2018-07-27 | 2018-07-27 | 一种汉字的向量表达方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109271610A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109858039A (zh) * | 2019-03-01 | 2019-06-07 | 北京奇艺世纪科技有限公司 | 一种文本信息识别方法及识别装置 |
CN111091001A (zh) * | 2020-03-20 | 2020-05-01 | 支付宝(杭州)信息技术有限公司 | 一种词语的词向量的生成方法、装置及设备 |
CN111597815A (zh) * | 2020-05-22 | 2020-08-28 | 北京慧闻科技(集团)有限公司 | 一种多嵌入命名实体识别方法、装置、设备及存储介质 |
CN112507866A (zh) * | 2020-12-03 | 2021-03-16 | 润联软件系统(深圳)有限公司 | 一种汉字字向量生成方法、装置、计算机设备及存储介质 |
CN113627175A (zh) * | 2021-08-17 | 2021-11-09 | 北京计算机技术及应用研究所 | 一种利用正交变换计算汉语词向量的方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1283937A (zh) * | 1999-07-07 | 2001-02-14 | 陈有垦 | 一种使汉语数字化的技术 |
CN1420422A (zh) * | 2001-11-20 | 2003-05-28 | 侯朋太 | 码元用笔划集合数表示法及用途 |
CN101655840A (zh) * | 2009-09-11 | 2010-02-24 | 潘昌仁 | 汉语语音数字化方法和装置 |
CN105824793A (zh) * | 2016-05-25 | 2016-08-03 | 潘昌仁 | 将汉字转化为数字及拉丁字母的处理系统、方法和装置 |
CN108009253A (zh) * | 2017-12-05 | 2018-05-08 | 昆明理工大学 | 一种改进的字符串相似对比方法 |
CN108154167A (zh) * | 2017-12-04 | 2018-06-12 | 昆明理工大学 | 一种汉字字形相似度计算方法 |
-
2018
- 2018-07-27 CN CN201810838971.1A patent/CN109271610A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1283937A (zh) * | 1999-07-07 | 2001-02-14 | 陈有垦 | 一种使汉语数字化的技术 |
CN1420422A (zh) * | 2001-11-20 | 2003-05-28 | 侯朋太 | 码元用笔划集合数表示法及用途 |
CN101655840A (zh) * | 2009-09-11 | 2010-02-24 | 潘昌仁 | 汉语语音数字化方法和装置 |
CN105824793A (zh) * | 2016-05-25 | 2016-08-03 | 潘昌仁 | 将汉字转化为数字及拉丁字母的处理系统、方法和装置 |
CN108154167A (zh) * | 2017-12-04 | 2018-06-12 | 昆明理工大学 | 一种汉字字形相似度计算方法 |
CN108009253A (zh) * | 2017-12-05 | 2018-05-08 | 昆明理工大学 | 一种改进的字符串相似对比方法 |
Non-Patent Citations (1)
Title |
---|
朱甦: "《潜山方言》", 31 January 2017 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109858039A (zh) * | 2019-03-01 | 2019-06-07 | 北京奇艺世纪科技有限公司 | 一种文本信息识别方法及识别装置 |
CN109858039B (zh) * | 2019-03-01 | 2023-09-05 | 北京奇艺世纪科技有限公司 | 一种文本信息识别方法及识别装置 |
CN111091001A (zh) * | 2020-03-20 | 2020-05-01 | 支付宝(杭州)信息技术有限公司 | 一种词语的词向量的生成方法、装置及设备 |
CN111597815A (zh) * | 2020-05-22 | 2020-08-28 | 北京慧闻科技(集团)有限公司 | 一种多嵌入命名实体识别方法、装置、设备及存储介质 |
CN112507866A (zh) * | 2020-12-03 | 2021-03-16 | 润联软件系统(深圳)有限公司 | 一种汉字字向量生成方法、装置、计算机设备及存储介质 |
CN112507866B (zh) * | 2020-12-03 | 2021-07-13 | 润联软件系统(深圳)有限公司 | 一种汉字字向量生成方法、装置、计算机设备及存储介质 |
CN113627175A (zh) * | 2021-08-17 | 2021-11-09 | 北京计算机技术及应用研究所 | 一种利用正交变换计算汉语词向量的方法 |
CN113627175B (zh) * | 2021-08-17 | 2024-05-28 | 北京计算机技术及应用研究所 | 一种利用正交变换计算汉语词向量的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109271610A (zh) | 一种汉字的向量表达方法 | |
CN101630311B (zh) | 一种文字的显示方法及显示设备 | |
CN102682022B (zh) | 一种汉字全息活字库的实现方法 | |
US20100106481A1 (en) | Integrated system for recognizing comprehensive semantic information and the application thereof | |
CN102929394A (zh) | 一种基于手势识别的盲文输入法 | |
CN103616960A (zh) | 六元音字母双拼输入法 | |
CN104408037A (zh) | 藏文文本的向量模型表示方法 | |
CN102750000A (zh) | 双拼王输入法 | |
CN105045410A (zh) | 一种形式化拼音和汉字对应识别的方法 | |
CN103207684A (zh) | 音素字母双拼输入法 | |
CN101477408B (zh) | 东巴文图元输入法 | |
CN100501656C (zh) | 一种音形结合的向电子设备中手写汉字的输入法 | |
Weigang et al. | Six-Writings multimodal processing with pictophonetic coding to enhance Chinese language models | |
CN105912139B (zh) | 一种模块化笔画编码汉字对应识别的方法 | |
CN102368177B (zh) | 新汉字声韵输入方法及输入键盘 | |
CN106227363B (zh) | 拼音基础上的精确汉字编码和键盘输入方法 | |
CN100501649C (zh) | 一种汉字形声编码输入法 | |
CN102508557A (zh) | 汉字三笔输入法 | |
KR101384455B1 (ko) | 컴퓨터·전자사전·스마트폰 키보드 일본어 자모 배열 | |
CN102156616B (zh) | 触摸屏写键输入方法 | |
CN106325540B (zh) | 一种滇东北次方言苗文的简笔输入法及其应用 | |
CN1053049C (zh) | 音数码计算机汉字输入方法 | |
CN110781678A (zh) | 一种基于矩阵形式的文本表示方法 | |
CN104111736A (zh) | 音素字母双拼输入法 | |
CN102141844B (zh) | 带声、韵、调读音的汉字内码输入法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190125 |
|
RJ01 | Rejection of invention patent application after publication |