CN104766101A - 一种基于寻找特征值的k近邻手写识别系统算法 - Google Patents
一种基于寻找特征值的k近邻手写识别系统算法 Download PDFInfo
- Publication number
- CN104766101A CN104766101A CN201510192532.4A CN201510192532A CN104766101A CN 104766101 A CN104766101 A CN 104766101A CN 201510192532 A CN201510192532 A CN 201510192532A CN 104766101 A CN104766101 A CN 104766101A
- Authority
- CN
- China
- Prior art keywords
- dimensional matrix
- character
- nearest neighbor
- matrix
- obtains
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 23
- 239000011159 matrix material Substances 0.000 claims abstract description 63
- 238000000034 method Methods 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims abstract description 8
- 230000008878 coupling Effects 0.000 claims 2
- 238000010168 coupling process Methods 0.000 claims 2
- 238000005859 coupling reaction Methods 0.000 claims 2
- 238000007781 pre-processing Methods 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Landscapes
- Character Discrimination (AREA)
Abstract
本发明涉及一种基于寻找特征值的K近邻手写识别系统算法,包括以下步骤:步骤S1:对字符图像进行预处理,将所述字符图像转化成1*A2二维矩阵;步骤S2:取不同字符的对照图像各B张作为训练集,经矩阵合并,阈值设定及数值重置得到其各字符对应的特征矩阵M;步骤S3:根据所述特征矩阵M及最近邻算法确定最终匹配的字符。本发明极大地降低了原本knn的计算复杂度和所需的存储空间,加快了手写输入的识别速度,让极大规模的最近邻的数据处理变为可能,并且该算法使每个训练集的字符都保持相对的独立,可以极大方便的将其转变为并行计算模型,进一步提升算法的执行速度和实用性。
Description
技术领域
本发明涉及一种基于寻找特征值的K近邻手写识别系统算法。
背景技术
手写字符识别是当前模式识别领域的研究热点,也是有难度的公开问题,由于其在生活中应用广泛,因此其具有深远的应用需求,近年来随着计算机技术和数字图像处理技术的飞速发展,手写识别在文字输入、电子商务、机器自动输入等场合已经获得成功的实际应用。
对于手写字符的识别,目前已经发展了很多种方法,其中有基于神经网络算法,基于概率统计算法,基于傅里叶变换算法,基于模板匹配算法和基于fisher分类算法等等,由于手写字体变体极多,识别效果仍然不理想。因此研究简单高效的手写识别依然是一个重要的研究方向。
发明内容
为实现上述目的,本发明采用如下技术方案:一种基于寻找特征值的K近邻手写识别系统算法,其特征在于包括以下步骤:
步骤S1:对字符图像进行预处理,将所述字符图像转化成1*A2二维矩阵,且A=32;
步骤S2:取不同字符的对照图像各B张作为训练集,经矩阵合并,阈值设定及数值重置得到其各字符对应的特征矩阵M,且B=100;
步骤S3:根据所述特征矩阵M及最近邻算法确定最终匹配的字符。
在本发明一实施例中,所述步骤S1的具体内容如下:先将所述字符图像变成A*A像素的0-1图像,再将所述A*A像素的0-1图像展平成1*A2二维矩阵,其中0代表没有手写笔迹的地方,1代表有手写笔迹的地方;
在本发明一实施例中,所述步骤S2的具体内容如下:
步骤S21:取同一字符的对照图像B张作为训练集,对每一张对照图像进行如步骤S1所述的预处理,可得到B个1*A2二维矩阵,进行合并得到一个B*A2二维矩阵;
步骤S22:将所述B*A2二维矩阵中相同列的值进行相加,得到一个新的1*A2二维矩阵,所述新的1*A2二维矩阵中每个数的取值范围为(0,B);
步骤S23:设定一阈值n,取步骤S22得到的1*A2二维矩阵中数值最大的n列,并将该n列的数值重置为1,其余A2-n列的数值重置为0,最终得到一个1*A2的0-1取值的二维矩阵M,M即为该字符的特征矩阵;
步骤S24:取其余字符按步骤S21至步骤S23处理,分别得到其相应的特征矩阵M。
在本发明一实施例中,所述步骤S3的具体内容如下:
步骤S31:将待识别图像按步骤S1处理,转化成1*A2二维矩阵;
步骤S32:将步骤S31得到的1*A2二维矩阵分别与步骤S2得到若干个特征矩阵M的倒置相乘,得到若干个特征值;
步骤S33:取所述若干个特征值最大的前i个特征值对应的B*A2二维矩阵,运用最近邻算法将i个B*A2二维矩阵分别与待识别图像对应的1*A2二维矩阵求得的欧式距离进行比较,取其中的最小值,所述最小值对应的字符即为最终匹配的字符。
本发明与现有技术相比具有以下有益效果:本发明极大减少了直接使用最近邻算法(knn)进行文字识别时的计算复杂度的问题及其所需要的大量存储空间,当直接使用knn进行100*1024的二维矩阵的匹配时,需要为每个测试向量做2000次距离计算,每个距离计算包括1024个维度浮点运算,总共要执行900次,而这个在匹配超过107以上的字符时,其计算复杂度将是不可接受的。
附图说明
图1是本发明方法流程图。
图2是本发明实施例字符0的32*32像素0-1矩阵图。
图3是本发明实施例字符1的32*32像素0-1矩阵图。
图4是本发明实施例字符2的32*32像素0-1矩阵图。
图5是本发明实施例字符0生成的100*1024矩阵局部图。
图6是本发明实施例字符0特征矩阵局部图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
请参照图1,本发明提供一种基于寻找特征值的K近邻手写识别系统算法,其特征在于包括以下步骤:
步骤S1:对字符图像进行预处理,将所述字符图像转化成1*A2二维矩阵,于本实施例中基于计算精确度及方便计算机储存的角度出发,将A设为32,即生成1*1024二维矩阵,具体内容如下:先将所述字符图像变成32*32像素的0-1图像,再将所述32*32像素的0-1图像展平成1*1024二维矩阵,其中0代表没有手写笔迹的地方,1代表有手写笔迹的地方,如图2、图3、图4所示分别为字符0、1、2的32*32像素0-1矩阵图。
步骤S2:取不同字符的对照图像各B张作为训练集,经矩阵合并,阈值设定及数值重置得到其各字符对应的特征矩阵M,于本实施例中基于计算精确度及方便计算机储存的角度出发,将B设为100;
所述步骤S2的具体内容如下:
步骤S21:取同一字符的对照图像100张作为训练集,对每一张对照图像进行如步骤S1所述的预处理,可得到100个1*1024二维矩阵,进行合并得到一个100*1024二维矩阵;如图5所示为字符0生成的100*1024矩阵局部图。
步骤S22:将所述100*1024二维矩阵中相同列的值进行相加,得到一个新的1*1024二维矩阵,所述新的1*1024二维矩阵中每个数的取值范围为(0,100);
步骤S23:设定一阈值n,取步骤S22得到的1*1024二维矩阵中数值最大的n列,并将该n列的数值重置为1,其余1024-n列的数值重置为0,最终得到一个1*1024的0-1取值的二维矩阵M,M即为该字符的特征矩阵,图6所示为字符0特征矩阵局部图。
步骤S24:取其余字符按步骤S21至步骤S23处理,分别得到其相应的特征矩阵M。
步骤S3:根据所述特征矩阵M及最近邻算法确定最终匹配的字符。
所述步骤S3的具体内容如下:
步骤S31:将待识别图像按步骤S1处理,转化成1*1024二维矩阵;
步骤S32:将步骤S31得到的1*A2二维矩阵分别与步骤S2得到若干个特征矩阵M的倒置相乘,得到若干个特征值;
步骤S33:取所述若干个特征值最大的前i个特征值对应的100*1024二维矩阵,运用最近邻算法将i个100*1024二维矩阵分别与待识别图像对应的1*1024二维矩阵求得的欧式距离进行比较,取其中的最小值,所述最小值对应的字符即为最终匹配的字符。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。
Claims (3)
1.一种基于寻找特征值的K近邻手写识别系统算法,其特征在于包括以下步骤:
步骤S1:对字符图像进行预处理,将所述字符图像转化成1*A2二维矩阵,且A=32;
步骤S2:取不同字符的对照图像各B张作为训练集,经矩阵合并,阈值设定及数值重置得到其各字符对应的特征矩阵M,且B=100;
步骤S3:根据所述特征矩阵M及最近邻算法确定最终匹配的字符。
2.根据权利要求1所述的基于寻找特征值的K近邻手写识别系统算法,其特征在于:所述步骤S1的具体内容如下:先将所述字符图像变成A*A像素的0-1图像,再将所述A*A像素的0-1图像展平成1*A2二维矩阵,其中0代表没有手写笔迹的地方,1代表有手写笔迹的地方;
根据权利要求1所述的基于寻找特征值的K近邻手写识别系统算法,其特征在于:所述步骤S2的具体内容如下:
步骤S21:取同一字符的对照图像B张作为训练集,对每一张对照图像进行如步骤S1所述的预处理,可得到B个1*A2二维矩阵,进行合并得到一个B*A2二维矩阵;
步骤S22:将所述B*A2二维矩阵中相同列的值进行相加,得到一个新的1*A2二维矩阵,所述新的1*A2二维矩阵中每个数的取值范围为(0,B);
步骤S23:设定一阈值n,取步骤S22得到的1*A2二维矩阵中数值最大的n列,并将该n列的数值重置为1,其余A2-n列的数值重置为0,最终得到一个1*A2的0-1取值的二维矩阵M,M即为该字符的特征矩阵;
步骤S24:取其余字符按步骤S21至步骤S23处理,分别得到其相应的特征矩阵M。
3.根据权利要求1所述的基于寻找特征值的K近邻手写识别系统算法,其特征在于:所述步骤S3的具体内容如下:
步骤S31:将待识别图像按步骤S1处理,转化成1*A2二维矩阵;
步骤S32:将步骤S31得到的1*A2二维矩阵分别与步骤S2得到若干个特征矩阵M的倒置相乘,得到若干个特征值;
步骤S33:取所述若干个特征值最大的前i个特征值对应的B*A2二维矩阵,运用最近邻算法将i个B*A2二维矩阵分别与待识别图像对应的1*A2二维矩阵求得的欧式距离进行比较,取其中的最小值,所述最小值对应的字符即为最终匹配的字符。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510192532.4A CN104766101B (zh) | 2015-04-22 | 2015-04-22 | 一种基于寻找特征值的k近邻手写识别系统算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510192532.4A CN104766101B (zh) | 2015-04-22 | 2015-04-22 | 一种基于寻找特征值的k近邻手写识别系统算法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104766101A true CN104766101A (zh) | 2015-07-08 |
CN104766101B CN104766101B (zh) | 2018-02-06 |
Family
ID=53647915
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510192532.4A Active CN104766101B (zh) | 2015-04-22 | 2015-04-22 | 一种基于寻找特征值的k近邻手写识别系统算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104766101B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111460102A (zh) * | 2020-03-31 | 2020-07-28 | 成都数之联科技有限公司 | 一种基于自然语言处理的图表推荐系统及方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1664846A (zh) * | 2005-04-01 | 2005-09-07 | 清华大学 | 基于统计结构特征的联机手写汉字识别方法 |
US7400768B1 (en) * | 2001-08-24 | 2008-07-15 | Cardiff Software, Inc. | Enhanced optical recognition of digitized images through selective bit insertion |
CN102073871A (zh) * | 2011-01-12 | 2011-05-25 | 广州市伟时信息系统技术有限公司 | 一种基于非负矩阵分解的离线中文字符识别方法 |
CN103544504A (zh) * | 2013-11-18 | 2014-01-29 | 康江科技(北京)有限责任公司 | 一种基于多尺度图匹配核的场景字符识别方法 |
-
2015
- 2015-04-22 CN CN201510192532.4A patent/CN104766101B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7400768B1 (en) * | 2001-08-24 | 2008-07-15 | Cardiff Software, Inc. | Enhanced optical recognition of digitized images through selective bit insertion |
CN1664846A (zh) * | 2005-04-01 | 2005-09-07 | 清华大学 | 基于统计结构特征的联机手写汉字识别方法 |
CN102073871A (zh) * | 2011-01-12 | 2011-05-25 | 广州市伟时信息系统技术有限公司 | 一种基于非负矩阵分解的离线中文字符识别方法 |
CN103544504A (zh) * | 2013-11-18 | 2014-01-29 | 康江科技(北京)有限责任公司 | 一种基于多尺度图匹配核的场景字符识别方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111460102A (zh) * | 2020-03-31 | 2020-07-28 | 成都数之联科技有限公司 | 一种基于自然语言处理的图表推荐系统及方法 |
CN111460102B (zh) * | 2020-03-31 | 2022-09-09 | 成都数之联科技股份有限公司 | 一种基于自然语言处理的图表推荐系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104766101B (zh) | 2018-02-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109740534B (zh) | 图像处理方法、装置及处理设备 | |
CN112257738B (zh) | 机器学习模型的训练方法、装置和图像的分类方法、装置 | |
US10867169B2 (en) | Character recognition using hierarchical classification | |
CN105447473A (zh) | 一种基于PCANet-CNN的任意姿态人脸表情识别方法 | |
CN108197666A (zh) | 一种图像分类模型的处理方法、装置及存储介质 | |
Zhang et al. | 3D face recognition based on multiple keypoint descriptors and sparse representation | |
CN109977958A (zh) | 一种离线手写体数学公式识别重构方法 | |
CN109325440A (zh) | 人体动作识别方法及系统 | |
CN113095333A (zh) | 无监督特征点检测方法及装置 | |
CN108062559A (zh) | 一种基于多重感受野的图像分类方法、系统及装置 | |
CN110414622B (zh) | 基于半监督学习的分类器训练方法及装置 | |
CN113987188A (zh) | 一种短文本分类方法、装置及电子设备 | |
Lv et al. | Chinese character CAPTCHA recognition based on convolution neural network | |
CN116091551A (zh) | 一种基于多模态融合的目标检索跟踪方法及系统 | |
JP2015036939A (ja) | 特徴抽出プログラム及び情報処理装置 | |
Rehman et al. | A scale and rotation invariant urdu nastalique ligature recognition using cascade forward backpropagation neural network | |
Shukla et al. | Face Recognition using LBPH and CNN | |
Boudraa et al. | Combination of local features and deep learning to historical manuscripts dating | |
CN104766101B (zh) | 一种基于寻找特征值的k近邻手写识别系统算法 | |
CN111951287A (zh) | 一种二维码检测和识读方法 | |
CN116957051A (zh) | 一种优化特征提取的遥感图像弱监督目标检测方法 | |
Liang et al. | Facial feature extraction method based on shallow and deep fusion CNN | |
CN117058736A (zh) | 基于关键点检测的人脸误检识别方法、装置、介质和设备 | |
Li et al. | Research on hybrid information recognition algorithm and quality of golf swing | |
CN111695526B (zh) | 网络模型生成方法、行人重识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |