CN100338621C - 有限字符样本集上特征值误差补偿及参数分布修正方法 - Google Patents
有限字符样本集上特征值误差补偿及参数分布修正方法 Download PDFInfo
- Publication number
- CN100338621C CN100338621C CNB2005100249265A CN200510024926A CN100338621C CN 100338621 C CN100338621 C CN 100338621C CN B2005100249265 A CNB2005100249265 A CN B2005100249265A CN 200510024926 A CN200510024926 A CN 200510024926A CN 100338621 C CN100338621 C CN 100338621C
- Authority
- CN
- China
- Prior art keywords
- eigenvalue
- vector
- error compensation
- eigenwert
- parameter distribution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Complex Calculations (AREA)
- Image Analysis (AREA)
Abstract
一种有限字符样本集上特征值误差补偿及参数分布修正方法。以最小的主特征值替换次特征值,并采用非对称模型描述特征矢量在优势主向量上的分布,分别用于减小次主向量空间和优势主向量空间导致的总体距离偏差来实现误差补偿及参数分布修正。本发明计算简单,识别时不需要任何额外的计算开销,能够更精确地刻画实际样本的分布情况,能显著地提高识别的精度。
Description
技术领域
本发明涉及的是一种用于统计模式识别技术领域的方法,具体地说,是一种有限字符样本集上特征值误差补偿及参数分布修正方法。
背景技术
马氏距离是模式识别中一个有效的相似性测度,可以采用从主向量分析(PCA)中得到的特征值-特征向量表达。PCA对描述数据的原坐标系进行正交变换,是从可能的高维数据中提取结构的有效技术。PCA可以通过解特征值问题或采用估计主向量的迭代算法实施,描述数据的新坐标值被称为主向量,通常采用主向量表达数据的结构比原坐标系要有效得多。然而,当可以利用的样本数量有限时,PCA计算的特征值通常包含误差。传统的马氏距离是在多变量正态分布概率密度函数的假设下推导出来的,因此,如果样本的分布服从多变量正态分布,马氏距离被认为是一个合适的测度指标。然而,研究发现样本的分布与正态分布有较大的差异,其中包括类内样本分布的非对称特性。因此需要采用改进的马氏距离来计算未知模式的特征矢量与某类的均值矢量之间的距离。
经对现有技术文献的检索发现,N.Kato,M.Suzuki,S.Omachi,H.Aso and Y.Nemoto在“采用方向元素特征和非对称马氏距离的手写字符识别系统”(电子电器工程师协会模式分析与机器智能学报,1999,21(3):258-262.)一文中,采用对特征值加上偏移量的方法对所有的特征值进行误差补偿,并采用非对称模型描述所有主向量上的参数分布。其不足之处是,马氏距离在次主向量(对应于较小的特征值)上的偏差远大于在优势主向量上的偏差,对主特征值进行误差补偿可能同时增加类间的相似度;同时次特征值通常很小而且存在较大误差,因此无法精确地在相应的次主向量上对参数进行非对称分布描述。
发明内容
本发明的目的在于克服现有技术中的不足和缺陷,提供一种有限字符样本集上特征值误差补偿及参数分布修正方法,采用非对称分布对多变量正态分布假设进行修正,可以更精确地刻画实际样本的分布情况,能够显著地提高手写体数字字符的识别精度。
本发明是通过以下技术方案实现的,本发明以最小的主特征值替换次特征值,并采用非对称模型描述特征矢量在优势主向量上的分布,分别用于减小次主向量空间和优势主向量空间导致的总体距离偏差来实现误差补偿及参数分布修正。。
本发明的具体步骤如下:
(1)计算各类样本的均值特征矢量和协方差矩阵。这两个参数描述样本在特征矢量空间的分布状况,是本发明进行特征值误差补偿及参数分布修正的基础。其中,某类的均值特征矢量表示该类的质心,协方差矩阵表示该类样本分布的离散程度;
(2)对协方差矩阵进行对角化。通过PCA对描述数据的原坐标系进行正交变换,得到特征向量矩阵和特征值矩阵,有效地提取这些数据的结构。特征向量矩阵表示描述数据的新坐标系,描述数据的新坐标值被称为主向量,特征值则表示相应主向量上参数分布的离散程度。采用主向量表达数据的结构比原坐标系要有效得多,本发明的误差补偿及参数分布修正是在主向量空间进行的。
(3)根据设定的阈值分别选择每类的主特征值,其余为次特征值,通过采用最小的主特征值替换所有的次特征值对次特征值进行误差补偿;对应于主特征值的特征向量为优势主向量,对应于次特征值的特征向量为次主向量。对由于有限样本导致的次特征误差进行补偿,可以显著减少马氏距离在次主向量空间的误差。
(4)根据非对称假设计算优势特征向量上的准方差,准方差表示参数在均值特征矢量两侧分布的离散程度,并描述了参数在均值特征矢量两侧分布的非对称性。可以降低由于多变量正态分布假设导致的马氏距离在优势主向量空间的误差。
(5)采用上述计算得到的准方差和修正后的特征值替换传统马氏距离计算中的相应的特征值项,完成对马氏距离计算的修正。此处同时考虑了次特征值误差和优势主向量上非对称分布的影响,可以显著降低马氏距离的计算误差,从而显著地提高识别的精度。
本发明的有益效果是:本发明计算简单,针对性和通用性好,识别时不需要任何额外的计算开销,能够更精确地刻画实际样本的分布情况,能显著地提高识别的精度,满足手写体数字字符识别速度快,精度高的要求。
具体实施方式
为了更好地理解本发明的技术方案,该部分将做进一步详细描述,并在最后给出一个实施例。
1)有限样本集上的主向量分解
①根据某类的M个训练样本xk,k=1,…,M,其中xk∈RN,计算均值矢量
μ和协方差矩阵ΣX:
②协方差矩阵对角化。将协方差矩阵ΣX被分解为特征值矩阵与特征向量矩阵的乘积:
∑X=UDUT
其中,U是特征向量矩阵,且UTU=I,D是由特征值构成的对角矩阵。λj和φj分别是协方差矩阵的第j个特征值和特征向量。
③以U为变换矩阵,将N维矢量X线性变换为N维矢量Y:
Y=UTX
变换后的协方差矩阵为:∑Y=UT∑XU=D
④对Y进行D-1/2变换,将协方差矩阵变换为单位矩阵I。
Y=D-1/2UTX=(UD-1/2)TX
∑Y=D-1/2UT∑XUD-1/2=D-1/2DD-1/2=I
⑤计算白化变换后的距离测度:
上式表明,白化变换空间的距离实际上就是未知模式的特征矢量x与某类的均值矢量
μ之间的马氏距离,可以采用特征值-特征向量的方式表达如下:
有时,某些类的协方差矩阵是奇异矩阵,因此,计算马氏距离时,首先需要计算该协方差矩阵的伪逆矩阵。本质上,采用上式计算马氏距离将不可避免地遇到(x-
μ,φj)2/(λj)=0/0的情况。
2)本发明的次特征值的误差补偿
欲完成次特征值的误差补偿,需进行下列计算:
①选择主特征值。根据下式选择主特征值的个数:
k={n|(λ1+λ2+…+λn-1)/(λ1+λ2+…+λN)<thr,
(λ1+λ2+…+λn)/(λ1+λ2+…+λN)≥thr)
其中,0<thr≤1.0为主特征值选择阈值。
②采用最小的主特征值λk替换其余N-k个次特征值λk+1,λk+2,…,λN,即,
③计算修改后的协方差矩阵:
∑X=U
DUT
其中,
D是修改后的特征值矩阵:
显然
∑X必定是非奇异矩阵。
④计算改进的距离测度:
也可以采用下列的特征值-特征向量表达方式:
上式从本质上避免了计算时出现(x-
μ,φj)2/(
λj)=0/0的情况。
3)本发明的非对称分布
为了描述非对称分布,需进行下列计算:
①定义矢量集合Sj +和Sj -:
其中
表示xi-
μ(i=1,2,…,M)在特征向量φj(j=1,2,…,k)上的投影。
②计算准方差(σj +)2和(σj -)2:
③采用非对称模型刻画选定的优势主向量上的参数分布,采用特征值-特征向量表达方式计算改进后的马氏距离:
以下进一步提供本发明马氏距离计算的实施例:
本发明在UCI手写体数字字符集(C.Blake,E.Keogh and C.J.Merz.UCI机器学习数据库.Irvine,CA:加州大学信息与计算机科学系.1998)上进行了实验。该数据库共包含5620个字符样本,将其中训练集中的3823个样本用于训练,测试集中的其余1797个样本用于测试。为减小图像的尺寸,共计算8×8=64个像素,其中每个像素值等于原图像中4×4块中各像素值之和。基于训练集样本计算10类(0-9)字符的次特征值补偿值及优势主向量的非对称分布参数(准方差)。计算每一个测试样本到所有类别均值矢量的改进马氏距离,用最小距离分类器进行分类决策。本发明的方法在不同的thr值下进行识别率测试,结果参见表1。表2出了不同thr取值条件下各类的k值(优势主向量的数量)。而且,本发明的方法与现有的一些其它方法进行了识别性能比较,包括马氏距离,采用欧氏距离为测度指标的K-NN算法。比较实验的结果列于表3中。
表1中的识别率数据表明,本发明算法的识别性能随补偿阈值thr的变化而变化,当thr=0.97时,识别率达到最大值,98.39%。显然,对应于thr=1.00的识别率等于采用马氏距离的识别率。从表2容易看出,各类的优势主向量的个数随thr变化,类别3,6,8的原始协方差矩阵是奇异矩阵,因为它们非0特征值的个数小于特征矢量的维数,因此,在计算输入特征矢量到上述三类的马氏距离时,需要采用它们各自协方差矩阵的伪逆矩阵。从表3可以看出,本发明改进的马氏距离的分类性能明显优于马氏距离,而且超过采用欧氏距离为测度指标的K-NN算法。最后应该指出,在识别阶段本发明的算法与其它方法相比,不需要额外的计算开销。
表1
不同thr条件下的识别率结果(%)
thr(%) | 96 | 96.5 | 97 | 97.5 | 98 | 99 | 100 |
识别率 | 98.16 | 98.16 | 98.39 | 98.16 | 98.16 | 97.94 | 94.71 |
表2
不同thr取值条件下各类的k值
表3
不同算法的识别率比较(%)
马氏距离 | 改进的马氏距离 | K-NN(采用欧氏距离测度) | |||
thr=0.97 | thr=0.98 | K=1 | K=2 | K=3 | |
94.71 | 98.39 | 98.16 | 98.00 | 97.38 | 97.83 |
Claims (7)
1、一种有限字符样本集上特征值误差补偿及参数分布修正方法,其特征在于,根据设定的阈值分别选择每类的主特征值,其余为次特征值,对应于主特征值的特征向量为优势主向量,对应于次特征值的特征向量为次主向量,以最小的主特征值替换次特征值,并采用非对称模型描述特征矢量在优势主向量上的分布,分别用于减小次主向量空间和优势主向量空间导致的总体距离偏差来实现误差补偿及参数分布修正。
2、根据权利要求1所述的有限字符样本集上特征值误差补偿及参数分布修正方法,其特征是,具体步骤如下:
(1)计算各类样本的均值特征矢量和协方差矩阵;
(2)对协方差矩阵进行对角化;
(3)根据设定的阈值分别选择每类的主特征值,其余为次特征值,通过采用最小的主特征值替换所有的次特征值对次特征值进行误差补偿;对应于主特征值的特征向量为优势主向量,对应于次特征值的特征向量为次主向量;
(4)根据非对称假设计算优势特征向量上的准方差,准方差表示参数在均值特征矢量两侧分布的离散程度,并描述了参数在均值特征矢量两侧分布的非对称性;
(5)采用上述计算得到的准方差和修正后的特征值替换传统马氏距离计算中的相应的特征值项,完成对马氏距离计算的修正。
3、根据权利要求2所述的有限字符样本集上特征值误差补偿及参数分布修正方法,其特征是,所述的步骤(1)中的均值特征矢量和协方差矩阵,这两个参数描述样本在特征矢量空间的分布状况,是本发明进行特征值误差补偿及参数分布修正的基础。
4、根据权利要求2或者3所述的有限字符样本集上特征值误差补偿及参数分布修正方法,其特征是,所述的步骤(1)中的均值特征矢量和协方差矩阵,均值特征矢量表示该类的质心,协方差矩阵表示该类样本分布的离散程度。
5、根据权利要求2所述的有限字符样本集上特征值误差补偿及参数分布修正方法,其特征是,所述的步骤(2),通过PCA对描述数据的原坐标系进行正交变换,得到特征向量矩阵和特征值矩阵,有效地提取这些数据的结构。
6、根据权利要求5所述的有限字符样本集上特征值误差补偿及参数分布修正方法,其特征是,所述的特征向量矩阵表示描述数据的新坐标系,描述数据的新坐标值被称为主向量,特征值则表示相应主向量上参数分布的离散程度,误差补偿及参数分布修正是在主向量空间进行的。
7、根据权利要求2所述的有限字符样本集上特征值误差补偿及参数分布修正方法,其特征是,所述的步骤(3)中的次特征值,对由于有限样本导致的次特征值误差进行补偿,可以显著减少马氏距离在次主向量空间的误差。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2005100249265A CN100338621C (zh) | 2005-04-07 | 2005-04-07 | 有限字符样本集上特征值误差补偿及参数分布修正方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2005100249265A CN100338621C (zh) | 2005-04-07 | 2005-04-07 | 有限字符样本集上特征值误差补偿及参数分布修正方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1674039A CN1674039A (zh) | 2005-09-28 |
CN100338621C true CN100338621C (zh) | 2007-09-19 |
Family
ID=35046566
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB2005100249265A Expired - Fee Related CN100338621C (zh) | 2005-04-07 | 2005-04-07 | 有限字符样本集上特征值误差补偿及参数分布修正方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN100338621C (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103839596B (zh) * | 2014-03-17 | 2017-05-10 | 上海华虹宏力半导体制造有限公司 | 一种嵌入式存储器修正的最优化方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1128074A (zh) * | 1994-05-10 | 1996-07-31 | 摩托罗拉公司 | 手写输入笔划分段的方法 |
CN1437162A (zh) * | 2003-03-14 | 2003-08-20 | 清华大学 | 基于单个汉字字符的字体识别方法 |
-
2005
- 2005-04-07 CN CNB2005100249265A patent/CN100338621C/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1128074A (zh) * | 1994-05-10 | 1996-07-31 | 摩托罗拉公司 | 手写输入笔划分段的方法 |
CN1437162A (zh) * | 2003-03-14 | 2003-08-20 | 清华大学 | 基于单个汉字字符的字体识别方法 |
Non-Patent Citations (1)
Title |
---|
跳过程的主特征值 陈木法,数学学报,第43卷第5期 2000 * |
Also Published As
Publication number | Publication date |
---|---|
CN1674039A (zh) | 2005-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102147858B (zh) | 车牌字符识别方法 | |
Guo et al. | Deep embedded k-means clustering | |
CN109871454B (zh) | 一种鲁棒离散监督跨媒体哈希检索方法 | |
CN103810484B (zh) | 基于打印字库分析的打印文件鉴别方法 | |
JP2003296734A (ja) | 次元低減を用いた物体分類システム | |
US20170076152A1 (en) | Determining a text string based on visual features of a shred | |
CN1908960A (zh) | 一种基于特征分组的多分类器组合人脸识别方法 | |
CN107562938A (zh) | 一种法院智能审判方法 | |
Liu et al. | Box aggregation for proposal decimation: Last mile of object detection | |
CN110781295A (zh) | 一种多标记数据的特征选择方法及装置 | |
CN102663681B (zh) | 基于排序k-均值算法的灰度图像分割方法 | |
Sadeghi et al. | Fast template evaluation with vector quantization | |
CN110516526A (zh) | 一种基于特征原型度量学习的小样本目标识别方法 | |
CN114373097B (zh) | 一种基于半监督的图像分类方法、终端设备及存储介质 | |
CN108108769A (zh) | 一种数据的分类方法、装置及存储介质 | |
CN100338621C (zh) | 有限字符样本集上特征值误差补偿及参数分布修正方法 | |
CN109447943B (zh) | 一种目标检测方法、系统及终端设备 | |
CN111259916A (zh) | 一种标签缺失情况下的低秩投影特征提取方法 | |
CN1790374A (zh) | 一种基于模板匹配的人脸识别方法 | |
CN117671704B (zh) | 一种手写体数字识别方法、装置及计算机存储介质 | |
CN109409415A (zh) | 一种基于全局信息保持的lle算法 | |
CN110929801B (zh) | 一种基于改进的Euclid距离KNN分类方法和系统 | |
CN103632164B (zh) | 基于kap样本优化的knn卷钢图片数据的卷刚状态分类识别方法 | |
CN101504723A (zh) | 一种建立投影空间的方法和装置 | |
CN113569934B (zh) | Logo分类模型构建方法、系统、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20070919 Termination date: 20100407 |