CN111414958A - 一种视觉词袋金字塔的多特征图像分类方法及系统 - Google Patents
一种视觉词袋金字塔的多特征图像分类方法及系统 Download PDFInfo
- Publication number
- CN111414958A CN111414958A CN202010190815.6A CN202010190815A CN111414958A CN 111414958 A CN111414958 A CN 111414958A CN 202010190815 A CN202010190815 A CN 202010190815A CN 111414958 A CN111414958 A CN 111414958A
- Authority
- CN
- China
- Prior art keywords
- feature
- image
- features
- edge direction
- visual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000000007 visual effect Effects 0.000 title claims abstract description 89
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000011176 pooling Methods 0.000 claims description 13
- 238000001514 detection method Methods 0.000 claims description 12
- 239000000284 extract Substances 0.000 claims description 11
- 238000003708 edge detection Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 7
- 238000003064 k means clustering Methods 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000007547 defect Effects 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 7
- 238000012360 testing method Methods 0.000 description 5
- 230000009466 transformation Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 241000581017 Oliva Species 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/50—Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种视觉词袋金字塔的多特征图像分类方法及系统,所述方法包括:获取待分类图像;确定视觉单词分布直方图特征;计算局部位置特征与全局轮廓特征;确定图像边缘方向特征;将所述视觉单词分布直方图特征、所述局部位置特征、所述全局轮廓特征与所述图像边缘方向特征相结合,生成最终图像特征;将所述待分类图像输入HIK交叉核函数的线性SVM分类器,根据所述最终图像特征进行分类;本发明将所述视觉单词分布直方图特征、所述局部位置特征、所述全局轮廓特征与所述图像边缘方向特征相结合进行分类,弥补忽略图像物体空间信息的缺陷,提高不同种类图像之间辨别性以及准确率。
Description
技术领域
本发明涉及计算机视觉的图像处理技术领域,特别是涉及一种视觉词袋金字塔的多特征图像分类方法及系统。
背景技术
近年来图像分类是计算机视觉领域中的一个热点,核心是对大量图像进行类别判断。随着人工智能与大数据时代的来临,人类获得的大量图像需要分类与处理,并且图像分类已开始应用于人机交互和生物计量学等领域,成为视觉领域之中的重要环节。如今面对这些海量图像信息,图像自动分类成为当前的一个焦点的同时,视觉词袋模型因其简单高效发展成一种当前流行的图像表示方法。
伴随大规模图像分类需求,庞大数据量把图像分类问题推向另一个难度,主要表现为图像类别增加和数据库的规模的扩大。考虑到同类目标的多样性,且场景中光照和角度等干扰也会大大增加目标分类的难度,对于采集特征的处理成为图像分类中直接影响分类效果的主要因素,对于它的设计至关重要。因此,设计高效准确的图像分类框架以及算法中如何得到富含信息量与辨识度的图像特征成为图像分类的重点。图像分类受到众多人员追捧的同时,CALTECH 101(加利福尼亚理工学院101类图像数据库),15Scene数据库,MSRC数据库等成为挑战的热点,本发明的方法也基于这些标准数据库。
目前,对于图像分类也提出了好多方法,传统的图像分类常使用密集提取 SIFT特征做为局部特征描述符,使用k-means或GMM生成编码字典,分类器一般使用线性SVM。第一类主流方法是基于VQ编码的改进:J.C.van Gemert等人提出基于BAG-of-Words模型的内核编码方法;P.Koniusz等人提出软分配编码方法;J.Yang等人将稀疏编码方法引入SPM模型;J.Wang等人则采用近似局部约束线性编码方法。最为经典的VQ编码实质是最小二乘法求解,解决线性回归问题,通过基数约束,搜索近邻,单基表达,即每个局部特征描述符都由码本的一个单基表达,这会造成相似局部特征描述符的编码可能不同的现象;SC编码则采用多基表达,通过单词的稀疏线性组合,稀疏约束,它重建性能好是由于图像块都是稀疏信号,稀疏信号的稀疏特征有助于学习,稀疏的特征也更加线性可分,但SC稀疏使用L1正则化,可能使相似的图像块选择多个差异较大的基来达到稀疏;LLC编码是从码本B中选取K个近邻单词作为基,非零的系数赋值给相近的字典项,此稀疏在于码本局部性的时候有助于学习。第二类主流算法则是基于GMM高斯混合模型的改进:H.Jegou 等人提出VLAD编码;F.Perronnin等人提出Fisher矢量编码;R.Negrel等人提出局部聚合张量VLAT编码方法。其中FV编码是对特征点用GMM建模,而GMM实际上也是一种聚类,它考虑特征点到每个聚类中心的距离,即用所有聚类中心的线性组合去表示该特征点,它在GMM建模的过程中也有损失信息;VLAD只考虑离特征点最近的聚类中心,它保存了每个特征点到离它最近的聚类中心的距离,像Fisher vector那样,它考虑了特征点的每一维的值,对图像局部特征有更细致的提取,VLAD特征没有损失信息,但对准确率的提升还是有一钉的限制。综上所述,现在图像分类并没有一个理想的解决方案。因此,基于上述问题亟需提出一种既能提高分类准确率,又可以一定程度上保证速度的图像分类方法。
发明内容
基于此,本发明的目的是提供一种视觉词袋金字塔的多特征图像分类方法及系统,以提高分类准确率。
为实现上述目的,本发明提供了一种视觉词袋金字塔的多特征图像分类方法,所述方法包括:
步骤S1:获取待分类图像;
步骤S2:确定视觉单词分布直方图特征;
步骤S3:计算局部位置特征与全局轮廓特征;
步骤S4:确定图像边缘方向特征;
步骤S5:将所述视觉单词分布直方图特征、所述局部位置特征、所述全局轮廓特征与所述图像边缘方向特征相结合,生成最终图像特征;
步骤S6:将所述待分类图像输入HIK交叉核函数的线性SVM分类器,根据所述最终图像特征进行分类。
可选的,所述确定视觉单词分布直方图特征,包括:
步骤S21:采用局部特征检测算法提取多个局部特征描述符;
步骤S22:对多个所述局部特征描述符进行K-means聚类生成视觉词典;
步骤S23:通过编码与池化方法确定视觉单词分布直方图特征。
可选的,所述计算局部位置特征与全局轮廓特征,包括:
步骤S31:确定所述局部特征描述符相对于所述视觉单词的位置分布,提取出局部位置特征;
步骤S32:采用非下采样轮廓波变换算法和线性判别分析生成图像的全局轮廓特征。
可选的,所述确定图像边缘方向特征,包括:
步骤S41:基于金字塔化确定图像边缘方向特征;
或步骤S42:基于感兴趣区域确定图像边缘方向特征。
可选的,所述基于金字塔化确定图像边缘方向特征,包括:
步骤S411:根据Sobel算子进行横向边缘检测与纵向边缘检测,获得图像的边缘分布特征;
步骤S412:基于所述边缘分布特征进行二维离散傅里叶变换;
步骤S413:根据傅里叶变换后的边缘分布特征确定图像在各方向上的边缘特征;
步骤S414:以图像中心为原点,根据各所述方向上的边缘特征,将图像上半部分的边缘特征计入该方位角,将图像下半部分边缘特征分配到该角度减去180°的方位角,生成方位角边缘特征;
步骤S415:设置区间,并将所述方位角边缘特征分配进对应区间,形成区间边缘方向特征;
步骤S416:取所述区间边缘方向特征中最大值以及最大值对应区间;
步骤S417:将所述区间边缘方向特征、所述最大值以及最大值对应的区间串联成初始图像边缘方向特征;
步骤S418:把所述初始图像边缘方向特征进行两层金字塔化,获得不同尺度下的图像边缘方向特征。
可选的,所述确定图像边缘方向特征,还包括:
步骤S421:将傅里叶变换后的边缘分布特征作为像素点所对应pfa值;
步骤S422:将第i列右临h/2-1列各个像素点对应pfa值之和并加到第i 列;h为总列数;
步骤S423:选取步骤S422中最大值对应的列;该列即所有相邻h/2列中 pfah之和最大的半区域的首列;
步骤S424:将步骤S423中最大值对应的列与右临h/2-1列作为图像感兴趣区域;
步骤S425:在所述图像感兴趣区域上提取图像边缘方向特征。
本发明还提供一种视觉词袋金字塔的多特征图像分类系统,所述系统包括:
获取模块,用于获取待分类图像;
视觉单词分布直方图特征确定模块,用于确定视觉单词分布直方图特征;
计算模块,用于计算局部位置特征与全局轮廓特征;
图像边缘方向特征确定模块,用于确定图像边缘方向特征;
最终图像特征确定模块,用于将所述视觉单词分布直方图特征、所述局部位置特征、所述全局轮廓特征与所述图像边缘方向特征相结合,生成最终图像特征;
分类模块,用于将所述待分类图像输入HIK交叉核函数的线性SVM分类器,根据所述最终图像特征进行分类。
可选的,所述视觉单词分布直方图特征确定模块,包括:
提取单元,用于采用局部特征检测算法提取多个局部特征描述符;
聚类单元,用于对多个所述局部特征描述符进行K-means聚类生成视觉词典;
编码与池化单元,用于通过编码与池化方法确定视觉单词分布直方图特征。
可选的,所述计算模块,包括:
局部位置特征确定单元,用于确定所述局部特征描述符相对于所述视觉单词的位置分布,提取出局部位置特征;
全局轮廓特征确定单元,用于采用非下采样轮廓波变换算法和线性判别分析生成图像的全局轮廓特征。
可选的,所述图像边缘方向特征确定模块,包括:
第一图像边缘方向特征确定单元,用于基于金字塔化确定图像边缘方向特征;
或第二图像边缘方向特征确定单元,用于基于感兴趣区域确定图像边缘方向特征。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明公开一种视觉词袋金字塔的多特征图像分类方法及系统,所述方法包括:获取待分类图像;确定视觉单词分布直方图特征;计算局部位置特征与全局轮廓特征;确定图像边缘方向特征;将所述视觉单词分布直方图特征、所述局部位置特征、所述全局轮廓特征与所述图像边缘方向特征相结合,生成最终图像特征;将所述待分类图像输入HIK交叉核函数的线性SVM分类器,根据所述最终图像特征进行分类;本发明将所述视觉单词分布直方图特征、所述局部位置特征、所述全局轮廓特征与所述图像边缘方向特征相结合进行分类,弥补忽略图像物体空间信息的缺陷,提高不同种类图像之间辨别性以及准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例视觉词袋金字塔的多特征图像分类方法流程图;
图2为本发明实施例视觉词袋金字塔的多特征图像分类系统结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种视觉词袋金字塔的多特征图像分类方法及系统,以提高分类准确率。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明实施例视觉词袋金字塔的多特征图像分类方法的流程图,如图1所示,本发明公开一种视觉词袋金字塔的多特征图像分类方法,所述方法包括:
步骤S1:获取待分类图像。
步骤S2:确定视觉单词分布直方图特征。
步骤S3:计算局部位置特征与全局轮廓特征。
步骤S4:确定图像边缘方向特征。
步骤S5:将所述视觉单词分布直方图特征、所述局部位置特征、所述全局轮廓特征与所述图像边缘方向特征相结合,生成最终图像特征。
步骤S6:将所述待分类图像输入HIK交叉核函数的线性SVM分类器,根据所述最终图像特征进行分类。
下面对各个步骤进行详细论述:
步骤S1:获取待分类图像;所述待分类图像至少由MSRC数据集、 Caltech101数据集、Scene15数据集中的一个数据集获取的。
步骤S2:确定视觉单词分布直方图特征,具体包括:
步骤S21:采用局部特征检测算法提取多个局部特征描述符;所述局部特征描述符xi∈RD,其中D为局部特征描述符的特征维数,任意图像i∈I,I为整个数据集。
所述局部特征检测算法包括兴趣点检测算法和规则网格法;所述兴趣点检测算法通过局部特征描述符来选择边缘、角点、区块等比较明显的像素点,常用的兴趣点检测算子有拉普拉斯,边缘拉普拉斯等;使用最多的局部特征检测方式是规则网格法,从图像中按固定的步长、尺度抽取图像局部特征如SIFT, HOG,LBP等,效果最好的为SIFT局部特征描述符。
步骤S22:对多个所述局部特征描述符进行K-means聚类生成视觉词典。
步骤S23:通过编码与池化方法来统计所述视觉字典内所有视觉单词出现的频率;所述频率为视觉单词分布直方图特征;在视觉词袋模型的特征提取、特征编码、SVM分类整个模型构建过程中,视觉字典的形成是图像分类的关键,视觉字典的辨识能力对图像的分类性能至关重要。传统的编码方法一般使用由k-means算法生成的聚类中心形成的视觉字典或FV视觉字典,还有一种是由高斯分布组成的混合高斯模型(GMM)。通过编码与池化方法目的是更好地将底层特征表示成高阶特征。
具体通过编码与池化方法,即对所述局部特征描述符xi根据所述视觉字典 M进行VQ编码或SC编码或LSC编码,获得单张图像所有局部特征描述符相对于视觉单词的分布直方图特征,然后通过平均值池化或最大值池化进行降维;以上述所得矩阵来作为图像的一种特征表示,与后续步骤中的特征一起进行SVM分类器分类。
VQ编码:ψ=argmin||xi-MCi||2 2;
SC编码:ψ=argmin||xi-MCi||2 2+λ||Ci||1;
LSC编码:ψ=argmin||xi-MCi||2 2+λ||Ci||1;
其中,Ci为局部特征描述符对编码系数,λ为约束编码稀疏性的正则项系数,dist(xi,M)为局部特征描述符与视觉单词的欧氏距离,⊙为对向量内元素进行两两相乘,x为局部特征描述符,M为视觉单词,ψ为目标函数,l为1范数。
步骤S3:计算局部位置特征与全局轮廓特征。
步骤S31:确定所述局部特征描述符相对于所述视觉单词的位置分布,提取出局部位置特征。
步骤S32:采用非下采样轮廓波变换算法和线性判别分析生成图像的全局轮廓特征。
步骤S4:确定图像边缘方向特征。
本发明首先使用一阶Sobel算子进行横向边缘检测与纵向边缘检测,再进行二维离散傅里叶变换,将时域信号变换成为频域信号,将该频度谱中实数部分与复数部分的平方根作为频谱值,以整张图像为中心点,分配180°方向上各个角度所有边缘频谱值,最终生成边缘方向特征。即本方法提出的提取边缘方向特征与视觉词袋模型结合方法,通过各个方向上物体边缘与密度信息来提取物体边缘方向特征,具体步骤包括:
步骤S41:基于金字塔化确定图像边缘方向特征。
步骤S42:基于感兴趣区域确定图像边缘方向特征。
步骤S41:基于金字塔化确定图像边缘方向特征,具体包括:
步骤S411:根据Sobel算子进行横向边缘检测与纵向边缘检测,获得图像的边缘分布特征,包括:
步骤S4111:根据Sobel算子进行横向边缘检测,获得横向边缘分布特征,具体公式为:
Gx=(-1)*f(x-1,y-1)+0*f(x,y-1)+1*f(x+1,y-1)
+(-2)*f(x-1,y)+0*f(x,y)+2*f(x+1,y)
+(-1)*f(x-1,y+1)+0*f(x,y+1)+1*f(x+1,y+1)
=[f(x+1,y-1)]+2*f(x+1,y)+f(x+1,y+1)-f(x-1,y-1)+2*f(x-1,y)+f(x-1,y+1)
步骤S4112:根据Sobel算子进行纵向边缘检测,获得纵向边缘分布特征,具体公式为:
步骤S4113:根据所述横向边缘分布特征和所述纵向边缘分布特征确定边缘分布特征。
其中,θ为方向角度值,Gy为纵向边缘分布特征,Gx为横向边缘分布特征, G为边缘分布特征,A为图像,y为像素点纵坐标,x为像素点横坐标,f()为图像像素点的灰度值。
步骤S412:基于所述边缘分布特征进行二维离散傅里叶变换。
步骤S413:根据傅里叶变换后的边缘分布特征确定图像在各方向上的边缘特征。
步骤S414:以图像中心为原点,根据各所述方向上的边缘特征,将图像上半部分的边缘特征计入该方位角,将图像下半部分边缘特征分配到该角度减去180°的方位角(比如135°上的边缘特征计入135°,225°上的边缘特征计入45°),生成边缘方向特征[Xi1,Xi2,Xi3...Xi180]。
步骤S415:设置区间[0-10][5-15][10-20][15-25]...[170-180];并将所述方位角边缘特征分配进对应区间,形成区间边缘方向特征[Xi1,Xi2,Xi3...Xi36]。
步骤S416:取所述区间边缘方向特征中最大值及最大值对应区间[Xi1, Xi2]。
步骤S417:将所述区间边缘方向特征、所述最大值及所述最大值对应区间串联成图像边缘方向特征[Xi1,Xi2,Xi3...Xi218]。
步骤S418:把所述初始图像边缘方向特征进行两层金字塔化,获得不同尺度下的图像边缘方向特征。
步骤S42:基于感兴趣区域确定图像边缘方向特征,在本方法中,本发明主要关注点在于计算机视觉中为了突出图像重要信息所选择的与目标更加相关的感兴趣区域来提取特征。只有前景对于最终分类更加有意义,而传统的 SPM算法在包含前景与背景的整张图像上提取特征。视觉显著性可以帮助本发明在一定程度上解决这个问题,选择性搜索也是一种可以构建感兴趣区域的流行方法,但这些算法会大大增加计算量。受积分图像的影响,为进一步完善上述边缘方向特征,本发明提出一种感兴趣区域提取该边缘方向特征。
其中,w(i,j)表示第(i,j)处值权重,i表示像素的行,j表示像素的列;pfa 表示经过傅里叶变化后的边缘特征;
本步骤首先根据积分图像算法思想,计算图像中每一列像素对应的边缘特征值之和,而不是任意一点到图像左上角所构成区域的灰度值之和;然后通过计算相邻列构成边缘特征值之和最大的区域作为感兴趣区域,为的是在此感兴趣区域提取边缘方向特征最后再和之前提到的局部位置特征与全局轮廓特征融合,进而进行图像分类,获得数据集图像对应的图像类别;因此基于感兴趣区域确定图像边缘方向特征,具体包括:
步骤S421:将傅里叶变换后的边缘分布特征作为像素点所对应pfa值。
步骤S422:将第i列右临h/2-1列各个像素点对应pfa值之和并加到第i 列;h为总列数。
步骤S423:选取步骤S42中最大值对应的列;该列即所有相邻h/2列中 pfah之和最大的半区域的首列。
步骤S424:将步骤S423中最大值对应的列与右临h/2-1列作为图像感兴趣区域。
步骤S425:在所述图像感兴趣区域上提取图像边缘方向特征。
步骤S7:图像分类验证与评估,具体包括:
使用混淆矩阵来衡量该多特征图像分类方法;
使用分类准确率来衡量该多特征图像分类方法。
本发明提出了一种视觉词袋金字塔的多特征图像分类方法,根据经典视觉词袋金字塔模型、局部位置特征与全局轮廓特征结合的图像分类,为弥补忽略图像物体空间信息的缺陷,针对视觉单词特征无法在图像中物体所在的更具辨别力区域提取特征,提高不同种类图像之间辨别性以及准确率。
图2为视觉词袋金字塔的多特征图像分类系统,如图2所示,本发明还提供一种视觉词袋金字塔的多特征图像分类系统,所述系统包括:
获取模块1,用于获取待分类图像。
视觉单词分布直方图特征确定模块2,用于确定视觉单词分布直方图特征。
计算模块3,用于计算局部位置特征与全局轮廓特征。
图像边缘方向特征确定模块4,用于确定图像边缘方向特征。
最终图像特征确定模块5,用于将所述视觉单词分布直方图特征、所述局部位置特征、所述全局轮廓特征与所述图像边缘方向特征相结合,生成最终图像特征。
分类模块6,用于将所述待分类图像输入HIK交叉核函数的线性SVM分类器,根据所述最终图像特征进行分类。
作为一种实施方式,本发明所述视觉单词分布直方图特征确定模块2,包括:
提取单元,用于采用局部特征检测算法提取多个局部特征描述符。
聚类单元,用于对多个所述局部特征描述符进行K-means聚类生成视觉词典。
编码与池化单元,用于通过编码与池化方法确定视觉单词分布直方图特征。
作为一种实施方式,本发明所述计算模块3,包括:
局部位置特征确定单元,用于确定所述局部特征描述符相对于所述视觉单词的位置分布,提取出局部位置特征。
全局轮廓特征确定单元,用于采用非下采样轮廓波变换算法和线性判别分析生成图像的全局轮廓特征。
作为一种实施方式,本发明所述图像边缘方向特征确定模块4,包括:
第一图像边缘方向特征确定单元,用于基于金字塔化确定图像边缘方向特征。
或第二图像边缘方向特征确定单元,用于基于感兴趣区域确定图像边缘方向特征。
作为一种实施方式,本发明所述第一图像边缘方向特征确定单元,包括:
检测子单元,用于根据Sobel算子进行横向边缘检测与纵向边缘检测,获得图像的边缘分布特征。
傅里叶变换子单元,用于基于所述边缘分布特征进行二维离散傅里叶变换。
边缘特征确定子单元,用于根据傅里叶变换后的边缘分布特征确定图像在各方向上的边缘特征;
边缘方向特征确定子单元,用于以图像中心为原点,根据各所述方向上的边缘特征,将图像上半部分的边缘特征计入该方位角,将图像下半部分边缘特征分配到该角度减去180°的方位角,生成方位角边缘特征;
区间边缘方向特征确定子单元,用于设置区间,并将所述方位角边缘特征分配进对应区间,形成区间边缘方向特征;
第一选取子单元,用于取所述区间边缘方向特征中最大值以及最大值对应区间;
串联子单元,用于将所述区间边缘方向特征、所述最大值以及最大值对应的区间串联成初始图像边缘方向特征;
金字塔化处理子单元,用于把所述初始图像边缘方向特征进行两层金字塔化,获得不同尺度下的图像边缘方向特征。
作为一种实施方式,本发明所述第二图像边缘方向特征确定单元,包括:
第一赋值子单元,用于将傅里叶变换后的边缘分布特征作为像素点所对应 pfa值。
合并子单元,用于将第i列右临h/2-1列各个像素点对应pfa值之和并加到第i列;h为总列数。
第二选取子单元,用于选取合并子单元中最大值对应的列;该列即所有相邻h/2列中pfah之和最大的半区域的首列。
第二赋值子单元,用于将选取子单元中最大值对应的列与右临h/2-1列作为图像感兴趣区域。
提取子单元,用于在所述图像感兴趣区域上提取图像边缘方向特征。
具体举例:
1)Caltech 101数据集包括101类别图像,选取图像5978张。该数据集是广泛使用基准,一般用于图像分类与目标识别,该数据集能够提供形状不同物体的纹理信息、空间信息和颜色信息,具有很高形状变异性。在这个实验中,所有这101个类别的挑战性数据集用以验证一种视觉词袋金字塔的多特征图像分类方法,其中数据集每类图像的范围从31到800。本发明将每类随机选取30张图像用于训练,其余图像用于测试。也就是说,不同类别的3030张图片被用于训练,2948张图像被用于测试。本发明评估了SPM+局部+全局+边缘方向的算法。根据实验结果,本发明提出的方法展示出更好性能。本方法实验中,本发明在之前提出的SPM局部位置特征与全局轮廓特征的基础上融合边缘方向特征来检验图像分类准确率变化。本发明主要评估该方法对于数据集的分类结果,实验结果显示,对于Caltech101数据集的4轮廓情景,大约有 1.1%的分类准确率提升。局部位置特征与轮廓特征已取得平稳的分类结果与较高分类准确率,此方法又将准确率提高,也即高于大部分主流分类方法实验结果。
2)本方法实验使用的MSRC数据集包含18种类别,每个类别的图像数目为30。验证一种视觉词袋金字塔的多特征图像分类方法,使用这些类别作为实验对象,同样随机抽取每类中的图像为训练数据,剩余图像作为测试数据。
表1 Caltech 101数据集分类结果
3)15Scene数据集包括4485张图片,每类100张用于训练,其余全部作为测试。图像主要从不同来源收集,8类由Oliva和Torralba收集,5类由Li 和Perona收集,其余部分由Lazebnik收集。这个具有挑战性的数据集的平均图像大小为300×250像素,每个类别的图像数量从200到400,场景类别包含街道、工业区、厨房和客厅等。结果表明,该方法在保持分类速度的同时,性能也优于其他基于视觉词袋金字塔的分类方法。为了训练字典,本发明使用标准的k-均值聚类,其中字典大小设置为400。具体详见表1、表2、表3,本发明的方法实验结果和其他方法相比,具有较高实验结果。对实验样本,计算出混淆矩阵,显示出所提出方法的鲁棒性,提高了图像分类性能。
表2 MSRC数据集分类结果
表3 15Scene数据集分类结果
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种视觉词袋金字塔的多特征图像分类方法,其特征在于,所述方法包括:
步骤S1:获取待分类图像;
步骤S2:确定视觉单词分布直方图特征;
步骤S3:计算局部位置特征与全局轮廓特征;
步骤S4:确定图像边缘方向特征;
步骤S5:将所述视觉单词分布直方图特征、所述局部位置特征、所述全局轮廓特征与所述图像边缘方向特征相结合,生成最终图像特征;
步骤S6:将所述待分类图像输入HIK交叉核函数的线性SVM分类器,根据所述最终图像特征进行分类。
2.根据权利要求1所述的视觉词袋金字塔的多特征图像分类方法,其特征在于,所述确定视觉单词分布直方图特征,包括:
步骤S21:采用局部特征检测算法提取多个局部特征描述符;
步骤S22:对多个所述局部特征描述符进行K-means聚类生成视觉词典;
步骤S23:通过编码与池化方法确定视觉单词分布直方图特征。
3.根据权利要求2所述的视觉词袋金字塔的多特征图像分类方法,其特征在于,所述计算局部位置特征与全局轮廓特征,包括:
步骤S31:确定所述局部特征描述符相对于所述视觉单词的位置分布,提取出局部位置特征;
步骤S32:采用非下采样轮廓波变换算法和线性判别分析生成图像的全局轮廓特征。
4.根据权利要求1所述的视觉词袋金字塔的多特征图像分类方法,其特征在于,所述确定图像边缘方向特征,包括:
步骤S41:基于金字塔化确定图像边缘方向特征;
或步骤S42:基于感兴趣区域确定图像边缘方向特征。
5.根据权利要求4所述的视觉词袋金字塔的多特征图像分类方法,其特征在于,所述基于金字塔化确定图像边缘方向特征,包括:
步骤S411:根据Sobel算子进行横向边缘检测与纵向边缘检测,获得图像的边缘分布特征;
步骤S412:基于所述边缘分布特征进行二维离散傅里叶变换;
步骤S413:根据傅里叶变换后的边缘分布特征确定图像在各方向上的边缘特征;
步骤S414:以图像中心为原点,根据各所述方向上的边缘特征,将图像上半部分的边缘特征计入该方位角,将图像下半部分边缘特征分配到该角度减去180°的方位角,生成方位角边缘特征;
步骤S415:设置区间,并将所述方位角边缘特征分配进对应区间,形成区间边缘方向特征;
步骤S416:取所述区间边缘方向特征中最大值以及最大值对应区间;
步骤S417:将所述区间边缘方向特征、所述最大值以及最大值对应的区间串联成初始图像边缘方向特征;
步骤S418:把所述初始图像边缘方向特征进行两层金字塔化,获得不同尺度下的图像边缘方向特征。
6.根据权利要求5所述的视觉词袋金字塔的多特征图像分类方法,其特征在于,所述确定图像边缘方向特征,还包括:
步骤S421:将傅里叶变换后的边缘分布特征作为像素点所对应pfa值;
步骤S422:将第i列右临h/2-1列各个像素点对应pfa值之和并加到第i列;h为总列数;
步骤S423:选取步骤S422中最大值对应的列;该列即所有相邻h/2列中pfah之和最大的半区域的首列;
步骤S424:将步骤S423中最大值对应的列与右临h/2-1列作为图像感兴趣区域;
步骤S425:在所述图像感兴趣区域上提取图像边缘方向特征。
7.一种视觉词袋金字塔的多特征图像分类系统,其特征在于,所述系统包括:
获取模块,用于获取待分类图像;
视觉单词分布直方图特征确定模块,用于确定视觉单词分布直方图特征;
计算模块,用于计算局部位置特征与全局轮廓特征;
图像边缘方向特征确定模块,用于确定图像边缘方向特征;
最终图像特征确定模块,用于将所述视觉单词分布直方图特征、所述局部位置特征、所述全局轮廓特征与所述图像边缘方向特征相结合,生成最终图像特征;
分类模块,用于将所述待分类图像输入HIK交叉核函数的线性SVM分类器,根据所述最终图像特征进行分类。
8.根据权利要求7所述的视觉词袋金字塔的多特征图像分类系统,其特征在于,所述视觉单词分布直方图特征确定模块,包括:
提取单元,用于采用局部特征检测算法提取多个局部特征描述符;
聚类单元,用于对多个所述局部特征描述符进行K-means聚类生成视觉词典;
编码与池化单元,用于通过编码与池化方法确定视觉单词分布直方图特征。
9.根据权利要求8所述的视觉词袋金字塔的多特征图像分类系统,其特征在于,所述计算模块,包括:
局部位置特征确定单元,用于确定所述局部特征描述符相对于所述视觉单词的位置分布,提取出局部位置特征;
全局轮廓特征确定单元,用于采用非下采样轮廓波变换算法和线性判别分析生成图像的全局轮廓特征。
10.根据权利要求7所述的视觉词袋金字塔的多特征图像分类系统,其特征在于,所述图像边缘方向特征确定模块,包括:
第一图像边缘方向特征确定单元,用于基于金字塔化确定图像边缘方向特征;
或第二图像边缘方向特征确定单元,用于基于感兴趣区域确定图像边缘方向特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010190815.6A CN111414958B (zh) | 2020-03-18 | 2020-03-18 | 一种视觉词袋金字塔的多特征图像分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010190815.6A CN111414958B (zh) | 2020-03-18 | 2020-03-18 | 一种视觉词袋金字塔的多特征图像分类方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111414958A true CN111414958A (zh) | 2020-07-14 |
CN111414958B CN111414958B (zh) | 2022-02-08 |
Family
ID=71494337
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010190815.6A Active CN111414958B (zh) | 2020-03-18 | 2020-03-18 | 一种视觉词袋金字塔的多特征图像分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111414958B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112329798A (zh) * | 2020-11-27 | 2021-02-05 | 重庆理工大学 | 一种基于优化视觉词袋模型的图像场景分类方法 |
CN113902930A (zh) * | 2021-09-16 | 2022-01-07 | 燕山大学 | 一种优化词袋模型的图像分类方法 |
CN114926480A (zh) * | 2022-05-30 | 2022-08-19 | 腾讯科技(深圳)有限公司 | 一种训练图像分割模型的方法、装置、设备及存储介质 |
CN118692155A (zh) * | 2024-08-26 | 2024-09-24 | 浙江大华技术股份有限公司 | 图像检测的方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102243706A (zh) * | 2011-08-18 | 2011-11-16 | 杭州海康威视软件有限公司 | 基于目标边缘方向的目标分类方法和系统 |
US20130148881A1 (en) * | 2011-12-12 | 2013-06-13 | Alibaba Group Holding Limited | Image Classification |
CN105303195A (zh) * | 2015-10-20 | 2016-02-03 | 河北工业大学 | 一种词袋图像分类方法 |
CN107368807A (zh) * | 2017-07-20 | 2017-11-21 | 东南大学 | 一种基于视觉词袋模型的监控视频车型分类方法 |
CN110197232A (zh) * | 2019-06-05 | 2019-09-03 | 中科新松有限公司 | 基于边缘方向和梯度特征的图像匹配方法 |
-
2020
- 2020-03-18 CN CN202010190815.6A patent/CN111414958B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102243706A (zh) * | 2011-08-18 | 2011-11-16 | 杭州海康威视软件有限公司 | 基于目标边缘方向的目标分类方法和系统 |
US20130148881A1 (en) * | 2011-12-12 | 2013-06-13 | Alibaba Group Holding Limited | Image Classification |
WO2013090288A1 (en) * | 2011-12-12 | 2013-06-20 | Alibaba Group Holding Limited | Image classification |
CN105303195A (zh) * | 2015-10-20 | 2016-02-03 | 河北工业大学 | 一种词袋图像分类方法 |
CN107368807A (zh) * | 2017-07-20 | 2017-11-21 | 东南大学 | 一种基于视觉词袋模型的监控视频车型分类方法 |
CN110197232A (zh) * | 2019-06-05 | 2019-09-03 | 中科新松有限公司 | 基于边缘方向和梯度特征的图像匹配方法 |
Non-Patent Citations (2)
Title |
---|
ZENG HAO 等: ""Improvement of Word Bag Model based on Image Classification"", 《2019 IEEE 1ST INTERNATIONAL CONFERENCE ON CIVIL AVIATION SAFETY AND INFORMATION TECHNOLOGY (ICCASIT)》 * |
李雅倩 等: ""局部位置特征与全局轮廓特征相结合的图像分类方法"", 《电子学报》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112329798A (zh) * | 2020-11-27 | 2021-02-05 | 重庆理工大学 | 一种基于优化视觉词袋模型的图像场景分类方法 |
CN112329798B (zh) * | 2020-11-27 | 2023-07-25 | 重庆理工大学 | 一种基于优化视觉词袋模型的图像场景分类方法 |
CN113902930A (zh) * | 2021-09-16 | 2022-01-07 | 燕山大学 | 一种优化词袋模型的图像分类方法 |
CN113902930B (zh) * | 2021-09-16 | 2023-10-27 | 燕山大学 | 一种优化词袋模型的图像分类方法 |
CN114926480A (zh) * | 2022-05-30 | 2022-08-19 | 腾讯科技(深圳)有限公司 | 一种训练图像分割模型的方法、装置、设备及存储介质 |
CN114926480B (zh) * | 2022-05-30 | 2024-07-23 | 腾讯科技(深圳)有限公司 | 一种训练图像分割模型的方法、装置、设备及存储介质 |
CN118692155A (zh) * | 2024-08-26 | 2024-09-24 | 浙江大华技术股份有限公司 | 图像检测的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111414958B (zh) | 2022-02-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107424159B (zh) | 基于超像素边缘和全卷积网络的图像语义分割方法 | |
CN111414958B (zh) | 一种视觉词袋金字塔的多特征图像分类方法及系统 | |
US10102443B1 (en) | Hierarchical conditional random field model for labeling and segmenting images | |
CN102663391B (zh) | 一种图像的多特征提取与融合方法及系统 | |
CN102622607B (zh) | 一种基于多特征融合的遥感图像分类方法 | |
CN105025392B (zh) | 基于摘要空间特征学习的视频摘要关键帧提取方法 | |
CN111291826B (zh) | 基于相关性融合网络的多源遥感图像的逐像素分类方法 | |
WO2021082168A1 (zh) | 一种场景图像中特定目标对象的匹配方法 | |
CN103077512A (zh) | 基于主成分析的数字图像的特征提取与匹配方法及装置 | |
CN103679192A (zh) | 基于协方差特征的图像场景类型判别方法 | |
CN103440508B (zh) | 基于视觉词袋模型的遥感图像目标识别方法 | |
CN103714148B (zh) | 基于稀疏编码分类的sar图像检索方法 | |
CN106778768A (zh) | 基于多特征融合的图像场景分类方法 | |
CN107085731B (zh) | 一种基于rgb-d融合特征与稀疏编码的图像分类方法 | |
Banerji et al. | A new bag of words LBP (BoWL) descriptor for scene image classification | |
Sajid et al. | The role of facial asymmetry in recognizing age-separated face images | |
CN115272153A (zh) | 一种基于特征稀疏区域检测的影像匹配增强方法 | |
CN112966629A (zh) | 基于图像变换和BoF模型的遥感图像场景分类方法 | |
Carvalho et al. | Analysis of object description methods in a video object tracking environment | |
CN113269223B (zh) | 一种基于空间文化模因分析的城市风格分类方法 | |
CN107944340B (zh) | 一种结合直接度量和间接度量的行人再识别方法 | |
CN107832793A (zh) | 一种高光谱图像的分类方法及系统 | |
Zhang et al. | Image scoring: Patch based CNN model for small or medium dataset | |
JP5986681B2 (ja) | モデルの形状記述子を生成する方法及び装置 | |
CN116778339A (zh) | 局部视图辅助判别高光谱波段选择方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |