CN110751163A - 目标定位方法及其装置、计算机可读存储介质和电子设备 - Google Patents
目标定位方法及其装置、计算机可读存储介质和电子设备 Download PDFInfo
- Publication number
- CN110751163A CN110751163A CN201810821904.9A CN201810821904A CN110751163A CN 110751163 A CN110751163 A CN 110751163A CN 201810821904 A CN201810821904 A CN 201810821904A CN 110751163 A CN110751163 A CN 110751163A
- Authority
- CN
- China
- Prior art keywords
- channel
- image
- target
- neural network
- recognized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000000605 extraction Methods 0.000 claims abstract description 20
- 238000013528 artificial neural network Methods 0.000 claims description 94
- 238000012549 training Methods 0.000 claims description 57
- 230000004044 response Effects 0.000 claims description 37
- 238000009795 derivation Methods 0.000 claims description 8
- 238000011176 pooling Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 4
- 238000012937 correction Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 244000025254 Cannabis sativa Species 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 241000872198 Serjania polyphylla Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种目标定位方法及其装置、计算机可读存储介质和电子设备,该目标定位方法包括:对待识别图像进行特征提取得到多个通道特征;针对任意一个通道特征,确定所述通道特征对应的加权参数,所述通道特征对应的加权参数用于表征该通道特征与从所述待识别图像中定位出的目标位置的相关度;依据所述通道特征对应的加权参数对该通道特征进行修正处理;利用修正后的各个通道特征定位所述待识别图像中包含目标的目标位置。该目标定位方法可提高对目标定位的准确性。
Description
技术领域
本发明涉及图像识别技术领域,尤其涉及目标定位方法及其装置、计算机可读存储介质和电子设备。
背景技术
图像识别指利用计算机对图像进行处理、分析和理解,以检测并识别出图像中各种不同模式的目标的技术。
基于图像识别的目标定位方法指从图像中识别出特定目标并确定该特定目标在图像中的位置的方法,目前,可采用神经网络进行目标定位。
现有的采用神经网络进行目标定位的方法的准确度还需要进一步提升。
发明内容
本发明提供一种目标定位方法及其装置、计算机可读存储介质和电子设备,以解决相关技术中的不足。
根据本发明实施例的第一方面,提供一种目标定位方法,包括:
对待识别图像进行特征提取得到多个通道特征;
针对任意一个通道特征,确定所述通道特征对应的加权参数,所述通道特征对应的加权参数用于表征该通道特征与从所述待识别图像中定位出的目标位置的相关度;
依据所述通道特征对应的加权参数对该通道特征进行修正处理;
利用修正后的各个通道特征定位所述待识别图像中包含目标的目标位置。
可选的,所述对待识别图像进行特征提取得到多通道特征,包括:
将所述待识别图像输入到训练好的神经网络中,由所述神经网络的卷积层对所述待识别图像进行特征提取,得到多个通道特征;
所述神经网络通过如下步骤训练得到:
搭建神经网络,所述神经网络包括卷积层、池化层和全连接层;
获取训练样本,所述训练样本包括标记有目标类型的标记图像;
将所述训练样本输入所述神经网络,以由所述神经网络输出对所述标记图像的目标类型识别结果,根据所述神经网络输出的目标类型识别结果和所述训练样本中的目标类型之间的差异,对所述神经网络中的参数进行更新;
对所述神经网络经过训练样本的训练后,得到训练好的神经网络。
可选的,在获取包括标记有目标类型的标记图像的训练样本之后,还包括:
对标记图像的部分区域进行遮挡预处理。
可选的,所述确定所述通道特征对应的加权参数,包括:
将所述卷积层输出的多个通道特征输入到所述全连接层,由所述全连接层确定各个通道特征对应的加权参数。
可选的,所述确定通道特征对应的加权参数,包括:
对通道特征中各特征进行求导得到各特征的导数;
将计算出的各特征的导数的平均值作为该通道特征对应的加权参数。
可选的,所述利用修正后的各个通道特征定位所述待识别图像中包含目标的目标位置,包括:
根据修正后的各个通道特征获取待识别图像的各位置的响应值,响应值表示该位置存在目标的概率;
确定大于阈值的响应值对应的位置,将包括大于阈值的响应值对应的位置的区域作为目标位置。
根据本发明实施例的第二方面,提供一种目标定位装置,包括:
特征提取模块,用于对待识别图像进行特征提取得到多个通道特征;
加权参数确定模块,用于针对任意一个通道特征,确定所述通道特征对应的加权参数,所述通道特征对应的加权参数用于表征该通道特征与从所述待识别图像中定位出的目标位置的相关度;
特征修正模块,用于依据所述通道特征对应的加权参数对该通道特征进行修正处理;
目标位置定位模块,用于利用修正后的各个通道特征定位所述待识别图像中包含目标的目标位置。
可选的,所述特征提取模块具体用于:
将所述待识别图像输入到训练好的神经网络中,由所述神经网络的卷积层对所述待识别图像进行特征提取,得到多个通道特征;
所述装置还包括训练模块,所述训练模块用于:
搭建神经网络,所述神经网络包括卷积层、池化层和全连接层;
获取训练样本,所述训练样本包括标记有目标类型的标记图像;
将所述训练样本输入所述神经网络,以由所述神经网络输出对所述标记图像的目标类型识别结果,根据所述神经网络输出的目标类型识别结果和所述训练样本中的目标类型之间的差异,对所述神经网络中的参数进行更新;
对所述神经网络经过一定数量的训练样本的训练后,得到训练好的神经网络。
可选的,所述加权参数确定模块具体用于:
将所述卷积层输出的多个通道特征输入到所述全连接层,由所述全连接层确定每个通道特征对应的加权参数。
可选的,所述加权参数确定模块具体用于:
对每个通道特征中各特征进行求导得到各特征的导数;
将计算出的每个通道的各特征的导数的平均值作为每个通道特征对应的加权参数。
可选的,所述目标位置定位模块具体用于:
根据修正后的各个通道特征获取待识别图像的各位置的响应值,响应值表示该位置存在目标的概率;
确定大于阈值的响应值对应的位置,将包括大于阈值的响应值对应的位置的区域作为目标的位置。
根据本发明实施例的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述任一项所述方法。
根据本发明实施例的第四方面,提供一种电子设备,包括处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令,所述处理器被所述机器可执行指令促使执行上述任一项所述方法。
根据上述技术方案可知,该目标定位方法可提高对目标定位的准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据本发明一示例性实施例提供的目标定位方法的工作流程图;
图2是根据本发明另一示例性实施例提供的目标定位方法的工作流程图;
图3A-图3C是采用本发明实施例提供的目标定位方法从待识别图像中定位出的目标位置的效果图;
图4是根据本发明一示例性实施例提供的目标定位方法对目标位置进行定位过程的示意图;
图5是根据本发明一示例性实施例提供的多通道特征的可视化分析的示意图;
图6是根据本发明又一实施例提供的目标定位装置的方框图;
图7是根据本发明一实施例提供的电子设备的硬件结构图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
本发明的目标定位方法是基于图像识别技术的定位方法,通过对图像进行识别定位出特定目标在图像中的位置,本发明提供的目标定位方法有利于提高目标定位的准确率。
下面给出几个具体的实施例,用于详细介绍本申请的技术方案。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图1为本发明一示例性实施例提供的目标定位方法的流程图,参照图1所示,该目标定位方法,包括:
步骤S10、对待识别图像进行特征提取得到多个通道特征;
步骤S20、针对任意一个通道特征,确定每个通道特征对应的加权参数,通道特征对应的加权参数用于表征该通道特征与从所述待识别图像中定位出的目标位置的相关度;
步骤S30、依据所述通道特征对应的加权参数对该通道特征进行修正处理;
步骤S40、利用修正后的各个通道特征定位所述待识别图像中包含目标的目标位置。
本发明属于机器视觉中弱监督场景下的目标定位/检测领域,即用来训练定位/检测算法的信息不是通常所用的矩形框标定信息(Bounding Box Annotation),而是图片的类别信息。虽然仅使用图片的类别信息,通过数据层的随机遮挡和特征图的加权等操作,该方法可以较为准确的定位出目标的位置,可以作为样本标定、目标分类、识别等任务的前置模块,减轻这些任务的学习难度。
本发明提出的弱监督场景下的目标定位方法,在弱监督信息(图片类别信息)的指导下调节网络参数,提取目标的代表性特征;该特征会对目标的不同部位产生特定响应,通过对该特征图进行加权可以得到目标的类型以目标的位置信息。
待识别图像可以为图像采集设备(例如摄像机或者摄像头等)实时采集的图像,或者是应用该方法的设备预先存储的图像。
可利用图像识别算法或者基于深度学习的神经网络对待识别图像(以下简称图像)进行识别,从图像中提取多个通道特征,通道特征指对图像进行特征检测的输出结果,一个通道特征表示对某个特征检测的输出结果;对于通过神经网络对图像进行特征提取而言,通道特征是采用卷积过滤器进行过滤处理后的输出结果,也可称为特征图,通道特征的数量与采用的卷积过滤器的数量有关系。
通道特征可表示出图像的全部特征(即物体级别特征)或者局部特征(即物体某个部位特征,例如头部特征、躯干特征)等,全部特征例如图像的纹理特征、颜色特征,空间关系特征等,局部特征例如图像中包含物体的各部分的形状特征、物体边缘特征等。
目标指预从图像中识别出的特定型的物体,对于需要识别何种物体类型,即目标,与能够提取到的通道特征和基于通道特征进行分类的算法有关,目标位置也即图像中目标所在的区域,对于图像识别而言,可在图像中界定出目标所在区域,例如通过四方形边框、多边形边框或者其他形状的边框界定出目标所在区域,该边框框的位置即为目标位置。
通道特征对应的加权参数用于该通道特征与从待识别图像中定位出的目标位置的相关度,就是说加权参数可以表示对应的通道特征对于目标位置识别结果的影响大小,加权参数越大表示该通道特征对目标位置识别结果影响越大,举例而言,对于识别图像中的车辆而言,能够表征车辆的车轮部分、车窗部分和车标部分的通道特征对于车辆位置识别结果的影响较大,因此,这些通道特征的加权参数较大,表征车辆的颜色或者纹理等的通道特征对于合理识别结果的影响较小,这些通道特征的加权参数较小。
通过各个通道特征对应的加权参数对各个通道特征进行修正处理后,可以强化对于目标识别结果的影响程度大的通道特征的权重,弱化对于目标识别结果的影响程度大的通道特征的权重,因此,不仅可以较为准确的识别出目标的类型,还有利于对目标所在位置进行识别,提高目标定位的准确性。
在一个可选的实施方式中,上述步骤S10所述的对待识别图像进行特征提取得到多通道特征,包括:
将待识别图像输入到训练好的神经网络中,由神经网络的卷积层对待识别图像进行特征提取,得到多个通道特征。
本实施例中,采用神经网络进行特征提取,神经网络包括卷积层,通过卷积层的卷积处理后可得到多个通道特征,可以包括一层或多层卷积层,每个卷积层可包括一个或者多个卷积核,卷积核可以一定的步长滑动对图像的各个区域进行卷积处理,经过每个卷积核进行卷积处理可得到一个通道特征,最后得到的通道特征的数量由最后一个卷积层的卷积核的数量而定。
举例而言,假设卷积核的尺寸例如为4×4,图像的尺寸大小例如为16×16,步长可以是1、2、3、4或6等,卷积核以上述步长滑动,依次对图像的各个区域进行卷积处理,对整个图像卷积完成后可得到一个通道特征,经过多个卷积核进行卷积处理可得到多个通道特征。
其中,对于多个通道特征,多个通道特征可组成一三维的矩阵,该矩阵的尺寸大小可表示为H×W×C,其中,H为通道特征的高度,表示通道特征的纵向上划分的像素点的数量;W为通道特征的宽度,表示通道特征的横向上划分的像素点的数量;C表示通道数,通道数由该基础卷积网络的最后一个卷积层的卷积核的数量而定,最后一个卷积层的每一卷积核可计算出一个通道的特征图。需要指出的是,卷积计算时可以用到多个卷积核,每一卷积核计算出一个通道对应的通道特征,一个通道特征可以用H×W×1表示,一个通道特征对应一个通道。
上述的神经网络为基于深度学的神经网络,例如为卷积神经网络CNN
(Convolutional Neural Network,简称CNN),CNN是一种前馈的人工神经网络,其神经元可以响应有限覆盖范围内周围单元,并通过权值共享和特征汇聚,有效提取图像的特征信息。
对于上述的神经网络训练时,是采用弱监督方式对神经网络进行训练,训练过程包括以下步骤:
步骤S01、搭建神经网络,神经网络包括卷积层;
该神经网络可以包括一层或多层卷积层。
步骤S02、获取训练样本,训练样本包括标记有目标类型的标记图像;
本步骤中,将标记图像作为训练样本,标记图像为标记有目标类型的图像,只需要标记出图像中有哪些类型的目标,不需要标记目标的位置等,标记图像为初略标记的图像,标记图像例如为带有“牛”、“草”、“天空”标签的图像,神经网络只知道图像中具有这些标签的物体,但是不知道这些物体的具体位置,因此对于这幅图像的每个像素,都有可能是“牛”、“草”或者“天空”。
步骤S03、将训练样本输入神经网络,以由神经网络输出对标记图像的目标类型识别结果,根据神经网络输出的目标类型识别结果和训练样本中的目标类型之间的差异,对神经网络中的参数进行更新。
步骤S04、对神经网络经过训练样本的训练后,得到训练好的神经网络。
具体而言,训练样本例如为标记图像X,通过神经网络进行特征提取得到多个通道特征,该些通道特征可以有效的保留目标的空间相对关系,用Y=f(X)表示神经网络输出的目标类型识别结果,其中f是神经网络操作(包括卷积、池化和全连接等)的集合描述,若弱监督任务的识别为分类,则神经网络输出的目标类型识别结果Y表示该标记图像X属于该目标类型的概率;若弱监督任务的识别为分类为图像标注,则Y表示该标记图像X具有图像标注的概率。
通过Y与训练样本中的目标类型的差异来监督更新神经网络中的参数,使神经网络可端到端的进行训练。
上述参数例如包括神经网络中的涉及相关函数中的参数,可通过梯度反向传播方式,修改上述参数,使得神经网络输出的目标类型识别结果和训练样本中的目标类型之间的差异最小。
可将一定数量的训练样本输入神经网络对网络进行训练,在对上述神经网络经过一定数量的样本的训练后,得到训练好的神经网络。
对于上述的神经网络训练时,是采用弱监督方式对神经网络进行训练,由于对训练样本只需标记目标类型,所需的工作量远远小于需要标记出每个目标的具体位置的工作量。
弱监督方式指:仅依靠弱监督力的图像级的标签进行训练,在不知道目标在图像中的具体位置的情况下,利用图像中包含的目标类型来识别并定位图像中的目标。
在一个可选的实施方式中,在获取包括标记有目标类型的标记图像的训练样本,之前还包括:
对标记图像的部分区域进行遮挡处理。
对于上述弱监督方式对神经网络进行训练而言,神经网络学习到的特征主要为目标的显著区域的特征,较难以学习到目标的非显著区域的特征,基于此,为了迫使神经网络去关注非显著区域,能学习到非显著区域的通用特征,通过对样本图像进行随机遮挡,使神经网络不仅仅学习到样本图像中的显著特征,还能学习到样本图像中的通用特征,进而提升定位准确率。对训练样本,对标记图像的部分区域进行遮挡,对于大量的训练样本而言,可随机的对每个标记图像随机遮挡其中的部分区域,遮挡的方式例如为,可将标记图像划分为不同大小(如32*32或64*64)的区域,以一定概率将其中的一个或者部分区域的颜色转变为黑色,以对部分区域进行遮挡。
在一些例子中,上述步骤S20所述的确定各个目标图像特征对应的图像识别系数,包括:
步骤S21、将卷积层输出的多个通道特征输入到所述全连接层,由全连接层确定各个通道特征对应的加权参数。
经过卷积层卷积处理后的输出多个通道特征,各个通道特征可以表征目标的形状和颜色的全部区域特点和局部区域等特点,将多个通道特征输入到全连接层后,全连接层可按照一定规律对多个通道特征进行筛选处理,确定出目标的关键区域和非关键区域,据此,确定每个通道特征对应的加权参数,对于目标的关键区域而言其对应的通道特征的加权参数较大,对于目标的非关键区域而言其对应的通道特征的加权参数较小。
在一些例子中,还可以通过下述方法确定每个通道对应的加权参数,该方法包括:
步骤S22、对通道特征中各特征进行求导得到各特征的导数;
步骤S23、将计算出的各特征的导数的加权平均值作为该通道特征对应的加权参数。
上述实施例是通过神经网络的全连接层确定每个通道特征对应的加权参数,本实施例中是确定每个通道特征对应的加权参数的另一种方法,具体而言,每个通道特征可以包括多个位置的特征,对于每个通道特征而言,对每个位置的特征进行求导,得到各特征的导数,然后计算这些导数的权平均值,将该平均值作为该通道特征对应的加权参数。
对于每个通道特征而言,其可以用函数表示,对该函数上的各点可对应各位置的特征,可计算该函数上各点的导数,即可得到各特征的导数,函数在某一点的导数具体而言是该函数所代表的曲线在这一点上的切线斜率。
本实施例中,通过对卷积层输出的通道特征求导的方式确定通道特征对应的加权参数,通过求导操作有利于获取目标的轮廓特征和纹理特征等,并且可弱化图像光照对目标识别的影响,因此,有利于提高目标定位的准确度。
在一个可选的实施方式中,如图2所示,上述步骤S40所述的利用修正后的各个通道特征定位待识别图像中包含目标的目标位置,包括:
步骤S41、根据修正后的各个通道特征获取待识别图像的各位置的响应值,响应值表示该位置存在目标的概率;
步骤S42、确定大于阈值的响应值对应的位置,将包括大于阈值的响应值对应的位置的区域作为目标位置。
卷积层输出的多个通道特征为多个维度的数据,例如,多个通道特征F(X_o)组成形状为H*W*C的矩阵,其中,H表示矩阵的高度,W表示矩阵的宽度,C表示通道数目,该矩阵中各个位置的值分别对应一个通道特征。
根据加权参数对各通道特征进行加权后,得到的修正后的每个通道特征可表示图像的各位置的响应值,响应值表示该位置存在目标的概率,即该位置存在目标的可能性的大小,响应值越大表示该位置存在目标的可能性越大,通过各个通道特征对应的加权参数对各个通道特征进行修正处理后,可以强化对于目标识别结果的影响程度大的通道特征的权重,弱化对于目标识别结果的影响程度大的通道特征的权重,有利用更准确的定位目标位置。
各位置的响应值可能并不相同,即图像的各位置存在目标的概率并不相同,为了进一步的定位目标所在的位置,设置一阈值,仅保留响应值大于阈值的位置,这些位置为存在目标可能性大的位置,这样可以从图像中筛选出目标的各个局部所在位置,滤除背景,例如,若目标为人,响应值大于阈值的各位置可以包括头部、身体、脚、胳膊等部分所在位置,这些位置可以表示目标的各个局部区域所在的位置,将包含这些位置的区域作为目标位置,例如,画出一个包含这些位置的外接矩形作为标注框,该标注框所在区域即为目标位置,实现对目标的定位。
图3A-图3C中示出了采用上述目标定位方法从各张待识别图片中定位出目标位置的效果图,图3A为定位出的车辆的位置,图3B为定位出的飞机的位置,图3C为定位出的鸟的位置,由上述图可以看出,本发明提供的定位方法可以从图像中较为准确的定位出目标位置。
下面以待识别图像为一幅包括人和狗的图像为例说明上述目标定位方法,参照图4所示,包括人和狗的图像为待识别图像,狗为目标,具体识别过程为:
将该图像输入神经网络中,神经网络包括多层卷积层,经过卷积层对图像进行卷积处理后得到多个通道特征;
确定各个通道特征对应的加权参数;
在对神经网络进行训练过程中,可将卷积层得到的多个通道特征经过池化层的处理后输入到全连接层,由全连接层确定各个通道特征对应的加权参数,例如图4中的各通道特征的加权参数分别为w1、w2、…、wn。
依据各个通道特征对应的加权参数对各个通道特征进行修正处理;
根据修正后的各个通道特征获取待识别图像的各位置的响应值;
参照图5所示,图5中为对通道特征进行可视化分析的示意图,根据各通道特征可获取待识别图像的各位置的响应值,例如,图5中等号左边的各张图分别表示各通道特征对目标的响应图,从图5中可以看出各通道特征可表示图像中各个位置存在目标的概率,图中亮度较高的区域为该通道特征存在目标可能性大的区域,响应值越大的位置表示存在目标的可能性大。
最后,通过对各个位置进行阈值筛选可得到目标位置,确定大于阈值的响应值对应的位置,将包括大于阈值的响应值对应的位置的区域作为目标位置,响应值大于阈值的各位置可所示的目标的各局部所在位置,可通过标注框标识出筛选出的包含各位置的区域,该区域即为目标的位置,例如,图5中等号右边的图中用标注框标识出目标位置。
本发明实施例还提供了一种目标定位装置,如图6所示,该目标定位别装置06包括:
特征提取模块61,用于对待识别图像进行特征提取得到多个通道特征;
加权参数确定模块62,用于针对任意一个通道特征,确定所述通道特征对应的加权参数,所述通道特征对应的加权参数用于表征该通道特征与从所述待识别图像中定位出的目标位置的相关度;
特征修正模块63,用于依据所述通道特征对应的加权参数对该通道特征进行修正处理;
目标位置定位模块64,用于利用修正后的各个通道特征定位所述待识别图像中包含目标的目标位置。
在一些例子中,所述特征提取模块具体用于:
将所述待识别图像输入到训练好的神经网络中,由所述神经网络的卷积层对所述待识别图像进行特征提取,得到多个通道特征;
所述装置还包括训练模块,所述训练模块用于:
搭建神经网络,所述神经网络包括卷积层、池化层和全连接层;
获取训练样本,所述训练样本包括标记有目标类型的标记图像;
将所述训练样本输入所述神经网络,以由所述神经网络输出对所述标记图像的目标类型识别结果,根据所述神经网络输出的目标类型识别结果和所述训练样本中的目标类型之间的差异,对所述神经网络中的参数进行更新;
对所述神经网络经过一定数量的训练样本的训练后,得到训练好的神经网络。
在一个可选的实施方式中,在获取包括标记有目标类型的标记图像的训练样本之后,还包括:
对标记图像的部分区域进行遮挡预处理。
在一个可选的实施方式中,所述加权参数确定模块具体用于:
将所述卷积层输出的多个通道特征输入到所述全连接层,由所述全连接层确定每个通道特征对应的加权参数。
例如,所述加权参数确定模块具体用于:
对通道特征中各特征进行求导得到各特征的导数;
将计算出的各特征的导数的平均值作为该通道特征对应的加权参数。
在一些例子中,所述目标位置定位模块具体用于:
根据修正后的各个通道特征获取待识别图像的各位置的响应值,响应值表示该位置存在目标的概率;
确定大于阈值的响应值对应的位置,将包括大于阈值的响应值对应的位置的区域作为目标位置。
与前述目标定位方法的实施例相对应,本发明提供的目标定位装置可提高目标定位的准确性。
对于装置实施例而言,其中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本实施例的装置可借助软件的方式实现,或者软件加必需的通用硬件的方式来实现,当然也可以通过硬件实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,以软件实现为例,作为一个逻辑意义上的装置,是通过应用该装置的设备所在的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述任一实施例所述方法的步骤。
参见图7,本发明还提供一种电子设备的硬件架构图,该电子设备包括:通信接口101、处理器102、机器可读存储介质103、非易失性存储介质104和总线105;其中,通信接口101、处理器102、机器可读存储介质103和非易失性存储介质104通过总线105完成相互间的通信。处理器102通过读取并执行机器可读存储介质103中与目标定位方法的控制逻辑对应的机器可执行指令,可执行上文描述的目标定位方法。
本文中提到的机器可读存储介质103可以是任何电子、磁性、光学或其它物理存储装置,可以包含或存储信息,如可执行指令、数据,等等。例如,机器可读存储介质可以是:RAM(Radom Access Memory,随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、任何类型的存储盘(如光盘、dvd等),或者类似的存储介质,或者它们的组合。
此外,电子设备可以为各种终端设备或者后端设备,例如摄像机、服务器、移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏操纵台、全球定位系统(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备,仅举几例。
本领域技术人员在考虑说明书及实践这里公开的公开后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由权利要求指出。
Claims (13)
1.一种目标定位方法,其特征在于,包括:
对待识别图像进行特征提取得到多个通道特征;
针对任意一个通道特征,确定所述通道特征对应的加权参数,所述通道特征对应的加权参数用于表征该通道特征与从所述待识别图像中定位出的目标位置的相关度;
依据所述通道特征对应的加权参数对该通道特征进行修正处理;
利用修正后的各个通道特征定位所述待识别图像中包含目标的目标位置。
2.根据权利要求1所述的方法,其特征在于,所述对待识别图像进行特征提取得到多通道特征,包括:
将所述待识别图像输入到训练好的神经网络中,由所述神经网络的卷积层对所述待识别图像进行特征提取,得到多个通道特征;
所述神经网络通过如下步骤训练得到:
搭建神经网络,所述神经网络包括卷积层、池化层和全连接层;
获取训练样本,所述训练样本包括标记有目标类型的标记图像;
将所述训练样本输入所述神经网络,以由所述神经网络输出对所述标记图像的目标类型识别结果,根据所述神经网络输出的目标类型识别结果和所述训练样本中的目标类型之间的差异,对所述神经网络中的参数进行更新;
对所述神经网络经过训练样本的训练后,得到训练好的神经网络。
3.根据权利要求1所述的方法,其特征在于,在获取包括标记有目标类型的标记图像的训练样本之后,还包括:
对标记图像的部分区域进行遮挡预处理。
4.根据权利要求2所述的方法,其特征在于,所述确定所述通道特征对应的加权参数,包括:
将所述卷积层输出的多个通道特征输入到所述全连接层,由所述全连接层确定各个通道特征对应的加权参数。
5.根据权利要求1所述的方法,其特征在于,所述确定通道特征对应的加权参数,包括:
对通道特征中各特征进行求导得到各特征的导数;
将计算出的各特征的导数的平均值作为该通道特征对应的加权参数。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述利用修正后的各个通道特征定位所述待识别图像中包含目标的目标位置,包括:
根据修正后的各个通道特征获取待识别图像的各位置的响应值,响应值表示该位置存在目标的概率;
确定大于阈值的响应值对应的位置,将包括大于阈值的响应值对应的位置的区域作为目标位置。
7.一种目标定位装置,其特征在于,包括:
特征提取模块,用于对待识别图像进行特征提取得到多个通道特征;
加权参数确定模块,用于针对任意一个通道特征,确定所述通道特征对应的加权参数,所述通道特征对应的加权参数用于表征该通道特征与从所述待识别图像中定位出的目标位置的相关度;
特征修正模块,用于依据所述通道特征对应的加权参数对该通道特征进行修正处理;
目标位置定位模块,用于利用修正后的各个通道特征定位所述待识别图像中包含目标的目标位置。
8.根据权利要求7所述的装置,其特征在于,所述特征提取模块具体用于:
将所述待识别图像输入到训练好的神经网络中,由所述神经网络的卷积层对所述待识别图像进行特征提取,得到多个通道特征;
所述装置还包括训练模块,所述训练模块用于:
搭建神经网络,所述神经网络包括卷积层、池化层和全连接层;
获取训练样本,所述训练样本包括标记有目标类型的标记图像;
将所述训练样本输入所述神经网络,以由所述神经网络输出对所述标记图像的目标类型识别结果,根据所述神经网络输出的目标类型识别结果和所述训练样本中的目标类型之间的差异,对所述神经网络中的参数进行更新;
对所述神经网络经过一定数量的训练样本的训练后,得到训练好的神经网络。
9.根据权利要求8所述的装置,其特征在于,所述加权参数确定模块具体用于:
将所述卷积层输出的多个通道特征输入到所述全连接层,由所述全连接层确定每个通道特征对应的加权参数。
10.根据权利要求8所述的装置,其特征在于,所述加权参数确定模块具体用于:
对每个通道特征中各特征进行求导得到各特征的导数;
将计算出的每个通道的各特征的导数的平均值作为每个通道特征对应的加权参数。
11.根据权利要求7-10任一项所述的装置,其特征在于,所述目标位置定位模块具体用于:
根据修正后的各个通道特征获取待识别图像的各位置的响应值,响应值表示该位置存在目标的概率;
确定大于阈值的响应值对应的位置,将包括大于阈值的响应值对应的位置的区域作为目标的位置。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1-6任一项所述方法的步骤。
13.一种电子设备,其特征在于,包括处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令,所述处理器被所述机器可执行指令促使执行如权利要求1至6任一项所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810821904.9A CN110751163B (zh) | 2018-07-24 | 2018-07-24 | 目标定位方法及其装置、计算机可读存储介质和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810821904.9A CN110751163B (zh) | 2018-07-24 | 2018-07-24 | 目标定位方法及其装置、计算机可读存储介质和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110751163A true CN110751163A (zh) | 2020-02-04 |
CN110751163B CN110751163B (zh) | 2023-05-26 |
Family
ID=69275586
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810821904.9A Active CN110751163B (zh) | 2018-07-24 | 2018-07-24 | 目标定位方法及其装置、计算机可读存储介质和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110751163B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113763305A (zh) * | 2020-05-29 | 2021-12-07 | 杭州海康威视数字技术股份有限公司 | 标定物品缺陷的方法、装置及电子设备 |
CN116310806A (zh) * | 2023-02-28 | 2023-06-23 | 北京理工大学珠海学院 | 一种基于图像识别的智慧农业一体化管理系统及方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170061253A1 (en) * | 2015-08-28 | 2017-03-02 | Thomson Licensing | Method and device for determining the shape of an object represented in an image, corresponding computer program product and computer-readable medium |
CN106845357A (zh) * | 2016-12-26 | 2017-06-13 | 银江股份有限公司 | 一种基于多通道网络的视频人脸检测和识别方法 |
US20170177972A1 (en) * | 2015-12-21 | 2017-06-22 | Nokia Technologies Oy | Method for analysing media content |
US20170193325A1 (en) * | 2015-12-31 | 2017-07-06 | Adaptive Computation, Llc | Systems and methods for object recognition based on human visual pathway |
CN107038448A (zh) * | 2017-03-01 | 2017-08-11 | 中国科学院自动化研究所 | 目标检测模型构建方法 |
CN107515895A (zh) * | 2017-07-14 | 2017-12-26 | 中国科学院计算技术研究所 | 一种基于目标检测的视觉目标检索方法与系统 |
CN108010060A (zh) * | 2017-12-06 | 2018-05-08 | 北京小米移动软件有限公司 | 目标检测方法及装置 |
CN108133489A (zh) * | 2017-12-21 | 2018-06-08 | 燕山大学 | 一种增强的多层卷积视觉跟踪方法 |
CN108229379A (zh) * | 2017-12-29 | 2018-06-29 | 广东欧珀移动通信有限公司 | 图像识别方法、装置、计算机设备和存储介质 |
-
2018
- 2018-07-24 CN CN201810821904.9A patent/CN110751163B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170061253A1 (en) * | 2015-08-28 | 2017-03-02 | Thomson Licensing | Method and device for determining the shape of an object represented in an image, corresponding computer program product and computer-readable medium |
US20170177972A1 (en) * | 2015-12-21 | 2017-06-22 | Nokia Technologies Oy | Method for analysing media content |
US20170193325A1 (en) * | 2015-12-31 | 2017-07-06 | Adaptive Computation, Llc | Systems and methods for object recognition based on human visual pathway |
CN106845357A (zh) * | 2016-12-26 | 2017-06-13 | 银江股份有限公司 | 一种基于多通道网络的视频人脸检测和识别方法 |
CN107038448A (zh) * | 2017-03-01 | 2017-08-11 | 中国科学院自动化研究所 | 目标检测模型构建方法 |
CN107515895A (zh) * | 2017-07-14 | 2017-12-26 | 中国科学院计算技术研究所 | 一种基于目标检测的视觉目标检索方法与系统 |
CN108010060A (zh) * | 2017-12-06 | 2018-05-08 | 北京小米移动软件有限公司 | 目标检测方法及装置 |
CN108133489A (zh) * | 2017-12-21 | 2018-06-08 | 燕山大学 | 一种增强的多层卷积视觉跟踪方法 |
CN108229379A (zh) * | 2017-12-29 | 2018-06-29 | 广东欧珀移动通信有限公司 | 图像识别方法、装置、计算机设备和存储介质 |
Non-Patent Citations (3)
Title |
---|
JIE HU,ET AL: "Squeeze-and-Excitation Networks", 《ARXIV:1709.01507》 * |
周飞燕 等: "卷积神经网络研究综述", 《计算机学报》 * |
赵欣欣 等: "基于卷积神经网络的铁路桥梁高强螺栓缺失图像识别方法", 《中国铁道科学》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113763305A (zh) * | 2020-05-29 | 2021-12-07 | 杭州海康威视数字技术股份有限公司 | 标定物品缺陷的方法、装置及电子设备 |
CN113763305B (zh) * | 2020-05-29 | 2023-08-04 | 杭州海康威视数字技术股份有限公司 | 标定物品缺陷的方法、装置及电子设备 |
CN116310806A (zh) * | 2023-02-28 | 2023-06-23 | 北京理工大学珠海学院 | 一种基于图像识别的智慧农业一体化管理系统及方法 |
CN116310806B (zh) * | 2023-02-28 | 2023-08-29 | 北京理工大学珠海学院 | 一种基于图像识别的智慧农业一体化管理系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110751163B (zh) | 2023-05-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112270249B (zh) | 一种融合rgb-d视觉特征的目标位姿估计方法 | |
CN110738101B (zh) | 行为识别方法、装置及计算机可读存储介质 | |
CN112446270B (zh) | 行人再识别网络的训练方法、行人再识别方法和装置 | |
CN108229509B (zh) | 用于识别物体类别的方法及装置、电子设备 | |
US20220092882A1 (en) | Living body detection method based on facial recognition, and electronic device and storage medium | |
CN109960742B (zh) | 局部信息的搜索方法及装置 | |
CN108805016B (zh) | 一种头肩区域检测方法及装置 | |
CN110135318B (zh) | 过车记录的确定方法、装置、设备及存储介质 | |
CN112836625A (zh) | 人脸活体检测方法、装置、电子设备 | |
CN112884782B (zh) | 生物对象分割方法、装置、计算机设备和存储介质 | |
JP6756406B2 (ja) | 画像処理装置、画像処理方法および画像処理プログラム | |
CN111144425B (zh) | 检测拍屏图片的方法、装置、电子设备及存储介质 | |
JP2021503139A (ja) | 画像処理装置、画像処理方法および画像処理プログラム | |
CN114898434B (zh) | 口罩识别模型的训练方法、装置、设备及存储介质 | |
CN110930384A (zh) | 基于密度信息的人群计数方法、装置、设备以及介质 | |
CN115512238A (zh) | 病害区域的确定方法、装置、存储介质及电子装置 | |
CN111191482B (zh) | 一种刹车灯识别方法、装置及电子设备 | |
CN111928857B (zh) | 一种动态环境中实现slam定位的方法及相关装置 | |
WO2014205787A1 (zh) | 一种基于混合图像模板的车辆检测方法 | |
CN110751163B (zh) | 目标定位方法及其装置、计算机可读存储介质和电子设备 | |
CN115620022A (zh) | 一种对象检测方法、装置、设备及存储介质 | |
CN111524161A (zh) | 提取轨迹的方法和装置 | |
CN110969657B (zh) | 一种枪球坐标关联方法、装置、电子设备及存储介质 | |
US20230005162A1 (en) | Image processing system, image processing method, and storage medium | |
CN114332924B (zh) | 信息处理方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |