CN112949673B - 一种基于全局注意力的特征融合目标检测与识别方法 - Google Patents
一种基于全局注意力的特征融合目标检测与识别方法 Download PDFInfo
- Publication number
- CN112949673B CN112949673B CN201911270269.0A CN201911270269A CN112949673B CN 112949673 B CN112949673 B CN 112949673B CN 201911270269 A CN201911270269 A CN 201911270269A CN 112949673 B CN112949673 B CN 112949673B
- Authority
- CN
- China
- Prior art keywords
- feature
- features
- convolution
- global
- channel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 45
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000004927 fusion Effects 0.000 title claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 15
- 238000011176 pooling Methods 0.000 claims description 7
- 238000010586 diagram Methods 0.000 claims description 6
- 238000007500 overflow downdraw method Methods 0.000 claims description 4
- 230000004044 response Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 2
- 238000001914 filtration Methods 0.000 claims description 2
- 239000011159 matrix material Substances 0.000 claims description 2
- 238000012935 Averaging Methods 0.000 claims 1
- 238000012512 characterization method Methods 0.000 claims 1
- 238000005457 optimization Methods 0.000 claims 1
- 238000006116 polymerization reaction Methods 0.000 claims 1
- 238000013527 convolutional neural network Methods 0.000 abstract description 10
- 230000000694 effects Effects 0.000 abstract description 5
- 230000003993 interaction Effects 0.000 abstract description 2
- 238000011160 research Methods 0.000 abstract description 2
- 238000004364 calculation method Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 101001121408 Homo sapiens L-amino-acid oxidase Proteins 0.000 description 1
- 102100026388 L-amino-acid oxidase Human genes 0.000 description 1
- 101100012902 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) FIG2 gene Proteins 0.000 description 1
- 101100233916 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) KAR5 gene Proteins 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于全局注意力的特征融合目标检测与识别方法。包括以下步骤:首先由卷积神经网络提取六层不同尺度大小的特征图,然后采用多级特征融合的方法,将浅层和深层特征的语义信息相结合,提高特征图的表达能力。接着引入全局注意力模块来结合上下文信息,增强有效特征和抑制冗余特征。此外,在多任务损失函数的基础上,增加一项额外的惩罚项来平衡正负样本。最后通过训练,不断优化网络参数得到最终的检测模型。本发明所提方法在检测的精度和速度上都有一定的提高,并提升了小目标物体的检测效果,在人机交互、人脸识别、计算摄影、自动驾驶、视频监控等各个方面都有着重要的研究价值和应用前景。
Description
技术领域
本发明涉及一种基于全局注意力的特征融合目标检测与识别方法,属于计算机视觉与智能信息处理领域。
背景技术
目标检测是计算机视觉研究的主要领域之一,其主要任务是在一幅含有多目标物体的图像中,预测不同目标的类别标签与位置坐标。在实际生活中,目标检测已引起广泛关注,并已成功应用于许多领域,包括人机交互、人脸识别、计算摄影、自动驾驶、视频监控等各个方面。
早期的检测方法利用手工制作的特征和分类器,特征表达能力非常有限。由于CNN的应用,基于CNN的检测器能有效地提取图像目标的特征,也使得AlexNet、GoogLeNet、ResNet和VGGNet等大型卷积神经网络模型得到了训练,实现了CNN强大的特征表达能力。基于深度学习的目标检测方法可分为两阶段检测方法和一阶段检测方法两类。两阶段检测方法将检测问题划分为两个过程,首先通过选择性搜索生成一组候选框,然后根据各候选区域的特征,采用卷积网络进行分类和回归,预测对象的位置和相应的类别标签。最具代表性的两阶段检测方法有R-CNN,FastR-CNN、FasterR-CNN等。以R-CNN方法为代表的两阶段检测方法虽然检测精度越来越高,但是其速度却遇到瓶颈,很难满足部分场景实时性的需求,因此出现了一种基于回归方法的一阶段检测方法。相较于两阶段检测方法,一阶段检测方法直接将目标框定位问题转化为回归问题,仅仅使用一个CNN网络预测不同目标的类别标签与位置坐标,在保证一定准确率的前提下,速度得到极大提升,经典的一阶段检测方法有YOLO和SSD等。虽然一阶段检测方法凭借高效率的优势近年来引起了更多关注,但是由于一阶段检测方法在小目标检测上有局限性,并且大多数现有方法为了提高精度引入复杂网络而牺牲了速度,为了克服性能和复杂性之间取舍的矛盾,本发明提出了一种基于全局注意力的特征融合目标检测与识别方法,在提升小目标物体检测效果的同时,平衡了检测的速度。
发明内容
本发明提出了一种基于全局注意力的特征融合目标检测与识别方法,目的在于结合全局注意力模块和特征融合的方法得到表达能力更强的特征,在提高对小目标的检测效果的同时,平衡检测速度。
本发明通过以下技术方案来实现上述目的:
(1)使用基准网络VGG-16作为特征抽取网络,末端辅以一系列卷积层,再结合空洞卷积RFB模块,初步得到多尺度的卷积特征层。
(2)采用多级特征融合方法,将初步得到的第1、2、3层特征进行融合到第1层特征图上,通过将深层和浅层的特征语义信息相结合,得到更加有效的特征。
(3)将融合得到的特征图和其他与特征层结合全局注意力模块,捕捉特征图像素之间的关系,自适应地标定通道响应,从而提高特征图的表达能力。
(4)在多任务损失函数的基础上引入了Focal loss来调整正负样本的平衡。然后将上述处理后的特征进行分类和边框回归操作,通过训练,不断优化网络参数,再通过NMS过滤重复检测的边框得到最终的检测模型。
附图说明
图1为本发明基于全局注意力的特征融合目标检测与识别方法网络框架图。
图2为本发明基于多级特征融合模块结构图。
图3为本发明基于注意力模块结构图。
具体实施方式
下面结合附图对本发明作进一步说明:
构建多级特征融合模块方法如下:
本发明提出多级特征融合方法,将较深层特征融合到浅层特征上,使浅层特征得到更多的语义信息补充,最后得到感受野合适而又不缺乏语义信息的特征,从而更好的检测到小目标。构建多级特征融合模块如图2所示。
首先,对第1层特征进行卷积操作,得到尺寸大小不变、通道为原来通道的1/3的特征,然后对第2、3层特征进行卷积和上采样操作,得到尺寸和第1层尺寸相同、通道为原第1层特征通道的1/3的特征,接着对经过处理的特征进行融合操作,得到感受野合适而又不缺乏语义信息的特征,用于更好的检测小目标。经过语义融合得到的特征图可以表示为
其中xi表示第i层特征图,xi∈RH×W×C,H、W和C分别表示特征图的长、宽和通道,表示对特征图进行卷积或上采样一系列操作,将x1、x2和x3变换到指定尺寸和通道后进行Concate融合,接着经过卷积Wk和ReLU操作得到更有效的特征。
构建全局注意力模块方法如下:
全局注意力模块的结构图如图3所示。本发明中全局注意力模块分为三个部分,分别是Context Modeling、Transform和Fusion。
Context Modeling是上下文建模部分,采用1×1卷积wk和Softmax等操作来获取注意力的权值,将全局上下文建模为所有位置特征的加权平均值,然后聚集全局上下文特征到每个位置的特征上,定义x为输入的特征图,特征图的宽和高分别为W和H,xi和xj分别表示某一位置的像素值,xi经过Context Modeling得到的表达为
其中Np为特征图的位置数量,Np=H·W,αj用来计算位置i和所有可能关联的位置j之间的关系,获取全局上下文信息的权重,i表示该特征图中具体位置的索引,j是所有可能的位置的索引,位置i和j两点之间的相似性关联函数通过exp(Wkxj)表征;Wk是1×1卷积操作,这里看作是一个线性转换矩阵。
Transform是特征转换部分,如图3所示,它通过卷积、Global pooling和ReLU等操作实现,用来捕获通道间的依赖关系,经过Transform模块得到的特征表示为
s=xc·σ{Wuδ{LN[WrFg(xc)]}} (3)
其中xc是对ContextModeling模块的输出进行变换和卷积Wv操作得到的特征,δ是ReLU操作,σ是Sigmoid操作。接着在xc的每个通道上执行全局平均池化,在空间维度上对特征进行压缩,使其具有全局的感受野,池化的过程Fg表示为
Fg操作将特征空间上所有点的信息平均成了一个值,表征在特征通道上响应的全局分布,因为要利用通道间的相关性,就需要基于通道的整体信息计算,增加了全局平均池化屏蔽空间分布的相关性而突出通道间的相关性。接着通过Wr卷积操作减少通道数从而降低计算量,加入LayerNorm作为正则化提高泛化性;然后通过Wu卷积操作恢复到原通道大小,以学习的方式为每个特征通道生成权重,来显式地建模特征通道间的相关性;最后经过Sigmoid激活函数层,获得0~1之间归一化的权重,通过乘法逐通道将归一化后的权重加权到原来的特征上,完成在通道维度上的对原始特征的重标定。综合来看,Transform以特征通道之间的关系为出发点,让网络利用全局信息,显式地建模特征通道之间的依赖关系,通过学习自动获取每个特征通道的重要性,选择性地增强重要的通道特征并抑制不重要的通道特征,从而达到特征通道自适应校准的目的。
Fusion是特征融合部分,用于将处理得到的全局上下文特征聚合到原始特征上,得到最终输出特征的表达式为
z=x+s (5)
优化的损失函数的模块如下:
在多任务损失函数的基础上,加入了Focal loss惩罚项,对损失函数进行了改进,改善了单级探测器所面临的类别不平衡的问题,总目标损失函数由每个默认框的定位损失与分类损失的加权和构成,即
其中,定位损失Lloc采用的是Smooth L1 Loss,分类损失Lconf采用的是多类别信息交叉熵,分类损失Lf-l表示Focal loss,N为与真实物体框所匹配的默认框数量,x为默认框与真实物体框的匹配结果,l为预测结果的位置信息,s为类别置信度;g为真实物体框个数;η和β参数用于调整两种分类损失的比例,且η+β=1。Lfl表示Focal loss惩罚项,用于平衡正负样本。通过实验验证η=0.95,β=0.05时,可取较好的检测效果。Lfl计算公式为
其中,y是真实样本的标签(1为正样本,0为负样本),是经过Sigmoid激活函数的预测输出(数值在0-1之间)。平衡因子α用来平衡正负样本本身的数量比例不均,这里的两个参数α和γ协调来控制,本方法采用α=0.25,γ=2可以达到最好的实验效果。虽然只添加α可以平衡正负样本的重要性,但不能解决简单和难分样本的问题,因此针对难分样本的γ也必不可少,γ调节简单样本权重降低的速率,当γ为0时,即为交叉熵损失函数,当γ增加时,调整因子的影响也在增加。
为了验证本发明所述基于全局注意力的特征融合目标检测与识别方法的有效性,在PASCAL VOC 2007和PASCAL VOC 2012两个数据集中开展实验。本文的实验的硬件环境为Inter(R)Xeon(R)CPUE5-2686的中央处理器,Nvidia GTX 1080Ti的显卡,16GB的RAM的PC机;软件环境为Ubuntu16.04.5系统,OpenCV和Pytorch深度学习开发框架,加速库为CUDA8.0和CUDNN6.0。采用VGG-16用作基础网络,采用SGD对得到的模型进行微调,学习率初始化为0.006,权重衰减为0.0005,动量为0.9,所有的卷积层使用“Xavier”方法进行初始化。检测精度的评价指标为mAP(mean Average Precision),检测时间性能的评价指标为FPS(Frames Per Second)。
对于VOC 2007数据集,使用VOC 2007trainval和VOC 2012 trainval共16551张图像作训练集,用VOC 2007 test的4952张图像作测试集,所有这些图像都用类标签和真实边界框注释,通过迭代计算400个epoch,得到最终检测模型。实验结果由表1所示,当输入图像大小为300×300时,本发明的方法mAP为80.48%,比RFBNet300*高0.76%,领先于两阶段和YOLO,YOLOv2检测方法的同时,相较于SSD、RSSD和DSSD一阶段检测方法精度分别提高了6.16%、1.96%和1.86%;由于本发明只引入轻量级的计算,提升检测精度的同时降低了时间成本,速度达到81.7fps,比RFBNet300*略低。同样的,当输入图像尺寸为512×512时,与其他检测方法相比,精度和速度均有不同程度的提升,充分证明了本发明的有效性。
对于VOC 2012数据集,使用VOC 2007 trainval和VOC 2012 trainval中的图像做训练集,用VOC 2012 test的10991张图像用于测试集,没有公共ground-truth边界框可用,所有方法的测试结果提交给PASCAL VOC的评估服务器评估。如表2所示,提供了每个类别的平均精度(AP)的详细比较,可以看到本发明增强了区分不同类别对象的模型能力,从而提高了大多数类别对象的检测准确性。
表1 VOC 2007数据集实验结果
表2 VOC 2012数据集实验结果
Claims (5)
1.一种基于全局注意力的特征融合目标检测与识别方法,其特征在于包括以下步骤:
(1)使用基准网络VGG-16作为特征抽取网络,末端辅以一系列卷积和池化层,再结合空洞卷积模块,初步得到多尺度的卷积特征层;
(2)构建多级特征融合模块,将第1、2、3层特征图进行融合,将深层和浅层的特征语义信息相结合,从而得到更加有效的特征;
(3)构建包含Context Modeling、Transform和Fusion三个部分组成的全局注意力模块,以Context Modeling捕捉上下文特征图像素之间的关系,并以Transform对通道间特征进行建模,自适应地重新标定通道特征响应,最终以Fusion聚合处理后的全局上下文特征到原始特征上,从而得到更加有效且丰富的特征,提高特征图的表达能力;
(4)在多任务损失函数的基础引入了Focal loss来调整正负样本的平衡,然后将上述处理后的特征进行分类和边框回归操作,通过训练模型,不断优化网络参数,最后通过NMS过滤重复检测边框得到最终的检测模型。
2.根据权利要求1所述的方法,其特征在于(1)中获取多尺度的卷积特征层,获取方法如下:
本发明采用VGG16作为基础网络,将VGG16后的两个全连接层FC6和FC7转换成普通的卷积层Conv6和Conv7,之后又添加多个卷积和池化层,然后从后面新增的卷积层中选取Conv7,Conv8_2,Conv9_2,Conv10_2,Conv11_2加上Conv4_3层共6个特征图作为检测所用的特征图,并将Conv4_3、Conv7、Conv8_2和Conv9_2通过空洞卷积模块,初步得到多尺度的卷积特征层。
4.根据权利要求1所述的方法,其特征在于(3)中构建全局注意力增强模块,构建方法如下:
全局注意力模块分为三个部分,分别是Context Modeling、Transform和Fusion,Context Modeling是上下文建模部分,采用卷积和Softmax操作来获取注意力的权值,将全局上下文建模为所有位置特征的加权平均值,然后聚集全局上下文特征到每个位置的特征上,定义x为输入的特征图,特征图的宽和高分别为W和H,xi和xj分别表示某一位置的像素值,xi经过Context Modeling得到的表达为
式中NP为特征图的位置数量,NP=H·W,αj用来计算位置i和所有可能关联的位置j之间的关系,获取全局上下文信息的权重,i表示该特征图中具体位置的索引,j是所有可能的位置的索引,位置i和j两点之间的相似性关联函数通过exp(Wkxj)表征,Wk是1×1的卷积操作,这里看做是一个线性转换矩阵;Transform是特征转换部分,它通过卷积、Globalpooling和ReLU操作实现,用来捕获通道间的依赖关系,该过程可以表式为
s=xc·σ{Wuδ{LN[WrFg(xc)]}} (3)
其中xc是对ContextModeling模块的输出进行变换和卷积Wu操作得到的特征,δ是ReLU操作,σ是Sigmoid操作;接着在xc的每个通道上执行全局平均池化,在空间维度上对特征进行压缩,使其具有全局的感受野,池化的过程Fg表示为
Fg操作将特征空间上所有点的信息平均成了一个值,表征在特征通道上响应的全局分布;接着通过Wr卷积操作减少通道数从而降低计算量,加入LayerNorm作为正则化提高泛化性;然后通过Wu卷积操作恢复到原通道大小,以学习的方式为每个特征通道生成权重,来显式地建模特征通道间的相关性;最后经过Sigmoid激活函数层,获得0~1之间归一化的权重,通过乘法逐通道将归一化后的权重加权到原来的特征上,完成在通道维度上的对原始特征的重标定;Fusion是特征融合部分,用于将处理得到的全局上下文特征聚合到原始特征上,得到最终输出特征的表达式为
z=x+s (5)。
5.根据权利要求1所述的方法,其特征在于(4)中损失函数的优化,优化方法如下:
在多任务损失函数的基础上,加入了Focal loss惩罚项,对损失函数进行了改进,改善了单级探测器所面临的类别不平衡的问题,总目标损失函数由每个默认框的定位损失与分类损失的加权和构成,即
其中,定位损失Lloc采用的是Smooth L1 Loss,分类损失Lconf采用的是多类别信息交叉熵,增加的惩罚项分类损失Lf-l采用Focalloss,N为与真实物体框所匹配的默认框数量,x为默认框与真实物体框的匹配结果,l为预测结果的位置信息,c为预测的类别标签,s为类别置信度;g为真实物体框个数,η和β参数用于调整两种分类损失的比例。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911270269.0A CN112949673B (zh) | 2019-12-11 | 2019-12-11 | 一种基于全局注意力的特征融合目标检测与识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911270269.0A CN112949673B (zh) | 2019-12-11 | 2019-12-11 | 一种基于全局注意力的特征融合目标检测与识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112949673A CN112949673A (zh) | 2021-06-11 |
CN112949673B true CN112949673B (zh) | 2023-04-07 |
Family
ID=76234314
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911270269.0A Active CN112949673B (zh) | 2019-12-11 | 2019-12-11 | 一种基于全局注意力的特征融合目标检测与识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112949673B (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113408546B (zh) * | 2021-06-21 | 2023-03-07 | 武汉工程大学 | 基于相互全局上下文注意力机制的单样本目标检测方法 |
CN113627258B (zh) * | 2021-07-12 | 2023-09-26 | 河南理工大学 | 一种苹果叶部病理检测方法 |
CN113469099B (zh) * | 2021-07-13 | 2024-03-15 | 北京航科威视光电信息技术有限公司 | 目标检测模型的训练方法、检测方法、装置、设备及介质 |
CN113962281A (zh) * | 2021-08-20 | 2022-01-21 | 北京工业大学 | 基于Siamese-RFB的无人机目标跟踪方法 |
CN113743505A (zh) * | 2021-09-06 | 2021-12-03 | 辽宁工程技术大学 | 基于自注意力和特征融合的改进ssd目标检测方法 |
CN113554125B (zh) * | 2021-09-18 | 2021-12-17 | 四川翼飞视科技有限公司 | 结合全局与局部特征的目标检测装置、方法和存储介质 |
CN113947600A (zh) * | 2021-12-20 | 2022-01-18 | 湖南工商大学 | 一种数字孪生宏观场景的多目标检测方法及装置 |
CN114494827A (zh) * | 2022-01-11 | 2022-05-13 | 中国长江三峡集团有限公司 | 一种用于检测航拍图片的小目标检测方法 |
CN116524451A (zh) * | 2022-01-19 | 2023-08-01 | 中国矿业大学(北京) | 一种基于深度学习和目标检测结合的轨道障碍物检测方法 |
CN114463677B (zh) * | 2022-01-19 | 2024-03-22 | 北京工业大学 | 一种基于全局注意力的安全帽配戴检测方法 |
CN114429524B (zh) * | 2022-04-07 | 2022-09-23 | 深圳市城市交通规划设计研究中心股份有限公司 | 单目视觉下的三维目标检测模型的构建方法及检测方法 |
CN115063833B (zh) * | 2022-05-16 | 2024-05-14 | 国网冀北电力有限公司信息通信分公司 | 一种基于图像分层视觉的机房人员检测方法 |
CN114677517B (zh) * | 2022-05-30 | 2022-08-26 | 山东巍然智能科技有限公司 | 一种无人机用语义分割网络模型及图像分割识别方法 |
CN114724012B (zh) * | 2022-06-10 | 2022-08-23 | 天津大学 | 基于时空跨尺度注意力融合热带不稳定波预警方法及装置 |
CN115205292B (zh) * | 2022-09-15 | 2022-11-25 | 合肥中科类脑智能技术有限公司 | 一种配电线路树障检测方法 |
CN115205300B (zh) * | 2022-09-19 | 2022-12-09 | 华东交通大学 | 基于空洞卷积和语义融合的眼底血管图像分割方法与系统 |
CN117765378B (zh) * | 2024-02-22 | 2024-04-26 | 成都信息工程大学 | 多尺度特征融合的复杂环境下违禁物品检测方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017080929A1 (en) * | 2015-11-12 | 2017-05-18 | Philips Lighting Holding B.V. | Image processing system |
CN108510012A (zh) * | 2018-05-04 | 2018-09-07 | 四川大学 | 一种基于多尺度特征图的目标快速检测方法 |
CN110414600A (zh) * | 2019-07-27 | 2019-11-05 | 西安电子科技大学 | 一种基于迁移学习的空间目标小样本识别方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107608943B (zh) * | 2017-09-08 | 2020-07-28 | 中国石油大学(华东) | 融合视觉注意力和语义注意力的图像字幕生成方法及系统 |
CN109858547A (zh) * | 2019-01-29 | 2019-06-07 | 东南大学 | 一种基于bssd的目标检测方法与装置 |
US10453197B1 (en) * | 2019-02-18 | 2019-10-22 | Inception Institute of Artificial Intelligence, Ltd. | Object counting and instance segmentation using neural network architectures with image-level supervision |
US10430946B1 (en) * | 2019-03-14 | 2019-10-01 | Inception Institute of Artificial Intelligence, Ltd. | Medical image segmentation and severity grading using neural network architectures with semi-supervised learning techniques |
CN110378205A (zh) * | 2019-06-06 | 2019-10-25 | 西安电子科技大学 | 一种基于改进型cnn网络的复杂雷达辐射源识别算法 |
CN110348423A (zh) * | 2019-07-19 | 2019-10-18 | 西安电子科技大学 | 一种基于深度学习的实时人脸检测方法 |
-
2019
- 2019-12-11 CN CN201911270269.0A patent/CN112949673B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017080929A1 (en) * | 2015-11-12 | 2017-05-18 | Philips Lighting Holding B.V. | Image processing system |
CN108510012A (zh) * | 2018-05-04 | 2018-09-07 | 四川大学 | 一种基于多尺度特征图的目标快速检测方法 |
CN110414600A (zh) * | 2019-07-27 | 2019-11-05 | 西安电子科技大学 | 一种基于迁移学习的空间目标小样本识别方法 |
Non-Patent Citations (1)
Title |
---|
张松 等."一种多特征融合的运动目标检测算法".《扬州大学学报(自然科学版)》.2018,第21卷(第4期),42-46. * |
Also Published As
Publication number | Publication date |
---|---|
CN112949673A (zh) | 2021-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112949673B (zh) | 一种基于全局注意力的特征融合目标检测与识别方法 | |
CN114283345B (zh) | 基于元学习和注意力的小样本城市遥感影像信息提取方法 | |
CN112906718B (zh) | 一种基于卷积神经网络的多目标检测方法 | |
CN112906720B (zh) | 基于图注意力网络的多标签图像识别方法 | |
CN111310773B (zh) | 一种高效的卷积神经网络的车牌定位方法 | |
CN112257601B (zh) | 基于弱监督学习的数据增强网络的细粒度车辆识别方法 | |
WO2021155792A1 (zh) | 一种处理装置、方法及存储介质 | |
CN108510012A (zh) | 一种基于多尺度特征图的目标快速检测方法 | |
CN111460980B (zh) | 基于多语义特征融合的小目标行人的多尺度检测方法 | |
CN108509978A (zh) | 基于cnn的多级特征融合的多类目标检测方法及模型 | |
CN109961460A (zh) | 一种基于改进YOLOv3模型的多目标巡检方法 | |
CN111652236A (zh) | 弱监督场景下跨层特征交互的轻量级细粒度图像识别方法 | |
CN110222718B (zh) | 图像处理的方法及装置 | |
WO2022217434A1 (zh) | 感知网络、感知网络的训练方法、物体识别方法及装置 | |
CN108416270B (zh) | 一种基于多属性联合特征的交通标志识别方法 | |
CN113128308B (zh) | 一种港口场景下的行人检测方法、装置、设备及介质 | |
CN114821374B (zh) | 一种知识与数据协同驱动的无人机航拍目标检测方法 | |
US20230070439A1 (en) | Managing occlusion in siamese tracking using structured dropouts | |
CN111797970A (zh) | 训练神经网络的方法和装置 | |
CN114972208B (zh) | 一种基于YOLOv4的轻量化小麦赤霉病检测方法 | |
CN118015539A (zh) | 基于GSConv+VOV-GSCSP的改进YOLOv8密集行人检测方法 | |
CN111898479A (zh) | 一种基于全卷积单步目标检测算法的口罩佩戴识别方法和装置 | |
CN118154971A (zh) | 一种基于全卷积-动态图网络的sar图像分类方法 | |
Jiang et al. | A multiobject detection scheme based on deep learning for infrared images | |
CN115731517A (zh) | 一种基于Crowd-RetinaNet网络的拥挤人群检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |