CN112183236A - 无人机航拍视频内容识别方法、装置及系统 - Google Patents
无人机航拍视频内容识别方法、装置及系统 Download PDFInfo
- Publication number
- CN112183236A CN112183236A CN202010946775.3A CN202010946775A CN112183236A CN 112183236 A CN112183236 A CN 112183236A CN 202010946775 A CN202010946775 A CN 202010946775A CN 112183236 A CN112183236 A CN 112183236A
- Authority
- CN
- China
- Prior art keywords
- processing
- network model
- unmanned aerial
- aerial vehicle
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000012545 processing Methods 0.000 claims abstract description 66
- 238000003062 neural network model Methods 0.000 claims abstract description 37
- 230000004927 fusion Effects 0.000 claims abstract description 29
- 238000013135 deep learning Methods 0.000 claims abstract description 24
- 238000001514 detection method Methods 0.000 claims abstract description 23
- 238000007781 pre-processing Methods 0.000 claims abstract description 14
- 238000000605 extraction Methods 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims description 23
- 238000007499 fusion processing Methods 0.000 claims description 15
- 238000002372 labelling Methods 0.000 claims description 15
- 238000012937 correction Methods 0.000 claims description 11
- 238000010606 normalization Methods 0.000 claims description 10
- 230000003190 augmentative effect Effects 0.000 claims description 9
- 238000010586 diagram Methods 0.000 description 11
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000008094 contradictory effect Effects 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000007429 general method Methods 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度学习的无人机航拍视频内容识别方法,包括:实时获取无人机拍摄的视频图像;对视频图像进行抽帧处理以提取样本图像,对样本图像进行预处理;对样本图像中的待识别物体进行标注,生成物体类别数据库;利用数据增强技术扩充物体类别数据库;利用扩充后的物体类别数据库训练深度神经网络模型,深度神经网络模型为SSD网络模型,SSD网络模型包括多分支卷积结构及多尺度特征图融合结构;使用训练好的深度神经网络模型识别视频图像,以输出每个物体类别的位置信息与尺寸信息。本发明还公开了一种基于深度学习的无人机航拍视频内容识别装置及系统。采用本发明可有效解决航拍视频物体检测中存在的类别识别和位置定位相互影响的问题。
Description
技术领域
本发明涉及图像识别技术领域,尤其涉及一种基于深度学习的无人机航拍视频内容识别方法、装置及系统。
背景技术
近年来,随着计算机技术、多媒体技术和网络技术的不断发展,手机、摄像机、监控等获取视频的设备快速普及,视频资源日益丰富。快速并且准确地获取视频中的信息越来越重要,而基于深度学习的方法蕴藏着巨大的潜能,在计算机视觉领域的应用发展如火如荼,成为当今及未来的趋势。更进一步,实时准确地检测定位视频中的场景文本并进行物体识别,对治安监控安防、无人机飞行、自动驾驶等场景有着重要的应用。
对于视频内容的理解和识别等工作,过去都是通过人工手段来完成,这无疑是费时费力且低效的一种方式,近年来国内外学者提出了很多提取视觉特征的深度神经网络模型,同时部分学者开始研究深度神经网络在视频领域的应用,提出了一些用于视频动作识别和特征提取的网络;在视频内容检索方面目前也引入了深度神经网络用于从视频中提取结构化信息。
到目前为止,深度卷积神经网络己经是目标检测算法的通用方法,目前高性能的物体检测算法和最新的研究也都是基于深度卷积神经网络。为了提高目标检测网络的速度,Liu等人提出了SSD网络该网络通过在不同尺寸的特征图上进行目标类别分类和位置回归,利用不同的尺寸特征图来检测不同尺寸的目标,省去了RPN网络从而大大提高了网络的速度;更进一步,Redmon等人提出了YOLO网络,该网络将原图分成了7x7大小的区域,对每个区域直接通过神经网络进行目标类别分类和位置回归,省去了不同尺寸特征图的分类和回归操作,使得目标检测网络速度进一步提升。SSD和YOLO网络相比于Fast-RCNN在检测精度上略有下降。除此之外,基于以上三种模型的思路,还有很多其他的物体检测网络模型被提出。
发明内容
本发明所要解决的技术问题在于,提供一种基于深度学习的无人机航拍视频内容识别方法、装置及系统,可有效解决航拍视频物体检测中存在的类别识别和位置定位相互影响的问题。
为了解决上述技术问题,本发明提供了一种基于深度学习的无人机航拍视频内容识别方法,包括:实时获取无人机拍摄的视频图像;对所述视频图像进行抽帧处理以提取样本图像,对所述样本图像进行预处理;对所述样本图像中的待识别物体进行标注,生成物体类别数据库;利用数据增强技术扩充所述物体类别数据库;利用扩充后的物体类别数据库训练深度神经网络模型,所述深度神经网络模型为SSD网络模型,所述SSD网络模型包括多分支卷积结构及多尺度特征图融合结构;使用训练好的深度神经网络模型识别所述视频图像,以输出每个物体类别的位置信息与尺寸信息。
作为上述方案的改进,所述对样本图像进行预处理的步骤包括:使用畸变矫正算法对所述样本图像进行矫正处理,以形成规整平面的样本图像;对矫正处理后的样本图像进行压缩处理,以使所述样本图像达到能够进行目标识别的目标尺寸。
作为上述方案的改进,所述对样本图像中的待识别物体进行标注的方法包括人工标注法和/或图像目标检测算法。
作为上述方案的改进,所述利用数据增强技术扩充物体类别数据库的步骤包括:以随机概率叠加的方式对所述物体类别数据库中的样本图像进行数据增强处理,所述数据增强处理包括旋转处理、填充式裁剪处理及灰度化数据处理。
作为上述方案的改进,所述利用扩充后的物体类别数据库训练深度神经网络模型的步骤包括:将所述物体类别数据库中的多个样本图像输入所述深度神经网络模型;将多个所述样本图像通过多分支卷积层分别进行卷积处理;将经卷积处理后的多个样本图像分别进行归一化处理,以生成尺度的特征图;将所有特征图进行特征融合处理;将经拼接处理后的特征图通过卷积层进行卷积处理,以生成分支卷积特征图。
作为上述方案的改进,所述将所有特征图进行特征融合处理的步骤包括:将所有特征图进行尺寸统一处理;在统一尺寸后的每一特征图上分别进行类别识别及位置定位处理;将识别及定位处理后的所有特征图按照加权方式进行特征融合处理。
相应地,本发明还提供了一种基于深度学习的无人机航拍视频内容识别装置,包括:获取模块,用于实时获取无人机拍摄的视频图像;预处理模块,用于对所述视频图像进行抽帧处理以提取样本图像,对所述样本图像进行预处理;标注模块,用于对所述样本图像中的待识别物体进行标注,生成物体类别数据库;扩充模块,用于利用数据增强技术扩充所述物体类别数据库;训练模块,用于利用扩充后的物体类别数据库训练深度神经网络模型,所述深度神经网络模型为SSD网络模型,所述SSD网络模型包括多分支卷积结构及多尺度特征图融合结构;识别模块,用于使用训练好的深度神经网络模型识别所述视频图像,以输出每个物体类别的位置信息与尺寸信息。
作为上述方案的改进,所述训练模块包括:输入单元,用于将所述物体类别数据库中的多个样本图像输入所述深度神经网络模型;第一卷积单元,用于将多个样本图像通过多分支卷积层分别进行卷积处理;归一化单元,用于将经卷积处理后的多个样本图像分别进行归一化处理,以生成尺度的特征图;融合单元,用于将所有特征图进行特征融合处理;第二卷积单元,用于将经拼接处理后的特征图通过卷积层进行卷积处理,以生成分支卷积特征图。
作为上述方案的改进,所述融合单元包括:尺寸调整子单元,用于将所有特征图进行尺寸统一处理;识别定位子单元,用于在统一尺寸后的每一特征图上分别进行类别识别及位置定位处理;特征融合子单元,用于将识别及定位处理后的所有特征图按照加权方式进行特征融合处理。
相应地,本发明还提供了一种基于深度学习的无人机航拍视频内容识别系统,包括无人机平台及无人机航拍视频内容识别装置,所述无人机平台为搭载可见光相机和热红外相机,并进行多源影像采集的平台。
实施本发明,具有如下有益效果:
本发明对现有的SSD网络模型进行了改进,在SSD网络模型基础上增加多分支卷积结构来提高网络对小目标的检测性能,并采用多尺度特征图融合结构对多尺度的特征图进行不同尺度的特征图融合,利用扩充后的物体类别数据库来训练深度神经网络模型,解决了航拍视频物体检测中存在的类别识别和位置定位相互影响的问题。
附图说明
图1是本发明基于深度学习的无人机航拍视频内容识别方法的实施例流程图;
图2是本发明中利用扩充后的物体类别数据库训练深度神经网络模型的实施例流程图;
图3是本发明中SSD网络模型的多分支卷积的结构示意图;
图4是本发明中SSD网络模型的多尺度特征图融合结构的示意图;
图5是本发明中SSD网络模型的示意图;
图6是本发明基于深度学习的无人机航拍视频内容识别系统的结构示意图;
图7是本发明基于深度学习的无人机航拍视频内容识别装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述。
参见图1,图1显示了本发明基于深度学习的无人机航拍视频内容识别方法的实施例流程图,其包括:
S101,实时获取无人机拍摄的视频图像。
本发明通过无人机在低空进行俯视拍摄,并把拍摄到的视频图像实时传输到主机(即,无人机航拍视频内容识别装置),以使主机可实时获取无人机拍摄的视频图像。
S102,对视频图像进行抽帧处理以提取样本图像,对样本图像进行预处理。
抽帧策略可以是按规定时间间隔的第一帧和最后一帧进行抽取,也可以通过在一段视频中进行随机帧抽取,这里不做具体限制,可以按需选择。
具体地,对样本图像进行预处理的步骤包括:
(1)使用畸变矫正算法对样本图像进行矫正处理,以形成规整平面的样本图像。
矫正时,可使用畸变矫正算法对无人机的鱼眼镜头图像进行处理,从而得到规整、平面的样本图像。
(2)对矫正处理后的样本图像进行压缩处理,以使样本图像达到能够进行目标识别的目标尺寸。
矫正完成后,需要对样本图像大小进行压缩变化,得到能够进行目标识别的几个目标尺寸。例如,目标尺寸可以设定为300mm×300mm。
S103,对样本图像中的待识别物体进行标注,生成物体类别数据库。
对样本图像中的待识别物体进行标注的方法包括人工标注法和/或图像目标检测算法。
需要说明的是,对样本图像中的各类物体进行标注可以是人工标注(在没有相关数据资料的情况下),并且只标注需要内容识别的类别;在拥有相关基础数据基础上,可以使用其他的图像目标检测算法进行机器自动标注。标注完成后得到物体类别数据库,用作视频内容识别的目标空间。
S104,利用数据增强技术扩充物体类别数据库。
具体地,利用数据增强技术扩充物体类别数据库的步骤包括:以随机概率叠加的方式对物体类别数据库中的样本图像进行数据增强处理,数据增强处理包括旋转处理、填充式裁剪处理及灰度化数据处理。
利用数据增强技术扩充步骤S103的物体类别数据库,增加物体类别数据库的内容多样性,具体做法是将物体类别数据库中的一张样本图像通过包括旋转、填充式裁剪、灰度化数据的增强操作,变换为一张新的样本图像;
需要说明的是,增强操作只在训练过程中使用,测试和实际应用中均不需要,所有的增强操作以一定概率施加在原样本图像上,保证增强操作结果的随机性,然后作为本次模型迭代训练的输入数据。
S105,利用扩充后的物体类别数据库训练深度神经网络模型。
深度神经网络模型为SSD网络模型,SSD网络模型包括多分支卷积结构及多尺度特征图融合结构。
与现有技术不同的是,本发明对现有的SSD网络模型进行了改进,在SSD网络模型基础上增加多分支卷积结构来提高网络对小目标的检测性能,并采用多尺度特征图融合结构对多尺度的特征图进行不同尺度的特征图融合,利用步骤S104扩充后的物体类别数据库来训练深度神经网络模型,解决了航拍视频物体检测中存在的类别识别和位置定位相互影响的问题。
S106,使用训练好的深度神经网络模型识别视频图像,以输出每个物体类别的位置信息与尺寸信息。
使用训练好的深度神经网络模型对所述无人机传输回来的视频图像中的内容进行识别,并定位到每一个物体类别的位置与大小,最后输出对应窗口中的物体内容类别和位置信息。
因此,本发明通过改进SSD网络模型,在处理视频图像时能够有效提高模型的识别速度和效率,有效解决航拍视频内容检测中存在的类别识别与位置定位相互矛盾问题,提高了内容识别准确度。
参见图2,图2显示了本发明中利用扩充后的物体类别数据库训练深度神经网络模型的实施例流程图,其包括:
S201,将物体类别数据库中的多个样本图像输入深度神经网络模型。
S202,将多个样本图像通过多分支卷积层分别进行卷积处理。
S203,将经卷积处理后的多个样本图像分别进行归一化处理,以生成尺度的特征图。
S204,将所有特征图进行特征融合处理。
具体地,将所有特征图进行特征融合处理的步骤包括:
(1)将所有特征图进行尺寸统一处理;
(2)在统一尺寸后的每一特征图上分别进行类别识别及位置定位处理;
(3)将识别及定位处理后的所有特征图按照加权方式进行特征融合处理。
S205,将经拼接处理后的特征图通过卷积层进行卷积处理,以生成分支卷积特征图。
因此,本发明在SSD网络模型中加入先分支后拼接的卷积核来进行改进,并将同类图片利用卷积核生成的多尺度的特征图进行多尺度特征图融合。
下面结合图3-图5对深度神经网络模型的训练流程做进一步的详细说明:
如图3所示,改进的SSD网络模型的多分支卷积结构中,样本图像在经过维度分别为n和m的卷积核卷积、归一、融合后,再经1×1卷积得到分支卷积特征图。其中,多分支卷积操作可以进行多次卷积池化操作。优选地,所述n=1,m=3。
如图4所示,改进的SSD网络模型的多尺度特征图融合结构中,融合的特征图数量设定k=3,输入为连续3张特征图;其中m-1层进行一次卷积,m层特征图不变化,m+1层进行一次反卷积,这样3张特征图尺寸统一后,分别在3张图上进行类别识别和位置定位,最后将3张特征图得到的结果按照加权的方式进行融合,特征融合加权参数由网络学习得到,初始设定为1/3。
因此,与传统SSD网络从单张特征图进行类别识别和位置定位不同,本发明输入为连续k张特征图(其中,深层特征图的特征具有较强的表征能力,浅层的特征图的特征有利于位置定位),将不同尺度特征图转化到相同尺寸后,分别在k张图上进行类别识别和位置定位。
如图5所示,改进的SSD网络模型遵循了一步法网络模型的基本结构,模型的骨干网络采用VGG-16,从网络的最后一个卷积层开始连续利用多分支卷积核结构进行卷积和池化若干次,一共得到若干个不同尺度的特征图。采用滑动窗口在特征图序列上滑动窗口,滑动窗口的大小设置为t,进行不同尺度特征图的特征融合,对于滑动窗口内的t个特征图作为特征融合算法的输入,依次输出对应窗口内物体位置回归和类别识别结果,经非极大值抑制后得到最终识别结果。例如,卷积池化次数设定为五次,一共得到6个不同尺度的特征图。滑动窗口的大小可设置为t=3。
由上可知,本发明通过在SSD网络模型中加入先分支后拼接的卷积核来进行改进,并将同类图片利用卷积核生成的多尺度的特征图进行多尺度特征图融合,有效解决航拍视频内容检测中存在的类别识别与位置定位相互矛盾问题,提高了内容识别准确度。
参见图6,图6显示了本发明基于深度学习的无人机航拍视频内容识别系统的具体结构,其包括无人机平台1及无人机航拍视频内容识别装置2。
无人机平台1为搭载可见光相机和热红外相机,并进行多源影像采集的平台。本发明通过无人机在低空进行俯视拍摄,并把拍摄到的视频图像实时传输到无人机航拍视频内容识别装置,以使无人机航拍视频内容识别装置可实时获取无人机拍摄的视频图像。
具体地,所述无人机平台1包括电源、电脑主板、地面监控客户端、可见光相机、热红外相机、相机固定架、图像采集卡、4G模块及基站。其中,所述无人机平台配备有飞行控制器且具备动力系统、GPS和电池等,并支持模块拓展;所述电脑主板、可见光相机和热红外相机均固定于无人机平台上;所述图像采集卡用于保证电脑主板获取热红外相机的影像数据;所述电脑主板安装有图像采集卡驱动,采用图像采集卡配套的SDK开发结构,编程同步获取可见光相机和热红外相机的采集数据;所述4G模块搭载于电脑主板上并通过自动拨号连接基站;所述地面监控客户端连接至基站,保证搭载在无人机的电脑主板与地面监控客户端相连。
如图6所示,基于深度学习的无人机航拍视频内容识别装置2包括获取模块21、预处理模块22、标注模块23、扩充模块24、训练模块25及识别模块26,具体地:
获取模块21,用于实时获取无人机拍摄的视频图像。
预处理模块22,用于对视频图像进行抽帧处理以提取样本图像,对样本图像进行预处理。具体地,抽帧策略可以是按规定时间间隔的第一帧和最后一帧进行抽取,也可以通过在一段视频中进行随机帧抽取,这里不做具体限制,可以按需选择。另外,预处理模块22完成抽帧处理后,使用畸变矫正算法对样本图像进行矫正处理,以形成规整平面的样本图像;接着,对样本图像大小进行压缩变化,得到能够进行目标识别的几个目标尺寸。例如,目标尺寸可以设定为300mm×300mm。
标注模块23,用于对样本图像中的待识别物体进行标注,生成物体类别数据库。需要说明的是,标注模块23可采用人工标注法和/或图像目标检测算法对样本图像中的待识别物体进行标注;其中,在没有相关数据资料的情况下,对样本图像中的各类物体进行标注可以是人工标注,并且只标注需要内容识别的类别;在拥有相关基础数据基础上,可以使用其他的图像目标检测算法进行机器自动标注;标注完成后得到物体类别数据库,用作视频内容识别的目标空间。
扩充模块24,用于利用数据增强技术扩充物体类别数据库。扩充模块24可利用数据增强技术扩充物体类别数据库,增加物体类别数据库的内容多样性,具体做法是将物体类别数据库中的一张样本图像通过包括旋转、填充式裁剪、灰度化数据的增强操作,变换为一张新的样本图像;其中,增强操作只在训练过程中使用,测试和实际应用中均不需要,所有的增强操作以一定概率施加在原样本图像上,保证增强操作结果的随机性,然后作为本次模型迭代训练的输入数据。
训练模块25,用于利用扩充后的物体类别数据库训练深度神经网络模型。深度神经网络模型为SSD网络模型,SSD网络模型包括多分支卷积结构及多尺度特征图融合结构。
识别模块26,用于使用训练好的深度神经网络模型识别视频图像,以输出每个物体类别的位置信息与尺寸信息,最后输出对应窗口中的物体内容类别和位置信息。
因此,本发明对现有的SSD网络模型进行了改进,在SSD网络模型基础上增加多分支卷积结构来提高网络对小目标的检测性能,并采用多尺度特征图融合结构对多尺度的特征图进行不同尺度的特征图融合,利用扩充后的物体类别数据库来训练深度神经网络模型,解决了航拍视频物体检测中存在的类别识别和位置定位相互影响的问题。
如图7所示,训练模块25包括:
输入单元251,用于将物体类别数据库中的多个样本图像输入深度神经网络模型;
第一卷积单元252,用于将多个样本图像通过多分支卷积层分别进行卷积处理;
归一化单元253,用于将经卷积处理后的多个样本图像分别进行归一化处理,以生成尺度的特征图;
融合单元254,用于将所有特征图进行特征融合处理;
第二卷积单元255,用于将经拼接处理后的特征图通过卷积层进行卷积处理,以生成分支卷积特征图。
进一步,融合单元254包括:
尺寸调整子单元,用于将所有特征图进行尺寸统一处理;
识别定位子单元,用于在统一尺寸后的每一特征图上分别进行类别识别及位置定位处理;
特征融合子单元,用于将识别及定位处理后的所有特征图按照加权方式进行特征融合处理。
由上可知,本发明通过在SSD网络模型中加入先分支后拼接的卷积核来进行改进,并将同类图片利用卷积核生成的多尺度的特征图进行多尺度特征图融合,有效解决航拍视频内容检测中存在的类别识别与位置定位相互矛盾问题,提高了内容识别准确度。
以上是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (10)
1.一种基于深度学习的无人机航拍视频内容识别方法,其特征性在于,包括:
实时获取无人机拍摄的视频图像;
对所述视频图像进行抽帧处理以提取样本图像,对所述样本图像进行预处理;
对所述样本图像中的待识别物体进行标注,生成物体类别数据库;
利用数据增强技术扩充所述物体类别数据库;
利用扩充后的物体类别数据库训练深度神经网络模型,所述深度神经网络模型为SSD网络模型,所述SSD网络模型包括多分支卷积结构及多尺度特征图融合结构;
使用训练好的深度神经网络模型识别所述视频图像,以输出每个物体类别的位置信息与尺寸信息。
2.如权利要求1所述的基于深度学习的无人机航拍视频内容识别方法,其特征性在于,所述对样本图像进行预处理的步骤包括:
使用畸变矫正算法对所述样本图像进行矫正处理,以形成规整平面的样本图像;
对矫正处理后的样本图像进行压缩处理,以使所述样本图像达到能够进行目标识别的目标尺寸。
3.如权利要求1所述的基于深度学习的无人机航拍视频内容识别方法,其特征性在于,所述对样本图像中的待识别物体进行标注的方法包括人工标注法和/或图像目标检测算法。
4.如权利要求1所述的基于深度学习的无人机航拍视频内容识别方法,其特征性在于,所述利用数据增强技术扩充物体类别数据库的步骤包括:
以随机概率叠加的方式对所述物体类别数据库中的样本图像进行数据增强处理,所述数据增强处理包括旋转处理、填充式裁剪处理及灰度化数据处理。
5.如权利要求1所述的基于深度学习的无人机航拍视频内容识别方法,其特征性在于,所述利用扩充后的物体类别数据库训练深度神经网络模型的步骤包括:
将所述物体类别数据库中的多个样本图像输入所述深度神经网络模型;
将多个所述样本图像通过多分支卷积层分别进行卷积处理;
将经卷积处理后的多个样本图像分别进行归一化处理,以生成尺度的特征图;
将所有特征图进行特征融合处理;
将经拼接处理后的特征图通过卷积层进行卷积处理,以生成分支卷积特征图。
6.如权利要求5所述的基于深度学习的无人机航拍视频内容识别方法,其特征性在于,所述将所有特征图进行特征融合处理的步骤包括:
将所有特征图进行尺寸统一处理;
在统一尺寸后的每一特征图上分别进行类别识别及位置定位处理;
将识别及定位处理后的所有特征图按照加权方式进行特征融合处理。
7.一种基于深度学习的无人机航拍视频内容识别装置,其特征在于,包括:
获取模块,用于实时获取无人机拍摄的视频图像;
预处理模块,用于对所述视频图像进行抽帧处理以提取样本图像,对所述样本图像进行预处理;
标注模块,用于对所述样本图像中的待识别物体进行标注,生成物体类别数据库;
扩充模块,用于利用数据增强技术扩充所述物体类别数据库;
训练模块,用于利用扩充后的物体类别数据库训练深度神经网络模型,所述深度神经网络模型为SSD网络模型,所述SSD网络模型包括多分支卷积结构及多尺度特征图融合结构;
识别模块,用于使用训练好的深度神经网络模型识别所述视频图像,以输出每个物体类别的位置信息与尺寸信息。
8.如权利要求7所述的基于深度学习的无人机航拍视频内容识别装置,其特征性在于,所述训练模块包括:
输入单元,用于将所述物体类别数据库中的多个样本图像输入所述深度神经网络模型;
第一卷积单元,用于将多个样本图像通过多分支卷积层分别进行卷积处理;
归一化单元,用于将经卷积处理后的多个样本图像分别进行归一化处理,以生成尺度的特征图;
融合单元,用于将所有特征图进行特征融合处理;
第二卷积单元,用于将经拼接处理后的特征图通过卷积层进行卷积处理,以生成分支卷积特征图。
9.如权利要求8所述的基于深度学习的无人机航拍视频内容识别装置,其特征性在于,所述融合单元包括:
尺寸调整子单元,用于将所有特征图进行尺寸统一处理;
识别定位子单元,用于在统一尺寸后的每一特征图上分别进行类别识别及位置定位处理;
特征融合子单元,用于将识别及定位处理后的所有特征图按照加权方式进行特征融合处理。
10.一种基于深度学习的无人机航拍视频内容识别系统,其特征性在于,包括无人机平台及权利要求7-9任一项所述的无人机航拍视频内容识别装置,所述无人机平台为搭载可见光相机和热红外相机,并进行多源影像采集的平台。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010946775.3A CN112183236A (zh) | 2020-09-10 | 2020-09-10 | 无人机航拍视频内容识别方法、装置及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010946775.3A CN112183236A (zh) | 2020-09-10 | 2020-09-10 | 无人机航拍视频内容识别方法、装置及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112183236A true CN112183236A (zh) | 2021-01-05 |
Family
ID=73921703
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010946775.3A Pending CN112183236A (zh) | 2020-09-10 | 2020-09-10 | 无人机航拍视频内容识别方法、装置及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112183236A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113723181A (zh) * | 2021-07-20 | 2021-11-30 | 深圳大学 | 一种无人机航拍目标检测方法和装置 |
CN114004977A (zh) * | 2021-10-25 | 2022-02-01 | 成都飞机工业(集团)有限责任公司 | 一种基于深度学习的航拍数据目标定位方法及系统 |
CN114494984A (zh) * | 2022-04-18 | 2022-05-13 | 四川腾盾科技有限公司 | 基于无人机航拍数据的随遇静目标三维重建与定位的方法 |
CN115239603A (zh) * | 2022-09-23 | 2022-10-25 | 成都视海芯图微电子有限公司 | 一种基于多分支神经网络的无人机航拍图像暗光增强方法 |
CN115296738A (zh) * | 2022-07-28 | 2022-11-04 | 吉林大学 | 一种基于深度学习的无人机可见光相机通信方法及其系统 |
WO2022252892A1 (en) * | 2021-06-02 | 2022-12-08 | Ping An Technology (Shenzhen) Co., Ltd. | System and method for image-based crop identification |
CN116958713A (zh) * | 2023-09-20 | 2023-10-27 | 中航西安飞机工业集团股份有限公司 | 一种航空零部件表面紧固件快速识别与统计方法及系统 |
CN118097721A (zh) * | 2024-04-29 | 2024-05-28 | 江西师范大学 | 基于多源遥感观测和深度学习的湿地鸟类识别方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108985145A (zh) * | 2018-05-29 | 2018-12-11 | 同济大学 | 小尺寸交通标志检测识别的反向连接深度神经网络模型方法 |
CN109241902A (zh) * | 2018-08-30 | 2019-01-18 | 北京航空航天大学 | 一种基于多尺度特征融合的山体滑坡检测方法 |
CN110084299A (zh) * | 2019-04-24 | 2019-08-02 | 中国人民解放军国防科技大学 | 基于多头融合注意力的目标检测方法和装置 |
CN110852383A (zh) * | 2019-11-12 | 2020-02-28 | 复旦大学 | 基于注意力机制深度学习网络的目标检测方法及装置 |
CN111126202A (zh) * | 2019-12-12 | 2020-05-08 | 天津大学 | 基于空洞特征金字塔网络的光学遥感图像目标检测方法 |
CN111199233A (zh) * | 2019-12-30 | 2020-05-26 | 四川大学 | 一种改进的深度学习色情图像识别方法 |
-
2020
- 2020-09-10 CN CN202010946775.3A patent/CN112183236A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108985145A (zh) * | 2018-05-29 | 2018-12-11 | 同济大学 | 小尺寸交通标志检测识别的反向连接深度神经网络模型方法 |
CN109241902A (zh) * | 2018-08-30 | 2019-01-18 | 北京航空航天大学 | 一种基于多尺度特征融合的山体滑坡检测方法 |
CN110084299A (zh) * | 2019-04-24 | 2019-08-02 | 中国人民解放军国防科技大学 | 基于多头融合注意力的目标检测方法和装置 |
CN110852383A (zh) * | 2019-11-12 | 2020-02-28 | 复旦大学 | 基于注意力机制深度学习网络的目标检测方法及装置 |
CN111126202A (zh) * | 2019-12-12 | 2020-05-08 | 天津大学 | 基于空洞特征金字塔网络的光学遥感图像目标检测方法 |
CN111199233A (zh) * | 2019-12-30 | 2020-05-26 | 四川大学 | 一种改进的深度学习色情图像识别方法 |
Non-Patent Citations (2)
Title |
---|
ENHANCED SSD WITH INTERACTIVE MULTI-SCALE ATTENTION FEATURES FOR OBJECT DETECTION: "Enhanced SSD with interactive multi-scale attention features for object detection", ENHANCED SSD WITH INTERACTIVE MULTI-SCALE ATTENTION FEATURES FOR OBJECT DETECTION, vol. 80, 6 January 2021 (2021-01-06), XP037426694, DOI: 10.1007/s11042-020-10191-2 * |
SU PANG, DANIEL MORRIS, HAYDER RADHA: "CLOCs: Camera-LiDAR Object Candidates Fusion for 3D Object Detection", COMPUTER VISION AND PATTERN RECOGNITION, 2 September 2020 (2020-09-02), pages 1 - 8 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022252892A1 (en) * | 2021-06-02 | 2022-12-08 | Ping An Technology (Shenzhen) Co., Ltd. | System and method for image-based crop identification |
CN113723181A (zh) * | 2021-07-20 | 2021-11-30 | 深圳大学 | 一种无人机航拍目标检测方法和装置 |
CN113723181B (zh) * | 2021-07-20 | 2023-10-20 | 深圳大学 | 一种无人机航拍目标检测方法和装置 |
CN114004977A (zh) * | 2021-10-25 | 2022-02-01 | 成都飞机工业(集团)有限责任公司 | 一种基于深度学习的航拍数据目标定位方法及系统 |
CN114494984A (zh) * | 2022-04-18 | 2022-05-13 | 四川腾盾科技有限公司 | 基于无人机航拍数据的随遇静目标三维重建与定位的方法 |
CN115296738A (zh) * | 2022-07-28 | 2022-11-04 | 吉林大学 | 一种基于深度学习的无人机可见光相机通信方法及其系统 |
CN115296738B (zh) * | 2022-07-28 | 2024-04-16 | 吉林大学 | 一种基于深度学习的无人机可见光相机通信方法及其系统 |
CN115239603A (zh) * | 2022-09-23 | 2022-10-25 | 成都视海芯图微电子有限公司 | 一种基于多分支神经网络的无人机航拍图像暗光增强方法 |
CN116958713A (zh) * | 2023-09-20 | 2023-10-27 | 中航西安飞机工业集团股份有限公司 | 一种航空零部件表面紧固件快速识别与统计方法及系统 |
CN116958713B (zh) * | 2023-09-20 | 2023-12-15 | 中航西安飞机工业集团股份有限公司 | 一种航空零部件表面紧固件快速识别与统计方法及系统 |
CN118097721A (zh) * | 2024-04-29 | 2024-05-28 | 江西师范大学 | 基于多源遥感观测和深度学习的湿地鸟类识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112183236A (zh) | 无人机航拍视频内容识别方法、装置及系统 | |
CN113052210B (zh) | 一种基于卷积神经网络的快速低光照目标检测方法 | |
US10424072B2 (en) | Leveraging multi cues for fine-grained object classification | |
WO2024001123A1 (zh) | 基于神经网络模型的图像识别方法、装置及终端设备 | |
CN109344727B (zh) | 身份证文本信息检测方法及装置、可读存储介质和终端 | |
CN111489396A (zh) | 利用临界边缘检测神经网络和几何模型确定相机参数 | |
US20230013451A1 (en) | Information pushing method in vehicle driving scene and related apparatus | |
CN110781744A (zh) | 一种基于多层次特征融合的小尺度行人检测方法 | |
CN111223065B (zh) | 图像矫正方法、不规则文本识别方法、装置、存储介质和设备 | |
CN110647880A (zh) | 一种移动端身份证图像遮挡判断方法 | |
CN115699082A (zh) | 缺陷检测方法及装置、存储介质及电子设备 | |
US12223693B2 (en) | Object detection method, object detection apparatus, and object detection system | |
CN113869282B (zh) | 人脸识别方法、超分模型训练方法及相关设备 | |
EP4178194A1 (en) | Video generation method and apparatus, and readable medium and electronic device | |
CN112287945A (zh) | 碎屏确定方法、装置、计算机设备及计算机可读存储介质 | |
CN110458132A (zh) | 一种基于端到端的不定长文本识别方法 | |
CN115115713A (zh) | 一种统一时空融合的环视鸟瞰图感知方法 | |
CN117011722A (zh) | 基于无人机实时监控视频的车牌识别方法及装置 | |
CN117830786A (zh) | 目标和语义感知的图像融合模型、训练方法及使用方法 | |
CN117593517A (zh) | 基于互补感知跨视图融合网络的伪装目标检测方法 | |
CN110751271A (zh) | 一种基于深度神经网络的图像溯源特征表征方法 | |
CN114998769A (zh) | 基于cbam和改进yolox的无人机航拍小物体快速检测方法与装置 | |
CN113743434A (zh) | 一种目标检测网络的训练方法、图像增广方法及装置 | |
CN114863224B (zh) | 训练方法、图像质量检测方法、装置和介质 | |
CN117422858A (zh) | 一种双光图像目标检测方法、系统、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |