CN118967432B - 一种图像对单应性矩阵的预测方法及装置 - Google Patents
一种图像对单应性矩阵的预测方法及装置 Download PDFInfo
- Publication number
- CN118967432B CN118967432B CN202411462971.8A CN202411462971A CN118967432B CN 118967432 B CN118967432 B CN 118967432B CN 202411462971 A CN202411462971 A CN 202411462971A CN 118967432 B CN118967432 B CN 118967432B
- Authority
- CN
- China
- Prior art keywords
- image
- feature map
- spliced
- homography matrix
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000011159 matrix material Substances 0.000 title claims abstract description 127
- 238000000034 method Methods 0.000 title claims abstract description 76
- 230000001131 transforming effect Effects 0.000 claims abstract description 19
- 238000013528 artificial neural network Methods 0.000 claims description 38
- 238000010586 diagram Methods 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 18
- 230000009466 transformation Effects 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 13
- 238000007781 pre-processing Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 description 23
- 238000012549 training Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000000386 athletic effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000005096 rolling process Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/04—Context-preserving transformations, e.g. by using an importance map
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4046—Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种图像对单应性矩阵的预测方法及装置,属于计算机视觉技术领域。所述预测方法包括:获取待预测的图像对,所述图像对包括第一图像和第二图像;利用第一方法预测第一图像变换到第二图像的第一单应性矩阵;基于第一单应性矩阵对第一图像进行变换,得到第三图像;利用第二方法预测第三图像变换到第二图像的第二单应性矩阵;基于第一单应性矩阵和第二单应性矩阵计算得到最终的单应性矩阵。本发明提高了单应性矩阵预测的准确率。
Description
技术领域
本发明属于计算机视觉技术领域,特别是涉及一种图像对单应性矩阵的预测方法及装置。
背景技术
单应性矩阵可用于描述两个平面之间的映射关系,是基于视觉系统实现无人机姿态控制、自动驾驶、机械臂运动路径规划的基础工作之一。理论上至少需要4对具有映射关系的关键点,才能计算获得单应性矩阵所代表的8个自由度数值。关键点在视觉系统中获取的便利性,促使依赖图像特征计算单应性矩阵的方法被广泛研究,然而应用场景的复杂性,往往又给这些算法带来极大挑战,因此视觉单应性矩阵计算模型成为当前众多学者的研究热点之一。
传统单应性矩阵求解以各种检测器获取显式的关键特征点为基础,这些特征点包括Harris、SIFT、ORB、SURF、LBP等特征点。显式特征点的优势在于特征的可解释性强,可直观地展示特征点成对匹配过程,对算力要求也相对较低,但对环境变化高度敏感。后续的改进中将这些离散特征点与直线、曲线、T型交叉线段、颜色等特征结合来提升计算精度,但对光滑图像的适用性仍然不足。结合深度学习技术强大特征提取能力改进的单应性矩阵计算模型,则可能结合了图像对中从关键点到形状、对象等多个层次的显式和隐式特征。但模型训练所需数据标注精度要求极高,手动标注的细微偏差都将导致误差增大,因此现有研究主要基于单一图像自身的单应性变换构造数据集,从而将模型训练转换为无监督学习。相关模型主要直接预测4对关键点的位置变换偏差,并间接计算单应性矩阵,或直接预测单应性矩阵中的8个自由度数值。当前这些模型性能的提升主要依赖网络结构的改进,如引入ST网络,使得图像像素点特征及其位置信息可同时在神经网络中进行反向传播,或者引入多级分层方法,从而将图像对之间跨度较大的单次单应性矩阵计算细分为多次小跨度的计算过程。
利用4对关键点位置偏差量预测单应性矩阵。该方法对两张图片直接利用卷积神经网络提取特征,并最终利用全连接网络实现4组坐标,也就是8个坐标位置偏差量进行预测。由于训练数据来自于同一张图片及其单应性变换后的图像,因此属于无监督学习,训练数据集构建简单,但也使得对真实图像对的预测不稳定。
基于单应性矩阵8个自由度数值预测单应性矩阵,仅仅直接使用卷积神经网络预测单应性矩阵的8个自由度数值,往往产生较大误差。
发明内容
本发明的目的在于克服现有技术的不足,提供一种图像对单应性矩阵的预测方法及装置。
本发明的目的是通过以下技术方案来实现的:
本发明的第一方面公开了一种图像对单应性矩阵的预测方法,包括:
获取待预测的图像对,所述图像对包括第一图像和第二图像;
利用第一方法预测第一图像变换到第二图像的第一单应性矩阵;
基于第一单应性矩阵对第一图像进行变换,得到第三图像;
利用第二方法预测第三图像变换到第二图像的第二单应性矩阵;
基于第一单应性矩阵和第二单应性矩阵计算得到最终的单应性矩阵。
进一步地,在利用第一方法预测第一图像变换到第二图像的第一单应性矩阵之前,所述预测方法还包括:
根据预设规则去除第一图像和第二图像中的运动目标;
分别对第一图像和第二图像进行二值化。
进一步地,利用第一方法预测第一图像变换到第二图像的第一单应性矩阵,包括:
对第一图像进行特征提取,得到第一特征图;对第二图像进行特征提取,得到第二特征图;
分别对第一特征图和第二特征图进行若干次卷积运算;
分别将卷积运算次数相同的第一特征图和第二特征图进行并行拼接,得到第一拼接图像;
分别将每张第一拼接图像进行卷积和全连接运算,得到第一预测结果,所述第一预测结果包括4对关键点的位置偏差;
将所有第一预测结果进行加权平均,得到第二预测结果;
根据第二预测结果生成第一图像变换到第二图像的第一单应性矩阵;
其中,将第一特征图和第二特征图进行并行拼接前,在第一特征图和第二特征图中每相邻两行之间增加一行全0行,然后在第一特征图和第二特征图中间增加相同尺寸的全0特征值的第一空白图像。
进一步地,分别将每张第一拼接图像进行卷积和全连接运算,得到第一预测结果,所述第一预测结果包括4对关键点的位置偏差,包括:
将当前第一拼接图像进行卷积和全连接运算,得到第三预测结果,所述第三预测结果包括4对关键点的位置偏差;
若当前第一拼接图像存在上一级第一拼接图像,则根据上一级第一拼接图像的第一预测结果和当前第一拼接图像的第三预测结果生成当前第一拼接图像的第一预测结果;
若当前第一拼接图像不存在上一级第一拼接图像,则将当前第一拼接图像的第三预测结果确定为当前第一拼接图像的第一预测结果;
其中,生成上一级第一拼接图像的特征图的卷积运算次数比生成当前第一拼接图像的特征图的卷积运算次数多一次。
进一步地,利用第二方法预测第三图像变换到第二图像的第二单应性矩阵,包括:
分别对第二图像和第三图像进行特征提取,得到第二特征图和第三特征图;
在第二特征图和第三特征图之间增加横轴坐标构成的特征图和纵轴坐标构成的特征图,然后进行拼接得到第二拼接图像;
对第二拼接图像进行卷积和全连接运算,得到8个自由度数值;
根据所述8个自由度数值生成第三图像变换到第二图像的第二单应性矩阵。
进一步地,分别对第二图像和第三图像进行特征提取,得到第二特征图和第三特征图,包括:
对第二图像进行特征提取,得到第二特征图;
对第三图像进行特征提取,得到第三特征图;
分别对第二特征图和第三特征图进行裁剪。
本发明的第二方面公开了一种图像对单应性矩阵的预测装置,包括:
图像获取模块,用于获取待预测的图像对,所述图像对包括第一图像和第二图像;
第一神经网络,用于利用第一方法预测第一图像变换到第二图像的第一单应性矩阵;
图像变换模块,用于基于第一单应性矩阵对第一图像进行变换,得到第三图像;
第二神经网络,用于利用第二方法预测第三图像变换到第二图像的第二单应性矩阵;
矩阵计算模块,用于基于第一单应性矩阵和第二单应性矩阵计算得到最终的单应性矩阵。
进一步地,所述预测装置还包括:
预处理模块,用于根据预设规则去除第一图像和第二图像中的运动目标,以及对第一图像和第二图像进行二值化。
进一步地,所述第一神经网络包括:
第一图像处理通道,用于对第一图像进行特征提取,得到第一特征图,以及对第一特征图进行若干次卷积运算;
第二图像处理通道,用于对第二图像进行特征提取,得到第二特征图,以及对第二特征图进行若干次卷积运算;
若干个拼接模块,用于将卷积运算次数相同的第一特征图和第二特征图进行并行拼接,得到第一拼接图像;其中,将第一特征图和第二特征图进行并行拼接前,在第一特征图和第二特征图中每相邻两行之间增加一行全0行,然后在第一特征图和第二特征图中间增加相同尺寸的全0特征值的第一空白图像;
若干个第一预测模块,用于将第一拼接图像进行卷积和全连接运算,得到第一预测结果,所述第一预测结果包括4对关键点的位置偏差;
第二预测模块,用于将所有第一预测结果进行加权平均,得到第二预测结果,以及根据第二预测结果生成第一图像变换到第二图像的第一单应性矩阵;
所述第一图像处理通道和第二图像处理通道的结构相同、参数共享。
进一步地,所述第二神经网络包括:
特征提取模块,用于分别对第二图像和第三图像进行特征提取,得到第二特征图和第三特征图;
特征图拼接模块,用于获取横轴坐标构成的特征图和纵轴坐标构成的特征图,以及第二特征图和第三特征图之间增加横轴坐标构成的特征图和纵轴坐标构成的特征图,然后进行拼接得到第二拼接图像;
第三预测模块,用于对拼接图像进行卷积和全连接运算,得到8个自由度数值,以及根据所述8个自由度数值生成第三图像变换到第二图像的第二单应性矩阵。
本发明的有益效果是:
(1)本发明的方法在第一阶段改进卷积计算过程时融入了位置信息,从而使用4点位置偏差实现对图像对之间单应性矩阵的宏观数值的预测;在第二阶段的输入图像特征中添加位置信息,从而提高直接单应性矩阵8自由度数值预测准确率,辅助实现整体单应性矩阵的微调;
(2)本发明改进了传统双路分支预测4对关键点偏差过程中的特征融合方法,将通道串行拼接替换为通道并行拼接,提高了预测结果的准确率;
(3)本发明基于4对关键点对单应性矩阵进行宏观预测后,结合预测的8个自由度数值对单应性矩阵进行微调,提高了单应性矩阵预测的准确率。
附图说明
图1为本发明中图像对单应性矩阵的预测方法的一种流程图;
图2为本发明中图像对单应性矩阵的预测方法的又一种流程图;
图3为本发明中第一神经网络的一种结构示意图;
图4为本发明中图像镜像的一种示意图;
图5为本发明中第二神经网络的一种结构示意图。
具体实施方式
下面将结合实施例,对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有付出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
参阅图1至图5,本发明提供一种图像对单应性矩阵的预测方法及装置:
本实施例的第一方面公开了一种图像对单应性矩阵的预测方法,如图1和图2所示,所述预测方法包括步骤S100至步骤S500。图2中的A和B分别表示一个实施例中原始图像对中的第一图像和第二图像,A'和B'表示预处理后的第一图像和第二图像,A〞和B〞分别表示增加全0特征值后的第一特征图和第二特征图,H1表示第一单应性矩阵,H2表示第二单应性矩阵,H表示最终的单应性矩阵,T表示利用H1对A'进行变换得到的图像。
步骤S100.获取待预测的图像对,所述图像对包括第一图像和第二图像。
步骤S200.利用第一方法预测第一图像变换到第二图像的第一单应性矩阵。
在一些实施例中,利用第一方法预测第一图像变换到第二图像的第一单应性矩阵,包括:基于第一图像和第二图像,利用第一神经网络预测出4对关键点位置偏差,基于4对关键点位置偏差生成第一图像变换到第二图像的单应性矩阵,将该单应性矩阵记为第一单应性矩阵。
在一些实施例中,利用第一方法预测第一图像变换到第二图像的第一单应性矩阵,包括步骤S210至步骤S260。
步骤S210.对第一图像进行特征提取,得到第一特征图;对第二图像进行特征提取,得到第二特征图。
具体的,分别对第一图像和第二图像进行特征提取,得到大小相同的第一特征图和第二特征图。
步骤S220.分别对第一特征图和第二特征图进行若干次卷积运算。
具体的,分别对第一特征图和第二特征图进行相同的卷积运算,例如,对第一特征图进行第一次卷积运算时的卷积核和卷积步长等参数与对第二特征图进行第一次卷积运算时的卷积核和卷积步长等参数相同,对第一特征图进行第二次卷积运算时的卷积核和卷积步长等参数与对第二特征图进行第二次卷积运算时的卷积核和卷积步长等参数相同,以此类推。
步骤S230.分别将卷积运算次数相同的第一特征图和第二特征图进行并行拼接,得到第一拼接图像;其中,将第一特征图和第二特征图进行并行拼接前,在第一特征图和第二特征图中每相邻两行之间增加一行全0行,然后在第一特征图和第二特征图中间增加相同尺寸的全0特征值的第一空白图像。
具体的,将未进行卷积运算(即,第一特征图和第二特征图卷积运算的次数为0)的第一特征图和第二特征图进2行并行拼接,得到一张第一拼接图像;将进行一次卷积运算后的第一特征图和第二特征图进行并行拼接,得到一张第一拼接图像;以此类推,得到若干张第一拼接图像。
将第一特征图和第二特征图进行并行拼接前,在第一特征图中每相邻两行之间增加一行全0行,在第二特征图中每相邻两行之间增加一行全0行,然后在第一特征图和第二特征图增加相同尺寸的全0特征值的第一空白图像(即,第一空白图像的尺寸与第一特征图和第二特征图相同),然后进行卷积运算得到第一拼接图像。
步骤S240.分别将每张第一拼接图像进行卷积和全连接运算,得到第一预测结果,所述第一预测结果包括4对关键点的位置偏差。
具体的,对每张第一拼接图像分别进行卷积和全连接运算,得到一个对应的第一预测结果,所述第一预测结果包括4对关键点的位置偏差。若有多张第一拼接图像,则得到多个第一预测结果。
在一些实施例中,分别将每张第一拼接图像进行卷积和全连接运算,得到第一预测结果,所述第一预测结果包括4对关键点的位置偏差,包括:将当前第一拼接图像进行卷积和全连接运算,得到第三预测结果,所述第三预测结果包括4对关键点的位置偏差;若当前第一拼接图像存在上一级第一拼接图像,则根据上一级第一拼接图像的第一预测结果和当前第一拼接图像的第三预测结果生成当前第一拼接图像的第一预测结果;若当前第一拼接图像不存在上一级第一拼接图像,则将当前第一拼接图像的第三预测结果确定为当前第一拼接图像的第一预测结果;其中,生成上一级第一拼接图像的特征图的卷积运算次数比生成当前第一拼接图像的特征图的卷积运算次数多一次。
本实施例中对第一拼接图像的预测结果进行传递,提高了预测结果的准确性。
根据上一级第一拼接图像的第一预测结果和当前第一拼接图像的第三预测结果生成当前第一拼接图像的第一预测结果,包括:将上一级第一拼接图像的第一预测结果和当前第一拼接图像的第三预测结果相加,得到当前第一拼接图像的第一预测结果;或者,对上一级第一拼接图像的第一预测结果和当前第一拼接图像的第三预测结果求平均,得到当前第一拼接图像的第一预测结果。
步骤S250.将所有第一预测结果进行加权平均,得到第二预测结果。
第二预测结果包括4对关键点的位置偏差。
将所有第一预测结果进行加权平均之前,设置不同尺度的第一拼接图像对应的第一预测结果的权重。
本实施例中采用多个尺度的第一拼接图像来计算第二预测结果,提高了计算结果的准确性。
步骤S260.根据第二预测结果生成第一图像变换到第二图像的第一单应性矩阵。
在一些实施例中,将第一图像和第二图像输入第一神经网络中,第一神经网络根据输入的第一图像和第二图像输出4对关键点的位置偏差;然后根据4对关键点的位置偏差生成第一单应性矩阵。
第一神经网络的结构如图3所示,A'和B'表示预处理后的第一图像和第二图像,BP表示桥接过程,A〞和B〞分别表示增加全0特征值后的第一特征图和第二特征图,loss3、loss2、loss1分别表示第一个桥接过程、第二个桥接过程和第三个桥接过程对应的损失函数,M表示第一空白图像。该第一神经网络在两路分支(第一神经网络中的两路分支的结构相同,且两路分支的参数共享)融合时,将传统的串行拼接特征图对(特征图对包括第一特征图和第二特征图)改进为并行拼接特征图对。具体的,在并行拼接特征图对之前,分别在两张原始特征图中间隔增加横向的单像素全0特征值,然后在两张特征图之间增加相同尺寸的全0特征值的第一空白图像。此时的卷积运算改进为如图3所示,由于大量0像素的规律加入,使得单次卷积运算将平等地提取特征图对中相同位置像素点的特征,从而提升了与位置信息高度关联的单应性矩阵预测的准确率。由于该过程就像使用了一座连接两个分支的桥梁,因此称之为桥接过程。
第一神经网络的骨干网络改进于CSP-Darknet53结构,其输入特征大小为640×640×1,输出特征大小为64×64×256。图3中的三个桥接过程从左至右依次为第一桥接过程、第二桥接过程和第三桥接过程,第一桥接过程输入特征图的大小为64×64×512,并使用512个卷积核执行改进卷积运算;第二桥接过程输入特征图的大小为32×32×512,并使用256个卷积核执行改进卷积运算;第三桥接过程输入特征图的大小为16×16×512,并使用128个卷积核执行改进卷积运算。第一神经网络与homography Net类似,最终通过全连接运算,它最终通过一个完全连接的网络输出8×1的特征值用于回归运算,直接预测四对关键点的位置偏差。回归网络利用欧几里德距离来计算损失函数,如公式(1)所示:
其中,p(x)表示预测坐标偏差,q(x)代表实际坐标偏差。
此外,为了利用多尺度特性,每个桥接过程的预测输出结果将逐级向其他桥接过程传递,即如公式(2)所示构成损失函数,其中通过实验获得,用于平衡不同桥接过程的权重。
其中,lossk表示第k个BP(桥接过程)对应的损失函数。
第一神经网络进行训练时输入的两张图像的内容相同、方位有变化,从而避免了输入图像内容不一样需要人工标注导致的误差。
步骤S300.基于第一单应性矩阵对第一图像进行变换,得到第三图像。
步骤S400.利用第二方法预测第三图像变换到第二图像的第二单应性矩阵。
在一些实施例中,利用第二方法预测第三图像变换到第二图像的第二单应性矩阵,包括:基于第三图像和第二图像,利用第二神经网络预测出8个自由度数值,基于8个自由度数值生成第三图像变换到第二图像的单应性矩阵,将该单应性矩阵记为第二单应性矩阵。
在一些实施例中,利用第二方法预测第三图像变换到第二图像的第二单应性矩阵,包括步骤S410至步骤S440。
步骤S410.对第二图像进行特征提取,得到第二特征图;对第三图像进行特征提取,得到第三特征图。
在一些实施例中,分别对第二特征图和第三特征图进行裁剪,从而避免第二图像和第三图像方位差比较大时其中一张图像出现大量黑色图像的情形。例如,以原图的中心为中心、原图长宽的一半为长宽,分别对第二特征图和第三特征图进行裁剪。
步骤S420.在第二特征图和第三特征图之间增加横轴坐标构成的特征图和纵轴坐标构成的特征图,然后进行拼接得到第二拼接图像。
直接预测单应性矩阵要求卷积神经网络具备复杂的坐标计算能力,为此本发明在传统图像包含的特征通道基础上,增加图像中每个像素点对应的坐标信息,即增加2个特征通道用于分别表达像素点的x和y坐标。同时为了防止添加的坐标信息引起的过拟合问题,如图4所示,要求每组图像对都在相同坐标特征层基础上进行左右镜像和上下镜像。对图像进行左右镜像和上下镜像时,先分别构造x坐标信息特征通道和y坐标信息特征通道,即x坐标信息特征通道对应矩阵的每行中保存的是从0到w的数值,其中w是第二图像的宽度,y坐标信息特征通道对应矩阵的每列中保存的是从0到h的数值,其中h是第二图像的高度;左右镜像指的是将特征通道对应的矩阵中的每行数值元素进行镜像,如0到w,变换为w到0;上下镜像指的是将特征通道对应的矩阵中的每列数值元素进行镜像,如0到h,变换为h到0。
步骤S430.对第二拼接图像进行卷积和全连接运算,得到8个自由度数值。
步骤S440.根据所述8个自由度数值生成第三图像变换到第二图像的第二单应性矩阵。
在一些实施例中,将第三图像和第二图像输入第二神经网络中,得到8个自由度数值,然后根据8个自由度数值生成第二单应性矩阵。第二神经网络的结构如图5所示,第二神经网络的骨干网络仍然改进于CSP-Darknet53结构,其输入特征大小为640×640×1,输出特征大小为8×8×512。随后执行全连接运算,直接预测单应性矩阵8个自由度数值。
如图5所示,第二神经网络的训练过程为:获取两张输入图像,对第一输入图像和第二输入图像进行人员去除、二值化等预处理操作,然后利用第一神经网络计算第一输入图像变换到第二输入图像的第一单应性矩阵,利用第一单应性矩阵对第一输入图像变换为第三输入图像。对第二输入图像和第三输入图像进行特征提取,得到第二特征图和第三特征图,然后对第二特征图和第三特征图进行裁剪,然后在裁剪后的第二特征图和第三特征图之间加入横轴坐标构成的特征图和纵轴坐标构成的特征图,然后将第二特征图、第三特征图、横轴坐标构成的特征图和纵轴坐标构成拼接为第二拼接图像。对第二拼接图像进行卷积和全连接运算得到8个自由度数值,根据8个自由度数值生成第二单应性矩阵。基于第二单应性矩阵对第三特征图进行坐标位置变换、像素点采样等运算,得到新的第三特征图,根据第二特征图和新的第三特征图求解损失函数loss4,从而实现无监督学习。图5中的Grid Generator与Sampler属于SPT模块,分别用于坐标位置变换与像素点采样。图5中A'和B'表示预处理后的第一图像和第二图像,H1表示第一单应性矩阵,H2表示第二单应性矩阵,T表示利用H1对A'进行变换得到的图像,T*表示从T中裁剪的图像,B*表示从B'中裁剪的分图像,A*表示新的第三特征图。
第二神经网络的损失函数参考孪生网络,如公式(3)所示,其中qv取值0或1,指示两个图像中相同位置的像素的预测类别是否相同。pv表示分类预测的概率,m是像素总数。由于图像仅包含黑色和白色像素,因此该模型本质上执行二元分类。
步骤S500.基于第一单应性矩阵和第二单应性矩阵计算得到最终的单应性矩阵。
最终的单应性矩阵的计算公式为:
H=H1*H2
式中,H表示最终的单应性矩阵,H1表示第一单应性矩阵,H2表示第二单应性矩阵。
在一些实施例中,在利用第一方法预测第一图像变换到第二图像的第一单应性矩阵之前,所述预测方法还包括:根据预设规则去除第一图像和第二图像中的运动目标;分别对第一图像和第二图像进行二值化。
竞技体育中的单应性变换问题(如篮球、手球、冰球等比赛的直播视频)不同于其他场景,由于竞技体育视频中存在大量随机移动的球员,直接对两帧图像求解单应性矩阵将导致较大误差,为此本发明对所有图像对数据都进行了预处理。预处理过程中主要包括球员检测与分割、去除球员后图像的黑白二值化。
本实施例的第二方面公开了一种图像对单应性矩阵的预测装置,所述预测装置包括图像获取模块、第一神经网络、图像变换模块、第二神经网络和矩阵计算模块。
图像获取模块,用于获取待预测的图像对,所述图像对包括第一图像和第二图像。
第一神经网络,用于利用第一方法预测第一图像变换到第二图像的第一单应性矩阵。
在一些实施例中,所述第一神经网络包括第一图像处理通道、第二图像处理通道、若干个拼接模块、若干个第一预测模块和第二预测模块。
第一图像处理通道,用于对第一图像进行特征提取,得到第一特征图,以及对第一特征图进行若干次卷积运算。
第二图像处理通道,用于对第二图像进行特征提取,得到第二特征图,以及对第二特征图进行若干次卷积运算。
若干个拼接模块,用于将卷积运算次数相同的第一特征图和第二特征图进行并行拼接,得到第一拼接图像;其中,将第一特征图和第二特征图进行并行拼接前,在第一特征图和第二特征图中每相邻两行之间增加一行全0行,然后在第一特征图和第二特征图中间增加相同尺寸的全0特征值的第一空白图像。
若干个第一预测模块,用于将第一拼接图像进行卷积和全连接运算,得到第一预测结果,所述第一预测结果包括4对关键点的位置偏差。
第二预测模块,用于将所有第一预测结果进行加权平均,得到第二预测结果,以及根据第二预测结果生成第一图像变换到第二图像的第一单应性矩阵。
图像变换模块,用于基于第一单应性矩阵对第一图像进行变换,得到第三图像。
第二神经网络,用于利用第二方法预测第三图像变换到第二图像的第二单应性矩阵。
在一些实施例中,所述第二神经网络包括特征提取模块、特征图拼接模块和第三预测模块。
特征提取模块,用于分别对第二图像和第三图像进行特征提取,得到第二特征图和第三特征图。
特征图拼接模块,用于获取横轴坐标构成的特征图和纵轴坐标构成的特征图,以及第二特征图和第三特征图之间增加横轴坐标构成的特征图和纵轴坐标构成的特征图,然后进行拼接得到第二拼接图像。
第三预测模块,用于对拼接图像进行卷积和全连接运算,得到8个自由度数值,以及根据所述8个自由度数值生成第三图像变换到第二图像的第二单应性矩阵。
矩阵计算模块,用于基于第一单应性矩阵和第二单应性矩阵计算得到最终的单应性矩阵。
在一些实施例中,所述第一神经网络在每次训练时输入的两张图像为内容相同的图像;第二神经网络在训练时,需要使用第一神经网络获得的第三图像,此时第一神经网络输入的两张图像内容不同;最终基于第一神经网络和第二神经网络联合预测的是两张内容不同图像之间的单应性矩阵。
在一些实施例中,所述预测装置还包括预处理模块,所述预处理模块用于根据预设规则去除第一图像和第二图像中的运动目标,以及对第一图像和第二图像进行二值化。
需要说明的是,本领域技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统或者装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再重复描述。
以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
Claims (5)
1.一种图像对单应性矩阵的预测方法,其特征在于,包括:
获取待预测的图像对,所述图像对包括第一图像和第二图像;
利用第一方法预测第一图像变换到第二图像的第一单应性矩阵;
基于第一单应性矩阵对第一图像进行变换,得到第三图像;
利用第二方法预测第三图像变换到第二图像的第二单应性矩阵;
基于第一单应性矩阵和第二单应性矩阵计算得到最终的单应性矩阵;
利用第一方法预测第一图像变换到第二图像的第一单应性矩阵,包括:
对第一图像进行特征提取,得到第一特征图;对第二图像进行特征提取,得到第二特征图;
分别对第一特征图和第二特征图进行若干次卷积运算;
分别将卷积运算次数相同的第一特征图和第二特征图进行并行拼接,得到第一拼接图像;
分别将每张第一拼接图像进行卷积和全连接运算,得到第一预测结果,所述第一预测结果包括4对关键点的位置偏差;
将所有第一预测结果进行加权平均,得到第二预测结果;
根据第二预测结果生成第一图像变换到第二图像的第一单应性矩阵;
其中,将第一特征图和第二特征图进行并行拼接前,在第一特征图和第二特征图中每相邻两行之间增加一行全0行,然后在第一特征图和第二特征图中间增加相同尺寸的全0特征值的第一空白图像;
分别将每张第一拼接图像进行卷积和全连接运算,得到第一预测结果,所述第一预测结果包括4对关键点的位置偏差,包括:
将当前第一拼接图像进行卷积和全连接运算,得到第三预测结果,所述第三预测结果包括4对关键点的位置偏差;
若当前第一拼接图像存在上一级第一拼接图像,则根据上一级第一拼接图像的第一预测结果和当前第一拼接图像的第三预测结果生成当前第一拼接图像的第一预测结果;
若当前第一拼接图像不存在上一级第一拼接图像,则将当前第一拼接图像的第三预测结果确定为当前第一拼接图像的第一预测结果;
其中,生成上一级第一拼接图像的特征图的卷积运算次数比生成当前第一拼接图像的特征图的卷积运算次数多一次;
利用第二方法预测第三图像变换到第二图像的第二单应性矩阵,包括:
分别对第二图像和第三图像进行特征提取,得到第二特征图和第三特征图;
在第二特征图和第三特征图之间增加横轴坐标构成的特征图和纵轴坐标构成的特征图,然后进行拼接得到第二拼接图像;
对第二拼接图像进行卷积和全连接运算,得到8个自由度数值;
根据所述8个自由度数值生成第三图像变换到第二图像的第二单应性矩阵。
2.根据权利要求1所述的一种图像对单应性矩阵的预测方法,其特征在于,在利用第一方法预测第一图像变换到第二图像的第一单应性矩阵之前,所述预测方法还包括:
根据预设规则去除第一图像和第二图像中的运动目标;
分别对第一图像和第二图像进行二值化。
3.根据权利要求1所述的一种图像对单应性矩阵的预测方法,其特征在于,分别对第二图像和第三图像进行特征提取,得到第二特征图和第三特征图,包括:
对第二图像进行特征提取,得到第二特征图;
对第三图像进行特征提取,得到第三特征图;
分别对第二特征图和第三特征图进行裁剪。
4.一种图像对单应性矩阵的预测装置,其特征在于,包括:
图像获取模块,用于获取待预测的图像对,所述图像对包括第一图像和第二图像;
第一神经网络,用于利用第一方法预测第一图像变换到第二图像的第一单应性矩阵;
图像变换模块,用于基于第一单应性矩阵对第一图像进行变换,得到第三图像;
第二神经网络,用于利用第二方法预测第三图像变换到第二图像的第二单应性矩阵;
矩阵计算模块,用于基于第一单应性矩阵和第二单应性矩阵计算得到最终的单应性矩阵;
所述第一神经网络包括:
第一图像处理通道,用于对第一图像进行特征提取,得到第一特征图,以及对第一特征图进行若干次卷积运算;
第二图像处理通道,用于对第二图像进行特征提取,得到第二特征图,以及对第二特征图进行若干次卷积运算;
若干个拼接模块,用于将卷积运算次数相同的第一特征图和第二特征图进行并行拼接,得到第一拼接图像;其中,将第一特征图和第二特征图进行并行拼接前,在第一特征图和第二特征图中每相邻两行之间增加一行全0行,然后在第一特征图和第二特征图中间增加相同尺寸的全0特征值的第一空白图像;
若干个第一预测模块,用于将第一拼接图像进行卷积和全连接运算,得到第一预测结果,所述第一预测结果包括4对关键点的位置偏差;
第二预测模块,用于将所有第一预测结果进行加权平均,得到第二预测结果,以及根据第二预测结果生成第一图像变换到第二图像的第一单应性矩阵;
所述第一图像处理通道和第二图像处理通道的结构相同、参数共享;
分别将每张第一拼接图像进行卷积和全连接运算,得到第一预测结果,所述第一预测结果包括4对关键点的位置偏差,包括:
将当前第一拼接图像进行卷积和全连接运算,得到第三预测结果,所述第三预测结果包括4对关键点的位置偏差;
若当前第一拼接图像存在上一级第一拼接图像,则根据上一级第一拼接图像的第一预测结果和当前第一拼接图像的第三预测结果生成当前第一拼接图像的第一预测结果;
若当前第一拼接图像不存在上一级第一拼接图像,则将当前第一拼接图像的第三预测结果确定为当前第一拼接图像的第一预测结果;
其中,生成上一级第一拼接图像的特征图的卷积运算次数比生成当前第一拼接图像的特征图的卷积运算次数多一次;
所述第二神经网络包括:
特征提取模块,用于分别对第二图像和第三图像进行特征提取,得到第二特征图和第三特征图;
特征图拼接模块,用于获取横轴坐标构成的特征图和纵轴坐标构成的特征图,以及第二特征图和第三特征图之间增加横轴坐标构成的特征图和纵轴坐标构成的特征图,然后进行拼接得到第二拼接图像;
第三预测模块,用于对拼接图像进行卷积和全连接运算,得到8个自由度数值,以及根据所述8个自由度数值生成第三图像变换到第二图像的第二单应性矩阵。
5.根据权利要求4所述的一种图像对单应性矩阵的预测装置,其特征在于,所述预测装置还包括:
预处理模块,用于根据预设规则去除第一图像和第二图像中的运动目标,以及对第一图像和第二图像进行二值化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202411462971.8A CN118967432B (zh) | 2024-10-20 | 2024-10-20 | 一种图像对单应性矩阵的预测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202411462971.8A CN118967432B (zh) | 2024-10-20 | 2024-10-20 | 一种图像对单应性矩阵的预测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN118967432A CN118967432A (zh) | 2024-11-15 |
CN118967432B true CN118967432B (zh) | 2024-12-13 |
Family
ID=93397032
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202411462971.8A Active CN118967432B (zh) | 2024-10-20 | 2024-10-20 | 一种图像对单应性矩阵的预测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118967432B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107689035A (zh) * | 2017-08-30 | 2018-02-13 | 广州华多网络科技有限公司 | 一种基于卷积神经网络的单应性矩阵确定方法及装置 |
CN116266385A (zh) * | 2023-01-31 | 2023-06-20 | 北京迈格威科技有限公司 | 单应性矩阵估计方法、电子设备、存储介质及程序产品 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102739836B1 (ko) * | 2018-12-11 | 2024-12-09 | 삼성전자주식회사 | 3차원 컬러 맵 기반의 측위 방법 및 장치 |
CN115936974A (zh) * | 2022-11-21 | 2023-04-07 | 北京地平线机器人技术研发有限公司 | 基于单应性变换的图像数据处理方法、装置及介质 |
-
2024
- 2024-10-20 CN CN202411462971.8A patent/CN118967432B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107689035A (zh) * | 2017-08-30 | 2018-02-13 | 广州华多网络科技有限公司 | 一种基于卷积神经网络的单应性矩阵确定方法及装置 |
CN116266385A (zh) * | 2023-01-31 | 2023-06-20 | 北京迈格威科技有限公司 | 单应性矩阵估计方法、电子设备、存储介质及程序产品 |
Also Published As
Publication number | Publication date |
---|---|
CN118967432A (zh) | 2024-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111767882B (zh) | 一种基于改进yolo模型的多模态行人检测方法 | |
CN109543606B (zh) | 一种加入注意力机制的人脸识别方法 | |
CN107103613B (zh) | 一种三维手势姿态估计方法 | |
CN110246181B (zh) | 基于锚点的姿态估计模型训练方法、姿态估计方法和系统 | |
US20060029276A1 (en) | Object image detecting apparatus, face image detecting program and face image detecting method | |
CN111311543B (zh) | 图像清晰度检测方法、系统、设备及存储介质 | |
JP6493163B2 (ja) | 粗密探索方法および画像処理装置 | |
CN111931720B (zh) | 跟踪图像特征点的方法、装置、计算机设备和存储介质 | |
CN113052170A (zh) | 一种无约束场景下的小目标车牌识别方法 | |
CN113205507A (zh) | 一种视觉问答方法、系统及服务器 | |
CN109977834B (zh) | 从深度图像中分割人手与交互物体的方法和装置 | |
CN109902576B (zh) | 一种头肩图像分类器的训练方法及应用 | |
CN112084988B (zh) | 车道线实例聚类方法、装置、电子设备和存储介质 | |
CN112101113B (zh) | 一种轻量化的无人机图像小目标检测方法 | |
CN118967432B (zh) | 一种图像对单应性矩阵的预测方法及装置 | |
CN110717910B (zh) | 基于卷积神经网络的ct图像目标检测方法及ct扫描仪 | |
CN110930436B (zh) | 一种目标跟踪方法及设备 | |
CN116012659B (zh) | 一种红外目标检测方法、装置、电子设备及存储介质 | |
CN116843909B (zh) | 电力线提取方法及装置、存储介质、计算机设备 | |
CN111986233A (zh) | 基于特征自学习的大场景极小目标遥感视频跟踪方法 | |
CN117593711A (zh) | 车辆采集图像敏感信息处理方法及系统 | |
CN110059742A (zh) | 基于深度学习的安全护具穿戴识别方法及设备 | |
CN117392508A (zh) | 一种基于坐标注意力机制的目标检测方法和装置 | |
US20230005162A1 (en) | Image processing system, image processing method, and storage medium | |
CN110751163A (zh) | 目标定位方法及其装置、计算机可读存储介质和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |