CN116266385A

CN116266385A - 单应性矩阵估计方法、电子设备、存储介质及程序产品

Info

Publication number: CN116266385A
Application number: CN202310107729.8A
Authority: CN
Inventors: 江海; 李海鹏; 刘渝桥; 刘帅成
Original assignee: Beijing Megvii Technology Co Ltd
Current assignee: Force Map New Chongqing Technology Co ltd
Priority date: 2023-01-31
Filing date: 2023-01-31
Publication date: 2023-06-20

Abstract

本发明实施例提供一种单应性矩阵估计方法、电子设备、存储介质及程序产品。方法包括：获取待处理源图像和待处理目标图像；将获取的图像输入单应性矩阵估计网络中，获得图像之间的单应性矩阵，上述网络通过以下方式训练获得：获取样本源图像和样本目标图像；对于至少一组目标单应性矩阵中的每组目标单应性矩阵，通过其中的每个目标单应性矩阵，对待扭曲图像进行图像扭曲，获得中间态图像；对于至少一组训练图像中的每组训练图像，将该组训练图像中的每个图像对输入上述网络，获得与该组训练图像中的图像对一一对应的预测单应性矩阵；计算总预测损失；基于总预测损失对网络中的参数进行优化。该方案能够准确求解大基线场景下的单应性矩阵。

Description

单应性矩阵估计方法、电子设备、存储介质及程序产品

技术领域

本发明涉及机器学习技术领域，更具体地涉及一种单应性矩阵估计方法、电子设备、存储介质及计算机程序产品。

背景技术

单应性矩阵估计是一项基础而又重要的计算机视觉任务，且已被广泛地应用于高动态范围(HDR)成像、图像拼接和视频稳定等领域中。早期的传统方法主要依赖于特征提取和特征匹配，通过直接线性变换法(DLT)求解两张图像的单应性矩阵，但传统方法严重依赖图像间的特征匹配点，要求图像包含丰富的纹理和良好的照明条件。基于深度学习的方法无需依赖于图像间匹配特征点，而是通过卷积神经网络直接学习两张图像的单应性矩阵。但由于大基线场景的视差变换大，源图像和目标图像间的非重合率过大，导致现有的基于深度学习的方法在大基线场景中求解的单应性矩阵误差较大。

发明内容

考虑到上述问题而提出了本发明。本发明提供了一种单应性矩阵估计方法、电子设备、存储介质及计算机程序产品。

根据本发明一方面，提供了一种单应性矩阵估计方法，包括：获取待处理源图像和待处理目标图像；将所述待处理源图像和所述待处理目标图像输入单应性矩阵估计网络中，获得所述待处理源图像和所述待处理目标图像之间的单应性矩阵，其中，所述单应性矩阵估计网络通过以下方式训练获得：获取样本源图像和样本目标图像；对于至少一组目标单应性矩阵中的每组目标单应性矩阵，通过该组目标单应性矩阵中的每个目标单应性矩阵，对待扭曲图像进行图像扭曲，获得中间态图像，其中，所述至少一组目标单应性矩阵中的每组目标单应性矩阵包括至少一个单应性矩阵，在所述至少一组目标单应性矩阵中的每组目标单应性矩阵中，第一个目标单应性矩阵所对应的待扭曲图像为所述样本源图像，剩余的每个目标单应性矩阵所对应的待扭曲图像为通过前一目标单应性矩阵扭曲获得的中间态图像；对于至少一组训练图像中的每组训练图像，将该组训练图像中的每个图像对输入单应性矩阵估计网络，获得与该组训练图像中的图像对一一对应的预测单应性矩阵，其中，所述至少一组训练图像与所述至少一组目标单应性矩阵一一对应，所述至少一组训练图像中的每组训练图像包括第一图像对和第二图像对和/或包括至少一个第三图像对，所述第一图像对包括所述样本源图像和所述样本目标图像，所述第二图像对包括所述样本目标图像和对应组目标单应性矩阵中最后一个目标单应性矩阵所对应的中间态图像，所述至少一个第三图像对与对应组目标单应性矩阵中的至少一个目标单应性矩阵一一对应，每个第三图像对包括对应目标单应性矩阵所对应的待扭曲图像和中间态图像；至少基于所述至少一组训练图像中每组训练图像中的至少部分图像对各自对应的预测单应性矩阵，计算所述单应性矩阵估计网络的总预测损失；基于所述总预测损失对所述单应性矩阵估计网络中的参数进行优化。

示例性地，所述至少基于所述至少一组训练图像中每组训练图像中的至少部分图像对各自对应的预测单应性矩阵，计算所述单应性矩阵估计网络的总预测损失，包括：对于所述至少一组训练图像中的每组训练图像，至少基于该组训练图像中的第一图像对和第二图像对各自对应的预测单应性矩阵，计算该组训练图像所对应的第一预测损失，和/或，基于该组训练图像中的至少一个第三图像对各自对应的预测单应性矩阵和目标单应性矩阵，计算该组训练图像所对应的第二预测损失；基于所述至少一组训练图像各自对应的第一预测损失和/或第二预测损失，计算所述总预测损失。

示例性地，所述至少基于该组训练图像中的第一图像对和第二图像对各自对应的预测单应性矩阵，计算该组训练图像所对应的第一预测损失，包括：基于第一矩阵乘结果和第二矩阵乘结果之间的差值，计算该组训练图像所对应的第一预测损失，其中，所述第一矩阵乘结果为该组训练图像中的第二图像对所对应的预测单应性矩阵的逆矩阵与该组训练图像中的第一图像对所对应的预测单应性矩阵之间的叉乘结果，所述第二矩阵乘结果为该组训练图像中的至少一个第三图像对各自对应的预测单应性矩阵的矩阵累乘结果。

示例性地，所述至少基于该组训练图像中的第一图像对和第二图像对各自对应的预测单应性矩阵，计算该组训练图像所对应的第一预测损失，包括：基于第一矩阵乘结果和第二矩阵乘结果之间的差值，计算该组训练图像所对应的第一预测损失，其中，所述第一矩阵乘结果为该组训练图像中的第二图像对所对应的预测单应性矩阵的逆矩阵与该组训练图像中的第一图像对所对应的预测单应性矩阵之间的叉乘结果，所述第二矩阵乘结果为该组训练图像所对应的一组目标单应性矩阵的矩阵累乘结果。

示例性地，所述基于该组训练图像中的至少一个第三图像对各自对应的预测单应性矩阵和目标单应性矩阵，计算该组训练图像所对应的第二预测损失，包括：基于该组训练图像中的至少一个第三图像对各自对应的预测单应性矩阵和目标单应性矩阵之间的差值，计算该组训练图像所对应的第二预测损失。

示例性地，所述单应性矩阵估计网络包括编码器、全局关联层和单应性估计模块，所述将所述待处理源图像和所述待处理目标图像输入单应性矩阵估计网络中，获得所述待处理源图像和所述待处理目标图像之间的单应性矩阵，包括：将所述待处理源图像和所述待处理目标图像输入所述编码器，获得所述待处理源图像所对应的至少一组第一图像特征和所述待处理目标图像所对应的至少一组第二图像特征，所述至少一组第一图像特征与所述至少一组第二图像特征一一对应；将每组第一图像特征与对应组第二图像特征输入所述全局关联层，获得与该组第一图像特征相对应的全局关联特征；将所述至少一组第一图像特征各自对应的全局关联特征输入所述单应性估计模块，获得所述待处理源图像和所述待处理目标图像之间的单应性矩阵。

示例性地，所述单应性估计模块包括与所述至少一组第一图像特征一一对应的至少一个运动估计模块，所述将所述至少一组第一图像特征各自对应的全局关联特征输入所述单应性估计模块，获得所述待处理源图像和所述待处理目标图像之间的单应性矩阵，包括：将第i组第一图像特征所对应的全局关联特征输入第i个运动估计模块，获得矩阵流形式的第i个单应性矩阵；将所述矩阵流形式的第i个单应性矩阵与第i+1组第一图像特征所对应的全局关联特征结合，获得结合关联特征；将所述结合关联特征输入第i+1个运动估计模块，获得矩阵流形式的第i+1个单应性矩阵；将最后一个运动估计模块输出的矩阵流形式的单应性矩阵进行直接线性变换，获得矩阵形式的单应性矩阵作为所述待处理源图像和所述待处理目标图像之间的单应性矩阵；其中，i＝1,2,3,…,N-1，N为所述至少一组第一图像特征的组数，第i组第一图像特征的维度小于第i+1组第一图像特征的维度。

根据本发明另一方面，提供了一种电子设备，包括处理器和存储器，其中，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器运行时用于执行上述单应性矩阵估计方法。

根据本发明另一方面，提供了一种存储介质，在所述存储介质上存储了程序指令，所述程序指令在运行时用于执行上述单应性矩阵估计方法。

根据本发明另一方面，提供了一种计算机程序产品，所述计算机程序产品包括计算机程序，其中，所述计算机程序在运行时用于执行上述单应性矩阵估计方法。

根据本发明实施例的单应性矩阵估计方法、电子设备、存储介质及计算机程序产品，采用单应性矩阵估计网络预测待处理源图像和待处理目标图像之间的单应性矩阵。该单应性矩阵估计网络通过以下方式训练获得。即，通过目标单应性矩阵，基于样本源图像转换获得中间态图像，并至少基于中间态图像组成训练图像中的图像对。随后可以将各图像对输入到单应性矩阵估计网络，得到预测单应性矩阵，并至少基于预测单应性矩阵计算损失，来对单应性矩阵估计网络进行优化。该方案通过利用中间态图像将大基线场景分为多个小基线场景，能够高效、鲁棒地实现单应性矩阵估计网络的训练。因此，将通过以上训练方式训练得到的单应性矩阵估计网络应用于实际的单应性矩阵估计时，能够准确求解大基线场景下的单应性矩阵。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1示出用于实现根据本申请实施例的单应性矩阵估计方法的示例电子设备的示意性框图；

图2示出根据本申请一个实施例的单应性矩阵估计网络训练方法的示意性流程图；

图3示出根据本申请一个实施例的待扭曲图像根据目标单应性矩阵生成中间态图像的示意图；

图4示出根据本申请一个实施例的单应性矩阵估计网络训练方法的示意图；

图5示出根据本申请另一个实施例的单应性矩阵估计网络训练方法的示意图；

图6示出根据本申请一个实施例的单应性矩阵估计网络的示意图；

图7示出根据本申请一个实施例单应性估计模块的示意图；

图8示出根据本申请一个实施例的粗略运动估计模块的示意图；

图9示出根据本申请一个实施例的精细运动估计模块的示意图；

图10示出根据本申请一个实施例的单应性矩阵估计方法的示意性流程图；

图11示出根据本发明一个实施例的单应性矩阵估计装置的示意性框图；以及

图12示出根据本发明一个实施例的电子设备的示意性框图。

具体实施方式

近年来，基于人工智能的计算机视觉、深度学习、机器学习、图像处理、图像识别等技术研究取得了重要进展。人工智能(Artificial Intelligence，AI)是研究、开发用于模拟、延伸人的智能的理论、方法、技术及应用系统的新兴科学技术。人工智能学科是一门综合性学科，涉及芯片、大数据、云计算、物联网、分布式存储、深度学习、机器学习、神经网络等诸多技术种类。计算机视觉作为人工智能的一个重要分支，具体是让机器识别世界，计算机视觉技术通常包括人脸识别、图像处理、指纹识别与防伪验证、生物特征识别、人脸检测、行人检测、目标检测、行人识别、图像处理、图像识别、图像语义理解、图像检索、文字识别、视频处理、视频内容识别、三维重建、虚拟现实、增强现实、同步定位与地图构建(SLAM)、计算摄影、机器人导航与定位等技术。随着人工智能技术的研究和进步，该项技术在众多领域展开了应用，例如城市管理、交通管理、楼宇管理、园区管理、人脸通行、人脸考勤、物流管理、仓储管理、机器人、智能营销、计算摄影、手机影像、云服务、智能家居、穿戴设备、无人驾驶、自动驾驶、智能医疗、人脸支付、人脸解锁、指纹解锁、人证核验、智慧屏、智能电视、摄像机、移动互联网、网络直播、美颜、美妆、医疗美容、智能测温等领域。

为了使得本申请的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。基于本申请中描述的本申请实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本申请的保护范围之内。

本申请实施例提供了一种单应性矩阵估计方法、电子设备、存储介质及计算机程序产品。根据本申请实施例的单应性矩阵估计方法，可以准确求解大基线场景下的单应性矩阵。根据本申请实施例的单应性矩阵估计技术可以应用于任何涉及单应性矩阵估计的领域。

首先，参照图1来描述用于实现根据本申请实施例的单应性矩阵估计方法的示例电子设备100。

如图1所示，电子设备100包括一个或多个处理器102、一个或多个存储装置104。可选地，电子设备100还可以包括输入装置106、输出装置108、以及图像采集装置110，这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器102可以采用数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、微处理器中的至少一种硬件形式来实现，所述处理器102可以是中央处理单元(CPU)、图像处理器(GPU)、专用的集成电路(ASIC)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元中的一种或几种的组合，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本申请实施例中(由处理器实现)的客户端功能以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部(例如用户)输出各种信息(例如图像和/或声音)，并且可以包括显示器、扬声器等中的一个或多个。可选地，所述输入装置106和所述输出装置108可以集成在一起，采用同一交互装置(例如触摸屏)实现。

所述图像采集装置110可以采集图像，并且将所采集的图像存储在所述存储装置104中以供其它组件使用。图像采集装置110可以是单独的相机或移动终端中的摄像头等。应当理解，图像采集装置110仅是示例，电子设备100可以不包括图像采集装置110。在这种情况下，可以利用其他具有图像采集能力的器件采集图像，并将采集的图像发送给电子设备100。

示例性地，用于实现根据本申请实施例的单应性矩阵估计方法的示例电子设备可以在诸如个人计算机、终端设备、考勤机、面板机、相机或远程服务器等的设备上实现。其中，终端设备包括但不限于：平板电脑、手机、PDA(Personal Digital Assistant，个人数字助理)、可触屏一体机、可穿戴设备等。

为了解决上述技术问题，本申请提供一种单应性矩阵估计方法，该方法通过单应性矩阵估计网络对待处理源图像和待处理目标图像进行处理，来获得待处理源图像和待处理目标图像之间的单应性矩阵。该单应性矩阵估计网络可以采用根据本发明实施例的训练方法训练获得。为了方便理解，下面首先参考图2描述上述单应性矩阵估计网络的训练方法。

图2示出根据本申请一个实施例的单应性矩阵估计网络训练方法的示意性流程图。如图2所示，单应性矩阵估计网络训练方法200包括以下步骤S210、S220、S230、S240和S250。

在步骤S210，获取样本源图像和样本目标图像。

样本源图像和样本目标图像可以是任意具有单应性变换关系的图像。样本源图像和/或样本目标图像可以是图像采集装置采集获得的原始图像，对图像采集装置采集获得的原始图像进行预处理获得的图像，或者通过计算机技术生成的合成图像。样本源图像中的至少部分图像区域与样本目标图像中的至少部分图像区域对应于同一对象或场景。示例性地，样本源图像和样本目标图像可以是从不同的拍摄角度拍摄的一个场景的两张图像。样本源图像和样本目标图像可以来自外部设备，由外部设备传送到电子设备100进行单应性矩阵估计网络训练。此外，样本源图像和样本目标图像也可以由电子设备100自身进行采集获得。例如，电子设备100可以利用图像采集装置110(例如独立的照相机)采集样本源图像和对应的样本目标图像。图像采集装置110可以将采集到的样本源图像和样本目标图像传送到处理器102，由处理器102进行单应性矩阵估计网络训练。

在步骤S220，对于至少一组目标单应性矩阵中的每组目标单应性矩阵，通过该组目标单应性矩阵中的每个目标单应性矩阵，对待扭曲图像进行图像扭曲，获得中间态图像，其中，至少一组目标单应性矩阵中的每组目标单应性矩阵包括至少一个单应性矩阵，在至少一组目标单应性矩阵中的每组目标单应性矩阵中，第一个目标单应性矩阵所对应的待扭曲图像为样本源图像，剩余的每个目标单应性矩阵所对应的待扭曲图像为通过前一目标单应性矩阵扭曲获得的中间态图像。

示例性地，对于一组目标单应性矩阵，各个目标单应性矩阵可以相等，也可以不等。目标单应性矩阵可以根据对应的待扭曲图像与中间态图像间的非重合率进行设置。例如，可以设置非重合率为20％，则目标单应性矩阵在设置时可以设置为保证经该目标单应性矩阵扭曲得到的中间态图像与待扭曲图像间的非重合率小于20％。

示例性地，对于一组目标单应性矩阵，第一个目标单应性矩阵对应的待扭曲图像为样本源图像。第二个目标单应性矩阵对应的待扭曲图像为样本源图像通过第一个目标单应性矩阵扭曲得到的第一中间态图像。第三个目标单应性矩阵对应的待扭曲图像为第一中间态图像通过第二个目标单应性矩阵扭曲得到的第二中间态图像。以此类推，第N个目标单应性矩阵对应的待扭曲图像为第N-2中间态图像通过第N-1个目标单应性矩阵扭曲得到的第N-1中间态图像。

任意两组目标单应性矩阵中所包括的单应性矩阵的数目可以相等，也可以不相等。在一个实施例中，一组目标单应性矩阵包括三个目标单应性矩阵，分别为矩阵1、矩阵2和矩阵3。其中，矩阵1对应的待扭曲图像为样本源图像。矩阵2对应的待扭曲图像为样本源图像通过矩阵1扭曲得到的第一中间态图像。矩阵3对应的待扭曲图像为第一中间态图像通过矩阵2扭曲得到的第二中间态图像。

图3示出了根据本申请一个实施例的待扭曲图像根据目标单应性矩阵生成中间态图像的示意图。如图3所示，样本源图像为I_s ⁰。第一个目标单应性矩阵H_gt ¹对应的待扭曲图像为I_s ⁰。第二个目标单应性矩阵H_gt ²对应的待扭曲图像为I_s ⁰通过H_gt ¹扭曲得到的第一中间态图像I_s ¹……第i个目标单应性矩阵H_gt ⁱ对应的待扭曲图像为第i-2中间态图像I_s ^i-2通过第i-1个目标单应性矩阵H_gt ^i-1扭曲得到的第i-1中间态图像I_s ^i-1……第N个目标单应性矩阵H_gt ^N对应的待扭曲图像为第N-2中间态图像I_s ^N-2通过第N-1个目标单应性矩阵H_gt ^N-1扭曲得到的第N-1中间态图像I_s ^N-1。N是当前的一组目标单应性矩阵中的目标单应性矩阵的数目。

在步骤S230，对于至少一组训练图像中的每组训练图像，将该组训练图像中的每个图像对输入单应性矩阵估计网络，获得与该组训练图像中的图像对一一对应的预测单应性矩阵，其中，至少一组训练图像与至少一组目标单应性矩阵一一对应，至少一组训练图像中的每组训练图像包括第一图像对和第二图像对和/或包括至少一个第三图像对，第一图像对包括样本源图像和样本目标图像，第二图像对包括样本目标图像和对应组目标单应性矩阵中最后一个目标单应性矩阵所对应的中间态图像，至少一个第三图像对与对应组目标单应性矩阵中的至少一个目标单应性矩阵一一对应，每个第三图像对包括对应目标单应性矩阵所对应的待扭曲图像和中间态图像。

示例性地，单应性矩阵估计网络可以采用现有的或将有的任意能够进行单应性矩阵估计的神经网络实现。例如，单应性矩阵估计网络可以采用以下一种或多种神经网络实现：卷积神经网络(Convolutional Neural Networks,CNN)、U型网络(U-Net)、全卷积神经网络(Fully Convolutional Networks,FCN)、用于图像分割的深度卷积编码器-解码器结构(SegNet)、金字塔场景解析网络(pyramid scene parsing network,PSPNet)、残差网络(Residual Network,ResNet)等。当然，上述神经网络模型仅是示例，单应性矩阵估计网络还可以采用其他合适的网络结构实现。

在一个实施例中，一组训练图像可以包括第一图像对和第二图像对。替代地，一组训练图像可以包括至少一个第三图像对。再替代地，一组训练图像可以包括第一图像对、第二图像对和至少一个第三图像对。任意两组训练图像所包括的图像对的类型可以一致，也可以不一致。例如，第一组训练图像可以包括第一图像对和第二图像对，第二组训练图像可以包括至少一个第三图像对。又例如，第一组训练图像可以包括第一图像对、第二图像对和至少一个第三图像对，第二组训练图像也可以包括第一图像对、第二图像对和至少一个第三图像对。

在如图3所示的实施例中，以I_t表示样本目标图像。第一图像对包括I_s ⁰和I_t。第二图像对包括I_t和I_s ^N。第三图像对包括对应目标单应性矩阵所对应的待扭曲图像和中间态图像。该目标单应性矩阵可以为H_gt ¹、H_gt ²、H_gt ³……H_gt ⁱ……H_gt ^N等。可以理解，至少一个第三图像对与对应组目标单应性矩阵中的至少一个目标单应性矩阵一一对应，即第三图像对的数量与对应组目标单应性矩阵中单应性矩阵的数量相同。在如图3所示的具体实施例中，第三图像对数量为N个，分别与H_gt ¹、H_gt ²、H_gt ³……H_gt ⁱ……H_gt ^N等对应。即第1个第三图像对与H_gt ¹对应，包括I_s ⁰和I_s ¹；第2个第三图像对与H_gt ²对应，包括I_s ¹和I_s ²；……；第i个第三图像对与H_gt ⁱ对应，包括I_s ^i-1和I_s ⁱ；……；第N个第三图像对与H_gt ^N对应，包括I_s ^N-1和I_s ^N。

将上述任一图像对输入单应性矩阵估计网络，可以获得由单应性矩阵估计网络在输出端或中间位置处输出的预测单应性矩阵。

在步骤S240，至少基于至少一组训练图像中每组训练图像中的至少部分图像对各自对应的预测单应性矩阵，计算单应性矩阵估计网络的总预测损失。

示例性地，训练图像可以为一组，基于该组训练图像中的至少部分训练图像对各自对应的预测单应性矩阵，计算单应性估计矩阵的总预测损失。例如，在上述一组训练图像包括第一图像对、第二图像对和至少一个第三图像对的实施例中，可以仅通过该组训练图像中的第一图像对和第二图像对各自对应的预测单应性矩阵，计算该组训练图像所对应的预测损失，并将该组训练图像所对应的预测损失作为总预测损失。替代地，训练图像可以为多组。在一个实施例中，可以分别计算每组训练图像所对应的预测损失，并将各组训练图像所对应的预测损失求和或求平均，以作为单应性矩阵估计网络的总预测损失。例如，训练图像为5组，每组训练图像对应的预测损失分别为L₁、L₂、L₃、L₄和L₅。单应性估计矩阵的总预测损失L＝(L₁+L₂+L₃+L₄+L₅)/5。

在步骤S250，基于总预测损失对单应性矩阵估计网络中的参数进行优化。

可以理解，优化过程可以为一次、两次或多次。在一个实施例中，可以利用第一组训练图像对应的第一总预测损失对单应性矩阵估计网络中的参数进行优化。第一次优化完成后，可以针对第二组训练图像，基于上述第一次优化后的单应性矩阵估计网络，重复上述步骤S210、S220、S230和S240，得到第二总预测损失。基于第二总预测损失对经第一次优化后的单应性矩阵估计网络再次优化。重复上述过程，依次针对第三组训练图像、第四组训练图像、第五组训练图像等对单应性矩阵估计网络多次迭代优化，直至该单应性矩阵估计网络的总预测损失在一定范围内(损失收敛)时，优化完成。

上述步骤S210、S220、S230、S240和S250可以表示单应性矩阵估计网络的训练阶段。可以理解，在采用单应性矩阵估计网络进行实际的单应性矩阵估计(可以称为测试或推理阶段)时，对待处理源图像和待处理目标图像的处理步骤可以参照训练阶段中单应性矩阵估计网络对任一图像对的处理操作来实现。为了简洁，此处不再赘述。

根据上述技术方案，通过目标单应性矩阵，基于样本源图像转换获得中间态图像，并至少基于中间态图像组成训练图像中的图像对。随后可以将各图像对输入到单应性矩阵估计网络，得到预测单应性矩阵，并至少基于预测单应性矩阵计算损失，来对单应性矩阵估计网络进行优化。该方案通过利用中间态图像将大基线场景分为多个小基线场景，能够高效、鲁棒地实现单应性矩阵估计网络的训练，所得到的单应性矩阵估计网络能够准确求解大基线场景下的单应性矩阵。

示例性地，至少基于至少一组训练图像中每组训练图像中的至少部分图像对各自对应的预测单应性矩阵，计算单应性矩阵估计网络的总预测损失(步骤S240)，至少包括以下步骤：对于至少一组训练图像中的每组训练图像，至少基于该组训练图像中的第一图像对和第二图像对各自对应的预测单应性矩阵，计算该组训练图像所对应的第一预测损失，和/或，基于该组训练图像中的至少一个第三图像对各自对应的预测单应性矩阵和目标单应性矩阵，计算该组训练图像所对应的第二预测损失；基于至少一组训练图像各自对应的第一预测损失和/或第二预测损失，计算总预测损失。

示例性地，对于至少一组训练图像中的每组训练图像，可以基于该组训练图像所对应的第一预测损失和/或第二预测损失，计算该组训练图像所对应的第三预测损失，并可以对至少一组训练图像各自对应的第三预测损失求和或求平均，获得总预测损失。示例性地，在计算第三预测损失时，可以单独基于第一预测损失计算第三预测损失。例如，确定第一预测损失为第三预测损失。替代地，可以单独基于第二预测损失计算第三预测损失。例如，确定第二预测损失为第三预测损失。又替代地，可以基于第一预测损失和第二预测损失计算第三预测损失。例如，可以将第一预测损失和第二预测损失求和或求平均，以确定第三预测损失。在一个实施例中，以

表示第一预测损失，以/>

表示第二预测损失。则第i组训练图像所对应的第三预测损失/>

第一预测损失与第二预测损失的确定过程见下述实施例。

根据上述技术方案，通过利用第一预测损失和/或第二预测损失，能够准确确定总预测损失。从而能够基于该准确的总预测损失，保证单应性矩阵估计网络的优化效果，提高优化后的单应性矩阵估计网络的准确性。

示例性地，至少基于该组训练图像中的第一图像对和第二图像对各自对应的预测单应性矩阵，计算该组训练图像所对应的第一预测损失的步骤可以包括以下步骤。基于第一矩阵乘结果和第二矩阵乘结果之间的差值，计算该组训练图像所对应的第一预测损失，其中，第一矩阵乘结果为该组训练图像中的第二图像对所对应的预测单应性矩阵的逆矩阵与该组训练图像中的第一图像对所对应的预测单应性矩阵之间的叉乘结果，所述第二矩阵乘结果为该组训练图像中的至少一个第三图像对各自对应的预测单应性矩阵的矩阵累乘结果。

可以理解，理论上来说，至少一个第三图像对中最后一个图像对对应的中间态图像与样本目标图像经第二图像对对应的单应性矩阵的逆矩阵扭曲得到的图像应该相同。根据循环重组关系，当单应性矩阵估计网络的估计完全准确时，该组训练图像中的至少一个第三图像对各自对应的预测单应性矩阵的矩阵累乘结果，与该组训练图像中的第二图像对所对应的预测单应性矩阵的逆矩阵与该组训练图像中的第一图像对所对应的预测单应性矩阵之间的叉乘结果，这二者应该相同。即第一矩阵乘结果和第二矩阵乘结果应该相同。对于N个预测单应性矩阵，以

表示第一图像对对应的预测单应性矩阵。以/>

表示第二图像对对应的预测单应性矩阵。以/>

表示第i+1个第三图像对对应的预测单应性矩阵。则理论上存在：

其中，∏·表示矩阵累乘。上述第一矩阵乘结果和第二矩阵乘结果之间的差值可以反映单应性矩阵估计网络的准确度，差值越大，单应性矩阵估计网络的准确度越低。因此，可以根据第一矩阵乘结果和第二矩阵乘结果之间的差值，计算第一预测损失。

在上述一组目标单应性矩阵包括三个目标单应性矩阵的实施例中，三个目标单应性矩阵扭曲得到的图像依次为第一中间态图像、第二中间态图像和第三中间态图像。三个预测单应性矩阵分别为H₁、H₂和H₃。以H₀表示第一图像对所对应的预测单应性矩阵，即H₀表示样本源图像与样本目标图像间对应的预测单应性矩阵。H_t表示第二图像对对应的预测单应性矩阵。即H_t表示第三中间态图像与样本目标图像间对应的预测单应性矩阵。则第一预测损失可以为

在一个具体实施例中，

其中，|·|₁表示L1范数。

图4示出了根据本申请一个实施例的单应性矩阵估计网络训练方法的示意图。如图4所示，第一图像对对应的预测单应性矩阵可以表示为

第二图像对对应的预测单应性矩阵可以表示为/>

第三图像对对应的预测单应性矩阵可以表示为/>

第一预测损失可以为：

根据上述技术方案，基于循环重组关系，利用第一矩阵乘结果和第二矩阵乘结果之间的差值，能够准确确定第一预测损失。这种基于循环重组关系的优化方案可以训练获得精度较高的单应性矩阵估计网络。

示例性地，至少基于该组训练图像中的第一图像对和第二图像对各自对应的预测单应性矩阵，计算该组训练图像所对应的第一预测损失的步骤可以包括以下步骤。基于第一矩阵乘结果和第二矩阵乘结果之间的差值，计算该组训练图像所对应的第一预测损失，其中，所述第一矩阵乘结果为该组训练图像中的第二图像对所对应的预测单应性矩阵的逆矩阵与该组训练图像中的第一图像对所对应的预测单应性矩阵之间的叉乘结果，所述第二矩阵乘结果为该组训练图像所对应的一组目标单应性矩阵的矩阵累乘结果。

如上所述，当单应性矩阵估计网络的估计完全准确时，该组训练图像中的至少一个第三图像对各自对应的预测单应性矩阵的矩阵累乘结果与该组训练图像中的第二图像对所对应的预测单应性矩阵的逆矩阵与该组训练图像中的第一图像对所对应的预测单应性矩阵之间的叉乘结果应该相同。可以理解，当单应性矩阵估计网络准确时，同一个第三图像对对应的预测单应性矩阵与目标单应性矩阵也应该相同。因此，可以以该组训练图像所对应的一组目标单应性矩阵的矩阵累乘结果作为上述实施例的第二矩阵乘结果。对于N个目标单应性矩阵，以

表示第一图像对对应的预测单应性矩阵。以/>

表示第二图像对对应的预测单应性矩阵。以/>

表示第三图像对对应的目标单应性矩阵。则理论上存在：

上述第一矩阵乘结果和第二矩阵乘结果之间的差值可以反映单应性矩阵估计网络的准确度，差值越大，单应性矩阵估计网络的准确度越低。因此，可以根据第一矩阵乘结果和第二矩阵乘结果之间的差值，计算第一预测损失。

根据上述技术方案，，基于循环重组关系，利用第一矩阵乘结果和第二矩阵乘结果，能够准确计算第一预测损失。该方案在训练时仅需通过单应性矩阵估计网络得到第一图像对对应的预测单应性矩阵和第二图像对对应的预测单应性矩阵即可进行损失计算，占用资源少，效率高。

示例性地，基于该组训练图像中的至少一个第三图像对各自对应的预测单应性矩阵和目标单应性矩阵，计算该组训练图像所对应的第二预测损失的步骤可以包括以下步骤。基于该组训练图像中的至少一个第三图像对各自对应的预测单应性矩阵和目标单应性矩阵之间的差值，计算该组训练图像所对应的第二预测损失。

如上所述，当单应性矩阵估计网络的估计完全准确时，同一个第三图像对对应的预测单应性矩阵与目标单应性矩阵应该相同。因此，可以通过同一个第三图像对对应的预测单应性矩阵和目标单应性矩阵之间的差值，计算该组训练图像所对应的第二预测损失。

可以理解，第三图像对的数量可以根据计算精度选择。第三图像对的数量越多，则计算精度越高。否则，反之。在一个实施例中，目标单应性矩阵的数量为N个。相应地，第三图像对的数量为N个。可以基于N个第三图像对中的任意一个或几个，计算第二预测损失。例如，可以基于一个第三图像对对应的预测单应性矩阵和目标单应性矩阵之间的差值，计算第二预测损失。具体例如，可以将该第三图像对对应的预测单应性矩阵和目标单应性矩阵之间的差值的绝对值确定为第二预测损失。例如，第二预测损失

表示第i+1个图像对所对应的第i+1个预测单应性矩阵，表示第i+1个目标单应性矩阵。替代地，可以对N个第三图像对的对应的预测单应性矩阵和目标单应性矩阵之间的差值求和或求平均，以确定第二预测损失。在一个具体实施例中，将N个第三图像对的对应的预测单应性矩阵和目标单应性矩阵之间的差值的绝对值求和，以确定第二预测损失。例如，第二预测损失/>

图5示出了根据本申请一个实施例的单应性矩阵估计网络训练方法的示意图。图5所示的为一组目标单应性矩阵，在目标单应性矩阵的组数多于1组的情况下，针对每组目标单应性矩阵的处理方式是相同的，不再赘述。如图5所示，一组目标单应性矩阵中包括N个目标单应性矩阵。首先，通过该组目标单应性矩阵中的N个目标单应性矩阵，对待扭曲图像进行图像扭曲，获得中间态图像。中间态图像的具体获得方式在上述实施例中已详细描述，为了简洁，此处不再赘述。然后，将第一图像对、第二图像对和N个第三图像对输入单应性矩阵估计网络中，获得多个预测单应性矩阵。其中，

对应第一图像对，/>

对应第二图像对，/>

对应第三图像对，i∈[0，N-1]。接着，可以将多个第三图像对所对应的预测单应性矩阵累乘，获得/>

最后，计算/>

和/>

之间的差值，利用该差值确定总预测损失，并利用该总预测损失优化单应性矩阵估计网络。

根据上述技术方案，利用第三图像对对应的预测单应性矩阵和目标单应性矩阵之间的差值，可以准确确定第二预测损失。从而能够基于准确的第二预测损失，提高对单应性矩阵估计网络的优化效果。

示例性地，单应性矩阵估计网络包括编码器、全局关联层和单应性估计模块。在单应性矩阵估计网络的训练阶段，对于至少一组训练图像中的每组训练图像，将该组训练图像中的每个图像对输入单应性矩阵估计网络，获得与该组训练图像中的图像对一一对应的预测单应性矩阵的步骤可以具体包括以下步骤：对于至少一组训练图像中的每组训练图像中的每个图像对，将该图像对输入编码器，获得该图像对中的第一图像所对应的至少一组第一图像特征和该图像对中的第二图像所对应的至少一组第二图像特征，至少一组第一图像特征与至少一组第二图像特征一一对应；将每组第一图像特征与对应组第二图像特征输入全局关联层，获得与该组第一图像特征相对应的全局关联特征；将至少一组第一图像特征各自对应的全局关联特征输入单应性估计模块，获得该图像对所对应的预测单应性矩阵。

可以理解，一个图像对指的是对应一个目标单应性矩阵的两个图像。两个图像分别为对应该目标单应性矩阵的待扭曲图像和中间态图像。即第一图像可以为待扭曲图像和中间态图像中的一个，第二图像为待扭曲图像和中间态图像中的另外一个。

示例性地，该编码器模块可以利用任意下采样模块来实现，下采样模块可以包括诸如卷积层、池化层等，由此，编码器模块可以获得对应该图像对的多层特征。

可以理解，由于该图像对中的第一图像和第二图像输入到同一编码器中，因此第一图像特征的数量与第二图像特征的数量相同，且第一图像和第二图像在相同层的编码特征相对应。在一个实施例中，第一图像和第二图像均通过编码器获取四层编码特征，第一图像的第一层编码特征与第二图像的第一层编码特征相对应。第一图像的第二层编码特征与第二图像的第二层编码特征相对应。第一图像的第三层编码特征与第二图像的第三层编码特征相对应。第一图像的第四层编码特征与第二图像的第四层编码特征相对应。每层编码特征可以是一组图像特征。

在获取到第一图像特征与第二图像特征之后，将每组第一图像特征与对应组第二图像特征输入全局关联层，获得与该组第一图像特征相对应的全局关联特征。

示例性地，全局关联特征的数量与第一图像特征的数量相同。如上所述，第一图像特征的数量与第二图像特征的数量相同。在上述编码特征为四层的实施例中，第一图像特征的数量与第二图像特征的数量均为四组。将第一图像特征依次记为

和

将第二图像特征依次记为/>

和/>

则将

和/>

分别输入到全局关联层中，得到全局关联特征/>

和/>

将至少一组第一图像特征各自对应的全局关联特征输入单应性估计模块，获得该图像对所对应的预测单应性矩阵。

在上述得到全局关联特征

和/>

的实施例中，可以将其中一个全局关联特征输入到单应性估计模块中。替代地，也可以将多个全局关联特征输入到单应性估计模块中。输入单应性估计模块中的全局关联特征的数量可以根据估计精度选择。输入的全局关联特征数量越多，估计精度就越高；否则，反之。

根据上述技术方案，通过利用一组图像对中的第一图像特征和第二图像特征，并通过全局关联层获得一组第一图像特征中每个第一图像特征对应的全局关联特征，能够利用该全局关联特征准确确定第一图像和第二图像间的单应性矩阵。

示例性地，编码器为多尺度卷积编码器，在对于至少一组训练图像中的每组训练图像中的每个图像对，将该图像对输入编码器，获得该图像对中的第一图像所对应的至少一组第一图像特征和该图像对中的第二图像所对应的至少一组第二图像特征之前，方法200还可以包括以下步骤：对于至少一组训练图像中的每组训练图像中的每个图像对，将该图像对缩小为与至少一种目标分辨率一一对应的至少一个小分辨率图像对。对于至少一组训练图像中的每组训练图像中的每个图像对，将该图像对输入编码器，获得该图像对中的第一图像所对应的至少一组第一图像特征和该图像对中的第二图像所对应的至少一组第二图像特征，包括：对于至少一组训练图像中的每组训练图像中的每个图像对，将该图像对和对应的至少一个小分辨率图像对输入多尺度卷积编码器，获得基于该图像对生成的至少一组原始分辨率特征和基于至少一个小分辨率图像对生成的至少一组小分辨率特征，该图像对所对应的至少一组第一图像特征包括至少一组原始分辨率特征和至少一组小分辨率特征。

可以理解，每组训练图像的分辨率可能相同，也可能不同。例如，第一组训练图像的分辨率为100PPI，第二组训练图像的分辨率为150PPI。由于全局关联层在计算全局关联特征时的计算复杂度与图像的分辨率相关，为了提高处理效率和准确度，适应不同分辨率的图像的处理，可以将图像压缩为具有目标分辨率的小分辨率图像。例如，可以将上述第一组训练图像和第二组训练图像的分辨率均压缩至50PPI。

在图像缩小为小分辨率图像后，可以分别提取该图像对及对应的小分辨率图像的特征。换言之，对于至少一组训练图像中的每组训练图像中的每个图像对，将该图像对输入编码器，获得该图像对中的第一图像所对应的至少一组第一图像特征和该图像对中的第二图像所对应的至少一组第二图像特征，可以包括以下步骤。

对于至少一组训练图像中的每组训练图像中的每个图像对，将该图像对和对应的至少一个小分辨率图像对输入多尺度卷积编码器，获得基于该图像对生成的至少一组原始分辨率特征和基于至少一个小分辨率图像对生成的至少一组小分辨率特征，该图像对所对应的至少一组第一图像特征包括至少一组原始分辨率特征和至少一组小分辨率特征。

示例性地，在获得基于该图像对生成的至少一组原始分辨率特征和基于至少一个小分辨率图像对生成的至少一组小分辨率特征后，可以利用小分辨率图像中的部分小分辨率特征替换该图像对中对应的原始分辨率特征。例如，在上述编码器提取四层编码特征的实施例中，可以将小分辨率图像的最后两层图像特征替换该图像对中最后两层的原始分辨率特征。在上述第一图像特征依次记为

和/>

中，第一图像的小分辨率图像的特征依次记为/>

和/>

经特征替换后，输入到全局关联层的第一图像特征可以为/>

和/>

图6示出了根据本申请一个实施例的单应性矩阵估计网络的示意图。如图6所示，首先，将源图像I_s和目标图像I_t分别缩小为固定的小分辨率图像，得到对应的图像

和/>

将I_s、I_t、/>

和/>

分别输入到多尺度卷积编码器中，获取源图像和目标图像的四层特征。即获得源图像对应特征/>

和目标图像对应特征/>

其中，

为I_s的特征，/>

为/>

的特征。/>

为I_t的特征，/>

为/>

的特征。然后，将上述特征输入到全局关联层中，得到全局关联特征。最后，将全局关联特征输入到单应性估计模块，从而获得源图像I_s和目标图像I_t间对应的单应性估计矩阵。

根据上述技术方案，通过预先将图像缩小为小分辨率图像，能够降低全局关联特征的计算复杂度，提高计算效率。该方案能够适应不同分辨率的图像的运算。

示例性地，单应性估计模块包括与至少一组第一图像特征一一对应的至少一个运动估计模块。将至少一组第一图像特征各自对应的全局关联特征输入单应性估计模块，获得该图像对所对应的预测单应性矩阵的步骤可以包括以下步骤：将第i组第一图像特征所对应的全局关联特征输入第i个运动估计模块，获得矩阵流形式的第i个单应性矩阵；将矩阵流形式的第i个单应性矩阵与第i+1组第一图像特征所对应的全局关联特征结合，获得结合关联特征；将结合关联特征输入第i+1个运动估计模块，获得矩阵流形式的第i+1个单应性矩阵；将最后一个运动估计模块输出的矩阵流形式的单应性矩阵确定为该图像对所对应的预测单应性矩阵，或者，将最后一个运动估计模块输出的矩阵流形式的单应性矩阵进行直接线性变换，获得矩阵形式的单应性矩阵作为该图像对所对应的预测单应性矩阵；其中，i＝1,2,3,…,N-1，N为至少一组第一图像特征的组数，第i组第一图像特征的维度小于第i+1组第一图像特征的维度。

在上述得到全局关联特征

和/>

的实施例中，第1组第一图像特征对应的全局关联特征为/>

第2组第一图像特征对应的全局关联特征为/>

第3组第一图像特征对应的全局关联特征为/>

第4组第一图像特征对应的全局关联特征为/>

在一个实施例中，首先，将/>

输入到第1个运动估计模块中，获得矩阵流形式的第1个单应性矩阵。然后，将矩阵流形式的第1个单应性矩阵与第2组第一图像特征所对应的全局关联特征/>

结合，获得结合关联特征。将结合关联特征输入第2个运动估计模块，获得矩阵流形式的第2个单应性矩阵。接着，将矩阵流形式的第2个单应性矩阵与第3组第一图像特征所对应的全局关联特征/>

结合，获得结合关联特征。将结合关联特征输入第3个运动估计模块，获得矩阵流形式的第3个单应性矩阵。在获得第3个单应性矩阵后，将矩阵流形式的第3个单应性矩阵与第4组第一图像特征所对应的全局关联特征/>

结合，获得结合关联特征。将结合关联特征输入第4个运动估计模块，获得矩阵流形式的第4个单应性矩阵。最后，将矩阵流形式的第4个单应性矩阵确定为该图像对所对应的预测单应性矩阵。

示例性地，在上述获得矩阵流形式的第4个单应性矩阵后，为避免矩阵流中可能存在的局部运动扰动，可以将第4个单应性矩阵进行直接线性变换，获得矩阵形式的单应性矩阵作为该图像对所对应的预测单应性矩阵。可以理解，在单应性矩阵估计网络的训练阶段，可以直接应用矩阵流形式的单应性矩阵作为预测单应性矩阵，无需将其变换为矩阵形式的单应性矩阵，从而节约计算资源，提高训练效率。

在图6所示的实施例中，源图像特征和目标图像特征中的相同层特征在全局关联层中关联运算。即

和/>

分别输入全局关联层，得到全局关联特征/>

和/>

图7示出了根据本申请一个实施例的单应性估计模块的示意图。如图7所示，首先，将/>

输入到第1个运动估计模块(示出为第一运动估计模块)中，获得矩阵流形式的第1个单应性矩阵/>

然后，将矩阵流形式的第1个单应性矩阵

与/>

结合，获得结合关联特征。将结合关联特征输入第2个运动估计模块(示出为第二运动估计模块)，获得矩阵流形式的第2个单应性矩阵/>

接着，将矩阵流形式的第2个单应性矩阵/>

与/>

结合，获得结合关联特征。将结合关联特征输入第3个运动估计模块(示出为第三运动估计模块)，获得矩阵流形式的第3个单应性矩阵/>

在获得第3个单应性矩阵后，将矩阵流形式的第3个单应性矩阵/>

与/>

结合，获得结合关联特征。将结合关联特征输入第4个运动估计模块(示出为第四运动估计模块)，获得矩阵流形式的第4个单应性矩阵/>

最后，将矩阵流形式的第4个单应性矩阵/>

经直接线性变换获得矩阵形式的单应性矩阵/>

在如图7所示实施例中，还可以将第2个单应性矩阵

经直接线性变化得到

该矩阵表示源图像的小分辨率图像和目标图像的小分辨率图像间的单应性矩阵。

根据上述技术方案，通过利用多个运动估计模块获取单应性矩阵，并利用相邻两组全局关联特征间的结合关联特征，能够提高得到的预测单应性矩阵的准确性。

示例性地，最后一个运动估计模块为精细运动估计模块，剩余的至少部分运动估计模块为粗略运动估计模块。其中，粗略运动估计模块包括顺序连接的第一残差模块、第一子空间约束模块和第二残差模块。精细运动估计模块顺序连接的第三残差模块、第二子空间约束模块和第四残差模块、合并模块、第一卷积模块、第三子空间约束模块和第二卷积模块，其中，精细运动估计模块的输入特征跳跃连接到合并模块的输入端，在合并模块中，将第四残差模块的输出特征与跳跃连接的输入特征合并在一起。

在如图7所示的实施例中，第一运动估计模块和第三运动估计模块均可以为粗略运动估计模块(Coarse Motion Estimator,CME)，第二运动模块和第四运动模块均可以为精细运动估计模块(Fine Motion Estimator,FME)。

示例性地，第一残差模块与第二残差模块的尺寸可以相同，也可以不同。在一个实施例中，可以将第一残差模块的尺寸设置为包括32个残差块(Residual block)，第二残差模块的尺寸设置为包括64个残差块，从而得到不同尺度的输出值。

示例性地，第三残差模块与第四残差模块的尺寸可以相同，也可以不同。具体尺寸设置方式与第一残差模块和第二残差模块的设置方式类似，为了简洁，此处不再赘述。

图8示出了根据本申请一个实施例的粗略运动估计模块的示意图。如图8所示，特征输入CME后，依次经第一残差模块提取特征、第一子空间约束模块对提取的特征进行处理、第二残差模块对第一子空间约束模块输出的特征再次提取后，输出矩阵流形式的单应性矩阵。

图9示出了根据本申请一个实施例的精细运动估计模块的示意图。如图9所述，首先，输入特征输入FME，依次经第三残差模块、第二子空间约束模块和第四残差模块提取特征并处理后，输入到合并模块中，与输入特征合并。然后，该合并后的特征经第一卷积模块、第三子空间约束模块和第二卷积模块依次处理后，输出矩阵流形式的单应性矩阵。

根据上述技术方案，通过构建粗略运动估计模块和精细运动估计模块，并将两个模块结合使用，能够准确估计每个图像对对应的单应性矩阵。该方案的模块结构简单，结果可靠。

根据本申请的另一方面，提供一种单应性矩阵估计方法。图10示出了根据本申请一个实施例的单应性矩阵估计方法1000的示意性框图。如图10所示，该单应性矩阵估计方法1000可以包括步骤S1010和步骤S1020。

在步骤S1010，获取待处理源图像和待处理目标图像。

待处理源图像和待处理目标图像与样本源图像和样本目标图像的获取方式类似，不再赘述。

在步骤S1020，将待处理源图像和待处理目标图像输入上述的单应性矩阵估计网络中，获得待处理源图像和待处理目标图像之间的单应性矩阵。

在步骤S1020中，可以采用上述的如图6-9所示的单应性矩阵估计网络来进行单应性矩阵估计。比较可取的是，在步骤S1020中，可以通过单应性矩阵估计网络获得矩阵形式的单应性矩阵，例如获得的是从如图7所示的下方的直接线性变换模块输出的矩阵形式的单应性矩阵。

根据上述单应性矩阵估计方法，采用单应性矩阵估计网络预测待处理源图像和待处理目标图像之间的单应性矩阵。该单应性矩阵估计网络通过以下方式训练获得。即，通过目标单应性矩阵，基于样本源图像转换获得中间态图像，并至少基于中间态图像组成训练图像中的图像对。随后可以将各图像对输入到单应性矩阵估计网络，得到预测单应性矩阵，并至少基于预测单应性矩阵计算损失，来对单应性矩阵估计网络进行优化。该方案通过利用中间态图像将大基线场景分为多个小基线场景，能够高效、鲁棒地实现单应性矩阵估计网络的训练。因此，将通过以上训练方式训练得到的单应性矩阵估计网络应用于实际的单应性矩阵估计时，能够准确求解大基线场景下的单应性矩阵。

示例性地，单应性矩阵估计网络包括编码器、全局关联层和单应性估计模块，将待处理源图像和待处理目标图像输入单应性矩阵估计网络中，获得待处理源图像和待处理目标图像之间的单应性矩阵，包括：将待处理源图像和待处理目标图像输入编码器，获得待处理源图像所对应的至少一组第一图像特征和待处理目标图像所对应的至少一组第二图像特征，至少一组第一图像特征与至少一组第二图像特征一一对应；将每组第一图像特征与对应组第二图像特征输入全局关联层，获得与该组第一图像特征相对应的全局关联特征；将至少一组第一图像特征各自对应的全局关联特征输入单应性估计模块，获得待处理源图像和待处理目标图像之间的单应性矩阵。

上文在描述单应性矩阵估计网络训练方法200时，已经描述了单应性矩阵估计网络中的编码器、全局关联层和单应性估计模块的结构及工作原理，可以参考上文关于将训练图像中的任一图像对输入单应性矩阵估计网络中时网络中的各模块的工作方式，理解待处理源图像和待处理目标图像输入单应性矩阵估计网络中时网络中的各模块的工作方式，此处不再赘述。

根据上述技术方案，通过利用待处理源图像的第一图像特征和待处理目标图像的第二图像特征，并通过全局关联层获得一组第一图像特征中每个第一图像特征对应的全局关联特征，能够利用该全局关联特征准确确定待处理源图像和待处理目标图像间的单应性矩阵。

示例性地，单应性估计模块包括与至少一组第一图像特征一一对应的至少一个运动估计模块，将至少一组第一图像特征各自对应的全局关联特征输入单应性估计模块，获得待处理源图像和待处理目标图像之间的单应性矩阵，包括：将第i组第一图像特征所对应的全局关联特征输入第i个运动估计模块，获得矩阵流形式的第i个单应性矩阵；将矩阵流形式的第i个单应性矩阵与第i+1组第一图像特征所对应的全局关联特征结合，获得结合关联特征；将结合关联特征输入第i+1个运动估计模块，获得矩阵流形式的第i+1个单应性矩阵；将最后一个运动估计模块输出的矩阵流形式的单应性矩阵进行直接线性变换，获得矩阵形式的单应性矩阵作为待处理源图像和待处理目标图像之间的单应性矩阵；其中，i＝1,2,3,…,N-1，N为至少一组第一图像特征的组数，第i组第一图像特征的维度小于第i+1组第一图像特征的维度。

上文在描述单应性矩阵估计网络训练方法200时，已经描述了单应性估计模块的结构及工作原理，可以参考上文关于将训练图像中的任一图像对输入单应性矩阵估计网络中时单应性估计模块的工作方式，理解待处理源图像和待处理目标图像输入单应性矩阵估计网络中时单应性估计模块的工作方式，此处不再赘述。

根据上述技术方案，通过利用多个运动估计模块获取单应性矩阵，并利用相邻两组全局关联特征间的结合关联特征，能够提高得到的单应性矩阵的准确性。

示例性地，编码器为多尺度卷积编码器，在将待处理源图像和待处理目标图像输入编码器，获得待处理源图像所对应的至少一组第一图像特征和待处理目标图像所对应的至少一组第二图像特征之前，方法1000还可以包括以下步骤。将待处理源图像和待处理目标图像缩小为与至少一种目标分辨率一一对应的至少一个小分辨率图像对。在该实施例中，将待处理源图像和待处理目标图像输入编码器，获得待处理源图像所对应的至少一组第一图像特征和待处理目标图像所对应的至少一组第二图像特征，可以包括以下步骤。将待处理源图像和待处理目标图像以及对应的至少一个小分辨率图像对输入多尺度卷积编码器，获得基于待处理源图像和待处理目标图像生成的至少一组原始分辨率特征和基于至少一个小分辨率图像对生成的至少一组小分辨率特征，待处理源图像和待处理目标图像所对应的至少一组第一图像特征包括至少一组原始分辨率特征和至少一组小分辨率特征。

该步骤与上述训练阶段中的图像对压缩成小分辨率图像对后的执行步骤相似，具体细节在上述实施例已详细阐述，为了简洁，此处不再赘述。

示例性地，根据本申请实施例的单应性矩阵估计方法可以在具有存储器和处理器的设备、装置或者系统中实现。

根据本申请实施例的单应性矩阵估计方法可以部署在图像采集端处，例如，可以部署在个人终端或服务器端处。

替代地，根据本申请实施例的单应性矩阵估计方法还可以分布地部署在服务器端(或云端)和个人终端处。例如，可以在客户端获取图像，客户端将获取的图像传送给服务器端(或云端)，由服务器端(或云端)进行单应性矩阵估计。

根据本申请另一方面，提供一种单应性矩阵估计装置。图11示出了根据本申请一个实施例的单应性矩阵估计装置1100的示意性框图。

如图11所示，根据本申请实施例的单应性矩阵估计装置1100包括获取模块1110和输入模块1120。各个模块可分别执行上文中图10描述的单应性矩阵估计方法的各个步骤。以下仅对该单应性矩阵估计装置1100的各部件的主要功能进行描述，而省略以上已经描述过的细节内容。

获取模块1110用于获取待处理源图像和待处理目标图像。

输入模块1120用于将待处理源图像和待处理目标图像输入上述单应性矩阵估计网络中，获得待处理源图像和待处理目标图像之间的单应性矩阵。

图12示出了根据本申请一个实施例的电子设备1200的示意性框图。电子设备1200包括存储器1210和处理器1220。

存储器1210存储用于实现根据本申请实施例的单应性矩阵估计方法中的相应步骤的计算机程序指令。

处理器1220用于运行存储器1210中存储的计算机程序指令，以执行根据本申请实施例的单应性矩阵估计方法的相应步骤。

示例性地，电子设备1200还可以包括图像采集装置1230。图像采集装置1230用于采集待处理源图像和待处理目标图像。图像采集装置1230是可选的，电子设备1200也可以不包括图像采集装置1230。此时处理器1220可以通过其他方式获取待处理源图像和待处理目标图像，例如从外部设备或从存储器1210中获取待处理源图像和待处理目标图像。

此外，根据本申请实施例，还提供了一种存储介质，在存储介质上存储了程序指令，在程序指令被计算机或处理器运行时用于执行本申请实施例的单应性矩阵估计方法的相应步骤，并且用于实现根据本申请实施例的单应性矩阵估计装置中的相应模块。存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。

此外，根据本申请实施例，还提供了一种计算机程序产品，计算机程序产品包括计算机程序，计算机程序在运行时用于执行上述单应性矩阵估计方法。

根据本申请实施例的电子设备中的各模块可以通过根据本申请实施例的实施单应性矩阵估计方法的电子设备的处理器运行在存储器中存储的计算机程序指令来实现，或者可以在根据本申请实施例的计算机程序产品的计算机可读存储介质中存储的计算机指令被计算机运行时实现。

此外，根据本申请实施例，还提供了一种计算机程序，该计算机程序在运行时用于执行上述单应性矩阵估计方法。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本申请的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本申请的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本申请的范围之内。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本申请并帮助理解各个申请方面中的一个或多个，在对本申请的示例性实施例的描述中，本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本申请的方法解释成反映如下意图：即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其申请点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本申请的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本申请的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的单应性矩阵估计网络训练装置或单应性矩阵估计装置中的一些模块的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上，仅为本申请的具体实施方式或对具体实施方式的说明，本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种单应性矩阵估计方法，包括：

获取待处理源图像和待处理目标图像；

将所述待处理源图像和所述待处理目标图像输入单应性矩阵估计网络中，获得所述待处理源图像和所述待处理目标图像之间的单应性矩阵，其中，所述单应性矩阵估计网络通过以下方式训练获得：

获取样本源图像和样本目标图像；

对于至少一组目标单应性矩阵中的每组目标单应性矩阵，通过该组目标单应性矩阵中的每个目标单应性矩阵，对待扭曲图像进行图像扭曲，获得中间态图像，其中，所述至少一组目标单应性矩阵中的每组目标单应性矩阵包括至少一个单应性矩阵，在所述至少一组目标单应性矩阵中的每组目标单应性矩阵中，第一个目标单应性矩阵所对应的待扭曲图像为所述样本源图像，剩余的每个目标单应性矩阵所对应的待扭曲图像为通过前一目标单应性矩阵扭曲获得的中间态图像；

对于至少一组训练图像中的每组训练图像，将该组训练图像中的每个图像对输入单应性矩阵估计网络，获得与该组训练图像中的图像对一一对应的预测单应性矩阵，其中，所述至少一组训练图像与所述至少一组目标单应性矩阵一一对应，所述至少一组训练图像中的每组训练图像包括第一图像对和第二图像对和/或包括至少一个第三图像对，所述第一图像对包括所述样本源图像和所述样本目标图像，所述第二图像对包括所述样本目标图像和对应组目标单应性矩阵中最后一个目标单应性矩阵所对应的中间态图像，所述至少一个第三图像对与对应组目标单应性矩阵中的至少一个目标单应性矩阵一一对应，每个第三图像对包括对应目标单应性矩阵所对应的待扭曲图像和中间态图像；

至少基于所述至少一组训练图像中每组训练图像中的至少部分图像对各自对应的预测单应性矩阵，计算所述单应性矩阵估计网络的总预测损失；

基于所述总预测损失对所述单应性矩阵估计网络中的参数进行优化。

2.如权利要求1所述的方法，其中，所述至少基于所述至少一组训练图像中每组训练图像中的至少部分图像对各自对应的预测单应性矩阵，计算所述单应性矩阵估计网络的总预测损失，包括：

对于所述至少一组训练图像中的每组训练图像，

至少基于该组训练图像中的第一图像对和第二图像对各自对应的预测单应性矩阵，计算该组训练图像所对应的第一预测损失，和/或，基于该组训练图像中的至少一个第三图像对各自对应的预测单应性矩阵和目标单应性矩阵，计算该组训练图像所对应的第二预测损失；

基于所述至少一组训练图像各自对应的第一预测损失和/或第二预测损失，计算所述总预测损失。

3.如权利要求2所述的方法，其中，所述至少基于该组训练图像中的第一图像对和第二图像对各自对应的预测单应性矩阵，计算该组训练图像所对应的第一预测损失，包括：

基于第一矩阵乘结果和第二矩阵乘结果之间的差值，计算该组训练图像所对应的第一预测损失，其中，所述第一矩阵乘结果为该组训练图像中的第二图像对所对应的预测单应性矩阵的逆矩阵与该组训练图像中的第一图像对所对应的预测单应性矩阵之间的叉乘结果，所述第二矩阵乘结果为该组训练图像中的至少一个第三图像对各自对应的预测单应性矩阵的矩阵累乘结果。

4.如权利要求2所述的方法，其中，所述至少基于该组训练图像中的第一图像对和第二图像对各自对应的预测单应性矩阵，计算该组训练图像所对应的第一预测损失，包括：

基于第一矩阵乘结果和第二矩阵乘结果之间的差值，计算该组训练图像所对应的第一预测损失，其中，所述第一矩阵乘结果为该组训练图像中的第二图像对所对应的预测单应性矩阵的逆矩阵与该组训练图像中的第一图像对所对应的预测单应性矩阵之间的叉乘结果，所述第二矩阵乘结果为该组训练图像所对应的一组目标单应性矩阵的矩阵累乘结果。

5.如权利要求2所述的方法，其中，所述基于该组训练图像中的至少一个第三图像对各自对应的预测单应性矩阵和目标单应性矩阵，计算该组训练图像所对应的第二预测损失，包括：

基于该组训练图像中的至少一个第三图像对各自对应的预测单应性矩阵和目标单应性矩阵之间的差值，计算该组训练图像所对应的第二预测损失。

6.如权利要求1-5任一项所述的方法，其中，所述单应性矩阵估计网络包括编码器、全局关联层和单应性估计模块，所述将所述待处理源图像和所述待处理目标图像输入单应性矩阵估计网络中，获得所述待处理源图像和所述待处理目标图像之间的单应性矩阵，包括：

将所述待处理源图像和所述待处理目标图像输入所述编码器，获得所述待处理源图像所对应的至少一组第一图像特征和所述待处理目标图像所对应的至少一组第二图像特征，所述至少一组第一图像特征与所述至少一组第二图像特征一一对应；

将每组第一图像特征与对应组第二图像特征输入所述全局关联层，获得与该组第一图像特征相对应的全局关联特征；

将所述至少一组第一图像特征各自对应的全局关联特征输入所述单应性估计模块，获得所述待处理源图像和所述待处理目标图像之间的单应性矩阵。

7.如权利要求6所述的方法，其中，所述单应性估计模块包括与所述至少一组第一图像特征一一对应的至少一个运动估计模块，所述将所述至少一组第一图像特征各自对应的全局关联特征输入所述单应性估计模块，获得所述待处理源图像和所述待处理目标图像之间的单应性矩阵，包括：

将第i组第一图像特征所对应的全局关联特征输入第i个运动估计模块，获得矩阵流形式的第i个单应性矩阵；

将所述矩阵流形式的第i个单应性矩阵与第i+1组第一图像特征所对应的全局关联特征结合，获得结合关联特征；

将所述结合关联特征输入第i+1个运动估计模块，获得矩阵流形式的第i+1个单应性矩阵；

将最后一个运动估计模块输出的矩阵流形式的单应性矩阵进行直接线性变换，获得矩阵形式的单应性矩阵作为所述待处理源图像和所述待处理目标图像之间的单应性矩阵；

其中，i＝1,2,3,…,N-1，N为所述至少一组第一图像特征的组数，第i组第一图像特征的维度小于第i+1组第一图像特征的维度。

8.一种电子设备，包括处理器和存储器，其中，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器运行时用于执行如权利要求1至7任一项所述的单应性矩阵估计方法。

9.一种存储介质，在所述存储介质上存储了程序指令，其中，所述程序指令在运行时用于执行如权利要求1至7任一项所述的单应性矩阵估计方法。

10.一种计算机程序产品，所述计算机程序产品包括计算机程序，其中，所述计算机程序在运行时用于执行如权利要求1至7任一项所述的单应性矩阵估计方法。