CN117528238A

CN117528238A - 单幅图像估计离焦量的光学成像系统自动调焦方法

Info

Publication number: CN117528238A
Application number: CN202311468046.1A
Authority: CN
Inventors: 翟永平
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2023-11-07
Filing date: 2023-11-07
Publication date: 2024-02-06

Abstract

本发明公开了一种单幅图像估计离焦量的光学成像系统自动调焦方法，包括：构建第一图像数据集；构建基于对比回归的离焦距离预测模型，以提取图像特征及预测离焦距离；对第一图像进行数据增强得到若干样本对，并构建对比损失、回归损失，训练离焦距离预测模型；将待测图像输入训练后的离焦距离预测模型，得到离焦距离实现自动调焦。本发明应用于成像领域，仅采集一幅图像即可计算该图像的离焦距离，且能正确检测该图像的正负离焦性，使得光学成像系统通过一次定位调焦技术即可实现实时自动调焦，为目标实时检测、跟踪等需要连续变焦的光学成像系统提供清晰的对焦图像输入，提升系统的整体性能。

Description

单幅图像估计离焦量的光学成像系统自动调焦方法

技术领域

本发明涉及成像技术领域，具体是一种单幅图像估计离焦量的光学成像系统自动调焦方法。

背景技术

目前，以光学器件为图像采集工具的成像系统广泛应用于农业、工业、医疗、航天等领域，从手机、平板电脑、数码相机、显微系统、摄影设备和交通监控，到经纬仪、太空望远镜和卫星成像等。在光学成像系统中，清晰成像是必须要解决的首要问题，它对后续的图像处理任务(例如：目标检测、跟踪、识别等)至关重要。

光学成像系统一般采用自动调焦技术获取清晰图像。自动调焦技术可分为传统的自动调焦技术和基于数字图像处理的自动调焦技术。传统的调焦技术包括测距调焦法和检焦调焦法，这两种调焦法需要引入额外的辅助设备，调焦系统损耗资源多、花费成本高且机械结构复杂。

基于数字图像处理的自动调焦技术可分为离焦深度法和对焦深度法。离焦深度法需要2-3帧不同离焦程度的离焦图像，通过一次电机动作就能完成调焦，算法实时性较高，但是该方法需要事先获取成像系统的各种参数，并建立成像系统的光学模型。对焦深度法在实际应用中经常出现多峰值情况，而且实时性问题无法解决，尤其对于高速运动的成像系统，很难通过对焦深度法找到最佳焦面位置完成调焦，进而捕捉到清晰的图像或视频。

近年来，随着深度学习技术的不断发展，它被广泛应用于各个领域。基于深度学习的自动调焦方法一般采用深度学习模型来建立图像清晰度和离焦距离之间的映射关系，通过采集单幅或多幅离焦图像来估计离焦距离，该方法可进行实时自动调焦。但是，在某些情况下，比如远离焦平面的离焦图像在视觉上非常相似，尤其是距离焦平面相同距离的正离焦图像和负离焦图像，它们之间仅存在细微的差异，该方法大多无法正确的区分离焦图像的正负离焦性。此外，深度学习模型在训练时需要大量的带有标签的数据，而收集带有标签的数据是昂贵且耗时的，因此，在实际训练过程中，训练数据通常是不足或不平衡的，这使得训练获得的模型精度低、泛化能力差。

发明内容

针对上述现有技术中自动调焦方法存在的响应时间长、离焦估计精度低等问题，本发明提供一种单幅图像估计离焦量的光学成像系统自动调焦方法，在调焦过程中，仅采集一幅图像即可计算该图像的离焦距离，且能正确检测该图像的正负离焦性，使得光学成像系统通过一次定位调焦技术即可实现实时自动调焦，为目标实时检测、跟踪等需要连续变焦的光学成像系统提供清晰的对焦图像输入，提升系统的整体性能。

为实现上述目的，本发明提供一种单幅图像估计离焦量的光学成像系统自动调焦方法，包括如下步骤：

步骤1，构建第一图像数据集，所述第一图像数据集包括若干由第一光学成像系统采集的第一图像，并标注所述第一图像的真实离焦距离作为真实标签；

步骤2，构建基于对比回归的离焦距离预测模型，以提取单幅图像的图像特征以及预测单幅图像的离焦距离；

步骤3，对所述第一图像进行两种不同类型的数据增强操作，得到若干样本对，并基于所述样本对的图像特征构建对比损失，基于所述第一图像的离焦距离预测值与真实标签构建回归损失，基于所述对比损失与所述回归损失构建损失函数，基于所述第一图像数据集与所述损失函数训练所述离焦距离预测模型；

步骤4，将所述第一光学成像系统采集的第一待测图像输入步骤3中训练后的所述离焦距离预测模型，得到所述第一待测图像的离焦距离并将其发送至所述第一光学成像系统的电动调焦装置，实现所述第一光学成像系统的自动调焦。

在其中一个实施例，步骤1中，所述构建第一图像数据集，包括：

步骤1.1，基于所述第一光学成像系统采集不同场景、所有焦段且在电动调焦装置移动位置上的对焦和离焦的第一原始图像，并将同一场景、焦段范围内采集到的第一原始图像视为一个第一图像栈；

步骤1.2，将所述第一图像栈中的每一所述第一原始图像进行不重叠分块，得到若干第一图像子块，并将所述第一图像栈中每一所述第一原始图对应分块位置的第一图像子块组合成第一局部图像栈，得到若干第一局部图像栈，并标注每一所述第一图像子块的真实离焦距离作为真实标签；

步骤1.3，剔除最大清晰度值小于阈值的所述第一局部图像栈，并将所有剩余所述第一局部图像栈中的所述第一图像子块作为所述第一图像，完成所述第一图像数据集的构建。

在其中一个实施例，步骤1.2中，所述第一图像子块的真实离焦距离获取过程为：

在每一所述局部图像栈中，将最大清晰度值对应所述第一图像子块的真实离焦距离标注为0，其它所述第一图像子块的真实离焦距离标注为其与标注为0的第一图像子块的物理距离。

在其中一个实施例，所述离焦距离预测模型包括：

Baseline网络，用于提取单幅图像的编码特征；

MLP网络，用于根据所述编码特征提取单幅图像的图像特征；

全连接网络，用于根据所述编码特征预测单幅图像的离焦距离。

在其中一个实施例，步骤3具体包括：

步骤3.1，对所述第一图像数据集随机采样获得若干个batch数据，每个所述batch数据包括若干所述第一图像；

步骤3.2，对每个所述batch数据中的所述第一图像进行两种不同类型的数据增强操作，构建由两幅数据增强图像组成的样本对，其中，在所述batch数据中，当任一所述第一图像对应的所述样本对为正样本对时，其它所有所述第一图像对应的数据增强图像均为负样本，并任选所述正样本对中的一正样本与每一所述负样本组成负样本对；

步骤3.3，将一所述batch数据对应的所有所述样本对输入所述离焦距离预测模型，基于预测的离焦距离构建回归损失、基于所述样本对的图像特征构建对比损失，联合L₂正则化损失计算总损失值，并进行梯度回传，更新所述离焦距离预测模型的网络权重；

步骤3.4，基于剩余所述batch数据重复进行步骤3.3，完成所述离焦距离预测模型的一轮训练；

步骤3.5，重复步骤3.3至步骤3.4，直至达到预设训练轮数。

在其中一个实施例，步骤3.3中，所述总损失值具体为：

L＝L_infonce+λ₁L_rmse+λ₂L_reg

其中，L为总损失值，L_infonce为对比损失，L_rmse为回归损失，L_reg为L₂正则化损失，λ₁、λ₂为超参数。

在其中一个实施例，所述对比损失L_infonce具体为：

其中，N为所述batch数据中第一图像的数量，i、k、m为求和代数；z_i、z_k为所述batch数据中第i幅第一图像对应的样本对为正样本对时，第i幅第一图像所对应两幅数据增强图像的图像特征；z_m为所述batch数据所对应的第m幅数据增强图像的图像特征，τ为温度系数；的取值为0或1，当m＝i时/>当m≠i时/>sim(·)表示余弦相似度。

在其中一个实施例，步骤4中，得到所述第一待测图像的离焦距离的过程具体为：

步骤4.1，对所述第一待测图像进行分块处理，得到若干第一待测图像子块，其中，所述第一待测图像子块的大小与所述离焦距离预测模型的输入大小一致；

步骤4.2，剔除清晰度值小于阈值的所述第一待测图像子块，并将剩余各所述第一待测图像子块输入步骤3中训练后的所述离焦距离预测模型，得到各所述第一待测图像子块的离焦距离预测值；

步骤4.3，输出各所述第一待测图像子块的离焦距离预测值的中值，作为所述第一待测图像最终的离焦距离。

在其中一个实施例，光学成像系统自动调焦方法还包括：

步骤5，将步骤3中训练后的所述离焦距离预测模型作为预训练模型，并基于所述预训练模型进行第二光学成像系统的自动调焦，其中，所述第二光学成像系统与所述第一光学成像系统为不同类型的光学成像系统。

在其中一个实施例，步骤5具体包括：

步骤5.1，构建第二图像数据集，所述第二图像数据集包括若干由所述第二光学成像系统采集的第二图像；

步骤5.2，将所述第二图像数据集中的各所述第二图像输入所述预训练模型，得到各所述第二图像的离焦距离预测值，并将其作为所述图像的伪标签，得到带标注的第二图像数据集；

步骤5.3，基于带标注的所述第二图像数据集对所述预训练模型进行进一步训练，得到最终模型；

步骤5.4，将所述第二光学成像系统采集的第二待测图像输入所述最终模型，得到所述第二待测图像的离焦距离并将其发送至所述第二光学成像系统的电动调焦装置，实现所述第二光学成像系统的自动调焦。

与现有技术相比，本发明具有如下有益技术效果：

1.本发明方法在调焦过程中，仅采集一幅图像即可计算该图像的离焦距离，且能正确检测该图像的正负离焦性；

2.本发明方法可使得光学成像系统通过一次定位调焦技术即可实现实时自动调焦，为目标实时检测、跟踪等需要连续变焦的光学成像系统提供清晰的对焦图像输入，提升系统的整体性能；

3.本发明方法在优选方案中可适用于各种类型光学成像系统的自动调焦，具有较强的通用性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明实施例1中单幅图像估计离焦量的光学成像系统自动调焦方法的流程图；

图2为本发明实施例2中单幅图像估计离焦量的光学成像系统自动调焦方法的流程图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“连接”、“固定”等应做广义理解，例如，“固定”可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接，还可以是物理连接或无线通信连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

另外，本发明各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

实施例1

如图1所示为本实施例公开的一种单幅图像估计离焦量的光学成像系统自动调焦方法，其主要包括如下步骤1至步骤4。

步骤1，构建第一图像数据集，第一图像数据集包括若干由第一光学成像系统采集的第一图像，并标注第一图像的真实离焦距离作为真实标签，其具体实施过程为：

步骤1.1，基于第一光学成像系统采集不同场景、所有焦段且在电动调焦装置移动位置上的对焦和离焦的第一原始图像，并将同一场景、焦段范围内采集到的第一原始图像视为一个第一图像栈；

步骤1.2，将第一图像栈中的每一第一原始图像进行不重叠分块，得到若干第一图像子块，并将第一图像栈中每一第一原始图对应分块位置的第一图像子块组合成第一局部图像栈，得到若干第一局部图像栈，并标注每一第一图像子块的真实离焦距离作为真实标签；

步骤1.3，剔除最大清晰度值小于阈值的第一局部图像栈，并将所有剩余第一局部图像栈中的第一图像子块作为第一图像，完成第一图像数据集的构建。

在步骤1.1的具体实施过程中，不同场景可以是天空、树林、建筑、行人、车辆、城区、山区、白天、夜晚、晴天、阴天、雨天等。所有焦段是指第一光学成像系统中镜头的调焦范围，其焦段范围为f₁～f₂，它是由第一光学成像系统镜头的自身特性所决定的。在焦段范围f₁～f₂内，第一光学成像系统的电动调焦装置根据最小移动步长，在每个移动位置上采集一张图像，作为第一原始图像。

在步骤1.2的具体实施过程中，第一图像子块的真实离焦距离获取过程为：

首先，在每一局部图像栈中，对每个第一图像子块使用清晰度评价函数计算清晰度值；

然后，在每一局部图像栈中，在获得的清晰度值中找到最大清晰度值，并将最大清晰度值对应第一图像子块的真实离焦距离标注为0，其它第一图像子块的真实离焦距离标注为其与标注为0的第一图像子块的物理距离。

步骤2，构建基于对比回归的离焦距离预测模型，以提取单幅图像的图像特征以及预测单幅图像的离焦距离。

为了从输入的单幅离焦图像中预测离焦距离，并准确判定离焦图像的正负离焦性，本实施例构建了基于对比回归的离焦距离预测网络作为离焦距离预测模型，该离焦距离预测模型的网络结构包括一个Baseline网络、一个MLP(多层感知器)网络以及一个全连接网络。其中，Baseline网络用于提取单幅图像的编码特征，MLP网络用于根据编码特征提取单幅图像的图像特征，全连接网络用于根据编码特征预测单幅图像的离焦距离。其主要工作流程如下：

第一步：为了进行对比学习，将输入的大小为224×224×3的图像子块进行两种不同类型的数据增强操作(例如旋转、翻转、亮度调整、色度变换等)，假定输入的图像子块为I，进行两种不同类型的数据增强操作后，可得到数据增强图像和/>

第二步：将数据增强图像子块和/>输入到Baseline网络提取编码特征/>和/>

第三步：利用MLP网络从输入的编码特征和/>中提取用于计算对比损失的特征/>和同时，将Baseline网络提取的编码特征输入全连接网络，输出预测的离焦距离，并计算回归损失。

具体地，Baseline网络是一个特征提取编码器，用于对输入图像进行编码，输出编码特征。考虑到轻量级网络的低计算量以及在边缘部署中可以获得很快的推理速度，Baseline网络采用轻量级的Mobilenetv3网络。Mobilenetv3网络作为目前应用最广的轻量级网络，其Bottleneck模块采用了瓶颈结构，这种结构能够在保持网络深度的同时大幅减少计算量和内存消耗；此外，Bottleneck模块中的3x3卷积核采用了深度可分离卷积，这种方式可以有效地减少参数数量，节省计算资源；最后，Bottleneck模块中引入了SE模块，对不同通道的特征图进行加权，提高了网络的表达能力和精度。MLP网络是一个对比回归投影头，其可以将输入的编码特征映射到对比损失作用的空间，输出用于计算对比损失函数的特征。MLP网络采用dense(512)+relu()+dense(32)的网络结构，因此，MLP网络输出的特征维度为batch×32。全连接网络是一个参数化的离焦距离预测头，输出用于计算回归损失函数的预测的离焦距离。

步骤3，对第一图像进行两种不同类型的数据增强操作，得到若干样本对，并基于样本对的图像特征构建对比损失，基于第一图像的离焦距离预测值与真实标签构建回归损失，基于对比损失与回归损失构建损失函数，基于第一图像数据集与损失函数训练离焦距离预测模型。

具体地，在对离焦距离预测模型进行训练时，取的服务器为Dell POWEREDGET640，该服务器包含4张NVIDIA RTX3090显卡，处理器为两个第2代可扩展处理器，每个处理器多达2个核心。模型训练时的编程环境使用Ubantu18.04操作系统，使用python3.7作为编程语言，使用深度学习框架为pytorch1.13.1+cuda11.7。

模型训练时相关参数的设置：batch的大小为256，训练轮数为600，使用Adam作为优化器，学习率设定为0.0001，同时使用学习率预热的方式对学习率进行优化，gradualwarmup(逐渐升温训练策略)在训练开始时先选择一个较小的学习率进行学习，防止模型的不稳定，然后每个学习率增加的迭代步数将学习率增大一点点，直到学习率达到最初设置的比较大的值，此时预热学习率完成，最后采用最初设置的学习率进行训练，预热学习率完成后的训练过程，学习率是衰减的，有助于使模型加速收敛，使模型的参数变换趋于稳定。

在具体实施过程中，训练离焦距离预测模型的过程具体为：

步骤3.1，对第一图像数据集随机采样获得若干个batch数据，每个batch数据包括若干第一图像；举例来说，假设第一图像数据集包含10240个第一图像样本，每个batch数据包括256个第一图像样本，通过随机采样可得到40个batch数据；

步骤3.2，对每个batch数据中的第一图像进行两种不同类型的数据增强操作(例如旋转、翻转、亮度调整、色度变换等)，构建由两幅数据增强图像组成的样本对，其中，在batch数据中，当任一第一图像对应的样本对为正样本对时，其它所有第一图像对应的数据增强图像均为负样本，并任选所述正样本对中的一正样本与每一所述负样本组成负样本对；举例来说，对batch数据中的256个第一图像，通过数据增强操作可得到512个数据增强后的数据增强图像，将同一第一图像对应的两个数据增强图像视为正样本对，因此可得到256个正样本，对于一个给定的正样本对，剩下的510个数据增强图像均为负样本，任选正样本对中一种增强类型对应的数据增强图像作为构建负样本对的正样本，一个负样本与正样本组成一组负样本对，即可得到510组负样本对；

步骤3.3，将batch数据对应的所有样本对输入离焦距离预测模型，得到预测的离焦距离以及用于对比损失计算的图像特征，并基于预测的离焦距离构建回归损失、基于样本对的图像特征构建对比损失，联合L₂正则化损失计算总损失值，再进行梯度回传，更新离焦距离预测模型的网络权重；

步骤3.4，基于剩余batch数据重复进行步骤3.3，完成离焦距离预测模型的一轮训练；

步骤3.5，重复步骤3.3至步骤3.4，直至达到预设训练轮数。

在步骤3.3的具体实施过程中，总损失值由对比损失、回归损失与L₂正则化损失三部分组成，具体为：

K＝L_infonce+λ₁L_rmse+λ₂L_reg

其中，λ₁、λ₂为超参数，L为总损失值，L_infonce为对比损失，L_rmse为回归损失，L_reg为L₂正则化损失，θ是模型训练时的权重系数。

在具体实施过程中，在设计对比损失函数时，通过最小化对比损失函数来最大化正样本对特征间的相似性，即将离焦距离更近的特征拉得更近，而将离焦距离更远的特征拉得更远。基于此，本实施例采用infonce loss作为对比损失函数。因此本实施例中的对比损失为：

其中，N为batch数据中第一图像的数量，i、k、m为求和代数；z_i、z_k为batch数据中第i幅第一图像对应的样本对为正样本对时，第i幅第一图像所对应两幅数据增强图像的图像特征；z_m为batch数据所对应的第m幅数据增强图像的图像特征；的取值为0或1，当m＝i时/>当m≠i时/>sim(·)表示余弦相似度，其定义为/>τ为温度系数，设定为0.1，用于放大模型的表征范围。

由对比损失的计算公式可知，分子中只计算正样本对的相似性，分母中计算了所有负样本对的相似性，当正样本对之间的相似性越大，负样本对之间的相似性越小，损失函数的值越小，这样最小化这个损失函数就相当于最大化正样本对相似的概率。

在具体实施过程中，在设计回归损失函数时，采用预测的离焦距离与真实标签之间的RMSE(均方根误差)作为回归损失。具体到本实施例中，对于一组batch数据，任选一种数据增强操作对应的N幅数据增强图像的离焦距离预测值与对应第一图像的真实标签计算回归损失即可，具体为：

其中，d_i为batch数据中第i幅第一图像真实标签的离焦距离，为batch数据中第i幅第一图像对应数据增强图像的离焦距离预测值。在回归损失中，首先计算预测的离焦距离与真实标签之间差异的平方和，再计算平均值的平方根。RMSE值越小，说明模型的预测准确度越高，回归损失由于对误差进行了平方，使得大误差对损失函数的影响更大，从而更加关注模型的预测准确度。

作为优选地实施方式，在模型训练的过程中，还可以通过部分未参与训练的第一图像组成验证数据集进行模型测试，用以更新模型的训练参数或网络权重以外的网络参数。

步骤4，将第一光学成像系统采集的第一待测图像输入步骤3中训练后的离焦距离预测模型，得到第一待测图像的离焦距离并将其发送至第一光学成像系统的电动调焦装置，实现第一光学成像系统的自动调焦，其具体实施过程为：

步骤4.1，对第一待测图像进行分块处理，得到若干第一待测图像子块，其中，第一待测图像子块的大小与离焦距离预测模型的输入大小一致；

步骤4.2，剔除清晰度值小于阈值的第一待测图像子块，并将剩余各第一待测图像子块输入步骤3中训练后的离焦距离预测模型，得到各第一待测图像子块的离焦距离预测值；

步骤4.3，输出各第一待测图像子块的离焦距离预测值的中值，作为第一待测图像最终的离焦距离。

实施例2

在实施例1的自动调焦方法中，为了训练离焦距离预测模型，需要采集大量带标注的数据，然而，对于某些光学成像系统，获取大量带标注的数据是不容易的。因此，在本实施例中，采用一种基于域自适应的无监督的离焦距离预测模型从单幅离焦图像中预测离焦距离，进而实现自动聚焦。

参考图2，本实施例公开了一种单幅图像估计离焦量的光学成像系统自动调焦方法，其具体包括如下步骤：

第一步，准备带标注的原始数据集和未标注的目标数据集，其具体实施过程为：

利用实施例1中步骤1.1至步骤1.3的方式准备带标注的原始数据集和未标注的目标数据集/>其中，/>表示原始数据集中第S个局部图像栈中第n幅图像子块，/>表示目标数据集中第T个局部图像栈中的第n幅图像子块，/>表示原始数据集中第S个局部图像栈中第n幅图像子块对应的真实标签，M表示局部图像栈的大小，N_S和N_T分别表示原始数据集和目标数据集的大小。其中，原始数据集和目标数据集属于不同的领域，即它们分别是用不同类型的光学成像系统采集的，比如望远镜、航空摄像机等光学成像系统。

第二步，构建基于域自适应的无监督的离焦距离预测模型，具体地：

基于域自适应的无监督的离焦距离预测模型与实施例1中的离焦距离预测模型具有相同的网络结构，包括Baseline网络、MLP网络以及全连接网络。在损失函数设计上，采用实施例1相同的对比回归损失，包括对比损失、回归损失以及L₂正则化损失。

第三步，训练基于域自适应的无监督的离焦距离预测模型，具体地：

基于域自适应的无监督的离焦距离预测模型的训练包括两个阶段，分别是基于对比学习的域泛化训练阶段和基于对比学习的域自适应训练阶段。

基于对比学习的域泛化训练阶段采用实施例1中步骤3相同的训练方式，利用带标注的原始数据集训练基于域自适应的无监督的离焦距离预测模型，得到预训练的基于域自适应的无监督的离焦距离预测模型(简称预训练模型)。预训练模型用于从原始数据集中学习稳定的表示，即利用预训练的模型可以精准预测原始域(原始数据集对应的域)离焦图像的离焦距离。

基于对比学习的域自适应训练阶段包括3个步骤：

第1步：将未标注的目标数据集输入预训练的模型，生成伪标签(伪离焦距离)；

第2步：将伪标签作为目标数据集的标签，得到带标注的目标数据集；

第3步：基于带标注的目标数据集，利用实施例一所述的训练方式对预训练的模型进行训练并更新模型参数。

需要注意的是，在基于对比学习的域自适应训练阶段中，每轮训练开始之前，将上轮训练结束时得到的更新权重后的模型作为预训练的模型，然后重复上述步骤。基于对比学习的域自适应训练阶段结束后，便获得了适用于目标域(目标数据集对应的域)离焦图像离焦距离预测的模型。该模型将原始域数据训练得到的权重系数作为它的初始权重，计算目标域数据的伪标签进行模型训练，学习目标域数据稳定的表示以及更精确的预测。基于对比学习的域自适应训练方式可以提高模型在目标域数据上的自适应能力。

第四步，测试基于域自适应的无监督的离焦距离预测模型，即采用基于域自适应的无监督的离焦距离预测模型对目标域的待测图像进行离焦距离预测，并以此实现目标域光学成像系统的自动调焦。

在具体实施过程中，也可以将步骤3中训练后的离焦距离预测模型直接作为本实施例中的预训练模型，并基于预训练模型进行第二光学成像系统的自动调焦，其中，第二光学成像系统与第一光学成像系统为不同类型的光学成像系统。其具体实施过程为：

步骤5.1，构建第二图像数据集，第二图像数据集包括若干由第二光学成像系统采集的第二图像，其构建方式与步骤1相同，区别仅在于第二图像数据集在构建过程中不对第二图像进行标注，本实施例不再对其进行赘述；

步骤5.2，将第二图像数据集中的各第二图像输入预训练模型，得到各第二图像的离焦距离预测值，并将其作为图像的伪标签，得到带标注的第二图像数据集，其中，各第二图像的离焦距离预测值可采用与实施例1中步骤4相同的方式得到，本实施例不再对其进行赘述；

步骤5.3，基于带标注的第二图像数据集对预训练模型进行进一步训练，得到最终模型，其训练过程与实施例1中的步骤3相同，本实施例不再对其进行赘述；

步骤5.4，将第二光学成像系统采集的第二待测图像输入最终模型，得到第二待测图像的离焦距离并将其发送至第二光学成像系统的电动调焦装置，实现第二光学成像系统的自动调焦，其实施方式与实施例1中的步骤4相同，本实施例不再对其进行赘述。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是在本发明的发明构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims

1.一种单幅图像估计离焦量的光学成像系统自动调焦方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的单幅图像估计离焦量的光学成像系统自动调焦方法，其特征在于，步骤1中，所述构建第一图像数据集，包括：

3.根据权利要求2所述的单幅图像估计离焦量的光学成像系统自动调焦方法，其特征在于，步骤1.2中，所述第一图像子块的真实离焦距离获取过程为：

4.根据权利要求1或2或3所述的单幅图像估计离焦量的光学成像系统自动调焦方法，其特征在于，所述离焦距离预测模型包括：

Baseline网络，用于提取单幅图像的编码特征；

MLP网络，用于根据所述编码特征提取单幅图像的图像特征；

5.根据权利要求1或2或3所述的单幅图像估计离焦量的光学成像系统自动调焦方法，其特征在于，步骤3具体包括：

步骤3.5，重复步骤3.3至步骤3.4，直至达到预设训练轮数。

6.根据权利要求5所述的单幅图像估计离焦量的光学成像系统自动调焦方法，其特征在于，步骤3.3中，所述总损失值具体为：

L＝L_infonce+λ₁L_rmse+λ₂L_reg

7.根据权利要求6所述的单幅图像估计离焦量的光学成像系统自动调焦方法，其特征在于，所述对比损失L_infonce具体为：

8.根据权利要求1或2或3所述的单幅图像估计离焦量的光学成像系统自动调焦方法，其特征在于，步骤4中，得到所述第一待测图像的离焦距离的过程具体为：

9.根据权利要求1或2或3所述的单幅图像估计离焦量的光学成像系统自动调焦方法，其特征在于，还包括：

10.根据权利要求9所述的单幅图像估计离焦量的光学成像系统自动调焦方法，其特征在于，步骤5具体包括：