CN113033582B

CN113033582B - 模型训练方法、特征提取方法及装置

Info

Publication number: CN113033582B
Application number: CN201911250580.9A
Authority: CN
Inventors: 祝勇义
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2019-12-09
Filing date: 2019-12-09
Publication date: 2023-09-26
Anticipated expiration: 2039-12-09
Also published as: CN117197615A; CN113033582A

Abstract

本申请提供一种模型训练方法、特征提取方法及装置，模型训练方法包括：从视频流中提取原始图片，并按照设定的图片遮挡方式对原始图片中设定的部分内容进行遮挡得到训练图片；将训练图片输入至机器视觉学习模型，以由机器视觉学习模型中的编码器对输入的训练图片进行编码得到特征编码并输出给机器视觉学习模型中的解码器，以由解码器根据输入的特征编码重构出训练图片中被遮挡的内容；根据训练图片中设定的部分内容和解码器重构出的被遮挡的内容对机器视觉学习模型的模型参数进行调整得到第一目标模型，所述第一目标模型用于提取待识别图像的图像特征。应用该方法，可以提高训练出的机器视觉学习模型的特征提取精度。

Description

模型训练方法、特征提取方法及装置

技术领域

本申请涉及机器学习技术领域，尤其涉及一种模型训练方法、特征提取方法及装置。

背景技术

自编码器是一种通过无监督学习，学到输入数据高效表示的人工神经网络，其可用作图像分类、目标检测等机器学习模型的特征提取器。

目前，以机器视觉学习领域为例，在自编码器的训练过程中，是将整个原始图像输入至自编码器，由自编码器重构出整个原始图像，之后，根据实际的原始图像与自编码器重构出的原始图像之间的差异调整自编码器。然而，当原始图像较大时，很容易导致实际的原始图像与自编码器重构出的原始图像之间的差异难以精确计算，由此将影响自编码器的特征提取精度。

发明内容

有鉴于此，本申请提供一种模型训练方法、特征提取方法及装置，以解决相关技术中原始图像与自编码器重构出的原始图像之间的差异难以精确计算，由此将影响自编码器的特征提取精度的问题。

根据本申请实施例的第一方面，提供一种模型训练方法，所述方法包括：

从视频流中提取原始图片，并按照设定的图片遮挡方式对所述原始图片中设定的部分内容进行遮挡得到训练图片；

将所述训练图片输入至机器视觉学习模型，以由所述机器视觉学习模型中的编码器对输入的训练图片进行编码得到特征编码并输出给所述机器视觉学习模型中的解码器，以由所述解码器根据输入的特征编码重构出所述训练图片中被遮挡的内容；

根据所述设定的部分内容和所述解码器重构出的被遮挡的内容对所述机器视觉学习模型的模型参数进行调整得到第一目标模型，所述第一目标模型用于提取待识别图像的图像特征。

根据本申请实施例的第二方面，提供一种特征提取方法，所述方法包括：

将待识别图像输入至按照本申请任一实施例提供的模型训练方法训练出的第一目标模型，得到所述待识别图像的图像特征，所述待识别图像的图像特征用于训练机器视觉识别模型。

根据本申请实施例的第三方面，提供一种模型训练装置，所述装置包括：

提取模块，用于从视频流中提取原始图片，并按照设定的图片遮挡方式对所述原始图片中设定的部分内容进行遮挡得到训练图片；

第一输入模块，用于将所述训练图片输入至机器视觉学习模型，以由所述机器视觉学习模型中的编码器对输入的训练图片进行编码得到特征编码并输出给所述机器视觉学习模型中的解码器，以由所述解码器根据输入的特征编码重构出所述训练图片中被遮挡的内容；

训练模块，用于根据所述设定的部分内容和所述解码器重构出的被遮挡的内容对所述机器视觉学习模型的模型参数进行调整得到第一目标模型，所述第一目标模型用于提取待识别图像的图像特征。

根据本申请实施例的第四方面，提供一种特征提取装置，所述装置包括：

特征识别模块，用于将待识别图像输入至按照如权利要求1至9任一方法训练出的第一目标模型，得到所述待识别图像的图像特征，所述待识别图像的图像特征用于训练机器视觉识别模型。

根据本申请实施例的第五方面，提供一种电子设备，所述设备包括可读存储介质和处理器；

其中，所述可读存储介质，用于存储机器可执行指令；

所述处理器，用于读取所述可读存储介质上的所述机器可执行指令，并执行所述指令以实现本申请任一实施例提供的所述模型训练方法或特征提取方法的步骤。

应用本申请实施例，通过对原始图片中设定的部分内容进行遮挡得到训练图片，将训练图片输入至机器视觉学习模型以重构出训练图片中被遮挡的内容，根据训练图片中设定的部分内容和机器视觉学习模型中的解码器重构出的被遮挡的内容对机器视觉学习模型的模型参数进行调整得到第一目标模型，由于机器视觉学习模型重构出的仅是原始图片中被遮挡的部分内容，后续也仅是计算原始图片中被遮挡的设定的部分内容与重构出的被遮挡的内容之间的差异性，因此可以提高计算出的差异性的准确度，进而提高训练出的机器视觉学习模型的特征提取精度。

附图说明

图1为本申请一示例性实施例提供的一种机器视觉学习模型的结构示意图；

图2为本申请一示例性实施例提供的另一种机器视觉学习模型的结构示意图；

图3为本申请一示例性实施例提供的又一种机器视觉学习模型的结构示意图；

图4为本申请一示例性实施例提供的一种模型训练方法的实施例流程图；

图5为图4所示流程的场景性示例说明；

图6为本申请一示例性实施例提供的一种步骤403的实现流程；

图7为本申请一示例性实施例提供的另一种模型训练方法的实施例流程图；

图8为本申请一示例性实施例提供的一种步骤703的实现流程；

图9为本申请一示例性实施例提供的又一种模型训练方法的实施例流程图；

图10为本申请一示例性实施例提供的一种步骤903的实现流程；

图11为本申请一示例性实施例提供的一种步骤1003的实现流程；

图12为本申请一示例性实施例提供的模型训练装置的实施例框图；

图13为本申请一示例性实施例提供的特征提取装置的实施例框图；

图14为本申请根据一示例性实施例示出的一种电子设备的硬件结构图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

为了便于理解，首先对本申请涉及的一些名词术语进行解释：

(1)有监督学习

有监督学习是机器学习(Machine Learning)领域中的一类学习方法，其输入数据具有已知标签，这就使得有监督学习能够由训练数据中学到或建立特征和标签之间的联系，并以此对新的实例进行预测。

(2)无监督学习：

无监督学习是机器学习领域中的另一类学习方法，其目的是去对原始数据进行分类，以便了解数据内部结构。有别于监督学习网络，无监督学习中的输入数据不具有已知标签，因此，无监督学习网络在学习时并不知道其分类结果是否正确，也即没有受到监督式增强(告诉它何种学习是正确的)。而通过对无监督学习网络提供输入范例，其可以自己主动从这些范例中找出潜在类别规则。

(3)自编码器：

自编码器，又称自编码，是一种无监督神经网络模型，它可以学习到输入数据的特征编码，这称为编码(coding)，同时可以用学习到的特征编码重构出原始输入数据(以下简称重构数据)，这称为解码(decoding)，基于此，在机器学习领域，自编码器可以起到特征提取器的作用，并且，自编码器由两部分组成，分别为一个由函数h＝f(x)表示的编码器和一个生成重构的解码器r＝g(h)。

(4)损失函数(loss function)

损失函数是用来估量模型的预测值f(x)与真实值Y的不一致程度，它是一个非负实值函数，通常使用L(Y,f(x))来表示。损失函数可用来衡量模型的好坏，比如，损失函数的值越小表示模型的鲁棒性越好。

进一步，为了便于理解，再对本申请提出的机器视觉学习模型进行说明：

请参见图1，为本申请一示例性实施例示出的一种机器视觉学习模型的结构示意图。

如图1所示例的机器视觉学习模型100包括：编码器110、解码器120。在该实施例中，编码器110和解码器120组成一个用于特征提取的自编码器。

请参见图2，为本申请一示例性实施例示出的另一种机器视觉学习模型的结构示意图。

如图2所示例的机器视觉学习模型200包括：编码器210、帧间关系预测器220。在该实施例中，帧间关系预测器220可用于基于编码器210学习到的特征编码预测至少两个视频帧之间的帧关系。

作为一个示例，上述帧关系可以是指相邻关系，包括相邻和不相邻。其中，相邻关系可以指帧编号的相邻关系、采集时间的相邻关系等。

作为一个示例，帧间关系预测器220可以由一个全连接层221和一个softmax转换函数222组成。其中，全连接层221可以起到分类作用，softmax转换函数222则用于将全连接层221的分类结果映射为(0，1)的值。

请参见图3，为本申请一示例性实施例示出的又一种机器视觉学习模型的结构示意图。

如图3所示例的机器视觉学习模型300包括：编码器310、解码器320，以及帧关系预测器330。其中，编码器310和解码器320组成一个用于特征提取的自编码器。帧关系预测器330与编码器310相连接，用于基于编码器310学习到的特征编码预测至少两个视频帧之间的帧关系，由一个全连接层331和一个softmax转换函数332组成。由此可见，在该实施例中，机器视觉学习模型可以兼具帧关系预测功能和特征提取功能。

为了训练得到上述机器视觉学习模型，本申请提出一种模型训练方法。下面通过具体的实施例，分别从训练得出图1至图3各自所示例的机器视觉学习模型的角度对本申请提出的模型训练方法进行说明：

首先，从训练得出图1所示例的机器视觉学习模型的角度对本申请提出的模型训练方法进行说明：

请参见图4，为本申请一示例性实施例提供的一种模型训练方法的实施例流程图，该方法包括以下步骤：

步骤401，从视频流中提取原始图片，并按照设定的图片遮挡方式对原始图片中设定的部分内容进行遮挡得到训练图片。

在本申请中，视频流是指在一段时间内连续采集到的多个视频帧组成的视频帧序列。在本步骤401中，可以从视频流中提取多个视频帧，每一视频帧即为一张原始图片。

作为一个示例，在本步骤401中所提取的多个视频帧可以是连续的。

作为另一个示例，在本步骤401中所提取的多个视频帧可以是不连续的。

在上述两个示例中，连续和不连续是相对于视频帧在视频流中的排列顺序而言的。

在本步骤401中，得到原始图片之后，还可以按照设定的图片遮挡方式对原始图片中的部分内容(以下简称设定的部分内容)进行遮挡，将遮挡后的原始图片作为训练图片。

作为一个示例，上述设定的图片遮挡方式可以为：将原始图片中设定大小，例如30*40(单位为像素)的部分内容进行遮挡。

作为另一个示例，在上述示例的基础上，设定的图片遮挡方式还可以指示待遮挡的部分内容在原始图片中的位置。

步骤402，将训练图片输入至机器视觉学习模型，以由机器视觉学习模型中的编码器对输入的训练图片进行编码得到特征编码并输出给机器视觉学习模型中的解码器，以由解码器根据输入的特征编码重构出训练图片中被遮挡的内容。

在本步骤402中，则可以将执行步骤401得到的训练图片输入至机器视觉学习模型，例如图1所示例的机器视觉学习模型100。

机器视觉学习模型基于输入的训练图片所执行的操作过程包括：首先由编码器对输入的训练图片进行编码，得到训练图片的特征编码，之后，编码器将得到的特征编码输出给解码器，由解码器根据输入的特征编码重构出训练图片中被遮挡的内容。

步骤403，根据设定的部分内容和解码器重构出的被遮挡的内容对机器视觉学习模型的模型参数进行调整得到第一目标模型，第一目标模型用于提取待识别图像的图像特征。

在本步骤403中，则可以对训练图片中实际被遮挡的内容，即上述设定的部分内容和机器视觉学习模型中的解码器重构出的被遮挡的内容之间的差异进行计算，依据该差异对机器学习模型的模型参数进行调整，调整之后的模型即为最终训练出的模型(以下简称第一目标模型)。

至于具体是如何根据训练图片中设定的部分内容和机器视觉学习模型中的解码器重构出的被遮挡的内容对机器视觉学习模型的模型参数进行调整得到第一目标模型的，下文中通过实施例举例示出，这里暂不赘述。

为了便于理解，示出图5所示例的场景图对上述步骤401至403进行示例性说明：

如图5所示，原始图片510中设定的部分内容520被遮挡(以黑色区域表示被遮挡)，之后，将部分内容被遮挡的原始图片510作为训练图片输入至机器视觉学习模型530，得到重构出的被遮挡内容540，最后，根据训练图片中设定的部分内容520和机器视觉学习模型530重构出的被遮挡内容540对机器视觉学习模型330的模型参数进行调整，得到第一目标模型。

至此，完成图5所示流程的相关描述。

由上述实施例可见，通过对原始图片中设定的部分内容进行遮挡得到训练图片，将训练图片输入至机器视觉学习模型以重构出训练图片中被遮挡的内容，根据训练图片中设定的部分内容和机器视觉学习模型中的解码器重构出的被遮挡的内容对机器视觉学习模型的模型参数进行调整得到第一目标模型，由于机器视觉学习模型重构出的仅是原始图片中被遮挡的部分内容，后续也仅是计算原始图片中被遮挡的设定的部分内容与重构出的被遮挡的内容之间的差异性，因此可以提高计算出的差异性的准确度，进而提高训练出的机器视觉学习模型的特征提取精度。

下面通过图6所示实施例对根据训练图片中设定的部分内容和机器视觉学习模型中的解码器重构出的被遮挡的内容对机器视觉学习模型的模型参数进行调整得到第一目标模型的过程进行说明：

请参见图6，为本申请一示例性实施例提供的一种步骤403的实现流程，包括以下步骤：

步骤601：依据设定的部分内容和解码器重构出的被遮挡的内容确定第一损失函数。

在本步骤601中，可以依据所有训练图片中实际被遮挡的内容，即设定的部分内容和机器视觉学习模型中的解码器重构出的所有训练图片中被遮挡的内容确定一个损失函数(以下简称第一损失函数)。该第一损失函数可用于衡量机器视觉学习模型中编码器的编码性能，即特征提取性能。

步骤602：根据第一损失函数对机器视觉学习模型的模型参数进行调整。

步骤603：检查第一损失函数是否满足设定的训练停止条件；如果是，则执行步骤604，如果否，则执行步骤605。

步骤604：确定调整后的机器视觉学习模型为第一目标模型。

步骤605：获取训练图片并返回将训练图片输入至机器视觉学习模型的步骤。

以下对步骤603至605进行统一说明：

作为一个示例，为了更好地提高机器视觉学习模型的鲁棒性，可以采取迭代训练的方式，也即多次对机器视觉学习模型进行训练，得到最终的第一目标模型。

基于此，在步骤603中，可以检查第一损失函数是否满足设定的训练停止条件，当检查出第一损失函数满足设定的训练停止条件时，可以认为当前的机器视觉学习模型的性能已达到用户期望，则可以停止训练，执行步骤604；反之，当检查出第一损失函数不满足设定的训练停止条件时，则可以继续执行步骤605，即继续对当前的机器视觉学习模型进行训练，直至检查出第一损失函数满足设定的训练停止条件时停止训练。

作为一个示例，在上述步骤605中，训练图片可以完全不同于之前的训练过程中所使用的训练图片，也可以部分相同于之前的训练过程中所使用的训练图片，本申请对此不作限制。

作为一个示例，上述训练停止条件可以指：本次训练过程中确定出的损失函数的值与上一次训练过程中确定出的损失函数的值之间的差值不超过设定阈值。

需要说明的是，上述仅仅是训练停止条件的示例性描述，在应用中，训练停止条件还可以为其他形式，例如本次训练过程中确定出的损失函数的值不超过设定阈值。

至此，完成图6所示流程的相关描述。

通过图6所示流程，最终实现了根据训练图片中设定的部分内容和机器视觉学习模型中的解码器重构出的被遮挡的内容对机器视觉学习模型的模型参数进行调整得到第一目标模型。

其次，从训练得出图2所示例的机器视觉学习模型的角度对本申请提出的模型训练方法进行说明：

请参见图7，为本申请一示例性实施例提供的另一种模型训练方法的实施例流程图，该方法包括以下步骤：

步骤701：从视频流中提取至少两个视频帧，得到正样本图片和/或负样本图片。

在本步骤701中，以一次提取过程为例，可以从视频流中提取至少两个视频帧，若提取的至少两个视频帧满足设定的帧关系条件，则将提取的至少两个视频帧确定为正样本图片；若提取的至少两个视频帧不满足设定的帧关系条件，则将提取的至少两个视频帧确定为负样本图片。

作为一个示例，上述设定的帧关系条件可以指：至少两个视频帧在视频流中的排列顺序连续。

作为一个示例，以一次提取两个视频帧为例，可以在视频流中提取前后相邻的两个视频帧，由于该两个视频帧在视频流中的排列顺序连续，因此满足设定的帧关系条件，从而可以将该两个视频帧确定为正样本图片。

作为另一个示例，仍以一次提取两个视频帧为例，还可以在视频流中提取间隔设定帧数，例如50帧的两个视频帧，由于该两个视频帧在视频流中的排列顺序不连续，因此不满足设定的帧关系条件，从而可以将该两个视频帧确定为负样本图片。

作为再一个示例，以一次提取三个视频帧为例，可以在视频流中提取连续的三个视频帧，并将该连续的三个视频帧确定为正样本图片；还可以在视频流中提取不连续的三个视频帧，并将该不连续的三个视频帧确定为负样本图片。需要说明的是，这里所说的连续和不连续均是针对三个视频帧这一整体而言的，例如，若三个视频帧中有两个视频帧在视频流中的排列顺序是连续的，但是另外一个视频帧与该两个视频帧在视频流中的排序顺序并不连续，那么该三个视频帧仍为不满足帧关系条件的负样本图片。

步骤702：将正样本图片和/或负样本图片输入至机器视觉学习模型，以由机器视觉学习模型中的编码器对输入的正样本图片和/或负样本图片进行编码得到特征编码并输出给机器视觉学习模型中的帧间关系预测器，以由帧间关系预测器根据输入的特征编码预测出正样本图片和/或负样本图片中至少两个视频帧之间的帧关系。

与上述步骤402类似，在本步骤702中，则可以将执行步骤701得到的正样本图片和/或负样本图片(为了描述方便，以下简称输入图片)输入至机器视觉学习模型，例如图2所示例的机器视觉学习模型200。

机器视觉学习模型基于输入图片所执行的操作过程包括：首先由编码器对输入图片中的每一视频帧进行编码，得到输入图片中每一视频帧的特征编码，之后，编码器将得到的每一视频帧的特征编码输出给帧间关系预测器，由帧间关系预测器预测出输入图片中至少两个视频帧之间的帧关系。

步骤703：根据正样本图片和/或负样本图片中至少两个视频帧之间的帧关系、帧间关系预测器预测出的至少两个视频帧之间的帧关系对机器视觉学习模型的模型参数进行调整得到第二目标模型，第二目标模型用于预测两个以上视频帧之间的帧关系。

与上述步骤403类似，在本步骤703中，则可以对输入图片中至少两个视频帧之间的帧关系，由帧间关系预测器预测出的输入图片中至少两个视频帧之间的帧关系的差异进行计算，依据该差异对机器学习模型的模型参数进行调整，调整之后的模型即为最终训练出的模型(以下简称第二目标模型)。

至于具体是如何根据输入图片中至少两个视频帧之间的帧关系、帧间关系预测器预测出的至少两个视频帧之间的帧关系对机器视觉学习模型的模型参数进行调整得到第二目标模型的，下文中通过实施例举例示出，这里暂不赘述。

至此，完成图7所示流程的相关描述。

由上述实施例可见，通过从视频流中提取至少两个视频帧，得到正样本图片和/或负样本图片，将正样本图片和/或负样本图片作为输入图片输入至机器视觉学习模型，以由机器视觉学习模型中的编码器对输入图片进行编码得到特征编码并输出给机器视觉学习模型中的帧间关系预测器，以由帧间关系预测器根据输入的特征编码预测出输入图片中至少两个视频帧之间的帧关系，根据输入图片中至少两个视频帧之间的帧关系、帧间关系预测器预测出的至少两个视频帧之间的帧关系对机器视觉学习模型的模型参数进行调整得到第二目标模型，可以实现训练出一个用于预测两个以上视频帧之间的帧关系的第二目标模型。

下面通过图8所示实施例对根据输入图片中至少两个视频帧之间的帧关系、帧间关系预测器预测出的至少两个视频帧之间的帧关系对机器视觉学习模型的模型参数进行调整得到第二目标模型的过程进行说明：

请参见图8，为本申请一示例性实施例提供的一种步骤703的实现流程，包括以下步骤：

步骤801：根据正样本图片和/或负样本图片中至少两个视频帧之间的帧关系、帧间关系预测器预测出的至少两个视频帧之间的帧关系确定第二损失函数。

在本步骤801中，可以依据所有输入图片中至少两个视频帧之间的帧关系，帧间关系预测器预测出的至少两个视频帧之间的帧关系确定一个损失函数(以下简称第二损失函数)。该第二损失函数可用于衡量机器视觉学习模型中帧间关系预测器的帧关系预测性能。

步骤802：根据第二损失函数对机器视觉学习模型的模型参数进行调整。

步骤803：检查第二损失函数是否满足设定的训练停止条件；如果是，则执行步骤804，如果否，则执行步骤805。

步骤804：确定调整后的机器视觉学习模型为第二目标模型。

步骤805：获取正样本图片和/或负样本图片并返回将正样本图片和/或负样本图片输入至机器视觉学习模型的步骤。

至于图8所示实施例的相关描述可以参见上述图6所示实施例中的描述，这里不再赘述。

通过图8所示流程，最终实现了根据输入图片中至少两个视频帧之间的帧关系、帧间关系预测器预测出的至少两个视频帧之间的帧关系对机器视觉学习模型的模型参数进行调整得到第二目标模型。

为了便于理解应用本申请提出的模型训练方法训练出的第二目标模型，下面示例性描述下该第二目标模型的应用场景：

场景一：

在医学病变部位识别场景中，通常可以采集人体器官组织的多张图像，通过该多张图像识别人体器官组织中的病变部位。例如，以CT扫描为例，可以通过对被检组织进行CT扫描，得到被检组织的CT图像序列，通过该CT图像序列识别被检组织的病变部位。在这一场景中，由于病变部位在空间上是具有一定形状的，因此，在进行病变部位识别时，可首先通过上述第二目标模型预测CT图像序列中各CT图像之间的帧关系，当预测出各CT图像之间满足设定的帧关系条件时，可以进一步依据该CT图像序列进行病变部位的识别。

场景二：

在手势控制应用场景中，通常可以采集用户做出的手势操作让而生成控制设备执行相应操作的控制指令，例如用户通过左右摆手可控制设备关闭。在这一类应用场景中，只有按视频帧的采集顺序识别每一视频帧才可正确识别出用户所作出的手势操作，因此，在进行手势识别时，可首先通过上述第二目标模型预测待识别的视频帧序列中各视频帧之间的帧关系，当预测出各视频帧之间满足设定的帧关系条件时，可以进一步依据现有的视频帧序列进行手势识别。

最后，从训练得出图3所示例的机器视觉学习模型的角度对本申请提出的模型训练方法进行说明：

请参见图9，为本申请一示例性实施例提供的又一种模型训练方法的实施例流程图，该方法包括以下步骤：

步骤901：从视频流中提取至少两个视频帧，并按照设定的图片遮挡方式对提取的每一视频帧中设定的部分内容进行遮挡得到训练图片。

在本申请中，为了实现第一目标模型兼具图像特征提取功能和帧关系预测功能，可以在一次提取过程中提取至少两个视频帧，并按照设定的图片遮挡方式对提取的每一视频帧中设定的部分内容进行遮挡得到训练图片。由此可见，这里的训练图片由至少两个视频帧组成，且每一视频帧中设定的部分内容被遮挡。至于具体是如何按照设定的图片遮挡方式对提取的每一视频帧中设定的部分内容进行遮挡的，可以参见上述图4所示实施例中的相关描述，这里不再赘述。

步骤902：将所述训练图片输入至机器视觉学习模型，以由机器视觉学习模型中的编码器对输入的训练图片中每一视频帧进行编码得到特征编码并输出给机器视觉学习模型中的解码器和帧间关系预测器，以由解码器根据输入的每一视频帧的特征编码重构出每一视频帧中被遮挡的内容，并由帧间关系预测器根据输入的每一视频帧的特征编码预测出训练图片中各视频帧之间的帧关系预测结果。

在本步骤902中，可以将执行步骤901得到的训练图片输入至机器视觉学习模型，例如图1所示例的机器视觉学习模型300。

机器视觉学习模型基于输入的训练图片所执行的操作过程包括：首先由编码器对输入的训练图片中的每一视频帧进行编码，得到训练图片中每一视频帧的特征编码，之后，编码器将得到的每一视频帧的特征编码输出给解码器，由解码器根据输入的特征编码重构出训练图片中每一视频帧被遮挡的内容。

除此之外，编码器还可以将每一训练图片中各视频帧的特征编码输出给帧间关系预测器，由帧间关系预测器根据输入的特征编码预测训练图片中各视频帧之间的帧关系预测结果，该帧关系预测结果用于指示输入图片中的各视频帧之间是否满足设定的帧关系条件。

作为一个示例，帧关系预测结果的取值可以为0或1，其中，0用于指示输入图片中的各视频帧之间不满足设定的帧关系条件，1用于指示输入图片中的各视频帧之间满足设定的帧关系条件。

需要说明的是，本申请中对编码器将得到的特征编码分别输入至解码器和帧间关系预测器的先后顺序不做具体限定。

由上述描述可见，对于解码器而言，其是以视频帧为单位进行重构，重构出的是每一视频帧中被遮挡的内容；而对于帧间关系预测器而言，其是以训练图片为单位进行预测，预测出的是训练图片中各视频帧之间的帧关系预测结果。

步骤903：根据帧关系预测结果、训练图片中各视频帧之间的帧关系、各视频帧中设定的部分内容和解码器重构出的各视频帧中被遮挡的内容对机器视觉学习模型的模型参数进行调整得到第一目标模型，所述第一目标模型用于提取待识别图像的图像特征，还用于预测两个以上视频帧之间的帧关系。

与上述步骤403类似，在本步骤903中，可以对训练图片中每一视频帧中实际被遮挡的内容和机器视觉学习模型重构出的每一视频帧中被遮挡的内容之间的差异进行计算；并对训练图片中各视频帧之间的帧关系和机器视觉学习模型预测出的帧关系预测结果之间的差异进行计算。

与上述步骤403不同的是，在本步骤903中，依据该两类差异共同对机器学习模型的模型参数进行调整，调整之后的模型即为兼具帧关系预测功能和特征提取功能的第一目标模型。

至于具体是如何根据上述两类差异共同对机器学习模型的模型参数进行调整，调整之后的模型即为兼具帧关系预测功能和特征提取功能的第一目标模型的，下文中通过实施例举例示出，这里暂不赘述。

至此，完成图9所示流程的相关描述。

由上述实施例可见，通过从视频流中提取至少两个视频帧，并按照设定的图片遮挡方式对提取的每一视频帧中设定的部分内容进行遮挡得到训练图片，将训练图片输入至机器视觉学习模型，以由机器视觉学习模型中的编码器对输入的训练图片中每一视频帧进行编码得到特征编码并输出给机器视觉学习模型中的解码器和帧间关系预测器，以由解码器根据输入的每一视频帧的特征编码重构出每一视频帧中被遮挡的内容，并由帧间关系预测器根据输入的每一视频帧的特征编码预测出训练图片中各视频帧之间的帧关系预测结果根据帧关系预测结果、训练图片中各视频帧之间的帧关系、各视频帧中被遮挡的设定的部分内容和解码器重构出的各视频帧中被遮挡的内容对机器视觉学习模型的模型参数进行调整得到第一目标模型，可以实现训练出兼具帧关系预测功能和特征提取功能的第一目标模型。

下面通过图10所示实施例，对根据上述两类差异共同对机器学习模型的模型参数进行调整，调整之后的模型即为兼具帧关系预测功能和特征提取功能的第一目标模型的过程进行说明：

请参见图10，为本申请一示例性实施例提供的一种步骤903的实现流程，该流程包括以下步骤：

步骤1001，依据各视频帧中设定的部分内容和解码器重构出的各视频帧中被遮挡的内容确定第一损失函数。

本步骤的相关描述可以参见上述步骤601中的描述，这里不再赘述。

步骤1002：依据帧关系预测结果和训练图片中各视频帧之间的帧关系确定第二损失函数。

本步骤的相关描述可以参见上述步骤801中的描述，这里不再赘述。

步骤1003，根据第一损失函数和第二损失函数对机器视觉学习模型的模型参数进行调整得到第一目标模型。

在本步骤1003中，可以根据第一损失函数和第二损失函数共同对机器视觉学习模型的模型参数进行调整，得到兼具帧关系预测功能和特征提取功能的机器视觉学习模型。

其中，第一损失函数主要用于调整机器视觉学习模型中与编码器相关的模型参数，第二损失函数主要用于调整机器视觉学习模型中与帧关系预测器相关的模型参数，以使机器视觉学习模型的帧关系预测功能和特征提取功能都具有较好的鲁棒性。

至于具体是如何根据第一损失函数和第二损失函数对机器视觉学习模型的模型参数进行调整得到目标模型的，下文中通过实施例举例示出，这里暂不赘述。

至此，完成图10所示流程的相关描述。

通过图10所示流程，最终实现了根据帧关系预测结果、训练图片中各视频帧之间的实际帧关系、训练图片中实际被遮挡的设定的部分内容和机器视觉学习模型重构出的被遮挡的内容对机器视觉学习模型的模型参数进行调整得到第一目标模型。

下面通过图11所示实施例，对根据第一损失函数和第二损失函数对机器视觉学习模型的模型参数进行调整得到第一目标模型的过程进行说明：

请参见图11，为本申请一示例性实施例提供的一种步骤1003的实现流程，该流程包括以下步骤：

步骤1101：将第一损失函数和第二损失函数进行设定运算得到第三损失函数。

作为一个示例，上述设定运算可以为相加运算，即将第一损失函数和第二损失函数相加，得到第三损失函数。

作为一个示例，上述设定运算可以为加权相加运算，通俗来说，即为第一损失函数和第二损失函数分配不同的权重，其权重表示重要程度，将第一损失函数和第二损失函数分别与各自分配的权重相乘之后，再将相乘的结果相加得到第三损失函数。

在一个例子中，假设用户期望机器视觉学习模型在帧关系预测功能上具有较好的鲁棒性，则可以为第一损失函数分配一个较高的权重，反之，若用户期望机器视觉学习模型在特征提取功能上具有较好的鲁棒性，则可以为第二损失函数分配一个较高的权重。至于具体如何为第一损失函数和第二损失函数分配权重，本申请并不做限制。

步骤1102：利用第三损失函数对机器视觉学习模型的模型参数进行调整。

步骤1103：并检查第三损失函数是否满足设定的训练停止条件；如果是，则执行步骤1104，如果否，则执行步骤1105。

步骤1104：确定调整后的机器视觉学习模型为第一目标模型。

步骤1105：获取训练图片并返回将训练图片输入至机器视觉学习模型的步骤。

上述步骤1102至步骤1105的详细说明可以参见上述图6所示实施例中说明，本申请对此不再详述。

至此，完成图11所示流程的相关描述。

通过图11所示流程，最终实现了根据第一损失函数和第二损失函数对机器视觉学习模型的模型参数进行调整得到第一目标模型。

至此，完成本申请提出的模型训练方法的相关描述。

为了贴合实际应用，本申请还提出一种特征提取方法。下面对本申请提出的特征提取方法进行说明：

在本申请实施例中，可以将待识别图像输入至按照上述任一模型方法训练出的第一目标模型，得到所述待识别图像的图像特征。在应用中，该待识别图像的图像特征可以用于训练机器视觉识别模型。

为了便于理解，下面通过具体的应用场景对本申请提出的特征提取方法进行说明：

在实际应用中，存在大量无标签数据或图片的场景，例如眼部病变识别场景，在此类场景下，正样本图片，即眼部病变图片数量有限，大部分图片都是无标签图片。基于此，则可以首先利用本申请提出的模型训练方法和无标签图片进行无监督训练，得到一个具有较好的特征提取性能的机器视觉学习模型。然后，利用该机器视觉学习模型作为特征提取器，利用少量的正样本图片进行有监督训练，即可得到一个用于识别眼部病变的机器视觉识别模型。

至此，完成本申请提出的特征提取方法的相关描述。

与前述模型训练方法的实施例相对应，本申请还提供了模型训练装置的实施例。

请参见图12，为本申请一示例性实施例提供的模型训练装置的实施例框图，该装置可以包括：提取模块121、第一输入模块122，以及训练模块123。

其中，提取模块121，用于从视频流中提取原始图片，并按照设定的图片遮挡方式对所述原始图片中设定的部分内容进行遮挡得到训练图片；

第一输入模块122，用于将所述训练图片输入至机器视觉学习模型，以由所述机器视觉学习模型中的编码器对输入的训练图片进行编码得到特征编码并输出给所述机器视觉学习模型中的解码器，以由所述解码器根据输入的特征编码重构出所述训练图片中被遮挡的内容；

第一训练模块123，用于根据所述设定的部分内容和所述机器视觉学习模型重构出的被遮挡的内容对所述机器视觉学习模型的模型参数进行调整得到第一目标模型，所述第一目标模型用于提取待识别图像的图像特征。

在一实施例中，所述第一训练模块123根据所述设定的部分内容和所述解码器重构出的被遮挡的内容对所述机器视觉学习模型的模型参数进行调整得到第一目标模型，包括：

依据所述设定的部分内容和所述解码器重构出的被遮挡的内容确定第一损失函数；根据所述第一损失函数对所述机器视觉学习模型的模型参数进行调整，并检查所述第一损失函数是否满足设定的训练停止条件；如果是，确定调整后的机器视觉学习模型为所述第一目标模型，如果否，获取训练图片并返回将训练图片输入至所述机器视觉学习模型的步骤。

在一实施例中，所述提取模块121从视频流中提取原始图片，包括：

从所述视频流中提取至少两个视频帧，若提取的至少两个视频帧满足设定的帧关系条件，则将提取的所述至少两个视频帧确定为正样本图片；若提取的至少两个视频帧不满足设定的帧关系条件，则将提取的所述至少两个视频帧确定为负样本图片；

所述装置进一步包括(图12中未示出)：

第二训练模块，用于将所述正样本图片和/或所述负样本图片作为输入图片输入至机器视觉学习模型，以由所述机器视觉学习模型中的编码器对所述输入图片进行编码得到特征编码并输出给所述机器视觉学习模型中的帧间关系预测器，以由所述帧间关系预测器根据输入的特征编码预测出所述输入图片中至少两个视频帧之间的帧关系；根据所述输入图片中至少两个视频帧之间的帧关系、所述帧间关系预测器预测出的至少两个视频帧之间的帧关系对所述机器视觉学习模型的模型参数进行调整得到第二目标模型，所述第二目标模型用于预测两个以上视频帧之间的帧关系。

在一实施例中，所述第二训练模块根据输入图片中至少两个视频帧之间的帧关系、所述帧间关系预测器预测出的至少两个视频帧之间的帧关系对所述机器视觉学习模型的模型参数进行调整得到第二目标模型，包括：

根据输入图片中至少两个视频帧之间的帧关系、所述帧间关系预测器预测出的至少两个视频帧之间的帧关系确定第二损失函数；根据所述第二损失函数对所述机器视觉学习模型的模型参数进行调整，并检查所述第二损失函数是否满足设定的训练停止条件；如果是，确定调整后的机器视觉学习模型为所述第二目标模型，如果否，获取输入图片并返回将输入图片输入至所述机器视觉学习模型的步骤。

在一实施例中，所述训练图片由至少两个视频帧组成且每一视频帧中设定的部分内容被遮挡；

所述装置进一步包括(图12中未示出)：

获取模块，用于获取所述训练图片中各视频帧之间的帧关系预测结果，所述帧关系预测结果是由所述机器视觉学习模型中与所述编码器连接的帧间关系预测器依据所述编码器得到的训练图片中每一视频帧的特征编码预测出的，所述帧关系预测结果用于指示所述训练图片中的各视频帧之间是否满足设定的帧关系条件；

所述第一训练模块123根据所述设定的部分内容和所述解码器重构出的被遮挡的内容对所述机器视觉学习模型的模型参数进行调整得到第一目标模型，包括：

根据所述帧关系预测结果、所述训练图片中各视频帧之间的帧关系、所述各视频帧中设定的部分内容和所述解码器重构出的各视频帧中被遮挡的内容对所述机器视觉学习模型的模型参数进行调整得到第一目标模型，所述第一目标模型还用于预测两个以上视频帧之间的帧关系。

在一实施例中，所述第一训练模块123根据帧关系预测结果、所述训练图片中各视频帧之间的帧关系、所述各视频帧中设定的部分内容和所述解码器重构出的各视频帧中被遮挡的内容对所述机器视觉学习模型的模型参数进行调整得到第一目标模型，包括：

依据所述各视频帧中设定的部分内容和所述解码器重构出的各视频帧中被遮挡的内容确定第一损失函数；依据所述帧关系预测结果和所述训练图片中各视频帧之间的帧关系确定第二损失函数；根据所述第一损失函数和所述第二损失函数对所述机器视觉学习模型的模型参数进行调整得到第一目标模型。

在一实施例中，所述第一训练模块123根据第一损失函数和第二损失函数对所述机器视觉学习模型的模型参数进行调整得到第一目标模型包括：

将所述第一损失函数和所述第二损失函数进行设定运算得到第三损失函数；利用所述第三损失函数对所述机器视觉学习模型的模型参数进行调整，并检查所述第三损失函数是否满足设定的训练停止条件；如果是，确定调整后的机器视觉学习模型为所述第一目标模型，如果否，获取训练图片并返回将训练图片输入至所述机器视觉学习模型的步骤。

在一实施例中，所述设定的训练停止条件包括：

本次训练过程中确定出的损失函数的损失值与上一次训练过程中确定出的损失函数的损失值之间的差值不超过设定阈值。

在一实施例中，所述提取模块121从视频流中提取原始图片，并按照设定的图片遮挡方式对所述原始图片中设定的部分内容进行遮挡得到训练图片，包括：

从所述视频流中提取至少两个视频帧，并按照设定的图片遮挡方式对提取的每一视频帧中设定的部分内容进行遮挡得到训练图片，其中，提取的至少两个视频帧满足设定的帧关系条件；和/或，从所述视频流中提取至少两个视频帧，并按照设定的图片遮挡方式对提取的每一视频帧中设定的部分内容进行遮挡得到训练图片，其中，提取的至少两个视频帧不满足设定的帧关系条件。

与前述特征提取方法的实施例相对应，本申请还提供了特征提取装置的实施例。

请参见图13，为本申请一示例性实施例提供的一种特征提取装置的实施例框图，该装置可以包括：特征识别模块131。

具体的，特征识别模块131，用于将待识别图像输入至按照本申请任一实施例提供的模型训练方法训练出的第一目标模型，得到所述待识别图像的图像特征，所述待识别图像的图像特征用于训练机器视觉识别模型。

请继续参见图14，本申请还提供一种电子设备，包括处理器1401、通信接口1402、存储器1403，以及通信总线1404。

其中，处理器1401、通信接口1402、存储器1403通过通信总线1404进行相互间的通信；

存储器1403，用于存放计算机程序；

处理器1401，用于执行存储器1403上所存放的计算机程序，处理器1401执行所述计算机程序时实现本申请实施例提供的模型训练方法或特征提取方法的步骤。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本申请实施例提供的模型训练方法或特征提取方法的步骤。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种模型训练方法，其特征在于，所述方法包括：

从视频流中提取原始图片，并按照设定的图片遮挡方式对所述原始图片中设定的部分内容进行遮挡得到训练图片；所述训练图片由至少两个视频帧组成且每一视频帧中设定的部分内容被遮挡；

获取所述训练图片中各视频帧之间的帧关系预测结果，所述帧关系预测结果是由所述机器视觉学习模型中与所述编码器连接的帧间关系预测器依据所述编码器得到的训练图片中每一视频帧的特征编码预测出的，所述帧关系预测结果用于指示所述训练图片中的各视频帧之间是否满足设定的帧关系条件；

根据所述设定的部分内容和所述解码器重构出的被遮挡的内容对所述机器视觉学习模型的模型参数进行调整得到第一目标模型，包括：根据所述帧关系预测结果、所述训练图片中各视频帧之间的帧关系、所述各视频帧中设定的部分内容和所述解码器重构出的各视频帧中被遮挡的内容，对所述机器视觉学习模型的模型参数进行调整得到第一目标模型，所述第一目标模型用于提取待识别图像的图像特征，所述第一目标模型还用于预测两个以上视频帧之间的帧关系。

2.根据权利要求1所述的方法，其特征在于，所述根据帧关系预测结果、所述训练图片中各视频帧之间的帧关系、所述各视频帧中设定的部分内容和所述解码器重构出的各视频帧中被遮挡的内容对所述机器视觉学习模型的模型参数进行调整得到第一目标模型，包括：

依据所述各视频帧中设定的部分内容和所述解码器重构出的各视频帧中被遮挡的内容确定第一损失函数；

依据所述帧关系预测结果和所述训练图片中各视频帧之间的帧关系确定第二损失函数；

根据所述第一损失函数和所述第二损失函数对所述机器视觉学习模型的模型参数进行调整得到第一目标模型。

3.根据权利要求2所述的方法，其特征在于，所述根据第一损失函数和第二损失函数对所述机器视觉学习模型的模型参数进行调整得到第一目标模型包括：

将所述第一损失函数和所述第二损失函数进行设定运算得到第三损失函数；

利用所述第三损失函数对所述机器视觉学习模型的模型参数进行调整，并检查所述第三损失函数是否满足设定的训练停止条件；

如果是，确定调整后的机器视觉学习模型为所述第一目标模型，如果否，获取训练图片并返回将训练图片输入至所述机器视觉学习模型的步骤。

4.根据权利要求3所述的方法，其特征在于，所述设定的训练停止条件包括：

本次训练过程中确定出的损失函数的值与上一次训练过程中确定出的损失函数的值之间的差值不超过设定阈值。

5.根据权利要求1至3任一所述的方法，其特征在于，所述从视频流中提取原始图片，并按照设定的图片遮挡方式对所述原始图片中设定的部分内容进行遮挡得到训练图片，包括：

从所述视频流中提取至少两个视频帧，并按照设定的图片遮挡方式对提取的每一视频帧中设定的部分内容进行遮挡得到训练图片，其中，提取的至少两个视频帧满足设定的帧关系条件；和/或，

从所述视频流中提取至少两个视频帧，并按照设定的图片遮挡方式对提取的每一视频帧中设定的部分内容进行遮挡得到训练图片，其中，提取的至少两个视频帧不满足设定的帧关系条件。

6.一种特征提取方法，其特征在于，所述方法包括：

将待识别图像输入至按照如权利要求1至5任一方法训练出的第一目标模型，得到所述待识别图像的图像特征，所述待识别图像的图像特征用于训练机器视觉识别模型。

7.一种电子设备，其特征在于，所述设备包括可读存储介质和处理器；

其中，所述可读存储介质，用于存储机器可执行指令；

所述处理器，用于读取所述可读存储介质上的所述机器可执行指令，并执行所述指令以实现权利要求1-5或6任一所述方法的步骤。