CN110245714A

CN110245714A - 图像识别方法、装置及电子设备

Info

Publication number: CN110245714A
Application number: CN201910535939.0A
Authority: CN
Inventors: 王辰龙; 高岩; 赵雷
Original assignee: Xiamen Meitu Technology Co Ltd
Current assignee: Xiamen Meitu Technology Co Ltd
Priority date: 2019-06-20
Filing date: 2019-06-20
Publication date: 2019-09-17
Anticipated expiration: 2039-06-20
Also published as: CN110245714B

Abstract

本申请提供一种图像识别方法、装置及电子设备，预先通过对训练样本集进行特征提取及聚类操作得到多个聚类中心，再获得正样本子集在该多个聚类中心中所属的聚类中心。对目标图像进行识别时，首先计算目标图像的目标特征向量，再确定该目标特征向量所属的聚类中心，检测目标特征向量所属的聚类中心与正样本子集所属的聚类中心是否一致，从而判断目标图像是否与正样本子集中的任一图像为同一类型。通过该方案，采用聚类处理的方式，可以准确判别出目标图像的类型。

Description

图像识别方法、装置及电子设备

技术领域

本申请涉及图形处理技术领域，具体而言，涉及一种图像识别方法、装置及电子设备。

背景技术

随着互联网技术的发展，用户经常会因为各种需求将手机拍摄的图片、截屏图片等上传至社交平台以进行分享。社交平台会对用户上传的图片进行识别，以滤除一些包含隐私信息或敏感信息的异常图片。目前，通常是采用通过训练样本进行训练获得的识别模型对图片进行识别，这种方式，在对模型进行训练时，为了使模型更好学习到这类异常图片的特征，因此在训练样本中加大这类异常图片所占的比例。但是在实际情况下，这类异常图片所占的比例是极小的，导致为了多学习正样本的特征而加大其所占比例与正样本图片在实际情况下所占比例并不相符。因此，存在对正样本特征的学习的需求以及正样本实际所占比例之间的矛盾。

发明内容

有鉴于此，本申请实施例的目的在于提供一种图像识别方法、装置及电子设备，以解决或者改善上述问题。

第一方面，本申请实施例提供一种图像识别方法，所述方法包括：

将目标图像输入至预先训练得到的分类模型进行识别，输出所述目标图像的目标特征向量；

从预设的多个聚类中心中确定所述目标特征向量所属的目标聚类中心，其中，各个聚类中心为预先对训练样本集进行特征提取及聚类操作所获得的，所述训练样本集包括正样本子集和负样本子集；

检测所述目标聚类中心是否与候选聚类中心一致，其中，所述候选聚类中心为预先获得的所述正样本子集在所述多个聚类中心中所属的聚类中心；

根据检测所述目标聚类中心与候选聚类中心是否一致的检测结果，判断所述目标图像是否与所述正样本子集中的任意一张图像属于相同类型。

可选地，所述从预设的多个聚类中心中确定所述目标特征向量所属的目标聚类中心的步骤，包括：

计算所述目标特征向量与预设的每个聚类中心之间的欧式距离；

将计算得到的最小欧式距离对应的聚类中心作为所述目标特征向量所属的目标聚类中心。

可选地，所述方法还包括：

将所述训练样本集中包含的各张样本图像导入预先训练得到的分类模型进行识别，输出各张样本图像的特征向量；

对各张样本图像的特征向量进行聚类操作，得到多个聚类中心；

将所述正样本子集中包含的各张正样本图像导入所述分类模型进行识别，输出各张正样本图像的特征向量；

获得各张正样本图像的特征向量在所述多个聚类中心中所属的聚类中心作为所述候选聚类中心。

可选地，所述对各张样本图像的特征向量进行聚类操作，得到多个聚类中心的步骤，包括：

从多张样本图像的特征向量中随机选定预设数量个特征向量，作为初始聚类中心；

计算各张样本图像的特征向量分别与每个初始聚类中心之间的欧式距离，针对每张样本图像，将与该样本图像的特征向量之间的欧式距离最小的一个初始聚类中心作为该样本图像的特征向量所属的初始聚类中心；

针对所属同一初始聚类中心的至少两张样本图像，计算得到该至少两张样本图像的特征向量的中心特征向量，根据该中心特征向量对其所属的初始聚类中心进行偏移。

可选地，所述将所述训练样本集中包含的各张样本图像导入预先训练得到的分类模型进行识别，输出各张样本图像的特征向量的步骤之后，所述方法还包括：

对每张样本图像的特征向量进行正则化主成分分析处理，训练得到正则化PCA投影矩阵；

将获得的目标图像输入预先训练得到的分类模型进行识别，输出所述目标图像的目标特征向量的步骤之后，所述方法还包括：

利用获得的所述正则化PCA投影矩阵对所述目标特征向量进行降维处理。

可选地，所述对每张样本图像的特征向量进行正则化主成分分析处理，训练得到正则化PCA投影矩阵的步骤，包括：

根据所述训练样本集包含的样本图像的数量以及每张样本图像的特征向量的维度数，构造初始矩阵；

采用正则化算法对所述初始矩阵进行分解，得到所述正则化PCA投影矩阵。

可选地，正则化主成分分析处理后的每张样本图像的特征向量包括多维向量，所述方法还包括：

将正则化主成分分析处理后的各张样本图像的特征向量包括的每一维向量映射至对应的空间坐标轴上；

对映射至各个空间坐标轴上的向量的标准差作归一化处理；

针对各张样本图像，根据归一化处理后的向量对该样本图像的特征向量进行更新。

第二方面，本申请实施例提供一种图像识别装置，所述装置包括：

识别模块，用于将目标图像输入至预先训练得到的分类模型进行识别，输出所述目标图像的目标特征向量；

确定模块，用于从预设的多个聚类中心中确定所述目标特征向量所属的目标聚类中心，其中，各个聚类中心为预先对训练样本集进行特征提取及聚类操作所获得的，所述训练样本集包括正样本子集和负样本子集；

检测模块，用于检测所述目标聚类中心是否与候选聚类中心一致，其中，所述候选聚类中心为预先获得的所述正样本子集在所述多个聚类中心中所属的聚类中心；

判断模块，用于根据检测所述目标聚类中心与候选聚类中心是否一致的检测结果，判断所述目标图像是否与所述正样本子集中的任意一张图像属于相同类型。

第三方面，本申请实施例提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述所述的方法。

第四方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述所述的方法。

本申请实施例提供的图像识别方法、装置及电子设备，预先通过对训练样本集进行特征提取及聚类操作得到多个聚类中心，再获得正样本子集在该多个聚类中心中所属的聚类中心。对目标图像进行识别时，首先计算目标图像的目标特征向量，再确定该目标特征向量所属的聚类中心。最后，检测目标特征向量所属的聚类中心与正样本子集所属的聚类中心是否一致，从而判断目标图像是否与正样本子集中的任一图像为同一类型。如此，无需直接依据分类模型的分类结果进行图像识别，而采用聚类中心匹配的方式进行检测，避免了现有技术中为了更好学习正样本的特征而加大正样本所占比例，而存在的对正样本的特征学习的需求与实际正样本所占比例之间存在矛盾，难以提高识别模型的准确性的问题。

为使本申请实施例的上述目的、特征和优点能更明显易懂，下面将结合实施例，并配合所附附图，作详细说明。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的图像识别系统的示意图。

图2为本申请实施例提供的图像识别方法的流程图。

图3为本申请实施例提供的神经网络模型的层级结构示意图。

图4为本申请实施例提供的聚类中心及候选聚类中心获取方法的流程图。

图5为本申请实施例提供的聚类中心的示意性效果图。

图6为本申请实施例提供的电子设备的示例性组件示意图。

图7为本申请实施例提供的图像识别装置的功能模块框图。

图标：10-图像识别系统；100-服务器；110-存储介质；120-处理器；130-图像识别装置；131-识别模块；132-确定模块；133-检测模块；134-判断模块；140-通信接口；200-用户终端。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请实施例的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1所示为本申请实施例提供的图像识别系统10的示意图，其中，该图像识别系统10可以是用于实现图片分享等服务的社交平台。该图像识别系统10可以包括服务器100及用户终端200。用户终端200可以包括多个，多个用户终端200分别与服务器100通信连接。用户终端200可以是，但不限于，智能手机、平板电脑、笔记本电脑等终端设备。其中，用户终端200中可以安装用于提供信息分享的互联网产品，例如，互联网产品可以是计算机或智能手机中使用的与信息分享服务相关的应用程序APP、Web网页、小程序等。用户终端200可将图片等信息上传至社交平台以进行分享，其中，图片可以是用户终端200拍摄获得的图片，也可以是截屏所得的图片。

服务器100可以是上述提供信息分享服务的互联网产品的后台服务器，用于对社交平台的信息进行管理，可以是单独的服务器，也可以是服务器集群。

图2示出了本申请实施例提供的图像识别方法的流程示意图，该图像识别方法可由图1中所示的服务器100执行。应当理解，在其它实施例中，本实施例的图像识别方法其中部分步骤的顺序可以根据实际需要相互交换，或者其中的部分步骤也可以省略或删除。该图像识别方法的详细步骤介绍如下。

步骤S210，将目标图像输入至预先训练得到的分类模型进行识别，输出所述目标图像的目标特征向量。

步骤S220，从预设的多个聚类中心中确定所述目标特征向量所属的目标聚类中心。

步骤S230，检测所述目标聚类中心是否与候选聚类中心一致。

步骤S240，根据检测所述目标聚类中心与候选聚类中心是否一致的检测结果，判断所述目标图像是否与所述正样本子集中的任意一张图像属于相同类型。

用户可通过用户终端200将想要分享的信息，例如图片，上传至服务器100。用户所分享的图片可能会存在一些包含隐私信息的图片，例如包含聊天记录的图片、包括转账信息的图片或包含个人身份信息的图片等。服务器100可对用户上传的图片进行识别，以确定是否为这类包含隐私信息的图片，如果是，则将用户上述的图片进行滤除，以避免在平台上传播，防止用户隐私信息的泄露。或者仅向上传该图片的用户开放浏览该图片的权限，而平台上的其他用户不具有浏览权限，从而避免被他人获取到隐私信息。

本实施例中，在获得用户终端200所上传的目标图像时，通过预先训练得到的分类模型对目标图像进行识别，输出目标图像的目标特征向量。该分类模型可以是利用样本图像(包含隐私信息的图像及不含隐私信息的图像)对Mobile Net神经网络模型进行训练所获得的。得到的目标特征向量可以是1024维的特征向量。

其中，基于Mobile Net神经网络模型训练得到的分类模型可依次包括卷积层(Conv layer)、压平层(Flatten layer)及全连接层(Fully Connected layer)，请结合参阅图3。应当理解，分类模型还可包括其他层级结构，例如激励层等，这里并不对分类模型的具体层级结构进行限定。

在输入的目标图像为224x224x3维的图像时，分类模型的全连接层可输出224维的目标图像的类别概率。本实施例中，考虑到分类模型直接输出的类别概率存在准确性不高的缺点，此处获取分类模型的压平层的输出结果，基于该输出结果进行后续操作。其中，压平层的输出可以是1024维的特征向量。

接着，再从预设的多个聚类中心中确定出该目标特征向量所属的聚类中心。该预设的多个聚类中心为预先对训练样本集进行特征提取及聚类操作所获得，该训练样本集包括正样本子集和负样本子集。其中，正样本子集可包括多张图像，该多张图像为包含隐私信息的图像，例如包含聊天记录、转账信息或个人身份信息等，可将包含不同类型的隐私信息的图像分为不同类型。而负样本子集中包含的图像为不包含隐私信息的图像，同样可分为多种不同类型。

本实施例中，检测目标特征向量所属的目标聚类中心是否与候选距离中心一致，该候选聚类中心为正样本子集在上述的多个聚类中心中所属的聚类中心。应当理解，在正样本子集中包含多种不同类型的图像时，则候选聚类中心相应地为多个。

通过检测目标聚类中心与候选聚类中心是否一致，从而判断出目标图像是否与正样本子集中的任意一张图像属于相同类型。在目标聚类中心与候选聚类中心中的任意一个一致时，可判定目标图像与正样本子集中的该候选聚类中心中一致的聚类中心所对应的图像属于相同类型，否则，可确定目标图像与正样本子集中的任意一张图像不属于相同类型，即该目标图像不包含隐私信息。

在本实施例中，在上述步骤S220中，可通过以下方式从预设的多个聚类中心确定目标特征向量所属的目标聚类中心：

计算目标特征向量与预设的每个聚类中心之间的欧式距离，将计算得到的最小欧式距离对应的聚类中心作为该目标特征向量所属的目标聚类中心。本实施例中，关于目标特征向量与每个聚类中心之间的欧式距离的具体计算过程可参考现有技术，在此不作赘述。

请参阅图4，在本实施例中，上述的多个聚类中心以及候选聚类中心可预先通过以下步骤获得：

步骤S410，将所述训练样本集中包含的各张样本图像导入预先训练得到的分类模型进行识别，输出各张样本图像的特征向量。

步骤S420，对各张样本图像的特征向量进行聚类操作，得到多个聚类中心。

步骤S430，将所述正样本子集中包含的各张正样本图像导入所述分类模型进行识别，输出各张正样本图像的特征向量。

步骤S440，获得各张正样本图像的特征向量在所述多个聚类中心中所属的聚类中心作为所述候选聚类中心。

由上述可知，训练样本集中包含正样本子集及负样本子集，即训练样本集中包含的多张样本图像包含具有隐私信息的正样本图像以及不含隐私信息的负样本图像。而在包含的多张正样本图像中又可分为不同类型的正样本图像，可根据包含的隐私信息的不同来进行化划分，例如包含聊天记录的正样本图像、包含转账信息的正样本图像等。同理，多张负样本图像也可划分为多种不同类型，各种类型的负样本图像为不含隐私信息的包含其他不同类型信息的图像。

可利用预先训练得到的分类模型对训练样本集中的各张样本图像进行识别，输出各张样本图像的特征向量。该分类模型可为上述的基于Mobile Net神经网络模型训练所获得的分类模型。对得到的各张样本图像的特征向量进行聚类操作，得到多个聚类中心。

本实施例中，可使用基于CUDA(Compute Unified Device Architecture)的K-mean聚类算法进行聚类操作，可选地，可从多张样本图像的特征向量中随机选定预设数量个特征向量，例如100个或200个等，作为初始聚类中心。然后，再计算各张样本图像的特征向量分别与每个初始聚类中心之间的欧式距离。针对每张样本图像，将与该样本图像的特征向量之间的欧式距离最小的一个初始聚类中心作为该样本图像的特征向量所属的初始聚类中心。

另外，针对所属同一初始聚类中心的至少两张样本图像，计算得到该至少两张样本图像的特征向量的中心特征向量，根据该中心特征向量对其所属的初始聚类中心进行偏移。其中，该中心特征向量为该至少两张样本图像的特征向量的均值。可检测得到的中心特征向量与其所属的初始聚类中心是否一致，若不一致，则将得到的中心特征向量作为更新后的初始聚类中心，再基于更新后的初始聚类中心进行聚合操作，直至得到的中心特征向量与初始聚类中心一致为止，得到最终的训练样本集对应的多个聚类中心。

在本实施例中，为了降低得到的目标特征向量在维度上的复杂度以及维度间向量的关联度，还可对得到的目标特征向量进行降维处理及白化操作。

在利用分类模型输出目标图像的目标特征向量之后，可利用获得的正则化PCA投影矩阵对目标特征向量进行降维处理。其中，该正则化PCA投影矩阵为通过对训练样本集中的每张样本图像的特征向量进行正则化主成分分析处理而训练得到的正则化PCA投影矩阵。

具体地，可根据训练样本集包含的样本图像的数量以及每张样本图像的特征向量的维度数，构造初始矩阵。再采用正则化算法对初始矩阵进行分解，以得到上述的正则化PCA投影矩阵。例如，训练样本集中样本图像的数量为1000张，每张样本图像的特征向量的维度为1024维，则可构造一个1000*1024的初始矩阵。再采用正则化算法对初始矩阵分解之后，该初始聚类的基即为正则化PCA投影矩阵。

通过训练样本集得到的正则化PCA投影矩阵可以用于正样本子集中图像的特征向量的降维处理，以及目标图像的目标特征向量的降维处理。

此外，在经过降维处理之后的特征向量仍然包含多维向量，且各维度之间的向量关联度上较大，造成信息冗余。因此，在本实施例中，将正则化主成分分析处理后的各张样本图像的特征向量包括的每一维向量映射至对应的空间坐标轴上。由于各个空间坐标轴上的数值标准不同，因此，可再对映射至各个空间坐标轴上的向量的标准差作归一化处理。针对各张样本图像，根据归一化处理后的向量对该样本图像的特征向量进行更新。从而，使得特征向量的各个维度的向量的标准统一，提高识别的准确性。

本实施例中，假设对训练样本集中的各张样本图像进行特征提取及聚类操作之后，可生成400个聚类中心，其中，每个聚类中心为256维的中心特征向量，可对各个聚类中心进行依次编号，生成的聚类中心可如图5中所示的圆点。对正样本子集中的各张正样本图像进行特征提取得到对应的特征向量后，所计算得到的特征向量所属的聚类中心包括编号为49、234及380的聚类中心。则可以判定，这几个聚类中心所表征的图像的类型是需要进行滤除或权限限定的图像，即包含聊天记录、转账信息或个人身份等信息的图像。

在对目标图像进行正式识别时，同样地，对目标图像进行特征提取，再计算得到的目标特征向量在多个聚类中心中所属的聚类中心，若目标特征向量所属的聚类中心为编号为49、234或380的聚类中心中的任意一个，则确定目标图像为包含隐私信息的图像。并且，根据目标图像所属的具体的聚类中心，确定出目标图像的具体类型。例如，若正样本子集中包含聊天记录、转账信息、个人身份信息的图像所属的聚类中心依次为49、234及380时。若目标图像所属的聚类中心为49，则可确定目标图像为包含聊天记录的图像。

请参阅图6，为本申请实施例提供的电子设备的示例性组件示意图，该电子设备可为图1中所示的服务器100。该电子设备可包括存储介质110、处理器120、图像识别装置130及通信接口140。本实施例中，存储介质110与处理器120均位于电子设备中且二者分离设置。然而，应当理解的是，存储介质110也可以是独立于电子设备之外，且可以由处理器120通过总线接口来访问。可替换地，存储介质110也可以集成到处理器120中，例如，可以是高速缓存和/或通用寄存器。

图像识别装置130可以理解为上述电子设备，或电子设备的处理器120，也可以理解为独立于上述电子设备或处理器120之外的在电子设备控制下实现上述图像识别方法的软件功能模块。

如图7所示，上述图像识别装置130可以包括识别模块131、确定模块132、检测模块133及判断模块134，下面分别对该图像识别装置130的各个功能模块的功能进行详细阐述。

识别模块131，用于将目标图像输入至预先训练得到的分类模型进行识别，输出所述目标图像的目标特征向量。可以理解，该识别模块131可以用于执行上述步骤S210，关于该识别模块131的详细实现方式可以参照上述对步骤S210有关的内容。

确定模块132，用于从预设的多个聚类中心中确定所述目标特征向量所属的目标聚类中心，其中，各个聚类中心为预先对训练样本集进行特征提取及聚类操作所获得的，所述训练样本集包括正样本子集和负样本子集。可以理解，该确定模块132可以用于执行上述步骤S220，关于该确定模块132的详细实现方式可以参照上述对步骤S220有关的内容。

检测模块133，用于检测所述目标聚类中心是否与候选聚类中心一致，其中，所述候选聚类中心为预先获得的所述正样本子集在所述多个聚类中心中所属的聚类中心。可以理解，该检测模块133可以用于执行上述步骤S230，关于该检测模块133的详细实现方式可以参照上述对步骤S230有关的内容。

判断模块134，用于根据检测所述目标聚类中心与候选聚类中心是否一致的检测结果，判断所述目标图像是否与所述正样本子集中的任意一张图像属于相同类型。可以理解，该判断模块134可以用于执行上述步骤S240，关于该判断模块134的详细实现方式可以参照上述对步骤S240有关的内容。

进一步地，本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质存储有机器可执行指令，机器可执行指令被执行时实现上述实施例提供的图像识别方法。

综上所述，本申请实施例提供的图像识别方法、装置及电子设备，预先通过对训练样本集进行特征提取及聚类操作得到多个聚类中心，再获得正样本子集在该多个聚类中心中所属的聚类中心。对目标图像进行识别时，首先计算目标图像的目标特征向量，再确定该目标特征向量所属的聚类中心，检测目标特征向量所属的聚类中心与正样本子集所属的聚类中心是否一致，从而判断目标图像是否与正样本子集中的任一图像为同一类型。通过该方案，采用聚类处理的方式，以准确判别出目标图像的类型。如此，无需直接依据分类模型的分类结果进行图像识别，而采用聚类中心匹配的方式进行检测，避免了现有技术中为了更好学习正样本的特征而加大正样本所占比例，而存在的对正样本的特征学习的需求与实际正样本所占比例之间存在矛盾，难以提高识别模型的准确性的问题。

以上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种图像识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的图像识别方法，其特征在于，所述从预设的多个聚类中心中确定所述目标特征向量所属的目标聚类中心的步骤，包括：

3.根据权利要求1所述的图像识别方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的图像识别方法，其特征在于，所述对各张样本图像的特征向量进行聚类操作，得到多个聚类中心的步骤，包括：

5.根据权利要求3所述的图像识别方法，其特征在于，所述将所述训练样本集中包含的各张样本图像导入预先训练得到的分类模型进行识别，输出各张样本图像的特征向量的步骤之后，所述方法还包括：

6.根据权利要求5所述的图像识别方法，其特征在于，所述对每张样本图像的特征向量进行正则化主成分分析处理，训练得到正则化PCA投影矩阵的步骤，包括：

7.根据权利要求5所述的图像识别方法，其特征在于，正则化主成分分析处理后的每张样本图像的特征向量包括多维向量，所述方法还包括：

对映射至各个空间坐标轴上的向量的标准差作归一化处理；

8.一种图像识别装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-7中任一项所述的方法。