[go: up one dir, main page]

CN102122389A - 一种图像相似性判断的方法及装置 - Google Patents

一种图像相似性判断的方法及装置 Download PDF

Info

Publication number
CN102122389A
CN102122389A CN2010100022407A CN201010002240A CN102122389A CN 102122389 A CN102122389 A CN 102122389A CN 2010100022407 A CN2010100022407 A CN 2010100022407A CN 201010002240 A CN201010002240 A CN 201010002240A CN 102122389 A CN102122389 A CN 102122389A
Authority
CN
China
Prior art keywords
picture
commodity
color value
main color
pictures
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010100022407A
Other languages
English (en)
Inventor
戴能
贾梦雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN2010100022407A priority Critical patent/CN102122389A/zh
Publication of CN102122389A publication Critical patent/CN102122389A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种图像相似性判断的方法及装置,为了解决图片相似性判断不够准确的问题,本申请公开的方法包括:对进行图片相似性判断的两个图片分别执行下述步骤,获得各图片的矢量空间:将图片分成多个区域,分别确定各区域的主颜色值为区域内的像素点颜色值的均值,以及确定图片整体的主颜色值为图片整体全部像素点颜色值的均值;根据多个区域的主颜色值和图片整体的主颜色值得到一个矢量空间;对进行图片相似性判断的两个图片对应的矢量空间进行比对,确定两个图片的相似性,由于图片可以得到包括多个主颜色值的矢量空间,这种值比较稳定,因此基于此使得图片相似性判断较为准确。

Description

一种图像相似性判断的方法及装置
技术领域
本申请属于图像处理技术领域,特别涉及一种图像相似性判断的方法及装置。
背景技术
当前网上购物,将商品归类为不同的集合,是一种帮助用户购物的重要方法。对商品按照某个属性分类,得到几种不同类别的商品,再在子类目中按照其他的属性进行(更细致的)分类,通过不断的分类操作,到最后我们就得到了特定的商品集合,比如黑色、制造商为NOKIA、型号为N73的手机。其中‘黑色’、‘NOKIA’、‘N73’乃至‘手机’都是不同属性的各个值。
某些商品的分类是比较明确的,比如手机,一定是某个特定的品牌,特定的型号等,当登记了手机的各种属性后(比如品牌,型号,样式),就能够使用程序对商品进行自动分类,将它们归类于相同或不同的集合。
而对于另一些商品,分类就不那么明确了,既可以是这种,也可以是那种,比如服装中的上衣、卫衣、长袖。由于有时无法完全登记这些商品的各种属性,同时有些属性的值也无法确定,比如颜色、图案等。这些困难直接造成无法将它们归类为相同或不同的集合中。
基于第二种情况,现有技术中有的解决方案是通过它们的图片信息,将使用相似图片的商品聚合在一起,可以将它们归类为相同或不同的集合中。使用每个商品都具有的图片作为属性,将属性确定下来。使用图片作为属性的一大优势是图片相对于文字,修改的成本要更高,所以更可信。同时,从图片中抽取足够能将不同商品区分开的、并且可以判断相似的信息,作为属性的值。这样,不同的商品就可以互相比较、分类。因此采用图片作为属性,首先要从图片中得到能够区分不同商品、并且可以进行相似比较的信息。目前对于图片,由于无法理解图片的内容,需要通过MD5算法对图片进行计算得到该图片对应的散列值,利用该散列值代表图片进行比较,这样做有以下缺点:通过MD5算法得到的散列值只能标识出图片的唯一性,一张图片稍微有一点变化,甚至无法识别的变化,也会导致完全不同的散列值出现。因此也就无法进行相似匹配,一张图改动一点和改动很多,根本无法从计算得到的散列值上区分开来。可见现有技术中存在对商品图片进行相似性判断时,商品图片被改动一点后不能够被准确识别,导致商品图片相似性判断不够准确的问题,并且计算工作量大,导致商品图片相似性判断效率低下。
发明内容
为了解决现有技术中商品图片相似性判断不够准确的问题,本申请实施例提供了一种图像相似性判断的方法,包括:
将已获取的商品图片分成多个区域,计算得到各区域的主颜色值和商品图片整体的主颜色值,主颜色值通过对区域内的像素点或商品图片整体全部像素点的颜色值取均值获得;
根据多个区域的主颜色值和商品图片整体的主颜色值得到一个矢量空间;
对多个商品图片对应的矢量空间进行比对,根据差值在一定阈值范围内,确定进行比对的商品图片相似。
同时本申请实施例还提供一种商品信息聚合的方法,包括:
对进行图像相似性判断的两个商品图片分别执行下述步骤,获得各图片的矢量空间:
将商品图片分成多个区域,分别确定各区域的主颜色值为区域内的像素点颜色值的均值,以及确定商品图片整体的主颜色值为商品图片整体全部像素点颜色值的均值;
根据多个区域的主颜色值和商品图片整体的主颜色值得到一个矢量空间;
对进行图像相似性判断的两个商品图片对应的矢量空间进行比对,确定两个商品图片的相似性;
将使用相似商品图片商品的商品信息聚合在同一集合中。
同时,本申请实施例还提供了一种图像搜索方法,包括:
搜索引擎服务器接收客户端发送的用户查询图片的搜索请求;
搜索引擎服务器将待查询图片划分为若干个区域,分别确定各区域的主颜色值为区域内的像素点颜色值的均值,以及确定待查询图片整体的主颜色值为待查询图片整体全部像素点颜色值的均值;
搜索引擎服务器根据待查询图片整体的主颜色值以及每一区域的主颜色值得到一个矢量空间;
搜索引擎服务器获取数据库中保存的图片整体的主颜色值,以及数据库中图片各区域的主颜色值,并根据数据库中图片整体的主颜色值以及各区域的主颜色值得到对应的矢量空间,数据库中图片的区域数量与待查询图片的区域数量相同;
搜索引擎服务器对待查询图片的以及数据库中图片的矢量空间进行一一比对,确定两个图片的相似性;
搜索引擎服务器将比对获得的与待查询图片相似的图片发送给客户端。
同时本申请实施例还提供一种图像相似性判断的装置,包括:
第一运算模块,用于将已获取的商品图片分成多个区域,计算得到各区域的主颜色值和商品图片整体的主颜色值,主颜色值通过对区域内的像素点或商品图片整体全部像素点的颜色值取均值获得;
第二运算模块,用于根据多个区域的主颜色值和商品图片整体的主颜色值得到一个矢量空间;
比对模块,用于对多个商品图片对应的矢量空间进行比对,根据差值在一定阈值范围内,确定进行比对的商品图片相似。
同时本申请实施例还提供一种图像相似性判断的装置,包括:
运算模块,用于对进行图片相似性判断的两个图片分别执行下述步骤,获得各图片的矢量空间:
将图片分成多个区域,分别确定各区域的主颜色值为区域内的像素点颜色值的均值,以及确定图片整体的主颜色值为图片整体全部像素点颜色值的均值;
根据多个区域的主颜色值和图片整体的主颜色值得到一个矢量空间;
比对模块,用于对进行图片相似性判断的两个图片对应的矢量空间进行比对,确定两个图片的相似性。
由上述本申请提供的具体实施方案可以看出,正是由图片可以得到包括多个主颜色值的矢量空间,这种值比较稳定,可以忽略图片微小的变化,也能判断出图片变动的多少,基于此可以同其他图片对应的矢量空间进行相似匹配,使得商品图片相似性判断较为准确,并且由于仅对图片各区域的主颜色差值以及图片整体主颜色差值为参数对两个矢量空间进行比较,运算参数少,加快了图片相似性判断的速度。
附图说明
图1为本申请提供的第一实施例系统结构图
图2为本申请提供的第一实施例方法流程图;
图3为本申请提供的第二实施例装置结构图;
图4为本申请提供的第三实施例装置结构图。
具体实施方式
本申请提供的第一实施例是一种图像相似性判断的方法,该方法应用于如图1所示的系统中,该系统包括:服务器10和若干客户端20,其中服务器10用于收集、整理商户通过客户端上传的商品图片,并对获取的商品图片进行相似性判断。其中,客户端20可以是移动终端、计算机等。
该方法流程如图2所示,包括:
步骤101:商户甲通过客户端20打开商品上传表单,添加待上传商品A的商品图片01,并在上传表单的商品描述中提供商品A的商品图片02的链接,进行商品上传。
商品上传后,商品A的商品图片01和商品图片02会被存储于一个商品图片库中以备后续步骤调用。
步骤102:商户乙通过客户端20打开商品上传表单,添加待上传商品B的商品图片02’,进行商品上传。
同样,商品上传后,商品B的商品图片02’也会被存储于该商品图片库中已备后续步骤调用。
步骤103:服务器10从商品图片库中获取商品图片01、商品图片02和商品图片02’。
商品图片库可以设置在服务器10中,也可以设置在专门存储服务器11中,存储服务器11可以通过网络与服务器10连接,使得服务器10能够方便的从商品图片库中获取商品图片。
步骤104:服务器10将图片01分成9个区域,计算得到9个区域的主颜色值和商品图片01整体的主颜色值,并据此得到一个矢量空间,依次得到商品图片02和商品图片02’对应的矢量空间。
服务器10将商品图片01分成9个区域仅是本实施例中的一个优选的方案,当然也可以将将图片01划分为4个区域或16个区域。
本实施例中的颜色值由一个十六进制符号来表示,这个符号由红色、绿色和蓝色的值组成(RGB)。每种颜色的最小值是0(十六进制:#00),最大值是255(十六进制:#FF)。例如一个纯黑的像素点的颜色值为#FFFFFF,一个纯白的像素点的颜色值为#000000。本实施例中商品图片1包括640*480个像素点,将商品图片1分为大小基本相同的9个区域,每个区域的像素点个数大约为3。4万个,对区域1中的全部像素点的颜色值取均值得到区域1的主颜色值#102030,下面对像素点的颜色值取均值进行说明,例如有2个像素点颜色值分别为#111111和#333333取均值得到#222222,同样得到区域2-区域9的主颜色值,具体参见表1,标识1-9表示区域1-区域9的标识,标识0表示商品图片整体的标识。
Figure G2010100022407D00061
表1
根据表1中的主颜色值得到一个矢量空间r1,类似的得到商品图片02对应的矢量空间r2和商品图片02’对应的矢量空间r2’。
步骤105:服务器10对商品图片01、商品图片02和商品图片02’对应的矢量空间r1、r2和r2’进行比对,根据差值在一定阈值Δ范围内,确定进行比对的商品图片01、商品图片02和商品图片02’相似。
将矢量空间r1和矢量空间r2进行比较,差值小于等于阈值Δ,由此确定商品图片01和商品图片02相似,将矢量空间r2和矢量空间r2’进行比较,差值小于等于阈值Δ,由此确定商品图片02和商品图片02’相似,将矢量空间r1和矢量空间r2’进行比较,差值小于等于阈值Δ,由此确定商品图片01和商品图片02’相似。当然若矢量空间r1和矢量空间r2进行比较,差值X大于阈值Δ,由此确定商品图片01和商品图片02不相似,同样若矢量空间r2和矢量空间r2’进行比较,差值大于阈值Δ,由此确定商品图片02和商品图片02’不相似。本实施例中以商品图片02和商品图片02’相似,商品图片02和商品图片01相似进行后续说明。
将矢量空间r1和矢量空间r2进行比较的差值和阈值Δ比较的具体的计算如下,r1=(r1ID1,r1ID2,r1ID3,r1ID4,r1ID5,r1ID6,r1ID7,r1ID8,r1ID9,r1ID10),r2=(r2ID1,r2ID2,r2ID3,r2ID4,r2ID5,r2ID6,r2ID7,r2ID8,r2ID9,r2ID10),其中r1ID1至r1ID9表示图片01区域1至区域9的主颜色值,其中r1ID10表示商品图片01整体的主颜色值,其中r2ID1-r2ID9表示图片02区域1至区域9的主颜色值,其中r2ID10表示商品图片02整体的主颜色值,差值X=[(r1ID1-r2ID1)2+(r1ID2-r2ID2)2+…+(r1ID10-r2ID10)2]1/2,将差值和阈值Δ比较,根据差值小于等于阈值Δ,由此确定商品图片01和商品图片02相似。通过上述计算,对矢量空间r1和矢量空间r2进行比对,确定进行比对的商品图片01和商品图片02相似,只是本实施例中优选方案,还可以采用如下方法,对矢量空间r1和矢量空间r2进行比较,确定进行比对的商品图片01和商品图片02相似。当然,差值X还可以表示如下:X=(r1ID1-r2ID1)2+(r1ID2-r2ID2)2+…+(r1ID10-r2ID10)2。或者X=(r1ID1-r2ID1)4+(r1ID2-r2ID2)4+…+(r1ID10-r2ID10)4。差值X还可以表示如下:X=|r1ID1-r2ID1|+|r1ID2-r2ID2|+...+|r1ID10-r2ID10|。可见根据矢量空间r1中的9个区域的主颜色值和图片01整体的主颜色值,以及矢量空间r2中的9个区域的主颜色值和图片02整体的主颜色值,以对应区域的颜色差值以及主颜色差值为参数对,利用多种预定的算法,均可以实现对矢量空间r1和矢量空间r2进行比较,进而确定商品图片01和商品图片02相似,本实施例中的上述算法仅是为了说明本申请技术方案的优选实施例,而并非对本申请的限定。
前述方法,适用于商品图片同样也适用于其它图片。
通过上述的说明可知,由图片可以得到包括多个主颜色值的矢量空间,这种值比较稳定,可以忽略图片微小的变化,也能判断出图片变动的多少。经过大量的实验发现,将图片划分为9个区域,计算得到每个区域的主颜色值,再结合图片整体的主颜色值,就足以区分不同的商品图片,可以消除商品图片的放大、缩小、轻度水印带来的变化。并且,由于主颜色是一个稳定、连续的值,9个区域及整体的主颜色可以构成一个矢量空间,基于此可以同其他图片对应的矢量空间进行相似匹配,使得商品图片相似性判断较为准确。
进一步基于上述方法,本实施例还提供一种商品信息聚合的方法,基于商品图片中得到矢量空间后,使用图片对应的矢量空间,进行相似匹配,可以将相似的商品图片对应的商品聚类为同一个集合。
为此本实施例中服务器10还会将使用相似商品图片的商品聚合在同一集合中。
具体实施时,首先从商品图片库中获得商品A,对于商品A此时其作为一个新增商品,它使用了2张商品图片:商品图片01和商品图片02。由于当前没有任何集合,所以也没有任何集合中的商品使用到商品图片01和商品图片02,基于此得到了一个新的集合:集合1。从商品图片库中获得商品B,再根据商品B,它使用到了商品图片02’,由于商品图片02’和商品图片02相似,将商品B加入集合1中。从商品图片库中获得商品C,作为新增商品的商品C,它使用了商品图片03和商品图片04。根据商品图片03和商品图片04,与集合1中的商品A、商品B使用的商品图片01、商品图片02和商品图片02’均不相似(具体的相似判断与前述的方法类似,此处不再赘述),则将商品C加入一个新的集合2中。最后从商品图片库中获得商品D,根据作为新增商品的商品D,它使用了商品图片03’和商品图片01’,根据商品图片01’与商品图片01相似,根据商品图片03’与商品图片03相似,将集合1和集合2合并为集合3并将商品D使用的商品图片03’和商品图片01’加入集合3中。若从商品图片库中获得商品D早于获得商品C,此时只有集合1,集合1中商品的商品图片包括:商品图片01、商品图片02和商品图片02’。则将商品D中的商品图片03’和商品图片01’加入到集合1中,同时,将商品图片03作为集合1中商品的商品图片的一部分。
若用户甲有5个商品A1、商品A2、商品A3、商品A4和商品A5,其中商品A1使用了商品图片11,商品A2使用了商品图片12,商品A3使用了商品图片13,商品A4使用了商品图片14,商品A5使用了商品图片15,商品图片11、商品图片12、商品图片13、商品图片14和商品图片15相似,由于用户甲的商品数量为5个不大于预定数量6,则根据商品图片11、商品图片12、商品图片13、商品图片14和商品图片15相似,将商品A1、商品A2、商品A3、商品A4和商品A5聚合在同一集合中。类似的,商品A1、商品A2、商品A3、商品A4和商品A5,分属于5个不同的用户标识,根据商品图片11、商品图片12、商品图片13、商品图片14和商品图片15相似,将商品A1、商品A2、商品A3、商品A4和商品A5聚合在同一集合中。但若在不同的应用系统中,商品A1、商品A2、商品A3、商品A4和商品A5同属于用户甲,由于用户甲的商品数量为5个大于预定数量4,即使商品图片11、商品图片12、商品图片13、商品图片14和商品图片15相似,也不将商品A1、商品A2、商品A3、商品A4和商品A5聚合在同一集合中。
进行商品聚合时,使用每个商品都具有的商品图片作为属性,将属性确定下来。使用图片作为属性的一大优势是图片相对于文字,修改的成本要更高,所以进行商品聚合时,从图片中抽取足够能将不同商品区分开的、并且可以判断相似的信息如前述提到的矢量空间,作为属性的值。这样,不同的商品就可以互相比较、分类,同时分类的结果更加准确。
本申请判断图像相似性的方法可以应用在不同的技术领域,如,垃圾图片的过滤,以及图像搜索技术领域等。当应用于垃圾图片的过滤时,可在服务器中预先建立垃圾图片库,所述垃圾图片库中预先存储了各种违反法律规定或社会道德标准的图片以及任何被认为不宜在互联网上传播的图片,如,淫秽图片、暴力图片等。当用户利用客户端传输图片类信息时,服务器会扫描获取该图片,并将该图片与服务器中的垃圾图片图中的图片一一比对,并利用本申请所述的图像相似性判断方法确定该图片是否为垃圾图片。若为垃圾图片,则禁止该图片的传输。
当将本申请所述的图像相似性判断方法应用于图片搜索技术领域时,服务器端接收到用户欲搜索的图片时,会与服务器中预存储的图片或利用爬虫技术抓取到的图片一一比对,以两个图片中对应区域的主颜色差值以及图片整体主颜色差值为参数对两个矢量空间进行比较,确定两个图片的相似性。并将所有相似的图片作为搜索结果发送至用户客户端。利用本申请的图像相似性判断方法,由于只计算各区域的主颜色差值,计算工作量较小,因此提高了搜索的效率,并尽可能多的搜索到相似的图片。
本实施例方法流程的具体步骤包括:
步骤301:搜索引擎服务器接收客户端发送的用户查询相似图片的搜索请求。
用户欲通过搜索引擎服务器搜索与某一待查询图片相同或相似的图片,可以向搜索引擎客户端指定欲搜索的图片,并通过该客户端向搜索引擎服务器发出图片搜索请求,其中,欲搜索的图片可以是用户上传至客户端的图片,也可以是客户端从互联网中获取的图片。
步骤302:搜索引擎服务器将待查询图片划分为若干个区域,分别确定各区域的主颜色值为区域内的像素点颜色值的均值,以及确定待查询图片整体的主颜色值为待查询图片整体全部像素点颜色值的均值。
搜索引擎服务器将待查询图片划分为N个区域,并尽量保证每个区域的大小基本相同,这里,N的取值为大于1的整数,例如9、4、16等;然后,对于划分后N个区域中的每一区域,统计该区域上的像素点个数,以及每个像素点的颜色值,并以该区域内的像素点的颜色值的平均值作为该区域的主颜色值。本实施例中的颜色值由一个十六进制符号来表示,这个符号由红色、绿色和蓝色的值组成(RGB)。每种颜色的最小值是0(十六进制:#00),最大值是255(十六进制:#FF)。例如一个纯黑的像素点的颜色值为#FFFFFF,一个纯白的像素点的颜色值为#000000。本实施例中以待查询图片包括640*480个像素点为例,将待查询图片分为大小基本相同的9个区域,每个区域的像素点个数大约为3.4万个,对区域1中的全部像素点的颜色值取均值得到区域1的主颜色值#102030,下面对像素点的颜色值取均值进行说明,例如有2个像素点颜色值分别为#111111和#333333取均值得到#222222,同样得到区域2-区域9的主颜色值,具体参见表2,标识1-9表示区域1-区域9的标识,标识0表示待查询图片整体的标识。
Figure G2010100022407D00111
表2
步骤303:搜索引擎服务器根据待查询图片整体的主颜色值以及每一区域的主颜色值得到一个矢量空间。
根据表2中的主颜色值得到一个矢量空间r1,f1=(r1ID1,r1ID2,r1ID3,r1ID4,f1ID5,r1ID6,f1ID7,r1ID8,r1ID9,r1ID10),其中r1ID1至r1ID9表示图片01区域1至区域9的主颜色值,其中r1ID10表示待查询图片01整体的主颜色值。
步骤304:搜索引擎服务器获取数据库中保存的多个图片整体的主颜色值,以及数据库中图片中各区域的主颜色值,并根据数据库中图片整体的主颜色值以及各区域的主颜色值得到对应的矢量空间。
数据库中保存的图片可以是搜索引擎服务器利用爬虫技术从互联网中搜集大量的图片,也可以是购物网站自身保存的用户上传的图片,当然本申请实施例对图片的来源并不做限定。搜索引擎服务器可以预先将数据库中所有的图片划分为若干个区域,本实施例可以将每一图片均划分为9个大小基本相同的区域,并且分别计算每一区域的主颜色值,以及每一图片整体的主颜色值。搜索引擎服务器可以针对图片的标识,各图片中每一区域的标识,以及主颜色值建立索引表,该索引表的结构可以如表3所示。其中该标识的右数第一位表示每一图片中的各区域的标识,1-9表示区域1-区域9的标识,标识0表示图片整体的标识,左数前三位用于表示每一图片的标识,如图片标识001、002。当然本申请也可以在接到查询请求后再对数据库中储存的图片按照步骤202所述的方法确定相应的主颜色值。
Figure G2010100022407D00121
表3
根据表3中的主颜色值可以得到每一个图片对应的矢量空间,以图片标识001为例,其对应的矢量空间为r2,r2=(r2ID1,r2ID2,r2ID3,r2ID4,r2ID5,r2ID6,r2ID7,r2ID8,r2ID9,r2ID10)。其中r2ID1至r2ID9表示图片001区域1至区域9的主颜色值(标识0011、0012、0013、0014、0015、0016、0017、0018和0019的主颜色值),其中r2ID10表示图片001整体的主颜色值(标识0010的主颜色值)。
步骤305:搜索引擎服务器对待查询图片的以及数据库中图片的矢量空间进行一一比对,确定两个图片的相似性。
本实施例以待查询图片与图片标识001对应的矢量空间为例进行说明,将矢量空间r1和矢量空间r2进行比较,差值小于等于阈值Δ,由此确定待查询图片和图片001相似。当然若矢量空间r1和矢量空间r2进行比较,差值X大于阈值Δ,由此确定待查询图片和图片001不相似。
将矢量空间r1和矢量空间r2进行比较的差值和阈值Δ比较的具体的计算如下,差值X=[(r1ID1-r2ID1)2+(r1ID2-r2ID2)2+…+(r1ID10-r2ID10)2]1/2,将差值和阈值Δ比较,根据差值小于等于阈值Δ,由此确定待查询图片和图片001相似。通过上述计算,对矢量空间r1和矢量空间r2进行比对,确定进行比对的图片相似,只是本实施例中优选方案,还可以采用如下方法,差值X还可以表示如下:X=(r1ID1-r2ID1)2+(r1ID2-r2ID2)2+…+(r1ID10-r2ID10)2。或者X=(r1ID1-r2ID1)4+(r1ID2-r2ID2)4+…+(r1ID10-r2ID10)4。差值X还可以表示如下:X=|r1ID1-r2ID1|+|r1ID2-r2ID2|+...+|r1ID10-r2ID10|。可见根据矢量空间r1中的9个区域的主颜色值和整体的主颜色值,以及矢量空间r2中的9个区域的主颜色值和整体的主颜色值,以对应区域的主颜色差值以及主颜色差值为参数对,利用多种预定的算法,均可以实现对矢量空间r1和矢量空间r2进行比较,进而确定待查询图片与数据库中的图片是否相似,本实施例中的上述算法仅是为了说明本申请技术方案的优选实施例,而并非对本申请的限定。
步骤306:搜索引擎服务器将比对获得的与待查询图片相似的图片发送给客户端。
通过上述的说明可知,由图片可以得到包括多个主颜色值的矢量空间,这种值比较稳定,可以忽略图片微小的变化,也能判断出图片变动的多少。经过大量的实验发现,将图片划分为9个区域,计算得到每个区域的主颜色值,再结合图片整体的主颜色值,就足以区分不同的商品图片,可以消除商品图片的放大、缩小、轻度水印带来的变化。并且,由于主颜色是一个稳定、连续的值,9个区域及整体的主颜色可以构成一个矢量空间,基于此可以同其他图片对应的矢量空间进行相似匹配,使得商品图片相似性判断较为准确。
本申请提供的第二实施例是一种图像相似性判断的装置,该装置结构如图3所示,包括:
运算模块201,用于对进行图片相似性判断的两个图片分别执行下述步骤,获得各图片的矢量空间:
将图片分成多个区域,分别确定各区域的主颜色值为区域内的像素点颜
色值的均值,以及确定图片整体的主颜色值为图片整体全部像素点颜色值的均值;
根据多个区域的主颜色值和图片整体的主颜色值得到一个矢量空间;
比对模块202,用于对进行图片相似性判断的两个图片对应的矢量空间进行比对,确定两个图片的相似性。
进一步,运算模块201,具体用于将获取的商品图片分成九个区域。
进一步,运算模块201,具体用于根据进行图片相似性判断的两个图片中的各自的矢量空间中的多个区域的主颜色值和图片整体的主颜色值,以对应区域的颜色差值以及主颜色差值为参数对两个矢量空间进行比较,确定两个图片的相似性。
本申请提供的第三实施例是一种商品信息聚合的装置,该装置结构如图4所示,包括:
运算模块201,用于对进行图片相似性判断的两个图片分别执行下述步骤,获得各图片的矢量空间:
将图片分成多个区域,分别确定各区域的主颜色值为区域内的像素点颜色值的均值,以及确定图片整体的主颜色值为图片整体全部像素点颜色值的均值;
根据多个区域的主颜色值和图片整体的主颜色值得到一个矢量空间;
比对模块202,用于对进行图片相似性判断的两个图片对应的矢量空间进行比对,确定两个图片的相似性。
聚合模块203,用于将使用相似商品图片的商品聚合在同一集合中。
进一步,还包括:
比较模块204,用于将新增商品的商品图片和已有集合中商品的商品图片进行比较;
聚合模块203,具体用于若新增商品的所有商品图片和已有集合中商品的商品图片均不相似,则将该商品加入一个新的集合中,若新增商品的所有商品图片均和已有的一个集合中商品的商品图片相似,则将新增商品加入该已有集合中,若新增商品的所有商品图片中的部分和已有一个集合中商品的商品图片相似,其它部分与其它已有集合中的商品图片均不相似,则将新增商品加入该集合中,且将新增商品的其它部分商品图片作为该已有集合中商品的商品图片的一部分,若新增商品的所有商品图片分别与几个集合中的商品图片相似,将这几个集合合并同一集合。
进一步,聚合模块203,还用于将使用相似商品图片的商品聚合在同一集合中,使用相似商品图片的商品属于不同用户标识,或使用相似商品图片的商品的数量不大于预定数量,且属于同一用户标识。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (15)

1.一种图像相似性判断的方法,其特征在于,包括:
对进行图片相似性判断的两个图片分别执行下述步骤,获得各图片的矢量空间:
将图片分成多个区域,分别确定各区域的主颜色值为区域内的像素点颜色值的均值,以及确定图片整体的主颜色值为图片整体全部像素点颜色值的均值;
根据多个区域的主颜色值和图片整体的主颜色值得到一个矢量空间;
对进行图片相似性判断的两个图片对应的矢量空间进行比对,确定两个图片的相似性。
2.如权利要求1所述的方法,其特征在于,将获取的图片分成九个区域。
3.如权利要求1所述的方法,其特征在于,根据进行图片相似性判断的两个图片中的各自的矢量空间中的多个区域的主颜色值和图片整体的主颜色值,以对应区域的主颜色差值以及图片整体主颜色差值为参数对两个矢量空间进行比较,确定两个图片的相似性。
4.如权利要求3所述的方法,其特征在于,所述以对应区域的主颜色差值以及图片整体主颜色差值为参数对两个矢量空间进行比较的公式具体包括:
X=[(r1ID1-r2ID1)2+(r1ID2-r2ID2)2+...+(r1ID10-r2ID10)2]1/2,或
X=(r1ID1-r2ID1)2+(r1ID2-r2ID2)2+...+(r1ID10-r2ID10)2,或
X=(r1ID1-r2ID1)4+(r1ID2-r2ID2)4+...+(r1ID10-r2ID10)4,或
X=|r1ID1-r2ID1|+|r1ID2-r2ID2|+...+|r1ID10-r2ID10|,
其中,X为差值,r1ID1至r1ID9表示进行图片相似性判断的第一图片各区域对应的主颜色值,r1ID10表示图片整体的主颜色值;r2ID1至r2ID9表示进行图片相似性判断的第二图片各区域对应的主颜色值,r2ID10表示图片整体的主颜色值。
5.一种商品信息聚合的方法,其特征在于,包括:
对进行图像相似性判断的两个商品图片分别执行下述步骤,获得各图片的矢量空间:
将商品图片分成多个区域,分别确定各区域的主颜色值为区域内的像素点颜色值的均值,以及确定商品图片整体的主颜色值为商品图片整体全部像素点颜色值的均值;
根据多个区域的主颜色值和商品图片整体的主颜色值得到一个矢量空间;
对进行图像相似性判断的两个商品图片对应的矢量空间进行比对,确定两个商品图片的相似性;
将使用相似商品图片商品的商品信息聚合在同一集合中。
6.如权利要求5所述的方法,其特征在于,还包括:
将新增商品的商品图片和已有集合中商品的商品图片进行比较;
将商品信息聚合具体为:
若新增商品的所有商品图片和已有集合中商品的商品图片均不相似,则将该新增商品的商品信息加入一个新的集合中;
若新增商品的所有商品图片均和已有的一个集合中商品的商品图片相似,则将新增商品的商品信息加入该已有集合中;
若新增商品的所有商品图片中的部分和已有一个集合中商品的商品图片相似,其它部分与其它已有集合中的商品图片均不相似,则将新增商品的商品信息加入该集合中,且将新增商品的其它部分商品图片作为该已有集合中商品的商品图片的一部分;
若新增商品的所有商品图片分别与几个集合中的商品图片相似,将这几个集合合并同一集合。
7.如权利要求5所述的方法,其特征在于,使用相似商品图片的商品属于不同用户标识,或使用相似商品图片的商品的数量不大于预定数量,且属于同一用户标识。
8.一种图像搜索方法,其特征在于,包括:
搜索引擎服务器接收客户端发送的用户查询图片的搜索请求;
搜索引擎服务器将待查询图片划分为若干个区域,分别确定各区域的主颜色值为区域内的像素点颜色值的均值,以及确定待查询图片整体的主颜色值为待查询图片整体全部像素点颜色值的均值;
搜索引擎服务器根据待查询图片整体的主颜色值以及每一区域的主颜色值得到一个矢量空间;
搜索引擎服务器获取数据库中保存的多个图片整体的主颜色值,以及数据库中图片各区域的主颜色值,并根据数据库中图片整体的主颜色值以及各区域的主颜色值得到对应的矢量空间,数据库中图片的区域数量与待查询图片的区域数量相同;
搜索引擎服务器对待查询图片的以及数据库中图片的矢量空间进行一一比对,确定两个图片的相似性;
搜索引擎服务器将比对获得的与待查询图片相似的图片发送给客户端。
9.如权利要求8所述的方法,其特征在于,所述搜索引擎服务器获取数据库中保存的图片整体的主颜色值,以及数据库中图片中各区域的主颜色值,具体包括:
将数据库中的图片划分为若干个区域,分别确定各区域的主颜色值为区域内的像素点颜色值的均值,以及确定待查询图片整体的主颜色值为待查询图片整体全部像素点颜色值的均值,并将所述主颜色值与相应的图片标识建立索引表;
搜索引擎服务器从索引表中获取相应的主颜色值。
10.一种图像相似性判断的装置,其特征在于,包括:
运算模块,用于对进行图片相似性判断的两个图片分别执行下述步骤,获得各图片的矢量空间:
将图片分成多个区域,分别确定各区域的主颜色值为区域内的像素点颜色值的均值,以及确定图片整体的主颜色值为图片整体全部像素点颜色值的均值;
根据多个区域的主颜色值和图片整体的主颜色值得到一个矢量空间;
比对模块,用于对进行图片相似性判断的两个图片对应的矢量空间进行比对,确定两个图片的相似性。
11.如权利要求10所述的装置,其特征在于,运算模块,具体用于将获取的图片分成九个区域。
12.如权利要求10所述的装置,其特征在于,运算模块,具体用于根据进行图片相似性判断的两个图片中的各自的矢量空间中的多个区域的主颜色值和图片整体的主颜色值,以对应区域的主颜色差值以及图片整体主颜色差值为参数对两个矢量空间进行比较,确定两个图片的相似性。
13.一种商品信息聚合的装置,其特征在于,运算模块,用于对进行图片相似性判断的两个图片分别执行下述步骤,获得各图片的矢量空间:
将图片分成多个区域,分别确定各区域的主颜色值为区域内的像素点颜色值的均值,以及确定图片整体的主颜色值为图片整体全部像素点颜色值的均值;
根据多个区域的主颜色值和图片整体的主颜色值得到一个矢量空间;
比对模块,用于对进行图片相似性判断的两个图片对应的矢量空间进行比对,确定两个图片的相似性,
聚合模块,用于将使用相似商品图片的商品聚合在同一集合中。
14.如权利要求13所述的装置,其特征在于,还包括:
比较模块,用于将新增商品的商品图片和已有集合中商品的商品图片进行比较;
聚合模块,具体用于若新增商品的所有商品图片和已有集合中商品的商品图片均不相似,则将该商品加入一个新的集合中,若新增商品的所有商品图片均和已有的一个集合中商品的商品图片相似,则将新增商品加入该已有集合中,若新增商品的所有商品图片中的部分和已有一个集合中商品的商品图片相似,其它部分与其它已有集合中的商品图片均不相似,则将新增商品加入该集合中,且将新增商品的其它部分商品图片作为该已有集合中商品的商品图片的一部分,若新增商品的所有商品图片分别与几个集合中的商品图片相似,将这几个集合合并同一集合。
15.如权利要求13所述的装置,其特征在于,聚合模块,还用于将使用相似商品图片的商品聚合在同一集合中,使用相似商品图片的商品属于不同用户标识,或使用相似商品图片的商品的数量不大于预定数量,且属于同一用户标识。
CN2010100022407A 2010-01-12 2010-01-12 一种图像相似性判断的方法及装置 Pending CN102122389A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010100022407A CN102122389A (zh) 2010-01-12 2010-01-12 一种图像相似性判断的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010100022407A CN102122389A (zh) 2010-01-12 2010-01-12 一种图像相似性判断的方法及装置

Publications (1)

Publication Number Publication Date
CN102122389A true CN102122389A (zh) 2011-07-13

Family

ID=44250940

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010100022407A Pending CN102122389A (zh) 2010-01-12 2010-01-12 一种图像相似性判断的方法及装置

Country Status (1)

Country Link
CN (1) CN102122389A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103295243A (zh) * 2012-02-29 2013-09-11 佳能株式会社 图像处理方法和设备以及物体检测方法和系统
CN104112284A (zh) * 2013-04-22 2014-10-22 阿里巴巴集团控股有限公司 一种图片的相似度检测方法和设备
WO2014183591A1 (zh) * 2013-05-16 2014-11-20 北京京东尚科信息技术有限公司 一种提供图像的方法和服务器装置以及终端装置
CN104424230A (zh) * 2013-08-26 2015-03-18 阿里巴巴集团控股有限公司 一种网络商品推荐方法及装置
CN106411988A (zh) * 2016-03-31 2017-02-15 北京金山安全软件有限公司 一种垃圾处理方法、装置及移动终端
WO2017088701A1 (zh) * 2015-11-27 2017-06-01 阿里巴巴集团控股有限公司 一种海量图片管理方法和装置
CN106878680A (zh) * 2017-02-24 2017-06-20 深圳汇创联合自动化控制有限公司 一种简易的输电设备辨认系统
CN107862710A (zh) * 2017-11-28 2018-03-30 奕响(大连)科技有限公司 一种基于转换线条的图片相似判定方法
CN108470028A (zh) * 2017-02-23 2018-08-31 北京唱吧科技股份有限公司 一种图片审核方法和装置
CN110990512A (zh) * 2019-11-29 2020-04-10 农业农村部规划设计研究院 矢量要素与行政区域全覆盖检查的方法和装置
CN114691252A (zh) * 2020-12-28 2022-07-01 中国联合网络通信集团有限公司 屏幕显示方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1296597A (zh) * 1999-02-01 2001-05-23 Lg电子株式会社 使用可靠性的代表性颜色指定方法
US6253201B1 (en) * 1998-06-23 2001-06-26 Philips Electronics North America Corporation Scalable solution for image retrieval
CN1916906A (zh) * 2006-09-08 2007-02-21 北京工业大学 基于信息突变的图像检索算法
CN1926575A (zh) * 2004-03-03 2007-03-07 日本电气株式会社 图像相似度计算系统、图像搜索系统、图像相似度计算方法和图像相似度计算程序
CN101021870A (zh) * 2007-03-20 2007-08-22 北京中星微电子有限公司 一种图片查询方法及系统
CN101211355A (zh) * 2006-12-30 2008-07-02 中国科学院计算技术研究所 一种基于聚类的图像查询方法
CN101216830A (zh) * 2007-12-28 2008-07-09 腾讯科技(深圳)有限公司 根据颜色搜索商品的方法和系统
CN101576896A (zh) * 2008-05-09 2009-11-11 鸿富锦精密工业(深圳)有限公司 相似图片检索系统及方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6253201B1 (en) * 1998-06-23 2001-06-26 Philips Electronics North America Corporation Scalable solution for image retrieval
CN1296597A (zh) * 1999-02-01 2001-05-23 Lg电子株式会社 使用可靠性的代表性颜色指定方法
CN1926575A (zh) * 2004-03-03 2007-03-07 日本电气株式会社 图像相似度计算系统、图像搜索系统、图像相似度计算方法和图像相似度计算程序
CN1916906A (zh) * 2006-09-08 2007-02-21 北京工业大学 基于信息突变的图像检索算法
CN101211355A (zh) * 2006-12-30 2008-07-02 中国科学院计算技术研究所 一种基于聚类的图像查询方法
CN101021870A (zh) * 2007-03-20 2007-08-22 北京中星微电子有限公司 一种图片查询方法及系统
CN101216830A (zh) * 2007-12-28 2008-07-09 腾讯科技(深圳)有限公司 根据颜色搜索商品的方法和系统
CN101576896A (zh) * 2008-05-09 2009-11-11 鸿富锦精密工业(深圳)有限公司 相似图片检索系统及方法

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103295243A (zh) * 2012-02-29 2013-09-11 佳能株式会社 图像处理方法和设备以及物体检测方法和系统
CN103295243B (zh) * 2012-02-29 2016-11-16 佳能株式会社 图像处理方法和设备以及物体检测方法和系统
CN104112284A (zh) * 2013-04-22 2014-10-22 阿里巴巴集团控股有限公司 一种图片的相似度检测方法和设备
US9734164B2 (en) 2013-05-16 2017-08-15 Beijing Jingdong Shangke Information Technology Co, Ltd. Method, server, device, and terminal device for providing an image search
WO2014183591A1 (zh) * 2013-05-16 2014-11-20 北京京东尚科信息技术有限公司 一种提供图像的方法和服务器装置以及终端装置
TWI616834B (zh) * 2013-08-26 2018-03-01 Alibaba Group Services Ltd Network product recommendation method and device
CN104424230A (zh) * 2013-08-26 2015-03-18 阿里巴巴集团控股有限公司 一种网络商品推荐方法及装置
WO2017088701A1 (zh) * 2015-11-27 2017-06-01 阿里巴巴集团控股有限公司 一种海量图片管理方法和装置
CN106411988A (zh) * 2016-03-31 2017-02-15 北京金山安全软件有限公司 一种垃圾处理方法、装置及移动终端
CN108470028A (zh) * 2017-02-23 2018-08-31 北京唱吧科技股份有限公司 一种图片审核方法和装置
CN106878680A (zh) * 2017-02-24 2017-06-20 深圳汇创联合自动化控制有限公司 一种简易的输电设备辨认系统
CN107862710A (zh) * 2017-11-28 2018-03-30 奕响(大连)科技有限公司 一种基于转换线条的图片相似判定方法
CN110990512A (zh) * 2019-11-29 2020-04-10 农业农村部规划设计研究院 矢量要素与行政区域全覆盖检查的方法和装置
CN114691252A (zh) * 2020-12-28 2022-07-01 中国联合网络通信集团有限公司 屏幕显示方法及装置
CN114691252B (zh) * 2020-12-28 2023-05-30 中国联合网络通信集团有限公司 屏幕显示方法及装置

Similar Documents

Publication Publication Date Title
CN102122389A (zh) 一种图像相似性判断的方法及装置
US10831819B2 (en) Hue-based color naming for an image
CN109086720B (zh) 一种人脸聚类方法、装置和存储介质
US9633448B1 (en) Hue-based color naming for an image
US11663642B2 (en) Systems and methods of multicolor search of images
CN102014295B (zh) 一种网络敏感视频检测方法
CN104850301B (zh) 一种在系统桌面上将应用程序图标分类的方法和系统
AU2012367397B2 (en) System and methods for spam detection using frequency spectra of character strings
US20140250457A1 (en) Video analysis system
CN105786451A (zh) 一种复杂事件处理方法、装置及系统
KR20120001285A (ko) 객체 인식을 통한 상품 분류 검색 및 쇼핑 정보 제공 서비스 방법, 서버 및 시스템
JP2018165926A (ja) 類似画像検索装置
CN110019876A (zh) 数据查询方法、电子设备及存储介质
CN105824862A (zh) 一种基于电子设备的图片分类方法及电子设备
CN105488031B (zh) 一种检测相似短信的方法及装置
US8532331B2 (en) Method for monitoring a picture or multimedia video pictures in a communication system
CN105335422A (zh) 舆情信息的告警方法及装置
CN110706238B (zh) 对点云数据进行分割的方法及装置、存储介质和电子设备
Avola et al. A shape comparison reinforcement method based on feature extractors and f1-score
CN104408144A (zh) 网络搜索关键词的检测方法及装置
CN104253981B (zh) 一种用于视频侦查的运动目标按颜色排序的方法
CN111611322B (zh) 一种用户信息关联的方法及系统
CN106791912A (zh) 一种海报图片匹配方法及系统
CN104750834A (zh) 一种规则的存储方法、匹配方法及装置
CN111698321A (zh) 物联网设备数据同步方法、装置及控制中心

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1159833

Country of ref document: HK

C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20110713

REG Reference to a national code

Ref country code: HK

Ref legal event code: WD

Ref document number: 1159833

Country of ref document: HK