CN110263746A - 基于姿势的视觉搜索 - Google Patents
基于姿势的视觉搜索 Download PDFInfo
- Publication number
- CN110263746A CN110263746A CN201910561808.XA CN201910561808A CN110263746A CN 110263746 A CN110263746 A CN 110263746A CN 201910561808 A CN201910561808 A CN 201910561808A CN 110263746 A CN110263746 A CN 110263746A
- Authority
- CN
- China
- Prior art keywords
- image
- search
- posture
- described image
- client devices
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000000007 visual effect Effects 0.000 title claims abstract description 154
- 230000004044 response Effects 0.000 claims abstract description 23
- 238000000034 method Methods 0.000 claims description 59
- 230000015654 memory Effects 0.000 claims description 19
- 238000003709 image segmentation Methods 0.000 abstract description 16
- 238000003860 storage Methods 0.000 description 16
- 238000001514 detection method Methods 0.000 description 15
- 238000000605 extraction Methods 0.000 description 10
- 230000011218 segmentation Effects 0.000 description 10
- 230000006870 function Effects 0.000 description 8
- 239000000284 extract Substances 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000009432 framing Methods 0.000 description 3
- 238000000513 principal component analysis Methods 0.000 description 3
- 238000010079 rubber tapping Methods 0.000 description 3
- 241001269238 Data Species 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 238000005520 cutting process Methods 0.000 description 2
- 239000000428 dust Substances 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 210000003813 thumb Anatomy 0.000 description 2
- 241000406668 Loxodonta cyclotis Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011982 device technology Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 210000003811 finger Anatomy 0.000 description 1
- 238000005194 fractionation Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000008521 reorganization Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5838—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
- G06F16/432—Query formulation
- G06F16/434—Query formulation using image data, e.g. images, photos, pictures taken by a user
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
- G06F16/532—Query formulation, e.g. graphical querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5854—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using shape and object relationship
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- User Interface Of Digital Computer (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
用户可对显示于图像中的一对象进行图像搜索。该用户可使用移动设备来显示图像。响应于显示该图像,客户机设备可将该图像发送给视觉搜索系统用于图像分割。在从视觉搜索系统接收到经分割的图像之后,客户机设备可向用户显示经分割的图像,用户可选择包括感兴趣对象的一个或多个片断来实例化搜索。视觉搜索系统可基于一个或多个所选片段来表述搜索查询并且使用该搜索查询来执行搜索。视觉搜索系统随后可将搜索结果返回给客户机设备以供向用户显示。
Description
本发明专利申请是国际申请号为PCT/US2012/038155,国际申请日为2012 年5月16日,进入中国国家阶段的申请号为201280023646.0,名称为“基于姿势的视觉搜索”的发明专利申请的分案申请。
技术领域
本公开涉及基于姿势的视觉搜索。
背景技术
移动设备(例如,移动电话)不仅成为用于通信的日常必需品,而且广泛作为便携式多媒体设备,用于捕获和呈现数码照片,播放音乐及电影,玩游戏等。随着移动设备技术的到来,移动设备厂商已经为各种移动平台,诸如Windows 和开发了许多移动应用。某些移动应用已被从对应的台式应用程序改编而来。从台式对应产品改编的移动应用的一个示例应用是搜索应用。用户可能想要执行与图像有关的搜索。该用户可随后将一个或多个关键字键入到他/她的移动设备的搜索应用并基于上述关键字执行基于文本的搜索。然而,由于移动设备较小的屏幕尺寸以及较小的键盘,用户可能发现难以使用他/她的移动设备来执行基于文本的搜索。
一些移动设备厂商通过允许用户使用语音识别来执行基于语音的搜索改进了移动设备中搜索应用的可用性。用户可以向搜索应用提供语音输入,该搜索应用可将语音输入翻译成一个或多个文本关键字。搜索应用随后可基于经翻译的关键字来执行搜索。尽管基于语音的搜索提供了基于文本的搜索的替换方案,但该基于语音的搜索离完美还距离甚远。例如,为了准确地识别语音输入,基于语音的搜索通常要求安静的背景,而这一要求对于在噪杂环境中行进的移动用户而言可能是不实际的。
而且,用户可能希望搜索以查找图像中的对象或者用户所处的位置中的对象。然而,如果用户不知道该对象是什么,则该用户可能向搜索应用提供不准确的或无意义的描述,而这可能导致检索到不相关的信息。
发明内容
本概述介绍了在以下详细描述中进一步描述的基于姿势的视觉搜索的简化概念。本概述并不旨在标识所要求保护的主题的必要特征,也不旨在用于确定所要求保护的主题的范围。
本申请描述了基于姿势的视觉搜索的示例实施例。在一个实施例中,图像可以与或者不与该图像相关联的上下文信息一起从客户机处被接收。与该图像相关联的上下文信息的示例包括但不限于:该图像中感兴趣对象的类型信息 (例如脸部、建筑、车辆、文本等等),以及与该图像相关联的位置信息(例如,捕捉该图像所在的物理位置信息、诸如可供查看或下载该图像的web地址的虚拟位置信息等)。
响应于接收到上述图像,可将图像分割成多个片段。在一个实施例中,可基于与图像相关联的上下文信息将图像分割成多个片段。在分割了图像后,可将图像的部分或者全部返回给客户机来选择这些片段中的一个或多个。在一个实施例中,所选择的图像片段可包括客户机的用户感兴趣的对象。另外地或可选地,图像的一个或多个所选片段可包括与图像相关联的文本。可基于所选的片段来表述搜索查询。在某些实施例中,上述查询也可基于所接收的与图像相关联的上下文信息。在某些实施例中,可将查询呈现给客户机设备的用户以供确认上述搜索查询。可使用搜索查询来执行搜索,以获得一个或多个搜索结果,该一个或多个搜索结果可被返回给客户机。
附图说明
参考附图阐述详细描述。在附图中,附图标记中最左边的数字标识该附图标记首次出现的附图。在不同附图中使用相同的附图标记指示相似或相同的项。
图1示出包含示例性的基于姿势的视觉搜索系统的示例环境。
图2更详细地示出了图1的示例性的基于姿势的视觉搜索系统。
图3A和图3B示出用于索引图像数据库中的图像的示例索引结构。
图4示出执行基于姿势的视觉搜索的示例方法。
具体实施方式
概览
如上所述,用户会发现难以使用已有的移动搜索技术在他/她的移动设备上执行搜索。例如,用户可能想要找到关于图像或图像中对象的更多信息。用户可通过将一个或多个文本关键字键入到他/她的移动设备(例如移动电话)中提供的搜索程序的文本框内来执行搜索以查找上述图像或对象。然而,在移动设备的较小的屏幕尺寸和/或较小的键盘(若可用的话)的情况下,用户会发现难以输入关键字。这种情况在一个或多个文本关键字很长和/或很复杂时变得更糟。
作为替代,用户可通过语音输入和语音识别(若可用的话)输入一个或多个关键字。但是,基于语音的搜索通常要求安静的背景,如果用户目前位于嘈杂环境,例如车辆或者公共场所,这种搜索可变得不可行。
更糟的是,如果用户不知道图像中的对象是什么,用户可能不知道如何描述这一对象或者图像来执行基于文本的搜索或者基于语音的搜索。例如,用户可能注意到含有某电影演员的图像并且想找到关于该电影演员的信息。然而,该用户可能不知道或者没记起他的名字,并由于他/她缺乏该演员的名称的知识而被迫放弃搜索。
作为另一替换,用户可通过将图像作为搜索查询来使用来执行图像搜索。具体地说,用户可将图像提供给搜索应用或搜索引擎,搜索应用或搜索引擎基于所提供图像的视觉特征而检索到多个数据库图像。尽管这样的图像搜索可以省去提供上述图像的文本描述的要求,但是这种方法在上述图像不是移动设备中的经存储图像(例如在web浏览器的网页中示出的图像)的情况下变得麻烦。使用已有图像搜索技术,用户会首先需要手动从网页上下载图像,并随后将该图像手动上传到搜索应用或图像搜索引擎。此外,如果用户只对获取与图像中示出的某对象有关的信息感兴趣,则该图像中除了该对象本身外的可视细节成为图像搜索的噪声,并可导致检索到与搜索不相关的图像。
本公开描述了基于姿势的视觉搜索系统,其通过接收感兴趣图像的某片段而例示了与该图像中示出的感兴趣对象有关的搜索查询。
一般地,客户机设备可例如从用户获得图像。此图像可包括但不限于,选自照片应用的图像、由用户使用客户机设备的相机捕捉的图像或照片、客户机设备上播放的视频的图像帧、在诸如显示包含图像的网页的web浏览器之类的应用中显示的图像、或者来自储存于客户机设备或者可由客户机设备访问的媒体的图像(例如网页、视频、图像、电子书、文档、幻灯片演示等等)。
在获得图像后,客户机设备可将图像或图像的位置信息发送给基于姿势的视觉搜索系统来进行图像分割。图像的位置信息可包括但不限于,可找到图像的web链接。在一个实施例中,客户机设备可自动地将图像或图像的位置信息发送给基于姿势的视觉搜索系统。在另一实施例中,客户机设备可基于请求将图像或图像的位置信息发送给基于姿势的视觉搜索系统。例如,响应于接收到来自用户的图像分割请求(例如点击客户机设备的指定按钮或点击显示在客户机设备上的指定图标),客户机设备可将图像或图像的位置信息发送给基于姿势的视觉搜索系统。
在某些实施例中,在将图像或图像的位置信息发送给基于姿势的视觉搜索系统来进行图像分割之前,客户机设备可以将该图像显示给用户。另外地或可选地,客户机设备可只在将该图像分割成多个片段后才将该图像显示给用户。
另外,客户机设备还可将与图像相关联的上下文信息发送给基于姿势的视觉搜索系统。在一个实施例中,与图像相关联的上下文信息可包括但不限于:由客户机设备的传感器(诸如,全球定位系统(即GPS)、时钟系统、加速度计、和数字罗盘)捕捉的数据及用户指定的和/或基于服务的数据,包括例如天气数据、日程安排数据和交通数据。在诸如GPS数据等关于用户的个人信息被收集的情况下,用户可被提示并被给予选择不分享诸如个人可标识的信息之类的信息或者从客户机设备发送该信息的机会。
另外地或可选地,与图像相关联的上下文信息还可包括该图像中示出的感兴趣对象的信息。作为举例而非限制,感兴趣对象的信息可包括但不限于,图像中对象的类型信息(例如脸部、人物、建筑、车辆、文本等等)。在一个实施例中,用户可将感兴趣对象的这一信息提供给客户机设备。另外地或可选地,客户机设备可确定感兴趣对象的信息,而没有人类干预。作为举例而非限制,客户机设备可基于与显示图像或和该图像一起显示的内容的应用相关联的上下文信息来确定感兴趣对象的信息。举例来说,该应用可以是显示网页的web浏览器。网页可包括描写某电影演员的文章并可包含图像。响应于检测到图像,客户机设备可基于web浏览器的网页中示出的文章内容而确定感兴趣对象描绘了这名电影演员,并且并且感兴趣对象的类型信息对应于人物。
响应于从客户机设备接收到图像,基于姿势的视觉搜索系统可将图像分割成多个片段。在图像的位置信息而非该图像本身从客户机设备处被接收到的情况下,基于姿势的视觉搜索系统可基于该位置信息来获得该图像。作为举例而非限制,基于姿势的视觉搜索系统可以在由图像的位置信息指定的位置处下载此图像。
在一个实施例中,基于姿势的视觉搜索系统可根据基于J-measure的分割方法(即JSEG分割方法)来分割图像。举例来说,JSEG分割方法会首先将接收到的图像的各颜色量化成可表示该接收到的图像的不同空间区域的多个组,并根据这些组来对各个图像像素进行分类。因此,JSEG分割方法可计算其像素值是从本地窗口计算的推荐灰度图像,并将该推荐灰度图像命名为J-image。 JSEG分割方法随后可根据多尺度区域生长法来分割J-image。
另外地或可选地,基于姿势的视觉搜索系统可基于与图像相关联的上下文信息来分割图像。作为举例而非限制,基于姿势的视觉搜索系统可接收与图像相关联的上下文信息(例如,该图像中示出的感兴趣对象的类型信息)。基于姿势的视觉搜索系统随后可通过以下方式来分割图像:检测该图像中被确定为与类型信息中指示的类型具有相同类型的一个或多个对象并对该一个或多个对象进行分割。举例来说,此类型信息可指示感兴趣对象是脸部(即对象类型是脸部类型)。基于姿势的视觉搜索系统可以对特定于接收到的类型信息中指示的类型的视觉特征(例如,脸部的面部特征等)应用对象检测和/或识别,并将检测到和/或识别到的对象与该图像中的其他对象和/或背景中分割开。
在将图像分割成多个片段后,基于姿势的视觉搜索系统会将经分割的图像 (即在各原始位置的所有片段)返回给客户机设备。可选地,为节省客户机设备和基于姿势的视觉搜索系统之间的网络带宽,基于姿势的视觉搜索系统可将经分割图像的部分返回给客户机设备。例如,基于姿势的视觉搜索系统可将包括或基本上包括感兴趣对象但不包括背景的那些片段返回给客户机设备。另外地或可选地,基于姿势的视觉搜索系统可以以低于接收到图像的原始分辨率的分辨率返回经分割图像(的所有或部分)。
响应于接收经分割图像的全部或部分,客户机设备随后可在原始图像的相应位置显示经分割图像的全部或部分。在一个实施例中,上述图像分割过程对用户来说可以是透明的。在另一实施例中,客户机设备可通知用户该图像被成功地分割为多个片段。
在任一情况下,可允许用户基于输入姿势来从图像的上述多个片段中选择一个或多个片段。作为举例而非限制,用户可通过敲击上述一个或多个片段(例如,敲击客户机设备的触摸屏上上述一个或多个片段的位置处)来选择一个或多个片段。另外地或可选地,用户可通过例如在客户机设备的触摸屏上画出一形状(例如,矩形、圆形、或任何自由形状),以框住或基本上框住上述一个或多个片段,来选择上述一个或多个片段。另外地或可选地,用户可选择通过使用例如拇指旋轮(thumb wheel)滚过经分割图像的接收到片段,来选择上述一个或多个片段。另外地或可选地,用户可通过使用定点设备(诸如,触摸笔或鼠标等)来选择上述一个或多个片段。
响应于接收来自用户的对一个或多个片段的选择,客户机设备可向用户提供对他/她的选择的确认。在一个实施例中,客户机设备可通过显示将一个或多个所选片段框住或包围的形状(例如矩形、圆形或自由形状等)来突出显示这一个或多个所选片段。另外地或可选地,客户机设备可显示分别框住或包围一个或多个所选片段的一个或多个单独的边框形状。
另外地或可选地,响应于从用户接收到对一个或多个片段的选择,客户机设备可向基于姿势的视觉搜索系统发送一个或多个所选片段的信息,以基于一个或多个所选片段来表述图像搜索查询。在一个实施例中,客户机设备可将实际的一个或多个所选片段发送给基于姿势的视觉搜索系统。在另一实施例中,客户机设备可将一个或多个所选片段相对于图像中的某位置(例如图像左上角)的坐标发送给基于姿势的视觉搜索系统。在一个实施例中,一个或多个所选片段可包括用户感兴趣的对象。另外地或可选地,一个或多个所选片段可包括待识别的文本。
在从客户机设备接收到一个或多个所选片段后,基于姿势的视觉搜索系统可基于一个或多个所选片段来表述搜索查询。在一个实施例中,基于姿势的视觉搜索系统可从一个或多个所选片段中提取视觉特征。基于姿势的视觉搜索系统可应用任何常规特征提取方法来从一个或多个所选片段中提取特征。作为举例而非限制,基于姿势的视觉搜索系统可应用类属特征检测/提取方法,例如边检测、角检测、污点检测、脊检测、和/或尺度不变特征变换(SIFT)。另外地或可选地,基于姿势的视觉搜索系统可应用诸如阈值设定、污点提取、模板匹配、和/或Hough变换等基于形状的检测/提取方法。另外地或可选地,基于姿势的视觉搜索系统可应用任何其他特征提取方法,包括例如,注意力导向色彩签名、彩色指纹、多层旋转不变EOH(即,边取向直方图)、梯度直方图、多贝西(Daubechies)小波、脸部特征和/或黑白。
在一个实施例中,基于姿势的视觉搜索系统不是应用类属或非指定特征提取方法,而是可应用专用于检测和/或提取一个或多个所选片段中示出的感兴趣对象的视觉特征的一个或多个特征提取方法。具体地说,基于姿势的视觉搜索系统可基于接收到的上下文信息(例如类型信息)来确定哪种特征提取方法要与哪种类型的特征一起使用。
作为举例而非限制,如果接收到图像中显示的感兴趣对象的类型信息,并且该类型信息指示感兴趣对象具有特定类型(例如脸部类型),则基于姿势的视觉搜索系统可应用专用于检测和/或提取那种特定类型的特征(例如脸部特征)的特征提取方法,以检测或识别一个或多个所选片段中的感兴趣对象(例如脸部)。例如,如果类型信息指示感兴趣对象是建筑物,则基于姿势的视觉搜索系统可应用具有专用于检测和/或提取一个或多个所选片段中的建筑物的边和/或形状的特征的特征提取方法。
在从图像的一个或多个所选片段中提取了视觉特征后,基于姿势的视觉搜索系统可将提取的视觉特征与特征码本比较,以获得用于表示一个或多个所选片段的一个或多个视觉字。特征码本有时被称为视觉字码本,其可例如通过将训练图像的视觉特征聚类成多个群集来产生。码本的每一群集或视觉字可例如由该特定群集的平均或代表性特征来定义。
可选地,基于姿势的视觉搜索系统可将一个或多个所选片段的所提取视觉特征与视觉词汇树进行比较。视觉词汇树可通过将分层k-mean聚类应用到多个训练图像的视觉特征来构造。随后可基于此聚类的结果来获得视觉词汇树的视觉字。
响应于获得一个或多个所选片段的一个或多个视觉字,基于姿势的视觉搜索系统可基于这一个或多个视觉字来表述搜索查询。在一个实施例中,基于姿势的视觉搜索系统可基于一个或多个所选片段的一个或多个视觉字而从数据库中检索到多个图像。另外,基于姿势的视觉搜索系统还可从数据库获得与一个或多个所选片段有关的web链接和文本信息。
另外地或可选地,基于姿势的视觉搜索系统可检测一个或多个所选片段中的文本,并对一个或多个所选片段执行对象字符识别(例如路标、标签等)。在识别出一个或多个所选片段中的文本后,对于这一个或多个所选片段,基于姿势的视觉搜索系统可执行基于文本的搜索,并检索到一个或多个图像、web 链接和/或文本信息等。
另外,基于姿势的视觉搜索系统可进一步检查多个检索到的图像,并获得与多个检索到的图像相关联的附加信息。作为举例而非限制,获得与多个检索到的图像相关联的附加信息可包括多个检索到的图像的文本描述,多个检索到的图像的位置信息和/或多个检索到的图像的时戳等。基于姿势的视觉搜索系统还可使用多个检索到的图像的这些附加信息而从数据库或从基于文本的搜索引擎检索到附加的图像。
在检索到针对一个或多个所选片段的搜索结果(例如多个检索到的图像、 web链接等),基于姿势的视觉搜索系统可将这些搜索结果返回给客户机设备,该客户机设备可随后将这些搜索结果显示给用户。用户可点击这些搜索结果中的任一个以获得详细信息。另外地或可选地,用户可通过敲击搜索结果中的图像(或者在已经对图像执行了自动图像分割的情况下为图像片段)或文本,来执行另一搜索(例如图像搜索或文本搜索)。
所描述的系统允许用户实施搜索(例如图像搜索或文本搜索),而无需手动地将图像下载或上传到搜索程序或搜索引擎。所描述的系统还允许用户基于图像的一部分(例如图像中示出的对象)来实施图像搜索,而无需用户他或她自己手动地从图像中分割出所需部分。因此,这增加了移动设备的搜索应用的可用性,并减轻了向移动设备提供文本关键字的烦琐步骤,由此提高了用户对移动设备的搜索体验。
尽管在此处描述的示例中,由基于姿势的视觉搜索系统来分割图像、从图像中提取特征、基于所提取的特征来表述搜索查询、并基于搜索查询来执行搜索,但在其他实施例中,这些功能可由多个独立的系统或服务来执行。例如,在一个实施例中,分割服务可分割图像,而分开的服务可提取特征且表述搜索查询,且又一服务(例如常规搜索引擎)可基于搜索查询来执行搜索。
本申请描述了多个变化的实现和实施例。接下来的章节描述了适用于实施各种实现的示例环境。接下来,本申请描述了用于实现基于姿势的视觉搜索系统的示例系统、设备和流程。
示例性体系结构
图1示出了可用于实现基于姿势的视觉搜索系统的示例性环境100。环境 100包括一个或多个用户102-1,102-2,…102-N(其被统称为102)、网络104、以及基于姿势的视觉搜索系统106。用户102可使用一个或多个客户机设备 108-1,108-2,…,108-M(其被统称为108)通过网络104与基于姿势的视觉搜索系统106通信。
客户机设备108可以被实现为各种常规计算设备中的任一种,包括例如,个人计算机、笔记本或便携式计算机、手持式设备、上网本、因特网设备、便携式阅读设备、电子书阅读器设备、图形输入板或平板计算机、电视机、机顶盒、游戏控制台、移动设备(例如,移动电话、个人数字助理、智能电话等)、媒体播放器等、或其组合。
网络104可以是无线或有线网络,或其组合。网络104可以是各单独网络的集合,这些网络彼此互连并用作单个大型网络(例如,因特网或内联网)。这样的单独网络的示例包括,但不仅限于,个人局域网(PAN)、局域网(LAN)、广域网(WAN),以及城域网(MAN)。此外,各单独的网络也可以是无线或有线网络,或其组合。
在一个实施例中,客户机设备108包括耦合到存储器112的处理器110。存储器112包括一个或多个应用114(例如,搜索应用、取景应用、媒体播放应用、相册用于、web浏览器等)以及其他程序数据116。存储器112可耦合到其他设备或与其他设备相关联,和/或可由诸如网络服务器、路由器、和/或其他客户机设备108等其他设备访问。
用户102可使用客户机设备108的应用114来查看图像。响应于检测到图像,客户机设备108或应用114之一可将图像发送给基于姿势的视觉搜索系统 106进行图像分割。基于姿势的视觉搜索系统106可将图像分割成多个片段,并将这些片段中的一些或全部返回给客户机设备108。例如,基于姿势的视觉搜索系统106可只返回包括或基本上包括用户102感兴趣的对象的片段,而不返回用户102不感兴趣的背景和其他对象。
响应于从基于姿势的视觉搜索系统106收到所分割的图像(即,这些片段中的一些或全部),用户102可从接收到的片段中选择一个或多个片段。客户机设备108可随后将一个或多个所选片段发送给基于姿势的视觉搜索系统106 来实例化搜索。基于姿势的视觉搜索系统106可基于一个或多个所选片段来表述搜索查询,并使用此搜索查询而检索到搜索结果。在一个实施例中,基于姿势的视觉搜索系统106可以从基于姿势的视觉搜索系统106中包括的数据库 (图未示)处检索到搜索结果。另外地或可选地,基于姿势的视觉搜索系统106 可从基于姿势的视觉搜索系统106外部的搜索引擎118处检索到搜索结果。基于姿势的视觉搜索系统106可随后将这些搜索结果返回给客户机设备108以用于向用户102显示。
尽管基于姿势的视觉搜索系统106和客户机设备108被描述为分开的系统,但本公开并不限制于此。举例来说,基于姿势的视觉搜索系统106的部分或全部可例如作为安装在客户机设备108中的软件和/或硬件而被包括在客户机设备108中。在某些实施例中,基于姿势的视觉搜索系统106的一个或多个功能(例如图像分割功能、特征提取功能、查询表述功能等)可被集成在客户机设备108中。
图2更详细地示出了基于姿势的视觉搜索系统106。在一个实施例中,系统106可包括但不限于,一个或多个处理器202、网络接口204、存储器206,以及输入/输出接口208。处理器202被配置为执行从网络接口204接收的指令、从输入/输出接口208接收的指令,以及储存在存储器206中的指令。
存储器206可包括诸如随机存取存储器(RAM)等易失性存储器形式的和 /或诸如只读存储器(ROM)或闪速RAM等非易失性存储器形式的计算机可读存储介质。存储器206是计算机可读存储介质的示例。计算机可读介质包括至少两种类型的计算机可读介质,即计算机存储介质和通信介质。
计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据之类的信息的任何方法或技术来实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括但不限于,相变存储器(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存或其他存储器技术、光盘只读存储器(CD-ROM)、数字多功能盘(DVD)或其它光存储、磁带盒、磁带、磁盘存储或其它磁存储设备、或可用于存储信息以供计算设备访问的任何其他非传输介质。
相反,通信介质可以用诸如载波或其他传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其他数据。如本文所限定的,计算机存储介质不包括通信介质。
存储器206可包括程序模块210和程序数据212。在一个实施例中,基于姿势的视觉搜索系统106可包括输入模块214。输入模块214可从客户机设备 108接收图像或图像的位置信息(例如可找到或下载到图像的链接)。另外,输入模块214还可从客户机设备108接收与图像相关联的上下文信息。与图像相关联的上下文信息可包括但不限于,由客户机设备的传感器(诸如,全球定位系统(即GPS),时钟系统,加速度计、和数字罗盘)捕捉的数据,而用户指定的和/或基于服务的数据例如包括天气、日程安排和/或交通数据。另外地或可选地,与图像相关联的上下文信息还可包括图像中示出的感兴趣对象的信息。作为示例而非限制,感兴趣对象的信息可包括但不限于,对象的类型信息 (例如脸部、人物、建筑、车辆、文本等等)。
在一个实施例中,基于姿势的视觉搜索系统106还可包括分割模块216。在接收到图像(以及可能地与图像相关联的上下文信息)后,输入模块214可将该图像(以及与该图像相关联的上下文信息,如果被接收到的话)发送给分割模块216。分割模块216将该图像分割成多个片段。在一个实施例中,分割模块216可应用任何常规分割方法来分割图像。作为举例而非限制,分割模块 216可基于JSEG分割方法来分割图像。JSEG分割方法的附加细节可参见1999 年的IEEE CVPR论文集第2446页的“Color Image Segmentation(彩色图像分割)”。
另外地或可选地,分割模块216可基于一个或多个准则来将图像分割成预定数目的片段。上述一个或多个准则的示例包括但不限于,图像的文件大小、图像的分辨率等。
另外地或可选地,图像分割模块216可基于与图像相关联的上下文信息来分割图像。作为举例而非限制,基于姿势的视觉搜索系统106可接收与图像相关联的上下文信息(例如图像中示出的感兴趣对象的类型信息)。分割模块216 可随后通过以下方式来分割图像:检测图像中与类型信息中指示的类型具有相同类型的一个或多个对象,并分割这一个或多个对象。举例来说,此类型信息可指示感兴趣对象是脸部,或对象类型是脸部类型。分割模块216可以针对在接收到的类型信息中指示的类型的视觉特征(例如,脸部的面部特征)来应用对象检测和/或识别,并可将检测到和/或识别出的对象与该图像中的其他对象和/或图像分割开。
响应于将图像分割成多个片段,基于姿势的视觉搜索系统106可通过输出模块218经分割图像的一部分或全部(即,多个片段中的某些或全部)返回给客户机设备108。
在将经分割图像的一部分或全部发送给客户机设备108之后,输入模块214 可从客户机设备108接收用户102所选择的一个或多个片段的信息以实例化搜索。在一个实施例中,一个或多个所选片段的信息可包括用户102所选择的实际的一个或多个片段。在另一实施例中,一个或多个所选片段的信息可包括一个或多个所选片段相对于图像中某位置(例如图像左上角)的坐标。在任一情况下,一个或多个所选片段可包括用户102感兴趣的对象。另外地或可选地,一个或多个所选片段可包括待识别的文本。
响应于从客户机设备108接收到一个或多个所选片段的信息,基于姿势的视觉搜索系统106可包括特征提取模块220以从一个或多个所选片段提取视觉特征。在一个实施例中,特征提取模块220可应用任何常规特征提取方法来从一个或多个所选片段中提取视觉特征。作为示例而非限制,特征提取模块220 可应用类属特征检测/提取方法,例如边检测、角检测、污点检测、脊检测、和 /或尺度不变特征变换(SIFT)。另外地或可选地,特征提取模块220可应用诸如阈值设定、污点提取、模板匹配、和/或Hough变换等基于形状的检测/提取方法。另外地或可选地,特征提取模块220可应用任何其他特征提取方法,包括例如,注意力导向色彩签名、彩色指纹、多层旋转不变EOH、梯度直方图、多贝西小波、脸部特征和/或黑白。
在一个实施例中,特征提取模块220不是应用类属或非指定特征提取方法,而是可应用专用于检测和/或提取一个或多个所选片段中示出的感兴趣对象的视觉特征的一个或多个特征提取方法。具体地说,特征提取模块220可基于所接收的上下文信息(例如类型信息),来确定哪种特征提取方法要与哪种类型的特征一起使用。
作为示例而非限制,如果图像中示出的感兴趣对象的类型信息被接收,并且指示该感兴趣对象具有特定类型(例如脸部类型),则特征提取模块220可应用专用于检测和/或提取那个特定类型的特征(例如脸部特征)的特征提取方法,以检测或识别一个或多个所选片段中的感兴趣对象(例如脸部)。例如,如果类型信息指示,感兴趣对象是建筑物,则特征提取模块220可应用具有专用于检测和/或提取一个或多个所选片段中的建筑物的边和/或形状的特征的特征提取方法。
在从一个或多个所选片段提取出视觉特征后,基于姿势的视觉搜索系统 106可包括用于表述搜索查询并基于此搜索查询执行搜索的搜索模块222。在一个实施例中,搜索模块222可将所提取的视觉特征与特征码本224进行比较以获得用于表示一个或多个所选片段的一个或多个视觉字。特征码本224有时被称为视觉字码本,其可例如通过对图像数据库226中储存的训练图像的视觉特征进行聚类来产生。特征码本224的每一群集或视觉字可例如由该特定群集的平均或代表性特征来定义。
另外地或可选地,搜索模块222可将一个或多个所选片段的所提取视觉特征与视觉词汇树228比较。视觉词汇树228可通过将分层k-mean聚类应用到图像数据库226中存储的多个训练图像的视觉特征来构造。视觉词汇树的视觉字随后可基于此聚类的结果而被获得。视觉词汇树的详细描述可参见2006年的IEEE CVPR论文集第2161-2168页的“Scalablerecognition with a vocabulary tree(用词汇树的可缩放识别)”。
响应于(从特征码本224或视觉词汇树228)获得一个或多个所选片段的一个或多个视觉字,搜索模块222可基于一个或多个视觉字来表述搜索查询。在一个实施例中,搜索模块222可使用一个或多个视觉字而从图像数据库226 或基于姿势的视觉搜索系统106外部的搜索引擎118处检索到多个图像。另外,搜索模块222还可从图像数据库226或搜索引擎118获得与一个或多个所选片段有关的web链接或文本信息。
另外地或可选地,一个或多个所选片段可包括文本。基于姿势的视觉搜索系统106还可包括用于识别一个或多个所选片段中的文本的对象字符识别模块 230。在一个实施例中,在识别出文本之前,对象字符识别模块230可确定该文本在一个或多个所选片段中的文本方向。作为示例而非限制,对象字符识别模块230可应用PCA(即,主分量分析)、TILT(即,变换不变低秩纹理)或用于确定文本方向的任何其他文本对齐方法。例如,对象字符识别模块230可应用PCA来检测文本在一个或多个所选片段中的两个主分量方向。响应于检测到文本的两个主分量方向,对象字符识别模块230可旋转该文本,以水平地对齐该文本。另外地或可选地,对象字符识别模块230可应用任何其他文本对齐方法,例如TILT(即,变换不变低秩纹理)来确定文本在一个或多个所选片段中的方向。TILT文本对齐方法的详细描述可参见2010年11月的Proceedings of Asian Conference on Computer Vision(计算机视觉亚洲会议论文集)中的“Transform Invariant Low-rank Textures(变换不变低秩纹理)”。
另外地或可选地,对象字符识别模块230还可通过输入模块214从客户机设备108接收文本方向的指示。输入模块214可从客户机设备108处接收此文本方向的指示以及一个或多个所选片段。
在一个实施例中,用户102可在客户机设备108的屏幕上(例如使用手指或定点设备等)绘制指示文本在一个或多个所选片段中的文本方向的线。另外地或可选地,用户102可通过提供文本方向相对于图像的垂直或水平轴的估计角度来指示文本方向的估计。另外地或可选地,在某些实施例中,用户102可通过绘制一框形(例如矩形或基本上为矩形)来框住或基本上框住该文本来指示该文本的文本方向,其中该框形的较长边指示待识别文本的文本方向。客户机设备108可随后通过基于姿势的视觉搜索系统106的输入模块来将该文本方向的用户指示发送给对象字符识别模块230。
在对象字符识别模块230识别出一个或多个所选片段中的文本后,搜索模块222可执行基于文本的搜索,并从图像数据库226或搜索引擎118中为一个或多个所选片段检索到一个或多个图像、web链接和/或文本信息等。
或者,搜索模块222还可检查多个检索到的图像,并获得与多个检索到的图像相关联的附加信息。作为示例而非限制,与多个检索到的图像相关联的附加信息可包括但不限于,多个检索到的图像的文本描述、多个检索到的图像的位置信息和多个检索到的图像的时戳等。基于姿势的视觉搜索系统还可使用这些多个检索到的图像的附加信息而从图像数据库226或从搜索引擎118检索到附加图像。
响应于接收到检索结果(例如多个数据库图像、web链接和/或文本信息),输出模块218可将搜索结果返回给客户机设备108以供显示给用户108。在一个实施例中,基于姿势的视觉搜索系统106还可从客户机108或用户102接收另一分割请求或搜索请求,并响应此请求而执行前述操作。
示例图像数据库
在一个实施例中,可索引图像数据库226中的图像。作为示例而非限制,图像索引可基于所发明的新颖的文件索引范例。可使用图像的视觉特征和上下文信息和/或元数据来构建此图像的图像索引。在一个实施例中,尺度不变特征变换(SIFT)因其尺度、旋转和光照不变特性而可被选择来表示图像的本地描述符。在构建索引之前,视觉词汇树228可通过使用分层k-means聚类来构造,而视觉词汇树228的视觉字可基于聚类的结果来创造。在构建索引的过程中,可将特定图像的单个SIFT点分类为视觉词汇树228的各视觉字(即,VW)中一个或多个。可将图像信息与视觉词汇树的这一个或多个视觉字以及相关联的上下文信息一起记录。图3A和3B示出反向文件索引范例的示例性索引结构300。图3A示出使用视觉词汇树228的多个图像的视觉字的反向文件索引302。
图3B示出与每一图像或文件相关联的上下文信息的索引结构304。尽管图3A 和3B描述了示例索引结构,但本披露并不局限于此。本披露可应用任何常规索引结构来索引图像数据库226内的图像。
示例具有上下文过滤的基于姿势的视觉搜索
在一个实施例中,可将上下文过滤与得分测量方案一起使用。作为示例而非限制,示例得分测量在下面的式(1)中给出,其中查询q可被定义为由用户102使用轻击以选择机制从使用客户机设备108拍摄的图像或照片中选择的一个或多个片段。数据库图像(例如储存于数据库226的图像)可被表示为d。 qi和di指对于如表示式(2)中所示的查询q和数据库或索引图像d而言,术语频率和逆向文档频率(TF-IDF)值的相应组合。
其中·
例如,对于qi,tfqi可以是视觉词汇树228的叶节点i处本地描述符的累计数。
idfqi可表达为ln(N/Ni),其中例如N是图像数据库226中图像的总数,Ni是其描述符被分类到叶节点i的图像数目。
另外,式(1)中的上下文过滤器Φ(q),可基于与查询相关联的上下文信息或用户102从其选择一个或多个片段的图像。作为示例而非限制,此上下文信息可包括但不限于,与用户102从其选择一个或多个片段的图像相关联的位置信息。例如,用户102可使用客户机设备108的相机(图未示)拍摄建筑物(例如布鲁塞尔城镇大厅)的照片。随后,可将GPS数据形式的位置信息与照片一起发送给基于姿势的视觉搜索系统106来进行图像分割和/或图像搜索。
替换实施例
在一个实施例中,基于姿势的视觉搜索系统106的搜索模块222可基于一个或多个所选片段的所提取特征以及与从其选择这一个或多个所选片段的图像相关联的上下文信息而检索到多个数据库图像。作为举例而非限制,上下文信息可包括从其获得图像的图像位置信息。例如,图像可以是使用客户机设备 108在一特定物理位置拍摄的照片。客户机设备108可将此照片和上述特定位置的GPS数据一起记录。当基于姿势的视觉搜索系统106的搜索模块222表述搜索查询时,搜索模块222可至少部分根据所提取视觉特征和GPS数据来表述搜索查询,并从图像数据226或从搜索引擎118中检索到图像。例如,搜索模块222可使用这一GPS数据来将搜索缩小或限制到在距从其选择这一个或多个片段的图像的GPS数据中指示的位置的预先确定距离内具有相关联的位置的那些图像。
作为另一示例,与图像相关联的上下文信息中的位置信息可以是从其下载或可用于下载图像的虚拟位置(例如网页)。当搜索模块222表述搜索查询时,搜索模块222可访问定位到上述虚拟位置的网页,并检查该网页以发现与图像有关的附加信息。搜索模块222随后可将发现的任何信息结合到搜索查询中,以获得更合乎用户102的意图的查询。例如,定位到虚拟地址的网页可以是描述某电影演员的网页。搜索模块222可确定用户102实际上有兴趣获得关于该电影演员的更多信息。搜索模块222可从上述网页获得该电影演员的信息,例如他/她的名字、他出演的电影等,并基于这些获得的信息和/或所提取的一个或多个所选片段的视觉特征来表述搜索查询。搜索模块222可随后使用这一搜索查询来获得搜索结果。
在另一实施例中,基于姿势的视觉搜索系统106还可包括其他程序数据 232,其储存与客户机设备108相关联的日志数据。日志数据可包括但不限于,与下述相关联的日志信息:已分割图像、用户102通过客户机设备108选择的图像片段、响应于接收所选择片段而返回给客户机设备108的搜索结果。基于姿势的视觉搜索系统106可使用这一日志数据或日志数据的预先确定的时间段来改进用户102以后的搜索查询。
在某些实施例中,在将图像发送给基于姿势的视觉搜索系统106之前,客户机设备108可接收对客户机设备108的屏幕上示出的图像中的感兴趣对象的指示。用户可通过画线或框形来框住或基本上框住感兴趣对象来指示该图像中的这个感兴趣对象。作为举例而非限制,用户可画出圆形、矩形或任何自由形状来框住或基本上框住感兴趣对象。响应于接收到这一指示,客户机设备108 可将图像与感兴趣对象的指示一起发送给基于姿势的视觉搜索系统106。在获得图像和感兴趣对象的指示后,基于姿势的视觉搜索系统106可将图像分割应用于与感兴趣对象的指示(例如框形)对应的图像区域、或者比感兴趣对象的指示大预先确定的百分比(例如5%、10%等)的图像区域,而不分割图像的其他区域。这可因此可减少基于姿势的视觉搜索系统106进行图像分割的时间和资源。
在一个实施例中,在根据所表述的查询获得搜索结果后,基于姿势的视觉搜索系统106还可基于与图像相关联的上下文信息重新排名或者过滤搜索结果。作为示例而非限制,与图像相关联的上下文信息可包括位置信息(例如捕捉图像的位置信息、用户102感兴趣的位置的信息)、以及时间信息(例如时辰、日期等)。例如,用户102可游览某城市且可能想要在此城市中找到提供特定类型的菜肴的饭店。用户102可例如通过将城市名称提供给客户机设备 108,来提供他/她的位置信息。可选地,用户102可打开客户机设备108的GPS系统并允许客户机设备108定位他/她的当前位置。如之前实施例描述的,客户机设备108可随后将该位置信息和其他信息(例如图像、感兴趣对象的类型等) 一起发送给基于姿势的视觉搜索系统。在为用户102获得的搜索结果后,基于姿势的视觉搜索系统106可基于位置信息重新排名搜索结果,例如根据距位置信息中指示的位置的关联距离来排名搜索结果。另外地或可选地,基于姿势的视觉搜索系统106可过滤搜索结果,并只返回具有处于距所接收的位置信息中指示的位置预先确定距离内的关联位置的搜索结果。
示例性方法
图4示出描绘了基于姿势的视觉搜索的示例性方法400的流程图。图4的方法可以但不必在图1的环境中且使用图2的系统来实现。为便于解释,方法400参考图1和2来描述。然而,方法400可以另选地在其它环境中和/或使用其他系统实现。
方法400在计算机可执行指令的一般上下文中描述。一般而言,计算机可执行指令可包括执行特定功能或实现特定的抽象数据类型的例程、程序、对象、组件、数据结构、过程、模块、功能等。这些方法还能在其中功能由通过通信网络链接的远程处理设备执行的分布式计算环境中实现。在分布式计算环境中,计算机可执行指令可以位于包括存储器存储设备在内的本地和/或远程计算机存储介质中。
这些示例性方法被示出为逻辑流程图中框的集合,这表示可用硬件、软件、固件、或其组合来实现的一系列操作。描述各方法的次序并不旨在解释为限制,并且任何数量的所述方法框都可以按任何次序组合以实现所述方法或实现替换方法。另外,可从方法中省略各个框,而不背离此处所述的主题的精神和范围。在软件上下文中,各个框表示当由一个或多个处理器执行时完成既定操作的计算机指令。
回到图4所示,在框402,客户机设备108获得一图像。作为示例而非限制,客户机设备108可通过如下方式获得图像:用客户机设备108的相机捕捉图像、通过客户机设备108的照片应用选择图像、或从储存于客户机设备或客户机设备可访问的媒体(例如网页、视频、图像、电子书、文档、幻灯片演示等)处选择图像。
在框404,客户机设备108将图像呈现给用户102。在可选实施例中,框 404可选择性省略。例如,客户机设备108可仅在客户机设备108或基于姿势的视觉搜索系统106将图像分割成多个片段之后将此图像呈现给用户102。
在框406,客户机设备108将图像或图像的信息提供给基于姿势的视觉搜索系统106。在一个实施例中,客户机设备108可将实际图像发送给基于姿势的视觉搜索系统106。另外地或可选地,客户机设备108可以是可找到图像或将图像定位到基于姿势的视觉搜索系统106的链接。客户机设备108可自动地或在用户102的请求后,将图像或图像的信息发送给基于姿势的视觉搜索系统 106。在某些实施例中,客户机设备108还可将上下文信息(例如,图像中示出的感兴趣对象的类型信息)发送给基于姿势的视觉搜索系统106。
在框408,响应于收到图像以及可能的与图像相关联的上下文信息,基于姿势的视觉搜索系统106将图像分割成多个片段。在一个实施例中,基于姿势的视觉搜索系统106可基于JSEG分割方法来分割图像。另外地或可选地,基于姿势的视觉搜索系统106可基于所接收的与图像相关联的上下文信息来分割图像。
在框410,基于姿势的视觉搜索系统106将经分割的图像(例如多个片段) 返回给客户机设备108。
在框412,客户机设备108将经分割的图像显示给用户102。
在框414,客户机设备108接收用户102选择一个或多个片段的指示。例如,用户102可以在多个片段中的一个或多个片段上轻击以指示他/她的选择。
在框416,响应于收到用户102选择一个或多个片段的指示,客户机设备 108将一个或多个所选片段的信息发送给基于姿势的视觉搜索系统106。在一个实施例中,客户机设备108可将实际的一个或多个所选片段发送给基于姿势的视觉搜索系统106。在另一实施例中,客户机设备108可将一个或多个所选片段相对于图像的某位置(如图像左上角)的坐标发送给基于姿势的视觉搜索系统106。
在框418,响应于从客户机设备108接收到一个或多个所选片段的信息,基于姿势的视觉搜索系统106基于一个或多个所选片段来表述搜索查询。在一个实施例中,基于姿势的视觉搜索系统106可提取从一个或多个所述片段的视觉特征,并基于所提取的视觉特征表述搜索查询。另外地或可选地,基于姿势的视觉搜索系统106可对一个或多个所选片段执行对象字符识别(OCR)以识别一个或多个所选片段中示出的文本。基于姿势的视觉搜索系统106可随后基于所识别的文本加上或替换所提取的一个或多个所选片段的视觉特征,来表述搜索查询。
在框420,在表述了搜索查询后,基于姿势的视觉搜索系统106可基于此搜索查询来执行搜索(例如图像搜索、文本搜索或其组合)以获得搜索结果。
在框422,基于姿势的视觉搜索系统106将搜索结果返回给客户机设备 108。
在框424,客户机设备108将搜索结果显示给用户102。用户102可被允许浏览搜索结果或通过选择客户机设备108上显示的文本、图像、或文本或图像的片段来实例化另一搜索。
尽管描述了由客户机设备108或基于姿势的视觉搜索系统106来执行上述动作,但是由基于姿势的视觉搜索系统106执行的一个或多个动作可由客户机设备108执行,反之亦然。例如,客户机设备108不是发送图像给基于姿势的视觉搜索系统106来进行图像分割,而是自己分割图像。
而且,客户机设备108和基于姿势的视觉搜索系统106可协同以完成一个被描述为由客户机设备108和基于姿势的视觉搜索系统106之一执行的动作。作为举例而非限制,客户机设备108可为图像执行初步图像分割(例如响应于用户102对图像一部分的选择),并发送所分割的这部分图像给基于姿势的视觉搜索系统106进行进一步或更细化的图像分割。
此处描述的方法的任何动作都可至少部分地由处理器或其它电子设备基于存储在一个或多个计算机可读介质上的指令来实现。作为示例而非限制,此处描述的任何方法的任何动作可在用可执行指令配置的一个或多个处理器的控制下实现,这些可执行指令可被存储在诸如一个或多个计算机存储介质等一个或多个计算机可读介质上。
结论
虽然已经用对结构特征和/或方法动作专用的语言描述了本发明,但是应该理解,在本发明不必限于所述的具体特征或动作。相反,这些具体特征和动作是作为实现本发明的示例性形式而公开的。
Claims (10)
1.一种系统,包括:
一个或多个处理器;
存储器,通信地耦合到所述一个或多个处理器,所述存储器存储指令,当所述指令被所述一个或多个处理器执行时,配置所述一个或多个处理器执行以下动作,包括:
从客户机接收图像;
将所述图像分割成多个片段;
将经分割的图像的至少一部分发送给所述客户机;
从所述客户机接收所述多个片段中的一个或多个所选片段;以及
响应于从所述客户机接收到所述一个或多个所选片段,基于所述一个或多个所选片段来表述查询。
2.如权利要求1所述的系统,其特征在于,所述动作还包括:
接收所述图像的上下文信息;和/或
从所述客户机接收所述图像中的感兴趣对象的类型信息。
3.如前述任一项权利要求所述的系统,其特征在于,表述查询包括:
识别所述一个或多个所选片段中的对象,基于所述一个或多个所选片段中的识别出的对象来表述所述查询;
从所述一个或多个所选片段中提取特征,基于被提取的特征确定来自词汇树的视觉字,以及基于所确定的视觉字来表述所述查询;和/或
识别所述一个或多个所选片段中的文本,以及基于识别出的文本来表述所述查询。
4.如前述任一项权利要求所述的系统,其特征在于,分割图像包括:
基于所述图像的颜色来分割所述图像;和/或
基于从所述客户机接收到的所述图像中的感兴趣对象的类型信息来分割所述图像,其中基于接收到的类型信息来分割所述图像包括:
识别具有根据来自所述图像的接收到的类型信息的类型的一个或多个对象;
将所述一个或多个对象与所述图像分割开来;以及
将所述一个或多个对象呈现为所述多个片段。
5.一种方法,包括:
在配置有可执行指令的一个或多个处理器的控制下:
将图像显示在客户机设备的显示器上,所述图像包括多个片段;
接收从所述多个片段中选择一个或多个片段的选择姿势;
基于所述一个或多个所选片段来实例化搜索查询。
6.如权利要求5所述的方法,其特征在于,还包括接收所述图像的上下文信息,其中实例化所述搜索查询进一步基于所述图像的上下文信息。
7.如前述任一项权利要求所述的方法,其特征在于,还包括:
将所述搜索查询发送到搜索引擎;以及
从所述搜索引擎接收搜索结果。
8.如前述任一项权利要求所述的方法,其特征在于,还包括在显示所述图像之前:
在所述客户机设备处将所述图像分割成多个片段;
将所述图像提供给基于姿势的视觉搜索系统进行分割,以及从所述基于姿势的视觉搜索系统接收所述图像的所述多个片段;和/或
通过以下动作来获得所述图像:
通过所述客户机设备的相机来捕捉所述图像;
通过所述客户机设备的照片应用选择所述图像;或者
从存储在所述客户机设备上或者所述客户机设备可访问的介质选择所述图像。
9.如前述任一项权利要求所述的方法,其特征在于,接收所述选择姿势包括:接收对所述客户机设备的用户界面的一个或多个触摸输入,所述一个或多个触摸输入与所述一个或多个所选片段相对应,或者接收框住或基本框住所述一个或多个所选片段的框选姿势。
10.一个或多个配置有计算机可执行指令的计算机可读介质,当所述计算机可执行指令被一个或多个处理器执行时,配置所述一个或多个处理器以执行以下的动作,包括:
从客户机接收图像以及与所述图像相关联的上下文信息;
基于与所述图像相关联的上下文信息将所述图像分割成多个片段;
将经分割的图像以所述多个片段的形式返回给所述客户机;
从所述客户机接收对所述多个片段中的一个或多个片段的选择;
基于所述一个或多个所选片段以及与所述图像相关联的上下文信息来表述搜索查询;
使用所述搜索查询来执行搜索以获得搜索结果;
以及
将所述搜索结果返回给所述客户机。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/109,363 US8553981B2 (en) | 2011-05-17 | 2011-05-17 | Gesture-based visual search |
US13/109,363 | 2011-05-17 | ||
CN201280023646.0A CN103562911A (zh) | 2011-05-17 | 2012-05-16 | 基于姿势的视觉搜索 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201280023646.0A Division CN103562911A (zh) | 2011-05-17 | 2012-05-16 | 基于姿势的视觉搜索 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110263746A true CN110263746A (zh) | 2019-09-20 |
Family
ID=47174956
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201280023646.0A Pending CN103562911A (zh) | 2011-05-17 | 2012-05-16 | 基于姿势的视觉搜索 |
CN201910561808.XA Pending CN110263746A (zh) | 2011-05-17 | 2012-05-16 | 基于姿势的视觉搜索 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201280023646.0A Pending CN103562911A (zh) | 2011-05-17 | 2012-05-16 | 基于姿势的视觉搜索 |
Country Status (4)
Country | Link |
---|---|
US (2) | US8553981B2 (zh) |
EP (1) | EP2710498A4 (zh) |
CN (2) | CN103562911A (zh) |
WO (1) | WO2012158808A1 (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220188547A1 (en) * | 2020-12-16 | 2022-06-16 | Here Global B.V. | Method, apparatus, and computer program product for identifying objects of interest within an image captured by a relocatable image capture device |
US11587253B2 (en) | 2020-12-23 | 2023-02-21 | Here Global B.V. | Method, apparatus, and computer program product for displaying virtual graphical data based on digital signatures |
US11829192B2 (en) | 2020-12-23 | 2023-11-28 | Here Global B.V. | Method, apparatus, and computer program product for change detection based on digital signatures |
US11830103B2 (en) | 2020-12-23 | 2023-11-28 | Here Global B.V. | Method, apparatus, and computer program product for training a signature encoding module and a query processing module using augmented data |
US11900662B2 (en) | 2020-12-16 | 2024-02-13 | Here Global B.V. | Method, apparatus, and computer program product for training a signature encoding module and a query processing module to identify objects of interest within an image utilizing digital signatures |
US11991295B2 (en) | 2021-12-07 | 2024-05-21 | Here Global B.V. | Method, apparatus, and computer program product for identifying an object of interest within an image from a digital signature generated by a signature encoding module including a hypernetwork |
Families Citing this family (75)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8873841B2 (en) * | 2011-04-21 | 2014-10-28 | Nokia Corporation | Methods and apparatuses for facilitating gesture recognition |
US8553981B2 (en) | 2011-05-17 | 2013-10-08 | Microsoft Corporation | Gesture-based visual search |
US8688514B1 (en) | 2011-06-24 | 2014-04-01 | Google Inc. | Ad selection using image data |
US11087424B1 (en) | 2011-06-24 | 2021-08-10 | Google Llc | Image recognition-based content item selection |
US10972530B2 (en) | 2016-12-30 | 2021-04-06 | Google Llc | Audio-based data structure generation |
US8737729B2 (en) | 2011-09-30 | 2014-05-27 | Ebay Inc. | Re-ranking item recommendations based on image feature data |
US10169339B2 (en) | 2011-10-31 | 2019-01-01 | Elwha Llc | Context-sensitive query enrichment |
US20130106683A1 (en) * | 2011-10-31 | 2013-05-02 | Elwha LLC, a limited liability company of the State of Delaware | Context-sensitive query enrichment |
US11093692B2 (en) * | 2011-11-14 | 2021-08-17 | Google Llc | Extracting audiovisual features from digital components |
FR2983607B1 (fr) * | 2011-12-02 | 2014-01-17 | Morpho | Procede et dispositif de suivi d'un objet dans une sequence d'au moins deux images |
US9052804B1 (en) * | 2012-01-06 | 2015-06-09 | Google Inc. | Object occlusion to initiate a visual search |
US9230171B2 (en) | 2012-01-06 | 2016-01-05 | Google Inc. | Object outlining to initiate a visual search |
US20130244685A1 (en) * | 2012-03-14 | 2013-09-19 | Kelly L. Dempski | System for providing extensible location-based services |
US20130275431A1 (en) * | 2012-04-12 | 2013-10-17 | Nainesh Rathod | Visual clustering method |
US9916396B2 (en) * | 2012-05-11 | 2018-03-13 | Google Llc | Methods and systems for content-based search |
DE102012208999A1 (de) * | 2012-05-29 | 2013-12-05 | Siemens Aktiengesellschaft | Bearbeitung einer Datenmenge |
US8868598B2 (en) * | 2012-08-15 | 2014-10-21 | Microsoft Corporation | Smart user-centric information aggregation |
US9092509B2 (en) * | 2012-11-19 | 2015-07-28 | Microsoft Technology Licensing, Llc | Search query user interface |
KR102090269B1 (ko) | 2012-12-14 | 2020-03-17 | 삼성전자주식회사 | 정보 검색 방법, 그와 같은 기능을 갖는 디바이스 및 기록 매체 |
RU2589855C2 (ru) * | 2013-01-18 | 2016-07-10 | Общество С Ограниченной Ответственностью "Яндекс" | Способ, система и компьютерная программа для управления информацией из социальных сетей |
US9898661B2 (en) * | 2013-01-31 | 2018-02-20 | Beijing Lenovo Software Ltd. | Electronic apparatus and method for storing data |
EP2951756A4 (en) * | 2013-02-01 | 2016-09-07 | Intel Corp | IMAGE-BASED RESEARCH TECHNIQUES USING TOUCH CONTROLS |
US9672259B2 (en) * | 2013-05-29 | 2017-06-06 | Ebay Inc. | Methods and systems to refine search information |
JP5883837B2 (ja) * | 2013-09-30 | 2016-03-15 | 富士フイルム株式会社 | 電子アルバム用人物画像決定装置ならびにその制御方法,その制御プログラムおよびその制御プログラムを格納した記録媒体 |
US10515110B2 (en) * | 2013-11-12 | 2019-12-24 | Pinterest, Inc. | Image based search |
KR101887002B1 (ko) | 2014-02-10 | 2018-09-10 | 지니 게엠베하 | 이미지-특징-기반 인식을 위한 시스템들 및 방법들 |
US9928532B2 (en) | 2014-03-04 | 2018-03-27 | Daniel Torres | Image based search engine |
US9600720B1 (en) * | 2014-03-18 | 2017-03-21 | Amazon Technologies, Inc. | Using available data to assist in object recognition |
WO2015153480A1 (en) * | 2014-03-31 | 2015-10-08 | Ebay Inc. | Image-based retrieval and searching |
CN103927351B (zh) * | 2014-04-10 | 2017-06-06 | 清华大学 | 基于姿态校正的指纹检索方法及系统 |
US11314826B2 (en) | 2014-05-23 | 2022-04-26 | Samsung Electronics Co., Ltd. | Method for searching and device thereof |
US9990433B2 (en) | 2014-05-23 | 2018-06-05 | Samsung Electronics Co., Ltd. | Method for searching and device thereof |
WO2015200535A1 (en) | 2014-06-24 | 2015-12-30 | Google Inc. | Methods, systems and media for performing personalized actions on mobile devices associated with a media presentation device |
KR102314274B1 (ko) * | 2014-08-18 | 2021-10-20 | 삼성전자주식회사 | 컨텐츠 처리 방법 및 그 전자 장치 |
CN105373552A (zh) * | 2014-08-25 | 2016-03-02 | 中兴通讯股份有限公司 | 基于显示终端的数据处理方法 |
KR102024867B1 (ko) * | 2014-09-16 | 2019-09-24 | 삼성전자주식회사 | 예제 피라미드에 기초하여 입력 영상의 특징을 추출하는 방법 및 얼굴 인식 장치 |
US10990272B2 (en) | 2014-12-16 | 2021-04-27 | Micro Focus Llc | Display a subset of objects on a user interface |
US11023099B2 (en) | 2014-12-16 | 2021-06-01 | Micro Focus Llc | Identification of a set of objects based on a focal object |
US11334228B1 (en) | 2015-03-30 | 2022-05-17 | Evernote Corporation | Dynamic targeting of preferred objects in video stream of smartphone camera |
US9878447B2 (en) * | 2015-04-10 | 2018-01-30 | Microsoft Technology Licensing, Llc | Automated collection and labeling of object data |
US9448704B1 (en) * | 2015-04-29 | 2016-09-20 | Dropbox, Inc. | Navigating digital content using visual characteristics of the digital content |
US10679269B2 (en) | 2015-05-12 | 2020-06-09 | Pinterest, Inc. | Item selling on multiple web sites |
US10269055B2 (en) | 2015-05-12 | 2019-04-23 | Pinterest, Inc. | Matching user provided representations of items with sellers of those items |
US10664515B2 (en) | 2015-05-29 | 2020-05-26 | Microsoft Technology Licensing, Llc | Task-focused search by image |
US10739962B1 (en) * | 2015-08-24 | 2020-08-11 | Evernote Corporation | Restoring full online documents from scanned paper fragments |
US10157333B1 (en) | 2015-09-15 | 2018-12-18 | Snap Inc. | Systems and methods for content tagging |
US10083238B2 (en) * | 2015-09-28 | 2018-09-25 | Oath Inc. | Multi-touch gesture search |
US10810252B2 (en) * | 2015-10-02 | 2020-10-20 | Adobe Inc. | Searching using specific attributes found in images |
US11609946B2 (en) * | 2015-10-05 | 2023-03-21 | Pinterest, Inc. | Dynamic search input selection |
US11055343B2 (en) | 2015-10-05 | 2021-07-06 | Pinterest, Inc. | Dynamic search control invocation and visual search |
US20170161382A1 (en) | 2015-12-08 | 2017-06-08 | Snapchat, Inc. | System to correlate video data and contextual data |
US10228775B2 (en) * | 2016-01-22 | 2019-03-12 | Microsoft Technology Licensing, Llc | Cross application digital ink repository |
US9916664B2 (en) * | 2016-02-09 | 2018-03-13 | Daqri, Llc | Multi-spectrum segmentation for computer vision |
CN107239203A (zh) * | 2016-03-29 | 2017-10-10 | 北京三星通信技术研究有限公司 | 一种图像管理方法和装置 |
US10628505B2 (en) | 2016-03-30 | 2020-04-21 | Microsoft Technology Licensing, Llc | Using gesture selection to obtain contextually relevant information |
DE102016124277A1 (de) | 2016-04-19 | 2017-10-19 | Patty's Gmbh | Verfahren zum Ermitteln und Anzeigen von Produkten auf einer elektronischen Anzeigeeinrichtung |
US11704692B2 (en) | 2016-05-12 | 2023-07-18 | Pinterest, Inc. | Promoting representations of items to users on behalf of sellers of those items |
US11334768B1 (en) | 2016-07-05 | 2022-05-17 | Snap Inc. | Ephemeral content management |
EP3491504A4 (en) * | 2016-11-16 | 2019-07-17 | Samsung Electronics Co., Ltd. | IMAGE MANAGEMENT PROCESS AND DEVICE THEREFOR |
US10732794B2 (en) | 2017-04-10 | 2020-08-04 | International Business Machines Corporation | Methods and systems for managing images |
US20180314698A1 (en) * | 2017-04-27 | 2018-11-01 | GICSOFT, Inc. | Media sharing based on identified physical objects |
WO2019006654A1 (zh) * | 2017-07-04 | 2019-01-10 | 深圳怡化电脑股份有限公司 | 金融自助设备维修派单生成方法、手持终端及电子设备 |
CN107730506A (zh) * | 2017-07-21 | 2018-02-23 | 苏州大学 | 图像分割方法及图像检索方法 |
US11841735B2 (en) | 2017-09-22 | 2023-12-12 | Pinterest, Inc. | Object based image search |
US11126653B2 (en) | 2017-09-22 | 2021-09-21 | Pinterest, Inc. | Mixed type image based search results |
US10942966B2 (en) | 2017-09-22 | 2021-03-09 | Pinterest, Inc. | Textual and image based search |
KR102599947B1 (ko) * | 2017-10-27 | 2023-11-09 | 삼성전자주식회사 | 관련 이미지를 검색하기 위한 전자 장치 및 이의 제어 방법 |
US10796157B2 (en) * | 2018-03-13 | 2020-10-06 | Mediatek Inc. | Hierarchical object detection and selection |
US11120070B2 (en) | 2018-05-21 | 2021-09-14 | Microsoft Technology Licensing, Llc | System and method for attribute-based visual search over a computer communication network |
US10839143B2 (en) | 2018-06-29 | 2020-11-17 | Dropbox, Inc. | Referential gestures within content items |
CN109147009B (zh) * | 2018-08-13 | 2023-04-07 | 优视科技新加坡有限公司 | 一种基于图像的个性化操作的方法、装置和设备/终端/服务器 |
US11115597B2 (en) * | 2019-02-20 | 2021-09-07 | Lg Electronics Inc. | Mobile terminal having first and second AI agents interworking with a specific application on the mobile terminal to return search results |
CN111813660B (zh) * | 2020-06-12 | 2021-10-12 | 北京邮电大学 | 一种视觉认知搜索模拟方法、电子设备及存储介质 |
US11481401B2 (en) | 2020-11-25 | 2022-10-25 | International Business Machines Corporation | Enhanced cognitive query construction |
CN115774806A (zh) * | 2021-09-08 | 2023-03-10 | 腾讯科技(深圳)有限公司 | 一种搜索处理方法、装置、设备、介质及程序产品 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1716253A (zh) * | 2004-07-02 | 2006-01-04 | 佳能株式会社 | 检索数据的方法和装置 |
CN1916906A (zh) * | 2006-09-08 | 2007-02-21 | 北京工业大学 | 基于信息突变的图像检索算法 |
CN101479728A (zh) * | 2006-06-28 | 2009-07-08 | 微软公司 | 视觉以及多维搜索 |
US20110035406A1 (en) * | 2009-08-07 | 2011-02-10 | David Petrou | User Interface for Presenting Search Results for Multiple Regions of a Visual Query |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6996549B2 (en) * | 1998-05-01 | 2006-02-07 | Health Discovery Corporation | Computer-aided image analysis |
US7050989B1 (en) * | 2000-03-16 | 2006-05-23 | Coremetrics, Inc. | Electronic commerce personalized content delivery system and method of operation |
US7299289B1 (en) * | 2000-04-28 | 2007-11-20 | Accordent Technologies, Inc. | Method, system, and article of manufacture for integrating streaming content and a real time interactive dynamic user interface over a network |
WO2002025588A2 (en) * | 2000-09-21 | 2002-03-28 | Md Online Inc. | Medical image processing systems |
US7099860B1 (en) | 2000-10-30 | 2006-08-29 | Microsoft Corporation | Image retrieval systems and methods with semantic and feature based relevance feedback |
US20030164819A1 (en) * | 2002-03-04 | 2003-09-04 | Alex Waibel | Portable object identification and translation system |
US7043474B2 (en) | 2002-04-15 | 2006-05-09 | International Business Machines Corporation | System and method for measuring image similarity based on semantic meaning |
US7289806B2 (en) * | 2004-03-30 | 2007-10-30 | Intel Corporation | Method and apparatus for context enabled search |
US7966327B2 (en) | 2004-11-08 | 2011-06-21 | The Trustees Of Princeton University | Similarity search system with compact data structures |
US8185543B1 (en) * | 2004-11-10 | 2012-05-22 | Google Inc. | Video image-based querying for video content |
US7660468B2 (en) | 2005-05-09 | 2010-02-09 | Like.Com | System and method for enabling image searching using manual enrichment, classification, and/or segmentation |
US7962504B1 (en) * | 2005-05-26 | 2011-06-14 | Aol Inc. | Sourcing terms into a search engine |
US7657518B2 (en) * | 2006-01-31 | 2010-02-02 | Northwestern University | Chaining context-sensitive search results |
US7775437B2 (en) * | 2006-06-01 | 2010-08-17 | Evryx Technologies, Inc. | Methods and devices for detecting linkable objects |
US7933452B2 (en) * | 2006-12-11 | 2011-04-26 | Florida Atlantic University | System and methods of image retrieval |
US8861898B2 (en) | 2007-03-16 | 2014-10-14 | Sony Corporation | Content image search |
US8625899B2 (en) * | 2008-07-10 | 2014-01-07 | Samsung Electronics Co., Ltd. | Method for recognizing and translating characters in camera-based image |
CN101777064A (zh) * | 2009-01-12 | 2010-07-14 | 鸿富锦精密工业(深圳)有限公司 | 图片搜索系统及方法 |
US9195898B2 (en) * | 2009-04-14 | 2015-11-24 | Qualcomm Incorporated | Systems and methods for image recognition using mobile devices |
US20110026816A1 (en) * | 2009-07-29 | 2011-02-03 | Vaughn Robert L | Rapid image categorization |
US20110128288A1 (en) * | 2009-12-02 | 2011-06-02 | David Petrou | Region of Interest Selector for Visual Queries |
US8553981B2 (en) | 2011-05-17 | 2013-10-08 | Microsoft Corporation | Gesture-based visual search |
-
2011
- 2011-05-17 US US13/109,363 patent/US8553981B2/en active Active
-
2012
- 2012-05-16 EP EP12785132.7A patent/EP2710498A4/en not_active Ceased
- 2012-05-16 CN CN201280023646.0A patent/CN103562911A/zh active Pending
- 2012-05-16 CN CN201910561808.XA patent/CN110263746A/zh active Pending
- 2012-05-16 WO PCT/US2012/038155 patent/WO2012158808A1/en active Application Filing
-
2013
- 2013-09-05 US US14/019,259 patent/US8831349B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1716253A (zh) * | 2004-07-02 | 2006-01-04 | 佳能株式会社 | 检索数据的方法和装置 |
CN101479728A (zh) * | 2006-06-28 | 2009-07-08 | 微软公司 | 视觉以及多维搜索 |
CN1916906A (zh) * | 2006-09-08 | 2007-02-21 | 北京工业大学 | 基于信息突变的图像检索算法 |
US20110035406A1 (en) * | 2009-08-07 | 2011-02-10 | David Petrou | User Interface for Presenting Search Results for Multiple Regions of a Visual Query |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220188547A1 (en) * | 2020-12-16 | 2022-06-16 | Here Global B.V. | Method, apparatus, and computer program product for identifying objects of interest within an image captured by a relocatable image capture device |
US11900662B2 (en) | 2020-12-16 | 2024-02-13 | Here Global B.V. | Method, apparatus, and computer program product for training a signature encoding module and a query processing module to identify objects of interest within an image utilizing digital signatures |
US12073615B2 (en) * | 2020-12-16 | 2024-08-27 | Here Global B.V. | Method, apparatus, and computer program product for identifying objects of interest within an image captured by a relocatable image capture device |
US11587253B2 (en) | 2020-12-23 | 2023-02-21 | Here Global B.V. | Method, apparatus, and computer program product for displaying virtual graphical data based on digital signatures |
US11829192B2 (en) | 2020-12-23 | 2023-11-28 | Here Global B.V. | Method, apparatus, and computer program product for change detection based on digital signatures |
US11830103B2 (en) | 2020-12-23 | 2023-11-28 | Here Global B.V. | Method, apparatus, and computer program product for training a signature encoding module and a query processing module using augmented data |
US12094163B2 (en) | 2020-12-23 | 2024-09-17 | Here Global B.V. | Method, apparatus, and computer program product for displaying virtual graphical data based on digital signatures |
US11991295B2 (en) | 2021-12-07 | 2024-05-21 | Here Global B.V. | Method, apparatus, and computer program product for identifying an object of interest within an image from a digital signature generated by a signature encoding module including a hypernetwork |
Also Published As
Publication number | Publication date |
---|---|
US20140003714A1 (en) | 2014-01-02 |
EP2710498A1 (en) | 2014-03-26 |
CN103562911A (zh) | 2014-02-05 |
US20120294520A1 (en) | 2012-11-22 |
US8553981B2 (en) | 2013-10-08 |
WO2012158808A1 (en) | 2012-11-22 |
US8831349B2 (en) | 2014-09-09 |
EP2710498A4 (en) | 2015-04-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110263746A (zh) | 基于姿势的视觉搜索 | |
US10346463B2 (en) | Hybrid use of location sensor data and visual query to return local listings for visual query | |
US9372920B2 (en) | Identifying textual terms in response to a visual query | |
CN102549603B (zh) | 基于相关性的图像选择 | |
US9405772B2 (en) | Actionable search results for street view visual queries | |
CN113010703B (zh) | 一种信息推荐方法、装置、电子设备和存储介质 | |
US10606824B1 (en) | Update service in a distributed environment | |
CN111062871A (zh) | 一种图像处理方法、装置、计算机设备及可读存储介质 | |
US20110131241A1 (en) | Actionable Search Results for Visual Queries | |
CN106560810A (zh) | 使用图像中找到的特定属性进行搜索 | |
US11704357B2 (en) | Shape-based graphics search | |
KR20140093957A (ko) | 상호작용 멀티-모달 이미지 검색 기법 | |
EP3475840A1 (en) | Facilitating use of images as search queries | |
Cao et al. | Learning human photo shooting patterns from large-scale community photo collections | |
JP2020030795A (ja) | 地図画像背景から位置を推定するためのシステム、方法、及びプログラム | |
US20140297678A1 (en) | Method for searching and sorting digital data | |
US20180189602A1 (en) | Method of and system for determining and selecting media representing event diversity | |
Zhang et al. | Tap-to-search: Interactive and contextual visual search on mobile devices | |
Liu et al. | On the automatic online collection of training data for visual event modeling | |
Abe et al. | Clickable real world: Interaction with real-world landmarks using mobile phone camera | |
Yoshitaka | Image/video indexing, retrieval and summarization based on eye movement | |
AU2014200923A1 (en) | Hybrid use of location sensor data and visual query to return local listings for visual query |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190920 |