JP2020521219A - Efficiently enhance images with related content - Google Patents
Efficiently enhance images with related content Download PDFInfo
- Publication number
- JP2020521219A JP2020521219A JP2019563199A JP2019563199A JP2020521219A JP 2020521219 A JP2020521219 A JP 2020521219A JP 2019563199 A JP2019563199 A JP 2019563199A JP 2019563199 A JP2019563199 A JP 2019563199A JP 2020521219 A JP2020521219 A JP 2020521219A
- Authority
- JP
- Japan
- Prior art keywords
- user
- text
- search
- block
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000004044 response Effects 0.000 claims abstract description 56
- 230000009471 action Effects 0.000 claims abstract description 43
- 238000012545 processing Methods 0.000 claims abstract description 32
- 238000000034 method Methods 0.000 claims description 56
- 230000000977 initiatory effect Effects 0.000 claims description 30
- 238000004891 communication Methods 0.000 claims description 15
- 238000004458 analytical method Methods 0.000 claims description 11
- 239000000284 extract Substances 0.000 claims description 5
- 230000001419 dependent effect Effects 0.000 claims 1
- ZINJLDJMHCUBIP-UHFFFAOYSA-N ethametsulfuron-methyl Chemical compound CCOC1=NC(NC)=NC(NC(=O)NS(=O)(=O)C=2C(=CC=CC=2)C(=O)OC)=N1 ZINJLDJMHCUBIP-UHFFFAOYSA-N 0.000 description 19
- 230000008569 process Effects 0.000 description 19
- 238000012015 optical character recognition Methods 0.000 description 14
- 238000004590 computer program Methods 0.000 description 13
- 230000003993 interaction Effects 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 6
- 206010020751 Hypersensitivity Diseases 0.000 description 5
- 230000007815 allergy Effects 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 5
- 208000026935 allergic disease Diseases 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 235000013305 food Nutrition 0.000 description 4
- 235000016709 nutrition Nutrition 0.000 description 4
- 230000035764 nutrition Effects 0.000 description 4
- 230000000644 propagated effect Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000000172 allergic effect Effects 0.000 description 2
- 208000010668 atopic eczema Diseases 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 230000000875 corresponding effect Effects 0.000 description 2
- 235000021185 dessert Nutrition 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 235000001674 Agaricus brunnescens Nutrition 0.000 description 1
- 241000238557 Decapoda Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 235000020095 red wine Nutrition 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 235000014101 wine Nutrition 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
- G06F3/0482—Interaction with lists of selectable items, e.g. menus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
- G06F3/04845—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range for image manipulation, e.g. dragging, rotation, expansion or change of colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2203/00—Indexing scheme relating to G06F3/00 - G06F3/048
- G06F2203/048—Indexing scheme relating to G06F3/048
- G06F2203/04803—Split screen, i.e. subdividing the display area or the window area into separate subareas
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2203/00—Indexing scheme relating to G06F3/00 - G06F3/048
- G06F2203/048—Indexing scheme relating to G06F3/048
- G06F2203/04806—Zoom, i.e. interaction techniques or interactors for controlling the zooming operation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Library & Information Science (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- User Interface Of Digital Computer (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本明細書の主題は、一般に、画像に描かれたテキストに関連するコンテンツを提供することに関する。一態様では、システムは、画像からテキストを抽出するように構成されたデータ処理装置を含む。抽出されたテキストは、複数のブロックに分割される。複数のブロックは、第1のズームレベルにおいてユーザインターフェース上にそれぞれの第1のユーザ選択可能なターゲットとして提示される。複数のブロックのうちの第1のブロックのユーザ選択が検出される。第1のブロックのユーザ選択の検出に応答して、第1のブロック内の抽出されたテキストの部分は、第1のズームレベルより大きい第2のズームレベルにおいて、ユーザインターフェース上にそれぞれの第2のユーザ選択可能なターゲットとして提示される。第1のブロック内の抽出されたテキストの一部のユーザ選択の検出に応答して、ユーザ選択のテキストのコンテンツに基づいてアクションが開始される。 The subject matter herein relates generally to providing content related to text drawn in images. In one aspect, the system includes a data processing device configured to extract text from the image. The extracted text is divided into a plurality of blocks. The plurality of blocks are presented as respective first user selectable targets on a user interface at a first zoom level. A user selection of a first block of the plurality of blocks is detected. In response to detecting the user selection of the first block, the portion of the extracted text in the first block is displayed on the user interface at a second zoom level that is greater than the first zoom level. Is presented as a user-selectable target for. In response to detecting the user selection of the portion of the extracted text in the first block, an action is initiated based on the content of the user selected text.
Description
本発明は、関連コンテンツを使用した画像の効率的な増強に関する。 The present invention relates to efficient enhancement of images with related content.
インターネットは、画像ファイル、オーディオファイル、ビデオファイル、およびウェブページなどの様々なリソースへのアクセスを提供する。検索システムは、クエリに応じてリソースを識別することができる。クエリは、1つまたは複数の検索用語またはフレーズを含むテキストクエリ、画像を含む画像クエリ、またはテキストクエリと画像クエリとの組合せであり得る。検索システムはリソースをランク付けし、識別されたリソースにリンクしてもよく、クエリに関連するコンテンツを提供してもよい検索結果を提供する。 The Internet provides access to various resources such as image files, audio files, video files, and web pages. The search system can identify the resource in response to the query. The query may be a text query that includes one or more search terms or phrases, an image query that includes images, or a combination of text and image queries. The search system ranks the resources and provides search results that may link to the identified resources and may provide content related to the query.
カメラおよびカメラファーストアプリケーションを備えたスマートフォンが広く普及していることからもわかるように、画像(たとえば、デジタル写真)は、ユーザが情報を収集し、アクションを起こすための一般的な方法になった。たとえば、自分のスマートフォンまたは他のデバイスで写真を撮影したユーザは、写真のコンテンツに関するさらなる情報を取得したい場合がある。場合によっては、ユーザが写真において識別したコンテンツに基づいてクエリを入力するために異なるアプリケーションを開く必要があり得るが、これは面倒であり、不正確または無効なクエリをもたらす可能性がある。 Images (eg, digital photos) have become a popular way for users to gather information and take action, as can be seen by the widespread popularity of smartphones with cameras and camera-first applications. .. For example, a user who has taken a picture with his smartphone or other device may want to get more information about the content of the picture. In some cases, the user may need to open a different application to enter a query based on the content identified in the photo, which can be cumbersome and result in inaccurate or invalid queries.
本明細書は、画像に描かれたテキストに関連するコンテンツを提示するためのシステム、方法、デバイス、および技法について説明する。 This specification describes systems, methods, devices, and techniques for presenting content related to text drawn in images.
一般に、本明細書に記載される主題の革新的な一態様は、ユーザデバイスによって、キャプチャされた画像からテキストを抽出するステップを含む方法において実装することができる。ユーザデバイスは、抽出されたテキストを複数のブロックに分割することができる。ユーザデバイスは、第1のズームレベルにおいて、ユーザデバイスのユーザインターフェース上にそれぞれのユーザ選択可能なターゲットとしてブロックを提示することができる。複数のブロックのうちの第1のブロックのユーザ選択を検出することができる。第1のブロックのユーザ選択の検出に応答して、ユーザデバイスは、第1のズームレベルより大きい第2のズームレベルにおいて、第1のブロック内の抽出されたテキストの一部を、ユーザデバイスのユーザインターフェース上にそれぞれの第2のユーザ選択可能なターゲットとして提示することができる。第1のブロック内の抽出されたテキストの一部のユーザ選択の検出に応答して、ユーザデバイスは、ユーザ選択のテキストのコンテンツに基づいてアクションを開始することができる。この態様の他の実装形態は、コンピュータストレージデバイス上にエンコードされた方法のアクションを実行するように構成された、対応する装置、方法、およびコンピュータプログラムを含む。 In general, an innovative aspect of the subject matter described herein can be implemented in a method that includes extracting text from a captured image by a user device. The user device may divide the extracted text into blocks. The user device may present the blocks as respective user selectable targets on the user interface of the user device at the first zoom level. User selection of a first block of the plurality of blocks can be detected. In response to detecting the user selection of the first block, the user device selects a portion of the extracted text in the first block of the user device at a second zoom level that is greater than the first zoom level. Each may be presented on the user interface as a respective second user selectable target. In response to detecting the user selection of the portion of the extracted text in the first block, the user device may initiate an action based on the content of the text of the user selection. Other implementations of this aspect include corresponding apparatus, methods, and computer programs configured to perform the actions of the encoded methods on a computer storage device.
これらおよび他の実装形態は、任意で次の機能のうちの1つまたは複数を含むことができる。いくつかの態様では、アクションを開始するステップは、ユーザ選択のテキストによって識別される宛先アドレスへの通信を開始するステップを含むことができる。 These and other implementations can optionally include one or more of the following features. In some aspects, initiating an action may include initiating communication to a destination address identified by the user-selected text.
アクションを開始するステップは、ユーザ選択のテキストのコンテンツに基づいて検索クエリを生成するステップと、ユーザデバイスによって検索エンジンに検索クエリを送信するステップとを含む。アクションを開始するステップは、ユーザ選択のテキストのコンテンツに基づいて、2つ以上の候補検索クエリを生成するステップと、ユーザインターフェースに候補検索クエリを表示するステップと、候補クエリのうちの1つのユーザ選択に応じて、ユーザデバイスによって、選択された候補クエリを検索エンジンに送信するステップとを含むことができる。 Initiating the action includes generating a search query based on the user-selected textual content and sending the search query by the user device to a search engine. Initiating an action includes generating two or more candidate search queries based on user-selected textual content, displaying the candidate search queries in a user interface, and selecting one of the candidate queries. Sending the selected candidate query to the search engine by the user device in response to the selection.
いくつかの態様は、ユーザデバイスによって、画像からコンテキストを抽出するステップを含むことができる。検索クエリまたは候補検索クエリを生成するステップは、画像の抽出されたコンテキストにさらに基づいて、検索クエリまたは候補検索クエリを生成するステップを含むことができる。 Some aspects may include extracting context from an image by a user device. Generating a search query or a candidate search query may include generating a search query or a candidate search query further based on the extracted context of the image.
いくつかの態様は、ユーザデバイスによって、画像からコンテキストを抽出するステップと、ユーザデバイスによって、画像の抽出されたコンテキストを使用して、画像が多数のあらかじめ定義されたカテゴリのいずれかに該当するかどうかを決定するステップとを含み得る。検索クエリまたは候補検索クエリを生成するステップは、画像があらかじめ定義されたカテゴリのいずれかに該当する場合、抽出されたコンテキストに基づいて検索クエリまたは候補検索クエリを生成するステップを含むことができ、該当しない場合、検索クエリまたは候補検索クエリを生成するステップは、ユーザ選択のテキストのコンテンツのみに基づく。 Some aspects include extracting a context from an image by a user device and using the extracted context of the image by the user device to determine if the image falls into any of a number of predefined categories. Deciding whether to do so. Generating a search or candidate search query may include generating a search or candidate search query based on the extracted context if the image falls into one of the predefined categories, If not, the step of generating a search query or a candidate search query is based solely on the content of the user-selected text.
いくつかの態様では、ユーザデバイスは、少なくとも1つのブロックについて、またユーザがブロックのうちのいずれかを選択する前に、ブロックの抽出されたテキストに基づいて1つまたは複数の検索クエリを生成することができる。ユーザデバイスは、ユーザデバイスから検索エンジンに1つまたは複数の検索クエリを送信することができる。ユーザデバイスは、ユーザインターフェース上にユーザ選択可能なそれぞれのターゲットとしてブロックを提示する前に、1つまたは複数の検索クエリを生成して送信することができる。 In some aspects, the user device generates one or more search queries for the at least one block and based on the extracted text of the block before the user selects any of the blocks. be able to. The user device may submit one or more search queries from the user device to the search engine. The user device may generate and send one or more search queries before presenting the block as each user-selectable target on the user interface.
いくつかの態様では、ユーザデバイスは、1つまたは複数の検索クエリに基づいて検索エンジンから検索結果コンテンツを受信し、受信した検索結果コンテンツをユーザデバイスのローカルメモリに記憶することができる。ブロックの抽出されたテキストに基づいて1つまたは複数の検索クエリを生成するステップは、ブロックの抽出されたテキストを、第1のレベルのテキストベースの粒度においてテキストの複数の第1のセットに解析するステップと、テキストの第1のセットごとに検索クエリを生成するステップとを含むことができる。 In some aspects a user device may receive search result content from a search engine based on one or more search queries and store the received search result content in a local memory of the user device. Generating one or more search queries based on the extracted text of the block parses the extracted text of the block into multiple first sets of text at a first level text-based granularity. And generating a search query for each first set of text.
いくつかの態様は、ブロックのユーザ選択の検出に応答して、ブロックの抽出されたテキストを、第1のレベルのテキストベースの粒度よりも大きい第2のレベルのテキストベースの粒度においてテキストの複数の第2のセットに解析するステップと、第1のブロック内の抽出されたテキストの一部のユーザ選択を受信する前に、テキストの第2のセットごとに追加の検索クエリを生成するステップと、ユーザデバイスから検索エンジンに各追加の検索クエリを送信するステップと、ユーザデバイスによって、および検索エンジンから、追加の検索クエリに基づく追加の検索結果コンテンツを受信するステップと、追加の検索結果コンテンツをユーザデバイスのローカルメモリに記憶するステップとを含むことができる。 Some aspects, in response to detecting the user selection of the block, extract the extracted text of the block from the plurality of text at a second level text-based granularity that is greater than the first level text-based granularity. Parsing into a second set of text, and generating an additional search query for each second set of text before receiving a user selection of some of the extracted text in the first block; , Sending each additional search query from the user device to the search engine; receiving additional search result content based on the additional search query by the user device and from the search engine; Storing in a local memory of the user device.
いくつかの態様では、抽出されたテキストをブロックに分割するステップは、抽出されたテキストの意味解析に少なくとも部分的に基づく。いくつかの態様は、ユーザインターフェース上に、検索エンジンからユーザデバイスにおいて受信したコンテンツを表示するステップを含むことができる。 In some aspects dividing the extracted text into blocks is based at least in part on a semantic analysis of the extracted text. Some aspects may include displaying on a user interface content received at a user device from a search engine.
一般に、本明細書に記載される主題の革新的な別の態様は、ユーザデバイスによって、画像からテキストを抽出するステップを含む方法において実装することができる。ユーザデバイスは、抽出されたテキストを複数のブロックに分割することができる。ユーザデバイスは、第1のズームレベルにおいて、ユーザデバイスのユーザインターフェース上にそれぞれの第1のユーザ選択可能なターゲットとして複数のブロックを提示することができる。複数のブロックのうちの第1のブロックのユーザ選択を検出することができる。第1のブロックのユーザ選択の検出に応答して、ユーザデバイスは、第1のズームレベルより大きい第2のズームレベルにおいて、第1のブロック内の抽出されたテキストの一部を、ユーザデバイスのユーザインターフェース上にそれぞれの第2のユーザ選択可能なターゲットとして提示することができる。第1のブロック内の抽出されたテキストの一部のユーザ選択の検出に応答して、ユーザデバイスは、ユーザ選択のテキストのコンテンツに基づいてアクションを開始することができる。 In general, another innovative aspect of the subject matter described herein can be implemented in a method that includes extracting text from an image by a user device. The user device may divide the extracted text into blocks. The user device may present the plurality of blocks as a respective first user selectable target on the user interface of the user device at the first zoom level. User selection of a first block of the plurality of blocks can be detected. In response to detecting the user selection of the first block, the user device selects a portion of the extracted text in the first block of the user device at a second zoom level that is greater than the first zoom level. Each may be presented on the user interface as a respective second user selectable target. In response to detecting the user selection of the portion of the extracted text in the first block, the user device may initiate an action based on the content of the text of the user selection.
いくつかの態様では、アクションを開始するステップは、ユーザ選択のテキストによって識別される宛先アドレスへの通信を開始するステップを含むことができる。アクションを開始するステップは、ユーザ選択のテキストのコンテンツに基づいて検索クエリを生成するステップと、検索エンジンに検索クエリを送信するステップとを含む。 In some aspects, initiating an action may include initiating communication to a destination address identified by the user-selected text. Initiating the action includes generating a search query based on the user-selected textual content and sending the search query to a search engine.
いくつかの態様は、ユーザデバイスによって、画像からコンテキストを抽出するステップと、画像の抽出されたコンテキストを使用して、画像が多数のあらかじめ定義されたカテゴリの1つに属すると決定するステップと、画像があらかじめ定義されたカテゴリの1つに属すると決定するステップに応答して、抽出されたコンテキストに基づいて検索クエリを調整するステップとを含む。 Some aspects are, by the user device, extracting context from the image, and using the extracted context of the image to determine that the image belongs to one of a number of predefined categories, Adjusting the search query based on the extracted context in response to determining that the image belongs to one of the predefined categories.
いくつかの態様は、ユーザデバイスによって、および検索エンジンから、検索クエリに基づいて選択された検索結果コンテンツを受信するステップを含むことができる。検索エンジンは、画像が属する1つのあらかじめ定義されたカテゴリに基づいて検索結果をランク付けすることができる。いくつかの態様は、ユーザデバイスによって、画像からコンテキストを抽出するステップと、抽出された画像のコンテキストを使用して、画像が多数のあらかじめ定義されたカテゴリの1つに属さないと決定するステップとを含むことができる。検索クエリを生成するステップは、ユーザ選択のテキストのみに基づいて一般的な検索クエリを生成するステップを含むことができる。 Some aspects may include receiving search result content selected by a user device and from a search engine based on a search query. The search engine can rank the search results based on one predefined category to which the image belongs. Some aspects include extracting, by the user device, a context from the image, and using the context of the extracted image to determine that the image does not belong to one of a number of predefined categories. Can be included. Generating a search query can include generating a general search query based only on user-selected text.
いくつかの態様では、アクションを開始するステップは、ユーザ選択のテキストのコンテンツに基づいて、2つ以上の候補検索クエリを生成するステップと、ユーザインターフェースに候補検索クエリを表示するステップと、候補クエリのうちの1つのユーザ選択に応じて、ユーザデバイスによって、ユーザ選択の候補クエリを検索エンジンに送信するステップとを含むことができる。 In some aspects, initiating the action includes generating two or more candidate search queries based on the content of the user-selected text; displaying the candidate search queries in a user interface; Responding to a user selection of one of the following by the user device sending a candidate query of the user selection to a search engine.
いくつかの態様は、ユーザがブロックのうちのいずれかを選択する前に、また第1のブロックについて、ユーザデバイスによって、第1のブロックの抽出されたテキストに基づいて1つまたは複数の検索クエリを生成するステップと、1つまたは複数の検索クエリをユーザデバイスから検索エンジンに送信するステップとを含むことができる。 Some aspects relate to one or more search queries based on the extracted text of the first block by the user device before the user selects any of the blocks and for the first block. And sending one or more search queries from the user device to the search engine.
いくつかの態様では、ユーザデバイスは、複数のブロックをユーザインターフェース上にそれぞれの第1のユーザ選択可能なターゲットとして提示する前に、1つまたは複数の検索クエリを生成して送信する。いくつかの態様は、1つまたは複数の検索クエリに基づいて検索エンジンから検索結果コンテンツを受信するステップと、受信した検索結果コンテンツをユーザデバイスのローカルメモリに記憶するステップとを含むことができる。 In some aspects, the user device generates and sends one or more search queries prior to presenting the blocks on the user interface as respective first user-selectable targets. Some aspects may include receiving search result content from a search engine based on one or more search queries and storing the received search result content in a local memory of the user device.
いくつかの態様では、第1のブロックの抽出されたテキストに基づいて1つまたは複数の検索クエリを生成するステップは、第1のブロックの抽出されたテキストを、第1のレベルのテキストベースの粒度においてテキストの複数の第1のセットに解析するステップと、テキストの第1のセットごとに検索クエリを生成するステップとを含むことができる。 In some aspects, generating one or more search queries based on the extracted text of the first block includes extracting the extracted text of the first block from a first level text-based It may include parsing into a plurality of first sets of text at a granularity, and generating a search query for each first set of text.
いくつかの態様は、第1のブロックのユーザ選択の検出に応答して、第1のブロックの抽出されたテキストを、第1のレベルのテキストベースの粒度よりも大きい第2のレベルのテキストベースの粒度においてテキストの複数の第2のセットに解析するステップと、第1のブロック内の抽出されたテキストの一部のユーザ選択を受信する前に、テキストの第2のセットごとに追加の検索クエリを生成するステップと、ユーザデバイスから検索エンジンに各追加の検索クエリを送信するステップと、ユーザデバイスによって、および検索エンジンから、追加の検索クエリに基づく追加の検索結果コンテンツを受信するステップと、追加の検索結果コンテンツをユーザデバイスのローカルメモリに記憶するステップとを含むことができる。 Some aspects, in response to detecting the user selection of the first block, extract the extracted text of the first block from a second level text base that is larger than a first level text base granularity. Parsing into a plurality of second sets of text at a granularity of, and an additional search for each second set of text before receiving a user selection of a portion of the extracted text in the first block. Generating a query, sending each additional search query from the user device to the search engine, receiving additional search result content based on the additional search query by the user device and from the search engine, Storing additional search result content in a local memory of the user device.
いくつかの態様では、抽出されたテキストをブロックに分割するステップは、抽出されたテキストの意味解析に少なくとも部分的に基づく。いくつかの態様は、ユーザインターフェース上に、検索エンジンからユーザデバイスにおいて受信したコンテンツを表示するステップを含むことができる。ユーザインターフェース上に、検索エンジンからユーザデバイスにおいて受信したコンテンツを表示するステップは、画像の少なくとも一部とともにコンテンツをユーザデバイスのビューポートに表示するステップを含むことができる。 In some aspects dividing the extracted text into blocks is based at least in part on a semantic analysis of the extracted text. Some aspects may include displaying on a user interface content received at a user device from a search engine. Displaying the content received at the user device from the search engine on the user interface may include displaying the content in a viewport of the user device with at least a portion of the image.
物理的な文書からテキストを抽出する(特に、スキャンされた文書を介して)ために、OCR(光学文字認識)を使用することが提案されている。しかしながら、抽出されたテキストは通常、テキストのブロックとして扱われる。対照的に、本開示の態様は、画像内のすべての(または、いくつかの)単語、フレーズ、および/またはテキストのブロック(たとえば、電話番号などの数字を含む)をそれぞれのユーザ選択可能なターゲットにする。ユーザは、テキスト項目を含む/備えるブロックを選択することによって、画像内のテキスト項目に基づいてクエリを起動することによって、画像のコンテンツに関するより多くの情報を取得することができる。クエリによって返されたコンテンツは、ユーザデバイスのユーザインターフェースに表示される。クエリを開始するためにユーザが画像からテキストを検索エンジンに手動で入力する必要がある従来のプロセスと比較して、本発明の態様は、ユーザが検索語を手動で入力する際にエラーを起こし、検索語を再入力しなければならない可能性を排除する。これにより、誤って入力されたクエリに検索エンジンが応答し、ユーザがエラーを認識して訂正されたクエリを再送信するときにクエリと取得プロセスを繰り返す必要がある可能性を避けるため、ネットワークと検索エンジンのリソースをより効率的に使用できるようになる。 It has been proposed to use OCR (Optical Character Recognition) to extract text from physical documents (especially via scanned documents). However, the extracted text is usually treated as a block of text. In contrast, aspects of the present disclosure include all (or some) words, phrases, and/or blocks of text (eg, including numbers such as telephone numbers) within an image, each user-selectable. Target. The user can get more information about the content of the image by invoking a query based on the text item in the image by selecting the block containing/comprising the text item. The content returned by the query is displayed on the user interface of the user device. Compared to the traditional process where a user has to manually enter text from an image into a search engine to initiate a query, aspects of the present invention cause errors when the user manually enters a search term. Eliminate the possibility of having to re-enter search terms. This avoids the possibility that the search engine responds to mistyped queries and the user may have to repeat the query and retrieval process when they recognize the error and resubmit the corrected query. Allows more efficient use of search engine resources.
本明細書に記載される主題の特定の実施形態は、以下の利点のうちの1つまたは複数を実現するように実装することができる。ユーザが手動でテキストクエリを入力することを必要とするのではなく、画像内に描かれ、ユーザによって選択されたテキストに基づいてコンテンツを識別する(たとえば、クエリを介して)ことによって、ネットワークを通過する提出されたクエリの数を減らすことにより、検索エンジンによって処理される検索クエリの数を減らすことにより、および検索クエリに応答してネットワークを介して提供される検索結果の数を減らすことにより、ネットワークおよび検索エンジンリソースをより効率的に使用できるようになる。たとえば、ユーザが画像内に見えるテキストをクエリとして誤って入力することもあり、正しいクエリがユーザの情報ニーズを満たす検索結果をもたらすまで、1つまたは複数のクエリ補正と後続のネットワーク通信および検索エンジン処理とを必要とする画像のコンテンツを正確に反映しないクエリを提出することもある。これらの追加のクエリはネットワークと検索エンジンのリソースを消費するため、他のネットワークトラフィックおよび他のクエリを処理するために使用できるネットワークと検索エンジンの帯域幅が少なくなり、ならびに/または検索エンジンの多くのユーザにわたってスケールアップした場合は特に検索エンジンの応答時間が長くなる。したがって、ユーザの情報ニーズを正確に反映するテキストのユーザ選択に応じてコンテンツを識別すると、ネットワーク帯域幅の増加、ネットワークおよび検索エンジンの応答時間の短縮、および/または検索エンジンによって処理されるクエリの増加につながる。 Particular embodiments of the subject matter described in this specification can be implemented to achieve one or more of the following advantages. Rather than requiring the user to manually enter a text query, the network is identified by identifying content (e.g., via a query) based on the text drawn in the image and selected by the user. By reducing the number of submitted queries that go through, by reducing the number of search queries processed by search engines, and by reducing the number of search results served over the network in response to search queries. , Will be able to use network and search engine resources more efficiently. For example, a user may mistakenly enter text that appears in an image as a query, and one or more query corrections and subsequent network communications and search engines until the correct query yields search results that meet the user's information needs. We may submit queries that do not accurately reflect the content of the images that require processing. These additional queries consume network and search engine resources, reducing the network and search engine bandwidth available to handle other network traffic and other queries, and/or much of the search engine. Search engine response time is especially slow when scaled up across users. Therefore, identifying content according to a user's selection of text that accurately reflects the user's information needs can increase network bandwidth, reduce network and search engine response times, and/or reduce the query processed by the search engine. Leads to an increase.
ユーザがテキストを再入力するのではなくテキストを選択できるようにすることも、ユーザにとってより効率的であり、ユーザがテキストに関連するコンテンツをより迅速に要求することを可能にする。また、これにより、テキストの異なる部分に対して異なるターゲットを単に選択することによって、ユーザが複数のクエリを提出することがより容易になる。 Allowing the user to select the text rather than re-enter it is also more efficient for the user and allows the user to more quickly request content related to the text. It also makes it easier for the user to submit multiple queries by simply selecting different targets for different parts of the text.
本明細書で説明するズーム技法により、ユーザは、ユーザが追加コンテンツを受信したいテキストを迅速かつ効率的に選択することが可能になる。たとえば、ユーザデバイスが低ズームレベル(たとえば、テキストが最小である最低ズームレベル)にあるときにテキストの部分ごとにユーザ選択可能なターゲットを作成すると、ユーザは、ユーザが選択しようとしたテキストに隣接するテキストなどの間違ったテキストを選択する可能性がある。これにより、意図しないクエリがネットワークを介して検索エンジンに送信される可能性があり、上記の欠点があるが、いずれもユーザのフラストレーションを引き起こす可能性がある。適切なズームレベルにおいてテキストのブロックのユーザ選択可能なターゲットを作成し、次いでより高いズームレベルにおいてテキストのより小さい部分のユーザ選択可能なターゲットを作成することによって、ユーザは正しいテキストをより容易に選択できる。ズーム技法により、ネットワークを介して検索エンジンに送信される意図しないクエリの数が減少するため、ネットワーク帯域幅の増加、ネットワーク応答時間の短縮、検索エンジンによって処理されるクエリの増加、および検索エンジンの応答時間の短縮をもたらすことができる。 The zooming techniques described herein allow a user to quickly and efficiently select the text for which they want to receive additional content. For example, if you create a user-selectable target for each piece of text when the user device is at a low zoom level (for example, the lowest zoom level where the text is at its minimum), the user will be adjacent to the text that the user was trying to select. You may select the wrong text, such as the text you want. This can result in unintended queries being sent over the network to search engines, all of which have the drawbacks mentioned above, but can lead to user frustration. The user can more easily select the correct text by creating a user-selectable target for a block of text at the appropriate zoom level, and then creating a user-selectable target for a smaller portion of the text at a higher zoom level. it can. The zoom technique reduces the number of unintended queries that are sent to search engines over the network, thus increasing network bandwidth, reducing network response time, increasing the number of queries processed by search engines, and increasing search engine It can bring about a reduction in response time.
画像のコンテンツは、ズームレベル、および/またはそのズームレベルにおいてユーザデバイスのビューポートに提示される画像内のテキストに基づいて、ユーザデバイスにおいてプリキャッシュすることができる。ズームレベルが変更されると、更新されたズームレベルおよび/または更新されたズームレベルにおいてビューポートに提示されるテキストに基づいて、追加の(および/または代替の)コンテンツをプリキャッシュすることができる。このようにして、テキストのユーザ選択に応じて、画像内のテキストに関連するコンテンツをより迅速に提示することができる。 The content of the image may be pre-cached at the user device based on the zoom level and/or the text in the image presented in the viewport of the user device at that zoom level. When the zoom level changes, additional (and/or alternative) content can be pre-cached based on the updated zoom level and/or the text presented in the viewport at the updated zoom level. .. In this way, the content associated with the text in the image can be presented more quickly in response to the user's selection of the text.
前述の主題の様々な特徴および利点は、図面に関して以下で説明される。追加の特徴および利点は、本明細書に記載の主題および特許請求の範囲から明らかである。 Various features and advantages of the above subject matter are described below with reference to the drawings. Additional features and advantages will be apparent from the subject matter and claims set forth herein.
誤解を避けるために、本明細書で使用される「テキスト」は、たとえば、電話番号または電子メールアドレスがテキストのブロックを構成し得るように、文字、数字、および/または記号を包含することが意図される。 For the avoidance of doubt, "text" as used herein may include letters, numbers, and/or symbols, such as, for example, telephone numbers or email addresses may constitute blocks of text. Intended.
一般に、本明細書で説明されるシステムおよび技法は、画像に描かれたテキストおよび/または他のコンテンツに関連する追加コンテンツを識別および提供する。ユーザは、画像をキャプチャするために、スマートフォンまたは他のユーザデバイスのカメラを使用することができる。次いで、追加コンテンツを識別するために、画像内のテキストを使用することができる。たとえば、画像にレストランのメニューが描かれている場合がある。ユーザデバイスは、ユーザがテキストを選択し、選択したテキストに関連する追加コンテンツを閲覧することを可能にするために、テキストまたはその周辺にユーザ選択可能なターゲットを提示することができる。たとえば、ユーザは、メニュー項目を選択し、メニュー項目に関連するコンテンツ(たとえば、栄養情報)、メニュー項目の画像、またはメニュー項目に関連する他の種類のコンテンツを閲覧し得る。追加コンテンツは、以下で説明するプリキャッシュ技法を使用して、選択に応じて瞬時に(または、ほぼ瞬時に)提示することができる。 In general, the systems and techniques described herein identify and provide additional content related to text and/or other content depicted in images. The user can use the camera of the smartphone or other user device to capture the image. The text in the image can then be used to identify additional content. For example, the image may depict a restaurant menu. The user device may present a user-selectable target in or around the text to allow the user to select the text and view additional content associated with the selected text. For example, a user may select a menu item and view content related to the menu item (eg, nutrition information), an image of the menu item, or other types of content related to the menu item. Additional content may be presented instantly (or near instantly) in response to selection using the pre-cache techniques described below.
ユーザデバイスは、たとえば、テキストの意味解析、および/または画像内のテキストの配置を使用して、画像に描かれたテキストをブロックに分割し、各ブロックをユーザ選択可能なターゲットとして提示することができる。たとえば、ユーザデバイスは、画像内のテキストのレイアウトおよび意味解析に基づいて、メニューの画像内のテキストを、メニューのセクションごとのブロック(たとえば、前菜のブロック、主菜のブロックなど)を含む複数のブロックに分割することができる。ユーザがブロックのうちの1つを選択すると、ユーザデバイスは選択されたブロックをより高いズームレベルにおいて提示し、ブロック内のテキストの一部をユーザ選択可能なターゲットとして提示することができる。たとえば、ユーザデバイスは、フレーズ、メニュー項目、またはテキストの他の関連部分を識別し、テキストの関連部分のうちの少なくともいくつかを、より高いズームレベルにおいてユーザ選択可能なターゲットとして提示することができる。ズームレベルと、様々なズームレベルに基づいてユーザ選択可能なターゲットを変更することによって、ユーザは、追加コンテンツについて閲覧したいテキストをより容易に選択することができる。 The user device may divide the text drawn in the image into blocks and present each block as a user-selectable target using, for example, semantic analysis of the text and/or placement of the text within the image. it can. For example, the user device may display the text in the image of the menu in multiple blocks, including blocks for each section of the menu (for example, a block of appetizers, a block of main dishes, etc.) based on the layout and semantic analysis of the text in the image. It can be divided into blocks. When the user selects one of the blocks, the user device may present the selected block at a higher zoom level and present some of the text within the block as a user selectable target. For example, the user device may identify phrases, menu items, or other relevant parts of the text, and present at least some of the relevant parts of the text as user selectable targets at higher zoom levels. .. By changing the zoom level and the user selectable target based on the different zoom levels, the user can more easily select the text that they want to view for additional content.
各ズームレベルにおいて、ズームレベルにおいてユーザデバイスによって提示されるテキストに基づいて、ユーザデバイスにおいてコンテンツをプリキャッシュすることができる。ユーザがズームレベルを調整すると、更新されたズームレベルにおいてユーザデバイスによって提示されるテキストに基づいて、追加および/または異なる(代替)コンテンツを、(たとえば、ユーザがテキストを選択する前に)ユーザデバイスにおいてプリキャッシュすることができる。このようにして、ユーザが選択したテキストに関連するコンテンツを、ユーザが選択を行った後に瞬時に、または、少なくともネットワークを介して要求を送信するよりもより迅速に提供することができる。 At each zoom level, content may be pre-cached at the user device based on the text presented by the user device at the zoom level. As the user adjusts the zoom level, additional and/or different (alternative) content may be added to the user device based on the text presented by the user device at the updated zoom level (e.g., before the user selects text). Can be pre-cached at. In this way, the content associated with the text selected by the user can be provided instantly after the user has made the selection, or at least faster than sending the request over the network.
図1は、ユーザデバイス110が画像に描かれたテキストに関連するコンテンツを提示する例示的な環境100を示す図である。ユーザデバイス110は、スマートフォン、タブレットコンピュータ、ウェアラブルデバイス、あるいは他のタイプのモバイルまたは非モバイル電子デバイスであり得る。ユーザデバイス110は、画像113および/またはビデオをキャプチャするカメラ112を含む。ユーザデバイス110はまた、画像113および/またはビデオ、ならびに画像113に関連するコンテンツを提示するディスプレイ120を含む。以下により詳細に説明するように、ディスプレイ120は、ユーザがディスプレイ120に提示される画像113に描かれたテキストと対話することを可能にするタッチスクリーンなどの入力デバイスを含むことができる。
FIG. 1 is a diagram illustrating an
ユーザデバイス110は、ユーザがカメラ112を使用して画像をキャプチャすること、またはビューファインダを使用してカメラのレンズの視野内のオブジェクトを閲覧することを可能にする画像アプリケーション111を含む。画像アプリケーション111はまた、ユーザが、画像に描かれたテキストに関連するコンテンツを閲覧および/または聞くことも可能にする。本明細書の目的上、画像は、カメラ112によってキャプチャされた画像、およびカメラのレンズの視野を示すビューファインダ内の可視コンテンツを指す。また、画像アプリケーション111により、ユーザが、たとえばユーザデバイス110のローカルメモリ124などのユーザデバイスに記憶された画像、または異なる場所に記憶された画像に描かれたテキストに関する追加コンテンツを閲覧することが可能になる。たとえば、ユーザは、ユーザデバイス110(または、ネットワーク化された場所)に記憶された画像を選択し、画像および/または画像に描かれたテキストに関するコンテンツを閲覧するために、画像アプリケーション111を使用することができる。ローカルメモリ124は、ユーザデバイス110の内部メモリ(たとえば、ユーザデバイス110のフラッシュメモリ)またはユーザデバイス110に接続された外部メモリ(たとえば、ユーザデバイス110のユニバーサルシリアルバス(USB)ポートに接続されたメモリ)を含むことができる。
The user device 110 includes an image application 111 that allows a user to capture an image using the
画像アプリケーション111は、画像に描かれたテキストを処理するテキストプロセッサ114を含む。テキストプロセッサ114は、たとえば、光学文字認識(OCR)を使用して、画像に描かれたテキストを認識することができる。いくつかの実装形態では、テキストプロセッサ114は、たとえば、ネットワーク化された場所にあるフルサービスOCRアプリケーションと比較して、画像においてテキストが識別される速度を上げるために、ユーザデバイス110上で実行される軽量OCRエンジンを含む。軽量OCRエンジンは少量のメモリ(たとえば、メモリのしきい値量よりも少ない)を使用するか、および/またはユーザデバイス110の最小の処理能力を使用して画像内のテキストを識別するOCRエンジンである。軽量OCRエンジンは、ネットワーク化された場所のOCRエンジンに画像を送信する場合と比較して、ユーザデバイス110の追加の処理能力を使用し得るが、軽量OCRエンジンにより、画像がネットワークを介して送信され、OCRエンジンによって処理され、テキストがユーザデバイス110に返送される場合よりも迅速にテキスト認識を実行することが可能になる。これにより、テキストを認識し、テキストに関連するコンテンツを提示する際の待ち時間が短縮される。軽量OCRエンジンは、画像内のテキストを識別するための機能を含むソフトウェア開発キット(SDK)として実装することができる。
The image application 111 includes a
テキストプロセッサ114はまた、関連するテキストのブロック、フレーズ、または他の部分を識別するために、画像に描かれたテキストを処理することができる。いくつかの実装形態では、テキストプロセッサ114は、画像内のテキストの配置に基づいて関連するテキストを識別することができる。たとえば、テキストプロセッサ114は、関連するテキストとして、一緒にグループ化され、ならびに/あるいは同じフォントタイプ、サイズ、および/または色などの同じ(または、類似の)視覚特性を有するテキストを識別することができる。テキストのグループは、グループ内の他のテキストのしきい値距離内にあるテキスト、および/または画像内の可視エッジまたは境界内にあるテキストを含むことができる。たとえば、テキストのグループは、画像に描かれた可視ブロック(たとえば、正方形、長方形、または可視境界を有する他の適切な形状)内の、または画像に描かれた分割線の片側にあるテキストを含み得る。
いくつかの実装形態では、テキストプロセッサ114は、関連するテキストを識別するために、画像に描かれたテキストの意味解析を実行する。たとえば、テキストプロセッサ114は、関連するテキストとして、画像に描かれたテキスト内のフレーズ、句、文、または段落を識別するために、意味解析を使用することができる。テキストプロセッサ114はまた、関連するフレーズ、句、文、段落、または個々の単語のブロックを識別するために、意味解析および/または画像内のテキストの配置を使用することができる。たとえば、画像内の認識されたすべての単語(または、その大部分)を分析することによって、テキストプロセッサ114は、以下で説明するように画像のカテゴリを決定し、複数の意味を持つ場合がある単語の意味を明確にするために画像のカテゴリを使用することができる。別の例では、テキストプロセッサ114は、特定の見出しを含む画像の特定の部分に単語が含まれることを決定し、単語の意味を決定するために見出しを使用するために、テキストの配置を使用することができる。たとえば、「頬」という単語がメニューの画像にあり、見出し「BBQ主菜」の下にある場合、テキストプロセッサ114は、「頬」という単語が身体部分ではなく食品を指していると決定することができる。
In some implementations,
場合によっては、テキストのブロックは複数の行のテキストを含む。たとえば、メニューの前菜のテキストのブロックは、前菜ごとにテキストの1つまたは複数の行を含むことができる。他の場合、テキストのブロックは、単一のフレーズまたは単一の単語を含み得る。たとえば、テキストのブロックは、ボートの横に描かれたテキスト、または公園において看板に刻まれたテキストを含み得る。 In some cases, blocks of text include multiple lines of text. For example, a block of appetizer text in a menu can include one or more lines of text for each appetizer. In other cases, the block of text may include a single phrase or a single word. For example, a block of text may include text drawn next to a boat, or text engraved on a sign in a park.
テキストプロセッサ114は、処理された画像において識別されたテキストと、画像において識別されたテキストの各ブロック(または、他の部分)を指定する画像データ115を出力することができる。テキストのブロックごとに、画像データ115は、ブロックに含まれる実際のテキスト(たとえば、実際の単語およびフレーズ)を指定することができる。画像データ115はまた、画像内のテキストの各部分の位置を指定することができる。たとえば、画像データ115は、テキストのブロックについて、テキストのブロックを囲む画像内の座標、またはテキストの長方形ブロックの各コーナーの座標を含むことができる。以下に説明するように、画像アプリケーション111のコンテンツ取得部116は、画像において識別されたテキストに関連するコンテンツを取得するために、たとえば、ローカルメモリ124におけるコンテンツをプリキャッシュするために、画像データ115を使用することができる。
The
画像アプリケーション111のユーザインターフェースコントローラ118は、画像113を受信し、ディスプレイ120上に画像113を提示するユーザインターフェース122を生成することができる。いくつかの実装形態では、画像アプリケーション111は、カメラ112によってキャプチャされた画像113を、たとえば画像がテキストプロセッサ114によって処理される前に、ユーザデバイス110のディスプレイ120によって表示するためにユーザインターフェースコントローラ118に直接提供する。このようにして、画像113は、画像がキャプチャされた直後に表示される。
The user interface controller 118 of the image application 111 can receive the
ユーザインターフェースコントローラ118はまた、テキストプロセッサ114によって出力された画像113の画像データ115を受信することができる。ユーザインターフェースコントローラ118は、テキストプロセッサ118によって識別されたテキストのブロックのユーザ選択可能なターゲットを生成するために、画像データ115(たとえば、テキストのブロックと画像113内のそれらの位置を示すデータ)を使用することができる。ユーザ選択可能なターゲットにより、ユーザは、ブロック内のテキストに関連するコンテンツを取得するためにテキストのブロックを選択することと、ブロック内のテキストを選択するためにブロックにズームインすることと、および/または別のアクションを開始することとが可能になる。ユーザ選択可能な各ターゲットは、ディスプレイの選択可能な部分(たとえば、選択可能なタッチスクリーン領域)と、ブロックが選択可能であることを示す視覚インジケータを含むことができる。たとえば、テキストのブロックのユーザ選択可能なターゲットは、視覚インジケータとして、選択可能なアイコン、ブロックの周囲の強調表示されたボックス(または、他の形状)、ブロック内のテキストの異なる背景色、ブロック内のテキストの異なるフォントの色、強調表示または太字のテキスト、あるいはブロックが選択可能であることをユーザに示す他の適切な視覚インジケータを含むことができる。ユーザは、ターゲットと対話することによって、たとえば、ターゲットをクリックすること、ターゲット上にポインタを置くこと、ターゲットの場所でタッチスクリーンにタッチすること、または他の適切なユーザ対話を使用することによって、ユーザ選択可能なターゲットを選択することができる。
The user interface controller 118 can also receive
ユーザインターフェースコントローラ118は、ユーザインターフェース122においてユーザ選択可能なターゲットを画像113に提示することができる。ユーザインターフェースコントローラ118はまた、ブロックに含まれるテキストの部分に対してユーザ選択可能なターゲットを生成することができる。たとえば、ユーザインターフェース122は、テキストのブロックについて、ユーザが、ブロック内のテキストをより大きくするためにブロックにズームインすることを可能にするユーザ選択可能なターゲットを含むことができる。ユーザインターフェース122はまた、ブロック内のテキストの1つまたは複数の部分ごとに、ユーザがテキストの部分に関連するコンテンツを要求するためにテキストの部分を選択することを可能にするユーザ選択可能なターゲットを含むことができる。上述のように、画像がキャプチャされた直後に画像113が表示されるいくつかの実装形態では、画像がテキストプロセッサによって処理されると、ユーザインターフェースコントローラ118は、最初に表示された画像をユーザ選択可能なターゲットで補完し得る。
The user interface controller 118 can present a user selectable target in the
いくつかの実装形態では、ユーザインターフェースコントローラ118は、テキストブロックに2つのユーザ選択可能なターゲットを含むことができる。たとえば、第1のユーザ選択可能なターゲットは、ユーザがテキストのブロックにズームインすることを可能にし、第2のユーザ選択可能なターゲットは、ユーザがブロック内のテキストに関連するコンテンツを要求することを可能にする。別の例では、ユーザがテキストを含まないブロック内の場所、たとえば、テキスト間のスペースを選択することに応答して、ユーザインターフェースコントローラ118はテキストのブロックにズームインすることができる。ユーザがブロック内のテキストを選択すると、ユーザインターフェースコントローラ118は、ユーザ選択のテキスト、またはブロック内のテキストに関連するコンテンツの要求を開始することができる。 In some implementations, the user interface controller 118 can include two user-selectable targets in the text block. For example, a first user-selectable target allows a user to zoom in on a block of text, and a second user-selectable target requests that the user request content related to the text in the block. enable. In another example, the user interface controller 118 can zoom in on a block of text in response to a user selecting a location within the block that does not contain text, such as a space between the text. When the user selects the text in the block, the user interface controller 118 can initiate a request for user-selected text or content related to the text in the block.
ユーザインターフェースコントローラ118は、テキストブロックのユーザ選択に応じて、テキストのブロックにズームインするか、コンテンツを提示するかを決定することができる。いくつかの実装形態では、ユーザインターフェースコントローラ118は、選択されたテキストブロック内のテキストに基づいて、たとえば、選択されたテキストブロック内のテキストの意味コンテンツに基づいて、コンテンツにズームインするか、または提示するかを決定することができる。たとえば、テキストブロックが1つの特定のエンティティまたは特定のタイプのコンテンツに関連するテキストを含む場合、ユーザインターフェースコントローラ118は、テキストブロックにズームインするのではなく、エンティティに関連するコンテンツを提示することを決定することができる。別の例では、テキストブロックが特定の料理に関連するテキストを含む場合、ユーザインターフェースコントローラ118は、テキストブロックのユーザ選択に応じて特定の料理に関連するコンテンツを提示することを決定することができる。コンテンツは、たとえば、アニメーション化された吹出しで料理のレビューを含むテキストブロックの横にあるキャラクターアバターであってよい。テキストブロックが複数のエンティティまたは複数の種類のコンテンツに関連するテキストを含む場合、ユーザインターフェースコントローラ118は、テキストブロックのユーザ選択に応じてテキストブロックにズームインすることを決定することができる。 The user interface controller 118 can determine whether to zoom in on a block of text or present content depending on a user selection of the block of text. In some implementations, the user interface controller 118 zooms in or presents the content based on the text in the selected text block, for example, based on the semantic content of the text in the selected text block. You can decide what to do. For example, if a text block contains text associated with one particular entity or particular type of content, the user interface controller 118 may decide to present the content associated with the entity rather than zooming in on the text block. can do. In another example, if the text block includes text associated with a particular dish, the user interface controller 118 may determine to present content associated with the particular dish in response to a user selection of the text block. .. The content may be, for example, a character avatar next to a text block containing a review of the dish in an animated callout. If the text block includes text associated with multiple entities or multiple types of content, the user interface controller 118 can determine to zoom in on the text block in response to a user selection of the text block.
ユーザインターフェースコントローラ118は、たとえば、特定のズームレベルに達するまで、ユーザがテキストの一部に対してユーザ選択可能なターゲットを選択するたびにズームレベルを調整することができる。ユーザがテキストのブロックを選択した場合、ユーザインターフェースコントローラ118は、ブロック内のテキストがディスプレイ120上でより大きくなるようにテキストのブロックにズームインすることができる。たとえば、ユーザインターフェースコントローラ118は、ユーザ選択のブロックが少なくとも1つの次元(たとえば、水平および/または垂直)においてディスプレイ120のビューポートを満たすように、ディスプレイ120上の画像にズームインすることができる。 The user interface controller 118 may adjust the zoom level each time the user selects a user-selectable target for a portion of the text, for example, until a particular zoom level is reached. If the user selects a block of text, the user interface controller 118 can zoom in on the block of text so that the text in the block is larger on the display 120. For example, the user interface controller 118 can zoom in on an image on the display 120 such that the user selected block fills the viewport of the display 120 in at least one dimension (eg, horizontal and/or vertical).
ユーザインターフェースコントローラ118はまた、ユーザ選択のブロック内のテキストの少なくとも一部をユーザ選択可能なターゲットとして提示することができる。このようにして、ユーザは、単語またはフレーズに関連するコンテンツを要求するために、テキストの一部、たとえば単語またはフレーズを選択することができる。いくつかの実装形態では、ユーザが複数の単語を含むフレーズまたはテキストの他の部分を選択した場合、ユーザインターフェースコントローラ118は、テキストの部分にさらにズームインし、選択された部分のサブ部分のユーザ選択可能なターゲットを提示し得る。たとえば、ユーザがフレーズを選択した場合、ユーザインターフェースコントローラ118は、フレーズが少なくとも1つの次元(たとえば、水平および/または垂直)でディスプレイのビューポートを満たすようにズームインすることができる。ユーザインターフェースコントローラ118はまた、テキストのサブ部分をユーザ選択可能なターゲットとして提示することができる。たとえば、ユーザがメニューの画像において「赤ワイン」というフレーズを選択した場合、ユーザインターフェースコントローラ118はそのフレーズにズームインし、「赤」という単語を1つのユーザ選択可能なターゲットとして提示し、「ワイン」という単語を第2のユーザ選択可能なターゲットとして提示することができる。 The user interface controller 118 can also present at least a portion of the text within the user selection block as a user selectable target. In this way, the user can select a portion of text, for example a word or phrase, to request content related to the word or phrase. In some implementations, when the user selects a phrase or multiple portions of text that include multiple words, the user interface controller 118 zooms in further on the portion of the text and makes a user selection of a subportion of the selected portion. Possible targets may be presented. For example, if the user selects a phrase, the user interface controller 118 may zoom in so that the phrase fills the viewport of the display in at least one dimension (eg, horizontal and/or vertical). The user interface controller 118 can also present sub-portions of text as user-selectable targets. For example, if the user selects the phrase "red wine" in the image of the menu, the user interface controller 118 zooms in on that phrase and presents the word "red" as one user-selectable target, called "wine". The word can be presented as a second user-selectable target.
ユーザインターフェースコントローラ118は、テキストの部分のコンテンツに基づいて、ユーザ選択可能なターゲットとして提示するために、ユーザ選択のブロック内のテキストの部分を選択することができる。いくつかの実装形態では、ユーザインターフェースコントローラ118は、テキスト部分に利用可能なコンテンツに基づいてテキストを選択することができる。たとえば、ユーザインターフェースコントローラ118は、特定のタイプのコンテンツが利用可能な、知られているエンティティ(たとえば、エンティティに関する情報の要約を含む知識パネルが利用可能なエンティティ)のリストにアクセスすることができる。テキストの一部が、名前、または知られているエンティティのリスト内のエンティティへの他の参照を含む場合、ユーザインターフェースコントローラ118は、テキストの一部をユーザ選択可能なターゲットとして提示できるため、ユーザは、エンティティに関連する追加コンテンツを要求するために、テキストの一部を選択することができる。 The user interface controller 118 may select a portion of text within a block of user selections for presentation as a user-selectable target based on the content of the portion of text. In some implementations, the user interface controller 118 can select text based on the content available for the text portion. For example, the user interface controller 118 can access a list of known entities (eg, entities for which a knowledge panel containing a summary of information about the entity is available) for which a particular type of content is available. If the piece of text includes a name, or other reference to an entity in the list of known entities, the user interface controller 118 can present the piece of text as a user-selectable target, thus allowing the user to select it. Can select a portion of the text to request additional content associated with the entity.
いくつかの実装形態では、ユーザインターフェースコントローラ118は、ユーザ選択のブロック内のテキストの部分をランク付けし、テキストの上位ランク部分をユーザ選択可能なターゲットとして提示し、テキストの下位ランク部分をユーザ選択可能なターゲットとして提示しない。たとえば、ユーザインターフェースコントローラ118は、最高ランクを有するテキストの部分の特定の数または割合、またはしきい値スコアを満たす(たとえば、超える)ランクスコアを有する部分を選択することができる。ユーザインターフェースコントローラ118は、テキストの部分ごとに利用可能なコンテンツの量、テキストの各部分と画像のカテゴリとの間の関連性、テキストの部分によって参照されるエンティティの人気度(たとえば、エンティティごとに受信したクエリの数に基づいて)、および/または他の適切な基準に基づいて、テキストの部分をランク付け(および/またはランクスコアを決定)することができる。 In some implementations, the user interface controller 118 ranks the portion of text within the block of user selections, presents the upper ranked portion of the text as a user selectable target, and the lower ranked portion of the text. Do not present as a possible target. For example, the user interface controller 118 can select a particular number or percentage of the portions of text with the highest rank, or a portion with a rank score that meets (eg, exceeds) a threshold score. The user interface controller 118 may determine the amount of content available for each piece of text, the association between each piece of text and the category of images, the popularity of the entity referenced by the piece of text (e.g., for each entity). Portions of the text may be ranked (and/or a rank score may be determined) based on the number of queries received) and/or other suitable criteria.
ユーザインターフェースコントローラ118はまた、ユーザ対話に応じてテキストからズームアウトすることができる。たとえば、ユーザインターフェースコントローラ118は、タッチスクリーンにおけるユーザピンチまたはズームアウトのためのアイコンの選択に応じて、より多くの画像を提示するためにズームアウトすることができる。 The user interface controller 118 can also zoom out of the text in response to user interaction. For example, the user interface controller 118 can zoom out to present more images in response to the user pinching on the touch screen or selecting an icon for zooming out.
たとえば、テキストの一部に対してユーザ選択可能なターゲットを選択することによってユーザがコンテンツの要求を開始すると、UIコントローラ118は要求データ123をコンテンツ取得部116に送信することができる。要求データ119は、選択されたテキストを指定することができる。たとえば、ユーザがユーザインターフェース122において提示される画像に描かれたユーザ選択可能なフレーズを選択した場合、ユーザインターフェースコントローラ118は、フレーズ内の各単語を指定する要求データ119を生成することができる。別の例では、ユーザがテキストのブロックを選択した場合、ユーザインターフェースコントローラ118は、テキストのブロック内の各単語を指定する要求データ119を生成することができる。
For example, when a user initiates a request for content by selecting a user-selectable target for a portion of text, UI controller 118 may send request data 123 to
いくつかの実装形態では、要求データ119はコンテキストデータを含む。たとえば、要求データ119は、選択されていない他のテキストを含むことができる。特定の例では、要求データ119は、画像において識別される各単語(または、単語のうちのいくつか)、または現在のズームレベルに基づいてユーザインターフェース122において可視である各単語(または、単語のうちのいくつか)を含むことができる。以下で説明するように、画像のカテゴリを識別するためにコンテキストデータを使用することができ、次いで、コンテキストデータは、選択した単語を明確にするために、またユーザ選択に応じて提示するコンテンツを選択するために使用することができる。たとえば、「肩」などの選択された単語が食品に対応することを決定し、適切なコンテンツを選択するために、メニューの画像内の追加の単語を使用することができる。
In some implementations, the
コンテンツ取得部116は、ユーザインターフェースコントローラ118から要求データ119を受信し、要求データ119に基づいて、検索システム150(または、ローカルメモリ124)からコンテンツを取得することができる。いくつかの実装形態では、コンテンツ取得部118は、要求データ119に基づいて1つまたは複数の検索クエリを指定するクエリデータを生成し、たとえば、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、モバイルネットワーク、インターネット、またはそれらの組合せなどのデータ通信ネットワーク140を介して、クエリデータ130を検索システム150に送信する。1つまたは複数のクエリは、ユーザによって選択されたテキストを含むことができる。クエリデータ130はまた、コンテキストデータを含むことができる。
The
検索システム150は、検索エンジン152およびコンテキスト分類器154を含む。検索エンジン150は、クエリデータ130に含まれる1つまたは複数の検索クエリに含まれる単語に基づいてコンテンツを識別するために、インデックス156を使用することができる。インデックス156は、クエリに応答して提供することができる、またはクエリに応答して提供された検索結果において参照することができる、電子リソース(たとえば、ウェブページ、画像、ビデオ、および/または他のコンテンツ)を指定するデータを含むことができる。
コンテキスト分類器154は、画像または画像の一部に描かれたテキストに基づいて画像(または、ユーザインターフェース122において可視である画像の一部)を分類するために、1つまたは複数の機械学習モデルを使用することができる。機械学習モデルは、ラベル付きトレーニングデータを使用してトレーニングすることができる。ラベル付きトレーニングデータは、トレーニング画像のセットと、画像ごとに、画像に描かれている単語を指定するデータと、画像のカテゴリを指定するラベルとを含むことができる。例示的なカテゴリは、レストランのメニュー、標識(たとえば、道路標識または店舗の看板)、雑誌、映画のポスター、音楽のポスターなどを含むことができる。図1は、コンテキスト分類器154を検索システム150の一部として示しているが、いくつかの実装形態では、コンテキスト分類器154をユーザデバイス110上に実装することができる。
The
クエリデータが受信されると、コンテキスト分類器154は、画像を分類するために機械学習モデルがトレーニングされたあらかじめ定義されたカテゴリのセットの1つに画像を分類しようと試みるために、クエリデータ130のコンテキストデータと機械学習モデルを使用することができる。いくつかの実装形態では、検索エンジン152は、分類、および/または画像が正常に分類されたかどうかに基づいて、検索クエリを調整し、かつ/またはリソースのランキングを調整する。
When the query data is received, the
コンテキスト分類器154が画像をカテゴリのうちの1つに分類する場合、検索エンジン152(または、コンテキスト分類器154がユーザデバイス110に実装されている場合はコンテンツ取得部116)は、画像が分類されたカテゴリに基づいて1つまたは複数の用語を含めるために、検索クエリを調整することができる。たとえば、画像が映画のポスターとして分類される場合、検索エンジン152は、「映画」という単語を検索クエリに追加することができる。特定の例では、ユーザ選択のテキストは映画のタイトル「エイリアン」であり得る。コンテキスト分類器154は、画像を映画のポスターとして分類するために、映画のポスターに描かれた追加の単語、たとえば、俳優の名前または映画の説明を使用することができる。次いで、検索エンジン152は、「エイリアン映画」というクエリを形成するために、「映画」という単語を「エイリアン」というクエリに追加することができる。このようにして、検索結果は一般的にエイリアンに関連する他のコンテンツよりも、「エイリアン」という映画に関連する可能性が高くなる。
If the
いくつかの実装形態では、検索エンジン152は、画像の分類に基づいて検索結果のランキングを調整する。たとえば、検索エンジン152は、検索クエリを修正するのではなく、画像のカテゴリに関連するリソースの検索結果を高める(たとえば、検索結果のランクを上げる)、および/または画像のカテゴリに関連しない検索結果のランキングを下げることができる。いくつかの実装形態では、検索エンジン152は、画像のカテゴリに基づいてリソースのタイプのランキングを調整することができる。たとえば、画像のカテゴリが音楽のポスターである場合、検索エンジン152はオーディオおよびビデオリソースを高め、ウェブページリソースのランキングを下げることができる。
In some implementations, the
コンテキスト分類器154が画像をカテゴリのうちの1つに分類しない場合、たとえば、コンテキストデータがカテゴリのうちの1つに関連していないため、検索エンジン152は、ユーザ選択のテキストを使用して一般的な検索を実行することができる。これは、コンテキスト分類器154によって受信されたコンテキストデータに基づいてカテゴリを決定できない画像の代替オプションであり得る。たとえば、店舗の看板の画像は、画像を分類するために使用することができる追加のコンテキストテキストがない単一の単語のみを含む場合がある。
If the
検索エンジン152は、検索クエリと、検索クエリに応答して識別されたリソースのランキングに基づいて、コンテンツ132をコンテキスト取得部116に提供することができる。たとえば、検索エンジン152は、コンテンツ132に、特定の数の最高ランクのリソースを提供することができる。別の例では、検索エンジン152は、コンテンツ132に、最高ランクのリソースを参照する、たとえば、それにリンクする、検索結果を提供することができる。たとえば、以下で説明するように、コンテンツを画像で提示することができ、または、ユーザ選択のテキストに基づいて選択した検索結果を含む検索結果ページが提示され得る。コンテンツ取得部116は、コンテンツ132を受信し、コンテンツ132をユーザインターフェースコントローラ118に提供することができる。次に、ユーザインターフェースコントローラ118は、ユーザインターフェース122におけるコンテンツ132に含まれるリソースの少なくとも一部を、検索結果ページ上の画像または検索結果とともに提示することができる。たとえば、ユーザインターフェースコントローラ118は、コンテンツとして、ウェブページリソースから抽出されたテキストおよび/または画像、ウェブサイトによってホストされるビデオへのリンク、ならびに/あるいは、ユーザによって選択された場合、ユーザインターフェースにおいてビデオの再生を開始するビデオのサムネイル画像を提示することができる。
The
コンテンツ取得部116はまた、たとえば、画像に描かれたテキストの選択を受信する前に、コンテンツをローカルメモリにプリキャッシュすることもできる。いくつかの実装形態では、コンテンツ取得部116は、テキストプロセッサ114によって出力された画像データ115に基づいてクエリデータ130を検索システム150に送信する。クエリデータ130は、テキストプロセッサ114によって画像内で識別されたすべてのテキストを含むことができる。検索エンジン152は、コンテキスト分類器154によって決定された画像のテキストおよび/またはカテゴリに基づいてコンテンツを識別することができる。コンテンツ取得部116は、検索エンジン152から識別されたコンテンツを受信し、ローカルメモリ124にコンテンツを記憶することができる。このようにして、ユーザが画像全体に関連するコンテンツを要求した場合、コンテンツ取得部116は、ユーザ要求後にネットワーク140を介して追加のクエリデータを検索システム150に送信するのではなく、ローカルメモリからコンテンツを取得することができる。これにより、ユーザにコンテンツを提示する際の待ち時間を短縮し、選択したテキストに関連する追加コンテンツをユーザが瞬時に、またはほぼ瞬時に(たとえば、1秒などのしきい値未満の時間で)閲覧することを可能にする。
The
いくつかの実装形態では、コンテンツ取得部116は、プリキャッシュのために、ユーザインターフェース122のズームレベルに基づいて異なるテキストベースの粒度のクエリを生成する。テキストベースの粒度は、各クエリを生成するために使用されるテキストの量を定義する。たとえば、あるテキストベースの粒度では、クエリを生成するために個々の単語が使用され得る。より高いテキストベースの粒度では、クエリを生成するために、個々のフレーズまたは他の複数の単語のセットをしきい値の単語数まで使用することができる。
In some implementations, the
ズームレベルにより、ユーザインターフェースにおいて画像全体が閲覧可能である場合、コンテンツ取得部は、ユーザ選択可能なターゲットが提示されるテキストのブロックごとに1つまたは複数のクエリを生成することができる。たとえば、テキストプロセッサ114は、たとえば、ブロックのうちの1つのユーザ選択を受信する前に、画像内のテキストの多数の別個のブロックを識別し、ブロックごとに別個のコンテンツを要求することができる。特定の例では、メニューの画像は、前菜用のテキストの第1のブロック、主菜用のテキストの第2のブロック、および飲み物用のテキストの第3のブロックを含み得る。この例では、クエリデータ130は、第1のブロックにおける前菜のリスト、第2のブロックにおける主菜のリスト、および第3のブロックにおける飲み物のリストを含むことができる。検索エンジン152は、ブロックごとにコンテンツ(たとえば、電子リソース)を個別に識別し、コンテンツをコンテンツ取得部116に提供することができる。コンテンツ取得部116は、コンテンツをローカルメモリ124に記憶することができる。このようにして、ユーザがブロックのうちの1つを選択すると、コンテンツ取得部116は、ユーザ選択後にネットワーク140を介して追加のクエリデータを検索システム150に送信することなしに、ローカルメモリ124からユーザ選択のブロックのコンテンツを取得することができる。
The zoom level allows the content acquisition unit to generate one or more queries for each block of text for which a user-selectable target is presented, if the entire image is viewable in the user interface. For example,
コンテンツ取得部116は、ユーザインターフェース122のズームレベルを変更するユーザインターフェース122とのユーザ対話に応答して、ローカルメモリ124に記憶されたコンテンツを更新することができる。たとえば、ユーザがブロックのうちの1つを選択すると、ユーザインターフェースコントローラ118は選択されたブロックにズームインし、ユーザ選択のブロック内のテキストの少なくとも一部をユーザ選択可能なターゲットとして提示することができる。コンテンツ取得部116はまた、更新されたズームレベルに基づいて、異なるテキストベースの粒度でクエリを生成することができる。たとえば、コンテンツ取得部は、選択されたブロックにおいて識別されたフレーズごとに、または、ユーザインターフェースコントローラ118がユーザ選択可能なターゲットとして提示する選択されたブロック内のフレーズごとにクエリを生成することができる。
The
前のメニュー例を続けると、ユーザが前菜のブロックを選択した場合、コンテンツ取得部116は、前菜を表すフレーズごとに1つまたは複数のクエリを生成することができる。コンテンツ取得部116は、たとえば、ユーザが前菜のうちの1つを選択する前、または前菜がユーザ選択可能なターゲットとしてユーザインターフェース122において提示される前に、クエリを指定するクエリデータ130を検索エンジン152に送信することができる。検索エンジン152は、前菜ごとのコンテンツを識別し、識別したコンテンツをコンテンツ取得部116に提供することができる。コンテンツ取得部116は、コンテンツをローカルメモリ124に記憶することができる。このようにして、ユーザが前菜のうちの1つを選択した場合、コンテンツ取得部116は、ユーザ選択後にネットワーク140を介して追加のクエリデータを検索システム150に送信することなしに、ローカルメモリ124からユーザ選択の前菜のコンテンツを取得することができる。
Continuing with the previous menu example, if the user selects the appetizer block, the
いくつかの実装形態では、ユーザインターフェースコントローラ118は、テキストのコンテンツに基づいて、ユーザ選択のテキストに関連するコンテンツを要求する以外のアクションを実行することができる。たとえば、画像が電話番号を示している場合、ユーザインターフェースコントローラ118は、スマートフォンによる電話番号表示のユーザ選択に応じて、スマートフォン上で通話を開始することができる。別の例では、画像が住所を示す場合、ユーザインターフェースコントローラ118は、地図アプリケーションを開き、住所のユーザ選択に応じて、地図アプリケーションが住所によって参照される場所の地図を表示することを要求することができる。別の例では、画像がウェブリソースの宛先アドレス、たとえばユニバーサルリソースロケータ(URL)を示す場合、ユーザインターフェースコントローラ118は、アプリケーション(たとえば、ウェブブラウザ)を開き、アプリケーションに、ネットワークアドレスによって参照される電子リソースにナビゲートするよう要求することができる。別の例では、画像がウェブリソースの電子メールアドレスを示す場合、ユーザインターフェースコントローラ118は、電子メールアドレスのユーザ選択に応じて、たとえば、電子メールアプリケーションを開き、その電子メールアドレス宛ての空の電子メールを表示することによって、その電子メールアドレスへの電子メールを開始することができる。 In some implementations, the user interface controller 118 may perform actions other than requesting content associated with the user-selected text based on the content of the text. For example, if the image shows a phone number, the user interface controller 118 can initiate a call on the smartphone in response to the user selecting the phone number display by the smartphone. In another example, if the image shows an address, the user interface controller 118 may open a map application and, in response to a user selection of the address, request that the map application display a map of the location referenced by the address. You can In another example, if the image shows a destination address of a web resource, such as a universal resource locator (URL), the user interface controller 118 opens an application (e.g., a web browser) and the application is instructed to use the electronic address referenced by the network address. You can request to navigate to a resource. In another example, if the image shows an email address for a web resource, the user interface controller 118 may, for example, open an email application and open a blank email address for that email address in response to a user selection of the email address. By displaying the email, an email to that email address can be initiated.
いくつかの実装形態では、ユーザインターフェースコントローラ118は、ビューファインダ内に表示されるコンテンツを増強するユーザインターフェースを生成する。たとえば、ユーザは、カメラ112をメニューまたは他のオブジェクトに向けることができる。ユーザインターフェースコントローラ118は、ビューファインダ内に現在表示されているテキストブロックおよび/またはテキストの他の部分のユーザ選択可能なターゲットを生成し、ユーザ選択可能なターゲットにビューファインダ内のテキストを提示することができる。ユーザがカメラ112を移動させる場合、ユーザインターフェースコントローラ118は、ユーザ選択可能なターゲットが生成されたテキストとともに、ユーザ選択可能なターゲットをそれらの適切な位置に移動させることができる。ビューファインダ内において新しいテキストが可視になると、ユーザインターフェースコントローラ118は、ユーザ選択可能なターゲットを生成し、ユーザ選択可能なターゲットのユーザ選択に応じてコンテンツを提示するために、上述のようにテキストを処理することができる。
In some implementations, the user interface controller 118 produces a user interface that enhances the content displayed in the viewfinder. For example, the user can point the
図2は、ユーザ選択のテキストに関連する追加コンテンツを要求するために、ユーザがテキストを選択することを可能にする例示的なユーザインターフェース205の例示的なスクリーンショットを示す図である。ユーザインターフェース205の第1のスクリーンショット210は、例示的なレストランからのメニューの画像211を提示するユーザインターフェース205を示している。たとえば、メニューの画像211をキャプチャするために、ユーザはスマートフォンのカメラを使用した可能性がある。例示的なメニューは、前菜のセクション、サンドイッチのセクション、主菜のセクション、およびデザートのセクションを含む。
FIG. 2 is a diagram illustrating an exemplary screenshot of an
ユーザインターフェース205の第2のスクリーンショット220は、メニューの異なるセクション用に作成されたユーザ選択可能なターゲット221〜224を示している。たとえば、図1のユーザインターフェースコントローラ118などのユーザインターフェースコントローラは、メニューの各セクションが関連テキストのブロックであることを識別し、各セクションをユーザ選択可能なターゲットとして提示することができる。具体的には、ユーザ選択可能なターゲット221により、ユーザはメニューの前菜セクションを選択することができ、ユーザ選択可能なターゲット222により、ユーザはメニューの主菜セクションを選択することができ、ユーザ選択可能なターゲット223により、ユーザはメニューのサンドイッチセクションを選択することができ、ユーザ選択可能なターゲット224により、ユーザはメニューのデザートセクションを選択することができる。
The
この例では、ユーザ選択可能な各ターゲット221〜224は、そのセクションの周囲にメニューのセクションが選択可能であることをユーザに示す太い線を含む。いくつかの実装形態では、セクションを選択することができるという事実にユーザの注意を引くために、各セクションの周囲の線が特定の色であってもよく、特定の明るさを有していてもよい。他の例では、セクションが選択可能であることを示すために、各セクションのテキストの背景色が強調表示されても変更されてもよく、または、セクションが選択可能であることを示すためにテキストの色が変更されてもよい。 In this example, each user selectable target 221-224 includes a thick line around that section to indicate to the user that a section of the menu is selectable. In some implementations, the lines around each section may be of a particular color and have a particular brightness, in order to draw the user's attention to the fact that the sections may be selected. Good. In other examples, the background color of the text in each section may be highlighted or changed to indicate that the section is selectable, or the text to indicate that the section is selectable. The color of may be changed.
例示的なユーザインターフェース205はまた、スクリーンショット220にアレルギーインジケータ227を含むように更新されている。いくつかの実装形態では、画像アプリケーション、たとえば、画像アプリケーション111は、ユーザに関連し、画像に描かれたテキストに関連する追加コンテンツを提示するためにユーザによって提供されたユーザデータにアクセスすることができる。ユーザデータの例は、ユーザがアレルギーを持っている食品のリストである。画像アプリケーションは、メニューの食品をアレルギーのリストと比較し、一致する場合は、メニュー内の項目の隣にアレルギーインジケータを提示することができる。この例では、ユーザはエビにアレルギーがあり、アレルギーインジケータ227はメニュー項目をユーザに示す。
The
ユーザは、ユーザ選択可能なターゲット内でタッチすることによって(ユーザデバイスにタッチスクリーンがある場合)、ポインタおよびマウスを使用してユーザ選択可能なターゲットをクリックすることによって、または別の適切な方法で、ユーザ選択可能なターゲットを選択することができる。この例では、ユーザ選択可能なターゲット221を選択し、メニューの前菜セクションにズームインするために、ユーザはポインタ226を使用している。
The user can either touch within the user-selectable target (if the user device has a touch screen), click the user-selectable target with the pointer and mouse, or another suitable method. , A user selectable target can be selected. In this example, the user is using the pointer 226 to select the user
ユーザ選択可能なターゲット221の選択に応答して、例示的なスクリーンショット230に示されるように、前菜セクションのズームインされた表示を提示するためにユーザインターフェース205が更新される。たとえば、メニューの画像211は、第1のズームレベル、たとえば、デフォルトズームレベルにおいて表示することができる。ユーザ選択可能なターゲットが選択されると、選択したセクション内のテキストをより高いズームレベルにおいて提示するために、ユーザインターフェースのズームレベルを第1のズームレベルよりも大きい第2のズームレベルに更新することができる。これにより、選択したセクション内のテキストをユーザがより適切に閲覧し、ユーザがさらにズームインしたり、コンテンツを要求したりしたいテキストをより適切に選択することが可能になる。
In response to the selection of the user-
例示的なスクリーンショット230では、ユーザインターフェース205はまた、各前菜をユーザ選択可能なターゲットとして示している。たとえば、前菜のチップスアンドサルサは、ユーザ選択可能なターゲット231として提示され、前菜のスタッフトマッシュルームは、ユーザ選択可能なターゲット232として提示され、前菜のバッファローウィングは、ユーザ選択可能なターゲット233として提示され、前菜のモッツァレラスティックは、ユーザ選択可能なターゲット234として提示される。上述のように、ユーザがテキストのブロックを選択すると、選択されたブロック内のテキストの少なくとも一部をユーザ選択可能なターゲットとして提示することができる。
In the
ユーザがユーザ選択可能なターゲットを選択すると、さらにズームインするか、ユーザ選択のターゲットのコンテンツに関連するコンテンツを提示するために、ユーザインターフェース205を更新することができる。この例では、ユーザは、ポインタ236を使用してチップスアンドサルサのユーザ選択可能なターゲット231を選択し、それに応じて、例示的なスクリーンショット240に示されるように、チップスアンドサルサというフレーズにさらにズームインするために、ユーザインターフェース205が更新される。
When the user selects a user-selectable target, the
また、ユーザインターフェース205はまた、「チップスアンドサルサ」というフレーズの単語に対してユーザ選択可能なターゲットを提示するように更新されている。具体的には、ユーザインターフェース205は、「チップス」という単語に対するユーザ選択可能なターゲット241と、「サルサ」という単語に対するユーザ選択可能なターゲット243とを含む。ユーザインターフェース205は、「アンド」という単語、またはユーザによって選択される可能性が低い他の単語に対するユーザ選択可能なターゲットを含まなくてもよい。たとえば、上述のように、ユーザインターフェースコントローラは、テキストのコンテンツに利用可能なコンテンツ(たとえば、テキストによって参照されるエンティティ)、または他の基準に基づいて、選択したブロックまたはテキストの他の部分のどの単語またはフレーズをユーザ選択可能なターゲットとして提示されるべきかを選択することができる。
Also, the
ユーザがユーザ選択可能なターゲット241を選択した場合、チップスの栄養情報、チップスの画像、チップスのレシピなどの、チップスに関連するコンテンツを提示するために、ユーザインターフェース205を更新することができる。同様に、ユーザがユーザ選択可能なターゲット243を選択した場合、サルサの栄養情報、サルサの画像、サルサのレシピなどの、サルサに関連するコンテンツを提示するために、ユーザインターフェース205を更新することができる。
If the user selects a user-
図3は、ユーザがテキストを選択し、選択されたテキストに関連するコンテンツを閲覧することを可能にする例示的なユーザインターフェース305の例示的なスクリーンショット310および320を示す図である。スクリーンショット310は、図2のスクリーンショット230に類似している。スクリーンショット310において、ユーザインターフェース305は、メニューの画像の部分的なビュー(たとえば、ズームインしたビュー)を提示する。具体的には、ユーザインターフェース305は、メニューの前菜セクションを含む画像の部分を提示する。ユーザインターフェース305はまた、メニュー内の前菜項目のユーザ選択可能なターゲット311〜314を提示する。この例では、ユーザは、ポインタ316を使用して、前菜「チップスアンドサルサ」のユーザ選択可能なターゲット311を選択している。
FIG. 3 is a diagram illustrating
ユーザ選択に応答して、スクリーンショット320に示されるように、メニューの画像上にチップスアンドサルサに関連するコンテンツを提示するように、ユーザインターフェース305が更新される。この例では、コンテンツは、チップスアンドサルサに関する情報と、チップスアンドサルサの画像323および324とを含むテキストブロック322を含む。テキストブロック322と画像323および324は、選択されたユーザ選択可能なターゲット311が可視のままであるように、スクリーンショット310において可視であったメニューの画像の部分の上に提示することができる。たとえば、テキストブロック322と画像323および324は、チップスアンドサルサのテキストが可視のままである間、他の前菜を描写する画像の部分の上に提示される。
In response to a user selection, the
いくつかの実装形態では、選択されたテキストが可視のままであり、選択されたテキストに関連するコンテンツが選択されたテキストの下に提示されるように、画像の異なる部分が可視であるように、ユーザインターフェース305を更新することができる。いくつかの実装形態では、画像の可視部分は変更されず、コンテンツは、選択されたテキストを含まない画像の部分、たとえば選択されたテキストの上、または選択されたテキストの側面に提示される。
In some implementations, different parts of the image are visible, such that the selected text remains visible and the content associated with the selected text is presented below the selected text. , The
図4は、ユーザがテキストを選択し、選択されたテキストに関連するコンテンツを閲覧することを可能にする例示的なユーザインターフェース405の例示的なスクリーンショット410および420を示す図である。スクリーンショット410は、図2のスクリーンショット230に類似している。スクリーンショット410において、ユーザインターフェース405は、メニューの画像の部分的なビュー(たとえば、ズームインしたビュー)を提示する。具体的には、ユーザインターフェース405は、メニューの前菜セクションを含む画像の部分を提示する。ユーザインターフェース405はまた、メニュー内の前菜項目のユーザ選択可能なターゲット411〜414を提示する。ユーザは、ポインタ416を使用して、前菜「チップスアンドサルサ」のユーザ選択可能なターゲット411を選択している。
FIG. 4 is a diagram illustrating
この例では、図3の例のように画像上にコンテンツを提示するのではなく、スクリーンショット420に示されるように検索結果ページ421を提示するためにユーザインターフェース405が更新されている。検索結果ページ421は、ユーザによって選択されたテキストに基づいて検索を開始するために使用することができる。たとえば、検索結果ページ421は、ユーザが「チップスアンドサルサ」というテキストに対してユーザ選択可能なターゲット411を選択したことに応答して、たとえば画像アプリケーションによって「チップスアンドサルサ」というテキストを自動的に入力された検索ボックス422を含む。次いで、ユーザは、「チップスアンドサルサの栄養情報」などの修正されたクエリを提出し、修正されたクエリの検索結果を検索結果ページ421上で閲覧するために、検索ボックス422内のクエリを修正することができる。
In this example, the
検索結果ページ421はまた、「チップスアンドサルサ」というクエリに基づいて識別された検索結果423〜425を含む。たとえば、画像アプリケーションはクエリを検索エンジンに提出し、ユーザ選択可能なターゲット411の選択の検出に応答して、検索エンジンから受信した検索結果を検索結果ページに提示することができる。ユーザがクエリを修正し、修正されたクエリを提出すると、修正されたクエリの新しい検索結果を、たとえば、検索結果423〜425の代わりに検索結果ページに提示することができる。
図5は、ユーザ選択のテキストのコンテンツに基づいてアクションを開始するための例示的なプロセス500のフローチャートである。プロセス500の動作は、たとえば、図1のユーザデバイス110などの1つまたは複数のデータ処理装置を含むユーザデバイスによって実装することができる。プロセス500はまた、データ処理装置を含むシステムによる命令の実行によりデータ処理装置にプロセス500の動作を実行させるコンピュータストレージ媒体に記憶された命令によって実装することができる。
FIG. 5 is a flow chart of an
ユーザデバイスは、キャプチャされた画像からテキストを抽出する(502)。画像は、ユーザデバイスのカメラを使用してキャプチャされてもよく、ユーザデバイスに送信される別のデバイスのカメラによってキャプチャされてもよく、ストレージから取得されてもよい。ユーザデバイスは、OCR技法を使用して、キャプチャした画像からテキストを抽出することができる。 The user device extracts text from the captured image (502). The image may be captured using the camera of the user device, may be captured by the camera of another device sent to the user device, or may be obtained from storage. User devices can use OCR techniques to extract text from captured images.
ユーザデバイスは、抽出されたテキストを複数のブロックに分割する(504)。ユーザデバイスは、キャプチャされた画像内の抽出されたテキストの配置に基づいて、抽出されたテキストの1つまたは複数の意味解析に基づいて、および/あるいは関連テキストのグループを識別するための他の適切な技法を使用して、抽出されたテキストを関連テキストの複数のブロックに分割することができる。 The user device divides the extracted text into blocks (504). The user device is configured to identify the group of related texts based on the placement of the extracted text within the captured image, based on one or more semantic analyzes of the extracted text, and/or to identify groups of related text. Appropriate techniques can be used to divide the extracted text into blocks of related text.
ユーザデバイスは、ユーザデバイスのユーザインターフェース上にそれぞれの第1のユーザ選択可能なターゲットとしてテキストの複数のブロックを提示する(506)。ユーザインターフェースは、複数のブロックをユーザ選択可能なターゲットとして、第1のズームレベルにおいて、たとえば、キャプチャされた画像全体を表示するデフォルトズームレベルにおいて提示することができる。 The user device presents (506) blocks of text as respective first user-selectable targets on a user interface of the user device. The user interface may present the plurality of blocks as a user selectable target at a first zoom level, eg, a default zoom level that displays the entire captured image.
ユーザデバイスは、複数のブロックのうちの第1のブロックのユーザ選択を検出する(508)。ユーザは、テキストを選択するために、ユーザ選択可能なターゲットと対話することができる。たとえば、ユーザはテキストの場所でユーザデバイスのディスプレイのタッチスクリーンにタッチするか、マウスを使用してテキストをクリックすることができる。 The user device detects 508 a user selection of a first block of the plurality of blocks. The user can interact with the user-selectable target to select text. For example, the user can touch the touch screen of the display of the user device at the location of the text or use the mouse to click the text.
テキストのユーザ選択に応答して、ユーザデバイスは、第1のブロック内の抽出されたテキストを、ユーザデバイスのユーザインターフェース上にそれぞれの第2のユーザ選択可能なターゲットとして提示する(510)。たとえば、ユーザデバイスは、テキストの第1のブロックにズームインするために、ユーザインターフェースを更新することができる。すなわち、ユーザデバイスは、第1のズームレベルより大きい第2のズームレベルにおいてテキストの第1のブロックを表示することができる。このようにして、第1のブロックのテキストはより大きくなり、ユーザが、そのテキストに関連するコンテンツを要求するために適切なテキストを選択することがより容易になる。 In response to the user selection of text, the user device presents the extracted text in the first block as respective second user selectable targets on the user interface of the user device (510). For example, the user device may update the user interface to zoom in on the first block of text. That is, the user device can display the first block of text at a second zoom level that is greater than the first zoom level. In this way, the text in the first block will be larger and it will be easier for the user to select the appropriate text to request the content associated with that text.
ユーザデバイスは、テキストの第1のブロック内の抽出されたテキストの一部のユーザ選択を検出する(512)。それに応じて、ユーザデバイスは、選択したテキストのコンテンツに基づいてアクションを開始する(514)。アクションは、選択したテキストのコンテンツに応じて異なる場合がある。たとえば、選択したテキストのコンテンツが電話番号である場合、アクションは電話番号を使用して電話をかけることであってよい。選択したテキストのコンテンツが住所の場合、アクションはその住所への地図アプリケーションを開くことであってよい。 The user device detects a user selection of a portion of the extracted text in the first block of text (512). In response, the user device initiates an action based on the content of the selected text (514). The action may differ depending on the content of the selected text. For example, if the selected text content is a phone number, the action may be to make a call using the phone number. If the selected text content is an address, the action may be to open a map application to that address.
選択したテキストのコンテンツがエンティティであるか、対応するアクションを有しない場合、アクションは選択したテキストのコンテンツに関連するコンテンツを要求することであってよい。たとえば、ユーザデバイスは、選択したテキストのコンテンツに基づいて1つまたは複数の検索クエリを生成し、選択したテキストのコンテンツを使用して検索を開始することができる。 If the selected textual content is an entity or has no corresponding action, the action may be to request content related to the selected textual content. For example, the user device may generate one or more search queries based on the selected textual content and initiate a search using the selected textual content.
いくつかの実装形態では、アクションは、ユーザが好みの検索クエリを選択することを可能にするために、ユーザインターフェース上に複数の候補の検索クエリを表示することであってよい。候補の検索クエリは、選択したテキストのコンテンツに基づくことができる。たとえば、候補の検索クエリは、選択したテキストのコンテンツと、選択したテキストのコンテンツに関連する1つまたは複数の推奨される用語を含むことができる。ユーザが候補クエリのうちの1つを選択すると、ユーザデバイスはクエリを検索エンジンに送信し、選択したクエリに関連する検索結果またはコンテンツをユーザインターフェースに提示することができる。 In some implementations, the action may be to display a plurality of candidate search queries on the user interface to allow the user to select a favorite search query. The candidate search query can be based on the content of the selected text. For example, a candidate search query may include the selected textual content and one or more suggested terms associated with the selected textual content. When the user selects one of the candidate queries, the user device can submit the query to a search engine and present search results or content related to the selected query to a user interface.
図6は、検索クエリに応答してコンテンツを提供するための例示的なプロセス600のフローチャートである。プロセス600の動作は、たとえば、図1の検索システム150などの1つまたは複数のデータ処理装置を含むシステムによって実装することができる。プロセス600はまた、データ処理装置を含むシステムによる命令の実行によりデータ処理装置にプロセス600の動作を実行させるコンピュータストレージ媒体に記憶された命令によって実装することができる。
FIG. 6 is a flowchart of an
本システムはクエリデータを受信する(602)。クエリデータは、キャプチャされた画像のクエリとコンテキストデータを含むことができる。クエリは、画像に描かれ、ユーザによって選択されたテキストのコンテンツを含むことができる。コンテキストデータは、画像に描かれているがユーザによって選択されていない他のテキストを含むことができる。 The system receives query data (602). Query data may include captured image queries and context data. The query may be drawn in an image and may include textual content selected by the user. The contextual data can include other text drawn on the image but not selected by the user.
本システムは、コンテキストデータに基づいて画像の分類を試みる(604)。たとえば、本システムは、コンテキストデータに含まれる画像のテキストに基づいて画像の分類を試みるために、1つまたは複数の機械学習モデルを使用することができる。機械学習モデルの出力は、あらかじめ定義されたカテゴリのセット(たとえば、メニュー、映画、音楽、看板など)の1つであってもよく、分類なしであってもよい。 The system attempts to classify the image based on the contextual data (604). For example, the system can use one or more machine learning models to attempt to classify an image based on the text of the image contained in the contextual data. The output of the machine learning model may be one of a predefined set of categories (eg, menus, movies, music, billboards, etc.) or unclassified.
画像がカテゴリのうちの1つに属すると本システムが決定した場合、本システムは、ユーザ選択のテキストのコンテンツとカテゴリとの組合せに基づいて、電子リソース(たとえば、ウェブページ、画像、ビデオなど)を識別してランク付けする(608)。たとえば、本システムは、識別されたカテゴリに基づく1つまたは複数の用語を含めるために、選択されたテキストのコンテンツに基づくクエリを修正することができる。別の例では、本システムは、カテゴリに関連するリソースのランクを高める、および/またはカテゴリに関連しないリソースのランクを下げることができる。 If the system determines that the image belongs to one of the categories, the system will use the electronic resource (e.g., web page, image, video, etc.) based on the combination of the user-selected textual content and the category. Are identified and ranked (608). For example, the system can modify the content-based query of the selected text to include one or more terms based on the identified category. In another example, the system may increase the rank of resources associated with categories and/or reduce the rank of resources not associated with categories.
画像がカテゴリのうちのいずれにも属さないとシステムが決定した場合、本システムは一般的な検索を使用してリソースを識別してランク付けする(610)。たとえば、本システムはクエリを修正したり、リソースのランキングを調整したりすることはできない。代わりに、本システムは選択されたテキストのコンテンツのみに基づいてリソースを識別することができる。 If the system determines that the image does not belong to any of the categories, then the system uses a general search to identify and rank the resources (610). For example, the system cannot modify queries or adjust resource rankings. Instead, the system can identify resources based solely on the content of the selected text.
本システムは、クエリデータが受信されたユーザデバイスでの提示のための検索結果コンテンツを提供する(612)。いくつかの実装形態では、検索結果コンテンツは、クエリに基づいて識別されたリソースと、任意で画像がカテゴリのうちの1つに属すると分類された場合の画像のカテゴリを含むことができる。たとえば、ユーザデバイスは、テキストが選択された画像を含むコンテンツ(たとえば、ウェブページのテキスト、画像、埋込みビデオ、またはビデオへのリンクなど)を表示することができる。 The system provides search result content for presentation at a user device where the query data was received (612). In some implementations, the search result content may include the resource identified based on the query and optionally the category of the image if the image was classified as belonging to one of the categories. For example, the user device may display content that includes an image for which the text is selected (eg, text on a web page, an image, an embedded video, or a link to a video, etc.).
いくつかの実装形態では、検索結果コンテンツは、クエリに基づいて識別されたリソースの検索結果と、任意で画像がカテゴリのうちの1つに属すると分類された場合の画像のカテゴリを含む。たとえば、ユーザデバイスは、検索結果を検索結果ページに、たとえば画像の代わりに、または画像の上に提示することができる。 In some implementations, the search result content includes search results for the resource identified based on the query and, optionally, a category of the image if the image was classified as belonging to one of the categories. For example, the user device may present the search results on a search results page, eg, instead of or over the image.
本明細書に記載される主題および動作の実施形態は、本明細書で開示される構造およびそれらの構造的同等物を含む、デジタル電子回路、あるいはコンピュータソフトウェア、ファームウェア、またはハードウェア、あるいはそれらの1つまたは複数の組合せにおいて実装することができる。本明細書に記載される主題の実施形態は、データ処理装置による実行のために、またはデータ処理装置の動作を制御するためにコンピュータストレージ媒体にエンコードされた、1つまたは複数のコンピュータプログラム、すなわち、コンピュータプログラム命令の1つまたは複数のモジュールとして実装することができる。代替的または追加的に、プログラム命令は、データ処理装置による実行のために適切な受信機装置に送信するための情報をエンコードするために生成される、人工的に生成された伝播信号、たとえば、機械生成電気、光学、または電磁信号でエンコードすることができる。コンピュータストレージ媒体は、コンピュータ可読ストレージデバイス、コンピュータ可読ストレージ基板、ランダムまたはシリアルアクセスメモリアレイまたはデバイス、あるいはそれらの1つまたは複数の組合せであってもよく、またはそれらに含まれてもよい。さらに、コンピュータストレージ媒体は伝播信号ではないが、コンピュータストレージ媒体は、人工的に生成された伝播信号にエンコードされたコンピュータプログラム命令のソースまたは宛先であり得る。コンピュータストレージ媒体はまた、1つまたは複数の別個の物理的コンポーネントあるいは媒体(たとえば、複数のCD、ディスク、または他のストレージデバイス)であってもよく、それに含まれてもよい。 Embodiments of the subject matter and operations described herein include digital electronic circuitry, or computer software, firmware, or hardware, or the like, including the structures disclosed herein and their structural equivalents. It can be implemented in one or more combinations. Embodiments of the subject matter described herein include one or more computer programs, i.e., computer programs encoded on a computer storage medium, for execution by a data processing device or for controlling operation of the data processing device, i.e. , Can be implemented as one or more modules of computer program instructions. Alternatively or additionally, the program instructions are artificially generated propagated signals, e.g., generated to encode information for transmission to a suitable receiver device for execution by a data processing device. It can be encoded with machine-generated electrical, optical, or electromagnetic signals. The computer storage medium may be, or be included in, a computer-readable storage device, a computer-readable storage substrate, a random or serial access memory array or device, or a combination of one or more thereof. Moreover, while the computer storage medium is not a propagated signal, the computer storage medium may be a source or destination of computer program instructions encoded in an artificially generated propagated signal. Computer storage media may also be and included in one or more separate physical components or media (eg, multiple CDs, disks, or other storage devices).
本明細書に記載される動作は、1つまたは複数のコンピュータ可読ストレージデバイスに記憶されたデータ、または他のソースから受信したデータに対してデータ処理装置によって実行される動作として実装することができる。 The operations described herein may be implemented as operations performed by a data processing apparatus on data stored on one or more computer-readable storage devices or data received from other sources. ..
「データ処理装置」という用語は、例として、プログラマブルプロセッサ、コンピュータ、チップ上のシステム、あるいは前述のものの複数のもの、または組合せを含む、データを処理するためのあらゆる種類の装置、デバイス、および機械を包含する。本装置は、たとえば、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)などの専用論理回路を含むことができる。本装置はまた、ハードウェアに加えて、問題のコンピュータプログラムの実行環境を作成するコード、たとえば、プロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、クロスプラットフォームランタイム環境、仮想マシン、あるいはそれらの1つまたは複数の組合せを構成するコードも含むことができる。本装置と実行環境は、ウェブサービス、分散コンピューティング、およびグリッドコンピューティングインフラストラクチャなどの、様々な異なるコンピューティングモデルインフラストラクチャを実現することができる。 The term "data processing device" includes, by way of example, programmable processors, computers, systems on a chip, or any number or combination of the foregoing, for any type of device, device, and machine for processing data. Includes. The device may include, for example, a dedicated logic circuit such as an FPGA (field programmable gate array) or an ASIC (application specific integrated circuit). The apparatus may also include, in addition to hardware, code that creates an execution environment for the computer program in question, such as processor firmware, protocol stacks, database management systems, operating systems, cross-platform runtime environments, virtual machines, or one of them. Codes making up one or more combinations may also be included. The device and execution environment can implement a variety of different computing model infrastructures, such as web services, distributed computing, and grid computing infrastructures.
コンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、スクリプト、またはコードとしても知られる)は、コンパイラ型言語またはインタープリタ型言語、宣言型言語または手続き型言語を含む、任意の形式のプログラミング言語で記述することができ、スタンドアロンプログラムとして、あるいはモジュール、コンポーネント、サブルーチン、オブジェクト、またはコンピューティング環境での使用に適した他のユニットとして、を含む任意の形式で展開することができる。コンピュータプログラムは、ファイルシステム内のファイルに対応する場合があるが、そうである必要はない。本プログラムは、他のプログラムまたはデータを保持するファイルの一部(たとえば、マークアップ言語ドキュメントに記憶された1つまたは複数のスクリプト)、問題のプログラム専用の単一のファイル、または複数の調整ファイル(たとえば、1つまたは複数のモジュール、サブプログラム、あるいはコードの一部を記憶するファイル)に記憶することができる。コンピュータプログラムは、1つのコンピュータ上で、または1つのサイトに配置されているか、複数のサイトにわたって分散され、通信ネットワークで相互接続されている複数のコンピュータ上で実行されるように展開することができる。 Computer programs (also known as programs, software, software applications, scripts, or code) can be written in any form of programming language, including compiled or interpreted, declarative or procedural. It can be deployed in any form, including as a stand-alone program or as a module, component, subroutine, object, or other unit suitable for use in a computing environment. The computer program may, but need not, correspond to files in the file system. This program may be part of a file that holds other programs or data (for example, one or more scripts stored in a markup language document), a single file dedicated to the program in question, or multiple reconciliation files. (Eg, a file that stores one or more modules, subprograms, or portions of code). The computer program can be deployed to run on one computer or on multiple computers located at one site or distributed across multiple sites and interconnected by a communications network. ..
本明細書に記載されるプロセスと論理フローは、入力データを操作して出力を生成することによってアクションを実行するために、1つまたは複数のコンピュータプログラムを実行する1つまたは複数のプログラム可能なプロセッサによって実行することができる。プロセスおよび論理フローはまた、特殊用途の論理回路、たとえばFPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)によって実行することもでき、装置はそれらとして実装することもできる。 The processes and logic flows described herein are one or more programmable programs that execute one or more computer programs to perform actions by manipulating input data and producing outputs. It can be executed by a processor. The processes and logic flows may also be performed by special purpose logic circuits, such as FPGAs (Field Programmable Gate Arrays) or ASICs (Application Specific Integrated Circuits), and devices may be implemented as such.
コンピュータプログラムの実行に適したプロセッサは、例として、汎用および専用の両方のマイクロプロセッサ、およびあらゆる種類のデジタルコンピュータの任意の1つまたは複数のプロセッサを含む。一般的に、プロセッサは、読取り専用メモリまたはランダムアクセスメモリ、あるいはその両方から命令およびデータを受信する。コンピュータの重要な要素は、命令に従ってアクションを実行するためのプロセッサと、命令およびデータを記憶するための1つまたは複数のメモリデバイスである。一般に、コンピュータはまた、データを格納するための1つまたは複数の大容量ストレージデバイス、たとえば磁気ディスク、光磁気ディスク、または光ディスクを含むか、それらからデータを受信する、またはそれらにデータを転送するように動作可能に結合される。しかしながら、コンピュータにそのようなデバイスは必要ない。さらに、コンピュータは別のデバイス、たとえば、ほんの数例を挙げると、モバイル電話、携帯情報端末(PDA)、モバイルオーディオまたはビデオプレーヤ、ゲームコンソール、全地球測位システム(GPS)受信機、またはポータブルストレージデバイス(たとえば、ユニバーサルシリアルバス(USB)フラッシュドライブ)に組み込むことができる。コンピュータプログラムの命令およびデータを記憶するために適したデバイスは、例として、半導体メモリデバイス、たとえば、EPROM、EEPROM、およびフラッシュメモリデバイス、磁気ディスク、たとえば、内蔵ハードディスクまたはリムーバブルディスク、磁気ディスク、ならびにCD ROMおよびDVD-ROMディスクを含む、すべての形態の不揮発性メモリ、メディアおよびメモリデバイスを含む。プロセッサおよびメモリは、専用論理回路によって補完されてもよく、専用論理回路に組み込まれてもよい。 Suitable processors for the execution of computer programs include, by way of example, both general and special purpose microprocessors, and any one or more processors of any kind of digital computer. Generally, a processor will receive instructions and data from a read-only memory or a random access memory or both. The key elements of a computer are a processor for performing actions in accordance with instructions and one or more memory devices for storing instructions and data. Generally, the computer also includes, receives data from, or transfers data to, one or more mass storage devices for storing data, such as magnetic disks, magneto-optical disks, or optical disks. Operably coupled so that However, the computer does not require such a device. In addition, a computer is another device, such as a mobile phone, a personal digital assistant (PDA), a mobile audio or video player, a game console, a global positioning system (GPS) receiver, or a portable storage device, just to name a few. (Eg Universal Serial Bus (USB) flash drive). Suitable devices for storing computer program instructions and data include, by way of example, semiconductor memory devices such as EPROMs, EEPROMs, and flash memory devices, magnetic disks such as internal hard disks or removable disks, magnetic disks, and CDs. Includes all forms of non-volatile memory, media and memory devices, including ROM and DVD-ROM discs. The processor and memory may be supplemented by, or incorporated in, dedicated logic circuitry.
ユーザとの対話を提供するために、本明細書に記載される主題の実施形態は、ユーザに情報を表示するためのディスプレイデバイス、たとえば、CRT(陰極線管)またはLCD(液晶ディスプレイ)モニタ、ユーザがコンピュータに入力を提供することができるキーボードおよびポインティングデバイス、たとえばマウスまたはトラックボールを有するコンピュータ上で実装することができる。ユーザとの対話を提供するために他の種類のデバイスを使用することもでき、たとえば、ユーザに提供されるフィードバックは、たとえば、視覚フィードバック、聴覚フィードバック、または触覚フィードバックなどの任意の形式の感覚フィードバックであってよく、ユーザからの入力は、音響、音声、または触覚の入力を含む任意の形式で受信することができる。さらに、コンピュータは、ユーザによって使用されるデバイスとの間で文書を送受信することによって、たとえば、ウェブブラウザから受信した要求に応じて、ユーザのクライアントデバイス上のウェブブラウザにウェブページを送信することによって、ユーザと対話することができる。 To provide user interaction, embodiments of the subject matter described herein include display devices for displaying information to a user, such as a CRT (cathode ray tube) or LCD (liquid crystal display) monitor, a user. Can be implemented on a computer with a keyboard and pointing device capable of providing input to the computer, such as a mouse or trackball. Other types of devices may also be used to provide interaction with the user, for example, the feedback provided to the user may be any form of sensory feedback, such as visual feedback, auditory feedback, or tactile feedback. The input from the user may be received in any form, including acoustic, voice, or tactile input. In addition, the computer sends and receives documents to and from the device used by the user, for example, by sending a web page to a web browser on the user's client device in response to a request received from the web browser. , Can interact with the user.
本明細書に記載される主題の実施形態は、たとえばデータサーバとしてのバックエンドコンポーネントを含む、またはアプリケーションサーバなどのミドルウェアコンポーネントを含む、またはユーザが本明細書に記載される主題の実装形態と対話することができるグラフィカルユーザインターフェースまたはウェブブラウザを有するクライアントコンピュータなどのフロントエンドコンポーネントを含むコンピューティングシステムにおいて、あるいは1つまたは複数のそのようなバックエンドコンポーネント、ミドルウェアコンポーネント、またはフロントエンドコンポーネントの任意の組合せにおいて実装することができる。本システムのコンポーネントは、任意の形式または媒体のデジタルデータ通信、たとえば通信ネットワークによって相互接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(「LAN」)およびワイドエリアネットワーク(「WAN」)、インターネットワーク(たとえば、インターネット)、およびピアツーピアネットワーク(たとえば、アドホックピアツーピアネットワーク)を含む。 Embodiments of the subject matter described herein include backend components, eg, as data servers, or middleware components such as application servers, or users interact with implementations of the subject matter described herein. In a computing system that includes front-end components, such as client computers having a graphical user interface or web browser, or one or more such back-end components, middleware components, or any combination of front-end components. Can be implemented in. The components of the system can be interconnected by any form or medium of digital data communication, eg, a communication network. Examples of communication networks include local area networks (“LAN”) and wide area networks (“WAN”), internetworks (eg, the Internet), and peer-to-peer networks (eg, ad hoc peer-to-peer networks).
コンピューティングシステムは、クライアントとサーバを含むことができる。通常、クライアントとサーバは互いにリモートであり、通常は通信ネットワークを通じて対話する。クライアントとサーバの関係は、それぞれのコンピュータで実行され、相互にクライアントとサーバの関係を有するコンピュータプログラムによって発生する。いくつかの実施形態では、サーバは、データ(たとえば、HTMLページ)をクライアントデバイスに送信する(たとえば、クライアントデバイスと対話するユーザにデータを表示し、クライアントデバイスと対話するユーザからユーザ入力を受信する目的で)。クライアントデバイスにおいて生成されたデータ(たとえば、ユーザ対話の結果)は、サーバにおいてクライアントデバイスから受信することができる。 The computing system can include clients and servers. Clients and servers are typically remote from each other and typically interact through a communications network. The relationship of client and server arises by virtue of computer programs running on the respective computers and having a client and server relationship to each other. In some embodiments, the server sends data (eg, an HTML page) to a client device (eg, displays the data to a user who interacts with the client device and receives user input from a user who interacts with the client device). In purpose). Data generated at the client device (eg, the result of user interaction) can be received at the server from the client device.
本明細書は多くの特定の実装形態の詳細を含むが、これらは、発明の範囲または請求されるものの範囲を制限するものではなく、特定の発明の特定の実施形態に特有の特徴の説明として解釈されるべきである。別個の実施形態の文脈において本明細書に記載されている特定の特徴は、単一の実施形態において組み合わせて実装することもできる。逆に、単一の実施形態の文脈において説明される様々な特徴は、複数の実施形態において別々に、または任意の適切なサブコンビネーションにおいて実装することもできる。さらに、特徴は特定の組合せにおいて作用するものとして上記で説明され、最初にそのように主張され得るが、主張された組合せからの1つまたは複数の特徴は、場合によっては組合せから削除することができ、主張された組合せはサブコンビネーションまたはサブコンビネーションのバリエーションに向けられ得る。 While the specification includes details of many specific implementations, these are not limitations on the scope of the invention or on what is claimed, but as an illustration of features unique to particular embodiments of the particular invention. Should be interpreted. Certain features that are described in this specification in the context of separate embodiments can also be implemented in combination in a single embodiment. Conversely, various features that are described in the context of a single embodiment can also be implemented in multiple embodiments separately or in any suitable subcombination. Further, although features are described above as operating in particular combinations and may be claimed as such initially, one or more features from the claimed combination may optionally be deleted from the combination. Yes, the claimed combinations can be directed to sub-combinations or variations of sub-combinations.
同様に、動作は図面において特定の順序で描かれているが、これは、望ましい結果を達成するために、そのような動作が示されている特定の順序または連続した順序で実行されること、あるいはすべての説明された動作が実行されることを必要とするものとして理解されるべきではない。特定の環境では、マルチタスキングおよび並列処理が有利な場合がある。さらに、上記の実施形態における様々なシステムコンポーネントの分離は、すべての実施形態においてそのような分離を必要とするものとして理解されるべきではなく、説明されたプログラムコンポーネントおよびシステムは一般に単一のソフトウェア製品に一緒に統合することもでき、複数のソフトウェア製品にパッケージ化されることが理解されるべきである。したがって、主題の特定の実施形態が説明された。他の実施形態は、以下の特許請求の範囲内にある。場合によっては、特許請求の範囲に記載されているアクションを異なる順序で実行しても、依然として望ましい結果を達成することができる。さらに、添付の図面に描かれているプロセスは、望ましい結果を達成するために、示されている特定の順序、または連続した順序を必ずしも必要としない。特定の実装形態では、マルチタスキングおよび並列処理が有利な場合がある。 Similarly, although the acts are depicted in a particular order in the drawings, this may be performed in the particular order shown, or in a sequential order, to achieve the desired result. Or should not be understood as requiring that all described acts be performed. Multitasking and parallel processing may be advantageous in certain environments. Furthermore, the separation of various system components in the embodiments described above should not be understood as requiring such separation in all embodiments, and the described program components and systems generally represent a single software. It should be understood that it can also be integrated together in a product and packaged in multiple software products. Thus, particular embodiments of the subject matter have been described. Other embodiments are within the following claims. In some cases, the actions recited in the claims can be performed in a different order and still achieve desirable results. Moreover, the processes depicted in the accompanying figures do not necessarily require the particular order shown, or sequential order, to achieve desirable results. In certain implementations, multitasking and parallel processing may be advantageous.
100 例示的な環境
110 ユーザデバイス
111 画像アプリケーション
112 カメラ
113 画像
114 テキストプロセッサ
115 画像データ
116 コンテンツ取得部
118 ユーザインターフェースコントローラ、コンテンツ取得部
118 UIコントローラ
119 要求データ
120 ディスプレイ
122 ユーザインターフェース
123 要求データ
124 ローカルメモリ
130 クエリデータ
132 コンテンツ
140 データ通信ネットワーク
150 検索システム
152 検索エンジン
154 コンテキスト分類器
156 インデックス
205 ユーザインターフェース
210 第1のスクリーンショット
211 画像
220 第2のスクリーンショット
221 ユーザ選択可能なターゲット
222 ユーザ選択可能なターゲット
223 ユーザ選択可能なターゲット
224 ユーザ選択可能なターゲット
226 ポインタ
227 アレルギーインジケータ
230 スクリーンショット
231 ユーザ選択可能なターゲット
232 ユーザ選択可能なターゲット
233 ユーザ選択可能なターゲット
234 ユーザ選択可能なターゲット
236 ポインタ
240 スクリーンショット
241 ユーザ選択可能なターゲット
243 ユーザ選択可能なターゲット
305 ユーザインターフェース
310 スクリーンショット
311〜314 ユーザ選択可能なターゲット
311 ユーザ選択可能なターゲット
316 ポインタ
320 スクリーンショット
322 テキストブロック
323 画像
324 画像
405 ユーザインターフェース
410 スクリーンショット
411〜414 ユーザ選択可能なターゲット
411 ユーザ選択可能なターゲット
416 ポインタ
420 スクリーンショット
421 検索結果ページ
422 検索ボックス
423〜425 検索結果
500 プロセス
600 プロセス
100 example environments
110 User device
111 Image Application
112 camera
113 images
114 text processor
115 image data
116 Content Acquisition Department
118 User interface controller, content acquisition unit
118 UI controller
119 Request data
120 display
122 User Interface
123 Request data
124 Local memory
130 query data
132 contents
140 data communication network
150 search system
152 search engine
154 Context classifier
156 Index
205 user interface
210 first screenshot
211 images
220 second screenshot
221 User selectable target
222 User selectable target
223 User selectable target
224 User selectable targets
226 pointer
227 Allergy Indicator
230 screenshots
231 User selectable target
232 User selectable target
233 User selectable target
234 User selectable target
236 pointer
240 screenshots
241 User selectable target
243 User selectable target
305 User Interface
310 screenshot
311 to 314 User selectable targets
311 User selectable target
316 pointer
320 screenshots
322 Text Block
323 images
324 images
405 user interface
410 screenshot
411-414 User selectable target
411 User selectable target
416 pointer
420 screenshots
421 Search Results Page
422 Search Box
423 ~ 425 search results
500 processes
600 processes
Claims (60)
前記ユーザデバイスによって、前記抽出されたテキストを複数のブロックに分割するステップと、
前記ユーザデバイスによって、第1のズームレベルにおいて、前記ユーザデバイスのユーザインターフェース上にそれぞれのユーザ選択可能なターゲットとして前記ブロックを提示するステップと、
前記複数のブロックのうちの第1のブロックのユーザ選択を検出するステップと、
前記第1のブロックの前記ユーザ選択の検出に応答して、前記ユーザデバイスによって、前記第1のズームレベルより大きい第2のズームレベルにおいて、前記第1のブロック内の前記抽出されたテキストの一部を、前記ユーザデバイスの前記ユーザインターフェース上にそれぞれの第2のユーザ選択可能なターゲットとして提示するステップと、
前記第1のブロック内の前記抽出されたテキストの一部のユーザ選択の検出に応答して、前記ユーザデバイスによって、前記ユーザ選択のテキストのコンテンツに基づいてアクションを開始するステップと
を備える、方法。 Extracting text from the captured image by the user device,
Dividing the extracted text into a plurality of blocks by the user device;
Presenting the block as a respective user selectable target on the user interface of the user device at a first zoom level by the user device;
Detecting a user selection of a first block of the plurality of blocks,
In response to detecting the user selection of the first block, by the user device, at a second zoom level that is greater than the first zoom level, one of the extracted text in the first block. Presenting a section as a respective second user-selectable target on the user interface of the user device,
Responsive to detecting a user selection of a portion of the extracted text in the first block, initiating an action by the user device based on the content of the user selected text. ..
前記ユーザ選択のテキストの前記コンテンツに基づいて検索クエリを生成するステップと、
前記ユーザデバイスによって、検索エンジンに前記検索クエリを送信するステップと
を備える、請求項1に記載の方法。 The step of initiating the action comprises:
Generating a search query based on the content of the user-selected text;
Sending the search query to a search engine by the user device.
前記ユーザ選択のテキストの前記コンテンツに基づいて、2つ以上の候補検索クエリを生成するステップと、
前記ユーザインターフェースに前記候補検索クエリを表示するステップと、
前記候補クエリのうちの1つのユーザ選択に応じて、前記ユーザデバイスによって、選択された候補クエリを検索エンジンに送信するステップと
を備える、請求項1に記載の方法。 The step of initiating the action comprises:
Generating two or more candidate search queries based on the content of the user-selected text;
Displaying the candidate search query in the user interface;
Sending the selected candidate query to a search engine by the user device in response to a user selection of one of the candidate queries.
前記検索クエリまたは前記候補検索クエリを生成するステップが、前記画像の前記抽出されたコンテキストにさらに基づいて、前記検索クエリまたは前記候補検索クエリを生成するステップを備える、請求項3または4に記載の方法。 Further comprising the step of extracting context from the image by the user device,
The method of claim 3 or 4, wherein generating the search query or the candidate search query comprises generating the search query or the candidate search query further based on the extracted context of the image. Method.
前記ユーザデバイスによって、前記画像の前記抽出されたコンテキストを使用して、前記画像が複数のあらかじめ定義されたカテゴリの1つに該当するかどうかを決定するステップと
をさらに備え、
前記検索クエリまたは前記候補検索クエリを生成するステップが、前記画像が前記あらかじめ定義されたカテゴリの1つに該当する場合、前記抽出されたコンテキストにさらに基づいて前記検索クエリまたは前記候補検索クエリを生成するステップを備え、該当しない場合、前記検索クエリまたは前記候補検索クエリを生成するステップが、前記ユーザ選択のテキストの前記コンテンツのみに基づく、請求項3または4に記載の方法。 Extracting context from the image by the user device;
Further using the extracted context of the image by the user device to determine whether the image falls into one of a plurality of predefined categories.
The step of generating the search query or the candidate search query, if the image falls into one of the predefined categories, generates the search query or the candidate search query further based on the extracted context. 5. The method of claim 3 or 4, wherein, if not, the step of generating the search query or the candidate search query is based solely on the content of the user-selected text.
少なくとも1つのブロックについて、前記ユーザデバイスによって、前記ブロックの前記抽出されたテキストに基づいて1つまたは複数の検索クエリを生成するステップと、
前記ユーザデバイスから検索エンジンに前記1つまたは複数の検索クエリを送信するステップと、
をさらに備える、請求項1から6のいずれか一項に記載の方法。 Before the user selects any of the blocks,
Generating, for at least one block, one or more search queries by the user device based on the extracted text of the block;
Sending the one or more search queries from the user device to a search engine;
7. The method according to any one of claims 1 to 6, further comprising:
前記受信した検索結果コンテンツを前記ユーザデバイスのローカルメモリに記憶するステップと
をさらに備える、請求項7または8に記載の方法。 Receiving search result content from the search engine based on the one or more search queries at the user device;
Storing the received search result content in a local memory of the user device.
前記ブロックの前記抽出されたテキストを、第1のレベルのテキストベースの粒度においてテキストの複数の第1のセットに解析するステップと、
テキストの第1のセットごとに検索クエリを生成するステップと
を備える、請求項7、8、または9に記載の方法。 Generating the one or more search queries based on the extracted text of the block,
Parsing the extracted text of the block into a plurality of first sets of text at a first level text-based granularity;
Generating a search query for each first set of text.
前記ブロックの前記抽出されたテキストを、テキストベースの粒度の前記第1のレベルよりも大きい第2のレベルのテキストベースの粒度においてテキストの複数の第2のセットに解析するステップと、
前記第1のブロック内の前記抽出されたテキストの一部の前記ユーザ選択を受信する前に、
テキストの第2のセットごとに追加の検索クエリを生成するステップと、
前記ユーザデバイスから前記検索エンジンに各追加の検索クエリを送信するステップと、
前記ユーザデバイスによって、および前記検索エンジンから、前記追加の検索クエリに基づく追加の検索結果コンテンツを受信するステップと、
前記追加の検索結果コンテンツを前記ユーザデバイスのローカルメモリに記憶するステップと
をさらに備える、請求項10に記載の方法。 In response to detecting the user selection of the block,
Parsing the extracted text of the block into a plurality of second sets of text at a second level of text-based granularity that is greater than the first level of text-based granularity;
Before receiving the user selection of the portion of the extracted text in the first block,
Generating an additional search query for each second set of text,
Sending each additional search query from the user device to the search engine;
Receiving additional search result content based on the additional search query by the user device and from the search engine;
11. The method of claim 10, further comprising storing the additional search result content in a local memory of the user device.
前記ユーザデバイスによって、前記抽出されたテキストを複数のブロックに分割するステップと、
前記ユーザデバイスによって、第1のズームレベルにおいて、前記ユーザデバイスのユーザインターフェース上にそれぞれの第1のユーザ選択可能なターゲットとして前記複数のブロックを提示するステップと、
前記複数のブロックのうちの第1のブロックのユーザ選択を検出するステップと、
前記第1のブロックの前記ユーザ選択の検出に応答して、前記ユーザデバイスによって、前記第1のズームレベルより大きい第2のズームレベルにおいて、前記第1のブロック内の前記抽出されたテキストの一部を、前記ユーザデバイスの前記ユーザインターフェース上にそれぞれの第2のユーザ選択可能なターゲットとして提示するステップと、
前記第1のブロック内の前記抽出されたテキストの一部のユーザ選択の検出に応答して、前記ユーザデバイスによって、前記ユーザ選択のテキストのコンテンツに基づいてアクションを開始するステップと
を備える、方法。 Extracting text from the image by the user device,
Dividing the extracted text into a plurality of blocks by the user device;
Presenting the plurality of blocks by the user device at a first zoom level on a user interface of the user device as respective first user selectable targets;
Detecting a user selection of a first block of the plurality of blocks,
In response to detecting the user selection of the first block, by the user device, at a second zoom level that is greater than the first zoom level, one of the extracted text in the first block. Presenting a section as a respective second user-selectable target on the user interface of the user device,
Responsive to detecting a user selection of a portion of the extracted text in the first block, initiating an action by the user device based on the content of the user selected text. ..
前記ユーザ選択のテキストの前記コンテンツに基づいて検索クエリを生成するステップと、
前記ユーザデバイスによって、検索エンジンに前記検索クエリを送信するステップと
を備える、請求項16に記載の方法。 The step of initiating the action comprises:
Generating a search query based on the content of the user-selected text;
Sending the search query to a search engine by the user device.
前記画像の前記抽出されたコンテキストを使用して、前記画像が複数のあらかじめ定義されたカテゴリの1つに属すると決定するステップと、
前記画像が前記あらかじめ定義されたカテゴリの1つに属すると決定するステップに応答して、前記抽出されたコンテキストに基づいて前記検索クエリを調整するステップと
をさらに備える、請求項18に記載の方法。 Extracting context from the image by the user device;
Determining that the image belongs to one of a plurality of predefined categories using the extracted context of the image;
19. Responsive to determining that the image belongs to one of the predefined categories, further adjusting the search query based on the extracted context. ..
前記抽出された前記画像のコンテキストを使用して、前記画像が複数のあらかじめ定義されたカテゴリの1つに属さないと決定するステップと
をさらに備え、
前記検索クエリを生成するステップが、前記ユーザ選択のテキストのみに基づいて一般的な検索クエリを生成するステップを備える、請求項18に記載の方法。 Extracting context from the image by the user device;
Further using the context of the extracted image to determine that the image does not belong to one of a plurality of predefined categories,
19. The method of claim 18, wherein generating the search query comprises generating a general search query based solely on the user-selected text.
前記ユーザ選択のテキストの前記コンテンツに基づいて、2つ以上の候補検索クエリを生成するステップと、
前記ユーザインターフェースに前記候補検索クエリを表示するステップと、
前記候補クエリのうちの1つのユーザ選択に応じて、前記ユーザデバイスによって、前記ユーザ選択の候補クエリを検索エンジンに送信するステップと
を備える、請求項16に記載の方法。 The step of initiating the action comprises:
Generating two or more candidate search queries based on the content of the user-selected text;
Displaying the candidate search query in the user interface;
Sending a user-selected candidate query to a search engine by the user device in response to a user selection of one of the candidate queries.
前記第1のブロックについて、前記ユーザデバイスによって、前記第1のブロックの前記抽出されたテキストに基づいて1つまたは複数の検索クエリを生成するステップと、
前記ユーザデバイスから検索エンジンに前記1つまたは複数の検索クエリを送信するステップと、
をさらに備える、請求項16に記載の方法。 Before the user selects any of the blocks,
Generating, by the user device, one or more search queries for the first block based on the extracted text of the first block;
Sending the one or more search queries from the user device to a search engine;
17. The method of claim 16, further comprising:
前記受信した検索結果コンテンツを前記ユーザデバイスのローカルメモリに記憶するステップと
をさらに備える、請求項23に記載の方法。 Receiving search result content from the search engine based on the one or more search queries;
24. The method of claim 23, further comprising storing the received search result content in a local memory of the user device.
前記第1のブロックの前記抽出されたテキストを、第1のレベルのテキストベースの粒度においてテキストの複数の第1のセットに解析するステップと、
テキストの第1のセットごとに検索クエリを生成するステップと
を備える、請求項23に記載の方法。 Generating the one or more search queries based on the extracted text of the first block,
Parsing the extracted text of the first block into a plurality of first sets of text at a first level text-based granularity;
24. Generating a search query for each first set of text.
前記第1のブロックの前記抽出されたテキストを、前記第1のレベルのテキストベースの粒度よりも大きい第2のレベルのテキストベースの粒度においてテキストの複数の第2のセットに解析するステップと、
前記第1のブロック内の前記抽出されたテキストの一部の前記ユーザ選択を受信する前に、
テキストの第2のセットごとに追加の検索クエリを生成するステップと、
前記ユーザデバイスから前記検索エンジンに各追加の検索クエリを送信するステップと、
前記ユーザデバイスによって、および前記検索エンジンから、前記追加の検索クエリに基づく追加の検索結果コンテンツを受信するステップと、
前記追加の検索結果コンテンツを前記ユーザデバイスのローカルメモリに記憶するステップと
をさらに備える、請求項26に記載の方法。 In response to detecting the user selection of the first block,
Parsing the extracted text of the first block into a plurality of second sets of text at a second level text-based granularity that is greater than the first level text-based granularity;
Before receiving the user selection of the portion of the extracted text in the first block,
Generating an additional search query for each second set of text,
Sending each additional search query from the user device to the search engine;
Receiving additional search result content based on the additional search query by the user device and from the search engine;
27. The method of claim 26, further comprising storing the additional search result content in a local memory of the user device.
前記データ処理装置とデータ通信し、前記データ処理装置によって実行可能な命令を記憶するメモリ装置であって、前記命令が、そのような実行時に、前記データ処理装置に、
画像からテキストを抽出することと、
前記抽出されたテキストを複数のブロックに分割することと、
第1のズームレベルにおいて、ユーザインターフェース上にそれぞれの第1のユーザ選択可能なターゲットとして前記複数のブロックを提示することと、
前記複数のブロックのうちの第1のブロックのユーザ選択を検出することと、
前記第1のブロックの前記ユーザ選択の検出に応答して、前記第1のズームレベルより大きい第2のズームレベルにおいて、前記第1のブロック内の前記抽出されたテキストの一部を、前記ユーザインターフェース上にそれぞれの第2のユーザ選択可能なターゲットとして提示することと、
前記第1のブロック内の前記抽出されたテキストの一部のユーザ選択の検出に応答して、前記ユーザ選択のテキストのコンテンツに基づいてアクションを開始することと
を備える動作を実行させる、メモリ装置と
を備える、システム。 A data processing device,
A memory device in data communication with the data processing device for storing instructions executable by the data processing device, wherein the instructions, when executed in such a way, cause the data processing device to:
Extracting the text from the image,
Splitting the extracted text into a plurality of blocks,
Presenting the plurality of blocks as a respective first user selectable target on a user interface at a first zoom level;
Detecting a user selection of a first block of the plurality of blocks;
In response to detecting the user selection of the first block, the user extracts a portion of the extracted text in the first block at a second zoom level that is greater than the first zoom level. Presenting each as a second user selectable target on the interface;
Responsive to detecting a user selection of a portion of the extracted text in the first block, initiating an action based on the content of the user selected text. And a system comprising.
前記ユーザ選択のテキストの前記コンテンツに基づいて検索クエリを生成することと、
検索エンジンに前記検索クエリを送信することと
を備える、請求項31に記載のシステム。 Initiating the action
Generating a search query based on the content of the user-selected text;
32. Sending the search query to a search engine.
前記画像からコンテキストを抽出することと、
前記画像の前記抽出されたコンテキストを使用して、前記画像が複数のあらかじめ定義されたカテゴリの1つに属すると決定することと、
前記画像が前記あらかじめ定義されたカテゴリの1つに属すると決定することに応答して、前記抽出されたコンテキストに基づいて前記検索クエリを調整することと
をさらに備える、請求項33に記載のシステム。 The operation is
Extracting context from the image,
Determining that the image belongs to one of a plurality of predefined categories using the extracted context of the image;
34. The system of claim 33, further comprising adjusting the search query based on the extracted context in response to determining that the image belongs to one of the predefined categories. ..
前記画像からコンテキストを抽出することと、
前記抽出された前記画像のコンテキストを使用して、前記画像が複数のあらかじめ定義されたカテゴリの1つに属さないと決定することと
をさらに備え、
前記検索クエリを生成することが、前記ユーザ選択のテキストのみに基づいて一般的な検索クエリを生成することを備える、請求項33に記載のシステム。 The operation is
Extracting context from the image,
Further using the context of the extracted image to determine that the image does not belong to one of a plurality of predefined categories,
34. The system of claim 33, wherein generating the search query comprises generating a general search query based solely on the user-selected text.
前記ユーザ選択のテキストの前記コンテンツに基づいて、2つ以上の候補検索クエリを生成することと、
前記ユーザインターフェースに前記候補検索クエリを表示することと、
前記候補クエリのうちの1つのユーザ選択に応じて、選択された候補クエリを検索エンジンに送信することと
を備える、請求項31に記載のシステム。 Initiating the action
Generating two or more candidate search queries based on the content of the user-selected text;
Displaying the candidate search query in the user interface;
32. Sending the selected candidate query to a search engine in response to a user selection of one of the candidate queries.
前記第1のブロックについて、前記第1のブロックの前記抽出されたテキストに基づいて1つまたは複数の検索クエリを生成することと、
検索エンジンに前記1つまたは複数の検索クエリを送信することと、
をさらに備える、請求項31に記載のシステム。 The action is prior to the user selecting any of the blocks,
Generating for the first block one or more search queries based on the extracted text of the first block;
Submitting the one or more search queries to a search engine;
32. The system of claim 31, further comprising:
前記1つまたは複数の検索クエリに基づいて前記検索エンジンから検索結果コンテンツを受信することと、
前記受信した検索結果コンテンツを前記データ処理装置のローカルメモリに記憶することと
をさらに備える、請求項38に記載のシステム。 The operation is
Receiving search result content from the search engine based on the one or more search queries;
39. The system of claim 38, further comprising storing the received search result content in a local memory of the data processing device.
前記第1のブロックの前記抽出されたテキストを、第1のレベルのテキストベースの粒度においてテキストの複数の第1のセットに解析することと、
テキストの第1のセットごとに検索クエリを生成することと
を備える、請求項38に記載のシステム。 Generating the one or more search queries based on the extracted text of the first block,
Parsing the extracted text of the first block into a plurality of first sets of text at a first level text-based granularity;
39. Generating a search query for each first set of text.
前記第1のブロックの前記ユーザ選択の検出に応答して、
前記第1のブロックの前記抽出されたテキストを、前記第1のレベルのテキストベースの粒度よりも大きい第2のレベルのテキストベースの粒度においてテキストの複数の第2のセットに解析することと、
前記第1のブロック内の前記抽出されたテキストの一部の前記ユーザ選択を受信する前に、
テキストの第2のセットごとに追加の検索クエリを生成することと、
前記検索エンジンに各追加の検索クエリを送信することと、
前記検索エンジンから、前記追加の検索クエリに基づく追加の検索結果コンテンツを受信することと、
前記追加の検索結果コンテンツを前記データ処理装置のローカルメモリに記憶することと
をさらに備える、請求項41に記載のシステム。 The operation is
In response to detecting the user selection of the first block,
Parsing the extracted text of the first block into a plurality of second sets of text at a second level text-based granularity greater than the first level text-based granularity;
Before receiving the user selection of the portion of the extracted text in the first block,
Generate additional search queries for each second set of text, and
Sending each additional search query to the search engine;
Receiving additional search result content based on the additional search query from the search engine;
42. The system of claim 41, further comprising storing the additional search result content in a local memory of the data processing device.
画像からテキストを抽出することと、
前記抽出されたテキストを複数のブロックに分割することと、
第1のズームレベルにおいて、ユーザインターフェース上にそれぞれの第1のユーザ選択可能なターゲットとして前記複数のブロックを提示することと、
前記複数のブロックのうちの第1のブロックのユーザ選択を検出することと、
前記第1のブロックの前記ユーザ選択の検出に応答して、前記第1のズームレベルより大きい第2のズームレベルにおいて、前記第1のブロック内の前記抽出されたテキストの一部を、前記ユーザインターフェース上にそれぞれの第2のユーザ選択可能なターゲットとして提示することと、
前記第1のブロック内の前記抽出されたテキストの一部のユーザ選択の検出に応答して、前記ユーザ選択のテキストのコンテンツに基づいてアクションを開始することと
を備える動作を実行させる命令を記憶した、非一時的コンピュータ可読ストレージ媒体。 When executed by the data processing device, the data processing device:
Extracting the text from the image,
Splitting the extracted text into a plurality of blocks,
Presenting the plurality of blocks as a respective first user selectable target on a user interface at a first zoom level;
Detecting a user selection of a first block of the plurality of blocks;
In response to detecting the user selection of the first block, the user extracts a portion of the extracted text in the first block at a second zoom level that is greater than the first zoom level. Presenting each as a second user selectable target on the interface;
Storing instructions for performing an action in response to detecting a user selection of a portion of the extracted text in the first block, initiating an action based on the content of the text of the user selection. A non-transitory computer-readable storage medium.
前記ユーザ選択のテキストの前記コンテンツに基づいて検索クエリを生成するステップと、
検索エンジンに前記検索クエリを送信することと
を備える、請求項46に記載の非一時的コンピュータ可読ストレージ媒体。 Initiating the action
Generating a search query based on the content of the user-selected text;
47. Submitting the search query to a search engine, the non-transitory computer readable storage medium of claim 46.
前記画像からコンテキストを抽出することと、
前記画像の前記抽出されたコンテキストを使用して、前記画像が複数のあらかじめ定義されたカテゴリの1つに属すると決定することと、
前記画像が前記あらかじめ定義されたカテゴリの1つに属すると決定することに応答して、前記抽出されたコンテキストに基づいて前記検索クエリを調整することと
をさらに備える、請求項48に記載の非一時的コンピュータ可読ストレージ媒体。 The operation is
Extracting context from the image,
Determining that the image belongs to one of a plurality of predefined categories using the extracted context of the image;
The method of claim 48, further comprising adjusting the search query based on the extracted context in response to determining that the image belongs to one of the predefined categories. Temporary computer-readable storage medium.
前記画像からコンテキストを抽出することと、
前記抽出された前記画像のコンテキストを使用して、前記画像が複数のあらかじめ定義されたカテゴリの1つに属さないと決定することと
をさらに備え、
前記検索クエリを生成することが、前記ユーザ選択のテキストのみに基づいて一般的な検索クエリを生成することを備える、請求項48に記載の非一時的コンピュータ可読ストレージ媒体。 The operation is
Extracting context from the image,
Further using the context of the extracted image to determine that the image does not belong to one of a plurality of predefined categories,
49. The non-transitory computer-readable storage medium of claim 48, wherein generating the search query comprises generating a general search query based solely on the user-selected text.
前記ユーザ選択のテキストの前記コンテンツに基づいて、2つ以上の候補検索クエリを生成することと、
前記ユーザインターフェースに前記候補検索クエリを表示することと、
前記候補クエリのうちの1つのユーザ選択に応じて、前記ユーザ選択の候補クエリを検索エンジンに送信することと
を備える、請求項46に記載の非一時的コンピュータ可読ストレージ媒体。 Initiating the action
Generating two or more candidate search queries based on the content of the user-selected text;
Displaying the candidate search query in the user interface;
47. In response to user selection of one of the candidate queries, sending the user selected candidate query to a search engine.
前記第1のブロックについて、前記第1のブロックの前記抽出されたテキストに基づいて1つまたは複数の検索クエリを生成することと、
検索エンジンに前記1つまたは複数の検索クエリを送信することと、
をさらに備える、請求項46に記載の非一時的コンピュータ可読ストレージ媒体。 The action is prior to the user selecting any of the blocks,
Generating for the first block one or more search queries based on the extracted text of the first block;
Submitting the one or more search queries to a search engine;
47. The non-transitory computer readable storage medium of claim 46, further comprising:
前記1つまたは複数の検索クエリに基づいて前記検索エンジンから検索結果コンテンツを受信することと、
前記受信した検索結果コンテンツを前記データ処理装置のローカルメモリに記憶することと
をさらに備える、請求項53に記載の非一時的コンピュータ可読ストレージ媒体。 The operation is
Receiving search result content from the search engine based on the one or more search queries;
54. The non-transitory computer readable storage medium of claim 53, further comprising storing the received search result content in a local memory of the data processing device.
前記第1のブロックの前記抽出されたテキストを、第1のレベルのテキストベースの粒度においてテキストの複数の第1のセットに解析することと、
テキストの第1のセットごとに検索クエリを生成することと
を備える、請求項53に記載の非一時的コンピュータ可読ストレージ媒体。 Generating the one or more search queries based on the extracted text of the first block,
Parsing the extracted text of the first block into a plurality of first sets of text at a first level text-based granularity;
The non-transitory computer-readable storage medium of claim 53, comprising generating a search query for each first set of text.
前記第1のブロックの前記ユーザ選択の検出に応答して、
前記第1のブロックの前記抽出されたテキストを、前記第1のレベルのテキストベースの粒度よりも大きい第2のレベルのテキストベースの粒度においてテキストの複数の第2のセットに解析することと、
前記第1のブロック内の前記抽出されたテキストの一部の前記ユーザ選択を受信する前に、
テキストの第2のセットごとに追加の検索クエリを生成することと、
前記検索エンジンに各追加の検索クエリを送信することと、
前記検索エンジンから、前記追加の検索クエリに基づく追加の検索結果コンテンツを受信することと、
前記追加の検索結果コンテンツを前記データ処理装置のローカルメモリに記憶することと
をさらに備える、請求項56に記載の非一時的コンピュータ可読ストレージ媒体。 The operation is
In response to detecting the user selection of the first block,
Parsing the extracted text of the first block into a plurality of second sets of text at a second level text-based granularity greater than the first level text-based granularity;
Before receiving the user selection of the portion of the extracted text in the first block,
Generate additional search queries for each second set of text, and
Sending each additional search query to the search engine;
Receiving additional search result content based on the additional search query from the search engine;
57. The non-transitory computer readable storage medium of claim 56, further comprising storing the additional search result content in a local memory of the data processing device.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021142388A JP7204847B2 (en) | 2017-09-13 | 2021-09-01 | Efficient image augmentation with relevant content |
JP2022210457A JP7448628B2 (en) | 2017-09-13 | 2022-12-27 | Efficiently augment images with relevant content |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/US2017/051333 WO2019054999A1 (en) | 2017-09-13 | 2017-09-13 | Efficiently augmenting images with related content |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021142388A Division JP7204847B2 (en) | 2017-09-13 | 2021-09-01 | Efficient image augmentation with relevant content |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020521219A true JP2020521219A (en) | 2020-07-16 |
JP6938680B2 JP6938680B2 (en) | 2021-09-22 |
Family
ID=59966865
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019563199A Active JP6938680B2 (en) | 2017-09-13 | 2017-09-13 | Efficient image enhancement with related content |
JP2021142388A Active JP7204847B2 (en) | 2017-09-13 | 2021-09-01 | Efficient image augmentation with relevant content |
JP2022210457A Active JP7448628B2 (en) | 2017-09-13 | 2022-12-27 | Efficiently augment images with relevant content |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021142388A Active JP7204847B2 (en) | 2017-09-13 | 2021-09-01 | Efficient image augmentation with relevant content |
JP2022210457A Active JP7448628B2 (en) | 2017-09-13 | 2022-12-27 | Efficiently augment images with relevant content |
Country Status (5)
Country | Link |
---|---|
US (4) | US11231832B2 (en) |
EP (1) | EP3602321B1 (en) |
JP (3) | JP6938680B2 (en) |
CN (2) | CN117194753A (en) |
WO (1) | WO2019054999A1 (en) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117194753A (en) * | 2017-09-13 | 2023-12-08 | 谷歌有限责任公司 | Effectively enhancing images with related content |
US10891800B1 (en) | 2017-09-29 | 2021-01-12 | Apple Inc. | Providing features of an electronic product in an augmented reality environment |
US11341207B2 (en) * | 2018-12-10 | 2022-05-24 | Ebay Inc. | Generating app or web pages via extracting interest from images |
KR102616156B1 (en) * | 2019-01-30 | 2023-12-21 | 삼성전자주식회사 | Electronic device for creating contents |
US11741191B1 (en) * | 2019-04-24 | 2023-08-29 | Google Llc | Privacy-sensitive training of user interaction prediction models |
US20210133262A1 (en) * | 2019-10-31 | 2021-05-06 | The Goodyear Tire & Rubber Company | Tire purchase method |
CN111309200B (en) * | 2020-01-17 | 2021-11-12 | 百度在线网络技术(北京)有限公司 | Method, device, equipment and storage medium for determining extended reading content |
US11423019B2 (en) | 2020-03-24 | 2022-08-23 | Rovi Guides, Inc. | Methods and systems for modifying a search query having a non-character-based input |
US11978096B2 (en) * | 2020-06-29 | 2024-05-07 | Snap Inc. | Providing travel-based augmented reality content relating to user-submitted reviews |
US11671696B2 (en) | 2021-04-19 | 2023-06-06 | Apple Inc. | User interfaces for managing visual content in media |
US12001642B2 (en) | 2021-04-19 | 2024-06-04 | Apple Inc. | User interfaces for managing visual content in media |
US11696017B2 (en) * | 2021-05-19 | 2023-07-04 | Apple Inc. | User interface for managing audible descriptions for visual media |
US20230350941A1 (en) * | 2022-04-29 | 2023-11-02 | Apple Inc. | Contextual text lookup for images |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010218322A (en) * | 2009-03-18 | 2010-09-30 | Nec Corp | Portable communication terminal, communication destination information acquisition method used therefor, and program thereof |
JP2013501975A (en) * | 2009-08-07 | 2013-01-17 | グーグル インコーポレイテッド | Architecture for responding to visual queries |
Family Cites Families (52)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7128270B2 (en) * | 1999-09-17 | 2006-10-31 | Silverbrook Research Pty Ltd | Scanning device for coded data |
NO316480B1 (en) * | 2001-11-15 | 2004-01-26 | Forinnova As | Method and system for textual examination and discovery |
JP4176364B2 (en) * | 2002-03-22 | 2008-11-05 | 富士通株式会社 | Image association apparatus, image association method, and image association program |
US7505946B2 (en) * | 2004-03-31 | 2009-03-17 | Microsoft Corporation | High performance content alteration architecture and techniques |
JP2006072744A (en) | 2004-09-02 | 2006-03-16 | Canon Inc | Document processor, control method therefor, program and storage medium |
CN1782977A (en) * | 2004-12-03 | 2006-06-07 | 皮克塞(研究)有限公司 | Data processing devices and systems with enhanced user interfaces |
JP4533273B2 (en) * | 2005-08-09 | 2010-09-01 | キヤノン株式会社 | Image processing apparatus, image processing method, and program |
US7457825B2 (en) * | 2005-09-21 | 2008-11-25 | Microsoft Corporation | Generating search requests from multimodal queries |
US20100045705A1 (en) * | 2006-03-30 | 2010-02-25 | Roel Vertegaal | Interaction techniques for flexible displays |
US20080010273A1 (en) * | 2006-06-12 | 2008-01-10 | Metacarta, Inc. | Systems and methods for hierarchical organization and presentation of geographic search results |
JP2008234147A (en) * | 2007-03-19 | 2008-10-02 | Ricoh Co Ltd | Document image display device, document image display method, and document image display program |
US7768536B2 (en) * | 2007-04-11 | 2010-08-03 | Sony Ericsson Mobile Communications Ab | Methods of displaying information at different zoom settings and related devices and computer program products |
WO2009081791A1 (en) * | 2007-12-21 | 2009-07-02 | Nec Corporation | Information processing system, its method and program |
WO2009128728A1 (en) * | 2008-04-15 | 2009-10-22 | Opera Software Asa | Method and device for dynamically wrapping text when displaying a selected region of an electronic document |
WO2009153392A1 (en) * | 2008-06-20 | 2009-12-23 | Nokia Corporation | Method and apparatus for searching information |
CN101882055A (en) * | 2010-06-21 | 2010-11-10 | 中兴通讯股份有限公司 | Method and device for displaying page in zoomed mode on terminal |
US9116895B1 (en) * | 2011-08-25 | 2015-08-25 | Infotech International Llc | Document processing system and method |
US20130085852A1 (en) * | 2011-10-04 | 2013-04-04 | Yahoo! Inc. | Deal and ad targeting in association with emails |
US20130085845A1 (en) * | 2011-10-04 | 2013-04-04 | Yahoo! Inc. | Facilitating deal comparison and advertising in association with emails |
US10467273B2 (en) * | 2011-10-24 | 2019-11-05 | Image Scan, Inc. | Apparatus and method for displaying search results using cognitive pattern recognition in locating documents and information within |
US10289660B2 (en) * | 2012-02-15 | 2019-05-14 | Apple Inc. | Device, method, and graphical user interface for sharing a content object in a document |
US8942921B1 (en) | 2012-04-24 | 2015-01-27 | Google Inc. | Displaying dynamic entertainment information on marquees in street-level imagery |
US9514536B2 (en) * | 2012-10-10 | 2016-12-06 | Broadbandtv, Corp. | Intelligent video thumbnail selection and generation |
US9342930B1 (en) * | 2013-01-25 | 2016-05-17 | A9.Com, Inc. | Information aggregation for recognized locations |
US9247309B2 (en) * | 2013-03-14 | 2016-01-26 | Google Inc. | Methods, systems, and media for presenting mobile content corresponding to media content |
US10482512B2 (en) * | 2013-05-31 | 2019-11-19 | Michele Meek | Systems and methods for facilitating the retail shopping experience online |
US11250203B2 (en) * | 2013-08-12 | 2022-02-15 | Microsoft Technology Licensing, Llc | Browsing images via mined hyperlinked text snippets |
JP6261237B2 (en) * | 2013-08-28 | 2018-01-17 | キヤノン株式会社 | Image display apparatus, image display apparatus control method, and computer program |
US11017003B2 (en) * | 2013-12-12 | 2021-05-25 | Samuel S. Epstein | Methods and apparatuses for content preparation and/or selection |
US10157222B2 (en) * | 2013-12-12 | 2018-12-18 | Samuel S. Epstein | Methods and apparatuses for content preparation and/or selection |
US10565268B2 (en) * | 2013-12-19 | 2020-02-18 | Adobe Inc. | Interactive communication augmented with contextual information |
JP2015141234A (en) | 2014-01-27 | 2015-08-03 | ブラザー工業株式会社 | Information acquisition program, information acquisition method, and information processing apparatus |
EP3076366A4 (en) * | 2014-02-03 | 2017-05-24 | Prosper Creative Co., Ltd. | Image inspecting device and image inspecting program |
JP6164361B2 (en) * | 2014-03-25 | 2017-07-19 | 富士通株式会社 | Terminal device, display control method, and program |
CN111782130B (en) * | 2014-06-24 | 2024-03-29 | 苹果公司 | Column interface for navigating in a user interface |
US10725614B2 (en) * | 2014-11-06 | 2020-07-28 | Dropbox, Inc. | Searching digital content |
US9836542B2 (en) * | 2015-01-19 | 2017-12-05 | Microsoft Technology Licensing, Llc | Web application retrieval and display of web content based information with web content |
WO2016192762A1 (en) * | 2015-05-29 | 2016-12-08 | Deutsche Telekom Ag | Augmented reality systems and methods to access optical information |
CN104965928B (en) * | 2015-07-24 | 2019-01-22 | 北京航空航天大学 | A Chinese character image retrieval method based on shape matching |
US10257275B1 (en) | 2015-10-26 | 2019-04-09 | Amazon Technologies, Inc. | Tuning software execution environments using Bayesian models |
US10691473B2 (en) * | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
CN107273106B (en) * | 2016-04-08 | 2021-07-06 | 北京三星通信技术研究有限公司 | Object information translation and derivative information acquisition method and device |
GB2550131A (en) * | 2016-05-09 | 2017-11-15 | Web Communications Ltd | Apparatus and methods for a user interface |
JP6745173B2 (en) * | 2016-09-06 | 2020-08-26 | 株式会社キーエンス | Image inspection apparatus, image inspection method, image inspection program, computer-readable recording medium, and recorded device |
US20180089316A1 (en) * | 2016-09-26 | 2018-03-29 | Twiggle Ltd. | Seamless integration of modules for search enhancement |
CN117194753A (en) * | 2017-09-13 | 2023-12-08 | 谷歌有限责任公司 | Effectively enhancing images with related content |
JP6977573B2 (en) * | 2018-01-12 | 2021-12-08 | 京セラドキュメントソリューションズ株式会社 | Information terminal equipment, information processing system and display control program |
US10877654B1 (en) | 2018-04-03 | 2020-12-29 | Palantir Technologies Inc. | Graphical user interfaces for optimizations |
US11086474B2 (en) * | 2018-04-09 | 2021-08-10 | Spatial Systems Inc. | Augmented reality computing environments—mobile device join and load |
US10614345B1 (en) * | 2019-04-12 | 2020-04-07 | Ernst & Young U.S. Llp | Machine learning based extraction of partition objects from electronic documents |
KR20190104487A (en) * | 2019-08-21 | 2019-09-10 | 엘지전자 주식회사 | Method and apparatus for recommending food and drink based on artificial intelligence-based user status |
US11275493B1 (en) * | 2020-12-22 | 2022-03-15 | Oracle International Corporation | Semantic detail selection for object resizing |
-
2017
- 2017-09-13 CN CN202311174993.XA patent/CN117194753A/en active Pending
- 2017-09-13 US US16/069,071 patent/US11231832B2/en active Active
- 2017-09-13 CN CN201780090761.2A patent/CN110651267B/en active Active
- 2017-09-13 JP JP2019563199A patent/JP6938680B2/en active Active
- 2017-09-13 WO PCT/US2017/051333 patent/WO2019054999A1/en unknown
- 2017-09-13 EP EP17772558.7A patent/EP3602321B1/en active Active
-
2021
- 2021-09-01 JP JP2021142388A patent/JP7204847B2/en active Active
- 2021-12-28 US US17/563,695 patent/US11747960B2/en active Active
-
2022
- 2022-12-27 JP JP2022210457A patent/JP7448628B2/en active Active
-
2023
- 2023-07-18 US US18/354,101 patent/US12118184B2/en active Active
-
2024
- 2024-09-17 US US18/887,662 patent/US20250013351A1/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010218322A (en) * | 2009-03-18 | 2010-09-30 | Nec Corp | Portable communication terminal, communication destination information acquisition method used therefor, and program thereof |
JP2013501975A (en) * | 2009-08-07 | 2013-01-17 | グーグル インコーポレイテッド | Architecture for responding to visual queries |
Also Published As
Publication number | Publication date |
---|---|
EP3602321B1 (en) | 2023-09-13 |
JP6938680B2 (en) | 2021-09-22 |
CN117194753A (en) | 2023-12-08 |
CN110651267A (en) | 2020-01-03 |
JP2021192267A (en) | 2021-12-16 |
US11231832B2 (en) | 2022-01-25 |
US20210208741A1 (en) | 2021-07-08 |
CN110651267B (en) | 2023-09-19 |
WO2019054999A1 (en) | 2019-03-21 |
US12118184B2 (en) | 2024-10-15 |
JP7448628B2 (en) | 2024-03-12 |
US20250013351A1 (en) | 2025-01-09 |
EP3602321A1 (en) | 2020-02-05 |
US20220121331A1 (en) | 2022-04-21 |
JP7204847B2 (en) | 2023-01-16 |
US11747960B2 (en) | 2023-09-05 |
US20230359329A1 (en) | 2023-11-09 |
JP2023040119A (en) | 2023-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7448628B2 (en) | Efficiently augment images with relevant content | |
JP6554685B2 (en) | Method and apparatus for providing search results | |
RU2632144C1 (en) | Computer method for creating content recommendation interface | |
CN103514299B (en) | Information search method and device | |
KR102340228B1 (en) | Message service providing method for message service linking search service and message server and user device for performing the method | |
US20180268068A1 (en) | Method for searching and device thereof | |
US8510287B1 (en) | Annotating personalized recommendations | |
JP7283067B2 (en) | A system and method for detangling interrupted conversations in a communication platform, a method, a program, and a computer device for parsing unstructured messages | |
EP3513328A1 (en) | Method and apparatus for ranking electronic information by similarity association | |
WO2022052817A1 (en) | Search processing method and apparatus, and terminal and storage medium | |
CN110741331A (en) | Systems, methods, and apparatus for image-responsive automated assistants | |
JP2019522852A (en) | System and method for providing contextual information | |
US11507253B2 (en) | Contextual information for a displayed resource that includes an image | |
US11425071B2 (en) | Uniform resource identifier and image sharing for contextual information display | |
WO2016082624A1 (en) | Method and device for providing image presentation information | |
WO2023279843A1 (en) | Content search method, apparatus and device, and storage medium | |
CN103530385A (en) | Method and device for searching for information based on vertical searching channels | |
CN113841140A (en) | Determining and utilizing actual goals of a user-merged collection of electronic content items |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191122 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191122 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20201224 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210112 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210329 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210802 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210901 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6938680 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |