JP2025001892A

JP2025001892A - 処理装置、処理装置の制御方法、及びプログラム

Info

Publication number: JP2025001892A
Application number: JP2023101648A
Authority: JP
Inventors: 洋東條; Hiroshi Tojo
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2023-06-21
Filing date: 2023-06-21
Publication date: 2025-01-09
Also published as: US20240428276A1

Abstract

【課題】人物による物体の視認に関する判定の精度を向上する。
【解決手段】処理装置であって、対象物体が配置された場所の映像を取得する映像取得手段と、対象物体を注視可能な角度及び距離に関する特性情報を取得する特性取得手段と、特性取得手段により取得された特性情報に基づき、対象物体を注視可能な領域である注視領域を設定する領域設定手段と、領域設定手段により設定された注視領域に存在する人物の関節点の情報に基づいて、人物が対象物体を注視したか判定する判定手段と、を備える。
【選択図】図２

Description

本発明は、処理装置、処理装置の制御方法、及びプログラムに関する。

近年、監視カメラの映像から人物の行動を検知する技術が提案され、店舗における顧客の行動解析への応用が進んでいる。店舗側が新商品などを売り出す際に、顧客がどの程度関心を示したかを計測したいという要望がある。顧客の関心の度合いは商品の前で立ち止まって注視する、手に取るなどの行動に現れる。このうち、顧客が商品を注視したかについては、店舗内に設置された監視カメラを活用する方法が提案されている。

特許文献１における方法は、映像から人物の視線方向を検出し、人物が見た商品を判定している。また、特許文献２では視線方向の検知方法の詳細について述べており、顔方向と瞳孔の中心位置から視線方向を決定している。

特開２０１７－１１７３８４号公報特開２００９－１０４５２４号公報

しかしながら、特許文献１及び特許文献２は映像中の人物の視線方向を検出しているが、店舗内のカメラ映像中の人物、特に顔領域はサイズが小さいため精度よく検知することが困難である。また、視線方向しか考慮していないため、商品を注視できない距離から見ていても注視していた人物として扱ってしまう。

本発明は上記の問題点に鑑みてなされたものであり、その目的は、人物による物体の視認に関する判定の精度を向上することである。

上記目的を達成するために、本発明の一側面としての処理装置は、対象物体が配置された場所の映像を取得する映像取得手段と、対象物体を注視可能な角度及び距離に関する特性情報を取得する特性取得手段と、特性取得手段により取得された特性情報に基づき、対象物体を注視可能な領域である注視領域を設定する領域設定手段と、領域設定手段により設定された注視領域に存在する人物の関節点の情報に基づいて、人物が対象物体を注視したか判定する判定手段と、を備える。

本発明によれば、人物による物体の視認に関する判定の精度を向上できる。

処理装置のハードウェア構成例を示す図である。処理装置の機能構成を示した図である。姿勢推定結果の一例の図である。処理装置における処理の流れを示すフローチャートである。処理装置における処理の流れを示すフローチャートである。商品映像の一例の図である。商品座標系の一例の図である。注視領域設定部で設定される注視領域の一例の図である。店内カメラ映像と注視領域の一例を示した図である。商品周辺の遮蔽物が存在する場合の店内カメラ映像の一例の図である。商品周辺の遮蔽物が存在する場合の店内カメラ映像をＸＺ面で見た一例の図である。複数商品がある場合の注視領域の一例である。

以下に、本発明を実施するための形態について詳細に説明する。尚、以下に説明する実施の形態は、本発明を実現するための一例であり、本発明が適用される装置の構成や各種条件によって適宜修正又は調整されるべきものであり、本発明は以下の実施の形態に限定されるものではない。また、各図において同一の機能を有するものは同一の数字を付け、その繰り返しの説明は省略する。

＜実施形態１＞
図１は、本実施形態における処理装置１のハードウェア構成を示すブロック図である。本実施形態における処理装置１は、後述する注視領域と当該注視領域に存在する人物の関節点の情報に基づき、当該人物が対象物体を注視したか判定する。また、本実施形態における処理装置１は、対象物体を注視している人物を検知することもできる。本実施形態における処理装置１は、ＣＰＵ１０１、ＲＯＭ１０２、ＲＡＭ１０３、２次記憶装置１０４、撮像装置１０５、入力装置１０６、表示装置１０７、ネットワークＩ／Ｆ１０８を有する。

ＣＰＵ１０１は、中央演算装置であり、ＲＯＭ１０２やＲＡＭ１０３に格納された制御プログラムを実行することにより、処理装置１全体の制御を行う。ＲＯＭ１０２は、不揮発性メモリであり、本実施形態における制御プログラムやその他の制御に必要なプログラムやデータを格納する。ＲＡＭ１０３は、揮発性メモリであり、フレーム画像データやパターン判別結果などの一時的なデータを記憶する。２次記憶装置１０４は、ハードディスクドライブやフラッシュメモリーなどの書き換え可能な２次記憶装置であり、画像情報やプログラム、各種設定内容などを記憶する。これらの情報はＲＡＭ１０３に転送してＣＰＵ１０１がプログラムの実行及びデータを利用する。

撮像装置１０５は、撮像レンズ、及びＣＣＤやＣＭＯＳなどの撮像センサ、映像信号処理部などから構成され、画像や映像を撮像する。入力装置１０６は、キーボードやマウスなどであり、ユーザからの入力を可能とするものである。表示装置１０７は、ブラウン管ＣＲＴや液晶ディスプレイなどで構成され、処理結果などを画面上に表示する（ユーザに提示する）。ネットワークＩ／Ｆ１０８は、インターネットやイントラネットなどのネットワークと接続を行うモデムやＬＡＮなどである。バス１０９は、これらを接続して相互にデータの入出力を行う。

図２は、本実施形態における処理装置１の機能構成を示した図である。処理装置１は、領域設定部２０１、注視人物検知部２０２、映像取得部２０３、注視領域記憶部２０８を有する。

映像取得部２０３は、撮像装置１０５で構成され、画像や映像を取得する。具体的には、映像取得部２０３は、注視する対象となる特定の商品（対象物体）の映像や対象物体が配置された場所の映像等を取得する。

領域設定部２０１は、対象物体である商品を注視可能な領域である注視領域の設定を行う機能部である。領域設定部２０１は、さらにその機能部として、特性取得部２０４、注視領域設定部２０５、配置条件取得部２０６、注視領域補正部２０７を有する。

特性取得部２０４は、対象物体である商品の特性の情報（特性情報）を取得する。具体的には、対象物体を注視可能な角度及び距離に関する情報である特性情報を取得する。特性取得部２０４が取得する物体の特性情報の詳細については後述する。

注視領域設定部２０５は、特性取得部２０４により取得された特性情報に基づき、対象物体を注視可能な領域である注視領域を設定する。尚、注視領域設定部２０５が設定する注視領域については後述する。

配置条件取得部２０６は、映像から店内の３次元形状（棚の配置等）の情報取得や商品の３次元位置を取得する。また、商品が配置された位置（映像中の商品位置）における条件である配置条件を取得する。配置条件取得部２０６が取得する配置条件の詳細については後述する。

注視領域補正部２０７は、配置条件取得部２０６が取得した商品の配置条件に基づき、注視領域設定部２０５が設定した注視領域を補正する。注視領域補正部２０７における補正処理の詳細については後述する。

注視領域記憶部２０８は、ＲＡＭ１０３や２次記憶装置１０４で構成される。注視領域記憶部２０８は、注視領域設定部２０５及び注視領域補正部２０７で設定される注視領域等の情報を記憶する。

注視人物検知部２０２は、商品を注視していると判定された人物を検知し計測（カウント）する機能部である。注視人物検知部２０２は、人物検出部２０９、人物追尾部２１０、姿勢推定部２１１、注視判定部２１２、人物数計測部２１３、表示部２１４を有する。

人物検出部２０９は、映像取得部２０３が取得した映像から人物の領域を検出する。尚、本実施形態では人物の全身の領域を検出するものとする。

人物追尾部２１０は、映像取得部２０３が取得した映像におけるフレーム（フレーム画像）の前後で同じ人物から人物検出部２０９で取得された人物領域を関連付けて、同じ人物ＩＤを当該人物に付与する。即ち、フレーム画像により構成される映像において、現在のフレーム画像と当該現在のフレーム画像の１つ前のフレーム画像中の同一と推定される人物の人物領域を関連付けることで、各フレーム画像における関連付けられた人物に同じＩＤを付与する。

姿勢推定部２１１は、人物検出部２０９で検出された人物の領域（全身領域）から、人物の姿勢を構成する関節点の情報を取得する。本実施形態における関節点とは人体部位の位置を表すものである。本実施形態において関節点として示す箇所は図３を参照して後述して説明をする。

注視判定部２１２は、姿勢推定部２１１で推定した関節点と注視領域記憶部２０８から読み出した注視領域に基づき、商品を人物が注視しているかどうかを判定する。即ち、注視判定部２１２は、注視領域設定部２０５により設定された注視領域に存在する人物の関節点の情報に基づいて、当該人物が対象物体を注視したか判定する。

人物数計測部２１３は、注視判定部２１２により商品を注視していると判定された人物が商品を注視している時間を計測する。また、当該時間が所定の時間に達していたかの判定を行う。また、当該判定結果に基づき、注視判定部２１２で商品を注視していると判定された人物の数をカウントする。

表示部２１４は、表示装置１０７から構成される。表示部２１４は、人物数計測部２１３で計測した結果をユーザに提示する（表示装置１０７の画面上に表示する）。

これら処理装置１が有する各機能部は、ＣＰＵ１０１が、ＲＯＭ１０２に格納されたプログラムをＲＡＭ１０３に展開し、実行することで実現されている。そして、ＣＰＵ１０１は、後述する各処理の実行結果等をＲＡＭ１０３や２次記憶装置１０４等の所定の記憶媒体に記憶する。

図３は、姿勢推定部２１１による姿勢推定結果の一例を示す図である。本実施形態における関節点は、図３に示す黒丸の点に示す位置である。即ち、関節点は、右肩３０１、左肩３０２、右肘３０３、左肘３０４、右手首３０５、左手首３０６、右側の腰３０７、左側の腰３０８、右膝３０９、左膝３１０、右足首３１１、左足首３１２である。また、本実施形態では、上記の部位に限らず、人物の顔の器官点である右目３１３、左目３１４、右耳３１５、左耳３１６、鼻３１７も関節点として扱うものとする。このように、本実施形態の関節点には、上記した人体部位の関節における位置情報（座標情報）に加え、人物の顔の器官点でもある目の位置情報（右目、左目）、耳の位置情報（右耳、左耳）、鼻の位置情報が含まれる。尚、関節点は上記した部位に限らず、その他の部位も関節点として扱うようにしてもよい。

次に、本実施形態における処理装置１が注視領域を設定し保存するまでの処理の詳細について、図４を参照して説明する。図４は、処理装置１における注視領域設定する処理の流れを示すフローチャートである。尚、図４のフローチャートで示す各動作（処理）は、処理装置１のＣＰＵ１０１がＲＯＭ１０２に格納されているプログラムを実行することにより実現される。また、各工程（ステップ）について先頭にＳを付けて表記することで、工程（ステップ）の表記を省略する。

Ｓ４０１では、映像取得部２０３は、撮像装置１０５が撮像した映像（商品映像）を取得する。即ち、対象物体である商品が配置された場所の映像を取得する。映像取得部２０３が取得する映像は、複数のフレーム画像により構成される。本実施形態では、映像取得部２０３がＳ４０１で取得する映像は、図６に示したように商品をある程度アップの状態で撮像した映像であることを想定している。図６は、商品映像の一例を示す図である。尚、図６では映像を構成するフレーム画像の１つを例示している。

図６に示すフレーム画像６０１には、ラベル６０３が付された商品６０２が撮像されている。尚、図６では商品６０２は、一例として缶詰としているが、これは例示であって、いずれの商品であってもよい。尚、映像取得部２０３は、Ｓ４０２において、予め撮像しておいた画像や映像をＲＯＭ１０２や２次記憶装置１０４等の記憶媒体から読み込むなどして取得しても構わない。また、例えば、店舗内を撮像している場合、商品６０２の全体像が撮像できていれば、当該撮像装置から画像や映像を取得するようにしてもよい。ここで、後述の商品６０２の特性（特性情報）を取得するためにフレーム画像中の商品における領域は、例えば２００×２００画素以上など十分な解像度であることが望ましい。

Ｓ４０２では、特性取得部２０４は、Ｓ４０１で取得した映像におけるフレーム画像から対象物体である商品の特性情報を取得する。ここで特性情報とは、商品または商品に貼られた（対象物体上）ラベルの文字のサイズ、ラベル背景と文字のコントラスト差、使用されているフォント、商品の形状等、商品そのものが持つ人が見る際に影響を及ぼす性質等の情報である。ここで、特性情報取得の具体的な方法としては、例えば、ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ（ＣＮＮ）を活用してフォントを識別するなど、画像を解析して取得する方法がある。尚、ユーザが入力装置１０６等を介して直接に文字サイズを数値で入力するなどの方法であってもよい。

Ｓ４０３では、注視領域設定部２０５は、商品座標系の注視領域を設定、即ち、特性取得部２０４により取得された特性情報に基づき、対象物体を注視可能な領域である注視領域を設定する。商品座標系（ｘｙｚ）とは、図７に例示する商品の表面の中心を原点とした３次元の座標である。図７は、図６に示す商品６０２における商品座標系の一例の図である。

図７では商品（商品６０２）は、ｘｙ面では７０１で示される。また、ｘｚ面では７０２で示される。また、ｙｚ面では７０３として示される。ｘｙ面は商品の表面に接しており、ｚ軸は表面より垂線を伸ばした方向にある。また、商品のラベル（ラベル６０３）は、ｘｙ面では７０４として示される。通常、商品を購入または商品の購入を検討する際、顧客は商品を注視してラベルを読み取ることによって商品が必要なものか判断しようとしていると考えられる。従って、商品に付されたラベルのある面に原点ｏを取ることが望ましい。尚、商品座標系では、商品の最長の長さ（図７の例ではｄ）を１とする。

注視領域は、対象物体である商品から、人物（商品の近傍に存在する人物）までの距離と当該対象物体に対する人物の角度で決まる３次元空間上の部分領域である。尚、本実施形態では、注視領域は球形の一部を切り取った形をしたもので定義するものとするが、対象物体との距離と角度で定義できる空間で何れの形状であってよい。

図８は、注視領域の一例を示す図である。原点ｏは、前述のとおり商品のラベル面上にあるものとする。図８に示す、ｏ、ａ、ｂ、ｃ、及びｄで囲まれた領域が注視領域である。注視領域の設定に際し、まず、注視可能な距離を半径ｒとした球体Ｑを考える。ｒは図８ではｏａ（または、ｏｂ，ｏｃ，ｏｄ）である。注視可能な距離ｒは前述の通り対象物体の特性の内、ラベルの文字のサイズ、ラベル背景と文字のコントラスト差、ラベルに使用されているフォントなどに依存している。例えば、ラベルの文字サイズが大きければ大きい程遠くからであっても読むことができるため、ｒは大きくなる。例えば文字サイズをラベルの短辺を１としたときの文字幅をＳ_ｃとすると、ｒは以下の式（１）で表せる。

ｒ＝（Ｓ_ｃ／Ｓ_ｂ）×Ｄ_ｂ（１）

上記式（１）で、Ｄ_ｂは所定の条件（文字サイズがＳ_ｃ）の時に予め計測した注視可能な距離である。即ちＳ_ｃ＞Ｓ_ｂであればより注視可能な距離ｒは長くなる。一方、Ｓ_ｃ＜Ｓ_ｂの場合は短くなる。基準となる条件にラベルと文字のコントラスト差、ラベルに使用されているフォントなど定量化して追加し、Ｄ_ｂを計測することで他の特性も同様に扱うことができる。尚、これは一例であって、定量化された物体の特性と注視可能な距離の関係を表すことができれば他の式を用いても構わない。

次に、対象物体を注視し易い角度、水平方向のθ_ｈ（＝∠ａｏｄまたは∠ｂｏｃ）、垂直方向のθ_ｖ（＝∠ａｏｂまたは∠ｄｏｃ）の決定方法について述べる。距離ｒと同様に所定条件のもと計測した角度を基に決定する方法がある。例えば、文字サイズＳ_ｃのときθ_ｈは、以下の式（２）で表せる。

θ_ｈ＝（Ｓ_ｃ／Ｓ_ｂ）×θ_ｈｂ（２）

上記式（２）で、θ_ｈｂは所定の条件（文字サイズがＳ_ｃ）の時に予め計測した注視可能な水平方向の角度である。垂直方向の角度θ_ｖも同様である。尚、基準となる条件にラベルと文字のコントラスト差、ラベルに使用されているフォント、対象物体の形状などを定量化して追加しθ_ｈｂを計測しておき、各条件の値と基準となる条件の割合に基づいてθ_ｈｂを増減させればよい。尚、これは一例であって定量化された物体の特性と注視可能な角度の関係を表すことができれば他の式を用いても構わない。

注視領域設定部２０５では、物体表面から垂線方向、図８を例にするとｚ軸方向に倒して注視領域を取る。即ち、ｚ軸はａｂｃｄの中心を通り、注視領域の中心線（ｏからａｂｃｄの中心点までの線分）と一致する。尚、後述するが注視領域補正部２０７において商品が置かれた位置に応じて中心線の方向やスケールが変更される。

Ｓ４０４では、映像取得部２０３は、撮像装置１０５が撮像した店内等の商品（対象物体）の配置した場所の映像（店内映像）を取得する。映像取得部２０３が取得する映像は、複数のフレーム画像により構成される。尚、Ｓ４０４では映像取得部２０３は、後述する図５におけるＳ５０２と同じ画角の映像を取得する。

Ｓ４０５では、配置条件取得部２０６は、Ｓ４０４で取得した店内映像から店内の３次元形状（棚の配置等）の情報を取得する。配置情報の具体的な取得方法としては、例えば、ＶｉｓｉｏｎＴｒａｎｓｆｏｒｍｅｒ（ＶｉＴ）を用いて画像から各画素におけるデプス情報を推定する手法が挙げられる。また、３次元ＣＧモデルで予め生成した合成映像を店内映像にオーバーレイして表示し、ユーザが確認しながらＣＧモデルのサイズなどを調整してフィッテイングさせるといった方法であっても構わない。

図９は、店内カメラ映像と注視領域の一例を示した図である。図９に示す映像の一部であるフレーム画像９０１には、棚９０２、商品９０３が撮像されている。具体的には、商品９０３が棚９０２上に置かれている。これらの３次元形状をＳ４０５において配置条件取得部２０６が取得する。

Ｓ４０６では、３次元形状の各座標を示す座標系を設定する。店内映像の特定の位置（図９では棚の左奥の点Ｏ）を原点とした世界座標系（以下、店内座標系）を用いる。本実施形態では、ＸＺ面が床、Ｘ軸が棚の横方向、Ｚ軸が棚の奥行方向、Ｙ軸が高さ方向としている。これらの各軸は、実世界上の長さ（本実施形態では、商品の長辺の長さ）を単位とする。尚、原点の位置、Ｘ軸・Ｙ軸・Ｚ軸、商品の長辺の長さなどは店内映像を確認しながら入力装置１０６を介してユーザ（操作者）が入力することで設定する。

Ｓ４０７では、配置条件取得部２０６は、商品（商品９０３）の３次元位置を取得する。配置条件取得部２０６は、商品の３次元位置を取得する際、入力装置１０６を介してのユーザ指示に基づいて取得する。

Ｓ４０８では、注視領域補正部２０７は、注視領域設定部２０５によって設定された注視領域を商品の配置された位置に適合させる。即ち、店内座標系に注視領域を適合させる。本処理の際、まず、商品の長辺の実世界の長さを基に商品座標系で表現された注視領域をスケーリングし店内座標系に合わせる。次に、注視領域の頂点ｏを商品のラベルの中心位置９０４までシフトさせる。次に、注視領域の中心線９０５のｘｚ面内の方向を商品の表面の垂線に一致させる。次に、ｙｚ面の方向を人物の身長情報を基に決定する。具体的には、対象物体を注視すると想定される人物の平均身長を基に決定する。

ここで、平均身長は、商品がターゲットとしている顧客層に合わせるものとする。例えば、成人男性向けであれば、１７０ｃｍ、小学生向けであれば１２０ｃｍなどと設定する。尚、平均身長は、既に設定されたものをユーザがターゲットとしている顧客層に応じて選択可能としてもよいが、ユーザが任意に設定可能としてもよい。

図９を例にすると平均身長９０６の人物を商品位置から注視可能な距離（図８に示す球体の半径である距離ｒ）の所定の割合の位置に立たせた場合を想定する。ここで注視可能な距離をそのまま用いないのは、距離ｒが注視可能な限界の距離であるためで、顧客は最も見やすい最適な距離の位置に立つことが多いと想定されるためである。図９では、注視最適距離９０７の位置に平均身長の人物が立った際の頭部中心を９０８とする。頭部中心９０８を注視領域の中心線９０５が通るようにｘｚ面内の方向を調整する。以上のようにして、注視領域補正部２０７は、注視領域を店内の商品が配置された位置に適合させる。注視領域９０９は、注視領域を店内の商品が配置された位置に適合させた場合の注視領域を示している。

Ｓ４０９では、注視領域補正部２０７は、商品の３次元位置以外の配置に関する条件の情報である配置情報取得をする。ここで、３次元位置以外の配置条件の情報（配置情報）とは、照明条件（明度・光源の色温度・光源方向など）や商品周辺の遮蔽物の位置などの情報である。照明条件の取得方法としては灰色仮設を用いて画像から求める方法や、光源の種類をユーザが指定するなどの方法がある。また、商品周辺の遮蔽物の位置の情報は、例えば、ＶｉＴを用いた方法で取得方法するようにしてもよいが、これに限らず何れの方法を用いて取得してもよい。

Ｓ４１０では、注視領域補正部２０７は、商品の配置条件（配置情報）に基づいて注視領域を補正する。Ｓ４１０で注視領域を補正する際、例えば、明度が所定値よりも低下すると注視可能な距離が小さくなることが考えられる。所定値を実験により求めておき、所定値よりも低いとき明度の差分値ΔＶに応じて注視領域の中心線の長さを以下の式（３）で変更する。

Ｌ＝１／ΔＶ×α×Ｌ_１（３）

上記式（３）では、Ｌ_１は補正前の注視領域の中心線の長さであり、αは値のレンジを調整するための係数である。尚、これは一例であって定量化された配置条件と注視可能な距離の関係から補正する割合を表すことができれば他の式を用いても構わない。

図１０は、商品周辺の遮蔽物が存在する場合の店内カメラ映像の一例の図である。図１０のように、商品周辺に遮蔽物がある場合は、注視可能な領域が制限されることになる。例えば、図１０を例として、店内カメラ映像１００１中に棚１００２と商品１００３があり、柱１００４が張り出している場合を想定する。このような場合は、棚１００２前の右側に人が立つことができないため、商品１００３を右側から注視することができない。そのため、Ｓ４０５で取得した店内の３次元情報とＳ４０８で適合させた注視領域の位置関係から、商品周辺の遮蔽物（例えば、柱１００４）があることを特定する（遮蔽物の位置情報を取得する）。

図１１は、図１０の店内をｘｚ平面で（天井から）見た図である。図１１における１１０１は棚、１１０２は商品、１１０３は柱を示している。そして、遮蔽物に基づいた注視領域の補正は、点線で示した注視領域１１０４は柱１１０３と重ならないように、実線で示した注視領域１１０５のように右側の角度のみ補正する。このように、注視領域補正部２０７は、配置情報から人物における注視可能な領域が制限される遮蔽物の位置情報に基づき、注視領域を当該遮蔽物と重ならないように補正をする。

Ｓ４１１では、注視領域補正部２０７は、Ｓ４１０で補正を行った注視領域（補正済みの注視領域）を注視領域記憶部２０８に記憶する。その後、本処理フローにおける処理、即ち、処理装置１が注視領域を設定し保存するまでの処理を終了する。

次に、本実施形態における処理装置１が商品を注視していると判定された人物を検知し計測（カウント）する処理の詳細について、図５を参照して説明する。図５は、処理装置１における商品を注視していると判定された人物を検知し計測する処理の流れを示すフローチャートである。尚、図５のフローチャートで示す各動作（処理）は、処理装置１のＣＰＵ１０１がＲＯＭ１０２に格納されているプログラムを実行することにより実現される。また、各工程（ステップ）について先頭にＳを付けて表記することで、工程（ステップ）の表記を省略する。

Ｓ５０１では、注視判定部２１２は、注視領域記憶部２０８から注視領域を読み出し、ＲＡＭ１０３に一時保存する。尚、Ｓ５０１で注視判定部２１２が注視領域記憶部２０８から読み出す注視領域は、上記したＳ４１１で記憶した注視領域（補正済みの注視領域）である。

Ｓ５０２では、映像取得部２０３は、撮像装置１０５より店内の映像を時間情報と関連付けながらフレーム画像の単位で取得する。時間情報は、タイムスタンプまたはフレームＩＤの少なくともいずれかの情報である。尚、映像取得部２０３は、前述のＳ４０４で取得した映像と同じ画角の映像を取得する。

Ｓ５０３では、人物検出部２０９は、Ｓ５０２で取得した映像におけるフレーム画像内から人物（人物の領域）の検出を行う。即ち、人物検出部２０９は、複数のフレーム毎に当該フレーム内の人物の領域検出をする。ここで、人物検出の具体的な方法としては、例えば、ＣＮＮを用いた手法があげられる。尚、人物検出は、人物領域が検出可能であればよく、ＣＮＮを用いた手法に限定されるものではない。また、本実施形態では人物検出の対象として全身領域を用いているが、上半身領域など人物の一部の領域であってもよい。

全身領域は、フレーム画像の左上を原点とし、人物を囲む矩形の左上と右下の２点のｘ座標、ｙ座標で表す。また、各全身領域にはフレーム画像の時間情報を付与する。

Ｓ５０４では、人物追尾部２１０は、現在フレーム（最新のフレーム画像）で検出された全身領域が、前フレーム（最新のフレーム画像の１つ前（直前）のフレーム画像）で検出されたどの人物の全身領域に対応するかの追尾処理を行う。また、人物追尾部２１０は、各全身領域には人物ごとに発行される人物ＩＤを更に付与する。

ここで、人物追尾部２１０が行う追尾処理には様々な手法があるが、例えば前フレームに含まれる全身領域の中心位置と現在フレームに含まれる人物の全身領域の中心位置が最短のものを対応付ける方法がある。この他にも前フレームの全身領域を照合パターンとしたパターンマッチングによる手法など、フレーム間の人物の全身領域を対応付けることができればどのような手法であってもよい。

Ｓ５０５では、姿勢推定部２１１は、フレーム画像中の全ての全身領域から人物の姿勢を推定し、各全身領域に対応する関節点をリストの形式で出力する。ここで、姿勢推定の具体的な方法としては、例えば、ＣＮＮを用いて各関節点の３次元座標を推定し、その信頼度を求める方法がある。また、その他の方法として、まず２次元座標上の関節点を求めた後、３次元座標上の関節点の位置を推定する方法を用いてもよい。即ち、姿勢推定部２１１は、複数のフレーム画像における全ての人物の姿勢を推定し、当該姿勢推定結果から各関節点の座標（位置）を推定または算出し、この関節点の情報をリストの形式で出力する。尚、関節点の３次元座標が推定可能な方法であれば上記した方法に限定されるものではない。

関節点リストは、フレーム画像内に含まれる全身領域（人物）ごとに複数作成される。各関節点リストは、フレーム画像の時間情報、人物ＩＤ、当該人物の全ての関節点の座標・信頼度を特定の順番に並べたものである。

Ｓ５０６では、注視判定部２１２は、Ｓ５０５で姿勢推定部２１１により出力された関節点リストと、Ｓ５０１で読み出した注視領域に基づき、当該注視領域に存在する人物が商品（対象物体）を注視しているかどうかを判定する。商品を注視していたと判定された場合（Ｓ５０６においてＹＥＳ）は、Ｓ５０７に進む。一方、商品を注視していないと判定された場合（Ｓ５０６においてＮＯ）は、Ｓ５０９に進む。

Ｓ５０６における注視判定は、注視領域内に顔があるとき、その人物は注視している確率が高いという前提に立って判断するものとする。顔の器官点は特にカメラから見えてない側の座標の精度は下がり易く、従来技術のように顔の器官点の位置から求めた視線の方向は誤差が大きくなりやすく、注視判定精度が悪化しやすい。これに対し、注視領域は商品の位置で固定され安定しているため、より精度よく注視判定できる。

具体的には、例えば顔の器官点である右目３１３、左目３１４、右耳３１５、左耳３１６鼻３１７の５点の平均座標を顔の中心位置とする。そして、注視判定部２１２は、中心位置が注視領域内にあるかどうかの判定（第１判定）と、目及び耳の左右の位置関係から商品に顔が面しているかどうかを判定（第２判定）することで、人物が商品を注視しているかどうかを判定する。即ち、注視判定部２１２は、判定対象とする人物の右目、左目、右耳、左耳、及び鼻の各座標の平均座標が注視領域内にあるかどうかを判定する第１判定を行う。さらに、当該判定対象の人物の右目、左目、右耳、及び左耳の位置関係に基づいて、当該人物が対象物体に顔が面しているかどうかを判定する第２判定を行うにより、当該人物が対象物体を注視したかを判定する。

また、隠れなどの影響で顔の器官点が検出できなかった場合は、右肩３０１、左肩３０２や右側の腰３０７、左側の腰３０８など他の関節点から推定された中心位置を用いてもよい。例えば、肩から腰の長さの所定の割合分、両肩の中心座標から情報に延ばした位置を顔の中心位置とする。

尚、複数商品がある場合は商品毎に対応する注視領域が設定され、各注視領域について注視判定が行われる。即ち、注視領域設定部２０５は、特性取得部２０４により取得された特性情報に基づき、対象物体を注視可能な領域である注視領域を対象物体毎に設定する。さらに、注視判定部２１２は、注視領域が複数設定された場合、設定された注視領域毎に注視領域に存在する人物が商品（対象物体）を注視しているかどうかを判定する。

図１２は、複数の商品に対して設定された複数の注視領域をｘｚ平面で見た図である。図１２では、商品１２０１と商品１２０２が並べて配置してある。注視領域１２０３は、商品１２０１に対して設定された注視領域である。注視領域１２０４は、商品１２０２に対して設定された注視領域である。点線で示した中心線１２０５は、注視領域１２０３の中心線である。中心線１２０６は、注視領域１２０４の中心線である。注視領域１２０３と注視領域１２０６は、領域（重なり領域）１２０７で重なっている。

ここで、注視判定部２１２は、上記した人物における顔の中心位置が重なり領域１２０７内であった時は中心線１２０５と中心線１２０６のより近い方の商品を注視しているものとして判定する。即ち、注視判定部２１２は、１つの注視領域ともう１つの注視領域との一部が重なる領域内に上記した人物の中心位置が存在した場合、それぞれの注視領域の中心線（中心位置情報）に基づいて、当該人物がいずれの商品（対象物体）を注視したかを判定する。

尚、２つの商品を比較している場合も想定できるため、注視判定部２１２は、商品１２０１と商品１２０２の両方同時に注視しているものとして判定してもよい。また、中心線により近い商品を注視していると判定しつつ、且つ２つの商品を比較しているとも判定してもよい。尚、上記では２つの商品に対する２つの注視領域の場合を例としたが、３つ以上の商品に対する複数の注視領域が設定された場合も同様とすることができる。

Ｓ５０７では、人物数計測部２１３は、当該人物の時間情報から初めて注視と判定された時点からの時間（注視時間）を計測（算出）する。その後、ＲＡＭ１０３に時間情報を一時保存する。

Ｓ５０８では、人物数計測部２１３は、Ｓ５０７で一時保存した注視時間を読み出し、当該注視時間が所定時間に達していたかどうかを判定する。即ち、注視判定部２１２により注視領域内の人物が対象物体を注視していると判定された場合に、人物数計測部２１３は、当該人物が対象物体を注視している時間の情報に基づき、所定時間に達していたか否かを判定する。注視時間が所定時間に達していたと判定された場合（Ｓ５０８においてＹＥＳ）は、当該人物が対象物体に関心を示しているとして、Ｓ５０９に進む。一方、注視時間が所定時間に達していないと判定された場合（Ｓ５０８においてＮＯ）は、当該人物が対象物体に関心を示していていないとして、Ｓ５１０に進む。尚、所定時間は予め任意の時間を設定しておく。

Ｓ５０９では、人物数計測部２１３は、注視判定部２１２により対象物体を注視していると判定された人物が、商品に対して関心を持っている（示している）人物であるとしてカウントする（計測する）。

Ｓ５１０では、現在のフレーム画像に含まれる全ての人物（全身領域）について、全ての処理が完了したかどうかを判定する。全ての人物（全身領域）について、全ての処理が完了していないと判定された場合（Ｓ５１０においてＮＯ）、Ｓ５０５に戻り同様の処理を行う。一方、全ての人物（全身領域）について、全ての処理が完了したと判定された場合（Ｓ５１０においてＹＥＳ）、Ｓ５１１に進む。

Ｓ５１１では、表示部２１４は、Ｓ５０９のカウント結果を、表示装置１０７を介してユーザに提示する（表示装置１０７の画面上に表示する）。その後、本処理フローを終了する。本処理の際、例えば、「商品に関心のある人物は５人です」などのメッセージ（通知）を表示装置の画面上に表示する。

尚、本実施形態では処理結果をユーザに対して通知するものとして説明したが、統計情報を作成するなどの処理を更に行うようにしてもよい。または、店舗に勤務等する店員や職員にタブレットやスマートフォン等の携帯端末を携帯させ、Ｓ５０８で注視時間が所定時間に到達した時点で当該携帯端末を所持している店員に「商品に関心のある人がいます」などのメッセージを通知してもよい。このような通知をすることで、店員に対象人物（商品を注視している人物）に対して、商品説明をさせるよう促すことができる。

以上が、本実施形態における処理装置１の処理の流れである。尚、上記では商品に対して関心を持っている人物がカウントされるまでの処理の流れを順に説明したが、処理装置１が終了されるまでＳ５０２以降の全ステップが常に繰り返されるものとする。

以上、本実施形態における処理装置１によれば、商品（対象物体）に対して人物が注視可能な角度と距離から定義される注視領域を設定することができる。そして、本実施形態における処理装置１により設定された注視領域は、商品の位置で固定された領域であるため、注視判定を精度よく行うこと（人物の注視行動の判定精度を向上させること）が可能となる。

本実施形態では、全ての機能が１つの装置に組み込まれている構成にした。しかしこれに限らず、例えば、映像取得部２０３から取得した映像をクラウドに送信し、注視領域設定部２０５の処理をクラウド上で行って注視領域を設定及び、クラウド上の記憶部に記憶するまでの処理を行う。その後、ＰＣ等で構成される処理装置にクラウド上で設定された注視領域の情報を送信して、上記した注視判定処理を行い、商品を注視していると判定された人物をカウントしてユーザに提示する一連の処理を行う構成にしてもよい。

また、本実施形態における処理装置１と、人物の商品前の立ち止まり時間の計測や商品への手伸ばし行動分析と連動させてまたは組み合わせて、顧客の商品への関心度を分析するシステムの一部とするようにしてもよい。

本発明の目的は、次の方法によって達成されるようにしてもよい。前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記録媒体（または記憶媒体）を、システムあるいは装置に供給する。そして、そのシステムあるいは装置のコンピュータ（またはＣＰＵやＭＰＵやＧＰＵ）が記録媒体に格納されたプログラムコードを読み出し実行する。この場合、記録媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記録した記録媒体は本発明を構成することになる。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけではない。そのプログラムコードの指示に基づき、コンピュータ上で稼働しているオペレーティングシステム（ＯＳ）などが実際の処理の一部または全部を行うことも含まれる。

さらに、次の方法により、前述した実施形態の機能が実現される場合も含まれる。記録媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張カードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれる。その後、そのプログラムコードの指示に基づき、その機能拡張カードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行う。

本発明を上記記録媒体に適用する場合、その記録媒体には、先に説明したフローチャートに対応するプログラムコードが格納されることになる。

以上、本発明の好ましい実施形態について説明したが、本発明はこれらの実施形態に限定されず、その要旨の範囲内で種々の変形及び変更が可能である。

本実施形態の開示は、以下の構成、方法、およびプログラムを含む。

（構成１）
対象物体が配置された場所の映像を取得する映像取得手段と、
前記対象物体を注視可能な角度及び距離に関する特性情報を取得する特性取得手段と、
前記特性取得手段により取得された前記特性情報に基づき、前記対象物体を注視可能な領域である注視領域を設定する領域設定手段と、
前記領域設定手段により設定された前記注視領域に存在する人物の関節点の情報に基づいて、前記人物が前記対象物体を注視したか判定する判定手段と、
を備えることを特徴とする処理装置。

（構成２）
前記人物の身長情報に基づいて前記注視領域を前記映像中の前記対象物体が配置された位置に適合させる補正をする補正手段を備えることを特徴とする構成１に記載の処理装置。

（構成３）
前記注視領域は、前記対象物体から前記人物までの距離と前記対象物体に対する人物の角度で決まる３次元空間上の部分領域であることを特徴とする構成１または２に記載の処理装置。

（構成４）
前記対象物体の配置
に関する配置情報を取得する配置情報取得手段を備えることを特徴とする構成２に記載の処理装置。

（構成５）
前記補正手段は、前記配置情報に基づいて前記注視領域を補正することを特徴とする構成４に記載の処理装置。

（構成６）
前記配置情報とは、前記対象物体が配置された位置、照明条件、前記対象物体の周辺の遮蔽物の位置の情報のうち少なくともいずれか含む情報であることを特徴とする構成４または５に記載の処理装置。

（構成７）
前記補正手段は、前記遮蔽物の位置に基づき、前記注視領域を前記遮蔽物の位置と重ならないように前記注視領域を補正することを特徴とする構成６に記載の処理装置。

（構成８）
前記映像取得手段は、前記映像を複数のフレームで取得し、
前記複数のフレーム毎に前記フレーム内の人物の領域を検出する領域検出手段と、
前記領域検出手段が検出した人物の領域から姿勢を推定し、前記姿勢に基づき前記人物の関節点の情報を推定する推定手段と、を備える、
ことを特徴とする構成１乃至７のいずれか１つに記載の処理装置。

（構成９）
前記関節点の情報には、前記人物の各関節における座標情報に加えて、人物の右目、左目、右耳、左耳、及び鼻の座標情報が含まれることを特徴とする構成１乃至８のいずれか１つに記載の処理装置。

（構成１０）
前記判定手段は、前記人物の右目、左目、右耳、左耳、及び鼻の座標の平均座標を中心位置とし、前記中心位置が前記注視領域内にあるかを判定する第１判定と、
前記人物の右目、左目、右耳、及び左耳の位置関係に基づいて、前記人物が前記対象物体に顔が面しているかを判定する第２判定により、前記人物が前記対象物体を注視したか判定することを特徴とする構成９に記載の処理装置。

（構成１１）
前記判定手段は、前記対象物体と前記注視領域が複数あり、１つの注視領域ともう１つの注視領域との一部が重なる領域内に前記人物の前記中心位置が存在した場合、それぞれの前記注視領域の中心位置情報に基づいて、前記人物がいずれの対象物体を注視したか判定することを特徴とする構成１０に記載の処理装置。

（構成１２）
前記判定手段により前記注視領域内の人物が前記対象物体を注視していると判定された場合に、前記人物が前記対象物体を注視している時間の情報に基づき、前記人物が前記対象物体に関心を示しているかを判定する関心判定手段を備えることを特徴とする構成１乃至１１のいずれか１つに記載の処理装置。

（構成１３）
前記関心判定手段により前記対象物体に関心を示していると判定された人物の数を計測する計測手段と、
前記計測手段により計測された人物の数を表示装置に表示する表示手段と、を備える、
ことを特徴とする構成１２に記載の処理装置。

（構成１４）
前記特性情報は、前記対象物体上の文字のサイズ、背景と文字のコントラスト差、使用されているフォント、前記対象物体の形状のいずれかを含む情報であることを特徴とする構成１乃至１３のいずれか１つに記載の処理装置。

（構成１５）
処理装置の制御方法であって、
対象物体が配置された場所の映像を取得する映像取得工程と、
前記対象物体を注視可能な角度及び距離に関する特性情報を取得する特性取得工程と、
前記特性取得工程で取得された前記特性情報に基づき、前記対象物体を注視可能な領域である注視領域を設定する領域設定工程と、
前記領域設定工程で設定された前記注視領域に存在する人物の関節点の情報に基づいて、前記人物が前記対象物体を注視したか判定する判定工程と、有する、
ことを特徴とする処理装置の制御方法。

（構成１６）
コンピュータを、構成１乃至１４のうちいずれか１つに記載の処理装置として動作させるためのプログラム。

２０１領域設定部
２０２注視人物検知部
２０３映像取得部

Claims

対象物体が配置された場所の映像を取得する映像取得手段と、
前記対象物体を注視可能な角度及び距離に関する特性情報を取得する特性取得手段と、
前記特性取得手段により取得された前記特性情報に基づき、前記対象物体を注視可能な領域である注視領域を設定する領域設定手段と、
前記領域設定手段により設定された前記注視領域に存在する人物の関節点の情報に基づいて、前記人物が前記対象物体を注視したか判定する判定手段と、
を備えることを特徴とする処理装置。
前記人物の身長情報に基づいて前記注視領域を前記映像中の前記対象物体が配置された位置に適合させる補正をする補正手段を備えることを特徴とする請求項１に記載の処理装置。
前記注視領域は、前記対象物体から前記人物までの距離と前記対象物体に対する人物の角度で決まる３次元空間上の部分領域であることを特徴とする請求項１に記載の処理装置。
前記対象物体の配置に関する配置情報を取得する配置情報取得手段を備えることを特徴とする請求項２に記載の処理装置。
前記補正手段は、前記配置情報に基づいて前記注視領域を補正することを特徴とする請求項４に記載の処理装置。
前記配置情報とは、前記対象物体が配置された位置、照明条件、前記対象物体の周辺の遮蔽物の位置の情報のうち少なくともいずれか含む情報であることを特徴とする請求項４に記載の処理装置。
前記補正手段は、前記遮蔽物の位置に基づき、前記注視領域を前記遮蔽物の位置と重ならないように前記注視領域を補正することを特徴とする請求項６に記載の処理装置。
前記映像取得手段は、前記映像を複数のフレームで取得し、
前記複数のフレーム毎に前記フレーム内の人物の領域を検出する領域検出手段と、
前記領域検出手段が検出した人物の領域から姿勢を推定し、前記姿勢に基づき前記人物の関節点の情報を推定する推定手段と、を備える、
ことを特徴とする請求項１に記載の処理装置。
前記関節点の情報には、前記人物の各関節における座標情報に加えて、人物の右目、左目、右耳、左耳、及び鼻の座標情報が含まれることを特徴とする請求項１に記載の処理装置。
前記判定手段は、前記人物の右目、左目、右耳、左耳、及び鼻の座標の平均座標を中心位置とし、前記中心位置が前記注視領域内にあるかを判定する第１判定と、
前記人物の右目、左目、右耳、及び左耳の位置関係に基づいて、前記人物が前記対象物体に顔が面しているかを判定する第２判定により、前記人物が前記対象物体を注視したか判定することを特徴とする請求項９に記載の処理装置。
前記判定手段は、前記対象物体と前記注視領域が複数あり、１つの注視領域ともう１つの注視領域との一部が重なる領域内に前記人物の前記中心位置が存在した場合、それぞれの前記注視領域の中心位置情報に基づいて、前記人物がいずれの対象物体を注視したか判定することを特徴とする請求項１０に記載の処理装置。
前記判定手段により前記注視領域内の人物が前記対象物体を注視していると判定された場合に、前記人物が前記対象物体を注視している時間の情報に基づき、前記人物が前記対象物体に関心を示しているかを判定する関心判定手段を備えることを特徴とする請求項１に記載の処理装置。
前記関心判定手段により前記対象物体に関心を示していると判定された人物の数を計測する計測手段と、
前記計測手段により計測された人物の数を表示装置に表示する表示手段と、を備える、
ことを特徴とする請求項１２に記載の処理装置。
前記特性情報は、前記対象物体上の文字のサイズ、背景と文字のコントラスト差、使用されているフォント、前記対象物体の形状のいずれかを含む情報であることを特徴とする請求項１に記載の処理装置。
処理装置の制御方法であって、
対象物体が配置された場所の映像を取得する映像取得工程と、
前記対象物体を注視可能な角度及び距離に関する特性情報を取得する特性取得工程と、
前記特性取得工程で取得された前記特性情報に基づき、前記対象物体を注視可能な領域である注視領域を設定する領域設定工程と、
前記領域設定工程で設定された前記注視領域に存在する人物の関節点の情報に基づいて、前記人物が前記対象物体を注視したか判定する判定工程と、有する、
ことを特徴とする処理装置の制御方法。
コンピュータを、請求項１乃至１４のうちいずれか１項に記載の処理装置として動作させるためのプログラム。