JP2021056885A - Detector, detection method, and program - Google Patents
Detector, detection method, and program Download PDFInfo
- Publication number
- JP2021056885A JP2021056885A JP2019180711A JP2019180711A JP2021056885A JP 2021056885 A JP2021056885 A JP 2021056885A JP 2019180711 A JP2019180711 A JP 2019180711A JP 2019180711 A JP2019180711 A JP 2019180711A JP 2021056885 A JP2021056885 A JP 2021056885A
- Authority
- JP
- Japan
- Prior art keywords
- subject
- detection
- time
- detection target
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 357
- 238000000034 method Methods 0.000 claims description 110
- 238000003384 imaging method Methods 0.000 claims description 49
- 230000008569 process Effects 0.000 claims description 40
- 230000033001 locomotion Effects 0.000 claims description 18
- 238000012800 visualization Methods 0.000 claims description 18
- 238000012545 processing Methods 0.000 abstract description 75
- 238000009826 distribution Methods 0.000 description 44
- 230000006870 function Effects 0.000 description 23
- 238000003860 storage Methods 0.000 description 23
- 230000036544 posture Effects 0.000 description 22
- 238000004364 calculation method Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 13
- 239000011159 matrix material Substances 0.000 description 13
- 230000008859 change Effects 0.000 description 11
- 238000012544 monitoring process Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 9
- 238000005457 optimization Methods 0.000 description 8
- 230000010354 integration Effects 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000012935 Averaging Methods 0.000 description 2
- 240000004050 Pentaglottis sempervirens Species 0.000 description 2
- 235000004522 Pentaglottis sempervirens Nutrition 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- CYJRNFFLTBEQSQ-UHFFFAOYSA-N 8-(3-methyl-1-benzothiophen-5-yl)-N-(4-methylsulfonylpyridin-3-yl)quinoxalin-6-amine Chemical compound CS(=O)(=O)C1=C(C=NC=C1)NC=1C=C2N=CC=NC2=C(C=1)C=1C=CC2=C(C(=CS2)C)C=1 CYJRNFFLTBEQSQ-UHFFFAOYSA-N 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- NRNCYVBFPDDJNE-UHFFFAOYSA-N pemoline Chemical compound O1C(N)=NC(=O)C1C1=CC=CC=C1 NRNCYVBFPDDJNE-UHFFFAOYSA-N 0.000 description 1
- 125000002924 primary amino group Chemical group [H]N([H])* 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- Closed-Circuit Television Systems (AREA)
- Studio Devices (AREA)
- Image Analysis (AREA)
Abstract
Description
本発明は、検出装置、検出方法、及びプログラムに関する。 The present invention relates to a detection device, a detection method, and a program.
固定カメラを用いて被写体の位置を推定する技術がある。これらの技術の多くは、時間的に連続する複数の画像における被写体を検出してその同一性を判定することで、被写体の軌跡の推定を行う。例えば、特許文献1には、状態空間モデルを用いた追尾対象物体の動きの予測と更新に基づきパンチルトズームの制御と追尾を行う方法が開示されている。
There is a technique for estimating the position of a subject using a fixed camera. Most of these techniques estimate the trajectory of a subject by detecting the subject in a plurality of images that are continuous in time and determining their identity. For example,
また近年、畳み込みニューラルネットワーク(以降においてはCNNと呼ぶ)を用いることにより、複数カテゴリの物体検出を高速に実行する技術が多数提案されている。例えば、非特許文献1に開示されている技術においては、352×352サイズの入力画像をニューラルネットワークに入力することにより、20カテゴリの物体検出問題を、毎秒81フレームで実行することができる。
Further, in recent years, many techniques have been proposed to execute object detection of a plurality of categories at high speed by using a convolutional neural network (hereinafter referred to as CNN). For example, in the technique disclosed in Non-Patent
一方、一般的な監視カメラによる撮像画像の解像度はより大きく、例えば1920×1080サイズである。このようなサイズの画像を小さくリサイズしてCNNに入力すると、被写体の検出精度が低下する。非特許文献2は、元画像をリサイズして低解像度化した画像から、被写体の検出のために選択的にズームインする部分領域を選択する手法を開示している。
On the other hand, the resolution of the image captured by a general surveillance camera is larger, for example, 1920 × 1080 size. If an image of such a size is resized to a small size and input to the CNN, the detection accuracy of the subject is lowered. Non-Patent
しかしながら、非特許文献2に記載の方法では、部分領域を決定するために、処理コストの大きいCNNベースの検出器を用いた元画像に対する処理が毎時刻必ず行われ、これが処理のボトルネックとなっている。
However, in the method described in
本発明は、被写体検出処理の処理コストを下げることを目的とする。 An object of the present invention is to reduce the processing cost of subject detection processing.
本発明の目的を達成するために、例えば、一実施形態に係る検出装置は以下の構成を備える。すなわち、撮像画像から1以上の被写体を検出する検出手段と、前記検出手段によって第1の時刻における撮像画像から検出された1以上の被写体の位置に従って、前記検出手段によって参照される、前記第1の時刻に後続する第2の時刻における撮像画像に前記1以上の被写体の検出対象領域を設定する設定手段と、を備えることを特徴とする。 In order to achieve the object of the present invention, for example, the detection device according to one embodiment has the following configuration. That is, the first detection means referred to by the detection means according to the position of the detection means for detecting one or more subjects from the captured image and the position of one or more subjects detected from the captured image at the first time by the detection means. It is characterized by including a setting means for setting a detection target area of one or more subjects in the captured image at a second time following the time of.
被写体検出処理の処理コストを下げることができる。 The processing cost of the subject detection process can be reduced.
以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。 Hereinafter, embodiments will be described in detail with reference to the accompanying drawings. The following embodiments do not limit the invention according to the claims. Although a plurality of features are described in the embodiment, not all of the plurality of features are essential to the invention, and the plurality of features may be arbitrarily combined. Further, in the attached drawings, the same or similar configurations are designated by the same reference numbers, and duplicate explanations are omitted.
[実施形態1]
図16は本実施形態に係る撮像システム1600の構成の一例を示すブロック図である。図16に示す撮像システム1600は、検出装置1605、ネットワーク1601を介して相互に通信可能な状態で接続されるクライアント装置1602、入力装置1603、及び、表示装置1604から構成されている。検出装置1605は、例えば、動画像を撮像および画像処理する監視カメラ又はネットワークカメラであってもよい。
[Embodiment 1]
FIG. 16 is a block diagram showing an example of the configuration of the
図17は、本実施形態における検出装置1605の内部構成の一例を示すブロック図である。光学部1701はフォーカスレンズ、ブレ補正レンズ、絞り、シャッターから構成され被写体の光情報を集光する。撮像素子部1702は、光学部1701にて集光される光情報を電流値へと変換する素子で、カラーフィルタなどと組み合わせることで色情報を取得する。また、すべての画素に対して、任意の露光時間を設定可能な撮像センサーとする。CPU1703は、各構成の処理すべてに関わり、ROM(Read Only Memory)1704や、RAM(Random Access Memory)1705に格納された命令を順次に読み込み、解釈し、その結果に従って処理を実行する。CPU1703は、ROM1704などに記憶された各種プログラムをRAM1705に読み出して実行することにより、本実施形態に係る各処理を実行すると共に、クライアント装置1602との間で各種情報の送受信を制御する。
FIG. 17 is a block diagram showing an example of the internal configuration of the detection device 1605 according to the present embodiment. The
また、撮像系制御部1706は光学部1701に対して、フォーカスを合わせる、シャッターを開く、及び絞りを調整するなどのCPU1703から指示された制御を行う。制御部1707は、クライアント装置1602からの指示に応じて、検出装置1605の撮像範囲を制御するなどの制御を行う。A/D変換部1708は、光学部1701にて検知した被写体の光量をデジタル信号値に変換する。画像処理部1709は上記のデジタル信号の画像データに対して、画像処理を行う。エンコーダ部1710は、画像処理部1709にて処理した画像データをMotion JpegやH.264、H.265などのファイルフォーマットへと変換する処理を行う。エンコーダ部1710における変換処理により生成された静止画、或いは動画像のデータは、「配信画像」としてネットワーク1601を介してクライアント装置1602に提供される。ネットワークI/F1711は、クライアント装置1602等の外部の装置とのネットワーク1601を介した通信に利用されるインタフェースである。
Further, the image pickup
ネットワーク1601は、検出装置1605と、クライアント装置1602を接続するネットワークである。ネットワーク1601は、例えばEthernet(登録商標)等の通信規格を満足する複数のルータ、スイッチ、ケーブル等から構成される。本実施形態では、ネットワーク1601は、検出装置1605とクライアント装置1602との間の通信を行うことができるものであればよく、その通信規格、規模、構成を問わない。例えば、ネットワーク1601は、インターネットや有線LAN(Local Area Network)、無線LAN(Wireless LAN)、WAN(Wide Area Network)等により構成されてもよい。
The
図18は本実施形態に対応するクライアント装置1602の内部構成の一例を示すブロック図である。クライアント装置1602は、CPU1801、主記憶装置1802、補助記憶装置1803、入力I/F1804、出力I/F1805、ネットワークI/F1806を含む。各要素は、システムバスを介して、相互に通信可能に接続されている。クライアント装置1602は、検出装置1605の各種設定を行うための設定装置として動作できる。
FIG. 18 is a block diagram showing an example of the internal configuration of the
CPU1801は、クライアント装置1602の動作を制御する。主記憶装置1802は、CPU1801のデータの一時的な記憶場所として機能するRAM等の記憶装置である。補助記憶装置1803は、各種プログラム、各種設定データ等を記憶するHDD、ROM、SSD等の記憶装置である。入力I/F1804は、入力装置1603等からの入力を受付ける際に利用されるインタフェースである。出力I/F1805は、表示装置1604等への情報の出力に利用されるインタフェースである。ネットワークI/F1806は、検出装置1605等の外部の装置とのネットワーク1601を介した通信に利用されるインタフェースである。クライアント装置1602は、ネットワークI/F1806を介して、検出装置1605から撮像画像又は映像を取得し、格納することができる。クライアント装置1602は、このような画像を格納して提供するサーバとして機能してもよい。また、クライアント装置1602が各種プログラム、各種設定データ等を記憶するのは、補助記憶装置1803に限定されない。例えば、クライアント装置1602は、そのようなデータ等を、ネットワークI/F1806を介してサーバや記憶装置のような外部の格納部(不図示)に記憶していてもよい。
The
CPU1801は、補助記憶装置1803に記憶された各種プログラムを主記憶装置1802に読み出して実行することにより、本実施形態に係る各処理を実行すると共に、検出装置1605との間で各種情報の送受信を制御する。また、入力I/F1804を介して入力装置1603からの入力を受付けると共に、出力I/F1805を介して表示装置1604における画像や各種情報の表示制御を行う。また、クライアント装置1602は、補助記憶装置1803、外部の格納部(不図示)を用いてもよい。
The
入力装置1603は、マウス、キーボード、タッチパネル、ボタン等から構成される入力装置である。表示装置1604は、クライアント装置1602が出力した画像を表示するディスプレイモニタ等の表示装置である。本実施形態では、クライアント装置1602と入力装置1603と表示装置1604とを、各々独立した装置とすることができる。この場合、例えばクライアント装置1602をパーソナルコンピュータ(PC)として構成し、入力装置1603を当該PCに接続されたマウスやキーボード、表示装置1604を当該PCに接続されたディスプレイとすることができる。また、当該構成以外にも、クライアント装置1602と表示装置1604とが一体化されていてもよいし、タッチパネルのように入力装置1603と表示装置1604とが一体化されていてもよい。また、スマートフォンやタブレット端末のようにクライアント装置1602と入力装置1603と表示装置1604とが、一体化されていてもよい。また、表示装置1604は、後述するモニタリング部1300として機能してもよい。
The
本実施形態に係る検出装置は、第1の時刻における撮像画像から1以上の被写体を検出し、及び、検出された被写体の位置にしたがって、第1の時刻に後続する第2の時刻における被写体の検出対象領域を、撮像画像中に設定する。そのような処理のために、図2(a)に示す一実施形態に係る検出装置1000は、撮像部1100と処理部1200とを有する。ここで、検出装置1000は、図16に示す検出装置1605であってもよい。この場合、処理部1200の処理は、検出装置1605の制御部1707が実現することができる。また、本発明の一実施形態に係る検出装置は、ネットワークを介して接続された複数の装置によって構成されていてもよい。例えば、図16に示す検出装置1000の機能は、図16に示す検出装置1605とクライアント装置1602とによって実現されてもよい。例えば、検出装置1605が撮像部1100として用いられ、クライアント装置1602が処理部1200として用いられてもよい。この場合、処理部1200の処理は、クライアント装置1602のCPU1801が実現することができる。
The detection device according to the present embodiment detects one or more subjects from the captured image at the first time, and according to the position of the detected subject, the subject at the second time following the first time. The detection target area is set in the captured image. For such processing, the
図2は各実施形態に係る検出装置の機能構成の一例を示すブロック図であり、図2(a)は、実施形態1に係る検出装置の例を示している。撮像部1100は動画取得部1001を有する。動画取得部1001は、撮像装置による撮像画像を取得する。本実施例において、動画取得部1001は、例えば、被写体を含む所定のエリアの撮像画像を取得することができる。動画取得部1001による撮像画像の解像度は特に限定されないが、本実施形態においては説明のため、動画取得部1001は、解像度FHD(1920×1080ピクセル)の撮像画像を取得するものとする。動画取得部1001は、所定の時間間隔で撮像画像を取得することができる。例えば、動画取得部1001は、秒間30フレームの速度で撮像を行ってもよく、数10ミリ秒程度の間隔で撮像を行ってもよく、又は、より広い間隔で撮像を行ってもよい。また、動画取得部1001は、取得した撮像画像を処理部1200へと出力することができる。また、撮像部1100は、処理部1200と接続されている。撮像部1100と処理部1200との接続手段は特に限定されない。撮像部1100及び処理部1200は、例えばローカルエリアネットワークなどの通信経路を介して接続されていてもよく、USBケーブルなどを介して有線で接続されていてもよい。また例えば、撮像部1100は、出力した撮像画像を不図示の記憶装置に格納し、及び、処理部1200が、その記憶装置から所定のフレームを取得してもよい。
FIG. 2 is a block diagram showing an example of the functional configuration of the detection device according to each embodiment, and FIG. 2A shows an example of the detection device according to the first embodiment. The
処理部1200は、図2(a)の例においては、初期値設定部1002、検出部1003、対応付け部1004、領域設定部1005、及び可視化部1006を有する。撮像部1100による被写体の追尾処理を行うにあたり、処理部1200が有する各部は、処理を繰り返し行うことができる。初期値設定部1002は、検出部1003が初めに被写体の検出を行う際に用いられ、撮像画像中に設定される、検出対象領域の初期設定を行う。検出部1003は、撮像画像中の検出対象領域から1以上の被写体を検出する。対応付け部1004は、前回の繰り返しで検出された被写体の像と今回検出された被写体の像とを対応付け、又は初回の場合は被写体に識別情報を割り振る。領域設定部1005は、次の繰り返しの処理において検出部1003が被写体の検出を行う際に用いる検出対象領域を撮像画像中に設定する。可視化部1006は、被写体の軌跡の可視化を行う。これらの機能の詳細については、図3(a)のフローチャートと共に後述する。
In the example of FIG. 2A, the
モニタリング部1300は、処理部1200による処理の結果を表示することができる。例えば、モニタリング部1300は、可視化部1006によって可視化された被写体の軌跡を、モニタ内の撮像画像上に軌跡や点として重畳表示してもよい。また、モニタリング部1300は、処理部1200と接続されていてもよい。モニタリング部1300と処理部1200との接続方法は特に限定されない。例えば、モニタリング部1300及び処理部1200は、有線で接続されていてもよく、又は無線の通信を介して接続されていてもよい。
The
図1は、本実施形態に係る検出装置1000による撮像画像取得の一例を説明するための図である。図1(a)の配置例104は、空間中に存在する人物群と、空間中に設置された撮像部1100であるカメラ101と、の配置例を示す俯瞰図である。この例においては、カメラ101が、人物1、2、3及び4の撮像を行っている。そのようなカメラ101による撮像画像の例が、図1(b)の画像例110に示されている。図1(a)並びに図1(b)における人物1、2、3及び4はそれぞれ対応している。図1(b)に示される検出対象領域111は、検出装置1000が設定する検出対象領域の例である。また、112及び113は、人物1及び2にそれぞれ対応する、検出装置1000による検出結果に相当するバウンディングボックスである。バウンディングボックスは、画像の縦方向(u軸方向)並びに横方向(v軸方向)について、それぞれ位置及び幅の計4次元の数値で表現される矩形であってもよい。この例では、検出装置1000は、人体の頭部を囲むバウンディングボックスを、画像上に検出した頭部の数だけ出力するように学習されている。しかし、検出装置1000が出力する検出結果は特に限定されず、例えば、被写体について対応付けられたID又はIDに対応する名前のような識別情報を表示してもよい。検出装置1000は、そのようなバウンディングボックスに加え、検出結果の信頼度を表すスコアを出力することができる。
FIG. 1 is a diagram for explaining an example of acquiring a captured image by the
検出結果の信頼度を表すスコアとは、例えば、検出範囲内に含まれる被写体に対し、検出装置1000がどの程度の精度でそのような被写体を検出したかを表すモデルであってもよい。実施形態1の例においては、検出装置1000は、非特許文献1と同様の手法により被写体の検出を行ってもよい。例えば、後述する検出部1003は、検出対象領域のそれぞれをS×S(Sは予め与えられる所定の数)のグリッドに分割することができる。また、検出部1003は、被写体の存在する各グリッドから、所定の数のバウンディングボックス、及び各バウンディングボックスにおける信頼度のスコアを推定してもよい。次いで検出装置1000は、検出対象領域内に設定された複数のバウンディングボックスの内から、任意の閾値を超えるスコアを有するバウンディングボックスを、被写体を囲むバウンディングボックスとして推定することができる。非特許文献1の例においては、バウンディングボックス及びスコアがニューラルネットワークを用いて推定される。この例では、被写体が存在する確率とIoU(正しい被写体の領域と被写体として誤検出した領域とを足した領域に対する、正しい被写体の領域の割合)の積を、スコアとして与えるように学習されたニューラルネットワークが用いられている。このように、スコアとは、推定された被写体領域の位置の正しさと、推定された被写体領域の大きさの正しさと、推定された被写体領域に被写体が存在する確率と、の少なくとも1つを示す値であってもよい。また、検出装置1000は、複数の被写体を検出することができる。さらに、この例においては人物の頭部が検出されているが、検出装置1000の検出対象はこれには限られない。検出装置1000は、例えば犬若しくは馬のような動物を検出してもよく、又はサッカーボールを検出してもよい。
The score representing the reliability of the detection result may be, for example, a model showing how accurately the
以下では図3(a)を参照して、本実施形態に係る検出装置1000が行う検出方法の流れを説明する。図3(a)は、本実施形態における、被写体を認識した際の処理手順の一例を示すフローチャートである。本実施形態において、検出装置1000は、複数の時刻1〜tのそれぞれにおいて撮像された撮像画像のそれぞれから被写体を検出し、その次の時刻に撮像された撮像画像に対して被写体の検出を行う検出対象領域を設定する。ループL4001において、検出装置1000は、時刻1からtまでに撮像された撮像画像のそれぞれに対して、以下のステップS4002〜S4005の操作を順に繰り返し、及び次の時刻の撮像画像に進むことができる。以下においては、今回とはある時刻の撮像画像を処理する現時点のループを指し、前回とは前の時刻の撮像画像を処理するループを指し、次回とは後の時刻の撮像画像を処理するループを指すものとする。
Hereinafter, the flow of the detection method performed by the
ステップS4001で初期値設定部1002は、動画取得部1001が取得した撮像画像について、最初に被写体の検出を行うための1つ以上の検出対象領域を設定する。検出対象領域としては、例えば、FHD(1920×1080サイズ)の撮像画像に対し、640×360サイズの領域を用いてもよい。そのような場合、初期値設定部1002は、例えば、まず検出対象領域を左上の隅に設定することができる。次いで初期値設定部1002は、その検出対象領域を、横方向に640ピクセル、及び縦方向に360ピクセルずつ、それぞれの方向について最大2回ずつ任意の回数スライドさせることで、計9個の検出対象領域を設定してもよい。例えば、被写体が画像内のどこにいても検出できるようにするという観点から、初期値設定部1002は、検出対象領域の集合が撮像画像のすべての領域を隙間なく被覆するように検出対象領域を設定してもよい。しかし、検出対象領域の設定方法は特にそのように限定されるわけではない。例えば、初期値設定部1002は、被写体が存在し得る位置の範囲が予め与えられているような場合において、そのような範囲を隙間なく被覆するように検出対象領域を設定してもよい。また、初期値設定部1002は、検出対象領域同士の境界線上に被写体が存在する可能性を考慮して、隣接する検出対象領域が重複する領域を持つように検出対象領域を設定してもよい。
In step S4001, the initial
ステップS4002において、検出部1003は、撮像画像内の、ステップS4001で設定された、又は前回のループにおけるステップS4004(後述する)で設定された検出対象領域から、被写体の検出を行う。また、t=1の場合、つまり初回の検出を行う場合においては、検出部1003は、検出対象領域を用いることにより、被写体の検出を行ってもよい。検出部1003は、検出された被写体について、その被写体を示すバウンディングボックス、及び検出結果の信頼度を表すスコアを出力することができる。また、検出部1003が同一の被写体を複数の検出対象領域において検出した場合においては、それらの結果を統合してもよい。そのような場合、統合の仕方は特に限定されない。例えば、検出部1003は、各検出対象領域における同一被写体のバウンディングボックスの中心座標(u、v)を算出し、及びそれらの平均を取る事により、検出結果を統合してもよい。また例えば、検出対象領域それぞれにおいてそのサイズに基づいた重みが設定されている場合、検出部1003は、同一の被写体を有している検出対象領域それぞれの重みに基づいて、被写体の(u、v)の値の重み付き平均を取る事により結果を統合してもよい。
In step S4002, the
ステップS4003において、対応付け部1004は、前回のループにおいて検出された被写体に対応付けられた識別情報と、今回検出された被写体とを対応付ける。つまり、前回と今回とにおける同一の被写体の像を対応付ける。新たに検出された被写体が存在する場合には、対応付け部1004は、その被写体に新たな識別情報を割り振る。また、t=1の場合には、対応付け部1004は、検出された被写体についてそれぞれ識別情報を割り振る。対応付け部1004は、例えば、各被写体のバウンディングボックスの中心座標(u、v)及び信頼度のスコア(q)による3次元の値(u、v、q)の、前回のものと今回のものとのユークリッド距離を、すべての組み合わせについて算出することができる。そのような場合において、対応付け部1004は、例えば、線形計画法の割り当て問題として、被写体の像の対応付けを行ってもよい。つまり、例えば、対応付け部1004は、ハンガリアン法のような公知の技術を用いることにより、上述のユークリッド距離を用いて、前回の像と今回の像との対応付けを行ってもよい。識別情報としては、本実施例においてはIDが用いられているが、被写体をそれぞれ識別できるものであれば特に限定はされない。
In step S4003, the associating
ステップS4004で領域設定部1005は、次回のステップS4002において検出に用いる検出対象領域を設定する。本実施例においては、領域設定部1005は、まず、検出対象領域の候補となる候補領域の、撮像画像内での座標を取得する。候補領域については後述する。領域設定部1005は、複数の候補領域のうち、被写体を1以上含む候補領域を検出対象領域として選定することができる。また例えば、領域設定部1005は、候補領域の内で被写体を1以上含むものの中から、被写体の検出結果の信頼度を表すスコアを用いて、所望の条件を満たす検出対象領域を選定してもよい。領域設定部1005が行う処理についてはステップS4005の後に詳述する。ステップS4005において、可視化部1006は、処理された撮像画像から検出された被写体を可視化して表示することができる。可視化部1006による被写体の可視化の方法は特に限定されない。可視化部1006は、例えば、被写体をモニタリング部1300上に、バウンディングボックスとして表示してもよい。また、可視化部1006は、被写体のID又は被写体に対応する名前のような識別情報を、被写体又は被写体の軌跡と共に表示してもよい。また例えば、可視化部1006は、被写体として、異なる時刻の撮像画像から検出された、複数の時刻に渡るバウンディングボックスの中心点の遷移を示す線を、モニタリング部1300上に表示してもよい。
In step S4004, the
以下、領域設定部1005が行う処理について詳細な説明を行う。図4は、上述の候補領域の取得について説明するための図である。領域設定部1005は、互いに異なる大きさ、つまりサイズを有する候補領域の内から、少なくとも一つ以上を検出対象領域として選定することができる。すなわち、選定される検出対象領域が、互いに異なるサイズを有していてもよい。図4の例においては、領域設定部1005は、サイズ1から3までの3種類のサイズの候補領域の座標を取得し、及び、各サイズの候補領域に基づいて撮像画像から部分画像を作成する。候補領域は後述のステップS4004で検出対象領域を選定する際の候補となる領域である。候補領域の位置及び形状は、例えば図4に示されるように、予め定めておくことができる。候補領域の形状は特に限定されず、例えば三角形又は円形であってもよいが、以下においては説明のため、候補領域は矩形の領域であるとする。領域設定部1005は、例えば、矩形である候補領域の4隅の座標を取得してもよい。
Hereinafter, the processing performed by the
400は、領域設定部1005がサイズ1の候補領域を撮像範囲内に作成している図であり、及び、Nu1×Nv1個の候補領域が作成されている。この400において、候補領域401は1個目の候補領域(C1,1,1)を示し、及び候補領域402はNu1×Nv1個目の候補領域(C1,Nu1,Nv1)を示す。つまり、例えばこの400においては、領域設定部1005は、まず(C1,1,1)を作成し、及び、(C1,1,1)から横方向にNu1個(順番に(C1,Nu1,1)まで)候補領域を作成することができる。次いで領域設定部1005は、その横方向のNu1個の候補領域それぞれから、縦方向にNv1個(例えば、順番に(C1,1,Nv1)まで)の候補領域を作成することができる。410及び420においても同様に、領域設定部1005は、(C2,1,1)から(C2,Nu2,Nv2)までのNu2×Nv2個、及び(C3,1,1)から(C3,Nu3,Nv3)までのNu3×Nv3個の候補領域をそれぞれ作成することができる。
各候補領域は、それぞれ重複する範囲を有していてもよく、接していてもよく、又は所望の検出結果が得られる範囲で離れていてもよい。この例においては、同サイズの隣接する候補領域の間隔は、縦方向及び横方向それぞれについて、等間隔で設定されているものとしたが、特にそのようには限られない。例えば、撮像画像中に、候補領域が適宜狭い間隔で配置される(すなわち、例えば候補領域同士が広く重複する)範囲が存在していてもよい。そのような構成によれば、候補同士が重複している範囲において複数回の検出処理が行われるため、検出のロバスト性を向上させることができる。作成される候補領域の1パターンとして、S4001で設定された検出対象領域と同様の領域が作成されていてもよい。 The candidate regions may have overlapping ranges, may be in contact with each other, or may be separated from each other within a range in which a desired detection result can be obtained. In this example, the intervals between adjacent candidate regions of the same size are set at equal intervals in the vertical direction and the horizontal direction, but this is not particularly limited. For example, in the captured image, there may be a range in which the candidate regions are arranged at appropriate narrow intervals (that is, for example, the candidate regions widely overlap each other). According to such a configuration, since the detection process is performed a plurality of times in the range where the candidates overlap each other, the robustness of the detection can be improved. As one pattern of the candidate area to be created, an area similar to the detection target area set in S4001 may be created.
領域設定部1005は、ステップS4002において検出された被写体が、上述の候補領域の内のどの領域に含まれているかを確認することができる。領域設定部1005は、例えば、候補領域それぞれにおいて、その候補領域が被覆している被写体について、その被写体の識別情報と、その被写体のスコアと、を対応付けてもよい。そのような対応付けをされた候補領域をリスト化した表の例が図7に示されている。図7に示される表は、候補領域それぞれについて、その候補領域が被覆している被写体の識別情報であるID及び候補領域のスコアを表示している。図7の例において、1つの候補領域が複数の被写体を被覆しているような場合には、その候補領域のスコアとして、被覆している被写体のスコアの内最も値が高いものが表示されている。このような設定によれば、後述する検出対象領域の選定において、スコアが高い、つまり検出しやすい被写体を被覆する候補領域が優先して選定される。
The
図5には、候補領域が被写体を被覆している状態を説明するための、候補領域の一例が示されている。この例において、候補領域500は、被覆判定領域501及びバッファ幅502を有している。候補領域500は、例えば、被覆判定領域501内に被写体を有している場合、その被写体を被覆しているとしてもよい。バッファ幅は、候補領域500が次回の検出対象領域として選定される場合において、被写体が検出対象領域外に出にくくなるように、検出対象領域上に余裕を持たせて被覆判定領域の外側に設定されるバッファ領域の幅であってもよい。バッファ幅502の値は特に限定されない。バッファ幅502の値は、例えば、候補領域500が次回の被写体の検出に用いられることを考えて、被写体が次回の時刻までに移動し得る移動距離と同じだけの値として設定されていてもよい。被写体のそのような移動距離は予め与えられていてもよく、検出途中に算出されてもよいが、そのような例については実施形態2において詳細に説明する。また、バッファ幅は、画像内での横方向の右端及び左端、並びに縦方向の上端及び下端において、それぞれ異なる値を取っていてもよい。つまり、例えば、被写体の進行方向が定まっているような場合に、バッファ幅による領域がその進行方向と同じ方向について大きくなるように、バッファ幅の値が設定されていてもよい。
FIG. 5 shows an example of a candidate region for explaining a state in which the candidate region covers the subject. In this example, the
図6は、検出された被写体のバウンディングボックス、候補領域、及びステップS4004で得る検出対象領域について説明するための図である。領域を示す例600は、バウンディングボックス601、602、603及び604、候補領域605、606、及び608、並びに検出対象領域607及び609を有している。ここで設定された検出対象領域は、次回のループにおけるステップS4002での検出で、検出部1003によって用いられる。
FIG. 6 is a diagram for explaining a bounding box of the detected subject, a candidate area, and a detection target area obtained in step S4004. Example 600 showing the region has bounding
上述したように、領域設定部1005は、候補領域の内の被写体を1以上含むものの中から、被写体の検出結果の信頼度を表すスコアを用いて、所望の条件を満たす検出対象領域を選定してもよい。そのような検出対象領域の選定例について、図7の表を参照しながら説明する。まず、例えば、領域設定部1005は、候補領域の内から、例えば図7の(C1,1,1)のような、被写体を被覆していない領域を取り除く。次いで、領域設定部1005は、残った候補領域の内から、被覆している被写体の集合が等しく、及び候補領域のスコアが等しい複数の候補領域から、1つの候補領域、つまり検出対象領域を選定することができる。ここでの選定の条件は特に限定されない。例えば、領域設定部1005は、同一の被写体を被覆し、及びそれらの候補領域のスコアが等しい領域の内、領域のサイズがより小さい領域を優先して選定してもよい。また例えば、領域設定部1005は、同一の被写体を被覆し、同じスコア及びサイズを有する候補領域の内から、被覆している被写体の平均位置に対して、中心位置が最も近い候補領域を選定してもよい。このような処理により残った候補領域は、被覆している被写体の集合とスコアとの組み合わせが互いに異なっている。
As described above, the
さらに、撮像画像内のすべての被写体の追尾を行うことを考えて、領域設定部1005は、複数の候補領域から、現時点におけるすべての被写体を被覆するように、上述の検出対象領域を1以上選定することができる。そのような場合、例えば、領域設定部1005は、上記の処理により残っている、互いに異なる被写体の集合とスコアとの組み合わせを有する候補領域から、検出された被写体すべてを少なくとも一度被覆するように1以上の検出対象領域を選定してもよい。また、検出の精度を向上させるという観点から、領域設定部1005は、検出対象領域に選定される候補領域のスコアの合計値が大きくなるように、検出対象領域を選定することができる。そのためには、集合被覆問題の最適化法を適用すればよく、つまり下記の条件付き最適化を解けばよい。
この式において、iは被写体に関するインデックスであり、及びjは候補領域に関するインデックスである。jは、選定の対象となる候補領域、例えば、上記の処理により残っている互いに異なる被写体の集合とスコアとの組み合わせを有する候補領域、に付されたインデックスであり、nは選定の対象となる候補領域の数を表す。sjは候補領域jのスコアを示す。また、xjは、候補領域jが選定される場合にはxj=1、そうでない場合にはxj=0となる。さらに、aijは、候補領域jが被写体iを被覆する場合にaij=1、そうでない場合にaij=0となる。 In this equation, i is an index relating to the subject and j is an index relating to the candidate region. j is an index attached to a candidate area to be selected, for example, a candidate area having a combination of different sets of subjects and scores remaining by the above processing, and n is a candidate to be selected. Represents the number of candidate areas. s j indicates the score of the candidate area j. Further, x j is x j = 1 when the candidate area j is selected, and x j = 0 otherwise. Further, a ij is a ij = 1 when the candidate region j covers the subject i, and a ij = 0 when the candidate region j does not cover the subject i.
このような最適化問題は、特に上記の式に限定されるわけではない。つまり、領域設定部1005は、所望の条件に応じて、適宜異なる式を用いてもよい。例えば、領域設定部1005は、検出のロバスト性を向上させることを考えて、上記の式(1)のΣaij≧1をΣaij≧2とすることにより、全被写体を少なくとも2回以上被覆する検出対象領域を作成してもよい。
Such an optimization problem is not particularly limited to the above equation. That is, the
また、処理のコストを低減するという観点から、領域設定部1005は、選定される検出対象領域の総数が少なくなるように、検出対象領域の選定を行うことができる。つまり、そのように上記の最適化問題を解くことができる。検出対象領域の総数が少なくなるように最適化問題を解く方法は特に限定されない。例えば、領域設定部1005は、貪欲法又はラグランジュ緩和法などの公知の最適化法をこの問題に適用することにより、検出対象領域を選定してもよい。また例えば、領域設定部1005は、検出対象領域の総数が予め定められた所定の数以下になるように、検出対象領域を選定してもよい。
Further, from the viewpoint of reducing the processing cost, the
次いで、次の時刻の撮像画像の処理に移り、ステップS4002において、検出部1003が、選定された検出対象領域から被写体を検出する。
Next, the process proceeds to the processing of the captured image at the next time, and in step S4002, the
このような構成によれば、撮像画像から1以上の対象物を検出し、その対象物の位置にしたがって後続する時刻での被写体の検出において使用することができる検出対象領域を設定する検出装置を得ることができる。したがって、単一の固定カメラの視野内を通過する被写体を、計算コストと検出精度を両立させ、少ない計算コストでより高精度に追尾することが可能になる。 According to such a configuration, a detection device that detects one or more objects from the captured image and sets a detection target area that can be used in detecting the subject at a subsequent time according to the position of the objects. Obtainable. Therefore, it is possible to achieve both calculation cost and detection accuracy for a subject passing through the field of view of a single fixed camera, and to track the subject with higher accuracy at a low calculation cost.
[実施形態2]
実施形態2に係る検出装置は、次の時刻における被写体の位置を予測し、それに基づいた検出対象領域を設定することができる。特に、実施形態2に係る検出装置は、予測された被写体の位置、予測から生じ得るずれの量の幅に応じたバッファ幅を有する検出対象領域を設定することができる。したがって、本実施形態に係る検出装置は、例えば被写体が停止しているような場合においても、検出対象領域について余分なバッファ幅を取ることなく、少ない処理コストで検出処理を行うことができる。そのような処理のために、本実施形態に係る検出装置2000は予測部2001を有する。また、検出装置2000は、予測部2001を有することを除き実施形態1と同様であり、重複する説明は省略する。
[Embodiment 2]
The detection device according to the second embodiment can predict the position of the subject at the next time and set the detection target area based on the prediction. In particular, the detection device according to the second embodiment can set a detection target area having a buffer width corresponding to the predicted position of the subject and the width of the amount of deviation that can occur from the prediction. Therefore, the detection device according to the present embodiment can perform the detection process at a low processing cost without taking an extra buffer width for the detection target area even when the subject is stopped, for example. For such processing, the
図2(b)は、実施形態2に係る検出装置2000の機能構成の一例を示すブロック図である。予測部2001は、各被写体について、次回に検出を行う時のその被写体の位置を予測する。領域設定部1005は、予測部2001が予測した被写体の位置を考慮に入れて検出対象領域を設定する。
FIG. 2B is a block diagram showing an example of the functional configuration of the
以下では図3(b)を参照して、本実施形態に係る検出装置2000が行う検出方法の流れを説明する。図3(b)は本実施形態に係る検出を行うための処理手順の一例を示すフローチャートである。本実施形態に係る検出装置2000の処理手順は、ステップS5001及びステップS5002を除き、実施形態1と同様に行うことができる。
Hereinafter, the flow of the detection method performed by the
ステップS5001で予測部2001は、次の時刻において各被写体が検出される位置を予測する。予測部2001が次回の被写体の位置の予測をするための方法は特に限定されない。ループL5001において、被写体は、ステップS4003で、前時刻で検出された同一の識別情報を持つ被写体の像と対応付けられている。つまり、予測部2001は、特定の被写体について、現時点までの毎時刻の座標を取得することが可能である。例えば、予測部2001は、被写体の前回の位置と現時点での位置の差分を取る事により、被写体の前回の検出から今回の検出までの移動距離及び移動方向を算出し、及びそれらに基づいて次回の検出時の被写体の位置を予測してもよい。また例えば、予測部2001は、被写体の前回の位置と現時点の位置に加えて、前回より以前の任意の時刻における被写体の位置を適宜用いることにより、被写体の前回の検出から今回の検出までの移動距離及び移動方向についての情報を算出することができる。そのような処理によれば、予測部2001は、被写体の前回の位置と今回の位置とのみを用いて被写体の前回から今回までの移動距離及び移動方向を算出する場合と比べて、より平滑化した情報を算出することができる。このような場合においても、予測部2001は、算出した被写体の情報から、次回の被写体の位置を予測することができる。
In step S5001, the
ステップS5002で領域設定部1005は、次回のステップS4002において検出に用いる検出対象領域を設定する。この例においては、領域設定部1005は、検出対象領域の移動処理、及びバッファ幅の設定方法を除き実施形態1のステップS4004と同様の処理を行うため、重複する説明は省略する。領域設定部1005は、ステップS5001で予測した次回の被写体の位置に基づいて、その被写体を被覆する検出対象領域の位置を移動させることができる。そのような場合、検出対象領域の移動のさせ方は特に限定されない。領域設定部1005は、例えば、検出対象領域が一つの被写体を被覆している場合に、その被写体の予測位置への移動と同様に検出対象領域を移動させてもよい。また領域設定部1005は、検出対象領域が複数の被写体を被覆している場合には、例えば、それらの中の最もスコアの高い被写体の移動に応じて検出対象領域を移動させてもよく、それらの被写体の予測される移動の平均に応じて検出対象領域を移動させてもよい。さらに、領域設定部1005は、被写体の位置の予測時に生じるノイズ分(真値からのずれ量分)の幅を適宜算出し、及びそのようなノイズ分の値のバッファ幅を設定してもよい。そのような場合、領域設定部1005は、例えば、ノイズ分の値を、被写体のトラッキングデータを用いて、被写体について、S5001における方法と同様にして予測される予測位置と検出された位置とのずれ量の平均として算出してもよい。つまり、領域設定部1005は、ノイズ分の値を、現時点までのループにおける、被写体の予測位置と検出された位置とのずれ量の平均として算出してもよい。
In step S5002, the
このような構成によれば、被写体の予測位置に基づいて、検出に適した検出対象領域を設定することができる。また、被写体の予測位置に基づいてバッファ領域を設定することができる。したがって、単一の固定カメラの視野内を通過する被写体を、より少ない計算コストで追尾することが可能となる。 According to such a configuration, it is possible to set a detection target area suitable for detection based on the predicted position of the subject. In addition, the buffer area can be set based on the predicted position of the subject. Therefore, it is possible to track a subject passing through the field of view of a single fixed camera at a lower calculation cost.
[実施形態3]
実施形態3に係る検出装置は、複数のカメラにより得られた撮像画像のそれぞれから被写体を検出し、その結果を用いて被写体を追跡する。その際に、検出装置は、前回のループにおいて被写体の観測値から推定された被写体の3次元空間上の状態(つまり、位置、姿勢及び速度)の予測値に基づいて、現時点における被写体の状態を予測することができる。また、予測された現時点での被写体の状態に基づいて、被写体の撮像画像上における座標及びスコアの予測値をさらに取得し、その被写体の座標及びスコアに基づいて検出対象領域を設定し、及び被写体を検出することができる。さらに、次回の時刻において予測される被写体の検出のスコアを最大化させる検出対象領域を設定することができる。以下では、複数の固定カメラを用いて、フットサルと呼ばれる小スケールのサッカーの屋内ピッチの撮像を行う場合について説明するが、この用途には限定されない。つまり、本実施形態における被写体は、人物の頭部と、サッカーボール(以下ボールと呼ぶ)とであるとする。
[Embodiment 3]
The detection device according to the third embodiment detects a subject from each of the captured images obtained by a plurality of cameras, and tracks the subject using the result. At that time, the detection device determines the current state of the subject based on the predicted values of the state (that is, position, posture, and velocity) of the subject in the three-dimensional space estimated from the observed values of the subject in the previous loop. Can be predicted. Further, based on the predicted current state of the subject, the predicted values of the coordinates and the score on the captured image of the subject are further acquired, the detection target area is set based on the coordinates and the score of the subject, and the subject is set. Can be detected. Further, it is possible to set a detection target area that maximizes the detection score of the subject predicted at the next time. In the following, a case where a plurality of fixed cameras are used to image a small-scale indoor pitch of soccer called futsal will be described, but the present invention is not limited to this application. That is, it is assumed that the subjects in the present embodiment are the head of a person and a soccer ball (hereinafter referred to as a ball).
図8は、本実施形態において想定される検出装置3000の実施形態を説明するための図である。カメラ配置例800は、本実施形態に係るカメラ配置及びピッチの俯瞰図であり、カメラ801〜806、3次元空間の原点807及び807を原点とした3次元座標のX軸、Y軸及びZ軸を示す808、809及び810、並びにピッチ811を有している。本実施形態において、各カメラは地面からある程度の高さの空間壁面に固定されており、及び、ピッチ上に存在する被写体を撮像するように設置されていてもよい。また、検出装置3000の有する各カメラは、カメラキャリブレーションにより、それぞれ内部パラメータ及び外部パラメータが与えられている。よって、以下においては、検出装置3000は、被写体の3次元座標から、被写体のピクセル座標を求めることができるものとする。カメラキャリブレーションについては公知の技術であるため、詳細な説明は省略する。またこの例において、X軸808とZ軸810がなす平面が地面であり、及びY軸809が高さを表す方向である。
FIG. 8 is a diagram for explaining an embodiment of the
人物配置例820は、同空間中に存在する人物とボールのある時刻での配置の一例である。人物配置例820のピッチ811は、カメラ配置例800のピッチ811と同じピッチである。821は同ピッチのハーフウェーラインであり、及び822はセンターマークである。A0、A1、A2、A3及びA4は、Aチームの選手(人物)で、並びに、B0、B1、B2、B3及びB4は、Bチームの選手(人物)である。また、S0はボールである。 The person arrangement example 820 is an example of the arrangement of the person and the ball existing in the same space at a certain time. The pitch 811 of the person arrangement example 820 is the same pitch as the pitch 811 of the camera arrangement example 800. 821 is a halfway line of the same pitch, and 822 is a center mark. A0, A1, A2, A3 and A4 are players (persons) of team A, and B0, B1, B2, B3 and B4 are players (persons) of team B. Further, S0 is a ball.
画像例830、840、850、860、870、及び880は、人物配置例820の人物及びボール配置を、それぞれカメラ801、802、803、804、805及び806で撮像した場合の画像例である。また、各画像例におけるA0、A1、A2、A3、A4、B0、B1、B2、B3、及びB4、並びにS0は人物及びボールであり、人物配置例820のA0、A1、A2、A3、A4、B0、B1、B2、B3、及びB4並びにS0にそれぞれ対応する。
Image examples 830, 840, 850, 860, 870, and 880 are image examples when the person and ball arrangement of the person arrangement example 820 are imaged by the
図2(c)は実施形態3に係る検出装置3000の機能構成の一例を示すブロック図である。検出装置3000は、撮像部3100と処理部3200とを有する。撮像部3100は、第1の動画取得部3001と、第Kの動画取得部3002と、図中で省略されている動画取得部との、計K個の動画取得部を有している。例えば、図8の例においては、カメラの数は6台であるため、Kは6となる。本実施形態に係るこれらの動画取得部は、それぞれ実施形態1における動画取得部1001と同様の構成を有する。処理部3200は、図2(c)の例においては、初期値設定部3003、予測部3004、領域設定部3005、検出部3006、対応付け部3007、重み計算部3008、更新部3009、及び可視化部3010を有する。
FIG. 2C is a block diagram showing an example of the functional configuration of the
初期値設定部3003は、検出処理の初期時刻における、被写体の位置、姿勢、及び速度の値を設定する。予測部3004は、各被写体の3次元空間上の位置、姿勢、及び速度の予測を行い、及び、カメラそれぞれについて被写体の観測値の予測を行う。詳しい説明は後述するが、観測値とは、被写体のピクセル座標上での位置及び検出のスコアである。領域設定部3005は、現時点における検出対象領域を設定する。検出部3006は、領域設定部3005が設定した検出対象領域及び各カメラが取得する画像から、その画像における検出対象領域での被写体の検出を行い、及び、被写体の位置及びスコアを取得する。対応付け部3007は、前回の被写体の像と今回の被写体の像とを対応付ける。重み計算部3008は、各カメラのそれぞれの観測値の重みを計算する。更新部3009は、各被写体について、前回のループにおける観測値と観測値の重みとを用いることにより、その被写体の状態、つまり位置、姿勢、及び速度を更新する。可視化部3010は、各被写体の、検出を行った時刻での位置の軌跡を可視化する。処理部3200の有するこれらの機能部が行う処理の詳細については、図3(c)のフローチャートと共に後述する。処理部3200は、実施形態1の処理部1200と同様にモニタリング部1300と接続されていてもよい。
The initial
本実施形態に係る検出装置は、被写体の観測値から、被写体の状態を推定することができる。3次元空間上での被写体の追尾の枠組みを説明するにあたり、検出装置3000により検出される被写体の観測値と、その観測値から推定される被写体の状態変数とについて説明する。検出装置3000による被写体の観測値とは、被写体の、撮像画像のピクセル座標上での位置(u、v)及びスコア(q)であり、計3次元の(u、v、q)で表されてもよい。被写体の位置(u、v)は、被写体を囲むバウンディングボックスの中心の位置であり、そのバウンディングボックスの座標情報及びバウンディングボックスを含む検出対象領域の座標情報から、検出装置3000が算出することができる。また、同一の被写体についてのスコア(q)の値は、その被写体を含む検出対象領域のサイズによって異なり得る。
The detection device according to the present embodiment can estimate the state of the subject from the observed value of the subject. In explaining the framework for tracking a subject in a three-dimensional space, the observed value of the subject detected by the
被写体の状態変数とは、被写体の3次元空間上の状態、つまり位置、姿勢及び速度を表す変数である。つまり、この状態変数を推定することにより、検出装置が、被写体の3次元空間上での位置を推定し、及び被写体の追尾を行うことができる。本実施形態に係る検出装置3000は、被写体の状態変数を、その被写体の観測値から推定することができる。
The state variable of the subject is a variable representing the state of the subject in the three-dimensional space, that is, the position, posture, and speed. That is, by estimating this state variable, the detection device can estimate the position of the subject in the three-dimensional space and track the subject. The
予測部3004は、前回のループにおける被写体の状態変数から、現時点における状態変数及び観測値の予測分布を取得することができる。本実施形態においては被写体が頭部又はボールであるので、それぞれについての状態変数を考慮する。頭部の状態変数は、被写体の3次元空間上の位置(x、y、z)、姿勢(φ、θ、ψ)、及び速度(x’、y’、z’)の計9次元の変数として与えられる。また、ボールの状態変数は、ボールが球形であり、その姿勢の変化によってもカメラから見た形状が不変であることから、被写体の3次元空間上の位置(x、y、z)及び速度(x’、y’、z’)の計6次元の変数として与えられる。つまり、観測値y、頭部の状態変数xhead、及びボールの状態変数xballは、下記の式で記述されることができる。
上記の式において、添え字tは時刻を表す。また、ksjは、カメラkによる撮像画像内における、サイズsの検出対象領域におけるj番目の検出対象領域の観測値を表す。Tは転置である。また、添え字nは人物を表し、本実施形態においては、その人物の、IDのような識別情報の値であってもよい。 In the above equation, the subscript t represents the time. Further, k sj represents an observed value of the j-th detection target region in the detection target region of size s in the image captured by the camera k. T is transpose. Further, the subscript n represents a person, and in the present embodiment, it may be a value of identification information such as an ID of the person.
さらに、後述するステップS6006の処理により、nとksjの対応付けが行われる。結果として、yt,ksjはyt、k、s、n=[ut,k,s,n,、vt,k,s,n,、qt,k,s,n,]Tと対応付けられる。ここで、yt、k、s、nは、カメラkによる撮像画像内の、サイズsの検出対象領域における時刻tの被写体nの観測値を表す。本実施形態においては、上述の観測値及び状態変数を持つ状態空間モデルを用いることにより、観測値から状態を推定する拡張カルマンフィルタを用いて、頭部とボールの検出及び追尾を行う。拡張カルマンフィルタについては公知であるため、詳細な説明は省略する。 Further, by the process of step S6006 described later, the association between n and k sj is performed. As a result, y t, ksj becomes y t, k, s, n = [ ut, k, s, n , v t, k, s, n ,, q t, k, s, n, ] T. Associated. Here, y t, k, s, and n represent the observed values of the subject n at time t in the detection target region of size s in the image captured by the camera k. In the present embodiment, by using the state space model having the above-mentioned observed values and state variables, the head and the ball are detected and tracked by using the extended Kalman filter that estimates the state from the observed values. Since the extended Kalman filter is known, detailed description thereof will be omitted.
図3(c)は本実施形態に係る検出を行うための処理手順の一例を示すフローチャートである。ループL6001において、検出装置3000は、時刻1からtまで、以下のステップS6002〜S6009の操作を順に繰り返し、及び次の時刻に進むことができる。ステップS6001において初期値設定部3003は、開始時刻(t=1)における被写体の初期の状態の取得を行う。開始時刻において、被写体の状態変数における速度及び姿勢は0とすることができる。また、被写体の状態変数における位置は、検出対象領域内の複数の被写体の観測値と被写体とを対応付けることを考えて、その被写体の3次元座標上の正しい位置の値に近い値であってもよい。
FIG. 3C is a flowchart showing an example of a processing procedure for performing the detection according to the present embodiment. In the loop L6001, the
以下、被写体の3次元座標上の正しい位置の値(x、y、z)に近い値を取得する方法について説明する。ステップS6001において初期値設定部3003は、各カメラの撮像画像内から被写体を検出し、及びそれぞれのカメラのピクセル座標上での被写体の位置(u、v)を取得する。次いで、初期値設定部3003は、被写体の種類に応じて被写体の高さ方向の値yを仮定する。観測値と被写体の対応付けのためには被写体の高さyの正確な値は必要ではないことから、初期値設定部3003は、被写体の高さを、大まかな値として仮定してもよい。例えば、初期値設定部3003は、頭部の高さを1.5m、及びボールの高さを0.1mと仮定してもよい。以下においては、説明のため頭部の高さを1.5m、及びボールの高さを0.1mであると仮定して説明を行うが、被写体の高さはそのように限定されるわけではない。次いで、初期値設定部3003は、透視投影行列を用いることにより、そのような(u、v)から、被写体の3次元空間上の位置(x、1.5、z)又は(x、0.1、z)を取得する。
Hereinafter, a method of acquiring a value close to the value (x, y, z) of the correct position on the three-dimensional coordinates of the subject will be described. In step S6001, the initial
さらに初期値設定部3003は、すべてのカメラにおいて取得された各被写体の3次元座標上の位置から、同一の被写体の像を対応付ける。初期値設定部3003は、例えば、取得された各被写体の3次元座標上の位置を、例えば公知のk−means法のような手法によってクラスタリングし、及び、クラスタリングされた各クラスタに含まれる被写体を同一の被写体としてもよい。そのような場合、初期値設定部3003は、各クラスタに含まれる位置の値の平均を取る事により、各被写体の初期の位置(x、y、z)を取得してもよい。
Further, the initial
このような処理により、初期値設定部3003は、ボールの状態変数の初期値xball 0,n=(x0,n、0.1、z0,n、0、0、0)を取得することができる。また、初期値設定部3003は、頭部の状態変数の初期値xhead 0,n=(x0,n、1.5、z0,n、0、0、0、0、0、0)も取得することができる。これらの初期値は、状態変数の初期のフィルタ分布(事後分布)の1次モーメント(平均)x0|0,nとすることができる。そのような場合、状態変数の初期のフィルタ分布の2次モーメント(分散共分散行列)は、適当な大きさの半正定値行列であってもよい。
By such a process, the initial
ステップS6002において、予測部3004は、各被写体の状態変数及び観測値の予測分布を取得する。予測部3004は、例えば、下記のシステム方程式(3)を用いることにより、頭部である被写体についての予測分布を取得することができる。この式において、Δtは、L6001における前回から今回までの時間幅(秒)を表す。また、stは、プロセスノイズと呼ばれる(すなわち、例えば予測プロセス中に発生するノイズである)白色ガウスノイズである。QtはStの分散逆分散行列である。本実施形態においては、予測部は式(3)を用いて被写体の状態変数の予測分布を取得するものとして説明するが、その手法が特に限定されるわけではない。このシステム方程式において、被写体の位置(x、y、z)の変化は、2次のマルコフ過程でモデル化した被写体の位置及び速度のトレンド成分モデルとして扱われている。さらに、姿勢(φ、θ、ψ)は、被写体の姿勢の1次のマルコフ過程としてモデル化されている。
また、被写体がボールである場合のシステム方程式は、式(3)から姿勢(φ、θ、ψ)に関する次元を無視した、下記のシステム方程式(4)を用いる。以降においては、簡単のため、頭部とボールを明確に区別する必要がある場合を除き、xhead tn及びxball tnを、xtnのように表記する。
予測部3004は、後述する観測方程式(6)及び(7)、並びに(8)又は(8’)を用いることにより、被写体の観測値の予測分布を取得することができる。観測方程式(6)及び(7)は、下記の式(5)に基づいて導出される。式(5)は、3次元空間上の点をカメラのピクセル座標上に射影する式である。上述の通り、検出装置3000の有するカメラの内部パラメータ及び外部パラメータは予め取得されているので、検出装置3000は、3次元空間上の点をピクセル座標上に射影することができる。そのような射影は、下式(5)のように記述することができる。ここで、pxx,kは、カメラkにおける透視投影行列の各要素である。γは、同時座標系のパラメータである。
予測部3004は、式(5)に基づいて、下記の観測方程式(6)及び(7)を上述の通り導出することができる。これらの観測方程式により、予測部3004は、被写体の3次元空間上の位置(x、y、z)から、被写体の観測値である位置(u、v)を算出することができる。wtは、観測ノイズと呼ばれる白色ガウスノイズである。
The
式(6)及び(7)とはつまり、被写体の3次元空間上の位置(x、y、z)がピクセル座標(u、v)として観測される過程をモデル化した式である。本実施形態においては、複数のカメラが非同期であることによるカメラそれぞれが取得する被写体の位置のずれ、及び一部カメラのコマ落ちによる被写体の位置のずれが発生する。また、検出装置3000の処理過程で発生する被写体の位置のずれ、及びカメラキャリブレーションの誤差に伴う被写体の位置のずれも発生する。wtは、これらの要因により検出装置3000に観測されると考えられる、3次元空間上の被写体の位置のずれをモデル化したものである。
また、下記の観測方程式(8)及び(8’)は被写体のスコアについての観測方程式であり、それぞれ被写体が頭部である場合とボールである場合とに対応する。
ここで、Ckはカメラkの3次元空間上の位置を表す。また、||x−C||2は被写体とカメラとのユークリッド距離を表す。αs (0)、αs (1)、αs (2)、αs (3)、及びαs (4)はモデルパラメータである。θx、θy、及びθzは、カメラの外部パラメータの回転行列をRとし、及び頭部の姿勢(φ、θ、ψ)から得られる回転行列をRoとしたときの行列(下記の式(9))の要素を用いて表現できる。例えばこの場合、θxはasin(r32)、θyはatan(−r31/r33)、及びθzはatan(r21/r11)と表現することができる。
式(8)及び(8’)は、被写体のスコアを検出装置3000が観測する過程をモデル化した重回帰モデルである。所定の被写体を検出する検出装置は、一般に、撮像された被写体の大きさ及び姿勢に基づいて出力するスコアを変化させ、及び、そのようなスコアに応じて被写体を検出することができる。また一般に、撮像画像中の被写体の大きさは、カメラと被写体との距離と相関関係にあることが多い。そのため、検出装置3000は、カメラと被写体との距離に応じて被写体のスコアを変化させてもよい。また、検出のための学習データに偏りがない検出装置は、検出する被写体が撮像画像内において大きく映し出されている場合に、その被写体について、テクスチャなどの画像特徴量をロバストに取得し、及び検出のスコアも高くなる。また、特に検出する被写体が人物である場合、その人物がカメラに対して正面を向いている場合に、目、鼻及び口などの識別に関わる重要なパーツの見えが安定するため、検出のスコアが高くなる傾向がある。逆に人物がカメラに対して反対の方向を向いている場合には、識別の手がかりとなるそのようなパーツの見えが少なくなり、検出のスコアが低くなる傾向がある。一方で、ボールを被写体とする場合には、ボールは姿勢の変化による形状の変化が生じないため、被写体とカメラとの距離のみに応じて検出のスコアが変化してもよい。
Equations (8) and (8') are multiple regression models that model the process by which the
式(8)の第1項は定数項である。また、式(8)の第2項は、カメラから被写体までの距離とその被写体のスコアとの関係を表す項である。式(8)の第3、4、及び5項は、カメラから見える頭部の姿勢とその被写体のスコアとの関係をコサイン関数でモデル化した項である。さらに、第6項はノイズ項である。これらの要素を要因とする被写体のスコアの変化は、検出対象領域のサイズに応じて異なってくると考えられるため、式(8)及び(8’)のモデルパラメータαs (0)〜αs (4)は検出対象領域のサイズに基づいて異なる値を取ってもよい。また、上述の理由によりボールの検出には姿勢の変化が関わってこないため、ボールを検出する場合のスコアの観測方程式としては、式(3’)のモデル化が行われてもよい。 The first term of equation (8) is a constant term. The second term of the equation (8) is a term expressing the relationship between the distance from the camera to the subject and the score of the subject. The third, fourth, and fifth terms of the equation (8) are terms in which the relationship between the posture of the head seen from the camera and the score of the subject is modeled by the cosine function. Further, the sixth term is a noise term. Change in the score of the object that these elements and factors, the detection since it is considered that the target area varies according to the size, model parameters alpha s (0) of formula (8) and (8 ') ~ .alpha.s ( 4) may take different values based on the size of the detection target area. Further, since the change in posture is not involved in the detection of the ball for the above-mentioned reason, the equation (3') may be modeled as the observation equation of the score when the ball is detected.
予測部3004は、モデルパラメータαs (0)、αs (1)、αs (2)、αs (3)、及びαs (4)の推定を行うことができる。この推定の方法は特に限定されない。例えば、予測部3004は、撮像画像中の複数の頭部に、それぞれ3次元空間上の向きの正解値を付与し、頭部それぞれについてのスコアを取得することができる。次いで、予測部3004は、そのような向きの情報とスコアを持つ頭部のサンプルを複数用いて最小2乗法を行うことによりパラメータの推定を行ってもよい。最小2乗法は複数のデータの組(x、y)が与えられた場合にxとyの関係を表すもっともらしい関数を求める方法であるが、公知の技術であるため、詳細な説明は省略する。例えば、予測部3004は、後述する式(16)の尤度関数を用いることにより、被写体の観測値に対するモデルの尤度を計算してもよい。そのような場合、予測部3004は、多数の観測値から式(16)を用いて対数尤度を算出し、及び、グリッドサーチやベイズ最適化法のような公知のパラメータ探索手法を用いることによって、対数尤度を最大化させるモデルパラメータを推定することができる。例えば、尤度関数を用いる上記の方法を用いてモデルパラメータを推定することにより、予測部3004は、ユーザ入力による正解値の付与を必要としない、効率的なモデルパラメータの推定を行うことができる。また、モデルパラメータを推定する方法はこれらには限られず、例えば、EM法を用いた再帰的な探索方法、又はモデルパラメータも状態空間に組み込んだ自己組織的なモデルとする方法などにより行われてもよい。上述の手法については、公知の技術であるため、詳細な説明は省略する。
The
以下においては、上述の式(6)、(7)、(8)及び(8’)をまとめ、下記の式(10)のように表現する。ここで、観測ノイズwtの分散共分散行列はRであるとする。また、この式(10)から、尤度関数P(yt,kj,s|xt,n)が取得される。
yt,k,j,s=ht,k,s(xt,n)+Wt 式(10)
In the following, the above equations (6), (7), (8) and (8') will be summarized and expressed as the following equation (10). Here, the variance-covariance matrix of the observation noise w t is assumed to be R. Further, the likelihood function P ( yt, kj, s | xt, n ) is obtained from this equation (10).
y t, k, j, s = ht, k, s (x t, n ) + W t equation (10)
以上のシステム方程式及び観測方程式を用いた下記の式(11)〜(14)により、予測部3004は、被写体(頭部)nの1時刻前(時刻t−1)の状態から、被写体の現在(時刻t)の状態及び観測値を予測することができる。ここで、xt|t−1,n及びVt|t−1,nは状態変数の予測分布の1次モーメント及び2次モーメントをそれぞれ表す。また、yt|t−1,k,s,n及びUt|t−1,k,s,nは観測値の予測分布の1次モーメント及び2次モーメントをそれぞれ表す。また、Qtはプロセスノイズの分散共分散行列を、Rtは観測ノイズwtの分散共分散行列を表す。Ht,k,sはht,k,s(xt,n)のヤコビ行列である。
以降において、簡単のため、上述の式(11)〜(14)に示される1次モーメント及び2次モーメントを有するガウス分布に従う状態変数並びに観測値の予測分布を、P(xt,n|Yt−1)並びにP(yt,k,s,n|Yt−1)と表現する。ここで、Yt−1は時刻t−1までの被写体の観測値の集合である。また、yt,k,s,nは、時刻tの、カメラkによる撮像画像中の、サイズsの検出対象領域内の、被写体nの観測値である。なお、時刻t=1である場合、被写体の観測値及び状態変数は初期値であるものとする。 In the following, for the sake of simplicity, the predicted distributions of state variables and observed values according to the Gaussian distribution having the first and second moments shown in the above equations (11) to (14) are set to P ( xt, n | Y). It is expressed as t-1) and P (y t, k, s, n | Y t-1 ). Here, Y t-1 is a set of observed values of the subject up to the time t-1. Further, y t, k, s, and n are observed values of the subject n in the detection target region of size s in the image captured by the camera k at time t. When the time t = 1, the observed value and the state variable of the subject are assumed to be initial values.
ステップS6003において領域設定部3005は、後述のステップS6005において被写体の検出に用いる検出対象領域を設定する。図9は、ステップS6003における検出対象領域の設定を行うための処理手順の一例を示すフローチャートである。
In step S6003, the
ステップS7001で領域設定部3005は、被写体を有する、前回のループで作成された第2候補領域のピクセル座標を取得する。ステップS7001で用いられる第2候補領域は、後述のステップS7004で検出対象領域を選定する際の候補であり、ステップS7003で各被写体に対してそれぞれ異なる第2候補領域がそれぞれ1つずつ割り当てられるように作成される。そのように第2候補領域が割り当てられた被写体を、その第2候補領域における代表被覆要素と呼び、及び、その第2候補領域が有する他の被写体を、非代表被覆要素と呼ぶ。また、領域設定部3005は、代表被覆要素である被写体の現時点における予測位置に基づいて、その被写体に割り当てられた第2候補領域を移動させることができる。各被写体の現時点におけるピクセル座標は、ステップS6002において予測されている(つまり、観測値の予測分布の1次モーメント(式(6)))。例えば、領域設定部3005は、代表被覆要素の前回の位置から現時点の位置への移動と同様に第2候補領域を移動させてもよく、又は、第2候補領域の中心座標が代表被覆要素の予測位置と一致するように、第2候補領域を移動させてもよい。また、第2候補領域に対して代表被覆要素が割り当てられていない場合、領域設定部3005は、そのような第2候補領域を移動させなくてもよい。また、代表被覆要素が全てのカメラの視野から出ていった場合、領域設定部3005は、対応する第2候補領域を削除してもよい。時刻t=1の場合には、第2候補領域が存在しないので、処理はステップS7002へと移動する。
In step S7001, the
B7001で領域設定部3005は、全被写体の被覆をチェックする。例えば、領域設定部3005は、前回のループで作成された第2候補領域と、S6002において予測された被写体の位置に基づいて、全ての被写体が第2候補領域のどれかに被覆されているかどうかを判定することができる。全ての被写体が第2候補領域に被覆されていない場合、第2候補領域の割り当てを行うことができる。また、領域設定部3005は、第2候補領域が割り当てられていない被写体が存在するかどうかを判定することができる。領域設定部3005は、前回の検出から新たにいずれかのカメラの視野内に移動してきた被写体がいないかどうかを判定してもよい。第2候補領域が割り当てられていない被写体が存在する場合、第2候補領域の割り当てを行うことができる。また、時刻t=1の場合も、被写体に第2候補領域を割り当てることができる。第2候補領域の割り当てを行う場合、ステップS7002へと移動する。そうでない場合は、ステップS7004へと移動する。
In B7001, the
ステップS7002で領域設定部3005は、各カメラ毎に、候補領域(実施形態1のステップS4004と同様に作成される)の集合から、各撮像画像内に存在する被写体をすべて被覆するように1以上の第1候補領域を選定する。領域設定部3005は、例えば、ステップS4004と同様に、候補領域から、被写体を被覆していない領域を取り除いてもよい。次いでステップS7003において、領域設定部3005は、すべてのカメラについて選定された第1候補領域の集合から、すべての被写体に対してそれぞれ少なくとも1つずつの異なる領域が割り当てられるように、第2候補領域を選定する。そのためには、例えば、領域設定部3005は、下記の整数計画問題(式(15))を解くことにより、第2候補領域を選定することができる。ここで、iは被写体のインデックスであり、mは被写体の数の合計である。またjは候補領域のインデックスであり、sjは候補領域のスコアである。xjは、候補領域が選定されればxj=1となり、そうでない場合は0となる。またaijは、候補領域jが被写体iを被覆する場合は1、そうでない場合は0となる。この時、領域設定部3005は、各被写体の検出のスコアの予測値から、実施形態1の図7の例のように、その領域の有する被写体のスコアの内の最も高いスコアの予測値を、その領域のスコアとして用いることができる。領域設定部3005は、式(15)について、貪欲法又はハンガリー法などを用いることにより、上述の割り当てを行うことができる。このように、被写体に対して第2候補領域を割り当てることができ、ある第2候補領域が割り当てられた被写体がこの第2候補領域についての代表被覆要素として扱われる。
ステップS7004において領域設定部3005は、第2候補領域から、後述のステップS6005において用いる検出対象領域を選定する。領域設定部3005は、例えば、そのような第2候補領域を候補領域として、実施形態1における式(1)を解くことにより、検出対象領域を求めてもよい。
In step S7004, the
図10は、図8と同様の例であり、本実施形態において想定される検出装置3000が撮像する6視点の画像を用いて、第2候補領域及び検出対象領域を説明するための図である。各視点の画像は図8における同一の参照番号がふられた視点のものと等しい。各画像には、図8の各画像と同様の被写体(A1〜4、B1〜4及びC0)が映っている。図10における画像例1400、1410、1420、1430、1440、1450、及び1460は、それぞれカメラ(視点)801、802、803、804、805、及び806による撮像画像の例である。図10において、領域1401は第2候補領域C1であり、最終的に検出対象領域として選定される。また、領域1411及び1412はそれぞれ第2候補領域C2及びC3であり、並びに、最終的に、C2は検出対象領域として選定されないが、C3は検出対象領域として選定される。領域1421は第2候補領域C4であり、最終的に検出対象領域として選定される。領域1431、1432、1433及び1434はそれぞれ第2候補領域C5、C6、C7及びC8であり、並びに、最終的に、C5及びC6は検出対象領域として選定されないが、C7及びC8は検出対象領域として選定される。領域1441、1442及び1443はそれぞれ第2候補領域C9、C10及びC11であり、並びに、最終的に、C9、C10及びC11は検出対象領域として選定される。画像例1450には第2候補領域は存在しない。
FIG. 10 is an example similar to that of FIG. 8, and is a diagram for explaining a second candidate region and a detection target region using an image of six viewpoints captured by the
図10に示される第2候補領域をリスト化した表の一例が、図11に示されている。図11において、上述のように、すべての被写体(この例では11個)について1つずつ第2候補領域が割り当てられている。第2候補領域の数は、被写体それぞれに少なくとも1つずつ割り当てられるそれぞれ異なる第2候補領域が存在する限りは特に限定されない。例えば、各被写体に対して異なる第2候補領域が2つずつ、つまりこの例では計22個の第2候補領域が存在していてもよい。 An example of a table listing the second candidate regions shown in FIG. 10 is shown in FIG. In FIG. 11, as described above, the second candidate area is assigned to all the subjects (11 in this example) one by one. The number of the second candidate regions is not particularly limited as long as there are different second candidate regions allocated to each subject. For example, there may be two different second candidate regions for each subject, that is, a total of 22 second candidate regions may exist in this example.
図12には、図11に示される第2候補領域から式(1)に基づいて選定された検出対象領域をリスト化した表の一例が示されている。ステップS7004で領域設定部3005は、第2候補領域のスコアに基づいて式(1)の条件付き最適化を実行することにより、スコアの合計が最大となる、図12に示されるような最終的な検出対象領域を選定することができる。この例においては8つの検出対象領域が選定されており、及び、被写体毎に1つずつの検出対象領域を設定する場合と比較すると、計算コストが軽減されている。
FIG. 12 shows an example of a table listing the detection target regions selected based on the equation (1) from the second candidate region shown in FIG. In step S7004, the
このような処理によれば、第2候補領域と、現時点のループにおける検出を行うための検出対象領域と、を設定することができる。ステップS7003で選定された第2候補領域は、次回のループにおけるステップS7004においても用いるため、領域設定部3005は、第2候補領域を記憶装置(不図示)に格納してもよい。また、B7001において第2候補領域の割り当てが行われなかった場合には、ステップS7001で移動させた第2候補領域を記憶装置に格納してもよい。ここにおける記憶装置は検出装置3000の内部に存在していてもよく、また外部に存在していてもよい。また、検出装置3000は、記憶装置に、USBケーブルを介して保存を行ってもよく、SDカードなどを介して保存を行ってもよく、又は無線の通信を介して保存を行ってもよい。
According to such a process, the second candidate area and the detection target area for performing the detection in the current loop can be set. Since the second candidate area selected in step S7003 is also used in step S7004 in the next loop, the
ステップS6004において、撮像部3100の有するK台の動画取得部が、ある時刻においてそれぞれ撮像画像を取得する。これらのK台の動画取得部が有するカメラの撮像は、どのように制御されていてもよい。例えば、K台のカメラのシャターは、トリガーパルス、同期信号のような電気的な信号によって同期された周期で撮像されてもよく、又はカメラ内部のマイクロコントローラのクロックによってそれぞれ自律的な周期によって撮像されてもよい。また、K台のカメラの内の同時刻に撮像する台数は特に限定されない。例えば、K台の内半数のカメラが同時に撮像を行い、その後に続いて残りの半数のカメラが同時に撮像を行ってもよい。また、撮像部3100と処理部3200との接続手段は特に限定されない。撮像部3100及び処理部3200は、例えばローカルエリアネットワークなどの通信経路を介して接続されていてもよく、USBケーブルなどを介して有線で接続されていてもよい。例えば、撮像部3100は、出力した撮像画像を不図示の記憶装置に格納し、及び、処理部3200が、その記憶装置から所定のフレームを取得してもよい。
In step S6004, the K moving image acquisition units of the
本実施形態においては、説明のため、撮像部と処理部は通信経路を介して接続されているとする。そのような構成によれば、撮像部3100が取得及び送信し、並びに処理部3200が受信する撮像フレームは、ネットワーク経路に存在するスイッチングハブなどの中継部のパフォーマンス又は帯域の制限などにより、コマ落ちを生じ得る。そのような観点から、本実施形態に係る処理装置は、撮像部3100が取得したフレームを全ての時刻においてバッファリングしてもよい。そのような場合、コマ落ちが発生した際にその時刻で取得されるフレームは、前時刻に取得されたフレームと同じであってもよい。
In the present embodiment, for the sake of explanation, it is assumed that the imaging unit and the processing unit are connected via a communication path. According to such a configuration, the imaging frame acquired and transmitted by the
ステップS6005において検出部3006は、ステップS6004で取得された撮像画像のうち、ステップS6003で設定した検出対象領域から、被写体を検出する。本実施形態においては、実施形態1で用いたものと同様の構成を有する検出装置を用いる。また、この例においては、被写体が人物の頭部又はサッカーボールであることから、特に頭部とボールとを検出するように学習された検出装置を用いてもよい。
In step S6005, the
ステップS6006において対応付け部3007は、各カメラにおいて、時刻tにおける撮像画像から得られる被写体の観測値と、3次元空間上の被写体との対応付けを行う。対応付け部3007は、時刻tにおいて、カメラkによる撮像画像中のサイズsの検出対象領域中に誤検出を含んだJ個の観測値{yt,ks1、yt,ks2…yt,ksJ}を得ることができる。この時、式(13)及び(14)により予測部3004が取得する観測値の予測分布の1次モーメント及び2次モーメントから、任意のj番目の観測値に対して、下記のガウス分布(式(16))が記述される。この関数に観測値yt,ksjを因数として与えることにより、対応付け部3007は、被写体nの観測値としての尤度lksj,nを算出することができる。対応付け部3007は、例えば、複数の観測値{yt,ks1、yt,ks2…yt,ksJ}それぞれに式(16)を適用し、及び、尤度の高い観測値を被写体nの観測値として対応付けることにより、観測値と被写体の対応付けを行うことができる。時刻tが1である場合、つまり初回のループである場合は、検出された被写体それぞれについて識別情報を割り振る。
lksj,n=N(yt,ksj;yt|t−1,k,s,n、Ut|t−1,k,s,n) 式(16)
In step S6006, the
l ksj, n = N (y t, ksj ; y t | t-1, k, s, n , U t | t-1, k, s, n ) Equation (16)
ステップS6006における対応付けの方法は特に限定されない。例えば、対応付け部3007は、貪欲法に基づいて、被写体の複数の観測値の内の尤度が最大となる観測値を、その被写体の観測値として割り当てることができる。また例えば、対応付け部3007は、線形計画法によって、それぞれの被写体の観測値の尤度の和が最大になるように、被写体と観測値を対応付けてもよい。そのような場合は、例えば、観測値並びに予測分布の1次モーメント及び2次モーメントに基づいて算出されるマハラノビス距離を用いて、マハラノビス距離の和が最小となる対応付けをハンガリアン法で計算することで、尤度の和が最大になる対応付けが取得できる。
The method of associating in step S6006 is not particularly limited. For example, the
ステップS6007において重み計算部3008は、時刻tにおける各観測値の重みを算出する。重み計算部3008は、例えば、被写体が他の被写体によって隠蔽されている場合に、その隠蔽されている被写体の重みを低く計算することができる。本実施形態においては、対応付け部3007は、そのような隠蔽の発生する確率、つまり予測隠蔽率を予測、及び定量化してもよい。また、対応付け部3007は、そのような予測隠蔽率を、被写体と他の被写体との観測値の予測分布の類似度、及びカメラに対する被写体と他の被写体との前後関係に基づいて定量化することができる。
In step S6007, the
以下、本実施形態に係る、被写体の観測値の予測分布の1次モーメントのみを用いた、予測隠蔽率の軽量な定量化方法を説明する。この計算過程は特に限定されないが、この例においてはコサイン類似度を用いることにより観測値の予測分布の類似度を表現する。すなわち、重み計算部3008は、被写体nと被写体mとの間の類似度を、cosβ(yt|t−1,k,s,m、yt|t−1,k,s,n)として表現することができる。ここで、βは予め与えられる所定のべき指数である。
Hereinafter, a lightweight quantification method of the predicted concealment rate using only the first moment of the predicted distribution of the observed value of the subject according to the present embodiment will be described. This calculation process is not particularly limited, but in this example, the similarity of the predicted distribution of the observed values is expressed by using the cosine similarity. That is, the
また、重み計算部3008は、カメラに対する被写体nと被写体mとの前後関係を、下記の式(17)によって算出することができる。ここで、Ckは、カメラkの3次元空間上の位置である。式(17)の関数は、つまり、カメラkから見て、被写体mが被写体nよりも近くに存在する場合には1を返し、そうでない場合には0を返す関数である。この式を用いることにより、重み計算部3008は、下記の式(18)から予測隠蔽率pocc t,k,s,nを計算することができる。
min(max(||xt,n−Ck||2−||xt,m−Ck||2、0)、1) 式(17)
min (max (|| x t, n − C k || 2 − || x t, m −C k || 2 , 0), 1) Equation (17)
ここで、Nt,k,sは、時刻tにおける、カメラkによる撮像画像中の、サイズsの検出対象領域内に検出される被写体の数である。式(18)は、カメラkに対して、被写体の手前に別の被写体が存在し、及びカメラkからそれらの被写体を結ぶ視線が類似しているときに、カメラkから見て、その被写体がその被写体によって隠蔽されるという考え方に基づくものである。式(17)とコサイン類似度とを乗算した値は、カメラkに対して被写体mが被写体nよりも近い位置に存在し、及びそれらの被写体がピクセル座標上で近い位置に存在している場合に、1に近い値になる。式(10)は、そのような計算を、ある被写体が他の被写体すべてに対して計算し及び正規化したものである。つまり、pocc t,k,s,nが1である場合には被写体nが他の被写体に完全に隠蔽されており、pocc t,k,s,nが0である場合には被写体nが全く隠蔽されていないことを示す。 Here, N t, k, and s are the number of subjects detected in the detection target region of size s in the image captured by the camera k at time t. In the equation (18), when another subject exists in front of the subject with respect to the camera k and the line of sight connecting the subjects from the camera k is similar, the subject is viewed from the camera k. It is based on the idea that it is hidden by the subject. The value obtained by multiplying the equation (17) by the cosine similarity is when the subject m is closer to the camera k than the subject n and the subjects are closer to each other in pixel coordinates. In addition, the value is close to 1. Equation (10) is such a calculation calculated and normalized by one subject to all other subjects. That is, when the OCC t, k, s, n is 1, the subject n is completely concealed by another subject, and when the OCC t, k, s, n is 0, the subject n Indicates that is not concealed at all.
式(17)及び(18)に渡って、重み計算部3008は、観測値の予測分布の1次モーメントのみを用いることにより予測隠蔽率の定量化を行ったが、その方法は特にそれに制限されるものではない。例えば、重み計算部3008は、観測値の予測分布の2次モーメントまでを考慮してKLダイバージェンス等で分布間の距離を、カメラから各被写体への視線の類似度として計量し、及びその値を用いることにより、予測隠蔽率の定量化を行ってもよい。また、本実施形態において重み計算部3008は、被写体同士による予測隠蔽率を定量化したが、特にその条件に限るわけではない。例えば、重み計算部3008は、被写体と、被写体以外の遮蔽物、例えば看板のような動かない遮蔽物と、の予測隠蔽率を定量化してもよい。KLダイバージェンスは2つの確率分布がどの程度類似しているかを表す尺度であり、下記の式(25)のように定義される。
ステップS6008において、更新部3009は、時刻tにおける観測値を用いることにより、被写体の状態変数の予測分布を更新し、及び、その被写体の状態変数のフィルタ分布の取得を行う。また、この際、本実施形態に係る状態空間モデルにおいて、特定の被写体に関する観測値の個数は、被写体の移動に伴ってその被写体を観測可能なカメラの数が変動することなどにより変化し得る。そのようなことを鑑みて、更新部3009は、特定の被写体について、各カメラが出力する複数の観測値を統合することにより、その被写体の状態変数の予測分布を、その統合値として更新してもよい。以下において、フィルタ分布とは、被写体の状態変数のフィルタ分布を指してそう呼ぶものとする。
In step S6008, the
本実施形態においては、更新部3009は、例えば、被写体について、予測隠蔽率pocc t,k,s,nを考慮した観測値の統合を行うことができる。つまり、更新部3009は、隠蔽が予測される観測値を、その予測隠蔽率に応じた重みを付与した上で、つまりその状態変数の更新への反映率を低下させて、他の観測値と統合することができる。また例えば、更新部3009は、観測値qt,k,s,nのスコアを用いることにより、カメラに対する距離又は向きのような検出に好適な条件を有する可能性が高い被写体の観測値を、更新への反映率を増加させて、他の観測値と統合することができる。また、更新部3009が観測値を統合する方法は特に限定されない。以下、そのような統合方法について、2つの方針を説明する。
In the present embodiment, the
[統合方法1]
更新部3009は、例えば、各カメラの尤度関数P(yt,ksj|xt,n)の観測ノイズ分散共分散行列Rtに、(1−pocc t,k,s,n)とqt,k,s,nの逆数をかけてもよい。続いて、更新部3009は、各カメラが独立して観測値を取得しているという前提のもと、各カメラにおける観測値を同時分布として統合した統合尤度関数を、例えば下記の式(19)のようにモデル化することができる。ここで、Yt,KSn,nは、時刻tにおいて、複数のカメラの複数の検出対象領域内で観測される、被写体の観測値の集合である。また、P(yt,k,s,n|xt,n、qt,k,s,n、pocc t,k,s,n)の分散共分散行列は、(qt,k,s,n・(1−pocc t,k,s,n))−1・Rtであるとすることができる。つまり、この式は、被写体について、検出のスコアが小さいほど、及び予測隠蔽率が高いほど、その被写体の観測ノイズが大きくなるようにモデル化されることができる。
The
[統合方法1−1]
更新部3009は、例えば、下記の式(20)を用いて尤度関数の積の分布を計算することにより、通常の拡張カルマンフィルタの更新を適用することができる。つまり、更新部3009は、尤度関数の積の分布から、状態変数の予測分布を推定することができる。ここで、Sknは、被写体nにおける、ある時刻でのカメラkによる撮像画像中の検出対象領域の総数の値である。この方法によれば、更新部3009は、用いられるカメラ数の値を与えられることにより、状態変数の予測分布を推定することができる。つまり、更新部3009は、複数のガウス分布の積を予め計算し、及び1から所定数までの観測値についてガウス分布の積を関数として実装することにより、式(20)の計算を行うことができる。
The
[統合方法1−2]
また、更新部3009は、例えば下記の再帰的な式(21)を用いることにより、尤度関数の積を算出することができる。このような方法によれば、例えば検出に用いられるカメラの総数が不明である場合にも、状態変数の予測分布を推定することができる。
Further, the
[統合方法2] [Integration method 2]
更新部3009は、例えば、統合尤度関数を、(1−pocc t,k,s,n)とqt,k,s,nの積を混合比として、各カメラの尤度関数P(yt,ksj|xt,n)の混合分布で、下記の式(22)のようにモデル化してもよい。この方針によれば、更新部3009は、複数のカメラの視線(カメラの高額中心と被写体とを結ぶ直線)の交点以外の、各市洗浄にも尤度が分布する統合を行うことができる。
例えば、更新部3009は、下記の式(23)を用いて、それぞれ重みづけされたカルマンフィードバックの和を算出することにより、観測値の統合を行ってもよい。このような方法によれば、ガウス分布の積を用いたモデル化が行われないため、例えば検出に用いられるカメラの数が多い場合においても、分布の分散が縮退しない。つまり、すべてのカメラの観測値が除外されずに統合される。結果として、更新部3009による、時間的変化が滑らかな状態変数の推定が可能になる。
これらの方法の何れかによれば、カメラ毎の観測値を統合し及び、そのような統合を反映させた更新を行うことにより、複数の観測値と予測の誤差を補正した状態変数のフィルタ分布の取得を実行することが可能となる。また、すべてのカメラにおいて、すべての被写体の予測隠蔽率pocc t,k,s,nが1である場合、又はすべての観測値が欠損している場合には、更新部3009は、フィルタ分布として、更新されていない状態変数の予測分布を取得してもよい。つまり、下記の式(24)を実行すればよい。
ステップS6009において可視化部3010は、被写体について、推定された3次元空間上の位置と、そのような推定位置の時系列と、の可視化を行う。つまり、被写体の推定位置を時系列に応じて可視化する。可視化部3010は、例えば、時系列に応じた被写体の推定位置を、仮想的な3次元空間上に描画することによって可視化を行ってもよく、又はカメラで取得した撮像画像上に軌跡や点として重畳表示させることによって可視化を行ってもよい。また、可視化部は、そのような可視化の結果をモニタリング部1300へと送信することができる。次いで、次の時刻に映り、予測部3004が、更新された状態変数を用いて、次の時刻における状態変数及び観測値の予測分布の取得を行う。
In step S6009, the
このような構成によれば、複数の撮像装置による複数の撮像画像から、少なくとも一つの撮像画像において、各被写体が検出対象領域に被覆される検出対象領域を設定することができる。つまり、前回のループにおける被写体の状態の予測値、及び複数のカメラで取得した画像による被写体の観測値に基づいて、被写体の3次元空間上の状態を予測することができる。また、予測された現時点での被写体の状態に基づいて、被写体の撮像画像上における座標及びスコアの予測値をさらに取得し、その被写体の座標及びスコアに基づいて検出対象領域を設定し、及び被写体を検出することができる。さらに、次回の時刻において予測される被写体の検出のスコアを最大化させる領域を設定することができる。したがって、3次元空間上に存在する複数の被写体、特にこの例では頭部とボールの、位置及び時系列に応じた軌跡の推定を、処理コストの軽減及び検出精度の向上を両立させながら実行することができる。 According to such a configuration, it is possible to set a detection target region in which each subject is covered with a detection target region in at least one captured image from a plurality of images captured by a plurality of imaging devices. That is, the state of the subject in the three-dimensional space can be predicted based on the predicted value of the state of the subject in the previous loop and the observed value of the subject by the images acquired by the plurality of cameras. Further, based on the predicted current state of the subject, the predicted values of the coordinates and the score on the captured image of the subject are further acquired, the detection target area is set based on the coordinates and the score of the subject, and the subject is set. Can be detected. Further, it is possible to set an area for maximizing the predicted subject detection score at the next time. Therefore, the loci of a plurality of subjects existing in the three-dimensional space, especially the head and the ball in this example, are estimated according to the position and time series while reducing the processing cost and improving the detection accuracy. be able to.
[実施形態4]
実施形態4に係る検出装置は、被写体の予測位置に応じて、撮像装置の姿勢を制御し、及び、そのような姿勢制御量に基づいて検出対象領域を設定する。図13は、実施形態4に係る検出装置の機能構成の一例を示すブロック図である。本実施形態に係る検出装置8000は、パン、チルト及びズーム操作(以下PTZ操作と呼ぶ)が可能なカメラを用いて、処理コストを抑制した被写体の追尾を行うことができる。そのために、検出装置8000は、撮像部8100及び処理部8200を持つ。撮像部8100及び撮像部8100が有するK個の動画取得部(例えば、8001及び8002)は、PTZ操作が可能であることを除き、実施形態3における撮像部3100及び撮像部3100の有するK台の動画取得部と同様であるため、重複する説明は省略する。PTZ操作とは、水平方向の向き制御であるパニング操作、垂直方向の向き制御であるチルティング操作、及び被写体の拡大縮小を行うズーム操作のいずれか1つ以上を含む操作のことである。つまり、PTZ操作が可能である動画取得部はPTZ操作によって撮像範囲を水平方向、垂直方向、又はこの2つの方向を組み合わせた方向に制御することができる。処理部8200は、制御部8003を有することを除き実施形態3における処理部3200と同様の構成を有しており、重複する説明は省略する。制御部8003は、各動画取得部を制御することによって、撮像部8100の撮像範囲を制御する。例えば、制御部8003は、各動画取得部をPTZ操作することにより撮像部8100の撮像範囲を制御することができる。
[Embodiment 4]
The detection device according to the fourth embodiment controls the posture of the image pickup device according to the predicted position of the subject, and sets the detection target area based on such a posture control amount. FIG. 13 is a block diagram showing an example of the functional configuration of the detection device according to the fourth embodiment. The
図14は、本実施形態に係る検出を行うための処理手順の一例を示すフローチャートである。本実施形態に係る検出装置8000の処理手順は、ステップS9001、S9003、S9004を除き、実施形態3と同様に行うことができる。
FIG. 14 is a flowchart showing an example of a processing procedure for performing the detection according to the present embodiment. The processing procedure of the
ステップS9001において初期値設定部3003は、検出処理の初期時刻において、被写体の位置、姿勢、及び速度の値を設定し、並びに、カメラの各制御パラメータを初期化し及び初期値として設定する。被写体の位置、姿勢、及び速度の値の設定については、実施形態3と同様であるため説明は省略する。この例においては、カメラの時刻tにおけるパン角、チルト角、及びズーム量のそれぞれの状態は、Pt、Tt、及びZtと表される。また、PTZ操作のそれぞれの可動範囲は、Pmin≦Pt≦Pmax、Tmin≦Tt≦Tmax、及びZmin≦Zt≦Zmax、と表される。また、PTZ操作によって制御される、撮像範囲の制御量(以下、これをPTZ制御量と呼ぶ)は、それぞれΔPt、ΔTt、及びΔZtと表される。時刻tにおけるPTZ制御の、1時刻における制御可能なPTZ制御量の範囲は、ΔminPt≦ΔPt≦ΔmaxPt、ΔminTt≦ΔTt≦ΔmaxTt、及びΔminZt≦ΔZt≦ΔmaxZtと表される。そのようなPTZの制御に関わる値は、複数のカメラ間で同一であってもよく、カメラの位置及び種類などに応じて異なっていてもよい。例えば、複数のカメラの内の少なくとも1台は、被写体の動作に関わらずピッチの全範囲を撮像していてもよい。このような構成によれば、例えば検出装置の誤動作などによって一時的に追尾しそこねた被写体が存在する場合において、ピッチの全範囲を撮像する画像からの検出結果に基づいて、その被写体の追尾を再開しやすくなる。
In step S9001, the initial
また、ステップS9001において初期値設定部3003は、Pt、Tt、及びZtの値を、それぞれ0に設定してもよい。しかしここで設定されるPt、Tt、及びZtの値は特に限定はされず、初期のカメラの状態に応じて適宜設定されてもよい。
Further, in step S9001, the initial
ステップS9003において領域設定部3005は、ステップS6006において被写体の検出に用いる検出対象領域を、カメラのPTZ操作の制御量を考慮して設定する。また、領域設定部3005は、そのような検出対象領域を撮像するために必要なPTZ制御量を取得する。ステップS9003における詳細な処理手順については、図15のフローチャートと共に後述する。
In step S9003, the
ステップS9004において制御部8003は、ステップS9003において取得されたPTZ制御量に基づいて、撮像部8100の有する各カメラの撮像範囲を取得する。この例においては、制御部8003は、時刻tにおいて推定された各カメラのPTZ制御量ΔPt、ΔTt、及びΔZtに基づいて、そのカメラの撮像範囲を制御する。
In step S9004, the
以下、ステップS9003において領域設定部3005が行う設定処理について、図15を参照しながら説明する。図15はステップS9003に係る設定を行うための処理手順の一例を示すフローチャートである。ステップS1502、S1503及びS1506以降の処理は、実施形態3の図9におけるステップS7002、S7003及びS7004以降の処理とそれぞれ同様であるため、説明は省略する。
Hereinafter, the setting process performed by the
ステップS1501において領域設定部3005は、実施形態3におけるステップS7001と同様に、前ループで設定した第2候補領域を、現時点における代表被覆要素の位置に基づいて移動させる。この時、領域設定部3005は、現時点における代表被覆要素の位置だけではなく、例えば、カメラのPTZ制御量の制御範囲を考慮して第2候補領域を移動させてもよい。つまり、領域設定部3005は、各カメラについて、撮像画像の範囲に加え、上下及び左右に、ΔmaxPtの縦方向の制御量、及びΔmaxTtの横方向の制御量の値を、撮像画像の上下及び左右にそれぞれ足した範囲を算出してもよい。次いで、領域設定部3005は、各カメラの撮像画像について、そのように算出された範囲の内で、第2候補領域を移動させてもよい。例えば、そのような移動により第2候補領域が元の撮像範囲を超えて移動した場合、後のステップS9004において、制御部8003が、第2候補領域の移動した位置に応じて、PTZ制御によって撮像範囲を移動させることができる。つまり、領域設定部3005は、そのようなPTZ制御量を取得することができる。複数の第2候補領域が元の撮像範囲を超えて移動する場合、領域設定部3005は、そのような移動後の第2候補領域をすべてカメラが撮像できるようにPTZ制御量を取得してもよい。さらに、PTZ制御によってもカメラが移動後の第2候補領域をすべて撮像できない場合において、領域設定部3005は、第2候補領域のスコアに応じた優先度を設定し、及び、優先度の高い第2候補領域が撮像されるように、制御量を取得してもよい。そのような場合、領域設定部3005は、優先度の低い第2候補領域は視野端の移動に応じて、撮像範囲外に出ないように移動させてもよい。また、領域設定部3005は、代表被覆要素が存在しない第2候補領域を移動させなくてもよい。
In step S1501, the
B1501における処理は基本的には実施形態3のB7001における処理と同様であるため、異なる部分についてのみ説明する。領域設定部3005は、第2候補領域内に前回検出されていない被写体が存在する場合において、その時刻におけるPTZの操作量の状態Pt、Tt、及びZtを、初期値に戻すことができる。そのような場合、Ztの値の初期化は、Pt及びTtを初期値に戻した後に行われてもよい。
Since the processing in B1501 is basically the same as the processing in B7001 of the third embodiment, only the different parts will be described. When there is a subject that has not been detected last time in the second candidate area, the
ステップS1504において領域設定部3005は、第2候補領域のスコアを最大化するズーム量を推定する。領域設定部3005は、例えば、被写体とカメラとの間の距離を説明変数として検出のスコアを推定する多項式回帰モデルを用いることにより、検出スコアを最大化するズーム制御量ΔZtmaxを、ズーム操作による制御が可能な範囲内で推定してもよい。領域設定部3005は、そのような多項式回帰モデルを、例えば、実施形態1における式(8)及び(8’)の回帰モデルと同様の方法で学習してもよい。また、スコアを最大化するズーム制御量の探索方法は特に限定されず、例えば、グリッドサーチのような公知の方法で行われてもよい。さらに領域設定部3005は、そのようにして算出されたズーム制御量によるスコアの上昇幅が所定の閾値よりも小さい場合においては、ズーム制御量を0に設定する、つまりズーム操作を行わなくてもよい。そのような処理によれば、効果が微小なズーム操作を省略することにより、処理コストを低減することができる。
In step S1504, the
ステップS1505において領域設定部3005は、ステップS1505において推定された量のズーム制御によって検出スコアが変化する場合に、既存のスコアを変化後のスコアへと更新する。
In step S1505, the
このような構成によれば、被写体の予測位置に対して、複数のカメラの姿勢を制御することができる。また、そのような姿勢の制御量に基づいて、検出対象領域を設定することができる。したがって、複数の被写体について、検出のコストを抑制した効率的な追尾が可能となる検出装置を提供することができる。 According to such a configuration, it is possible to control the postures of a plurality of cameras with respect to the predicted position of the subject. Further, the detection target area can be set based on the control amount of such a posture. Therefore, it is possible to provide a detection device capable of efficient tracking of a plurality of subjects while suppressing the cost of detection.
(その他の実施例)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
(Other Examples)
The present invention supplies a program that realizes one or more functions of the above-described embodiment to a system or device via a network or storage medium, and one or more processors in the computer of the system or device reads and executes the program. It can also be realized by the processing to be performed. It can also be realized by a circuit (for example, ASIC) that realizes one or more functions.
発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。したがって、発明の範囲を公にするために請求項を添付する。 The invention is not limited to the above embodiments, and various modifications and modifications can be made without departing from the spirit and scope of the invention. Therefore, a claim is attached to make the scope of the invention public.
1001:動画取得部、1002:初期値設定部、1003:検出部、1004:ID対応付け部、1005:領域設定部、1006:可視化部、1100:撮像部、1200:処理部、1300:モニタリング部 1001: Video acquisition unit, 1002: Initial value setting unit, 1003: Detection unit, 1004: ID mapping unit, 1005: Area setting unit, 1006: Visualization unit, 1100: Imaging unit, 1200: Processing unit, 1300: Monitoring unit
Claims (19)
前記検出手段によって第1の時刻における撮像画像から検出された1以上の被写体の位置に従って、前記検出手段によって参照される、前記第1の時刻に後続する第2の時刻における撮像画像に前記1以上の被写体の検出対象領域を設定する設定手段と、
を備えることを特徴とする検出装置。 A detection means that detects one or more subjects from the captured image,
According to the position of one or more subjects detected from the captured image at the first time by the detecting means, the one or more of the captured images at the second time following the first time referred to by the detecting means. Setting means for setting the detection target area of the subject and
A detection device comprising.
前記設定手段は、前記候補領域に含まれる被写体のスコアに基づいて、前記複数の候補領域から前記検出対象領域を選択することを特徴とする、請求項2又は3に記載の検出装置。 The detection means outputs a score indicating the reliability of detection of the subject, and outputs a score.
The detection device according to claim 2 or 3, wherein the setting means selects the detection target area from the plurality of candidate areas based on the score of the subject included in the candidate area.
前記設定手段は、前記被写体の位置又は前記予測位置を前記検出対象領域の前記被覆判定領域が被覆するように前記検出対象領域を設定することを特徴とする、請求項6又は7に記載の検出装置。 The detection target area includes a covering determination area and a buffer area set outside the covering determination area.
The detection according to claim 6 or 7, wherein the setting means sets the detection target area so that the cover determination area of the detection target area covers the position of the subject or the predicted position. apparatus.
前記設定手段は、前記予測された被写体の状態に従って前記検出対象領域を設定することを特徴とする、請求項1乃至8の何れか一項に記載の検出装置。 An estimation means for predicting the state of the subject by using the detection result of the subject by the detection means is further provided.
The detection device according to any one of claims 1 to 8, wherein the setting means sets the detection target area according to the predicted state of the subject.
前記設定手段は、前記予測されたスコアにさらに従って、前記被写体の前記検出対象領域を設定することを特徴とする、請求項9に記載の検出装置。 The estimation means predicts a score representing the reliability of detection of the subject according to the predicted state of the subject.
The detection device according to claim 9, wherein the setting means further sets the detection target area of the subject according to the predicted score.
前記設定手段は、少なくとも1つの撮像画像において前記被写体が前記検出対象領域に含まれるように、前記撮像画像ごとに前記被写体の検出対象領域を設定することを特徴とする、請求項1乃至10の何れか一項に記載の検出装置。 Further provided with an acquisition means for acquiring a plurality of captured images by acquiring captured images from each of the plurality of imaging devices.
The setting means according to any one of claims 1 to 10, wherein the detection target area of the subject is set for each captured image so that the subject is included in the detection target area in at least one captured image. The detection device according to any one item.
前記被写体のそれぞれに対応し、前記被写体を含む互いに異なる領域を、前記第1の時刻における少なくとも1つの撮像画像に設定し、
前記第2の時刻における被写体のそれぞれの予測位置に基づいて、前記被写体のそれぞれに対応する前記被写体を含む領域を移動させ、
前記移動後の、前記被写体のそれぞれに対応する前記被写体を含む領域のうち少なくとも1つを、前記検出対象領域として選択する
ことを特徴とする、請求項11に記載の検出装置。 The setting means is
A region corresponding to each of the subjects and different from each other including the subject is set in at least one captured image at the first time.
Based on each predicted position of the subject at the second time, the area including the subject corresponding to each of the subjects is moved.
The detection device according to claim 11, wherein at least one of the regions including the subject corresponding to each of the subjects after the movement is selected as the detection target region.
予測された前記被写体の第2の時刻における3次元空間上の位置から、前記第2の時刻における前記各撮像画像での被写体の位置を予測することを特徴とする、請求項11又は12に記載の検出装置。 The setting means predicts the position of the subject in the three-dimensional space at the second time from each position of the subject detected by the plurality of captured images at the first time.
The eleventh or twelfth aspect of claim 11 or 12, wherein the position of the subject in each of the captured images at the second time is predicted from the predicted position of the subject in the three-dimensional space at the second time. Detection device.
前記複数の撮像画像のそれぞれについて、前記第1の時刻における前記被写体の位置、又は前記第2の時刻における前記被写体の予測位置を被覆する、1以上の領域を設定し、
少なくとも1つの撮像画像において前記被写体が前記検出対象領域に含まれるように、前記複数の撮像画像についての前記1以上の領域から前記検出対象領域を選択する
ことを特徴とする、請求項11乃至13の何れか一項に記載の検出装置。 The setting means is
For each of the plurality of captured images, one or more regions covering the position of the subject at the first time or the predicted position of the subject at the second time are set.
Claims 11 to 13 are characterized in that the detection target region is selected from the one or more regions of the plurality of captured images so that the subject is included in the detection target region in at least one captured image. The detection device according to any one of the above.
前記撮像装置の姿勢制御量にさらに基づいて前記検出対象領域を設定することを特徴とする、請求項1乃至14の何れか一項に記載の検出装置。 Further, a control means for controlling the posture of the image pickup apparatus for capturing the captured image according to the predicted position of the one or more subjects at the second time is further provided.
The detection device according to any one of claims 1 to 14, further comprising setting the detection target area based on the posture control amount of the image pickup device.
前記可視化手段は、前記第1の時刻における前記被写体の位置及び前記スコア、並びに前記第2の時刻における前記被写体の位置及び前記スコアに基づいて、前記第1の時刻における前記被写体の位置と前記第2の時刻における前記被写体の位置とを対応付けることにより、時系列ごとの前記被写体の位置を可視化することを特徴とする、請求項16に記載の検出装置。 The detection means outputs a score indicating the reliability of detection of the subject, and outputs a score.
The visualization means has the position of the subject and the score at the first time, and the position of the subject and the score at the first time based on the position of the subject and the score at the second time. The detection device according to claim 16, wherein the position of the subject is visualized for each time series by associating the position of the subject with the position of the subject at the time of 2.
撮像画像から1以上の被写体を検出する工程と、
前記検出する工程において第1の時刻における撮像画像から検出された1以上の被写体の位置に従って、前記検出する工程において参照される、前記第1の時刻に後続する第2の時刻における撮像画像に前記1以上の被写体の検出対象領域を設定する工程と、
を備えることを特徴とする検出方法。 It is a detection method performed by the detection device.
The process of detecting one or more subjects from the captured image and
According to the position of one or more subjects detected from the captured image at the first time in the detecting step, the captured image at the second time following the first time referred to in the detecting step is described. The process of setting the detection target area of one or more subjects, and
A detection method comprising.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019180711A JP2021056885A (en) | 2019-09-30 | 2019-09-30 | Detector, detection method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019180711A JP2021056885A (en) | 2019-09-30 | 2019-09-30 | Detector, detection method, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021056885A true JP2021056885A (en) | 2021-04-08 |
Family
ID=75270833
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019180711A Pending JP2021056885A (en) | 2019-09-30 | 2019-09-30 | Detector, detection method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2021056885A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114821279A (en) * | 2022-04-26 | 2022-07-29 | 上海铁大电信科技股份有限公司 | A detection method based on target detection algorithm and image classification algorithm |
JP2022190504A (en) * | 2021-06-14 | 2022-12-26 | 株式会社アイシン | Image analysis device and monitoring system |
WO2024154360A1 (en) * | 2023-01-20 | 2024-07-25 | 日本電信電話株式会社 | Extraction device, extraction method, and extraction program |
-
2019
- 2019-09-30 JP JP2019180711A patent/JP2021056885A/en active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022190504A (en) * | 2021-06-14 | 2022-12-26 | 株式会社アイシン | Image analysis device and monitoring system |
US12361583B2 (en) | 2021-06-14 | 2025-07-15 | Aisin Corporation | Image analysis apparatus and monitoring system |
CN114821279A (en) * | 2022-04-26 | 2022-07-29 | 上海铁大电信科技股份有限公司 | A detection method based on target detection algorithm and image classification algorithm |
WO2024154360A1 (en) * | 2023-01-20 | 2024-07-25 | 日本電信電話株式会社 | Extraction device, extraction method, and extraction program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210243362A1 (en) | Techniques for enhanced image capture using a computer-vision network | |
US11189078B2 (en) | Automated understanding of three dimensional (3D) scenes for augmented reality applications | |
Cannons | A review of visual tracking | |
US9524426B2 (en) | Multi-view human detection using semi-exhaustive search | |
WO2020125499A9 (en) | Operation prompting method and glasses | |
US7623676B2 (en) | Method and apparatus for tracking objects over a wide area using a network of stereo sensors | |
CN109891189B (en) | Planned photogrammetry | |
JP6618395B2 (en) | Apparatus, program, and method for predicting position of survey object by action value | |
WO2011013299A1 (en) | Mobile body detection apparatus and mobile body detection method | |
US20150294496A1 (en) | Probabilistic person-tracking using multi-view fusion | |
US20150294143A1 (en) | Vision based monitoring system for activity sequency validation | |
CN107408303A (en) | System and method for Object tracking | |
JP5438601B2 (en) | Human motion determination device and program thereof | |
KR20150021526A (en) | Self learning face recognition using depth based tracking for database generation and update | |
CN108510520B (en) | A kind of image processing method, device and AR equipment | |
JP4575829B2 (en) | Display screen position analysis device and display screen position analysis program | |
JP2021056885A (en) | Detector, detection method, and program | |
JP2017076288A (en) | Information processor, information processing method and program | |
JP2010123019A (en) | Device and method for recognizing motion | |
WO2020213099A1 (en) | Object detection/tracking device, method, and program recording medium | |
JP2005346425A (en) | Automatic tracking device and automatic tracking method | |
Pandey et al. | Efficient 6-dof tracking of handheld objects from an egocentric viewpoint | |
JP2016024534A (en) | Moving body tracking device, moving body tracking method, and computer program | |
US20230007167A1 (en) | Image processing device and image processing system, and image processing method | |
Seer et al. | Kinects and human kinetics: a new approach for studying crowd behavior |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20210103 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210113 |