JP5068711B2 - Object shape recognition system and object shape recognition method - Google Patents
Object shape recognition system and object shape recognition method Download PDFInfo
- Publication number
- JP5068711B2 JP5068711B2 JP2008205609A JP2008205609A JP5068711B2 JP 5068711 B2 JP5068711 B2 JP 5068711B2 JP 2008205609 A JP2008205609 A JP 2008205609A JP 2008205609 A JP2008205609 A JP 2008205609A JP 5068711 B2 JP5068711 B2 JP 5068711B2
- Authority
- JP
- Japan
- Prior art keywords
- shape
- sound
- detected
- image
- detecting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Length Measuring Devices By Optical Means (AREA)
- Length Measuring Devices With Unspecified Measuring Means (AREA)
- Input From Keyboards Or The Like (AREA)
- Image Processing (AREA)
Abstract
Description
本発明は、物体の形状を認識する物体形状認識システム及び物体形状認識方法に関する。 The present invention relates to an object shape recognition system and an object shape recognition method for recognizing the shape of an object.
プロジェクタやHMD(ヘッドマウントディスプレイ)で、映像を投影あるいは実際の物体に重畳(Augmented Reality(AR)、Mixed Reality(MR))する際には、通常、例えばスクリーンや決められた机など、あらかじめ決められた範囲や物体に映像を投影、重畳する。 When projecting images or superimposing them on an actual object (Augmented Reality (AR), Mixed Reality (MR)) with a projector or HMD (head-mounted display), it is usually decided beforehand such as a screen or a predetermined desk. Projects and superimposes an image on a specified range or object.
しかしながら、あらかじめ決められた物体や範囲にしか映像が、投影、重畳できないと、使用できる場所が限られてしまう。形状が分かっていない物体や範囲を認識し、その物体や範囲に対して映像を投影、重畳することができれば、いつでもどこでも映像を投影、重畳できるようになる。 However, if an image can be projected and superimposed only on a predetermined object or range, the place where it can be used is limited. If an object or range whose shape is not known is recognized, and an image can be projected and superimposed on the object or range, the image can be projected and superimposed anytime and anywhere.
物体の形状を認識する方法として以下のようなものがある。例えば、特許文献1には距離画像を用いて物体の三次元形状を認識する方法が示されている。また、特許文献2にはあらかじめ背景を撮像しておく方法が、特許文献3には、認識する物体のモデルを作成しておく方法が、それぞれ示されている。
しかしながら、上述の技術として知られるように、あらかじめ形状の分かっていない物体の形状のみを特定するのは非常に困難である。例えば、特許文献1に記載された技術では、物体の形状を認識することはできても、認識したい物体を特定することはできない。また、特許文献2及び3に記載された技術では、物体を認識させる前に、事前準備が必要であり、例えば、物体の形状や物体が利用される状況(背景)があらかじめわかっていなければならない。 However, as known as the above-mentioned technique, it is very difficult to specify only the shape of an object whose shape is not known in advance. For example, with the technique described in Patent Document 1, even if the shape of an object can be recognized, the object to be recognized cannot be specified. In addition, in the techniques described in Patent Documents 2 and 3, prior preparation is required before the object is recognized. For example, the shape of the object and the situation (background) in which the object is used must be known in advance. .
本発明は、上記の状況を鑑みてなされたものであり、容易に物体の形状を認識することができる物体形状認識システム及び物体形状認識方法を提供することを目的とする。ここで、認識対象となる物体の形状には、上述したような映像を投影、重畳させる物体の一部の範囲を含む。 The present invention has been made in view of the above situation, and an object thereof is to provide an object shape recognition system and an object shape recognition method that can easily recognize the shape of an object. Here, the shape of the object to be recognized includes a partial range of the object on which the video as described above is projected and superimposed.
上記目的を達成するために、本発明に係る物体形状認識システムは、形状の認識対象となる物体を撮像する撮像手段と、所定の音を検出する音検出手段と、音検出手段によって音が検出されたタイミングで撮像手段によって撮像された画像における、物体の形状に応じた位置を検出する位置検出手段と、位置検出手段によって検出された位置から物体の形状を推定する形状推定手段と、を備えることを特徴とする。 In order to achieve the above object, an object shape recognition system according to the present invention includes an imaging unit that images an object whose shape is to be recognized, a sound detection unit that detects a predetermined sound, and a sound that is detected by the sound detection unit. A position detection unit that detects a position corresponding to the shape of the object in the image captured by the imaging unit at a specified timing, and a shape estimation unit that estimates the shape of the object from the position detected by the position detection unit. It is characterized by that.
本発明に係る物体形状認識システムにおいて物体の形状が認識される際には、ユーザ等によって音が発生される。一方で、上記の音が発生したタイミングにおいて当該物体は撮像されており、撮像された画像における、物体の形状に応じた位置が検出される。検出された位置から物体の形状が特定される。上記のように、本発明に係る物体形状認識システムでは、物体の撮像、音の検出及び物体の形状に応じた位置の検出によって物体の形状の推定を行う。これらは従来の形状の認識に比べて簡易に行うことができ、結果として、本発明に係る物体形状認識システムによれば容易に物体の形状を認識することができる。 When an object shape is recognized in the object shape recognition system according to the present invention, a sound is generated by a user or the like. On the other hand, the object is imaged at the timing when the sound is generated, and a position corresponding to the shape of the object in the captured image is detected. The shape of the object is specified from the detected position. As described above, in the object shape recognition system according to the present invention, the object shape is estimated by imaging an object, detecting sound, and detecting a position corresponding to the object shape. These can be performed more easily than conventional shape recognition. As a result, the object shape recognition system according to the present invention can easily recognize the shape of the object.
音検出手段は、物体から発生した音を所定の音として検出して、位置検出手段は、音が発生した位置を物体の形状に応じた位置として検出する、ことが望ましい。この構成においては、ユーザ等によって形状の認識対象となる物体の所定位置から音が発生される。一方で、上記の音が発生したタイミングにおいて当該物体は撮像されており、撮像された画像における音が発生した位置が検出される。検出された位置から物体の形状が特定される。即ち、この構成によれば、物体の撮像、音の検出及び音が発生した位置の検出によって物体の形状の推定を行う。結果として、この構成によれば、より容易に物体の形状を認識することができる。 It is desirable that the sound detection unit detects a sound generated from the object as a predetermined sound, and the position detection unit detects a position where the sound is generated as a position corresponding to the shape of the object. In this configuration, sound is generated from a predetermined position of an object whose shape is to be recognized by a user or the like. On the other hand, the object is imaged at the timing when the sound is generated, and the position where the sound is generated in the captured image is detected. The shape of the object is specified from the detected position. That is, according to this configuration, the shape of the object is estimated by imaging the object, detecting the sound, and detecting the position where the sound is generated. As a result, according to this configuration, the shape of the object can be recognized more easily.
物体から発生した音は、当該物体が叩かれた音であり、位置検出手段は、物体を叩くものに係る情報をあらかじめ記憶しておき、当該情報に基づいて物体が叩かれた位置を、音が発生した位置として検出する、ことが望ましい。形状の認識対象となる物体を叩くことにより音を容易かつ確実に発生させることができる。また、何で物体を叩くかを決めておくことにより、上記の構成により確実に音が発生した位置が検出される。即ち、上記の構成によれば、より容易かつ確実に物体の形状を認識することができる。 The sound generated from the object is the sound of the object being struck, and the position detection means stores in advance information related to the object that is struck, and the position where the object is struck based on the information is determined. It is desirable to detect it as a position where the occurrence occurs. Sound can be easily and reliably generated by hitting an object whose shape is to be recognized. In addition, by determining why the object is struck, the position where the sound is generated is surely detected by the above configuration. That is, according to the above configuration, the shape of the object can be recognized more easily and reliably.
音検出手段は、検出する音に係る情報をあらかじめ記憶しておき、当該情報に基づいて所定の音を検出することが望ましい。この構成によれば、所定の音の検出を確実に行うことができ、確実に物体の形状を認識することができる。 It is desirable that the sound detection unit stores information related to the sound to be detected in advance and detects a predetermined sound based on the information. According to this configuration, it is possible to reliably detect a predetermined sound and to reliably recognize the shape of the object.
位置検出手段は、複数の物体の形状に応じた位置を検出し、形状推定手段は、位置検出手段によって検出された複数の位置から物体の形状を推定する、ことが望ましい。この構成によれば、複数の位置から物体の形状が推定されるので、適切に物体の形状を認識することができる。 It is desirable that the position detection unit detects positions corresponding to the shapes of the plurality of objects, and the shape estimation unit estimates the shapes of the objects from the plurality of positions detected by the position detection unit. According to this configuration, since the shape of the object is estimated from a plurality of positions, it is possible to appropriately recognize the shape of the object.
撮像手段は、複数の時刻にわたって物体を撮像し、撮像手段によって撮像された時間変化した画像における、位置検出手段によって検出された位置に対応する位置を検出する位置追従手段を更に備え、形状推定手段は、位置追従手段によって検出された位置から物体の形状を推定する、ことが望ましい。この構成によれば、検出された位置が追尾されて、例えば、複数の位置を検出する間に物体自体や撮像方向が動いたとしても、適切な位置に基づいて物体の形状を推定することができる。即ち、上記の構成によれば、より適切に物体の形状を認識することができる。 The imaging means further includes a position tracking means for capturing an object over a plurality of times and detecting a position corresponding to the position detected by the position detection means in the time-changed image captured by the imaging means. It is desirable to estimate the shape of the object from the position detected by the position tracking means. According to this configuration, the detected position is tracked. For example, even if the object itself or the imaging direction moves while detecting a plurality of positions, the shape of the object can be estimated based on an appropriate position. it can. That is, according to the above configuration, the shape of the object can be recognized more appropriately.
物体形状認識システムは、形状推定手段によって推定された物体の形状に応じて、映像を投影する投影手段を更に備えることが望ましい。この構成によれば、認識された形状に対して映像の投影を行うことができ、上述した投影や重畳を適切に行うことができる。 The object shape recognition system preferably further includes projection means for projecting an image in accordance with the shape of the object estimated by the shape estimation means. According to this configuration, an image can be projected on the recognized shape, and the above-described projection and superimposition can be appropriately performed.
撮像手段は、複数の時刻にわたって物体を撮像し、撮像手段によって撮像された時間変化した画像における、形状推定手段によって推定された物体の形状に対応する形状を検出する形状追従手段を更に備え、投影手段は、位置追従手段によって検出された形状に応じて、映像を投影する、ことが望ましい。この構成によれば、物体自体や撮像方向が動いたとしても、上述した投影や重畳を適切に行うことができる。 The imaging means further includes shape follow-up means for imaging an object over a plurality of times, and detecting a shape corresponding to the shape of the object estimated by the shape estimation means in the time-changed image captured by the imaging means. The means desirably projects an image in accordance with the shape detected by the position following means. According to this configuration, even if the object itself or the imaging direction moves, the above-described projection and superimposition can be appropriately performed.
ところで、本発明は、上記のように物体形状認識システムの発明として記述できる他に、以下のように物体形状認識方法の発明としても記述することができる。これはカテゴリが異なるだけで、実質的に同一の発明であり、同様の作用及び効果を奏する。 By the way, the present invention can be described as an invention of an object shape recognition system as described above, and can also be described as an invention of an object shape recognition method as follows. This is substantially the same invention only in different categories, and has the same operations and effects.
即ち、本発明に係る物体形状認識方法は、形状の認識対象となる物体を撮像する撮像ステップと、所定の音を検出する音検出ステップと、音検出ステップにおいて音が検出されたタイミングで撮像ステップにおいて撮像された画像における、物体の形状に応じた位置を検出する位置検出ステップと、位置検出ステップにおいて検出された位置から物体の形状を推定する形状推定ステップと、を含むことを特徴とする。 That is, the object shape recognition method according to the present invention includes an imaging step of imaging an object whose shape is to be recognized, a sound detection step of detecting a predetermined sound, and an imaging step at a timing when sound is detected in the sound detection step. A position detecting step for detecting a position corresponding to the shape of the object in the image picked up in (2), and a shape estimating step for estimating the shape of the object from the position detected in the position detecting step.
本発明では、形状の認識対象となる物体の撮像、音の検出及び音が発せられた位置の検出によって物体の形状の推定を行う。これらは従来の形状の認識に比べて簡易に行うことができ、結果として、本発明によれば容易に物体の形状を認識することができる。 In the present invention, the shape of the object is estimated by imaging the object whose shape is to be recognized, detecting the sound, and detecting the position where the sound is emitted. These can be performed more easily than conventional shape recognition. As a result, according to the present invention, the shape of an object can be easily recognized.
以下、図面と共に本発明による物体形状認識システム及び物体形状認識方法の好適な実施形態について詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。 Hereinafter, preferred embodiments of an object shape recognition system and an object shape recognition method according to the present invention will be described in detail with reference to the drawings. In the description of the drawings, the same elements are denoted by the same reference numerals, and redundant description is omitted.
図1に、本発明に係る物体形状認識システムの実施形態である物体形状認識装置10の外観構成を模式的に示す。物体形状認識装置10は、物体の形状を認識する装置であるが、本実施形態においては、具体的には以下のような機能を有している。図1に示すように、物体形状認識装置10は、眼鏡型ディスプレイであり、ユーザが装着できるような形状となっている。物体形状認識装置10は、コンピュータの入力デバイスの機能を有している。具体的には、物体形状認識装置10は、所定の物体20に重畳されるように、例えば、(仮想的な)キーボードやタッチパネルなどの入力デバイスの映像30を投影して、ユーザに当該入力デバイスの映像の映像を認識させる。物体形状認識装置10は、ユーザによる当該映像(に対応する箇所)への指やペンでの操作を検出して、コンピュータへの入力とする。
FIG. 1 schematically shows an external configuration of an object
入力デバイスの映像30を重畳させる上記の所定の物体20は、平面を有するものが望ましく、例えば、ユーザが所持しているノートや手帳あるいは固定されている壁などである。また、入力デバイスの映像30は、物体20に対して投影が行われて重畳されてもよい。また、眼鏡型ディスプレイが光学式シースルー型のものである場合、眼鏡型ディスプレイのレンズに対して、ユーザが当該レンズを通して物体20を見たときに重畳して見えるように、入力デバイスの映像30のみ投影されてもよい。また、眼鏡型ディスプレイがビデオシースルー型のものである場合、カメラで撮像した物体20も同時にレンズに投影されてもよい。このとき、両目に同じ映像を投影してもよいし、右目と左目の距離からそれぞれの目から見える映像を推定して、それぞれの目に投影する映像を別々に用意してもよい。それぞれの目に合わせて別々の映像を投影すると立体感(奥行き)のある映像をユーザに見せることができる。
The
ここで、映像30を投影する物体20の形状(又は範囲)は、ユーザが指定する。この指定は、図2に示すように、例えば、物体20の形状のすみ(特徴点)21を指で叩いて音を出すことによって行われる。指定された物体20の形状は、物体形状認識装置10において認識される。即ち、本実施形態における形状の認識対象となるのは、映像30を重畳させる物体20である。形状の認識については、より詳細に後述する。
Here, the user specifies the shape (or range) of the
引き続いて、物体形状認識装置10の機能について説明する。図3に示すように、物体形状認識装置10は、カメラ11と、マイク12と、音検出部13と、位置検出部14と、位置追従部15と、形状推定部16と、形状追従部17と、ディスプレイ18と、映像蓄積部19とを備える。
Subsequently, the function of the object
カメラ11は、形状の認識対象となる物体20を撮像する撮像手段である。カメラ11は、複数の時刻にわたって物体20の撮像を行う。即ち、カメラ11は、動画として物体20を撮像する。カメラ11は、その撮像方向が、ユーザの視線方向、即ち、眼鏡型ディスプレイのレンズの光軸方向と同様の方向となるように設けられている。従って、カメラ11は、ユーザが物体20の方向に視線を向けることによって物体20を撮像する(ユーザが物体20の方向に視線を向けることによって、撮像方向が物体20に向かう方向になる)。なお、カメラ11は、眼鏡型ディスプレイと一体に設けられていても、別体として周囲に備え付けられ又はユーザに携帯されて設けられていてもよい。カメラ11は、撮像した画像(データ)を位置検出部14に出力する。また、後述する位置及び形状の追従を行うため、カメラ11は、当該画像を位置追従部15及び形状追従部17に出力する。
The
マイク12は、物体20から発生した音を検出する音検出手段の一機能である。マイク12は、物体20を含む物体20の周囲で発生した音を集音する。マイク12は、集音した音(のデータ)を音検出部13に出力する。
The
音検出部13は、マイク12によって集音された音に、物体20から発生した特定の音が含まれていることを検出する音検出手段の一機能である。物体20から発生した特定の音とは、ユーザによって物体20が叩かれた音である。具体的には、音検出部13は、物体20が叩かれた音に係る情報、例えば、音のパターン(リズム、音声、音量)をあらかじめ記憶しておき、その音のパターンとマイク12から入力された音とが一致する(部分がある)かを判断することによって上記の検出を行う。即ち、音検出部13は、検出する音をあらかじめ記憶(登録)しておき、記憶した音を物体20から発生した音として検出する。この登録は物体形状認識装置10の開発者が行ってもよいし、ユーザが自分自身で好みのパターンを登録することとしてもよい。音検出部13は、特定の音が検出されるとその旨を位置検出部14に通知する。
The
位置検出部14は、音検出部13によって上記の特定の音が検出されたタイミングでカメラ11によって撮像された画像における、上記の特定の音が発生した位置(特徴点)を検出する位置検出手段である。具体的には、位置検出部14は、特定の音が検出された旨が音検出部13から通知されたタイミングでカメラ11から入力された画像から上記の位置の検出を行う。位置検出部14は、物体20を叩くものに係る情報をあらかじめ記憶しておき、上記のタイミングの画像から当該情報に基づいて物体20を叩くものの位置(物体20が叩かれた位置)を検出して、検出された位置を上記の特定の音が発生した位置とする。物体20を叩くものとは、例えば、ユーザの指やユーザに用いられる棒などの道具などであり、あらかじめ指定されたものである。
The
ユーザの指などの物体20を叩くものの画像中の位置の検出は、画像処理によって行われる。具体的には、例えば、物体20を叩くものに係る情報として指の色である肌色をあらかじめ位置検出部14が記憶しておき、画像中の肌色の領域のうち最も大きい領域(画素数の多い領域)を検出して、その最も上の座標を検出する位置とする。また、肌色の領域の凹凸を検出して、あらかじめ位置検出部14が記憶した特定の形状(例えば、楕円)を認識して、その形状のうちの所定の点を検出する位置としてもよい。また、手のモデルを作成しておき、あらかじめ位置検出部14に記憶させておき、その情報に基づいて指先を検出して、指先の点を検出する位置としてもよい。位置検出部14は、画像における、上記のように検出した位置の(二次元)座標データを位置追従部15及び形状推定部16に出力する。上記の位置の検出は、(一つの)物体20の形状の検出に対して複数回(例えば3回)行われる。この回数が多いほど、物体20の形状の、より詳細な認識が可能になる。
Detection of the position in the image of an
なお、位置検出部14は、画像から位置を検出するタイミングを音検出部13から通知されていたが、必ずしも当該通知が行われなくてもよい。例えば、カメラ11によって撮像された画像に撮像された時刻の情報を対応付けておき、音検出部13から上述した特定の音が検出された時刻の通知を受けて、当該時刻に基づいて位置を検出する画像を特定してもよい。
The
位置追従部15は、カメラ11によって撮像された画像における、位置検出部14によって検出された位置に対応する位置を検出(追従)する位置追従手段である。カメラ11による撮像は、位置検出部14による複数の位置検出が行われている間行われており、撮像された画像は時間変化する。一点目の位置検出が行われた後、次の点の検出が行われるまでに物体20を手で持っていたりすると画像における検出した点の位置が動いてしまうことがある。また、カメラ11の撮像方向が動いてしまい、画像における検出した点の位置が動いてしまうことがある。位置追従部15における位置の検出(追従)は、上記のように位置の特定を複数の時刻にわたる画像を用いて行う場合に適切に形状の推定を行えるようにするためのものである。
The
具体的には、位置追従部15は、位置検出部14による検出に用いられた画像から、位置検出部14によって検出された座標近傍の所定の範囲の画像を抽出する。位置追従部15は、当該所定の範囲の画像を、検出された位置の特徴を示す画像として記憶する。続いて、位置追従部15は、追従対象となる画像から、上記記憶した所定の範囲の画像に対応する部分を検出して、当該部分から追従した位置(画像上の二次元座標)を特定する。この検出は、具体的には例えば、オプティカルフロー等を用いた特徴点追従方法等が用いられて行われる。位置追従部15は、追従した位置の座標データを形状推定部16に出力する。
Specifically, the
形状推定部16は、位置検出部14によって検出された位置、及び位置追従部15によって追従された位置から物体20の形状を推定する形状推定手段である。ここで推定される形状は、二次元の形状(カメラ11によって撮像された画像内での形状)である。また、ここでの形状の推定には、(カメラ11によって撮像された画像内での)形状の位置を推定することも含む。形状推定部16は、位置検出部14に検出された(位置追従部15によって追従された)位置が所定の数(例えば3点)になったら形状推定を行う。位置をいくつ用いて形状推定を行うかについては、あらかじめ形状推定部16に記憶されている。
The
形状推定部16は、具体的には例えば、検出された位置を結ぶことによって物体20の形状を推定する。また、形状推定部16は、検出された位置を結んだ形状の図形に内接する図形(例えば四角形)、検出された位置を全て含む図形を推定する形状としてもよい。また、上記の投影を行う範囲の画像上の大きさをあらかじめ設定しておき、検出された位置が当該範囲に収まるように近似して、形状を推定してもよい。形状推定部16は、形状を推定するための情報(例えば、四角形等の形状が決まっている場合はその情報)又はルールをあらかじめ記憶しておき、その情報又はルールを用いて形状の推定を行う。形状推定部16は、推定した形状を示す情報を形状追従部17及びディスプレイ18に出力する。ここで、推定した形状を示す情報には、画像内での形状の位置を示す情報も含む。
Specifically, for example, the
形状追従部17は、カメラによって撮像された画像における、形状推定部16によって推定された物体20の形状に対応する形状を検出(追従)する形状追従手段である。カメラ11による撮像は、後述するディスプレイ18による映像の投影が行われている間行われており、撮像された画像は時間変化する。上述したように撮像された画像内における、検出された形状は、物体20やカメラ11の方向の移動により変化しうる。ディスプレイ18による映像の投影は、検出された物体20の形状に応じて行われるものであり、複数の時刻にわたって映像の投影を行う場合に適切に映像の投影を行えるようにするためのものである。
The
具体的には、形状追従部17は、形状推定部16による形状の推定が行われた時点の画像から、当該形状の特徴を示す情報を取得する。例えば、形状推定部16によって推定された形状の範囲の画像を抽出する。形状追従部17は、当該所定の範囲の画像を検出された形状の特徴を示す画像(のテンプレート)として記憶する。続いて、形状追従部17は、追従対象となる画像から上記記憶した所定の範囲の画像(のテンプレート)に対応する部分を検出して、当該部分を追従対象となる画像における物体20の形状とする。この検出は、具体的には例えば、パターンマッチング(テンプレートマッチング)の手法等が用いられて行われる。位置追従部15は、追従した形状を示す情報をディスプレイ18に出力する。
Specifically, the
追従対象の画像と比較する、上記の形状の特徴を示す情報は画像自体でなくともよい。例えば、抽出した範囲の画像の色情報(ヒストグラムや色の平均)を上記の形状の特徴を示す情報として、追従対象の画像の同様の色情報を持つ領域を追従することとしてもよい。また、物体20のエッジ(端部)の特徴を示す情報をテンプレートとして用いてもよい。また、上述した位置追従部15と同様に、位置検出部14によって検出された各位置を全て追従して、追従された位置から形状推定部16と同様に形状の推定を行い、形状の追従を行うこととしてもよい。形状追従部17は、追従した形状を示す情報をディスプレイ18に出力する。ここで、追従した形状を示す情報には、画像内での形状の位置を示す情報も含む。
The information indicating the feature of the shape to be compared with the image to be followed does not have to be the image itself. For example, the color information (histogram or average color) of the image in the extracted range may be used as information indicating the characteristics of the shape, and the region having the same color information of the image to be followed may be followed. Further, information indicating the characteristics of the edge (end) of the
ディスプレイ18は、形状推定部16によって推定された物体20の形状及び形状追従部17によって追従された物体20の形状(以下、これらを認識形状と呼ぶ)に応じて、映像30を投影する投影手段である。ディスプレイ18は、映像蓄積部19から投影する映像を取得して投影を行う。ディスプレイ18は上述したように例えば、眼鏡型ディスプレイのレンズに設けられており、映像の投影は、上述したように物体20に重畳するように行われる。ディスプレイ18は、形状推定部16又は形状追従部17から入力された情報に基づいて、映像蓄積部19から取得した映像を認識形状に合うように変換して、変換後の映像30を投影する。例えば、映像蓄積部19に蓄積された投影すべき画像が図4(a)に示すように長方形の範囲に並べられた同じ大きさの文字が投影されるものであり、認識形状が台形形状であった場合には図4(b)に示すように短辺(左側の辺)側の文字が長辺(右側の辺)側の文字よりも小さくなるように変換が行われる。また、ディスプレイ18は、形状推定部16又は形状追従部17から入力された情報に基づいて、カメラ11により撮像される画像において物体20が位置する箇所に(ユーザが視認されるように)映像30を投影する。
The
この変換及び位置合わせは、ディスプレイ18が、映像蓄積部19から取得した映像に対して、拡大、縮小、回転移動及び平行移動等を行う既存の画像変換処理を行うことにより実現される。例えば、画像変換処理は、以下の変換行例Mで映像蓄積部19から取得した映像(データ)を変換することによって行われる。
上記の式において、R1x,R2x,R3x,R1y,R2y,R3y,R1z,R2z,R3zは回転パラメータであり、ΔX,ΔY,ΔZは平行移動パラメータである。変換行例Mは、物体20の認識形状の座標(x,y,z)に合わせて、投影すべき画像の座標(X,Y,Z)をそれぞれの軸に対して回転移動及び平行移動させるための行列である。ここで、認識形状及び投影すべき画像は二次元であるのでz=Z=0である。ディスプレイ18が、これらのパラメータを、認識形状及び映像蓄積部19から取得した映像の形状とそれぞれの位置を示す情報とから算出して変換を行う。認識形状が回転している場合は、回転軸毎に回転パラメータR部分が、認識形状の回転角度θaから求めることができる。平行移動認識形状が平行移動している場合は、平行移動分ΔX,ΔY,ΔZのうちその移動軸に沿ったパラメータが設定される。
This conversion and alignment is realized by the
In the above formula, R 1x , R 2x , R 3x , R 1y , R 2y , R 3y , R 1z , R 2z , R 3z are rotational parameters, and ΔX, ΔY, ΔZ are parallel movement parameters. In the conversion row example M, the coordinates (X, Y, Z) of the image to be projected are rotated and translated with respect to the respective axes in accordance with the coordinates (x, y, z) of the recognition shape of the
ディスプレイ18は、上記のように映像に対して変換処理を行い投影する。こうすることによって、図4(b)に示すように物体20の傾きに合わせて、重畳する画像30が傾く。
The
映像蓄積部19は、ディスプレイ18によって投影される映像(データ)30を蓄積しており、ディスプレイ18からの要求に従って映像をディスプレイ18に出力する。
The
物体形状認識装置10は、ディスプレイ18によって投影された(仮想的な)キーボードやタッチパネル等の画像(に対応する部分)に対して、ユーザが行った入力動作を検出して、入力情報とする機能等も有している(図示せず)。この認識は、例えばカメラ11によって撮像された画像を利用した、上述したような音と指の位置の認識等によっても行うことができる。指の位置の検出は、カメラ11による画像における物体20の(検出又は追従された)形状の範囲内のみで行われればよく、画像全体から指を探すよりも早く、精度よく検出を行うことができる。以上が、物体形状認識装置10の機能である。
The object
図5に示すように、物体形状認識装置10は、CPU(Central Processing Unit)101、主記憶装置であるRAM(Random Access Memory)102及びROM(Read Only Memory)103、並びにハードディスク等の補助記憶装置104等のハードウェアを備えるコンピュータを備えて構成される。また、それ以外のハードウェアとして、物体形状認識装置10は、上述したカメラ11、マイク12及びディスプレイ18とを備えて構成される。これらの構成要素が、動作することにより、物体形状認識装置10の上述した機能が発揮される。
As shown in FIG. 5, an object
引き続いて、図6のフローチャートを用いて本実施形態に係る物体形状認識装置10により実行される処理(物体形状認識方法)について説明する。本処理は、ユーザが、物体形状認識装置10の上述した入力デバイスの機能を用いる際に行われる。ユーザが物体形状認識装置10を装着して、当該物体形状認識装置10に対して当該機能を開始させる操作を行うことによって、本処理は開始される。
Subsequently, processing (object shape recognition method) executed by the object
まず、物体形状認識装置10では、カメラ11による、形状の認識対象となる物体20の撮像が開始される(S01、撮像ステップ)。この際、物体形状認識装置10を装着したユーザが物体20の方を向くことによって、カメラ11の撮像方向は物体20の方向となる。この撮像は、本処理中継続して行われる。撮像された画像は、撮像される毎に位置検出部14、位置追従部15及び形状追従部17に出力される。
First, in the object
続いて、ユーザが、指等のあらかじめ設定されたもので物体20を叩く。ユーザにより叩かれる物体20の箇所は、上述したように物体20のすみ21等、物体20の形状を認識できる位置である。物体20がユーザに叩かれると、物体形状認識装置10では、その音がマイク12によって集音されて、その音がマイク12から音検出部13に入力される。続いて、音検出部13によって物体20が叩かれた音が検出される(S02、音検出ステップ)。音が検出されるとその旨が音検出部13から位置検出部14に通知される。
Subsequently, the user hits the
音検出部13から位置検出部14に音が検出された旨が通知されると、位置検出部14によって、カメラによって撮像された画像における音が発生した位置(特徴点)が検出される(S03、位置検出ステップ)。検出された特徴点を示す情報は、位置検出部14から位置追従部15及び形状推定部16に出力される。ここで、検出された特徴点の数が形状の推定に必要な数である3になったか否かにより以下のように処理が分岐される(S04)。
When the
検出された特徴点の数が3未満である場合は、位置追従部15によって、カメラ11による画像における、検出された位置に対応する位置が追従される(S05、位置追従ステップ)。追従された位置を示す情報は、位置追従部15から形状推定部16に出力される。上記の位置の追従は、検出される特徴点の数が3になるまで継続して行われる。また、上記の音の検出(S02)及び位置の検出(S03)が行われる
When the number of detected feature points is less than 3, the
一方、S03の処理の後、検出された特徴点の数が3以上となった場合、形状推定部16によって物体20の形状が推定される(S06、形状推定ステップ)。推定された形状を示す情報は、形状推定部16から形状追従部17及びディスプレイ18に出力される。形状追従部17では、推定した形状の追従のため推定された形状を示す情報に基づいて、当該形状の特徴を示す情報が取得されて保存される(S07、形状追従ステップ)。
On the other hand, after the process of S03, when the number of detected feature points is 3 or more, the shape of the
続いて、ディスプレイ18によって、投影される映像が、映像蓄積部19から取得される。続いて、ディスプレイ18によって、形状推定部16及び形状追従部17から入力された、物体20の形状を示す情報に基づいて、上記の映像を変換処理するためのパラメータが算出される(S08、投影ステップ)。続いて、ディスプレイ18によって、算出されたパラメータを用いて投影する画像の変換処理が行われる(S09、投影ステップ)。続いて、ディスプレイ18によって、変換処理された映像30が、上述したように物体20に重畳されるように投影される(S10、投影ステップ)。
Subsequently, the projected image is acquired from the
上記の投影された映像は(仮想的な)キーボードやタッチパネル等の画像であり、当該画像(に対応する部分)に対してユーザは入力動作を行う。当該入力動作が行われた場合、物体形状認識装置10では入力動作が検出され入力情報とされる(S11)。
The projected video is an image of a (virtual) keyboard or touch panel, and the user performs an input operation on the image (corresponding to the image). When the input operation is performed, the object
また、物体形状認識装置10では、ディスプレイ18による上記の映像の投影が行われている間、形状追従部17によって、カメラ11による画像における、物体20の形状の追従が行われる(S12、形状追従ステップ)。追従された形状を示す情報は、ディスプレイ18に出力されて、映像の投影処理等(S08〜S11)が当該追従された形状に基づいて行われる。以上が本実施形態に係る物体形状認識装置10により実行される処理である。
Further, in the object
上述したように本実施形態では物体20の形状が認識される際には、ユーザ等が物体20を叩くことによって音が発生される。一方で、上記の音が発生したタイミングにおいて当該物体20は撮像されており、撮像された画像における、音が発生した位置が検出される。検出された位置から物体20の形状が特定される。即ち、本実施形態では、物体20の撮像、音の検出、及び音が発生した位置の検出によって物体20の形状の推定を行う。これらは従来の形状の認識に比べて簡易に行うことができ、結果として、本実施形態によれば容易に物体20の形状を認識することができる。
As described above, in the present embodiment, when the shape of the
本実施形態のように物体20を叩いて音を発生させることとすれば、容易に物体20から音を発生させることができる。何で物体を叩くか(例えば、ユーザの指)を決めておくことにより、あらかじめ指等の情報を記憶させておき、確実に音が発生した位置が検出される。このような構成とすることによって、より容易かつ確実に物体20の形状を認識することができる。
If a sound is generated by hitting the
また、本実施形態のようにユーザが指で叩いた部分が形状として認識されるため、本実施形態のように当該形状がディスプレイ18によって映像が投影される範囲として利用される場合、ユーザが任意かつ容易に投影範囲を指定することができる。即ち、本実施形態では、適切な形状の認識を行うことができる。また、この際、認識対象となる物体20や撮像される画像の背景に係る情報をあらかじめ保持しておく必要はないため、この点においても本実施形態の実施は容易である。
In addition, since the portion struck by the user's finger as in this embodiment is recognized as a shape, when the shape is used as a range in which an image is projected by the
更に、本実施形態のように検出する音の情報をあらかじめ記憶させておくことによって、発生する音の検出を確実に行うことができ、確実に物体20の形状を認識することができる。ただし、必ずしも音の情報の記憶は必ずしも必要ではなく、例えば、一定量の大きさの音(あらかじめ設定した閾値を超える音量を有する音)が発生した場合に音を検出する等の構成としてもよい。
Furthermore, by storing in advance the information of the sound to be detected as in the present embodiment, it is possible to reliably detect the sound that is generated and to recognize the shape of the
また、本実施形態のように検出された複数の位置から、形状を推定することが好ましい。この構成によれば、適切に物体の形状を認識することができる。本実施形態では、3点の位置から形状を推定しているがそれ以上の位置から形状を推定してもよい。 Moreover, it is preferable to estimate a shape from a plurality of positions detected as in the present embodiment. According to this configuration, it is possible to appropriately recognize the shape of the object. In the present embodiment, the shape is estimated from three positions, but the shape may be estimated from more positions.
また、本実施形態のように検出した位置を追尾することが好ましい。この構成によれば、例えば、複数の位置を検出する間に物体20自体やカメラ11の撮像方向が動いたとしても、適切な位置に基づいて物体20の形状を推定することができる。即ち、より適切に物体20の形状を認識することができる。ただし、物体20やカメラ11が固定されている場合や1つの画像からや短時間に複数の位置を検出する場合等は、必ずしも上記の構成をとる必要はない。
Further, it is preferable to track the detected position as in this embodiment. According to this configuration, for example, even if the
また、本実施形態のような構成を取れば、ユーザが投影したい物体20に応じて映像が投影され、上述した投影や重畳を適切に行うことができる。例えば、ユーザが所持しているノートや手帳等に違和感無く映像の投影が行われる。また、上述したように形状を追従した上で投影を行うこととすれば、物体20自体やカメラ11の撮像方向が動いたとしても、上述した投影や重畳を適切に行うことができる。ただし、位置の追従と同様に物体20やカメラ11が固定されている場合等には、必ずしも上記の構成をとる必要はない。
Further, if the configuration as in the present embodiment is taken, a video is projected according to the
また、上述したように物体20の形状の認識、及び映像の投影を(上記の追従処理を含めて)一連の処理として行なうことによって、リアルタイムに映像の投影を行うことができ、上述した仮想的な入力デバイスとしてのユーザの利用性を高めることができる。
Further, as described above, by recognizing the shape of the
なお、上述した実施形態では、ユーザが物体20を叩く等して、物体20から音を発生させることとしたが、必ずしも物体20から音を発生させることを前提としなくてもよい。例えば、ユーザの入力音の認識において、周囲が騒がしく物体20を叩く音が取得できない場合、ユーザの声がマイク12及び音検出部13によって音が検出されてもよい。その場合、位置検出部14は、ユーザの声が検出されたタイミングでカメラ11によって撮像された画像において、ユーザの指が指している点を検出する。検出される点は、物体20の形状に応じた位置である。
In the above-described embodiment, the user generates a sound from the
また、周囲が騒がしい際、マイク12でリアルタイムに雑音を解析し、雑音モデルを作成することによって雑音除去を行うこともできる。
In addition, when the surroundings are noisy, noise can be removed by analyzing noise in real time with the
また、上述した実施形態では、物体20の形状を推定するために検出するための位置はすべてユーザが叩いた位置を検出していたが、あらかじめ物体20に設けてあるマーカを併用してもよい。即ち、物体20に設けられるマーカの位置を、従来の方法と同様に検出して、形状推定部16による形状の推定に用いる位置としてもよい。例えば、マーカを物体20に1つ設けておき、他の2つの位置をユーザが物体20を叩くことで検出してもよい。マーカとしては、例えば、特徴的な色や形状のしるしが用いられる。
In the above-described embodiment, the positions detected by the user for detecting the shape of the
また、本実施形態では、カメラ11によって撮像されて得られる画像は、通常の(可視光により撮像される)画像であることとしたが、必ずしも上記の画像でなくてもよく、物体20及び物体20を叩くもの(ユーザの指等)の特徴が認識できるものであればよい。具体的には例えば、赤外線による画像、距離画像、サーモグラフィ(温度分布)による画像等でもよい。
In the present embodiment, the image obtained by being captured by the
10…物体形状認識装置、11…カメラ、12…マイク、13…音検出部、14…位置検出部、15…位置追従部、16…形状推定部、17…形状追従部、18…ディスプレイ、19…映像蓄積部、101…CPU、102…RAM、103…ROM、104…補助記憶装置、20…物体、30…映像。
DESCRIPTION OF
Claims (9)
所定の音を検出する音検出手段と、
前記音検出手段によって前記音が検出されたタイミングで前記撮像手段によって撮像された画像における、前記物体の形状に応じた位置を検出する位置検出手段と、
前記位置検出手段によって検出された位置から前記物体の形状を推定する形状推定手段と、
を備える物体形状認識システム。 Imaging means for imaging an object that is a shape recognition target;
Sound detection means for detecting a predetermined sound;
Position detecting means for detecting a position corresponding to the shape of the object in an image captured by the imaging means at a timing when the sound is detected by the sound detecting means;
Shape estimation means for estimating the shape of the object from the position detected by the position detection means;
An object shape recognition system comprising:
前記位置検出手段は、前記音が発生した位置を前記物体の形状に応じた位置として検出する、
ことを特徴とする請求項1に記載の物体形状認識システム。 The sound detection means detects a sound generated from the object as the predetermined sound,
The position detecting means detects a position where the sound is generated as a position corresponding to a shape of the object;
The object shape recognition system according to claim 1.
前記位置検出手段は、前記物体を叩くものに係る情報をあらかじめ記憶しておき、当該情報に基づいて前記物体が叩かれた位置を、前記音が発生した位置として検出する、
ことを特徴とする請求項2に記載の物体形状認識システム。 The sound generated from the object is the sound of the object being hit,
The position detecting means stores in advance information relating to the object that strikes the object, and detects the position where the object is struck based on the information as the position where the sound is generated.
The object shape recognition system according to claim 2.
前記形状推定手段は、前記位置検出手段によって検出された複数の位置から前記物体の形状を推定する、
ことを特徴とする請求項1〜4のいずれか一項に記載の物体形状認識システム。 The position detecting means detects positions according to the shapes of the plurality of objects;
The shape estimation means estimates the shape of the object from a plurality of positions detected by the position detection means;
The object shape recognition system according to any one of claims 1 to 4.
前記撮像手段によって撮像された時間変化した画像における、前記位置検出手段によって検出された位置に対応する位置を検出する位置追従手段を更に備え、
前記形状推定手段は、前記位置追従手段によって検出された位置から前記物体の形状を推定する、
ことを特徴とする請求項1〜5のいずれか一項に記載の物体形状認識システム。 The imaging means images the object over a plurality of times,
A position follower for detecting a position corresponding to the position detected by the position detector in the time-changed image captured by the imager;
The shape estimating means estimates the shape of the object from the position detected by the position following means;
The object shape recognition system according to any one of claims 1 to 5.
前記撮像手段によって撮像された時間変化した画像における、前記形状推定手段によって推定された前記物体の形状に対応する形状を検出する形状追従手段を更に備え、
前記投影手段は、前記位置追従手段によって検出された形状に応じて、映像を投影する、
ことを特徴とする請求項7に記載の物体形状認識システム。 The imaging means images the object over a plurality of times,
A shape follower for detecting a shape corresponding to the shape of the object estimated by the shape estimating unit in the time-varying image captured by the imaging unit;
The projecting means projects an image according to the shape detected by the position following means;
The object shape recognition system according to claim 7.
所定の音を検出する音検出ステップと、
前記音検出ステップにおいて前記音が検出されたタイミングで前記撮像ステップにおいて撮像された画像における、前記物体の形状に応じた位置を検出する位置検出ステップと、
前記位置検出ステップにおいて検出された位置から前記物体の形状を推定する形状推定ステップと、
を含む物体形状認識方法。 An imaging step of imaging an object whose shape is to be recognized;
A sound detection step for detecting a predetermined sound;
A position detection step of detecting a position corresponding to the shape of the object in the image captured in the imaging step at a timing when the sound is detected in the sound detection step;
A shape estimation step for estimating the shape of the object from the position detected in the position detection step;
An object shape recognition method including:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008205609A JP5068711B2 (en) | 2008-08-08 | 2008-08-08 | Object shape recognition system and object shape recognition method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008205609A JP5068711B2 (en) | 2008-08-08 | 2008-08-08 | Object shape recognition system and object shape recognition method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010038879A JP2010038879A (en) | 2010-02-18 |
JP5068711B2 true JP5068711B2 (en) | 2012-11-07 |
Family
ID=42011572
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008205609A Expired - Fee Related JP5068711B2 (en) | 2008-08-08 | 2008-08-08 | Object shape recognition system and object shape recognition method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5068711B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104754261A (en) * | 2013-12-26 | 2015-07-01 | 深圳市快播科技有限公司 | Projection equipment and projection method |
JP6804624B2 (en) * | 2019-11-22 | 2020-12-23 | 株式会社ミツトヨ | Measurement data collection device and program |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH086708A (en) * | 1994-04-22 | 1996-01-12 | Canon Inc | Display device |
JP4013100B2 (en) * | 1998-09-21 | 2007-11-28 | 富士フイルム株式会社 | Electronic camera |
JP2000298544A (en) * | 1999-04-12 | 2000-10-24 | Matsushita Electric Ind Co Ltd | Input/output device and its method |
US20060192763A1 (en) * | 2005-02-25 | 2006-08-31 | Ziemkowski Theodore B | Sound-based virtual keyboard, device and method |
JP2008146109A (en) * | 2006-12-05 | 2008-06-26 | Canon Inc | Image processing method and image processor |
JP4871226B2 (en) * | 2007-07-06 | 2012-02-08 | 株式会社エヌ・ティ・ティ・ドコモ | Recognition device and recognition method |
JP4870651B2 (en) * | 2007-11-20 | 2012-02-08 | 株式会社エヌ・ティ・ティ・ドコモ | Information input system and information input method |
JP5205187B2 (en) * | 2008-09-11 | 2013-06-05 | 株式会社エヌ・ティ・ティ・ドコモ | Input system and input method |
-
2008
- 2008-08-08 JP JP2008205609A patent/JP5068711B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2010038879A (en) | 2010-02-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5205187B2 (en) | Input system and input method | |
JP2022095879A (en) | Eye pose identification using eye features | |
TWI486629B (en) | Optical-see-through head mounted display system and interactive operation | |
TW202119199A (en) | Virtual keyboard | |
US9778748B2 (en) | Position-of-interest detection device, position-of-interest detection method, and position-of-interest detection program | |
JP5203281B2 (en) | Person detection device, person detection method, and person detection program | |
JP6052399B2 (en) | Image processing program, image processing method, and information terminal | |
US9727776B2 (en) | Object orientation estimation | |
JP5526465B2 (en) | Nail position data detection device, nail position data detection method, and nail position data detection program | |
JP5001930B2 (en) | Motion recognition apparatus and method | |
JP2014165660A (en) | Method of input with virtual keyboard, program, storage medium, and virtual keyboard system | |
JP2010237872A (en) | Device, method and program for detecting person area | |
WO2020054760A1 (en) | Image display control device and program for controlling image display | |
JP2010237873A (en) | Device, method, and program for detecting attitude change | |
JP6950644B2 (en) | Attention target estimation device and attention target estimation method | |
JP2017219942A (en) | Contact detection device, projector device, electronic blackboard system, digital signage device, projector device, contact detection method, program and recording medium | |
JP6643825B2 (en) | Apparatus and method | |
JP5068711B2 (en) | Object shape recognition system and object shape recognition method | |
JP4972013B2 (en) | Information presenting apparatus, information presenting method, information presenting program, and recording medium recording the program | |
JP5951966B2 (en) | Image processing apparatus, image processing system, image processing method, and program | |
TWI674518B (en) | Calibration method of eye-tracking and device thereof | |
JP6169462B2 (en) | Information processing apparatus and information processing method | |
TWI460683B (en) | The way to track the immediate movement of the head | |
JP6762544B2 (en) | Image processing equipment, image processing method, and image processing program | |
CN119540309A (en) | Multi-mode eye movement data mapping method, device, edge computing equipment and medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110329 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120724 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120731 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120815 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150824 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5068711 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |