JP4515005B2 - Electronic camera - Google Patents
Electronic camera Download PDFInfo
- Publication number
- JP4515005B2 JP4515005B2 JP2001298601A JP2001298601A JP4515005B2 JP 4515005 B2 JP4515005 B2 JP 4515005B2 JP 2001298601 A JP2001298601 A JP 2001298601A JP 2001298601 A JP2001298601 A JP 2001298601A JP 4515005 B2 JP4515005 B2 JP 4515005B2
- Authority
- JP
- Japan
- Prior art keywords
- subject
- position information
- electronic camera
- sound
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Television Signal Processing For Recording (AREA)
- Studio Devices (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は、一般的には録音機能を備えた電子カメラに関し、特に被写体と音声との関連付け機能を実現する技術に関する。
【0002】
【従来の技術】
近年、デジタルビデオカメラ(DVC)だけでなく、音声を記録する録音機能を備えたデジタルスチールカメラ(DSC)とも呼ばれる電子カメラが開発されている。このような電子カメラであれば、撮影した画像(静止画像又は動画像)を再生すると共に、録音した音声を再生することができるため、撮影画像に対する再生効果を高めることができる。但し、ここでは、電子カメラは、DSCだけでなく、静止画撮影機能を備えたDVCも意味する。
【0003】
関連する先行技術としては、対話制御技術を有する情報処理装置において、画面表示及び音声出力の少なくとも一方を用いてガイダンス情報を提示する技術が提案されている(例えば特開平10−11248号公報を参照)。
【0004】
一般的に、電子カメラは、撮影画像をパーソナルコンピュータ等の情報処理装置に入力させることができる。パーソナルコンピュータは、入力した撮影画像を表示画面上に表示すると共に、付属しているスピーカから録音した音声を再生することも可能である。
【0005】
【発明が解決しようとする課題】
パーソナルコンピュータでは、撮影画像を表示画面上に表示しているときに、被写体位置をポインタ(カーソル)で指定するタイミングで、録音した音声を再生することも可能である。しかしながら、従来の電子カメラでは、撮影した画像において、被写体と録音した音声とを対応付けして記録することはできない。パーソナルコンピュータなどで、入力した静止画像に音声位置情報を付加する処理は可能であるが、通常では高度の画像処理が必要となる。
【0006】
そこで、本発明の目的は、録音機能を有する電子カメラにおいて、撮影画像の被写体と音声とを関連付けした位置情報を生成できる機能を備えた電子カメラを提供することにある。
【0007】
【課題を解決するための手段】
本発明の観点は、録音機能を有する電子カメラにおいて、撮影画像中の被写体(人や物)と、録音(検出)した音声とを関連付けした位置情報(発音位置情報)を取得(算出又は推定)する機能を備えた電子カメラに関する。
【0008】
本発明の電子カメラは、被写体を撮像して画像データに変換する撮像手段と、音声を検出して音声データに変換する音声検出手段と、前記音声の発生位置に関連する位置情報を取得する位置情報取得手段と、前記位置情報を前記画像データまたは前記音声データに関連付けさせて出力する出力手段と、前記画像データを使用して被写体の動態を検出する動態検出手段とを有し、前記位置情報取得手段は、前記動態検出手段での動態検出から被写体位置を検出したと判断した場合には当該被写体位置に対応する位置情報を被写体の発音位置として一時記憶し、前記動態検出手段での動態検出から被写体位置を検出できないと判断した場合には、撮影画面上のほぼ中央位置の被写体位置を発音候補位置として一時記憶する構成である。
【0009】
位置情報取得手段は、例えば被写体の動態(例えば人の口の動きなど)を検出し、当該検出位置を音声の発生位置(発音位置)として推定した発音位置情報を取得する構成である。出力手段は、当該位置情報を記録媒体に記録する記録手段や、無線通信等によりデータを伝送する伝送手段に出力する。
【0010】
このような構成の電子カメラであれば、撮影画像及び録音した音声と共に、被写体と音声とを関連付けした位置情報(発音位置情報)を得ることができるため、画像再生時に、被写体に関連付けして音声再生を行う処理を比較的容易に実現することができる。これにより、画像再生中の単なる音声再生だけでなく、例えば会話中の被写体を指定することにより、当該会話の音声再生を実現できる等、優れた再生効果を得ることができる。
【0011】
【発明の実施の形態】
以下図面を参照して、本発明の実施の形態を説明する。
【0012】
(電子カメラの構成)
図1は、同実施形態に関する電子カメラの要部を示すブロック図である。同電子カメラは、静止画及び動画の撮影機能を備えたデジタルスチールカメラ(DSC)を想定しているが、静止画撮影機能を有するデジタルビデオカメラ(DVC)にも適用可能である。
【0013】
同電子カメラは、大別して撮影系、画像処理系、制御・操作系、表示・出力系、及び記録系から構成されている。撮影系は、光学レンズユニット1と、レンズ駆動回路2と、撮像素子3と、撮像系制御回路4と、A/Dコンバータ5とを有する。撮影系は、被写体の結像を入力し、デジタル画像データ(静止画像データ及び動画像データ)に変換する機能を有する。
【0014】
光学レンズユニット1は、ズーム及びフォーカス機構を含み、レンズ駆動回路2によりズーム及びフォーカス制御がなされる。撮像素子3は、通常では数百万画素のCCD(charge coupled device)を有し、光学レンズユニット1から入力される入力光(被写体像)を撮像信号(色成分を含む)に光電変換する。撮像系制御回路4は、撮像素子11からの撮像信号の出力タイミング、出力レベルなどを制御するためのAGC(自動利得調整)処理、及びCDS(相関2重サンプリング)処理などを実行する。A/Dコンバータ5は、撮像信号をデジタル画像データに変換する。
【0015】
画像処理系は、ディジタル信号プロセッサ(DSP)回路6、動き検出回路7、及びSDRAM(synchronous DRAM)8を有する。DSP回路6は、SDRAM8に格納された画像データに対する各種の画像処理(ホワイトバランス補正処理や、画像圧縮・伸張処理等)、及び音声データに対する加工処理を実行する。SDRAM8は、画像データ及び音声データ以外に、同実施形態の発音位置情報に関係する情報(動き量分布、被写体位置情報など)を一時的に格納するワークメモリ(バッファメモリ)である。動き検出回路7は、後述するように、被写体の動態に関係する動き検出(動体検出)を実行する回路であり、動き量分布及び被写体の位置情報を取得する機能を有する。
【0016】
表示・出力系及び記録系は、DMA回路11、撮影画像をディスプレイ上に表示する画像表示部12、及びカードインターフェース13を有する。DMA回路11は、システムコントローラ17の指示に応じて、SDRAM8とカードインターフェース13との間のデータ転送を実行する。画像表示部12は、例えばLCD(liquid crystal display)モニタからなる。カードインターフェース13は、記録媒体であるメモリカード14に対する画像データ、音声データ及び発音位置情報などの書込み及び読出しを制御する。なお、表示・出力系としては、無線又は有線通信方式でのデータ伝送を行うための装置や、ビデオ出力端子なども含まれる(図示せず)。
【0017】
同実施形態の電子カメラは、録音機能を実現するための音声インターフェース9、及びマイクロフォン(音声入力機器)10を有する。音声インターフェース9は、マイク10から入力した音声のサンプリングデータを生成し、SDRAM8に音声データとして格納する。
【0018】
制御・操作系は、電源部15、操作部16、及びシステムコントローラ17を有する。電源部15は、システムコントローラ17の指示に応じて、電子カメラの各ブロックに対して電源供給を制御する。操作部16は、レリーズボタンや、各種のモード設定に必要なスイッチなどを有する。システムコントローラ17は、電子カメラの各ブロックの入出力や動作を制御するマイクロプロセッサ及び其のプログラムから構成されている。システムコントローラ17は、同実施形態に関係する発音位置情報の生成処理を実行する。また、システムコントローラ17は、操作部16の入力操作に応じて、画像表示部12上にモード設定などの操作用画面を表示する制御も実行する。
【0019】
(撮影動作)
以下図1と共に、図2と図3のフローチャート、図4及び図5を参照して、同実施形態の被写体と音声とを関連付けるための位置情報(発音位置情報)を生成する動作を含む撮影動作について説明する。
【0020】
まず、電子カメラの電源がオンされると、システムコントローラ17は、撮影処理と音声処理を開始させる(ステップS1のYES,S2)。撮影処理では、撮影系で得られた撮像画像データがSDRAM8に格納されるまでの一連の動作が実行される(ステップS6を参照)。音声処理では、被写体の近傍から発生する音声がマイク10により検出されると、音声インターフェース9は、音声データに変換してSDRAM8に格納する。
【0021】
ここで、同実施形態では、被写体位置検出モードと呼ぶモードが用意されており、当該モードが操作部16を介してシステムコントローラ17に設定されると、撮影動作に伴って、位置情報(発音位置情報)の生成処理が実行される(ステップS3のYES)。当該モードが設定されていない場合には、操作部16のレリーズボタンの操作に応じて、システムコントローラ17は、前記の撮影処理を実行する(ステップS3のNO,S5,S6)。システムコントローラ17は、SDRAM8からDSP回路6に撮影画像を転送し、DSP回路6で画像圧縮処理などを実行させる。そして、カードインターフェース13を介して、当該画像データをメモリカード14に記録する(ステップS7のNO,S11)。また、音声記録モードが設定されている場合には、システムコントローラ17は、SDRAM8から音声データを読出し、DSP回路6及びカードインターフェース13を経て、メモリカード14に記録する(ステップS12のYES,S13)。
【0022】
一方、被写体位置検出モードが設定されている場合には、システムコントローラ17は、動き検出回路7を制御して、動き検出処理を開始させる(ステップS3のYES,S4)。システムコントローラ17は、撮影処理での撮影したタイミング(即ち、撮影フレーム)を動き検出回路7に指示する(ステップS6,S7のYES,S8)。動き検出回路7は、フレームの動き量分布から被写体を判別し、被写体の位置情報を取得する(ステップS9)。システムコントローラ17は、動き検出回路7により取得された位置情報を、画像データ及び音声データに関連付けしてメモリカード14に記録する(ステップS10)。
【0023】
(動き検出回路の動作原理)
同実施形態は、被写体位置検出モードが設定されている場合には、撮影時の被写体の位置を音声の発生位置である発音位置として想定し、当該位置情報を撮影時に記録する画像データ及び音声データに関連付けてメモリカード14に記録する。
【0024】
この場合、同実施形態では、動き検出回路7は、被写体の動態、具体的には人体全体や口などの動き(動体)を検出して、当該検出結果(動体の位置)を被写体の位置情報として算出する。要するに、動きのある被写体から音声が発生し、その被写体の位置が発音位置であると想定する。
【0025】
以下図3から図5を参照して、動き検出回路7の動作原理を説明する。
【0026】
動き検出回路7は、システムコントローラ17からの指示に応じて動作を開始し、SDRAM8からフレームを取得する(ステップS20,S21)。具体的には、画像フレーム中の輝度データを取得する。動き検出回路7は、少なくとも2フレーム分の輝度データを取得すると、図4に示すように、最新フレーム(Fn)40および直前のフレーム(Fn−1)41の各輝度データを使用して、被写体の動き量分布(Mn)42を算出する(ステップS23)。この動き量分布(Mn)42は、所定の閾値(Mf)を超えるフレーム間の差分絶対値の集合である。
【0027】
動き量分布(Mn)は、撮影画像での座標値M(n,x,y)の集合として、下記式(1)により表現できる。
【0028】
M(n,x,y)=MAX(|F(n,x,y)−F(n−1,x,y)|,Mf)…(1)
ここで、x,yは、撮影画像の任意のX軸、Y軸方向の座標位置を意味する。F(n,x,y)は、n番目のフレーム位置での座標(x,y)位置における輝度を示す。Mfは、輝度を2値化するための閾値を示す。MAX(a,b)は、「b>a」である場合を「0」、それ以外は「1」を返す関数を意味する。
【0029】
次に、システムコントローラ17から撮影フレーム(時系列的に最後のフレーム)が指示されると、動き検出回路7は、動き量区間分布(Sn)をmフレーム分を算出する(ステップS24のYES,S25)。この動き量区間分布(Sn)は2値化された分布であり、図5(A)に示すように、X軸、Y軸で分割し、区間毎に閾値(Mf)を超えた個数をカウントしたものである。動き検出回路7は、指定された撮影フレームからmフレーム前までの動き量区間分布(Sn)を比較し、被写体位置を取得する(ステップS26)。
【0030】
ここで、図5を参照して、動き量区間分布(Sn)について説明する。図5(A)は、動き量分布(Mn)中の[Xarea,Yarea]で分割されたエリア中の(a,b)区間でのM(n,x,y)を足した数(これをS(n,a,b)と定義する)を動き量分布(Mn)として示したものである。また、同図(B)は、S(n,a,b)の値が閾値(Ks)を超える区間を示すものである。
【0031】
動き量区間分布(Sn)は、全エリアでのS(n,a,b)の集合として、下記式(2)により表現できる。
【0032】
S(n,a,b)=Σ(x=a[0],x=a[Xe−1],Σ(y=b[0],y=b[Ye−1],M(n,x,y)))…(2)
ここで、a,bは、「Xarea×Yarea」で分割された任意のエリア[a,b]を示す。「Σ(x=0,x=n,X(x))」は、x=0からx=nまでのX(x)を積算した値であることを意味する。Xeは、撮影画像エリアでのX軸方向区間での分割数(Xe=X軸画素数/Xarea)を示す。Yeは、撮影画像エリアでのY軸方向区間での分割数(Ye=Y軸画素数/Yarea)を示す。a[0]はエリアaでの0番目のX座標を示し、b[0]はエリアbでの0番目のY座標を示す。
【0033】
動き検出回路7は、被写体の部分的動きが激しい場合に、図5(B)に示すように、S(n,a,b)の値が閾値(Ks)を超える数がN未満となる場合には、S(n,a,b)の値が最大となる区間を被写体が存在すると推定する。また、その区間に隣接する区間で、閾値(Ks)を超える区間があれば、その区間も被写体位置とする。逆に全体の動きが激しい場合(区間毎にカウントされた数S(n,a,b)が閾値(Ks)より多い区間の数がN以上の場合)は、カメラが動いているものと仮定し、被写体位置を特定しない。
【0034】
動き検出回路7は、撮影フレームの画像に対して最終的に被写体位置を検出したと判断した場合には、当該位置情報をSDRAM8に一時記憶する(ステップS27のYES,S28)。一方、最終的に被写体位置を特定できない場合には、複数の候補位置情報をSDRAM8に一時記憶する(ステップS27のNO,S29)。具体的には、mフレーム間の被写体の位置が時系列で連続する場合(即ち、被写体の位置がmフレーム間で同じ位置または隣接区間にある場合)には、最終的に被写体位置を検出したと判断される。また、mフレーム間で被写体の位置が時系列で連続しない場合(即ち、被写体の位置がmフレーム間で1つ以上離れた区間に存在する場合)には、最終的に被写体位置を検出できないと判断される。この場合には、時系列の要素と、撮影画像の中心に近いなどの位置的要素から被写体の複数の候補位置を決定してSDRAM8に一時記憶することになる。
【0035】
以上要するに、被写体位置検出モードが設定されている場合には、動き検出回路7は、被写体の動態、具体的には人体全体や口などの動き(動体)を検出して、当該検出結果(動体の位置)を被写体の位置情報として取得する。即ち、撮影時に動きのある被写体の位置を音声の発生位置である発音位置として想定し、当該位置情報を撮影時に記録する画像データ及び音声データに関連付けてメモリカード14に記録する。従って、撮影画像及び録音した音声と共に、被写体と音声とを関連付けした位置情報(発音位置情報)を得ることができるため、画像再生時に、被写体に関連付けして音声再生を行う処理を比較的容易に実現することができる。これにより、画像再生中の単なる音声再生だけでなく、例えば会話中の被写体を指定することにより、当該会話の音声再生を実現できる等、優れた再生効果を得ることができる。
【0036】
(変形例1)
同実施形態の原理では、被写体として、動かない人物が後ろ向きに撮影している場合には、その口の動きなどが検出できないため、発音位置を特定できない。そこで、同実施形態の変形例として、動き検出回路7を使用することなく、システムコントローラ17は、撮影画面上の例えば中央位置で撮影されている被写体を発音位置として想定する。従って、システムコントローラ17は、想定した発音位置の位置情報を、撮影時に記録する画像データ及び音声データに関連付けてメモリカード14に記録する。
【0037】
通常では、音声記録モード時には、音声を発生していると思われる被写体をほぼ中央にして撮影する場合が多いため、当該中央位置は発音位置として妥当であると推定できる。また、ユーザが操作部16から被写体の位置情報(指定位置)を入力できる機能があれば、当該位置情報を発音位置情報として記録してもよい。
【0038】
(変形例2)
図6は、同実施形態の変形例2として、音声再生時に、疑似ステレオ効果を実現する方式を説明するための図である。
【0039】
同実施形態の動き検出回路7は、図6(A)に示すように、時間軸Tに対して、mフレーム間での被写体60の位置を検出する。そこで、当該被写体60の位置情報を利用して、同図(B)に示すように、仮想的なステレオマイクの位置XL,XRを設定し、モノラル音声からステレオ音声に変換するための音量に関係する係数(KL,KR)を算出することができる。位置XLは左側仮想マイク位置を意味し、位置XRは右側仮想マイク位置を意味する。
【0040】
具体的には、システムコントローラ17は、以下のような手順で係数(KL,KR)を算出する。即ち、図6(B)に示すように、被写体60までの距離Lを撮影系から得られる焦点距離から算出する。次に、被写体60の中心位置61と、仮想的なステレオマイクの位置XL,XRとの角度α,β、及び距離M(被写体60までの距離とレンズの仕様から算出)から、下記関係式(3),(4)が成立する。
【0041】
tan(α)=L/(XL+M)…(3)
tan(β)=L/(XR−M)…(4)
前記関係式(3)を使用して、左側仮想マイク位置XLから被写体60までの距離(LLとする)を算出する。また、前記関係式(4)を使用して、右側仮想マイク位置XRから被写体60までの距離(LRとする)を算出する。そして、角度α,βに基づいた仮想的なステレオマイクの位置XL,XR、及び距離LL,LRを含むテーブルを作成する。システムコントローラ17は、最終的に当該テーブルからモノラル音声からステレオ音声に変換するための音量に関係する係数(KL,KR)を算出する。
【0042】
以上のように本変形例によれば、被写体の位置と関連付けて音声を再生する場合に、当該音声を仮想的なステレオマイクにより録音して、あたかもステレオ再生するような疑似ステレオ再生効果を得ることができる。
【0043】
【発明の効果】
以上詳述したように本発明によれば、録音機能を有する電子カメラにおいて、撮影画像の被写体と音声とを関連付けした位置情報を生成できる機能を備えた電子カメラを提供できる。これにより、画像再生時に、被写体に関連付けして音声再生を行う処理を比較的容易に実現することができる。
【図面の簡単な説明】
【図1】本発明の実施形態に関係する電子カメラの要部を示すブロック図。
【図2】同実施形態に関する撮影動作を説明するためのフローチャート。
【図3】同実施形態に関する動き検出回路の動作を説明するためのフローチャート。
【図4】同実施形態に関する動き検出処理の原理を説明するための図。
【図5】同実施形態に関する動き検出処理の原理を説明するための図。
【図6】同実施形態の変形例に関する疑似ステレオ効果処理を説明するための図。
【符号の説明】
1…光学レンズユニット
2…レンズ駆動回路
3…撮像素子
4…撮像系制御回路
5…A/Dコンバータ
6…ディジタル信号プロセッサ(DSP)回路
7…動き検出回路
8…SDRAM
9…音声インターフェース
10…マイクロフォン
11…DMA回路
12…画像表示部
13…カードインターフェース
14…メモリカード
15…電源部
16…操作部
17…システムコントローラ[0001]
BACKGROUND OF THE INVENTION
The present invention generally relates to an electronic camera having a recording function, and more particularly to a technique for realizing a function of associating a subject with sound.
[0002]
[Prior art]
In recent years, not only a digital video camera (DVC) but also an electronic camera called a digital still camera (DSC) having a recording function for recording sound has been developed. With such an electronic camera, a captured image (still image or moving image) can be reproduced and recorded sound can be reproduced, so that the reproduction effect on the captured image can be enhanced. However, here, the electronic camera means not only a DSC but also a DVC having a still image shooting function.
[0003]
As a related prior art, a technique for presenting guidance information using at least one of screen display and audio output in an information processing apparatus having a dialog control technique has been proposed (see, for example, Japanese Patent Laid-Open No. 10-11248). ).
[0004]
Generally, an electronic camera can input a captured image to an information processing apparatus such as a personal computer. The personal computer can display the input captured image on the display screen and can reproduce the sound recorded from the attached speaker.
[0005]
[Problems to be solved by the invention]
In a personal computer, when a photographed image is displayed on the display screen, it is also possible to play back the recorded sound at the timing when the subject position is designated with a pointer (cursor). However, the conventional electronic camera cannot record the subject and the recorded voice in association with each other in the captured image. Although it is possible to add audio position information to an input still image with a personal computer or the like, it is usually necessary to perform advanced image processing.
[0006]
SUMMARY OF THE INVENTION An object of the present invention is to provide an electronic camera having a function capable of generating positional information that associates a subject of a captured image with sound in an electronic camera having a recording function.
[0007]
[Means for Solving the Problems]
An aspect of the present invention obtains (calculates or estimates) position information (pronunciation position information) that associates a subject (person or object) in a captured image with a recorded (detected) sound in an electronic camera having a recording function. The present invention relates to an electronic camera having a function to perform.
[0008]
An electronic camera according to the present invention includes an imaging unit that captures an image of a subject and converts it into image data, an audio detection unit that detects audio and converts it into audio data, and a position that acquires position information related to the position where the audio is generated An information acquisition means; an output means for outputting the position information in association with the image data or the audio data; and a dynamic detection means for detecting the dynamics of a subject using the image data. When it is determined that the subject position is detected from the dynamic detection by the dynamic detection unit , the acquisition unit temporarily stores position information corresponding to the subject position as a pronunciation position of the subject, and the dynamic detection by the dynamic detection unit If it is determined that the subject position cannot be detected from the subject position, the subject position at the substantially central position on the shooting screen is temporarily stored as the pronunciation candidate position .
[0009]
The position information acquisition unit is configured to detect, for example, dynamics of a subject (for example, movement of a person's mouth) and to acquire pronunciation position information in which the detected position is estimated as a voice generation position (sound generation position). The output unit outputs the position information to a recording unit that records the position information on a recording medium or a transmission unit that transmits data by wireless communication or the like.
[0010]
With an electronic camera having such a configuration, it is possible to obtain position information (pronunciation position information) that associates a subject with sound as well as a captured image and recorded sound. The process of performing the reproduction can be realized relatively easily. Thereby, not only simple audio reproduction during image reproduction, but also, for example, by specifying a subject in conversation, audio reproduction of the conversation can be realized, and an excellent reproduction effect can be obtained.
[0011]
DETAILED DESCRIPTION OF THE INVENTION
Embodiments of the present invention will be described below with reference to the drawings.
[0012]
(Configuration of electronic camera)
FIG. 1 is a block diagram illustrating a main part of the electronic camera according to the embodiment. The electronic camera is assumed to be a digital still camera (DSC) having a still image and moving image shooting function, but is also applicable to a digital video camera (DVC) having a still image shooting function.
[0013]
The electronic camera is roughly divided into a photographing system, an image processing system, a control / operation system, a display / output system, and a recording system. The imaging system includes an
[0014]
The
[0015]
The image processing system includes a digital signal processor (DSP)
[0016]
The display / output system and the recording system include a
[0017]
The electronic camera of the embodiment includes an
[0018]
The control / operation system includes a
[0019]
(Shooting operation)
Hereinafter, referring to the flowcharts of FIGS. 2 and 3 together with FIG. 1, and FIGS. 4 and 5, the photographing operation including the operation of generating position information (sound generation position information) for associating the subject and the sound according to the embodiment. Will be described.
[0020]
First, when the power of the electronic camera is turned on, the
[0021]
Here, in the same embodiment, a mode called a subject position detection mode is prepared, and when the mode is set in the
[0022]
On the other hand, when the subject position detection mode is set, the
[0023]
(Operation principle of motion detection circuit)
In this embodiment, when the subject position detection mode is set, the position of the subject at the time of shooting is assumed as the sound generation position that is the sound generation position, and the position information is recorded as image data and sound data at the time of shooting. And recorded in the
[0024]
In this case, in the embodiment, the
[0025]
Hereinafter, the operation principle of the
[0026]
The
[0027]
The motion amount distribution (Mn) can be expressed by the following equation (1) as a set of coordinate values M (n, x, y) in the captured image.
[0028]
M (n, x, y) = MAX (| F (n, x, y) −F (n−1, x, y) |, Mf) (1)
Here, x and y mean coordinate positions in the arbitrary X-axis and Y-axis directions of the captured image. F (n, x, y) indicates the luminance at the coordinate (x, y) position at the n-th frame position. Mf represents a threshold value for binarizing the luminance. MAX (a, b) means a function that returns “0” when “b> a” and returns “1” otherwise.
[0029]
Next, when an imaging frame (the last frame in time series) is instructed from the
[0030]
Here, the motion amount interval distribution (Sn) will be described with reference to FIG. FIG. 5A shows the number obtained by adding M (n, x, y) in the (a, b) section in the area divided by [Xarea, Area] in the motion amount distribution (Mn) S (n, a, b)) is shown as a motion amount distribution (Mn). FIG. 5B shows a section where the value of S (n, a, b) exceeds the threshold value (Ks).
[0031]
The motion amount interval distribution (Sn) can be expressed by the following equation (2) as a set of S (n, a, b) in all areas.
[0032]
S (n, a, b) = Σ (x = a [0], x = a [Xe−1], Σ (y = b [0], y = b [Ye−1], M (n, x , Y))) ... (2)
Here, a and b indicate arbitrary areas [a, b] divided by “Xarea × Yarea”. “Σ (x = 0, x = n, X (x))” means a value obtained by integrating X (x) from x = 0 to x = n. Xe indicates the number of divisions in the X-axis direction section in the captured image area (Xe = number of X-axis pixels / Xarea). Ye indicates the number of divisions in the Y-axis direction section in the captured image area (Ye = number of Y-axis pixels / Yarea). a [0] indicates the 0th X coordinate in area a, and b [0] indicates the 0th Y coordinate in area b.
[0033]
When the subject's partial movement is intense, the
[0034]
When the
[0035]
In short, when the subject position detection mode is set, the
[0036]
(Modification 1)
According to the principle of the embodiment, when a person who does not move is photographed backward as a subject, since the movement of the mouth cannot be detected, the sound generation position cannot be specified. Therefore, as a modification of the embodiment, the
[0037]
Usually, in the audio recording mode, the subject that is likely to generate audio is often photographed with the center approximately, so it can be estimated that the center position is appropriate as the sound generation position. In addition, if there is a function that allows the user to input subject position information (designated position) from the
[0038]
(Modification 2)
FIG. 6 is a diagram for explaining a method for realizing the pseudo stereo effect at the time of sound reproduction as a second modification of the embodiment.
[0039]
The
[0040]
Specifically, the
[0041]
tan (α) = L / (XL + M) (3)
tan (β) = L / (XR−M) (4)
Using the relational expression (3), a distance (referred to as LL) from the left virtual microphone position XL to the subject 60 is calculated. Further, the distance (referred to as LR) from the right virtual microphone position XR to the subject 60 is calculated using the relational expression (4). Then, a table including virtual stereo microphone positions XL and XR and distances LL and LR based on the angles α and β is created. The
[0042]
As described above, according to this modification, when reproducing sound in association with the position of the subject, the sound is recorded by a virtual stereo microphone, and a pseudo stereo reproduction effect is obtained as if the sound is reproduced in stereo. Can do.
[0043]
【The invention's effect】
As described above in detail, according to the present invention, in an electronic camera having a recording function, an electronic camera having a function capable of generating position information that associates a subject of a captured image with sound can be provided. Thereby, at the time of image reproduction, it is possible to relatively easily realize the process of performing audio reproduction in association with the subject.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a main part of an electronic camera related to an embodiment of the present invention.
FIG. 2 is a flowchart for explaining a photographing operation according to the embodiment.
FIG. 3 is a flowchart for explaining the operation of the motion detection circuit according to the embodiment;
FIG. 4 is a view for explaining the principle of motion detection processing according to the embodiment;
FIG. 5 is a view for explaining the principle of motion detection processing according to the embodiment;
FIG. 6 is a view for explaining pseudo stereo effect processing according to a modification of the embodiment;
[Explanation of symbols]
DESCRIPTION OF
DESCRIPTION OF
Claims (3)
音声を検出して音声データに変換する音声検出手段と、
前記音声の発生位置に関連する位置情報を取得する位置情報取得手段と、
前記位置情報を、前記画像データまたは前記音声データに関連付けさせて出力する出力手段と、
前記画像データを使用して、被写体の動態を検出する動態検出手段とを有し、
前記位置情報取得手段は、
前記動態検出手段での動態検出から被写体位置を検出したと判断した場合には当該被写体位置に対応する位置情報を被写体の発音位置として一時記憶し、
前記動態検出手段での動態検出から被写体位置を検出できないと判断した場合には、撮影画面上のほぼ中央位置の被写体位置を発音候補位置として一時記憶することを特徴とする電子カメラ。Imaging means for imaging a subject and converting it into image data;
Voice detection means for detecting voice and converting it into voice data;
Position information acquisition means for acquiring position information related to the sound generation position;
An output means for outputting the position information in association with the image data or the audio data;
Dynamic detection means for detecting the dynamics of the subject using the image data;
The position information acquisition means includes
When it is determined that the subject position has been detected from the dynamic detection by the dynamic detection means , the position information corresponding to the subject position is temporarily stored as the pronunciation position of the subject,
An electronic camera characterized in that, when it is determined that the subject position cannot be detected from the dynamic detection by the dynamic detection means, the subject position at the substantially central position on the photographing screen is temporarily stored as a pronunciation candidate position .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001298601A JP4515005B2 (en) | 2001-09-27 | 2001-09-27 | Electronic camera |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001298601A JP4515005B2 (en) | 2001-09-27 | 2001-09-27 | Electronic camera |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003110991A JP2003110991A (en) | 2003-04-11 |
JP4515005B2 true JP4515005B2 (en) | 2010-07-28 |
Family
ID=19119481
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001298601A Expired - Fee Related JP4515005B2 (en) | 2001-09-27 | 2001-09-27 | Electronic camera |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4515005B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4922445B2 (en) * | 2005-02-25 | 2012-04-25 | 富士フイルム株式会社 | System, method, apparatus and program |
JP4851392B2 (en) * | 2007-05-30 | 2012-01-11 | 富士通株式会社 | Image composition apparatus, image composition method, and image composition program |
WO2015151130A1 (en) * | 2014-03-31 | 2015-10-08 | パナソニックIpマネジメント株式会社 | Sound processing apparatus, sound processing system, and sound processing method |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3035391B2 (en) * | 1991-09-27 | 2000-04-24 | 京セラ株式会社 | Electronic still camera |
JP3537962B2 (en) * | 1996-08-05 | 2004-06-14 | 株式会社東芝 | Voice collecting device and voice collecting method |
-
2001
- 2001-09-27 JP JP2001298601A patent/JP4515005B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2003110991A (en) | 2003-04-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5235798B2 (en) | Imaging apparatus and control method thereof | |
JP5801026B2 (en) | Image sound processing apparatus and imaging apparatus | |
JP4732303B2 (en) | Imaging device | |
TW200414770A (en) | Image pickup device and image pickup method | |
JP2009218807A (en) | Imaging apparatus and image reproducing apparatus | |
JP2008141484A (en) | Image reproducing system and video signal supply apparatus | |
JP2015122734A (en) | Imaging apparatus and imaging method | |
JP2011250340A (en) | Imaging apparatus and control method of same | |
JP2015053741A (en) | Image reproduction device | |
JP2011151481A (en) | Audio signal processing apparatus and audio signal processing system | |
JP4515005B2 (en) | Electronic camera | |
US8760552B2 (en) | Shooting apparatus | |
JP2008160620A (en) | Image processing apparatus and imaging apparatus | |
JP2011130134A (en) | Imaging apparatus and imaging system | |
JP2012138763A (en) | Image processing device, electronic camera, and image processing program | |
WO2010061791A1 (en) | Video control device, and image capturing apparatus and display apparatus which are provided with same | |
JP5171369B2 (en) | Sound collection environment determination device, electronic apparatus including the same, and sound collection environment determination method | |
JP5332668B2 (en) | Imaging apparatus and subject detection program | |
JP2015122731A (en) | Video replay device and video replay method | |
JP2006101310A (en) | Imaging apparatus and program thereof | |
JP2001339681A (en) | Digital still camera and its operation control method | |
JP5754058B2 (en) | Photography equipment | |
JP2016122945A (en) | Imaging apparatus | |
JP2023035599A (en) | Imaging apparatus, control method, and program | |
JP2011176731A (en) | Electronic device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080520 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20091111 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091117 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091218 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100202 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100318 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100427 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100512 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 4515005 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130521 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140521 Year of fee payment: 4 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |