[go: up one dir, main page]

JP2009156888A - 音声補正装置及びそれを備えた撮像装置並びに音声補正方法 - Google Patents

音声補正装置及びそれを備えた撮像装置並びに音声補正方法 Download PDF

Info

Publication number
JP2009156888A
JP2009156888A JP2007331428A JP2007331428A JP2009156888A JP 2009156888 A JP2009156888 A JP 2009156888A JP 2007331428 A JP2007331428 A JP 2007331428A JP 2007331428 A JP2007331428 A JP 2007331428A JP 2009156888 A JP2009156888 A JP 2009156888A
Authority
JP
Japan
Prior art keywords
sound
audio
information
video
view
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007331428A
Other languages
English (en)
Inventor
Tomoki Oku
智岐 奥
Masahiro Yoshida
昌弘 吉田
Makoto Yamanaka
誠 山中
Haruhiko Murata
治彦 村田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP2007331428A priority Critical patent/JP2009156888A/ja
Priority to US12/202,855 priority patent/US8218033B2/en
Publication of JP2009156888A publication Critical patent/JP2009156888A/ja
Priority to US13/487,953 priority patent/US20130021502A1/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Studio Devices (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】映像と対になっている音声に対して当該映像の撮影意図に沿うような補正を施すことができる音声補正装置を提供する。
【解決手段】映像と対になって記録又は再生される音声を補正する音声補正装置であって、前記映像を撮影したカメラの撮影画角内で検出された人数の情報を入力し、前記撮影画角内で検出された人数の情報に応じて前記音声に音声補正処理(例えば、音源分離処理部62での音源分離処理、ステレオ処理部63でのステレオ化処理、指向性処理部64での指向性処理、音声帯域強調処理部66での音声強調処理、モノラル/ステレオ切替部68でのチャンネル数制御、音声圧縮処理部69での符号ビット割り当て制御)を施す音声補正装置。
【選択図】図3

Description

本発明は、映像と対になっている音声を補正する音声補正装置及びそれを備えた撮像装置並びに音声補正方法に関する。
近年の映像情報処理技術の発展に伴い、映像情報から人間の顔や口の動き、顔の向きなどを検出する技術が開発されている。これらの検出された情報は、主にデジタルカメラ等のオートフォーカスやホワイトバランスの調整に使われることが多いが、音声の制御に使われるケースも増えてきている(例えば、特許文献1及び特許文献2)。
特許文献1において提案されている信号処理装置は、特定の被写体を検出し、特定の被写体を検出した場合のみ音声を強調する。検出対象となる特定の被写体は、予め登録しておく必要がある。
特許文献2において提案されている撮像機能付き携帯電話機は、携帯電話のカメラで通話者の唇の動きを撮影し、その動きから通話者の発話した音声を聞き取りやすいように補正する。
一方、デジタルビデオカメラ等で撮影する場合、映像に関してはそれぞれの撮りたいシーンに応じたモードが用意されており、それぞれのシーンに応じて映像が制御されているが、音声に関しては特にシーンに応じた音声制御はされていない。例えば自分の子供だけを撮りたい場合にも、周りのざわざわした音が入ってしまうことがある。そこで、特許文献3では、音声に関しても、シーンに応じた音声制御モードを用意しておき、撮影前にシーンを選択して記録する映像記録装置が提案されている。
特開2007−13255号公報 特開2005−244394号公報 特開2000−354190号公報
上述した従来技術にはいくつかの課題がある。特許文献1において提案されている信号処理装置や特許文献2において提案されている撮像機能付き携帯電話機のように、顔や口の映像検出情報から音声を強調する場合、ユーザの意図とは異なる音になってしまう可能性がある。例えば、運動会のように大勢の人が撮影画角内に存在する場合にも、全体の雰囲気よりも人物を主体とした音になってしまう。
また、特許文献3で提案されている映像記録装置のように、シーンに応じた音声制御モードを用意した場合においては、シーンを予め手動で設定する必要があり、設定をし忘れた場合には意図しない音声制御が施されてしまう。また同じシーンでも、ズームしたときとそうでないときで撮影者の意図(撮影者がとりたい音)が変わることがあり、単純なモード設定だけでは対応できない場合もある。
さらに、最近のデジタルビデオカメラは小型化が進み、集音用のステレオマイクや5.1chサラウンド録音対応マイクの取り付け位置やマイク間隔が限られてきているという現状もある。特にマイク間隔が狭くなると、マイク間での位相差がほとんどなくなるため、音声情報だけでは指向性を強調したり音源を分離したりすることが困難になってきている。
本発明は、上記の状況に鑑み、映像と対になっている音声に対して当該映像の撮影意図に沿うような補正を施すことができる音声補正装置及びそれを備えた撮像装置並びに映像と対になっている音声に対して当該映像の撮影意図に沿うような補正を施すことができる音声補正方法を提供することを目的とする。
上記目的を達成するために本発明に係る音声補正装置は、映像と対になって記録又は再生される音声を補正する音声補正装置であって、前記映像を撮影したカメラの撮影画角内で検出された人数の情報を入力し、前記撮影画角内で検出された人数の情報に応じて前記音声に音声補正処理を施すようにしている。
上記音声補正装置によると、映像と対になって記録又は再生される音声を補正する際に、前記映像を撮影したカメラの撮影画角内で検出された人数の情報に応じて前記音声に音声補正処理を施すので、映像と対になっている音声に対して当該映像の撮影意図に沿うような補正を施すことができる。
また、上記音声補正装置において、前記音声補正処理として、指向性制御、音源分離制御、音声強調制御、符号ビット割り当て制御、及びチャンネル数制御の少なくとも一つの制御を行うようにしてもよい。
また、上記各音声補正装置において、前記撮影画角内で検出された人数の情報に加えて、前記撮影画角内で検出された人数の情報以外の前記映像に関する情報及び/又は前記映像を撮影したカメラの制御情報を入力し、入力した情報に応じて音声補正処理を施すようにしてもよい。
これにより、例えば、集音用のステレオマイクや5.1chサラウンド録音対応マイクの取り付け位置やマイク間隔が限られていてマイク間での位相差がほとんどない場合でも、効率よく指向性を強調したり音源を分離したりすることができる。
また、上記各音声補正装置において、前記撮影画角内で検出された人数が予め設定した複数の区分のいずれに属するかを判定し、前記撮影画角内で検出された人数が属する区分に変動が生じた場合、その変動に応じて前記音声補正処理の内容を変更するようにしてもよい。前記複数の区分としては、例えば、0人、1人、2人、少人数、大人数の5つの区分が考えられる。
これにより、動画撮影中に前記撮影画角内で検出される人数が変動した場合でも、映像と対になっている音声に対して当該映像の撮影意図に沿うような補正を的確に施すことができる。さらに、音声補正処理の内容の変更繰り返しによる不自然な音の記録又は再生を防止するために、前記撮影画角内で検出された人数が属する区分の変動に応じた前記音声補正処理の内容の変更にヒステリシス特性を持たせるようにしてもよい。また、さらに、音声補正処理の内容をスムーズに変更するために、前記映像を撮影したカメラの制御情報を入力し、前記映像を撮影したカメラの制御情報を基に、前記撮影画角内で検出された人数が属する区分の変動を事前に推測し、前記撮影画角内で検出された人数が属する区分の変動前から前記音声補正処理の内容の変更を開始するようにしてもよい。
上記目的を達成するために本発明に係る撮像装置は、動画撮影機能を有する撮像装置であって、映像を撮影するカメラと、前記カメラの撮影画角内の人数を検出する映像処理手段と、前記映像処理手段から前記撮影画角内で検出された人数の情報を入力する上記いずれかの音声補正装置とを備えるようにする。
上記目的を達成するために本発明に係る音声補正方法は、映像と対になって記録又は再生される音声を補正する音声補正方法であって、前記映像を撮影したカメラの撮影画角内で検出された人数の情報を入力し、前記撮影画角内で検出された人数の情報に応じて前記音声に音声補正処理を施すようにする。
本発明によると、映像と対になって記録又は再生される音声を補正する際に、前記映像を撮影したカメラの撮影画角内で検出された人数の情報に応じて前記音声に音声補正処理を施すので、映像と対になっている音声に対して当該映像の撮影意図に沿うような補正を施すことができる。
本発明の実施形態について図面を参照して以下に説明する。
映像と対になっている音声に対して当該映像の撮影意図に沿うような補正を施すために、本発明に係る音声補正方法は、映像と対になって記録又は再生される音声を補正する際に、前記映像を撮影したカメラの撮影画角内で検出された人数の情報に応じて前記音声に音声補正処理を施す。例えば、撮影画角内で検出された人数が少ない場合は、人にフォーカスした撮影をしていると想定し、音声を強調するような制御を行う。また、例えば、撮影画角内で検出された人数が多い場合は、その場の雰囲気を重視した撮影をしていると想定し、より臨場感のある音声制御を行う。
さらに、本発明に係る音声補正方法では、撮影画角内で検出された人数の情報以外の映像情報(顔・口等の動き情報や顔・人物検出位置情報)やカメラ制御情報(焦点情報やズーム倍率情報)も音声補正処理に利用することも可能である。これらの情報を撮影画角内で検出された人数の情報と併用して利用することで、集音用のステレオマイクや5.1chサラウンド録音対応マイクの取り付け位置やマイク間隔が限られていてマイク間での位相差がほとんどない場合でも、効率よく指向性を強調したり音源を分離したりすることができる。
本発明に係る音声補正方法は、集音・記録時だけでなく、すでに記録されたデータを再生する場合にも適用できる。
以下では、本発明に係る音声補正方法を集音・記録時に適用した音声補正装置(本発明に係る音声記録装置)を搭載した撮像装置(例えば、ビデオカメラ、デジタルカメラなど)を例に挙げて説明する。なお、本発明に係る音声記録装置を搭載した撮像装置は、動画を撮影できるものであればよく、静止画を撮影できるものであっても構わない。
図1は、本発明に係る音声記録装置を搭載した撮像装置の内部構成例を示すブロック図である。
図1に示す撮像装置は、入射される光を電気信号に変換するCCD(Charge Coupled Device)またはCMOS(Complimentary Metal Oxide Semiconductor)センサなどの固体撮像素子(イメージセンサ)1と、被写体の光学像をイメージセンサ1に結像させるズームレンズとズームレンズの焦点距離すなわち光学ズーム倍率を変化させるモータとズームレンズの焦点を被写体に合わせるためのモータとを有するレンズ部2と、イメージセンサ1から出力されるアナログ信号である画像信号をデジタル信号に変換するAFE(Analog Front End)3と、撮像装置の前方の左右方向から入力された音声を独立して電気信号に変換するステレオマイク4と、AFE3からのデジタル信号となる画像信号に対して、階調補正等の各種画像処理を施し更にMPEG(Moving Picture Experts Group)圧縮方式などの圧縮符号化処理を施す画像処理部5と、ステレオマイク4からのアナログ信号である音声信号に対してデジタル信号に変換するとともに音声補正処理(MPEG圧縮方式などの圧縮符号化処理を含む)を施す音声処理部6と、画像処理部5からの圧縮符号化画像信号及び音声処理部6からの圧縮符号化音声信号を多重化する多重化処理部7と、多重化処理部7で多重化された圧縮符号化信号をSDカードなどの外部メモリ22に記録するドライバ部8と、ドライバ部8で外部メモリ22から読み出した圧縮符号化信号を伸長して復号する伸長処理部9と、伸長処理部9で復号されて得られた画像信号をアナログ信号に変換するビデオ出力回路部10と、ビデオ出力回路部10で変換された信号を出力するビデオ出力端子11と、ビデオ出力回路部10からの信号に基づく画像の表示を行うLCD等を有するディスプレイ部12と、伸長処理部9からの音声信号をアナログ信号に変換する音声出力回路部13と、音声出力回路部13で変換された信号を出力する音声出力端子14と、音声出力回路部13からの音声信号に基づいて音声を再生出力するスピーカ部15と、各ブロックの動作タイミングを一致させるためのタイミング制御信号を出力するタイミングジェネレータ(TG)16と、撮像装置内全体の駆動動作を制御するCPU(Central Processing Unit)17と、各動作のための各プログラムを記憶するとともにプログラム実行時のデータの一時保管を行うメモリ18と、ユーザからの指示が入力される操作部19と、CPU17と各ブロックとの間でデータのやりとりを行うためのバス回線20と、メモリ18と各ブロックとの間でデータのやりとりを行うためのバス回線21と、を備える。なお、CPU17は、画像処理部5で検出した画像信号に応じて、レンズ部2内の各モータを駆動して焦点、絞りの制御を行う。
音声処理部6が本発明に係る音声記録装置に該当する。小型化及び低コスト化の観点から、本発明に係る音声記録装置は、1パッケージ化されたLSIパッケージになっていることが望ましい。
次に、図1に示す撮像装置の動画撮影時の基本動作について図2のフローチャートを用いて説明する。まず、ユーザが操作部19を操作して撮像装置を動画撮影用に設定して電源をONにすると(STEP1)、撮像装置の駆動モードつまりイメージセンサ1の駆動モードがプレビューモードに設定される(STEP2)。続いて撮影モードの入力待ち状態となる。撮影モードが入力されない場合は通常撮影用のモードが選択されたものとする(STEP3)。プレビューモードでは、イメージセンサ1の光電変換動作によって得られたアナログ信号である画像信号がAFE3においてデジタル信号に変換されて、画像処理部5で画像処理及び圧縮符号化処理が施された現時点の画像に対する圧縮符号化画像信号が外部メモリ22に一時的に記録される。この圧縮符号化画像信号は、ドライバ部8を経て、伸長処理部9で伸長され、現時点で設定されているレンズ部2のズーム倍率での画角の画像がディスプレイ部12に表示される。
続いてユーザが、撮影の対象とする被写体に対して所望の画角となるように、操作部19を操作すると、その操作に応じた光学ズームでのズーム倍率が設定される(STEP4)。その際、画像処理部5に入力された画像信号を基にCPU17によってレンズ部2を制御して、最適な露光制御(Automatic Exposure;AE)・焦点合わせ制御(オートフォーカス、Auto Focus;AF)が行われる(STEP5)。
その後、操作部19の録画開始ボタン(静止画撮影用のシャッターボタンと兼用でも構わない)が全押しされ、録画動作の開始が指示されると(STEP6のY)、録画動作が開始され、イメージセンサ1の光電変換動作によって得られたアナログ信号である画像信号がAFE3に出力される。このとき、イメージセンサ1では、TG16からのタイミング制御信号が与えられることによって、水平走査及び垂直走査が行われて、画素毎のデータとなる画像信号が出力される。そして、AFE3において、アナログ信号である画像信号(生データ)がデジタル信号に変換されて、画像処理部5内のフレームメモリに書き込まれる(STEP7)。
画像処理部5では輝度信号及び色差信号の生成を行う信号変換処理などの各種画像処理及び圧縮符号化処理が施され、その画像処理及び圧縮符号化処理が施された圧縮符号化画像信号が多重化処理部7に与えられる。一方、音声処理部6では、ステレオマイク4に音声入力されることで得られたアナログ信号である音声信号に対してA/D変換処理が施されるとともに、画像処理部5からの人数情報を基に音声補正処理(圧縮符号化処理を含む)が施され、その音声補正処理が施された圧縮符号化音声信号が多重化処理部7に与えられる(STEP8)。この音声補正処理については後述する。
多重化処理部7では、圧縮符号化画像信号及び圧縮符号化音声信号を多重化し(STEP9)、ドライバ部8に与えて、外部メモリ22に記録させる(STEP10)。また、このとき、外部メモリ22に記録された圧縮データがドライバ部8によって読み出されて伸長処理部9に与えられて、伸長処理が施されて画像信号が得られる。この画像信号がディスプレイ部12に与えられて、現在、イメージセンサ1を通じて撮影されている被写体画像が表示される。その後、再び操作部19の録画開始ボタンが全押しされ、録画動作の終了が指示されると(STEP11のY)プレビューモードに戻る(STEP2)。
このような撮像動作を行うとき、TG16によって、AFE3、画像処理部5、音声処理部6、多重化処理部7、及び伸長処理部9に対してタイミング制御信号が与えられ、イメージセンサ1による1フレームごとの撮像動作に同期した動作が行われる。
また、外部メモリ22に記録された圧縮動画データを再生することが、操作部19を通じて指示されると、外部メモリ22に記録された圧縮動画データは、ドライバ部8によって読み出されて伸長処理部9に与えられる。そして、伸長処理部9において、MPEG圧縮符号方式に基づいて、伸長復号されて、画像信号及び音声信号が取得される。そして、画像信号がディスプレイ部12に与えられて画像が再生されるとともに、音声信号が音声出力回路部13を介してスピーカ部15に与えられて音声が再生される。これにより、外部メモリ22に記録された圧縮動画データに基づく画像が音声とともに再生される。
次に、音声処理部6が実施する音声補正処理の内容について説明する。図3は音声処理部6の構成例を示すブロック図であり、図4はステレオ角及び指向角についての模式図である。なお、音声処理部6が実施する音声補正処理には、音声信号の加工のみならずステレオ角や指向角の変更も含まれる。
音声処理部6は、図3に示すように、画像処理部5からの人数情報を基に、さらに必要に応じて、画像処理部5からの顔・口等の動き情報、顔・人物検出位置情報や、CPU17からの焦点情報、ズーム倍率情報を基に音声補正制御方法を決定し、その決定に応じて音声処理部6の各部を制御する音声補正制御方法決定部60と、ステレオマイク4から出力された二つの音声信号(Rch,Lch)をそれぞれデジタル信号に変換するA/D変換部61と、A/D変換部61から出力された二つの音声信号に音源分離処理を施す音源分離処理部62と、A/D変換部61から出力された二つの音声信号にステレオ化処理を施すステレオ化処理部63と、A/D変換部61から出力された二つの音声信号に指向性処理を施す指向性処理部64と、音源分離処理部62で音源分離処理が施された二つの音声信号のそれぞれとステレオ化処理部63でステレオ化処理が施された二つの音声信号のそれぞれと指向性処理部64で指向性処理が施された二つの音声信号のそれぞれとを所定の割合で加算する、二つの第1の加算器65と、二つの第1の加算器65から出力された音声信号のそれぞれに対して特定の帯域を強調する音声帯域強調処理部66と、音声帯域強調処理部66から出力された二つの音声信号(ステレオ信号)を所定の割合で加算してモノラル化する第2の加算器67と、第2の加算器67から出力されたモノラル信号と音声帯域強調処理部66から出力されたステレオ信号とのいずれか一方を出力するモノラル/ステレオ切替部68と、モノラル/ステレオ切替部68から出力された音声信号に圧縮符号化処理を施す音声圧縮処理部69とを備える。音声圧縮処理部69から出力された圧縮符号化音声信号は多重化処理部7に出力される。なお、ステレオ化処理部63において実施されるステレオ化処理の詳細及び指向性処理部64において実施される指向性処理の詳細については後述する。
音声処理(図2のSTEP8)を開始する際に、音声処理部6は、まず初期化動作として指向性処理部64でステレオ角を最大値または最小値に設定する。尚、この初期化動作は行わなくても構わない。本実施形態においてステレオ角とは、図4に示す、撮像装置100(=図1に示す撮像装置)のステレオマイク4(図4において不図示)の3個の集音方向のうち、右方向の指向方向Rと左方向の指向方向Lとのなす角度θ1のことである。また、ステレオマイク4の正面方向については、主な集音の範囲を示す角度である指向角θ2を変化させることができる。指向角θ2は以下において正面指向性とも表すことがある。尚、図4には、左右方向の指向角θR、θLも示している。ステレオ角θ1、正面指向性θ2は、音声処理部6に設けられた指向性処理部64で変化させることができる。
一方、録画動作中(図2のSTEP7〜STEP10)、画像処理部5は撮影画角内に人物の顔があるかどうかを検出する。
ここで、画像処理部5が実施する顔検出処理について説明する。画像処理部5は顔検出装置50を備え、入力された画像信号から人物の顔を検出することができる。顔検出装置50の構成及び動作について以下に説明する。
図5は、顔検出装置50の構成例を示すブロック図である。顔検出装置50は、AFE3によって得られた画像データに基づいて1または複数の縮小画像を生成する縮小画像生成部51、入力画像および縮小画像から構成される各階層画像とメモリ18に記憶された顔検出用の重みテーブルとを用いて入力画像に顔が存在するか否かを判定する顔判定部52、および顔判定部52の検出結果を出力する検出結果出力部53を備えている。検出結果出力部53は、顔が検出された場合には検出された顔の数に関する情報(=人数情報)を出力し、さらに必要に応じて、検出された顔の動きや検出された顔内の口の動きに関する情報(=顔・口等の動き情報)、検出された顔の向きや検出された顔の入力画像を基準とする位置に関する情報(=顔・人物検出位置情報)も出力する。なお、検出された顔の動きや検出された顔内の口の動きに関する情報は、例えば、画像処理部5での映像圧縮処理において行われる動き検出の結果を利用して生成することができる。また、検出された顔の向きに関する情報は、例えば、顔判定部52での判定過程の情報を利用して生成することができる。
また、メモリ18に記憶された重みテーブルは、大量の教師サンプル(顔および非顔のサンプル画像)から求められたものである。このような重みテーブルは、例えば、Adaboostと呼ばれる公知の学習方法を利用して作成することができる(Yoav Freund, Robert E. Schapire,"A decision-theoretic generalization of on-line learning and an application to boosting", European Conference on Computational Learning Theory, September 20,1995.)。
尚、Adaboostは、適応的なブースティング学習方法の1つで、大量の教師サンプルをもとに、複数の弱識別器候補の中から識別に有効な弱識別器を複数個選択し、それらを重み付けして統合することによって高精度な識別器を実現する学習方法である。ここで、弱識別器とは、全くの偶然よりは識別能力は高いが、十分な精度を満たすほど高精度ではない識別器のことをいう。弱識別器の選択時には、既に選択した弱識別器がある場合、選択済の弱識別器によって誤認識してしまう教師サンプルに対して学習を重点化することによって、残りの弱識別器候補の中から最も効果の高い弱識別器を選択する。
図6は、縮小画像生成部51によって得られる階層画像の一例を示している。この例では、縮小率を0.8に設定した場合に、生成される複数の階層画像を示している。図6において、150は入力画像を、151〜155は縮小画像を示している。入力画像150の他に、複数の縮小画像151〜155を生成しているのは、1種類の重みテーブルを用いて大きさが異なる顔を検出するためである。
図7は顔検出処理を説明するための図である。図7には、入力画像150および各縮小画像151〜155と、入力画像150および各縮小画像151〜155内にそれぞれ設定された判定領域161とを示している。この例では、判定領域161は縦24画素、横24画素の大きさに設定されている。判定領域161の大きさは、入力画像150および各縮小画像151〜155において全て同じである。また、この例では、図7に矢印で示すように、階層画像上で判定領域を左から右に移動させる、水平方向走査を、上方から下方に向かって行うことで、判定領域とマッチングする顔画像の検出を行う。ただし、走査順はこれに限られるものではない。
顔判定部52において各階層画像毎に行なわれる顔検出処理は、画像内に設定された判定領域に対応する画像と重みテーブルとを用いて行なわれる。顔検出処理は粗い判定から順次細かい判定に移行する複数の判定ステップからなり、ある判定ステップにおいて、顔が検出されなかった場合には、次の判定ステップには移行せず、当該判定領域には顔は存在しないと判定する。全ての判定ステップにおいて、顔が検出された場合にのみ、当該判定領域に顔が存在すると判定し、判定領域を走査して次の判定領域での判定に移行する。尚、このような顔検出処理については、本願出願人による特許出願である特願2006−053304号に詳しく記載されている。
音声処理部6は、音声処理(図2のSTEP8)において、顔検出装置50からの人数情報を基に音声信号に対して音声補正処理を施す。
<検出人数が1人の場合>
例えば撮影者が自分の子供1人を動画撮影している場合、撮影画像は図8に示すようになり、顔検出装置50によって検出される人数は1人となる。なお、図8では、実際の撮影画像には存在しない、被写体が音を発していることを意味する吹き出し81及び顔の位置を囲む枠82も便宜上図示している。
顔検出装置50によって検出される人数が1人である場合は、撮影者が特定の1人の人物にフォーカスした動画撮影をしていると想定されるため、特定の1人の人物の音声を強調した音声補正処理を行う。具体的な処理としては、例えば以下のような処理が挙げられる。
音声帯域強調処理部66で声の成分の基本周波数となる数十Hz〜数百Hzの帯域のゲインを増幅させたり、声のピッチ(高調波)を解析してそのピッチ信号を増幅させたりする処理を施す。逆に、音声帯域強調処理部66で声以外の信号ゲインを減衰させても良い。
また、本実施形態のように音声信号を圧縮して記録する場合は、音声圧縮処理部69が、全帯域に均等に符号ビットを割り当てるのではなく、声の成分が余り含まれていない帯域B2(図9参照)に割り当てる符号ビットを減らし、その分、声の成分の基本周波数となる数十Hz〜数百Hzの帯域B1(図9参照)に符号ビットを多く割り当てて音声符号化処理を行うことを望ましい。このような音声符号化処理を行うことで、撮影者がとりたい音の劣化が少ない圧縮音声信号を外部メモリ22に記録することができる。
また、被写体が1人であるので、モノラル/ステレオ切替部68に1ch分のモノラル信号を出力させる。このようにモノラル化することによって、符号ビットを1チャンネルに集中して割り当てることができるので、より量子化ノイズの少ない圧縮ができる。
さらに、人数情報以外の映像情報(顔・口等の動き情報や顔・人物検出位置情報)やカメラ制御情報(焦点情報やズーム倍率情報)を音声補正処理に利用することも可能である。
例えば、撮影画角内の顔の位置を利用することで、集音指向性を制御することができる。かかる制御例としては、図8では、顔の位置を枠82で囲んでいるが、この枠82の位置情報(撮影画角内のX,Y座標)を利用し、この枠82が撮影画像の中央付近にある場合は、指向性処理部64で正面指向性θ2を他の場合に比べて狭いものにする制御が挙げられる。
また、例えば、カメラ制御情報(ズーム倍率や焦点距離)を利用することで、被写体(=撮影者がとりたい音の音源)との距離を算出し、それに応じた音声制御を行うことができる。かかる制御例としては、被写体(=撮影者がとりたい音の音源)との距離が長い場合は、音声帯域強調処理部66で数十Hz〜数百Hzの帯域のゲインの増幅率または声以外の信号ゲインの減衰率を他の場合に比べて大きくする制御が挙げられる。
<検出人数が2人の場合>
例えば撮影者が1人の子供とお父さんを動画撮影している場合や撮影者が2人の子供を動画撮影している場合、撮影画像は図10に示すようになり、顔検出装置50によって検出される人数は2人となる。なお、図10では、実際の撮影画像には存在しない、被写体が音を発していることを意味する吹き出し101、102も便宜上図示している。
顔検出装置50によって検出される人数が2人である場合は、撮影者が特定の2人の人物にフォーカスした動画撮影をしていると想定されるため、特定の2人の人物の音声を強調した音声処理を行う。具体的な処理は、顔検出装置50によって検出される人数が1人である場合と基本的に同様である。ただし、被写体が2人となるため、モノラル/ステレオ切替部68に1ch分のモノラル信号を出力させるよりも2ch分のステレオ信号を出力させる方がよい。
また、顔検出装置50によって検出される人数が1人である場合と同様に、人数情報以外の映像情報(顔・口等の動き情報や顔・人物検出位置情報)やカメラ制御情報(焦点情報やズーム倍率情報)を音声補正処理に利用することも可能である。
さらに、被写体が2人の場合には画角内に撮影者がとりたい音の音源が2つ存在するため、それぞれの音源を分離して集音し、それぞれの音源をLchとRchとに分けてステレオ録音することが望ましい。この場合、撮影画角内の被写体位置を参考にすることで、より効率的な音源分離・分集が実現できる。例えば、図10に示すような撮影画像が得られているときには、音源分離処理部62において、撮影画像の左側で検出された人物の音声(=吹き出し101に対応する音声)を左チャンネル(Lch)に、撮影画像の右側で検出された人物の音声(=吹き出し102に対応する音声)を右チャンネル(Rch)にそれぞれ分離して集音することもできる。
<検出人数が少人数(1人及び2人を除く)の場合>
例えば撮影者が少人数での会議の様子を動画撮影している場合や撮影者が少人数の子供が遊んでいるシーンを動画撮影している場合、顔検出装置50によって検出される人数は少人数となる。図11は、撮影者が少人数での会議の様子を動画撮影している場合の撮影画像を示している。なお、図11では、実際の撮影画像には存在しない、被写体が音を発していることを意味する吹き出し111、112及び顔の位置を囲む枠113、114も便宜上図示している。
ここで、「少人数」とは、1人及び2人を除いている他は特に人数に制約はないが、例えば3〜6人と設定することができる。「少人数」の人数設定は、撮影者が操作部19を操作することにより変更することができるようにしてもよい。
顔検出装置50によって検出される人数が少人数である場合は、撮影者が撮影画角内の人にフォーカスした動画撮影をしていると想定されるため、音声を強調した音声処理を行う。具体的な処理は、顔検出装置50によって検出される人数が1人である場合や2人である場合と基本的に同様である。ただし、被写体が複数人であるため、顔検出装置50によって検出される人数が2人である場合と同様に、モノラル/ステレオ切替部68に1ch分のモノラル信号を出力させるよりも2ch分のステレオ信号を出力させる方がよい。
また、顔検出装置50によって検出される人数が1人である場合や2人である場合と同様に、人数情報以外の映像情報(顔・口等の動き情報や顔・人物検出位置情報)やカメラ制御情報(焦点情報やズーム倍率情報)を音声補正処理に利用することも可能である。特に口の動き情報を利用することが望ましい。例えば、図11に示すような撮影画像が得られているときには、口の動いている人(=顔を枠113、114で囲んでいる人)が発話していると推定し、指向性処理部64でその人に指向性をあわせて集音する。また、その人物の撮影画角内の位置を参照することで、ステレオ化処理部63で二つの音源(=吹き出し113に対応する音声と吹き出し114に対応する音声)を別々のチャンネルに分離して集音することもできる。
<検出人数が大人数の場合>
例えば撮影者が運動会やお祭りなどの催し物のシーンを撮影する場合、顔検出装置50によって検出される人数は大人数となる。図12は、撮影者が合唱コンクールのシーンを動画撮影している場合の撮影画像を示している。
ここで、「大人数」とは、上述した「少人数」に抵触しない限り特に人数に制約はない。例えば「少人数」の人数設定が3〜6人であれば、「大人数」の人数設定は7人以上とすればよい。
顔検出装置50によって検出される人数が大人数である場合は、撮影者が撮影画角内の特定人物ではなく、その場の雰囲気を重視した動画撮影をしていると想定されるため、顔検出装置50によって検出される人数が1人、2人、少人数である場合とは異なり、より広帯域で臨場感があるような音声処理を行う。具体的な処理としては、チャンネルセパレーションのようなステレオ感強調処理や、サラウンド効果処理などを行う。このような音声処理の一例として、指向性処理部64でステレオ角θ1を広いもの(例えば90°)とすると共に、ステレオ化処理部63で音声信号をステレオ化させるものが挙げられる。このような音声処理の他の例として、アップミックスを行うCMSS(Creative Multi Speaker Surround)処理部をモノラル/ステレオ切替部68と音声圧縮処理部69との間に設け、音声圧縮処理部69を1chの音声信号の圧縮処理や2chの音声信号の圧縮処理に加えてマルチチャンネル(例えば5.1ch)の音声信号の圧縮処理も行えるものとした構成において、前記CMSS処理部が例えば2chの音声信号を5.1chの音声信号に拡張する処理が挙げられる。
また、本実施形態のように音声信号を圧縮して記録する場合は、より臨場感のある音を記録するため、音声圧縮処理部69が広帯域に符号ビットを割り当て、外部メモリ22に記録する圧縮音声信号の周波数帯域B3(図13参照)を広帯域に拡張するとよい。
また、顔検出装置50によって検出される人数が1人、2人、少人数である場合と同様に、人数情報以外の映像情報(顔・口等の動き情報や顔・人物検出位置情報)やカメラ制御情報(焦点情報やズーム倍率情報)を音声補正処理に利用することも可能である。特に顔の向きに関する情報を利用することが望ましい。例えば、合唱コンクールのシーンを動画撮影してときには、何人かの人物がグループになって同じ方向を向いて歌うことが多く、その顔の向きは同じである。このような場合、音源分離処理部62において、顔の向きに関する情報を利用してグループ毎に音源分離を行い、ステレオ化処理部63において、チャンネルセパレーション処理などを行う。図12に示すような撮影画像が得られている場合は、撮影画角内の全員が左側を向いているため、左チャンネル(Lch)の音のゲインを右チャンネル(Rch)の音のゲインよりも大きくする音声補正処理を施すとよい。
<検出人数が0人の場合>
例えば撮影者が山や海などの風景を動画撮影している場合や撮影者が観光名所で動画撮影している場合、顔検出装置50によって検出される人数が零になることがある。撮影画角内に人物が全く存在しない場合のみならず、撮影画角内に存在する人物が全て所定のサイズ(顔検出処理で用いられる判定領域161の大きさによって定まる)未満である場合も、顔検出装置50によって検出される人数が零になる。
顔検出装置50によって検出される人数が零である場合、撮影者が自然の風景や観光名所そのものなど、その場の雰囲気を重視して動画撮影していると想定されるため、顔検出装置50によって検出される人数が大人数である場合と同様に、より広帯域で臨場感があるような音声処理を行う。具体的な処理は、顔検出装置50によって検出される人数が大人数である場合と基本的に同様である。
また、カメラ制御情報(焦点情報やズーム倍率情報)を音声補正処理に利用することも可能である。カメラ制御情報から、ズームした画角、距離を推定することができるため、当該推定に応じて指向性処理部64で音声の指向性を制御するとよい。例えば、小さな虫などに接近して動画撮影する場合、焦点距離は非常に近いと考えられる。この焦点距離の情報を利用し、焦点が非常に近い場合は正面指向性θ2を狭くし、更に集音する音のゲインを大きくして小さな音まで記録できるようにする。
<撮影中に検出人数が変わった場合の制御>
動画撮影している場合、撮影画角内の人物が常に一定の位置にいることは少なく、撮影対象である人物が常に動いているシーンを撮影することも少なくない。また動画撮影中にズームインやズームアウトをすることもあり、それらの状況によって撮影者の撮影意図が変わるケースも考えられる。このような場合の制御方法について、以下に2つの例を示す。
<撮影中に検出人数が変わった場合の制御例:検出人数が1人/0人になる場合>
例えば、走り回っている子供を撮影している場合、子供を追いかけながら撮影していると、図15(a)(実際に画像処理装置5のフレームメモリに書き込まれる撮影画像は順に図15(b)、図15(c)、図15(d)、図15(e)となる。)のように子供が画角内からフレームアウトすることが予想される。この場合(撮影画像が図15(c)から図15(d)に変わる場合)、撮影画角内で検出される人数は1人から0人になる。逆にフレームアウト後に再び子供が撮影画角内に現れる場合も考えられ、この場合(撮影画像が図15(d)から図15(e)に変わる場合)は、撮影画角内で検出される人数は0人から1人に変動する。このように特定人物が頻繁に画角内を出入りする場合に、上述した音声補正処理をそのまま適用すると、音声重視(1人検出)と雰囲気重視(0人検出)の音声制御が繰り返し発生してしまい、不自然な音が記録されてしまう。
したがって、人物がフレームアウトして、顔検出装置50によって検出される人数が1人から0人になった場合でも、その検出人数の変動に応じた音声補正処理の内容の変更(音声重視の制御から雰囲気重視の制御への変更)にヒステリシス特性を持たせ、ある一定時間内は音声重視の制御を持続させることが望ましい。この場合、フレームアウトした位置情報を利用することで、撮影画角内に人物が検出されない場合でも撮影対象である人物(=撮影者がとりたい音の音源)の位置を推測することができ、集音の指向性を制御することができる。また、撮影対象である人物が撮影画角内からフレームアウトしても音声はフレームアウトしないため、音声処理部6が、集音した音声信号に人の声の成分が含まれているか否かを判定し、集音した音声信号に人の声の成分が含まれていると判断された場合には、引き続き音声重視の制御を行うという方法をとってもよい。
<撮影中に検出人数が変わった場合の制御例:検出人数が大人数/少人数になる場合>
例えば図16のように、合唱コンクールのシーンを撮影中に、自分の子供などの特定人物にズームインして撮影を行う場合、撮影画角内で検出される人数は大人数から少人数(或いは2人、1人)になる。この場合の音声制御としては、ズームインと同時に雰囲気重視の制御から音声重視の制御へと移行していく。具体的には、撮影画角内で検出される人数は大人数である段階から、徐々に特定方向の音声のみを集音・強調させたり、集音帯域を狭くしたりする。
逆に特定人物からシーン全体へズームアウトする場合、画角内で検出される人物は少人数(或いは2人、1人)から多人数になる。この場合の音声制御としては、ズームアウトと同時に音声重視の制御から雰囲気重視の制御へと移行していく。具体的には、撮影画角内で検出される人数は少人数(或いは2人、1人)である段階から、集音する指向性を徐々に無指向にしたり、集音帯域を広くしたりする。
以上のように、音声処理部6が顔検出装置50からの人数情報を基に音声信号に対して音声補正処理を施すことによって、映像とともに収録される音声を当該映像の撮影意図に沿うものにすることができる。
続いて、上述した実施形態において、ステレオ処理部63で実施されるステレオ化処理の一例について説明する。ここでは、ステレオ化処理として、加算型指向性制御を利用して左右の2方向の音を強調する処理について説明する。図17は、この場合のステレオ化処理部63のブロック図である。ステレオ化処理部63は、右チャンネル(Rch)の音声信号を遅延させる遅延回路631Rと左チャンネル(Lch)の音声信号を遅延させる遅延回路631Lとを備え、入力されたままの右チャンネルの音声信号と遅延回路631Lで遅延させた左チャンネルの音声信号とを合成して右チャンネルの音声信号として、入力されたままの左チャンネルの音声信号と遅延回路631Rで遅延させた右チャンネルの音声信号とを合成して左チャンネルの音声信号として出力する。
図18に示すように、2個のマイク4R、4Lに対して特定の方向から音が到来した場合、音の到来が音源からそれぞれのマイク4R、4Lまでの行路差dだけずれることとなる。この場合、音源から近い方のマイク4Rで検出した右チャンネルの音声信号に対して、遅延回路631Rでこの行路差dに相当する遅延をかけ、音源から遠い方のマイク4Lで検出した左チャンネルの音声信号に加算すると、音源方向の音に対して同期加算することとなり、最も左右の音を強調することとなる。逆にマイク4Lで検出した音声信号に遅延回路631Lで同様の遅延をかけて、マイク4Rで検出した音声信号に加算すると、逆方向の音を強調していることとなる。
次に、上述した実施形態において、指向性処理部64で実施される指向性制御の一例について説明する。指向性制御については様々な方法が提案されている。上記のステレオ化処理で説明した加算型、差分型といった単純な遅延と加算処理からなる方法もその一つであり、その他にマイクロホンアレーを用いたビームフォーミングや2次元ファンフィルタなどがある。ここでは、2個のマイクで検出した音声信号間の位相情報をもとに特定方向からの音を強調する方法について説明する。
図19はこの方法に使用することができる指向性処理部64のブロック図である。指向性処理部64は、図19に示すように、右チャンネルの音声信号及び左チャンネルの音声信号を独立して高速フーリエ変換(Fast Fourier Transform;FFT)する2個のFFT部641R、641Lと、FFT部641R、641LでFFTされた右チャンネルの音声信号及び左チャンネルの音声信号の位相差を検出する位相差検出部642と、位相差検出部642で検出された位相差情報から帯域別に指向性の制御量を決定する帯域別制御量決定部643と、帯域別制御量決定部643で決定された制御量に基づいて、FFTされた右チャンネルの音声信号及び左チャンネルの音声信号を独立して帯域別にゲイン制御する2個の帯域別ゲイン制御部644R、644Lと、帯域別ゲイン制御部644R、644Lでゲイン制御された右チャンネルの音声信号及び左チャンネルの音声信号のそれぞれを逆高速フーリエ変換(Inverse Fast Fourier Transform;IFFT)するIFFT部645R、645Lと、を備える。
FFT部641R、641Lでは右チャンネルの音声信号及び左チャンネルの音声信号が入力されるとFFTして周波数帯域別に位相情報を算出する。位相差検出部642では右チャンネルの音声信号及び左チャンネルの音声信号の位相情報から位相差を算出して、この位相差とその周波数から音の到来方向を算出する。帯域別制御量決定部643では、位相差検出部642で算出した音成分の到来方向が、目的とする方向、例えば画像中の所定の被写体の方向であるかどうかを判断する。帯域別制御量決定部643において目的とする方向以外から来た音成分であると判断した場合は、FFTしたスペクトラル系数を、帯域別ゲイン制御部644R、644Lにおいて低減させ、目的とする方向から来た音成分であると判断した場合は増大させる。その後、変化させたスペクトラル系数をIFFT部645R、645LでIFFTを行って時間信号に戻して出力する。
この方法では、2個のマイクの設置間隔が半波長となる周波数を指向性制御の上限周波数とすることにより、位相差から正確な音成分の到来方向すなわち音源方向を算出することが可能であるため、指向角の微細な調整を行うことができる。
上述した図1に示す撮像装置は、本発明に係る音声補正方法を集音・記録時に適用した音声補正装置(本発明に係る音声記録装置)を搭載した撮像装置であったが、以下では本発明に係る音声補正方法を再生時に適用した音声補正装置(本発明に係る音声再生装置)を搭載した撮像装置について説明する。
図20は、本発明に係る音声再生装置を搭載した撮像装置の内部構成例を示すブロック図である。なお、図20において図1と実質上同一の部分には同一の符号を付している。
図20に示す撮像装置が図1に示す撮像装置と異なる点は、画像処理装置5及び音声処理部6の代わりにそれぞれ画像処理装置5a及び音声処理部6aを設け、さらに、伸長処理部9とビデオ出力回路部10との間に画像処理部5bを設け、伸長処理部9と音声出力回路部13との間に音声処理部6bを設けている点である。
画像処理部5aは、画像処理装置5と異なり、顔検出装置を有していない構成である。また、音声処理部6aは、音声処理部6と異なり、ステレオマイク4からのアナログ信号である音声信号に対してA/D変換及び圧縮符号化処理は行うが、圧縮符号化処理以外の音声補正処理は施さない構成である。
また、音声処理部6aは、CPU17からカメラ制御情報(焦点情報やズーム倍率情報)を受け取り、そのカメラ制御情報をインデックスとして付加した圧縮符号化音声信号を多重化処理部7に出力するようにしてもよい。この場合、インデックスは、音声信号を圧縮記録する際に、その処理単位であるフレーム毎に外部メモリ22に記録する。例えばMPEG−AACで48kHzのサンプリング信号として記録する場合、処理単位である1フレームは、1024サンプルであり1024÷(48×103)≒2.13×10-2より約21.3msecに相当する。したがって、記録開始と同期して21.3msec毎に映像のズーム倍率情報を記録すればよい。また、ドルビーデジタル方式では1フレームが1536サンプルであり、48kHzのサンプリング信号として記録する場合は、1536÷(48×103)=3.2×10-2より32msec毎にインデックスを外部メモリ22に記録すればよい。
画像処理装置5bは、図7に示す顔検出装置50を備える構成である。また、音声処理部6bは、A/D変換部及び音声圧縮処理部を備えてない点と、外部からのカメラ制御情報を受け取るのではなく、必要に応じて音声信号に付加されているインデックスからカメラ制御情報を取得する点とを除き、音声処理部6と同様の構成であり、画像処理部5bからの人数情報を受け取り、さらに必要に応じて、画像処理部5bからの顔・口等の動き情報、顔・人物検出位置情報を受け取る。
音声処理部6bにおいて行われる音声補正制御は、基本的に音声処理部6において行われる音声補正制御と同様であるので、ここでは説明を省略する。
本発明は、音声情報と映像情報を同時に記録する情報記録装置(例えばデジタルビデオカメラなどの撮像装置)への適用が特に有効である。また、本発明は、例えば、音声情報と映像情報を同時に再生する情報再生装置(例えばDVDプレーヤなど)にも適用可能である。
は、本発明に係る音声記録装置を搭載した撮像装置の内部構成例を示すブロック図である。 は、図1に示す撮像装置の動画撮影時の基本動作を説明するためのフローチャートである。 は、音声処理部の構成例を示すブロック図である。 は、ステレオ角及び指向角について説明するための模式図である。 は、顔検出装置の構成例を示すブロック図である。 は、縮小画像生成部によって得られる階層画像の一例である。 は、顔検出処理を説明するための図である。 は、画角内に1人の人物が映った画像の例である。 は、符号ビット割り当てを説明するための図である。 は、画角内に2人の人物が映った画像の例である。 は、画角内に少人数の人物が映った画像の例である。 は、画角内に大人数の人物が映った画像の例である。 は、符号ビット割り当てを説明するための図である。 は、画角内に人物が映っていない画像の例である。 は、撮影対象である人物が動き回った場合の画像の変化例である。 は、ズームインあるいはズームアウトした場合の画像の変化例である。 は、ステレオ化処理部のブロック図の一例である。 は、マイクと音源との位置関係について説明するための模式図である。 は、指向性処理部のブロック図の一例である。 は、本発明に係る音声再生装置を搭載した撮像装置の内部構成例を示すブロック図である。
符号の説明
1 固体撮像素子(イメージセンサ)
2 レンズ部
3 AFE
4 ステレオマイク
4L、4R マイク
5、5a、5b 画像処理部
6、6a、6b 音声処理部
7 多重化処理部
8 ドライバ部
9 伸長処理部
10 ビデオ出力回路部
11 ビデオ出力端子
12 ディスプレイ部
13 音声出力回路部
14 音声出力端子
15 スピーカ部
16 タイミングジェネレータ(TG)
17 CPU
18 メモリ
19 操作部
20、21 バス回線
22 外部メモリ
50 顔検出装置
51 縮小画像生成部
52 顔判定部
53 検出結果出力部
60 音声補正制御方法決定部
61 A/D変換部
62 音源分離処理部
63 ステレオ化処理部
64 指向性処理部
65 第1の加算器
66 音声帯域強調処理部
67 第2の加算器
68 モノラル/ステレオ切替部
69 音声圧縮処理部
81 枠
82 吹き出し
101、102 吹き出し
100 撮像装置
150 入力画像
151〜155 縮小画像
161 判定領域
631L、631R 遅延回路
641L、641R FFT部
642 位相差検出部
643 帯域別制御量決定部
644L、644R 帯域別ゲイン制御部
645L、645R IFFT部

Claims (8)

  1. 映像と対になって記録又は再生される音声を補正する音声補正装置であって、
    前記映像を撮影したカメラの撮影画角内で検出された人数の情報を入力し、前記撮影画角内で検出された人数の情報に応じて前記音声に音声補正処理を施すことを特徴とする音声補正装置。
  2. 前記音声補正処理として、指向性制御、音源分離制御、音声強調制御、符号ビット割り当て制御、及びチャンネル数制御の少なくとも一つの制御を行う請求項1に記載の音声補正装置。
  3. 前記撮影画角内で検出された人数の情報に加えて、前記撮影画角内で検出された人数の情報以外の前記映像に関する情報及び/又は前記映像を撮影したカメラの制御情報を入力し、入力した情報に応じて音声補正処理を施す請求項1又は請求項2に記載の音声補正装置。
  4. 前記撮影画角内で検出された人数が予め設定した複数の区分のいずれに属するかを判定し、前記撮影画角内で検出された人数が属する区分に変動が生じた場合、その変動に応じて前記音声補正処理の内容を変更する請求項1〜3のいずれか1項に記載の音声補正装置。
  5. 前記撮影画角内で検出された人数が属する区分の変動に応じた前記音声補正処理の内容の変更にヒステリシス特性を持たせた請求項4に記載の音声補正装置。
  6. 前記映像を撮影したカメラの制御情報を入力し、前記映像を撮影したカメラの制御情報を基に、前記撮影画角内で検出された人数が属する区分の変動を事前に推測し、前記撮影画角内で検出された人数が属する区分の変動前から前記音声補正処理の内容の変更を開始する請求項4又は請求項5に記載の音声補正装置。
  7. 動画撮影機能を有する撮像装置であって、
    映像を撮影するカメラと、
    前記カメラの撮影画角内の人数を検出する映像処理手段と、
    前記映像処理手段から前記撮影画角内で検出された人数の情報を入力する請求項1〜6のいずれか1項に記載の音声補正装置とを備えることを特徴とする撮像装置。
  8. 映像と対になって記録又は再生される音声を補正する音声補正方法であって、
    前記映像を撮影したカメラの撮影画角内で検出された人数の情報を入力し、前記撮影画角内で検出された人数の情報に応じて前記音声に音声補正処理を施すことを特徴とする音声補正方法。
JP2007331428A 2007-09-10 2007-12-25 音声補正装置及びそれを備えた撮像装置並びに音声補正方法 Pending JP2009156888A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2007331428A JP2009156888A (ja) 2007-12-25 2007-12-25 音声補正装置及びそれを備えた撮像装置並びに音声補正方法
US12/202,855 US8218033B2 (en) 2007-09-10 2008-09-02 Sound corrector, sound recording device, sound reproducing device, and sound correcting method
US13/487,953 US20130021502A1 (en) 2007-09-10 2012-06-04 Sound corrector, sound recording device, sound reproducing device, and sound correcting method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007331428A JP2009156888A (ja) 2007-12-25 2007-12-25 音声補正装置及びそれを備えた撮像装置並びに音声補正方法

Publications (1)

Publication Number Publication Date
JP2009156888A true JP2009156888A (ja) 2009-07-16

Family

ID=40961030

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007331428A Pending JP2009156888A (ja) 2007-09-10 2007-12-25 音声補正装置及びそれを備えた撮像装置並びに音声補正方法

Country Status (1)

Country Link
JP (1) JP2009156888A (ja)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011071702A (ja) * 2009-09-25 2011-04-07 Fujitsu Ltd 収音処理装置、収音処理方法、及びプログラム
JP2011101110A (ja) * 2009-11-04 2011-05-19 Ricoh Co Ltd 撮像装置
JP2011114769A (ja) * 2009-11-30 2011-06-09 Nikon Corp 撮像装置
JP2011150191A (ja) * 2010-01-22 2011-08-04 Nec Personal Products Co Ltd 音声変更装置、音声変更方法、プログラム及び記録媒体
WO2012023436A1 (ja) * 2010-08-18 2012-02-23 Necカシオモバイルコミュニケーションズ株式会社 撮像装置、画像と音声の補正方法および記録媒体
JP2012074950A (ja) * 2010-09-29 2012-04-12 Brother Ind Ltd 遠隔会議装置
JP2012074880A (ja) * 2010-09-28 2012-04-12 Toshiba Corp 音声付き動画像呈示装置、方法およびプログラム
JP2012088390A (ja) * 2010-10-15 2012-05-10 Honda Motor Co Ltd 音声認識装置及び音声認識方法
JP2012105199A (ja) * 2010-11-12 2012-05-31 Toshiba Corp 音響信号処理装置、テレビジョン装置及びプログラム
JP2013500544A (ja) * 2009-07-24 2013-01-07 ディジマーク コーポレイション 改善された音声/映像の方法及びシステム
JP2013171089A (ja) * 2012-02-17 2013-09-02 Toshiba Corp 音声補正装置、方法、及びプログラム
WO2017208820A1 (ja) * 2016-05-30 2017-12-07 ソニー株式会社 映像音響処理装置および方法、並びにプログラム
JP2018005526A (ja) * 2016-06-30 2018-01-11 株式会社リコー 情報処理装置、及びプログラム
CN109302528A (zh) * 2018-08-21 2019-02-01 努比亚技术有限公司 一种拍照方法、移动终端及计算机可读存储介质
US10356362B1 (en) 2018-01-16 2019-07-16 Google Llc Controlling focus of audio signals on speaker during videoconference
US11258940B2 (en) 2020-01-20 2022-02-22 Panasonic Intellectual Property Management Co., Ltd. Imaging apparatus
US11445106B2 (en) 2019-11-20 2022-09-13 Panasonic Intellectual Property Management Co., Ltd. Imaging apparatus
WO2023181889A1 (ja) * 2022-03-24 2023-09-28 ソニーグループ株式会社 撮影装置、撮影方法、およびプログラム
JP7567344B2 (ja) 2020-10-09 2024-10-16 ヤマハ株式会社 音信号処理方法および音信号処理装置
JP7567345B2 (ja) 2020-10-09 2024-10-16 ヤマハ株式会社 音信号処理方法および音信号処理装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09205576A (ja) * 1996-01-26 1997-08-05 Sony Corp 追尾装置および追尾方法
JP2000354190A (ja) * 1999-06-11 2000-12-19 Sony Corp 映像記録装置
JP2003344891A (ja) * 2002-05-23 2003-12-03 Canon Inc 撮影モード自動設定カメラ
JP2006345254A (ja) * 2005-06-09 2006-12-21 Canon Inc 撮影装置及びその制御方法及びプログラム及び記憶媒体
JP2007005849A (ja) * 2005-06-21 2007-01-11 Sony Corp 記録装置、記録方法、再生装置、再生方法、記録方法のプログラム及び記録方法のプログラムを記録した記録媒体
JP2007013255A (ja) * 2005-06-28 2007-01-18 Sony Corp 信号処理装置および方法、プログラム、並びに記録媒体
JP2007208757A (ja) * 2006-02-03 2007-08-16 Casio Comput Co Ltd カメラ装置及びカメラ制御プログラム
JP2007296886A (ja) * 2006-04-27 2007-11-15 Nissan Motor Co Ltd 騒音低減装置及び方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09205576A (ja) * 1996-01-26 1997-08-05 Sony Corp 追尾装置および追尾方法
JP2000354190A (ja) * 1999-06-11 2000-12-19 Sony Corp 映像記録装置
JP2003344891A (ja) * 2002-05-23 2003-12-03 Canon Inc 撮影モード自動設定カメラ
JP2006345254A (ja) * 2005-06-09 2006-12-21 Canon Inc 撮影装置及びその制御方法及びプログラム及び記憶媒体
JP2007005849A (ja) * 2005-06-21 2007-01-11 Sony Corp 記録装置、記録方法、再生装置、再生方法、記録方法のプログラム及び記録方法のプログラムを記録した記録媒体
JP2007013255A (ja) * 2005-06-28 2007-01-18 Sony Corp 信号処理装置および方法、プログラム、並びに記録媒体
JP2007208757A (ja) * 2006-02-03 2007-08-16 Casio Comput Co Ltd カメラ装置及びカメラ制御プログラム
JP2007296886A (ja) * 2006-04-27 2007-11-15 Nissan Motor Co Ltd 騒音低減装置及び方法

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013500544A (ja) * 2009-07-24 2013-01-07 ディジマーク コーポレイション 改善された音声/映像の方法及びシステム
JP2011071702A (ja) * 2009-09-25 2011-04-07 Fujitsu Ltd 収音処理装置、収音処理方法、及びプログラム
JP2011101110A (ja) * 2009-11-04 2011-05-19 Ricoh Co Ltd 撮像装置
JP2011114769A (ja) * 2009-11-30 2011-06-09 Nikon Corp 撮像装置
JP2011150191A (ja) * 2010-01-22 2011-08-04 Nec Personal Products Co Ltd 音声変更装置、音声変更方法、プログラム及び記録媒体
WO2012023436A1 (ja) * 2010-08-18 2012-02-23 Necカシオモバイルコミュニケーションズ株式会社 撮像装置、画像と音声の補正方法および記録媒体
JPWO2012023436A1 (ja) * 2010-08-18 2013-10-28 Necカシオモバイルコミュニケーションズ株式会社 撮像装置、画像と音声の補正方法および記録媒体
JP2012074880A (ja) * 2010-09-28 2012-04-12 Toshiba Corp 音声付き動画像呈示装置、方法およびプログラム
US8837747B2 (en) 2010-09-28 2014-09-16 Kabushiki Kaisha Toshiba Apparatus, method, and program product for presenting moving image with sound
JP2012074950A (ja) * 2010-09-29 2012-04-12 Brother Ind Ltd 遠隔会議装置
JP2012088390A (ja) * 2010-10-15 2012-05-10 Honda Motor Co Ltd 音声認識装置及び音声認識方法
JP2012105199A (ja) * 2010-11-12 2012-05-31 Toshiba Corp 音響信号処理装置、テレビジョン装置及びプログラム
JP2013171089A (ja) * 2012-02-17 2013-09-02 Toshiba Corp 音声補正装置、方法、及びプログラム
JPWO2017208820A1 (ja) * 2016-05-30 2019-03-28 ソニー株式会社 映像音響処理装置および方法、並びにプログラム
US11184579B2 (en) 2016-05-30 2021-11-23 Sony Corporation Apparatus and method for video-audio processing, and program for separating an object sound corresponding to a selected video object
US12256169B2 (en) 2016-05-30 2025-03-18 Sony Group Corporation Apparatus and method for video-audio processing, and program for separating an object sound corresponding to a selected video object
WO2017208820A1 (ja) * 2016-05-30 2017-12-07 ソニー株式会社 映像音響処理装置および方法、並びにプログラム
US11902704B2 (en) 2016-05-30 2024-02-13 Sony Corporation Apparatus and method for video-audio processing, and program for separating an object sound corresponding to a selected video object
JP7396341B2 (ja) 2016-05-30 2023-12-12 ソニーグループ株式会社 映像音響処理装置および方法、並びにプログラム
JP2022036998A (ja) * 2016-05-30 2022-03-08 ソニーグループ株式会社 映像音響処理装置および方法、並びにプログラム
JP2018005526A (ja) * 2016-06-30 2018-01-11 株式会社リコー 情報処理装置、及びプログラム
WO2019143565A1 (en) * 2018-01-16 2019-07-25 Google Llc Controlling focus of audio signals on speaker during videoconference
US10805575B2 (en) 2018-01-16 2020-10-13 Google Llc Controlling focus of audio signals on speaker during videoconference
CN111602414A (zh) * 2018-01-16 2020-08-28 谷歌有限责任公司 视频会议期间控制音频信号聚焦说话者
US10356362B1 (en) 2018-01-16 2019-07-16 Google Llc Controlling focus of audio signals on speaker during videoconference
CN109302528B (zh) * 2018-08-21 2021-05-25 努比亚技术有限公司 一种拍照方法、移动终端及计算机可读存储介质
CN109302528A (zh) * 2018-08-21 2019-02-01 努比亚技术有限公司 一种拍照方法、移动终端及计算机可读存储介质
US11445106B2 (en) 2019-11-20 2022-09-13 Panasonic Intellectual Property Management Co., Ltd. Imaging apparatus
US11258940B2 (en) 2020-01-20 2022-02-22 Panasonic Intellectual Property Management Co., Ltd. Imaging apparatus
JP7567344B2 (ja) 2020-10-09 2024-10-16 ヤマハ株式会社 音信号処理方法および音信号処理装置
JP7567345B2 (ja) 2020-10-09 2024-10-16 ヤマハ株式会社 音信号処理方法および音信号処理装置
WO2023181889A1 (ja) * 2022-03-24 2023-09-28 ソニーグループ株式会社 撮影装置、撮影方法、およびプログラム

Similar Documents

Publication Publication Date Title
JP2009156888A (ja) 音声補正装置及びそれを備えた撮像装置並びに音声補正方法
US8218033B2 (en) Sound corrector, sound recording device, sound reproducing device, and sound correcting method
US8401364B2 (en) Imaging device and playback device
KR102465227B1 (ko) 영상 음향 처리 장치 및 방법, 및 프로그램이 저장된 컴퓨터 판독 가능한 기록 매체
JP4934580B2 (ja) 映像音声記録装置および映像音声再生装置
JP5685732B2 (ja) 映像抽出装置、プログラム及び記録媒体
JP2009065587A (ja) 音声記録装置及び音声再生装置
JP5155092B2 (ja) カメラ、再生装置、および再生方法
JP2010103972A (ja) 画像処理装置及び電子機器
CN102164242A (zh) 摄像装置以及摄像控制方法
JP2008245254A (ja) 音声処理装置
JP5214394B2 (ja) カメラ
JP2009124644A (ja) 画像処理装置、撮像装置及び画像再生装置
JP5230164B2 (ja) 音声記録装置
JP5063489B2 (ja) 判定装置及びそれを備えた電子機器並びに判定方法
JP6295442B2 (ja) 画像生成装置、撮影装置、画像生成方法及びプログラム
US11665391B2 (en) Signal processing device and signal processing system
JP6314321B2 (ja) 画像生成装置、撮影装置、画像生成方法及びプログラム
JP5750668B2 (ja) カメラ、再生装置、および再生方法
JP6295443B2 (ja) 画像生成装置、撮影装置、画像生成方法及びプログラム
JP2011035708A (ja) 音響信号処理装置、及び撮像装置
JP5072714B2 (ja) 音声記録装置及び音声再生装置
JP2010134260A (ja) 電子機器及び音声処理方法
JP2011155580A (ja) 撮像装置
JP2014236276A (ja) 画像処理装置、撮像装置および画像処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101130

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130314

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130326

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20130404

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20131022