JP7217471B2 - Imaging device - Google Patents
Imaging device Download PDFInfo
- Publication number
- JP7217471B2 JP7217471B2 JP2019222866A JP2019222866A JP7217471B2 JP 7217471 B2 JP7217471 B2 JP 7217471B2 JP 2019222866 A JP2019222866 A JP 2019222866A JP 2019222866 A JP2019222866 A JP 2019222866A JP 7217471 B2 JP7217471 B2 JP 7217471B2
- Authority
- JP
- Japan
- Prior art keywords
- unit
- audio
- type
- subject
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003384 imaging method Methods 0.000 title claims description 57
- 238000012545 processing Methods 0.000 claims description 178
- 238000001514 detection method Methods 0.000 claims description 50
- 230000003321 amplification Effects 0.000 claims description 28
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 28
- 230000008859 change Effects 0.000 claims description 22
- 238000000034 method Methods 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 17
- 241001465754 Metazoa Species 0.000 claims description 15
- 230000007423 decrease Effects 0.000 claims description 4
- 238000000605 extraction Methods 0.000 description 60
- 238000013527 convolutional neural network Methods 0.000 description 19
- 241000282326 Felis catus Species 0.000 description 18
- 238000010586 diagram Methods 0.000 description 16
- 230000015654 memory Effects 0.000 description 16
- 230000006870 function Effects 0.000 description 15
- 230000001629 suppression Effects 0.000 description 13
- 238000006243 chemical reaction Methods 0.000 description 12
- 230000003287 optical effect Effects 0.000 description 12
- 238000004891 communication Methods 0.000 description 11
- 238000010801 machine learning Methods 0.000 description 10
- 239000000284 extract Substances 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 239000000203 mixture Substances 0.000 description 4
- 238000004148 unit process Methods 0.000 description 4
- 241000282472 Canis lupus familiaris Species 0.000 description 3
- 241000282412 Homo Species 0.000 description 3
- 230000009471 action Effects 0.000 description 3
- 230000002708 enhancing effect Effects 0.000 description 3
- 238000007792 addition Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 241000271566 Aves Species 0.000 description 1
- 206010024796 Logorrhoea Diseases 0.000 description 1
- 238000010420 art technique Methods 0.000 description 1
- 238000005352 clarification Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Landscapes
- Studio Devices (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
本開示は、音声を取得しながら撮像を行う撮像装置に関する。 The present disclosure relates to an imaging device that captures an image while acquiring sound.
撮像装置による動画の撮影時などに、特定の被写体による音声を明瞭に収音するための技術が検討されている(例えば特許文献1)。 2. Description of the Related Art Techniques for clearly picking up the sound of a specific subject when shooting a moving image with an imaging device have been studied (for example, Patent Document 1).
特許文献1は、撮像部及びマイクロフォンアレイを備えた音声識別装置を開示している。この音声識別装置は、撮像部により生成された画像データから被写体画像の特徴情報を検出すると共に、マイクロフォンアレイにより生成された音声データから音声の特徴情報を検出している。この音声識別装置は、画像データから算出される被写体の距離等と音声データから算出される音源の距離等に基づいて、マイクロフォンアレイの指向特性を調整することにより、断続的に音声を発生する音源についても良好な音声を得ることを図っている。 Patent Literature 1 discloses a speech identification device comprising an imaging unit and a microphone array. This sound identification device detects feature information of a subject image from image data generated by an imaging unit, and detects sound feature information from sound data generated by a microphone array. This sound identification device adjusts the directional characteristics of the microphone array based on the distance of the subject calculated from the image data and the distance of the sound source calculated from the sound data, thereby intermittently generating sounds. We are also trying to obtain good sound for
しかしながら、撮影中のユーザは、動く被写体に対して目で追って撮影装置の向き等を変えることとなり、音声の検出結果に基づきマイクロフォンの指向性を追従させることは、精度良く行い難い。従来技術では、撮像装置において特定の被写体による音声を明瞭に得難いという問題があった。 However, during shooting, the user changes the direction of the shooting device by following the moving subject with his or her eyes, and it is difficult to accurately follow the directivity of the microphone based on the sound detection result. In the prior art, there is a problem that it is difficult to clearly obtain the sound of a specific subject in an imaging device.
本開示は、ユーザの意図に沿って被写体による音声を明瞭に得ることを行い易くすることができる撮像装置を提供する。 The present disclosure provides an imaging device that can facilitate obtaining the voice of a subject clearly according to the user's intention.
本開示の一態様に係る撮像装置は、撮像部と、音声取得部と、検出部と、音声処理部と、操作部とを備える。撮像部は、被写体像を撮像して画像データを生成する。音声取得部は、撮像部による撮像中の音声を示す音声データを取得する。検出部は、撮像部によって生成された画像データに基づいて、被写体とその種別を検出する。音声処理部は、検出部によって検出された被写体の種別に基づいて、音声取得部によって取得された音声データを処理する。操作部は、ユーザによる自装置の操作に基づいて、第1の種別および第1の種別とは異なる第2の種別を含む複数の種別の中から、音声処理部による処理の対象とする対象種別を設定する。音声処理部は、画像データにおいて対象種別の被写体が検出されたときに、取得された音声データにおいて対象種別に応じた音声を強調又は抑制するように、当該音声データを処理する。 An imaging device according to an aspect of the present disclosure includes an imaging unit, an audio acquisition unit, a detection unit, an audio processing unit, and an operation unit. The imaging unit captures a subject image and generates image data. The audio acquisition unit acquires audio data representing audio being captured by the imaging unit. The detection unit detects a subject and its type based on the image data generated by the imaging unit. The audio processing unit processes the audio data acquired by the audio acquisition unit based on the type of subject detected by the detection unit. The operation unit selects a target type to be processed by the audio processing unit from among a plurality of types including a first type and a second type different from the first type, based on the user's operation of the device. set. The audio processing unit processes the audio data so that, when the subject of the target type is detected in the image data, the audio corresponding to the target type is emphasized or suppressed in the acquired audio data.
本開示の別の態様に係る撮像装置は、撮像部と、音声取得部と、検出部と、表示部と、操作部と、音声処理部と、制御部とを備える。撮像部は、被写体像を撮像して画像データを生成する。音声取得部は、撮像部による撮像中の音声を示す音声データを取得する。検出部は、撮像部によって生成された画像データに基づいて、被写体とその種別を検出する。表示部は、画像データが示す画像を表示する。操作部は、ユーザによる自装置の操作に基づいて、検出部によって検出された被写体の中から、画像におけるフォーカス対象の被写体を選択する。音声処理部は、操作部によって選択された被写体の種別に基づいて、音声取得部によって取得された音声データを処理する。制御部は、音声処理部による処理の対象とする対象種別としてフォーカス対象の被写体の種別を示す対象種別情報を表示部に表示させる。 An imaging device according to another aspect of the present disclosure includes an imaging unit, an audio acquisition unit, a detection unit, a display unit, an operation unit, an audio processing unit, and a control unit. The imaging unit captures a subject image and generates image data. The audio acquisition unit acquires audio data representing audio being captured by the imaging unit. The detection unit detects a subject and its type based on the image data generated by the imaging unit. The display unit displays an image indicated by the image data. The operation unit selects a subject to be focused in the image from the subjects detected by the detection unit based on the user's operation of the device. The audio processing unit processes the audio data acquired by the audio acquiring unit based on the subject type selected by the operation unit. The control unit causes the display unit to display target type information indicating the type of a subject to be focused as a target type to be processed by the audio processing unit.
本開示に係る撮像装置によると、ユーザの意図に沿って被写体による音声を明瞭に得ることを行い易くすることができる。 According to the imaging device according to the present disclosure, it is possible to easily obtain the voice of the subject clearly according to the user's intention.
以下、適宜図面を参照しながら、実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。なお、発明者(ら)は、当業者が本開示を十分に理解するために添付図面および以下の説明を提供するのであって、これらによって特許請求の範囲に記載の主題を限定することを意図するものではない。 Hereinafter, embodiments will be described in detail with reference to the drawings as appropriate. However, more detailed description than necessary may be omitted. For example, detailed descriptions of well-known matters and redundant descriptions of substantially the same configurations may be omitted. This is to avoid unnecessary verbosity in the following description and to facilitate understanding by those skilled in the art. It is noted that the inventor(s) provide the accompanying drawings and the following description in order for those skilled in the art to fully understand the present disclosure, which are intended to limit the claimed subject matter. not something to do.
(実施の形態1)
実施の形態1では、本開示に係る撮像装置の一例として、画像認識技術と音声抽出技術とを連動させて人や動物やといった特定の種別の被写体による音声を明瞭に得るデジタルカメラについて説明する。
(Embodiment 1)
In Embodiment 1, as an example of an imaging device according to the present disclosure, a digital camera that clearly obtains the voice of a specific type of subject such as a person or an animal by linking image recognition technology and voice extraction technology will be described.
〔1-1.構成〕
実施の形態1に係るデジタルカメラの構成について、図1を用いて説明する。
[1-1. composition〕
A configuration of a digital camera according to Embodiment 1 will be described with reference to FIG.
図1は、本実施形態に係るデジタルカメラ100の構成を示す図である。本実施形態のデジタルカメラ100は、イメージセンサ115と、画像処理エンジン120と、表示モニタ130と、コントローラ135とを備える。さらに、デジタルカメラ100は、バッファメモリ125と、カードスロット140と、フラッシュメモリ145と、操作部150と、通信モジュール155とを備える。また、デジタルカメラ100は、マイク160と、マイク用のアナログ/デジタル(A/D)コンバータ165と、音声処理エンジン170とを備える。また、デジタルカメラ100は、例えば光学系110及びレンズ駆動部112を備える。
FIG. 1 is a diagram showing the configuration of a
光学系110は、フォーカスレンズ、ズームレンズ、光学式手ぶれ補正レンズ(OIS)、絞り、シャッタ等を含む。フォーカスレンズは、イメージセンサ115上に形成される被写体像のフォーカス状態を変化させるためのレンズである。ズームレンズは、光学系で形成される被写体像の倍率を変化させるためのレンズである。フォーカスレンズ等は、それぞれ1枚又は複数枚のレンズで構成される。
The
レンズ駆動部112は、光学系110におけるフォーカスレンズ等を駆動する。レンズ駆動部112はモータを含み、コントローラ135の制御に基づいてフォーカスレンズを光学系110の光軸に沿って移動させる。レンズ駆動部112においてフォーカスレンズを駆動する構成は、DCモータ、ステッピングモータ、サーボモータ、または超音波モータなどで実現できる。
A
イメージセンサ115は、光学系110を介して形成された被写体像を撮像して、撮像データを生成する。撮像データは、イメージセンサ115による撮像画像を示す画像データを構成する。イメージセンサ115は、所定のフレームレート(例えば、30フレーム/秒)で新しいフレームの画像データを生成する。イメージセンサ115における、撮像データの生成タイミングおよび電子シャッタ動作は、コントローラ135によって制御される。イメージセンサ115は、CMOSイメージセンサ、CCDイメージセンサ、またはNMOSイメージセンサなど、種々のイメージセンサを用いることができる。
The
イメージセンサ115は、動画像、静止画像の撮像動作、スルー画像の撮像動作等を実行する。スルー画像は主に動画像であり、ユーザが例えば静止画像の撮像のための構図を決めるために表示モニタ130に表示される。
スルー画像、動画像及び静止画像は、それぞれ本実施形態における撮像画像の一例である。イメージセンサ115は、本実施形態における撮像部の一例である。
The
A through image, a moving image, and a still image are examples of captured images in this embodiment. The
画像処理エンジン120は、イメージセンサ115から出力された撮像データに対して各種の処理を施して画像データを生成したり、画像データに各種の処理を施して、表示モニタ130に表示するための画像を生成したりする。各種処理としては、ホワイトバランス補正、ガンマ補正、YC変換処理、電子ズーム処理、圧縮処理、伸張処理等が挙げられるが、これらに限定されない。画像処理エンジン120は、ハードワイヤードな電子回路で構成してもよいし、プログラムを用いたマイクロコンピュータ、プロセッサなどで構成してもよい。
The
本実施形態において、画像処理エンジン120は、撮像画像の画像認識によって人及び動物といった種々の種別の被写体の検出機能を実現する画像認識部122を含む。画像認識部122の詳細については後述する。
In this embodiment, the
表示モニタ130は、種々の情報を表示する表示部の一例である。例えば、表示モニタ130は、イメージセンサ115で撮像され、画像処理エンジン120で画像処理された画像データが示す画像(スルー画像)を表示する。また、表示モニタ130は、ユーザがデジタルカメラ100に対して種々の設定を行うためのメニュー画面等を表示する。表示モニタ130は、例えば、液晶ディスプレイデバイスまたは有機ELデバイスで構成できる。
The display monitor 130 is an example of a display that displays various information. For example, the display monitor 130 displays an image (through image) represented by image data captured by the
操作部150は、デジタルカメラ100の外装に設けられた操作釦や操作レバー等のハードキーの総称であり、使用者による操作を受け付ける。操作部150は、例えば、レリーズ釦、モードダイヤル、タッチパネルを含む。操作部150はユーザによる操作を受け付けると、ユーザ操作に対応した操作信号をコントローラ135に送信する。
The
コントローラ135は、デジタルカメラ100全体の動作を統括制御する。コントローラ135はCPU等を含み、CPUがプログラム(ソフトウェア)を実行することで所定の機能を実現する。コントローラ135は、CPUに代えて、所定の機能を実現するように設計された専用の電子回路で構成されるプロセッサを含んでもよい。すなわち、コントローラ135は、CPU、MPU、GPU、DSU、FPGA、ASIC等の種々のプロセッサで実現できる。コントローラ135は1つまたは複数のプロセッサで構成してもよい。また、コントローラ135は、画像処理エンジン120などと共に1つの半導体チップで構成してもよい。
The
バッファメモリ125は、画像処理エンジン120やコントローラ135のワークメモリとして機能する記録媒体である。バッファメモリ125は、DRAM(Dynamic Random Access Memory)などにより実現される。フラッシュメモリ145は不揮発性の記録媒体である。また、図示していないが、コントローラ135は各種の内部メモリを有してもよく、例えばROMを内蔵してもよい。ROMには、コントローラ135が実行する様々なプログラムが記憶されている。また、コントローラ135は、CPUの作業領域として機能するRAMを内蔵してもよい。
A
カードスロット140は、着脱可能なメモリカード142が挿入される手段である。カードスロット140は、メモリカード142を電気的及び機械的に接続可能である。メモリカード142は、内部にフラッシュメモリ等の記録素子を備えた外部メモリである。メモリカード142は、画像処理エンジン120で生成される画像データなどのデータを格納できる。
The
通信モジュール155は、通信規格IEEE802.11またはWi-Fi規格等に準拠した通信を行う通信モジュール(回路)である。デジタルカメラ100は、通信モジュール155を介して、他の機器と通信することができる。デジタルカメラ100は、通信モジュール155を介して、他の機器と直接通信を行ってもよいし、アクセスポイント経由で通信を行ってもよい。通信モジュール155は、インターネット等の通信ネットワークに接続可能であってもよい。
The
マイク160は、音を収音する収音部の一例である。マイク160は、収音した音声を電気信号であるアナログ信号に変換して出力する。マイク160は、1つ又は複数のマイクロフォン素子から構成されてもよい。
マイク用のA/Dコンバータ165は、マイク160からのアナログ信号をデジタル信号の音声データに変換する。マイク用のA/Dコンバータ165は、本実施形態における音声取得部の一例である。なお、マイク160は、デジタルカメラ100の外部にあるマイクロフォン素子を含んでもよい。この場合、デジタルカメラ100は音声取得部として、外部のマイク160に対するインタフェース回路を備える。
The microphone A/
音声処理エンジン170は、マイク用のA/Dコンバータ165等の音声取得部から出力された音声データを受信して、受信した音声データに対して種々の音声処理を施す。音声処理エンジン170は、本実施形態における音声処理部の一例である。音声処理エンジン170は、画像処理エンジン120と一体的に実装されてもよい。音声処理エンジン170の構成の詳細については後述する。
The
〔1-1-1.画像認識部について〕
本実施形態における画像認識部122の詳細を、以下説明する。
[1-1-1. Image Recognition Unit]
Details of the
画像認識部122は、例えば畳み込みニューラルネットワーク等のニューラルネットワークによる学習済みモデルを採用する。画像認識部122は、イメージセンサ115からの撮像データを学習済みモデルに入力して、当該モデルによる画像認識処理を実行する。画像認識部122は、画像認識処理による被写体の種別の検出結果を示す検出情報を出力する。画像認識部122は、本実施形態における検出部の一例である。画像認識部122は、画像処理エンジン120とコントローラ135との協働によって構成されてもよい。
The
画像認識部122の画像認識処理は、学習済みモデルに入力されたデータが示す画像において、予め設定された複数のカテゴリの何れかに分類される被写体が映っている領域を示す位置情報と対応するカテゴリとを関連付けて、検出情報として出力する。複数のカテゴリは、例えば「人」及び「動物」といった種別を含む。また、各カテゴリは更に細分化されてもよく、例えば、人の体、顔および瞳といった人の各部、並びに動物の体、顔および瞳といった動物の各部を含んでもよい。位置情報は、例えば処理対象の画像上の水平座標及び垂直座標で規定され、例えば検出された被写体を矩形状に囲む領域を示す(図5など参照)。
The image recognition processing of the
画像認識部122は、各カテゴリについて、予め設定された最大の個数までの被写体を同時に検出してもよい。また、上記の動物のカテゴリ(或いは種別)は、さらに、動物の種類に応じて分類されてもよい。例えば、犬、猫および鳥などのカテゴリが別々に設定されてもよいし、犬と猫を1つにまとめたカテゴリが設定されてもよい。以下では、デジタルカメラ100において予め設定された複数の種別が、第1の種別の一例として種別「人」と、第2の種別の一例として種別「猫」とを含む場合を説明する。
The
以上のような画像認識部122の学習済みモデルは、例えば、各カテゴリの被写体が映った画像を正解とする正解ラベルを関連付けた画像データを教師データとして用いた教師あり学習によって得ることができる。学習済みモデルは、各カテゴリの検出結果に関する信頼度或いは尤度を生成してもよい。
The trained model of the
画像認識部122の学習済みモデルはニューラルネットワークに限らず、種々の画像認識に関する機械学習モデルであってもよい。また、画像認識部122は機械学習に限らず、種々の画像認識アルゴリズムを採用してもよい。また、画像認識部122は、例えば人の顔および瞳などの一部のカテゴリに対する検出がルールベースの画像認識処理によって行われるように構成されてもよい。
The trained model of the
〔1-1-2.音声処理エンジンについて〕
音声処理エンジン170の構成の詳細について、図2~図4を用いて説明する。図2は、デジタルカメラ100における音声処理エンジン170の構成を示すブロック図である。
[1-1-2. About the audio processing engine]
Details of the configuration of the
音声処理エンジン170は、例えば機能的構成として、図2に示すように、雑音抑圧部172と、音声抽出部174と、強調処理部176とを備える。音声処理エンジン170は、マイク用のA/Dコンバータ165から音声データAinを入力して、各種機能による音声処理を行う。音声抽出部174及び強調処理部176は、例えばコントローラ135によって制御される。
The
雑音抑圧部172は、音声処理エンジン170に入力された音声データAinにおいて雑音を抑制する処理を行う。雑音抑圧部172による処理は、例えば風の音や、レンズ等の駆動音、ユーザ等がデジタルカメラ100に触れて生じる各種ハンドリング雑音といった所定の雑音を抑圧するために行われ、例えばルールベースのアルゴリズムで実装される。雑音抑圧部172は、処理した音声データA10を、音声抽出部174及び強調処理部176に出力する。雑音抑圧部172の処理後の音声データA10は、例えば音声抽出を行わずに動画を撮影する際に得られる動画音声を示す。
The
音声抽出部174は、雑音抑圧部172からの動画音声の音声データA10において、特定の種別(以下「対象種別」という場合がある)の音声を抽出する処理を行って、抽出音声を示す音声データA11を出力する。音声抽出部174の処理は、例えばニューラルネットワーク等の機械学習による学習済みモデルによって実現される。以下では、畳み込みニューラルネットワーク(CNN)を用いる例を説明する。
The
音声抽出部174のCNNは、例えば画像認識に用いられる場合と同様に、画像データを入力とする畳み込み層などを含む。本例において、音声抽出部174は、動画音声の音声データを画像データに変換する音声/画像変換部174aと、変換された画像データ上で特定の種別に対応する部分を識別するようにCNNによる処理を実行するCNN処理部175と、識別された部分の画像データを音声データに変換する画像/音声変換部174bとを備える。音声抽出部174は、例えば所定のフレーム周期で周期的に動作可能である。
The CNN of the
音声処理エンジン170には予め、対象種別として設定可能な複数の種別が設定されている。音声処理エンジン170における複数の種別は、例えば画像認識部122に予め設定された複数の種別と対応している。図3は、音声抽出部174における特定の種別のデータ例を説明した図である。
A plurality of types that can be set as target types are set in the
図3(A)は、種別「人」のデータ例として人の声の音声データA12による音声の波形を例示する。図3(B)は、図3(A)の変換後の画像データB12を例示する。音声データA12は、図3(A)に例示するように、時間方向に沿って音声波形の振幅が規定される時系列データを構成する。音声/画像変換部174aは、例えば短時間フーリエ変換(STFT)等を演算して、音声データA12の変換後の画像データB12を生成する。
FIG. 3A exemplifies the waveform of the voice of voice data A12 of a human voice as an example of data of the type "person". FIG. 3B illustrates image data B12 after conversion of FIG. 3A. The audio data A12 constitutes time-series data in which the amplitude of the audio waveform is defined along the time direction, as exemplified in FIG. 3(A). The audio/
図3(B)に示すように、変換後の画像データB12は、音声データA12のスペクトログラム或いは声紋画像を示し、時間方向Xに加えて周波数方向Yを有する。画像データB12の画素値は、(X,Y)座標で規定される音の成分の強さ(振幅)を示す。画像データB12の画像上の領域は、変換前の音声データA12において対応する時間区間及び周波数帯の成分を表す。 As shown in FIG. 3B, the converted image data B12 represents the spectrogram or voiceprint image of the audio data A12, and has the frequency direction Y in addition to the time direction X. As shown in FIG. The pixel value of the image data B12 indicates the strength (amplitude) of the sound component defined by the (X, Y) coordinates. The area on the image of the image data B12 represents the corresponding time section and frequency band components in the audio data A12 before conversion.
図4は、図3とは別の種別のデータ例を説明した図である。図4(A)は、種別「猫」のデータ例として猫の鳴き声の音声データA13による音声の波形を例示する。図4(B)は、図4(A)の変換後の画像データB13を例示する。図3(B),図4(B)に示す画像データB12,B13間には、図3(A),図4(A)の音声データA12,A13における種別の違いに応じて、異なる特徴量が含まれる。CNN処理部175の機械学習によると、このような特徴量の識別方法が獲得される。
FIG. 4 is a diagram explaining an example of data of a type different from that of FIG. FIG. 4A exemplifies the waveform of the voice by the voice data A13 of the meow of a cat as an example of the data of the type "cat". FIG. 4B illustrates image data B13 after conversion of FIG. 4A. Between the image data B12 and B13 shown in FIGS. 3(B) and 4(B), different feature amounts is included. According to the machine learning of the
例えば種々の種別による音声に応じた画像データB12,B13をラベル付けした教師となる画像データが、CNN処理部175の機械学習のための教師データベース(DB)40に格納される。CNN処理部175の学習済みモデルは、教師DB40を用いた教師あり学習において、画像データを入力すると特定の種別の識別情報を出力するように、CNNの重みパラメータ群を誤差逆伝播法で入力データと教師データの誤差を小さくするために調整することによって構成できる。なお、教師DB40では、画像データの代わりに音声データが格納されてもよい。この場合、教師DB40中の音声データに対しても音声/画像変換部174aの変換が適用可能である。
For example, image data B12 and B13 corresponding to various types of voices are labeled and image data serving as a teacher is stored in a teacher database (DB) 40 for machine learning of the
CNN処理部175が出力する識別情報は、例えば、入力の画像データ上で特定の種別に対応すると識別された領域等を示す画像データを含み、又この識別の信頼度あるいは尤度を含んでもよい。CNN処理部175には、例えば上記のCNNに加えて又はこれに代えて、種別毎の音声に応じた画像データ等を生成する各種の生成モデルが含まれてもよい。CNN処理部175では、種別ごとに別々に機械学習された学習済みモデルを用いることができる。例えば、各種別の学習済みモデル或いは対応する重みパラメータ群は、フラッシュメモリ145において学習データベース(DB)45に格納され、特定の種別の音声抽出を実行するために用いる設定情報として適時、コントローラ135によってCNN処理部175に設定される。なお、CNN処理部175には、複数の種別を同時に識別する学習済みモデルを用いてもよい。
The identification information output by the
図2に戻り、画像/音声変換部174bは、CNN処理部175によって識別された画像データに対して、例えば音声/画像変換部174aによるSTFTの逆変換を演算して、音声抽出部174における抽出結果を示す抽出音声の音声データA11を生成する。
Returning to FIG. 2, the image/
強調処理部176は、音声抽出部174からの抽出音声の音声データA11を入力する音声増幅部177と、雑音抑圧部172からの動画音声の音声データA10を入力する音声減衰部178と、音声増幅部177と音声減衰部178の出力を統合する音声結合部179とを備える。強調処理部176は、音声抽出部174による抽出音声が動画音声から強調されるように、抽出音声及び動画音声の各音声データA10,A11を処理して、音声処理エンジン170による処理結果の音声データAoutを出力する。
The
音声増幅部177は、入力される音声データA11に対して、例えばコントローラ135によって設定されるゲインG1を乗じる乗算処理を行って、抽出音声を増幅する。音声減衰部178は、入力される音声データA10に対して、当該音声データA10が示す動画音声の音量と、音声結合部179による結合後の音声の音量とを同じにする値のゲインG0(<1)を乗じて、動画音声を抑圧する。音声結合部179は、増幅された抽出音声と抑圧された動画音声とを同期して合成し、処理結果の音声データAoutを生成する。
The
なお、音声減衰部178のゲインG0は、強調処理部176において算出されてもよいし、コントローラ135によって設定されてもよい。音声増幅部177のゲインG1は、例えば1以下であってもよい。この場合であっても、動画音声の中に抽出音声と同じ音声が含まれていることから、抽出対象となった音声は、処理結果の音声データAoutにおいて動画音声中の分よりも増幅されることとなる。
Note that the gain G<b>0 of the
以上のような音声処理エンジン170において、音声抽出部174の機能はCNNに限らず、他のニューラルネットワークで実現されてもよいし、ニューラルネットワーク以外の種々の音声識別に関する機械学習モデルであってもよい。また、教師DB40等を用いた音声抽出部174の機械学習は、デジタルカメラ100への実装前に予め行われてもよい。この場合、デジタルカメラ100のフラッシュメモリ145には、学習結果の学習DB45が記録されれば、特に教師DB40は記録されなくてもよい。
In the
また、音声処理エンジン170においては、教師DB40のような種々の種別と対応付けた音声データ等を含むデータベースを用いて、音声抽出部174の抽出結果の補正が行われてもよい。例えば当該データベースをフラッシュメモリ145に格納しておき、音声処理エンジン170が音声抽出部174の抽出結果とデータベース中のデータとを照合してもよい。また、音声抽出部174等の機能は機械学習に限らず、種々の音声識別アルゴリズムにより実現されてもよく、上記のようなデータベースにおける検索が利用されてもよい。
Further, in the
〔1-2.動作〕
以上のように構成されるデジタルカメラ100の動作について説明する。以下では、デジタルカメラ100による動画撮影時の動作を説明する。
[1-2. motion〕
The operation of the
デジタルカメラ100は順次、光学系110を介して形成された被写体像をイメージセンサ115で撮像して撮像データを生成する。画像処理エンジン120は、イメージセンサ115により生成された撮像データに対して各種処理を施して画像データを生成し、バッファメモリ125に記録する。また、画像処理エンジン120の画像認識部122は、撮像データが示す画像に基づき、被写体の種別および領域を検出して、例えば検出情報D1をコントローラ135に出力する。
The
以上の撮像動作と同時並行で、デジタルカメラ100は、マイク160において収音を行う。マイク用のA/Dコンバータ165から収音結果の音声データを音声処理エンジン170にて処理する。音声処理エンジン170は、処理後の音声データAoutをバッファメモリ125に記録する。
Simultaneously with the above imaging operation, the
コントローラ135は、バッファメモリ125を介して、画像処理エンジン120から受け付ける画像データと音声処理エンジン170から受け付ける音声データとの間で、同期を取って動画をメモリカード142に記録する。また、コントローラ135は逐次、表示モニタ130にスルー画像を表示させる。ユーザは、表示モニタ130のスルー画像により随時、撮影の構図等を確認することができる。動画撮影の動作は、操作部150におけるユーザの操作に応じて開始/終了される。
The
以上のようなデジタルカメラ100の動画撮影は、「人」又は「動物」といった特定の種別の被写体に注目して行われる場合がある。この場合、音声についても、上記種別の発声を明瞭に収集したいとのニーズが考えられる。
Moving image shooting by the
本実施形態のデジタルカメラ100は、画像処理エンジン120における画像認識部122の検出情報D1によって被写体の種別を検出し、画像認識で特定の種別の被写体が検出されたときに、音声処理エンジン170において当該種別に対する音声抽出の処理を実行する。このように、画像処理エンジン120の画像認識と音声処理エンジン170の音声抽出等とを連動させて、特定の種別の被写体による音声の抽出を精度良く実現する。
The
以下では、上記のような特定の種別が「人」に設定された動作モード(以下「人優先モード」という)におけるデジタルカメラ100の動作例を説明する。
An example of operation of the
〔1-2-1.人優先モードについて〕
図5は、デジタルカメラ100の人優先モードの概要を説明するための図である。人優先モードは、種別が「人」の被写体に注目して動画撮影等を行うための動作モードである。
[1-2-1. About people priority mode]
FIG. 5 is a diagram for explaining an outline of the human priority mode of the
図5(A)は、人優先モードにおける表示モニタ130の表示の一例を示す。デジタルカメラ100のコントローラ135は、表示モニタ130にスルー画像と共に、スルー画像中で枠表示などにより、被写体が検出された検出領域R1を表示する。また、図5の例において、表示モニタ130は、音声抽出アイコン5を表示している。音声抽出アイコン5は、音声抽出の対象とする種別を示す対象種別マーク5aと、抽出された音声が増幅されるレベルを示す増幅レベルバー5bとを含む。対象種別マーク5a(対象種別情報の一例)と増幅レベルバー5b(強調レベル情報の一例)とは、それぞれコントローラ135の制御によって表示される。人優先モードの音声抽出アイコン5では、対象種別マーク5aとして「人」のマークが表示される。
FIG. 5A shows an example of display on the display monitor 130 in the person priority mode. The
人優先モードのデジタルカメラ100において、画像処理エンジン120の画像認識部122は、例えば種々の種別の被写体を検出する。図5(A)の例では、被写体において、対象種別の人21,22と、対象種別とは別の種別の猫20とが、それぞれ検出されている。この際、画像認識による人21,22の検出に応じて、音声処理エンジン170の音声抽出部174が動作し、対象種別「人」に対する音声抽出の処理を開始する。
In the
図5(B)は、図5(A)に対応した音声変化を例示するグラフである。図5(B)において、横軸は時間を示し、縦軸は増幅(又は抑圧の)レベルを示す。曲線C1は抽出音声を表し、曲線C0は動画音声を表している。人21,22の何れかが発声して、種別「人」の音声が抽出されると、強調処理部176は抽出音声の増幅を行う。一方、「猫」の鳴き声は、音声抽出の対象とはならない。このように、ユーザが意図した対象種別「人」の音声が他の音声よりも優先して明瞭に得られる。
FIG. 5B is a graph illustrating voice changes corresponding to FIG. 5A. In FIG. 5B, the horizontal axis indicates time and the vertical axis indicates amplification (or suppression) level. A curve C1 represents the extracted audio, and a curve C0 represents the video audio. When one of the
また、音声処理エンジン170の強調処理部176は、図5(B)の曲線C1に示すように、抽出音声を徐々に緩やかに増大させる。これにより、ユーザにとって強調後の音声が聴き難くなるような急激な音声変化を回避することができる。また、音声処理エンジン170は、強調処理部176による処理の前後で全音量を一定に保つように、抽出音声の増幅と、動画音声の抑圧とを行う。これにより、ユーザにとって強調後の音声をより聴き易くすることができる。また、ユーザは、抽出音声の増幅のレベルを、図5(A)において増幅レベルバー5bで確認することができる。さらに、対象種別マーク5aにより、ユーザは現在の対象種別を確認でき、ユーザの意図に沿った音声強調を実現し易くすることができる。
Further, the
〔1-2-2.動作の詳細〕
以上のような人優先モードにおけるデジタルカメラ100の動作の詳細を、図6~図7を用いて説明する。ユーザは、例えば種別「人」の被写体による音声を明瞭に得たい意図があるときに、デジタルカメラ100の設定メニュー等においてタッチパネルや各種キーなどの操作部150にユーザ操作を入力して、デジタルカメラ100を人優先モードに設定できる。
[1-2-2. Operation details]
Details of the operation of the
図6は、実施の形態1に係るデジタルカメラ100の動作を例示するフローチャートである。図6に示すフローチャートは、例えばデジタルカメラ100が人優先モードに設定された状態で動画の撮影中に実行される。この状態で、表示モニタ130は、コントローラ135の制御により、種別「人」を示す対象種別マーク5a等を表示している。本フローチャートによる各処理は、例えば、デジタルカメラ100のコントローラ135によって実行される。なお、コントローラ135の代わりに、以下の各処理を実行させる機能が音声処理エンジン170に実装されてもよい。
FIG. 6 is a flow chart illustrating the operation of the
まず、コントローラ135は、画像処理エンジン120から検出情報D1を取得して、画像認識部122において種別が「人」の被写体が検出されたか否かを判断する(S1)。コントローラ135は、種別「人」の被写体が検出されるまで、例えば所定の周期でステップS1の判断を繰り返す(S1でNO)。当該周期は、例えば画像処理エンジン120における画像認識部122の動作周期である。
First, the
ステップS1において、音声処理エンジン170は、音声抽出部174(図2)の処理は実行せずに雑音抑圧部172の処理後の音声データA10を生成して、強調処理部176にて特に抑圧せずに(G0=1)、バッファメモリ125に出力する。
In step S1, the
画像認識において種別「人」の被写体が検出されたとき(S1でYES)、コントローラ135は、「人」を対象種別とする音声抽出を開始させるように、音声処理エンジン170を制御する(S2)。コントローラ135は、学習DB45を参照して、対象種別「人」の音声抽出を行うための設定情報を、音声処理エンジン170の音声抽出部174に設定する。また、コントローラ135は、例えば強調処理部176における音声増幅部177のゲインG1を初期値に設定する。ゲインG1の初期値は、ユーザが急激な音量変化とは感じないと想定される値に設定される。
When an object of type "person" is detected in image recognition (YES in S1), the
コントローラ135は、音声処理エンジン170の音声抽出部174において対象種別の音声が抽出されたか否かを判断する(S3)。ステップS3の判断は、例えば、音声抽出部174のCNN処理部175から出力される識別情報の信頼度に基づいて行われる。コントローラ135は、対象とする種別「人」の音声が抽出されたと判断するまで、例えば所定の周期でステップS1の判断を繰り返す(S3でNO)。当該周期は、例えば音声処理エンジン170における音声抽出部174の動作周期である。
The
ステップS2後の音声処理エンジン170においては、音声抽出部174が対象種別の音声を抽出すると逐次、強調処理部176の音声増幅部177が抽出音声を増幅する。この際、音声増幅部177では順次、設定されたゲインG1が用いられる。例えばステップS3において抽出された音声には初期値のゲインG1が適用される。また、強調処理部176の音声減衰部178は、音声増幅部177に設定されたゲインG1に応じて、音量を維持する値のゲインG0を用いる。
In the
コントローラ135は、対象種別「人」の音声が抽出されたと判断したとき(S3でYES)、音声増幅部177のゲインG1を初期値から増大させる(S4)。これにより、次に抽出された音声には、増大されたゲインG1が適用される。ステップS4は、所定ピッチでゲインG1を増やしてもよいし、連続的に増やしてもよい。又、コントローラ135は、ステップS4において、ゲインG1の増大に応じて増幅レベルバー5bが示すレベルを上げるように表示モニタ130を制御する(図5(A),(B)参照)。
When the
次に、コントローラ135は、画像認識部122から検出情報D1を再度取得して、現時点で対象種別「人」の被写体が検出されているか否かを判断する(S5)。ステップS5の判断は、ステップS1と同様に行われる。
Next, the
コントローラ135は、対象種別「人」の被写体が検出されていると判断すると(S5でYES)、現時点で音声抽出部174において対象種別の音声が抽出されたか否かを、ステップS3と同様に判断する(S6)。
When the
対象種別の音声が抽出されている場合(S6でYES)、コントローラ135は、音声増幅部177に設定されたゲインG1が最大値か否かを判断する(S7)。最大値は、例えばユーザにとって抽出音声が充分に強調されていると感じられる程度の値に設定される。設定済みのゲインG1が最大値に到っていない場合(S7でNO)、コントローラ135は再度、音声増幅部177のゲインG1を増大させて(S4)、ステップS5以降の処理を再度行う。これにより、新たに抽出された音声に対してさらに増大されたゲインG1が適用される。
If the target type of sound has been extracted (YES in S6), the
一方、ゲインG1が最大値である場合(S7でYES)、コントローラ135は、ステップS4の処理を行わずに、ステップS5以降の処理を再度行う。これにより、音声処理エンジン170において抽出音声を強調する増幅を、適切なゲインG1で維持することができる。
On the other hand, if the gain G1 is the maximum value (YES in S7), the
また、コントローラ135は、現時点で種別が「人」の被写体が検出されていなかったり(S5でNO)、対象種別の音声が抽出されていなかったりすると(S6でNO)、音声増幅部177のゲインG1を減少させる(S8)。ステップS8の処理は、例えばステップS4と同じピッチで行われる。又、コントローラ135は、ステップS8において、ゲインG1の減少に応じて増幅レベルバー5bが示すレベルを下げるように表示モニタ130を制御する(図7(A),(B)参照)。
In addition, if the
また、コントローラ135は、例えば減少させたゲインG1が最小値であるか否かを判断する(S9)。ゲインG1の最小値は、例えば初期値と同じ値であってもよい。コントローラ135は、ゲインG1が最小値に到っていない場合(S9でNO)、ステップS5以降の処理を再度行う。これにより、その後のステップS6において、音声抽出部174が対象種別の音声を抽出すると、減少させたゲインG1を適用して音声増幅が為される。一方、ゲインG1が最小値に到った場合(S9でYES)、コントローラ135は、音声抽出部174による音声抽出の処理を停止させて(S10)、ステップS1に戻る。
Also, the
以上の処理は、例えばデジタルカメラ100の人優先モードで動画の撮影中に繰り返し、実行される。動画の記録としては、音声処理後の音声データAoutが記録される。
The above processing is repeatedly executed during video shooting in the human-priority mode of the
以上の処理によると、「人」のような特定の種別の画像認識に連動して、音声の抽出と、抽出された音声の増幅とが実行される。 According to the above processing, extraction of voice and amplification of the extracted voice are executed in conjunction with image recognition of a specific type such as "person".
例えば図5(B)の例では、時刻t1前には、種別「人」の被写体が検出されておらず(S1でNO)、音声の抽出及び増幅/抑圧も行われていない。このように、人優先モードであっても画像認識で種別「人」の被写体が検出されていなければ、対象種別についての音声処理を行わないことで、不必要に動画音声を小さくすることを回避できる。 For example, in the example of FIG. 5B, before time t1, no subject of type "person" has been detected (NO in S1), and no sound has been extracted and amplified/suppressed. In this way, even in human-priority mode, if a subject of type "human" is not detected by image recognition, audio processing for the target type is not performed, thereby avoiding unnecessary reduction of video audio. can.
また、画像認識部122において種別「人」の被写体が検出され(S1でYES)、かつ音声抽出部174において象種別の音声が抽出され始めると(S3でYES)、コントローラ135は、音声増幅部177のゲインG1を次第に増大させる(S2~S7)。これにより、図5(B)の時刻t1から抽出音声の強調が緩やかに進み、増幅開始のタイミング前後でもユーザにとって聴き易い音声を得ることができる。
When the
図7は、デジタルカメラ100の人優先モードにおける「人」の移動時の動作例を説明した図である。人優先モードのデジタルカメラ100においては、一人でも種別「人」の画像認識がされている限り、音声抽出が継続する。
7A and 7B are diagrams for explaining an operation example when a "person" moves in the person priority mode of the
図7(A)は、図5(A)の後の表示例を示す。図7(B)は、図7(A)に対応した音声変化を例示する。本例では、人21,22が一人も居なくなっており、画像認識において種別「人」が検出されなくなる(S5でNO)。この際、音声抽出は即座に停止されるのではなく、例えばコントローラ135が音声増幅部177のゲインG1を次第に減少させる(S7,S8)。
FIG. 7A shows a display example after FIG. 5A. FIG. 7B illustrates voice changes corresponding to FIG. 7A. In this example, none of the
図7(C)は、図7(A)の後の表示例を示す。図7(D)は、図7(C)に対応した音声変化を例示する。図7(C)の例では、図7(A)の後に再度、人22が検出されており、音声増幅部177のゲインG1も再度、増大される(S4~S8)。以上のように、人22等の被写体が移動する状況であっても、抽出音声の変化を急激にすることなく、より明瞭な音声を得ることができる。
FIG. 7C shows a display example after FIG. 7A. FIG. 7(D) illustrates voice changes corresponding to FIG. 7(C). In the example of FIG. 7C, the
以上の説明では、対象種別の音声を強調する例を説明したが、これに代えて対象種別の音声が抑制されるようにしてもよい。例えばユーザは、人の音声を抑制したい場合に、上述した人優先モードの代わりの動作モードを選択する。この動作モードでは、例えば、音声処理エンジン170が、図6のフローチャートにおいて音声の増幅と抑圧とを入れ替えた処理を行うことにより、対象種別の音声を抑制できる。これにより、特定の種別の音声を抑制したいというようなユーザの意図に沿った音声の明瞭化を実現することができる。
In the above description, an example of emphasizing the sound of the target type has been described, but instead of this, the sound of the target type may be suppressed. For example, if the user wishes to suppress human speech, the user selects an operating mode instead of the human priority mode described above. In this operation mode, for example, the
以上の説明では、対象種別が種別「人」である場合の動作例を説明したが、他の種別についても同様の動作が可能である。例えば、デジタルカメラ100は、画像認識部122及び音声処理エンジン170に設定可能な複数の種別の各々を対象種別として採用する動作モードを有してもよい。例えば、表示モニタ130において設定メニューに各動作モードの選択肢を表示した状態で操作部150からユーザ操作を入力して、ユーザ所望の対象種別に応じた動作モードが選択されてもよい。
In the above description, an operation example in which the target type is the type "person" has been described, but the same operation is possible for other types as well. For example, the
〔1-3.まとめ〕
以上のように、実施の形態1のデジタルカメラ100は、撮像部の一例としてイメージセンサ115と、音声取得部の一例としてマイク用のA/Dコンバータ165と、検出部の一例として画像認識部122と、音声処理部の一例として音声処理エンジン170と、操作部150とを備える。イメージセンサ115は、被写体像を撮像して画像データを生成する。マイク用のA/Dコンバータ165は、イメージセンサ115による撮像中の音声を示す音声データAinを取得する。画像認識部122は、イメージセンサ115によって生成された画像データに基づいて、被写体とその種別を検出する。音声処理エンジン170は、画像認識部122によって検出された被写体の種別に基づいて、取得された音声データAinを処理する。操作部150は、ユーザによるデジタルカメラ100の各種操作に基づいて、例えば人に関する第1の種別および第1の種別とは異なる第2の種別を含む複数の種別の中から、音声処理エンジン170による処理の対象とする対象種別を設定する。音声処理エンジン170は、画像データにおいて対象種別の被写体が検出されたときに(S1)、取得された音声データAinにおいて対象種別に応じた音声を強調又は抑制するように、音声抽出部174及び強調処理部176で当該音声データAinを処理する(S2~S4)。
[1-3. summary〕
As described above, the
以上のデジタルカメラ100によると、イメージセンサ115による画像データの画像認識においてユーザ所望の対象種別に該当する特定の被写体が検出されたときに、特定の被写体の種別に応じた音声が強調又は抑制された音声データAoutが得られる。これにより、ユーザの意図に沿って特定の被写体による音声を明瞭に得やすくすることができる。
According to the
本実施形態において、デジタルカメラ100は、画像データが示す画像を表示する表示部の一例として表示モニタ130をさらに備える。表示モニタ130は、対象種別を示す対象種別情報の一例である対象種別マーク5aを表示する。これにより、ユーザは、現在の対象種別を確認しながら動作の撮影等を行え、ユーザの意図に沿った被写体の音声取得を実現し易くできる。また、さらに表示モニタ130は、被写体の音声を強調又は抑制するレベルを示す強調レベル情報の一例である増幅レベルバー5bを表示させてもよい。
In this embodiment, the
本実施形態において、デジタルカメラ100は、ユーザの操作を入力する操作部150を備えている。音声処理エンジン170の処理対象となる対象種別は、操作部150におけるユーザの操作に基づき設定される。これにより、ユーザ所望の種別による音声を明瞭に得やすくすることができる。
In this embodiment, the
本実施形態において、デジタルカメラ100は、被写体の種別に応じた動作モードの一例として、種別「人」による人優先モードを有する。操作部150は、デジタルカメラ100の動作モードを選択するユーザの操作に従って、対象種別を設定する。例えば、人優先モードが選択されると対象種別は「人」に設定される。なお、このような動作モードは人優先モードに限らず、例えば種別「人」の代わりに「猫」など各種の動物の種別を優先する動作モードが用いられてもよい。
In this embodiment, the
本実施形態において、音声処理エンジン170は、対象種別に応じた音声を強調する増幅率であるゲインG1を、画像認識部122が当該対象種別の被写体を検出したとき(S2でYES)から次第に増大させる(S3~S7)。これにより、急激な音声変化を回避して、強調された抽出音声をユーザにとって聴き易くすることができる。
In this embodiment, the
本実施形態において、音声処理エンジン170は、画像認識部122が対象種別の被写体を検出した後に対象種別の被写体が検出されなくなったとき(S5でNO)、ゲインG1を次第に減少させる(S8,S9)。これにより、被写体が検出されているか否かによって抽出音声の強調を過度に変化させることを回避し、ユーザにとってより聴き易い音声を得ることができる。
In this embodiment, the
本実施形態において、音声処理エンジン170は、音声抽出部174及び強調処理部176において、対象種別に応じた音声を強調する処理前の音声データA10と処理後の音声データAoutとの間において音量を維持するように、音声減衰部178に入力された音声データA10を処理する。これにより、音声処理の前後で音量を変えないようにして、ユーザがより聴き易い音声を得られる。
In the present embodiment, the
本実施形態において、デジタルカメラ100は、音を収音する収音部の一例としてマイク160をさらに備える。マイク用のA/Dコンバータ165は、マイク160の収音結果を示す音声データAinを取得する。なお、マイク160は、デジタルカメラ100内蔵に限らず、外部構成であってもよい。外部のマイク160を用いる場合であっても、収音結果の音声データを取得して、音声処理エンジン170の音声処理を、画像認識部122による検出結果に応じて行うことにより、デジタルカメラ100にて特定の種別の被写体による音声を明瞭に得ることができる。
In this embodiment, the
本実施形態のデジタルカメラ100は、イメージセンサ115(撮像部)と、マイク用のA/Dコンバータ165(音声取得部)と、画像認識部122(検出部)と、表示モニタ130(表示部)と、音声処理エンジン170(音声処理部)と、操作部150(操作部)と、コントローラ135(制御部)とを備える。本実施形態の操作部は、ユーザによる自装置の設定メニュー等の操作に基づいて、複数の種別の中から、音声処理部による処理の対象とする対象種別を設定する。制御部は、対象種別を示す対象種別情報の一例として対象種別マーク5aを表示部に表示させる。これによっても、ユーザは、現在の対象種別を確認しながら動作の撮影等を行え、ユーザの意図に沿って被写体による音声を明瞭に得ることを行い易くできる。
The
(実施の形態2)
以下、図8~図12を用いて実施の形態2を説明する。実施の形態1では、デジタルカメラ100の人優先モードの動作例を説明したが、実施の形態2では、フォーカス優先モードの動作例を説明する。フォーカス優先モードは、デジタルカメラ100においてフォーカス対象として選択された被写体の種別を優先して、音声抽出を実行する動作モードである。
(Embodiment 2)
Embodiment 2 will be described below with reference to FIGS. 8 to 12. FIG. Embodiment 1 describes an operation example of the
以下、実施の形態1に係るデジタルカメラ100と同様の構成および動作の説明は適宜、省略して、本実施形態に係るデジタルカメラ100について説明する。
Hereinafter, the
〔2-1.フォーカス優先モードについて〕
図8は、デジタルカメラ100のフォーカス優先モードの概要を説明するための図である。本実施形態のデジタルカメラ100では、例えば表示モニタ130のスルー画像に被写体が映っている状態で、タッチパネルやキーなどの操作部150におけるユーザ操作により、フォーカス対象の被写体を選択可能である。
[2-1. About focus priority mode]
FIG. 8 is a diagram for explaining the outline of the focus priority mode of the
図8(A)は、フォーカス選択前の表示例を示す。図8(B)は、図8(A)に対応した音声変化を例示する。図8(C)は、フォーカス選択後の表示例を示す。図8(D)は、図8(B)に対応した音声変化を例示する。 FIG. 8A shows a display example before focus selection. FIG. 8(B) illustrates voice changes corresponding to FIG. 8(A). FIG. 8C shows a display example after focus selection. FIG. 8(D) illustrates voice changes corresponding to FIG. 8(B).
図8(A)の表示例では、実施形態1と同様の画像認識部122により、猫20と二人の人21,22とによる三つの被写体が検出されている。例えば、ユーザは、表示モニタ130において検出領域R1に対応する各被写体の周りの表示枠を視認して、フォーカス対象の被写体を選択できる。フォーカス対象の選択前には、特に音声抽出は行われず、図8(B)の曲線C0に示すように動画音声が得られる。
In the display example of FIG. 8A, three subjects, a
図8(C)の表示例は、図8(A)の状態から一方の人21がフォーカス対象として選択された例を示す。表示モニタ130は、選択された人21の周りに、他の被写体20,22の表示枠とは別の表示態様で、フォーカス対象の表示枠F1を表示させる。また、レンズ駆動部112は、表示枠F1内の被写体に合焦するように、光学系110のフォーカスレンズを駆動する。
The display example of FIG. 8(C) shows an example in which one
図8(D)に示すように、本実施形態の音声処理エンジン170は、以上のような動作に連動して、フォーカス対象の被写体の種別に応じた音声を強調するための音声処理を行う。なお、本実施形態の音声処理エンジン170は、例えば音声抽出部174及び強調処理部176において複数種別の抽出音声を並列して処理可能に構成される。
As shown in FIG. 8D, the
〔2-2.動作の詳細〕
以上のようなフォーカス優先モードにおけるデジタルカメラ100の動作の詳細を、図9~図12を用いて説明する。図9,10は、本実施形態に係るデジタルカメラ100の動作を例示するフローチャートである。以下では、人優先モードの動作(図6)と同様の説明は適宜、省略する。
[2-2. Operation details]
Details of the operation of the
フォーカス優先モードのデジタルカメラ100において、コントローラ135は、図6のステップS1の代わりに、画像認識部122による検出情報D1に基づいて、画像認識で検出された被写体があるか否かを判断する(S1A)。検出された被写体がある場合(S1AでYES)、コントローラ135は、操作部150におけるユーザ操作によって、フォーカス対象の被写体が選択されたか否かを判断する(S1B)。
In the
フォーカス対象の被写体が選択されると(S1BでYES)、コントローラ135は、選択された被写体の種別を対象種別として、図6のステップS2と同様に音声処理エンジン170に音声抽出を開始させる(S2A)。このとき、コントローラ135は、対象種別マーク5aが、選択された被写体の種別を示すように音声抽出アイコン5を表示モニタ130に表示させる(図8(C)参照)。又、増幅レベルバー5bの表示は、その後のステップS4,S8において実施形態1と同様にコントローラ135によってゲインG1に対応するように制御される。
When the subject to be focused is selected (YES in S1B), the
また、音声処理エンジン170による抽出音声の増幅(S3,S4)の後、コントローラ135は、図6のステップS5の代わりに、操作部150においてフォーカス対象の被写体を変更するユーザ操作が行われたか否かを判断する(S5A)。
Further, after the
フォーカス対象の変更がない場合(S5AでNO)、コントローラ135は、画像認識部122から再度、検出情報D1を取得して、フォーカス対象に選択された被写体が、現時点で検出されているか否かを判断する(S5B)。現時点の画像認識においてフォーカス対象の被写体が検出されていれば(S5BでYES)、コントローラ135は、ステップS6以降の処理を実施の形態1と同様に行う。フォーカス対象の被写体が移動する場合の動作例を、図11に例示する。
If there is no change in the focus target (NO in S5A), the
図11(A)は、図8(C)の後の表示例を示す。図11(B)は、図11(A)に対応した音声変化を例示する。図11(A)の例では、図8(C)でフォーカス対象として選択された人21が移動して、表示モニタ130の画像に映らなくなっている。画像認識部122では、他の被写体20,22は検出されるものの、フォーカス対象として選択された人21は検出されなくなる。このように、フォーカス対象の被写体が検出されなくなると(S5BでNO)、例えば図11(B)の曲線C1に示すように、コントローラ135は抽出音声のゲインG1を減らす(S8)。
FIG. 11A shows a display example after FIG. 8C. FIG. 11(B) illustrates voice changes corresponding to FIG. 11(A). In the example of FIG. 11A, the
また、フォーカス対象を変更するユーザ操作があった場合(S5AでYES)の動作例を、図12に例示する。図12(A)は、図11(A)の後の表示例を示す。図12(B)は、図12(A)に対応した音声変化を例示する。図12(B)のグラフは、種別「猫」の抽出音声を示す曲線C2をさらに含む。ステップS5Aにおいて、コントローラ135は、例えばフォーカス対象の被写体の種別が変化した場合に「YES」に進む一方、変更前後でフォーカス対象の種別が変わらない場合は「NO」に進んでもよい。
FIG. 12 illustrates an operation example when there is a user operation to change the focus target (YES in S5A). FIG. 12A shows a display example after FIG. 11A. FIG. 12(B) illustrates voice changes corresponding to FIG. 12(A). The graph of FIG. 12(B) further includes a curve C2 representing extracted speech of type "cat". In step S5A, the
図12(A)の例では、猫20が新たなフォーカス対象として選択されており、種別「猫」の対象種別マーク5aが表示されている。フォーカス対象の種別の変更がある場合(S5AでYES)、コントローラ135は、例えば図10に示すように、変更後のフォーカス対象の画像認識があるか否かを判断する(S20)。コントローラ135は、フォーカス対象の画像認識がある場合(S20でYES)、当該フォーカス対象の種別を対象種別として、音声処理エンジン170による音声抽出をステップS2Aと同様に開始させる(S21)。このとき、コントローラ135は、例えば図11(A)で表示した対象種別マーク5aを、図12(A)に示すように、新たな対象種別を示すよう更新する。
In the example of FIG. 12A, the
コントローラ135は、音声抽出部174において、変更後の対象種別の音声が抽出されたか否かを、ステップS3と同様に判断する(S22)。例えば図12(B)に示すように、猫20の鳴き声が発したときに種別「猫」の抽出音声が得られ、次第に増大される。このとき、変更前のフォーカス対象についての音声抽出は、即座には停止されない。
The
以下、変更後の対象種別についての抽出音声のゲインを「G1a」と記し、変更前の対象種別についての抽出音声のゲインを「G1b」と記す。変更後の対象種別の音声が抽出されると(S22でYES)、変更後の対象種別のゲインG1aを増やし(S23)、変更前の対象種別のゲインG1bを減らす(S24)。また、動画音声のゲインG0は適宜、処理前後の音量が維持されるように、各ゲインG1a,G1bに応じて設定される。増幅レベルバー5bは、例えば変更後のゲインG1bに対応するように、コントローラ135によって制御される。
Hereinafter, the gain of the extracted voice for the target type after the change is referred to as "G1a", and the gain of the extracted voice for the target type before the change is referred to as "G1b". When the voice of the target type after change is extracted (YES in S22), the gain G1a of the target type after change is increased (S23), and the gain G1b of the target type before change is decreased (S24). Also, the gain G0 of the moving image sound is appropriately set according to the respective gains G1a and G1b so that the volume before and after the processing is maintained. The
コントローラ135は、変更前の対象種別のゲインG1bが最小値に到るまで(S25)、ステップS22~S25の処理を繰り返す(S25でNO)。コントローラ135は、当該ゲインG1bが最小値に到ると(S25でYES)、変更前の対象種別についての音声抽出を停止して(S26)、例えば図9のステップS5Aに戻る。
The
また、コントローラ135は、フォーカス対象の画像認識がない場合(S20でNO)、ステップS8に進む。これにより、画像認識および音声抽出の対象外の領域にフォーカスを合わすユーザの操作があった場合にも対処することができる。
If the
以上の処理によると、画像認識に加えてユーザによるフォーカス対象の選択に連動して、特定の被写体の音声を強調する音声処理を実現することができる。フォーカス対象を変更するユーザ操作があった場合(S5AでYES)の更なる動作例を、図12に例示する。図12(C)は、図12(A)の後の表示例を示す。図12(D)は、図12(C)に対応した音声変化を例示する。 According to the above processing, in addition to image recognition, it is possible to realize voice processing that emphasizes the voice of a specific subject in conjunction with the user's selection of a focus target. FIG. 12 illustrates another operation example when there is a user operation to change the focus target (YES in S5A). FIG. 12(C) shows a display example after FIG. 12(A). FIG. 12(D) illustrates voice changes corresponding to FIG. 12(C).
図12(C)の例では、フォーカス対象が、猫20から人22に切り替えられている。このように、音声抽出の対象種別であった猫20が、画像認識において継続的に検出されていても(S5BでYES)、ユーザの操作によってフォーカス対象が人22に切り替えられると(S5AでYES)、フォーカスに連動して「人」を対象種別とする音声抽出が開始される(S21)。また、この際の音声変化も、図12(D)に示すように緩やかに行われ、ユーザにとって聴きやすい音声を得ることができる。
In the example of FIG. 12C, the focus target is switched from
上記のステップS1B,S5Aにおいて、フォーカス対象の被写体を選択するユーザ操作としては、例えば表示モニタ130における被写体20~22毎の検出領域R1について、タッチパネルのタッチ操作、或いは各種キーによる選択操作が挙げられる。この他にも、デジタルカメラ100が自動的にデフォルトのフォーカス対象を選択する機能を利用したユーザ操作であってもよい。
In steps S1B and S5A described above, the user operation for selecting the subject to be focused includes, for example, a touch operation on a touch panel or a selection operation using various keys for the detection area R1 of each of the
例えば、デジタルカメラ100のコントローラ135は、画像認識部122の検出情報D1に基づいて、画像全体における中央に位置したり、比較的大きく映っていたりする被写体をデフォルトのフォーカス対象に自動で選択してもよい。このような自動選択の機能を利用して、ユーザは、デジタルカメラ100を向ける方向を変えたり、ズーム値を変えたりする各種の操作を行うことにより、所望の被写体をデジタルカメラ100にフォーカス対象として選択させることができる。こうした選択の結果は、例えばフォーカス対象の表示枠F1の表示態様によって確認できる。この場合のステップS1B,S5Aでも、デジタルカメラ100では上記と同様に、フォーカス対象として選択された被写体の種別が、対象種別として設定できる。以上のようなユーザ操作に利用されるデジタルカメラ100の各部は、本実施形態における操作部の一例である。
For example, the
〔2-3.まとめ〕
以上のように、実施の形態2のデジタルカメラ100において、表示モニタ130は、画像認識部122による被写体の検出結果を示す情報をさらに表示する。本実施形態のデジタルカメラ100における操作部は、表示モニタ130によって表示された情報に基づきデジタルカメラ100におけるフォーカスの対象とする被写体を指定するユーザの操作に従って、対象種別を設定する。これにより、ユーザの操作に従い音声抽出の対象種別を動的に設定して、ユーザ所望の種別についての音声を明瞭に得ることができる。
[2-3. summary〕
As described above, in the
又、本実施形態においてデジタルカメラ100(撮像装置)は、イメージセンサ115(撮像部)と、マイク用のA/Dコンバータ165(音声取得部)と、画像認識部122(検出部)と、表示モニタ130(表示部)と、音声処理エンジン170(音声処理部)と、操作部150(操作部)と、コントローラ135(制御部)とを備える。本実施形態の操作部は、ユーザによる自装置の操作に基づいて、検出部によって検出された被写体の中から、画像におけるフォーカス対象の被写体を選択してもよい(S1B)。音声処理部は、操作部によって選択された被写体の種別に基づいて、音声取得部によって取得された音声データを処理する(S2A~S10)。制御部は、音声処理部による処理の対象とする対象種別としてフォーカス対象の被写体の種別を示す対象種別情報の一例として対象種別マーク5aを表示部に表示させる(S2A,図8(C)等)。これにより、ユーザは、現在の対象種別を確認しながら動作の撮影等を行え、ユーザの意図に沿って被写体による音声を明瞭に得ることを行い易くできる。
In this embodiment, the digital camera 100 (imaging device) includes an image sensor 115 (imaging unit), an A/
本実施形態において、制御部は、表示部にさらに、音声処理部が選択された被写体の音声を強調又は抑制するレベルを示す強調レベル情報の一例として増幅レベルバー5bを表示させる(S4,S8,図8(C)等)。これにより、ユーザは、動画等の撮影中に得られる音声が強調または抑制される程度を確認でき、ユーザの意図に沿った音声取得を行い易くできる。
In this embodiment, the control unit further causes the display unit to display the
本実施形態において、フォーカス対象の被写体が変更される際に変更前後の被写体の種別が異なった場合(S5BでYES)、制御部は、変更後の種別を対象種別として示すように対象種別情報を更新して表示部に表示させてもよい(S21,図12(A),(C)等)。これにより、ユーザは、撮影中に動的に変化する対象種別を確認でき、ユーザの意図に沿った被写体の音声取得を行い易くできる。 In this embodiment, when the type of the subject before and after the change is different when the subject to be focused is changed (YES in S5B), the control unit stores the target type information so as to indicate the type after the change as the target type. It may be updated and displayed on the display unit (S21, FIGS. 12A and 12C, etc.). As a result, the user can confirm the subject type that dynamically changes during shooting, and can easily acquire the voice of the subject in accordance with the user's intention.
(実施の形態3)
以下、図13~図14を用いて実施の形態3を説明する。実施の形態1,2のデジタルカメラ100は、画像認識に連動して特定の種別の音声抽出を行った。実施の形態3では、さらに、画像認識に連動して収音の指向性を制御するデジタルカメラについて説明する。
(Embodiment 3)
Embodiment 3 will be described below with reference to FIGS. 13 and 14. FIG. The
以下、実施の形態1,2に係るデジタルカメラ100と同様の構成および動作の説明は適宜、省略して、本実施形態に係るデジタルカメラについて説明する。
Hereinafter, the digital camera according to the present embodiment will be described, omitting the description of the same configuration and operation as those of the
〔3-1.構成〕
図13は、実施の形態3に係るデジタルカメラ100Aの構成を示す図である。本実施形態のデジタルカメラ100Aは、実施の形態1,2のデジタルカメラ100と同様の構成において、複数のマイク160Aを備え、さらにビーム形成部162を備え、収音される音声の指向性を生成する。本実施形態のマイク160Aは、例えば3個又はそれ以上のマイクロフォン素子を含み、素子間で互いに位置決めして配置される。
[3-1. composition〕
FIG. 13 is a diagram showing the configuration of a
ビーム形成部162は、例えばマイク160Aの各素子の遅延期間を調整する回路であり、マイク160Aで収音された音声を、所望の向き及び幅に形成する。ビーム形成部162によると、マイク160Aが収音する物理的な範囲を設定できる。ビーム形成部162は、マイク160A又はA/Dコンバータ165と一体的に構成されてもよいし、ビーム形成部162の機能が音声処理エンジン170に実装されてもよい。
The
〔3-2.動作〕
図14は、実施の形態3に係るデジタルカメラ100Aの動作を例示するフローチャートである。本実施形態のデジタルカメラ100Aにおいて、コントローラ135は、実施の形態1,2と同様の処理に加えて、画像認識部122による検出情報D1に基づきマイク160Aの収音範囲を可変するビーム形成部162を制御する(S30,S31)。図14では、フォーカス優先モード(図9)において収音範囲が動的に設定される動作例を説明する。
[3-2. motion〕
FIG. 14 is a flow chart illustrating the operation of the
コントローラ135は、例えばフォーカス対象の被写体が選択されると(S1BでYES)、そのときの画像認識部122の検出情報D1に基づいて、マイク160Aが当該被写体の方向からの音を収音するようにビーム形成部162を制御する(S30)。ビーム形成部162は、検出情報D1における特定の被写体の検出領域R1の位置およびサイズに応じて、マイク160Aのビームを形成する。これにより、画像認識に応じた収音範囲においてマイク160Aの収音が行われ、当該収音範囲の音声データに対して対象種別の音声抽出が適用される(S2A)。
For example, when a subject to be focused is selected (YES in S1B), the
また、コントローラ135は、フォーカス対象の画像認識が継続している場合(S5BでYES)も逐次、ステップS30と同様にビーム形成部162を制御してマイク160Aの収音範囲を動的に設定する(S31)。これにより、例えばフォーカス対象の被写体が移動したり、別の被写体に変更されたりすることに応じて、マイク160Aの収音範囲が変更される。
Also, when the image recognition of the focus target is continued (YES in S5B), the
以上の処理によると、画像認識部122の検出結果に応じてマイク160Aの収音範囲がフォーカス対象の被写体に向けられ、当該被写体からの音声をより明瞭に得ることができる。以上の説明では、ビーム形成部162によるマイク160Aの収音範囲の制御が、フォーカス優先モードで行われる例を説明したが、特にこれに限らず、人優先モードなど他の動作モードで行われてもよい。
According to the above processing, the sound pickup range of the
〔3-3.まとめ〕
以上のように、実施の形態3のデジタルカメラ100Aは、ビーム形成部162をさらに備える。ビーム形成部162は、画像認識部122の検出結果に応じてマイク160Aが収音する範囲を変更する。これにより、画像認識部122に検出された被写体からの音声をより明瞭に得ることができる。
[3-3. summary〕
As described above,
(他の実施の形態)
以上のように、本出願において開示する技術の例示として、実施の形態1~3を説明した。しかしながら、本開示における技術は、これに限定されず、適宜、変更、置き換え、付加、省略などを行った実施の形態にも適用可能である。また、上記実施の形態1で説明した各構成要素を組み合わせて、新たな実施の形態とすることも可能である。
(Other embodiments)
As described above, Embodiments 1 to 3 have been described as examples of the technology disclosed in the present application. However, the technology in the present disclosure is not limited to this, and can be applied to embodiments in which modifications, replacements, additions, omissions, etc. are made as appropriate. Also, it is possible to combine the constituent elements described in the first embodiment to form a new embodiment.
上記の実施の形態1,2では、デジタルカメラ100の人優先モード及びフォーカス優先モードについて説明した。このような動作モードは、操作部150におけるユーザの操作によって設定可能であり、例えばデジタルカメラ100は表示モニタ130にメニュー画面を表示し、上記の動作モードを選択可能に構成されてもよい。
In the above first and second embodiments, the human-priority mode and focus-priority mode of the
上記の各実施形態においては、第1の種別の一例として種別「人」、及び第2の種別の一例として種別「猫」を例示したが、第1及び第2の種別は上記に限らず、様々な種別であってもよい。例えば、第2の種別は、「猫」に限らず「犬」或いは「鳥」など各種の動物であってもよいし、人以外の各種の動物を含む種別「動物」であってもよい。また、人又は動物に限らず、例えば列車或いは楽器といった特有の音を有する物体が、適宜種別に採用されてもよい。こうした物体からの音は、例えば背景音として強調/抑制の対象とされ得る。さらに、第1の種別は不特定の「人」に限らず、例えば特定の個人であってもよい。この場合、第2の種別は、第1の種別と異なる個人であってもよい。 In each of the above embodiments, the type "person" is used as an example of the first type, and the type "cat" is used as an example of the second type, but the first and second types are not limited to the above. It may be of various types. For example, the second type may be not only "cat" but also various animals such as "dog" or "bird", or may be the type "animal" including various animals other than humans. In addition, not only people or animals, but also objects having unique sounds such as trains or musical instruments may be appropriately adopted as types. Sounds from such objects may be targeted for enhancement/suppression, for example as background sounds. Furthermore, the first type is not limited to an unspecified "person", and may be, for example, a specific individual. In this case, the second type may be an individual different from the first type.
すなわち、本実施形態において、第1及び第2の種別は、それぞれ人、人以外の動物、および背景音を有する物体のうちの何れかに関する種々の種別に設定されてもよい。また、デジタルカメラ100に設定される複数の種別は、第1及び第2の種別以外の種別をさらに含んでもよい。
That is, in the present embodiment, the first and second types may be set to various types related to any one of humans, animals other than humans, and objects having background sounds. Also, the plurality of types set in the
以上のような様々な種別であっても、例えば機械学習において各々の種別に応じた画像と音声の学習用のデータセットを用意することにより、上記各実施形態と同様の動作が実現可能である。又、こうした様々な種別であっても、画像認識部122と音声処理エンジン170とに設定する種別を互い対応付けることにより、上記各実施形態と同様に、画像認識部122に連動して音声処理エンジン170で所望の種別の音声を強調/抑制できる。なお、画像認識部122と音声処理エンジン170とに設定される種別は必ずしも同一でなくてもよく、例えば画像認識部122に設定される種別が、音声処理エンジン170に設定される種別よりも細分化されていてもよい。又、画像認識部122に設定される種別の中に、特に音声処理の対象種別とせず、音声処理エンジン170に設定されない種別が含まれてもよい。
Even with various types as described above, for example, by preparing data sets for image and sound learning according to each type in machine learning, the same operation as in each of the above embodiments can be realized. . Moreover, even with such various types, by associating the types set in the
上記の各実施形態において、対象種別情報の一例として対象種別マーク5aを例示し、強調レベル情報の一例として増幅レベルバー5bを例示した。本実施形態において、対象種別情報は、対象種別マーク5aに限らず、例えば対象種別の名称などの文字情報であってもよいし、サムネイル等の画像であってもよい。また、強調レベル情報も、増幅レベルバー5bに限らず、例えば強調または抑制のレベルを示す数字等の文字情報であってもよいし、円グラフ等のグラフであってもよい。また、対象種別情報と強調レベル情報とは、それぞれ独立したアイコンとして表示されてもよい。
In each of the above-described embodiments, the
上記の各実施形態において、画像認識部122を備えるデジタルカメラ100を説明した。本実施形態において、画像認識部122は、外部サーバに設けられてもよい。この場合、デジタルカメラ100は、通信モジュール155を介して、外部サーバに撮像画像の画像データを送信し、外部サーバから画像認識部122による処理結果の検出情報D1を受信してもよい。このようなデジタルカメラ100においては、通信モジュール155が検出部として機能する。また、例えば音声抽出部174など音声処理エンジン170の機能についても、上記と同様に外部サーバで行われてもよい。
The
また、上記の各実施形態では、光学系110及びレンズ駆動部112を備えるデジタルカメラ100を例示した。本実施形態の撮像装置は、光学系110及びレンズ駆動部112を備えなくてもよく、例えば交換レンズ式のカメラであってもよい。
Further, in each of the above embodiments, the
また、上記の各実施形態では、撮像装置の例としてデジタルカメラを説明したが、これに限定されない。本開示の撮像装置は、画像撮影機能を有する電子機器(例えば、ビデオカメラ、スマートフォン、タブレット端末等)であればよい。 Also, in each of the above embodiments, a digital camera was described as an example of an imaging device, but the present invention is not limited to this. The imaging device of the present disclosure may be an electronic device (for example, a video camera, a smart phone, a tablet terminal, etc.) having an image capturing function.
以上のように、本開示における技術の例示として、実施の形態を説明した。そのために、添付図面および詳細な説明を提供した。 As described above, the embodiment has been described as an example of the technique of the present disclosure. To that end, the accompanying drawings and detailed description have been provided.
したがって、添付図面および詳細な説明に記載された構成要素の中には、課題解決のために必須な構成要素だけでなく、上記技術を例示するために、課題解決のためには必須でない構成要素も含まれ得る。そのため、それらの必須ではない構成要素が添付図面や詳細な説明に記載されていることをもって、直ちに、それらの必須ではない構成要素が必須であるとの認定をするべきではない。 Therefore, among the components described in the attached drawings and detailed description, there are not only components essential for solving the problem, but also components not essential for solving the problem in order to illustrate the above technology. can also be included. Therefore, it should not be immediately recognized that those non-essential components are essential just because they are described in the attached drawings and detailed description.
また、上述の実施の形態は、本開示における技術を例示するためのものであるから、特許請求の範囲またはその均等の範囲において種々の変更、置き換え、付加、省略などを行うことができる。 In addition, the above-described embodiments are intended to illustrate the technology of the present disclosure, and various modifications, replacements, additions, omissions, etc. can be made within the scope of the claims or equivalents thereof.
本開示は、音声を取得しながら撮像を行う撮像装置に適用可能である。 The present disclosure is applicable to an imaging device that captures an image while acquiring sound.
100,100A デジタルカメラ
115 イメージセンサ
120 画像処理エンジン
122 画像認識部
130 表示モニタ
135 コントローラ
150 操作部
160,160A マイク
162 ビーム形成部
165 マイク用のA/Dコンバータ
170 音声処理エンジン
172 雑音抑圧部
174 音声抽出部
176 強調処理部
100,
Claims (11)
前記撮像部による撮像中の音声を示す音声データを取得する音声取得部と、
前記撮像部によって生成された画像データに基づいて、被写体とその種別を検出する検出部と、
前記検出部によって検出された被写体の種別に基づいて、前記音声取得部によって取得された音声データを処理する音声処理部と、
ユーザによる自装置の操作に基づいて、人物を示す第1の種別および前記人物以外の被写体を示す第2の種別を含む複数の種別の中から、前記音声処理部による処理の対象とする対象種別を設定する操作部と、
前記画像データが示す画像及び前記検出部による被写体の検出結果を示す情報を表示する表示部とを備え、
前記操作部は、動画撮影時において前記表示部によって表示された情報に基づき自装置におけるフォーカスの対象とする被写体を指定するユーザ操作に従って、前記ユーザ操作により前記フォーカスの対象として指定された被写体の種別を前記対象種別に設定し、
前記音声処理部は、前記画像データにおいて前記対象種別の被写体が検出されたときに取得された音声データにおいて前記対象種別に応じた音声を強調又は抑制するように、当該音声データを処理する
撮像装置。 an imaging unit that captures an image of a subject and generates image data;
an audio acquisition unit that acquires audio data representing audio being captured by the imaging unit;
a detection unit that detects a subject and its type based on the image data generated by the imaging unit;
an audio processing unit that processes the audio data acquired by the audio acquisition unit based on the type of subject detected by the detection unit;
A target type to be processed by the audio processing unit from among a plurality of types including a first type indicating a person and a second type indicating a subject other than the person based on the user's operation of the device. an operation unit for setting the
a display unit for displaying an image indicated by the image data and information indicating a subject detection result by the detection unit;
The operation unit follows a user operation of designating a subject to be focused in the device based on information displayed by the display unit when shooting a moving image, and the type of the subject designated as the focus target by the user operation. is set as the target type,
The audio processing unit is an imaging device that processes audio data acquired when a subject of the target type is detected in the image data so as to emphasize or suppress audio corresponding to the target type in the audio data. .
前記撮像部による撮像中の音声を示す音声データを取得する音声取得部と、
前記撮像部によって生成された画像データに基づいて、被写体とその種別を検出する検出部と、
前記検出部によって検出された被写体の種別に基づいて、前記音声取得部によって取得された音声データを処理する音声処理部と、
ユーザによる自装置の操作に基づいて、第1の種別および前記第1の種別とは異なる第2の種別を含む複数の種別の中から、前記音声処理部による処理の対象とする対象種別を設定する操作部とを備えた撮像装置であって、
前記撮像装置は、前記被写体の種別に応じた動作モードを有し、
前記操作部は、前記撮像装置の動作モードを選択するユーザの操作に従って、前記対象種別を設定し、
前記音声処理部は、前記検出部によって前記対象種別とは別の種別の被写体が検出されたときに当該種別の音声を強調せず、前記画像データにおいて前記対象種別の被写体が検出されたときに取得された音声データにおいて前記対象種別に応じた音声を強調又は抑制するように、当該音声データを処理する
撮像装置。 an imaging unit that captures an image of a subject and generates image data;
an audio acquisition unit that acquires audio data representing audio being captured by the imaging unit;
a detection unit that detects a subject and its type based on the image data generated by the imaging unit;
an audio processing unit that processes the audio data acquired by the audio acquisition unit based on the type of subject detected by the detection unit;
A target type to be processed by the audio processing unit is set from among a plurality of types including a first type and a second type different from the first type based on the operation of the device by the user. An imaging device comprising an operation unit for
The imaging device has an operation mode according to the type of the subject,
The operation unit sets the target type according to a user's operation for selecting an operation mode of the imaging device,
The sound processing unit does not emphasize the sound of the type when a subject of a type different from the target type is detected by the detection unit, and when the subject of the target type is detected in the image data, An imaging device that processes acquired audio data so as to emphasize or suppress the audio corresponding to the target type in the acquired audio data.
請求項1に記載の撮像装置。 The imaging apparatus according to claim 1, wherein the display unit displays target type information indicating the target type.
請求項1又は2に記載の撮像装置。 3. The imaging apparatus according to claim 1, wherein the first and second types are set to types related to any one of humans, animals other than humans, and objects having background sounds, respectively.
請求項1又は2に記載の撮像装置。 3. The imaging apparatus according to claim 1, wherein the sound processing section gradually increases an amplification factor for emphasizing the sound corresponding to the target type from when the detection section detects a subject of the target type.
請求項5に記載の撮像装置。 6. The imaging apparatus according to claim 5, wherein the sound processing unit gradually decreases the amplification factor when the object of the target type is no longer detected after the detection unit detects the object of the target type.
前記音声取得部は、前記収音部の収音結果を示す音声データを取得する
請求項1又は2に記載の撮像装置。 Equipped with a sound pickup part that collects sound,
3. The imaging apparatus according to claim 1, wherein the sound acquisition unit acquires sound data indicating a result of sound pickup by the sound pickup unit.
請求項7に記載の撮像装置。 8. The imaging apparatus according to claim 7, further comprising a beam forming section that changes a range of sound picked up by said sound pickup section according to a detection result of said detection section.
前記撮像部による撮像中の音声を示す音声データを取得する音声取得部と、
前記撮像部によって生成された画像データに基づいて、被写体とその種別を検出する検出部と、
前記画像データが示す画像を表示する表示部と、
ユーザによる自装置の操作に基づいて、前記検出部によって検出された被写体の中から、前記画像におけるフォーカス対象の被写体を選択する操作部と、
前記操作部によって選択された被写体の種別に基づいて、前記音声取得部によって取得された音声データにおいて音声を強調又は抑制するように音声データを処理する音声処理部と、
前記音声処理部による処理の対象とする対象種別を示す対象種別情報を前記表示部に表示させる制御部とを備え、
前記制御部は、前記対象種別情報が、前記操作部においてユーザ操作により前記フォーカス対象に選択された被写体の種別を前記対象種別として示すように、前記表示部を制御する
撮像装置。 an imaging unit that captures an image of a subject and generates image data;
an audio acquisition unit that acquires audio data representing audio being captured by the imaging unit;
a detection unit that detects a subject and its type based on the image data generated by the imaging unit;
a display unit that displays an image indicated by the image data;
an operation unit that selects a subject to be focused in the image from subjects detected by the detection unit based on a user's operation of the device;
an audio processing unit that processes audio data so as to emphasize or suppress audio in the audio data acquired by the audio acquisition unit based on the type of subject selected by the operation unit;
a control unit that causes the display unit to display target type information indicating a target type to be processed by the audio processing unit;
The control unit controls the display unit such that the target type information indicates, as the target type, the type of the subject selected as the focus target by user operation on the operation unit.
請求項9に記載の撮像装置。 10. The imaging apparatus according to claim 9, wherein the control section further causes the display section to display emphasis level information indicating a level at which the sound processing section emphasizes or suppresses the sound of the selected subject.
請求項9又は10に記載の撮像装置。 When the type of the subject before and after the change is different when the subject to be focused is changed, the control unit updates the target type information so as to indicate the type after the change as the target type, and the display unit 11. The imaging device according to claim 9 or 10, wherein the image is displayed on the .
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/814,666 US11463615B2 (en) | 2019-03-13 | 2020-03-10 | Imaging apparatus |
EP20162359.2A EP3709215A1 (en) | 2019-03-13 | 2020-03-11 | Imaging apparatus |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019046330 | 2019-03-13 | ||
JP2019046330 | 2019-03-13 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020156076A JP2020156076A (en) | 2020-09-24 |
JP7217471B2 true JP7217471B2 (en) | 2023-02-03 |
Family
ID=72560029
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019222866A Active JP7217471B2 (en) | 2019-03-13 | 2019-12-10 | Imaging device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7217471B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023228713A1 (en) * | 2022-05-25 | 2023-11-30 | ソニーグループ株式会社 | Sound processing device and method, information processing device, and program |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010245695A (en) | 2009-04-02 | 2010-10-28 | Nikon Corp | Imaging apparatus |
JP2011101110A (en) | 2009-11-04 | 2011-05-19 | Ricoh Co Ltd | Imaging apparatus |
JP2011160044A (en) | 2010-01-29 | 2011-08-18 | Sanyo Electric Co Ltd | Imaging device |
JP2011254400A (en) | 2010-06-03 | 2011-12-15 | Olympus Imaging Corp | Image and voice recording device |
WO2013146893A1 (en) | 2012-03-28 | 2013-10-03 | 株式会社ニコン | Digital camera |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009065587A (en) * | 2007-09-10 | 2009-03-26 | Sanyo Electric Co Ltd | Voice-recording device and voice-reproducing device |
EP2680615B1 (en) * | 2012-06-25 | 2018-08-08 | LG Electronics Inc. | Mobile terminal and audio zooming method thereof |
-
2019
- 2019-12-10 JP JP2019222866A patent/JP7217471B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010245695A (en) | 2009-04-02 | 2010-10-28 | Nikon Corp | Imaging apparatus |
JP2011101110A (en) | 2009-11-04 | 2011-05-19 | Ricoh Co Ltd | Imaging apparatus |
JP2011160044A (en) | 2010-01-29 | 2011-08-18 | Sanyo Electric Co Ltd | Imaging device |
JP2011254400A (en) | 2010-06-03 | 2011-12-15 | Olympus Imaging Corp | Image and voice recording device |
WO2013146893A1 (en) | 2012-03-28 | 2013-10-03 | 株式会社ニコン | Digital camera |
Also Published As
Publication number | Publication date |
---|---|
JP2020156076A (en) | 2020-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6464449B2 (en) | Sound source separation apparatus and sound source separation method | |
CN101378455B (en) | Apparatus to specify image region of main subject from obtained image, and method to specify image region of main subject from obtained image | |
JP6739064B1 (en) | Imaging device | |
US20100134677A1 (en) | Image capturing apparatus, information processing method and storage medium | |
US11463615B2 (en) | Imaging apparatus | |
JP7217471B2 (en) | Imaging device | |
CN109986553B (en) | Active interaction robot, system, method and storage device | |
JP2012065113A (en) | Imaging device, imaging method, and program | |
US20160071236A1 (en) | Image correcting apparatus, image correcting method and computer readable recording medium recording program thereon | |
US20220215852A1 (en) | Sound pickup device and sound pickup method | |
KR20140116014A (en) | Image acquisition apparatus,image acquisition method and recording medium | |
JP2025032263A (en) | Imaging device | |
JP5189913B2 (en) | Image processing device | |
JP2014122978A (en) | Imaging device, voice recognition method, and program | |
JP2020072311A (en) | Information acquisition device, information acquisition method, information acquisition program, and information acquisition system | |
JP2020086034A (en) | Information processor, information processor and program | |
JP2016127419A (en) | Image correction device, image correction method, and program | |
CN110033790B (en) | Voice recognition device, robot, voice recognition method, and recording medium | |
JP2021197658A (en) | Sound collecting device, sound collecting system, and sound collecting method | |
JP6381367B2 (en) | Audio processing apparatus, audio processing method, and program | |
US11445106B2 (en) | Imaging apparatus | |
JP6381366B2 (en) | Audio processing apparatus, audio processing method, and program | |
JP2024046308A (en) | Imaging device, control method, and program | |
WO2021020197A1 (en) | Video generation method | |
WO2021029294A1 (en) | Data creation method and data creation program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191210 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20201225 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210126 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210323 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210907 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211105 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20220301 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220526 |
|
C60 | Trial request (containing other claim documents, opposition documents) |
Free format text: JAPANESE INTERMEDIATE CODE: C60 Effective date: 20220526 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20220607 |
|
C21 | Notice of transfer of a case for reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C21 Effective date: 20220614 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20220805 |
|
C211 | Notice of termination of reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C211 Effective date: 20220809 |
|
C22 | Notice of designation (change) of administrative judge |
Free format text: JAPANESE INTERMEDIATE CODE: C22 Effective date: 20220830 |
|
C22 | Notice of designation (change) of administrative judge |
Free format text: JAPANESE INTERMEDIATE CODE: C22 Effective date: 20221004 |
|
C23 | Notice of termination of proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C23 Effective date: 20221122 |
|
C03 | Trial/appeal decision taken |
Free format text: JAPANESE INTERMEDIATE CODE: C03 Effective date: 20230110 |
|
C30A | Notification sent |
Free format text: JAPANESE INTERMEDIATE CODE: C3012 Effective date: 20230110 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230116 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7217471 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |