JP2010035118A

JP2010035118A - 撮像装置及び情報処理方法

Info

Publication number: JP2010035118A
Application number: JP2008202423A
Authority: JP
Inventors: Kenichiro Nakagawa; 賢一郎中川; Tsuyoshi Yagisawa; 津義八木沢; Toshiaki Fukada; 俊明深田
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2007-10-25
Filing date: 2008-08-05
Publication date: 2010-02-12
Anticipated expiration: 2028-08-05
Also published as: JP5144424B2; US8126720B2; US20090109297A1

Abstract

【課題】撮像された画像データに音声データを付与するにあたり、ユーザの利便性を改善するとともに、より臨場感のある音声データを付与できるようにする。
【解決手段】音声データを取得する音声取得部１０３と、前記取得された音声データを解析し、予め定められた音声データを検出する音声処理部１０４と、音声処理部１０４において前記予め定められた音声データを検出した場合に、シャッタを動作させ、画像データを撮像する撮像部１０５と、前記シャッタが動作するまでの間に音声取得部１０３により取得された音声データを、該シャッタの動作により撮像された画像データと対応付けて格納する格納部１０６とを備える。
【選択図】図１

Description

本発明は、音声データを入力可能な撮像装置を用いて撮像された画像データを処理するための処理技術に関するものである。

近年、撮像装置であるデジタルカメラの進歩は目覚ましく、例えば、音声データの入力／処理／出力が可能な音声機能付きのデジタルカメラも登場してきている。

デジタルカメラにおける音声機能としては、例えば、マイクロフォンを接続し、撮像した画像データに対して、該マイクロフォンを介してユーザが入力した音声データのメモを付与する音声メモ機能が挙げられる。

また、他の音声機能としては、下記特許文献１に記載されているような音声シャッタ機能が挙げられる。音声シャッタ機能とは、「はい、チーズ」や「スマイル」といったユーザの特定の発声をデジタルカメラが認識することにより、シャッタを自動で動作させる機能である。当該機能は、撮像者自らが被写体となっているためシャッタボタンに手が届かない場合や、シャッタボタン押下時において手ぶれを防ぎたい場合等に効果的な機能として既に製品化されている。

更に、このような音声機能付きのデジタルカメラの登場に伴って、撮像装置にて撮像された画像データを、対応する音声データを用いて処理する機能も登場してきている。

一般に、多くのユーザは、撮像した画像データをパーソナルコンピュータ（以後ＰＣ）やＳｅｔＴｏｐＢｏｘ（以後ＳＴＢ）等の機器にアップロードした後に、データの閲覧、編集、印刷作業等を行う。このため、音声データを用いて画像データを処理するこのような機能は、かかる機器上で実現されるケースが多い。

具体的には、下記特許文献２、３に、撮像装置にて撮像された画像データをＰＣに取り込み、スライドショーとして再生するにあたり、特定の音声データ（所定のＢＧＭや音声メモ）を出力することが開示されている。

また、撮像装置にて撮像された画像データをＰＣやＳＴＢにアップロードする際に、該画像データに付与された音声メモを用いて話者識別を行い、識別結果を撮像者情報として該画像データに対応付けて記録する技術が知られている。当該技術によれば、アップロードされた画像データを、撮像者情報に基づいて検索することが可能となる。
特開２００１−３０５６４２号公報特開２００６−１６４２２９号公報特開２００５−１２６７４号公報

しかしながら、撮像された画像データに付与された音声メモを用いて、画像データを処理するためには、ユーザは、予め画像データごとに、音声メモを付与しておかなければならず、利便性が悪い。

また、通常、付与される音声メモは、画像データの撮像後に入力されるものであるため、スライドショーとして画像データを再生する際に出力されたとしても、臨場感に欠けるという問題がある。

本発明は上記課題に鑑みてなされたものであり、撮像された画像データを音声データを用いて処理できるよう、該画像データに音声データを付与するにあたり、ユーザの利便性を改善するとともに、より臨場感のある音声データを付与できるようにする。

上記の目的を達成するために本発明に係る撮像装置は以下のような構成を備える。即ち、
音声データを取得する音声取得手段と、
前記音声データに含まれる音声コマンドを検出する検出手段と、
前記音声コマンドを検出した場合に撮像手段に被写体を撮像させ、画像データを取得する撮像制御手段と、
前記音声コマンドの発声タイミングと予め定められた時間関係にある音声データのいずれかを、音声メモとして、前記取得された画像データと対応付けて格納手段に格納させる格納制御手段とを備える。

本発明によれば、撮像された画像データを音声データを用いて処理できるよう、該画像データに音声データを付与するにあたり、ユーザの利便性を改善するとともに、より臨場感のある音声データを付与することができるようになる。

以下、図面を参照しながら各実施形態の詳細について説明する。

［第１の実施形態］
１．撮像装置の機能構成
図１は、本発明の第１の実施形態にかかる撮像装置の機能構成図である。撮像装置１００は、ユーザの操作または音声に応じて風景や人物を撮像するデジタルカメラ等の撮像装置である。

撮像装置１００の本体部１１０にはマイクロフォン１０１が接続されており、音声取得部１０３を介して、ユーザの発声を音声データとして本体部１１０に取り込む。取り込んだ音声データは音声処理部１０４に送信される。

音声処理部１０４では、取り込んだ音声データを格納部１０６に送信するとともに、公知の技術である音声認識技術を用いて、該取り込んだ音声データを解析する。

音声処理部１０４では、解析の結果、所定のコマンド（例えば「はい、チーズ」等の文字列からなる音声シャッタコマンド）を示す音声データが検出された場合には、音声シャッタコマンドを撮像部１０５に通知する。

撮像部（撮像制御手段）１０５では、音声処理部１０４より音声シャッタコマンドが通知されると、シャッタを動作させ、レンズ１０２を介して外部より入射した光を取り込むことで被写体を撮像し、画像データを取得する。なお、このように、音声データに基づいて、シャッタを動作させるモードを“音声シャッタモード”と称す。

撮像部１０５において撮像された画像データは、格納部１０６に送信される。格納部（格納制御手段）１０６では、先に送信された音声データと画像データとを対応付けて、音声／画像格納データ１０７として格納する。

２．撮像装置における音声シャッタモード時の処理の流れ
図２は、撮像装置１００の音声シャッタモード時の処理の流れを示すフローチャートである。

ユーザが音声シャッタモードに移行する操作を行うと、図２のフローチャートに示す処理が開始される。具体的には、ユーザが撮像装置１００上の不図示の音声シャッタボタンを押すことで、処理が開始される。

音声シャッタモードに移行すると、ステップＳ２０１では、音声取得部１０３がマイクロフォン１０１より送信される音声データの取得を開始する。

ステップＳ２０２では、一定時間（例えば、０．１秒程度）のカウントアップを開始する。これにより、マイクロフォン１０１より送信される音声データが一定時間取り込まれることとなる。一定時間経過したら、ステップＳ２０３に進む。

ステップＳ２０３では、一定時間が経過するまでの間に、音声取得部１０３にて取り込まれた音声データを、格納部１０６に送信する。

ステップＳ２０４では、一定時間が経過するまでの間に、音声取得部１０３にて取り込まれた音声データを、音声処理部１０４が音声認識技術を用いて解析する。

ステップＳ２０５では、音声処理部１０４における解析の結果、所定のコマンド（「はい、チーズ」等の文字列からなる音声シャッタコマンド）を検出したか否かを判断する。ステップＳ２０５における判断の結果、音声シャッタコマンドを検出したと判断されなかった場合には、ステップＳ２０２に戻り、再びステップＳ２０２からステップＳ２０４までの処理を繰り返す。

一方、音声シャッタコマンドを検出したと判断された場合には、音声処理部１０４が、当該音声シャッタコマンドを撮像部１０５に送信した後、ステップＳ２０６に進み、音声取得部１０３による音声データの取得を終了する。

ステップＳ２０７では、撮像部１０５が撮像処理を行う。更にステップＳ２０８では、撮像された画像データと、ステップＳ２０３で送信された音声データとを対応付けて音声／画像格納データ１０７として、格納部１０６に格納する。

なお、上述のステップＳ２０４で行われる音声認識技術を用いた音声データの解析は、音声データをテキストに変換するという狭義の音声認識であってもよい。あるいは、人の発声を検出するという広義の音声認識であってもよい。

つまり、音声データの取得を開始した後に、何らかの音声データが入力された場合に、シャッタを動作させるように構成してもよい。かかる構成にすれば、ユーザはシャッタを動作させる際に、あらかじめ決められた音声シャッタコマンドを発声する必要はなく、その場で思いついた発声をもってしてもシャッタを動作させることができるようになる。

３．音声／画像格納データの一例
図３は、音声／画像格納データ１０７の一例である。図３に示すように、音声／画像格納データ１０７は、ユーザが音声シャッタモード時に発声した音声データと、撮像された画像データとが対となって格納されている。

以上の説明から明らかなように、本実施形態によれば、音声シャッタモードにおいてユーザがシャッタを動作させるまでの間に発した音声を、音声データとして取り込み、そのときに撮像された画像データと対応付けて格納することが可能となる。

この結果、撮像された画像データを音声データを用いて処理できるようにするために、従来のように取得された画像データに、ユーザが後から音声メモを付与するといった作業を行う必要がなくなり、ユーザの利便性を改善させることが可能となる。

また、本実施形態によれば、シャッタを動作させる際の音声データが取り込まれる構成となっているため、撮像時の臨場感のある音声データが音声メモとして画像データに対応付けられることとなる。

［第２の実施形態］
上記第１の実施形態では、撮像時に取り込まれた音声データ（音声メモ）を画像データと対応付けて格納することが可能な撮像装置について説明した。一方、以下、第２乃至第４の本実施形態では、かかる撮像装置にて撮像された画像データが音声データとともにアップロードされる情報処理装置における各種処理について説明する。

１．情報処理装置の機能構成
図４は、撮像装置１００と通信可能に接続される情報処理装置４００が、該撮像装置１００と接続された様子を示す図である。図４を用いて、情報処理装置４００の機能構成について説明する。なお、図中の撮像装置１００は、上記第１の実施形態において既に説明済みであるため、ここでは説明は省略する。

情報処理装置４００において、音声／画像格納データ取り込み部４０１は、撮像装置１００の格納部１０６に格納された音声／画像格納データ１０７を含む全ての画像データを取り込む。話者識別部４０２は、音声／画像格納データ取り込み部４０１にて取り込まれた音声／画像格納データ１０７に含まれる音声データについて話者識別を行い、話者情報を抽出する。なお、話者識別技術は公知の技術であるため、ここでは説明は省略する。

格納部４０３は、抽出された話者情報を、音声／画像格納データ取り込み部４０１にて取り込まれた音声／画像格納データ１０７に含まれる画像データと対応付けて、話者情報／画像格納データ４０４として格納する。

画像データ管理部４０５は、格納部４０３に格納された話者情報／画像格納データ４０４を管理する。

２．情報処理装置における処理の流れ
図５は、撮像装置１００にて撮像された画像データが音声データとともにアップロードされる情報処理装置４００における処理の流れを示すフローチャートである。

図５に示すフローチャートは、撮像装置１００から情報処理装置に画像データをアップロードする際に実行される（例えば、撮像装置１００と情報処理装置４００とがＵＳＢケーブルで接続されることで、処理が開始される）。

ステップＳ５０１では、情報処理装置４００が未取得の画像データが撮像装置１００内に存在するか否かを確認する。未取得の画像データが存在しないと判断された場合、撮像装置１００側には新しい画像データは存在しないと判断し、処理を終了する。

一方、ステップＳ５０１において、未取得の画像データが存在すると判断された場合には、ステップＳ５０２に進み、未取得の画像データの中から一つの画像データを選択する。

ステップＳ５０３では、選択した画像データをアップロードする。ステップＳ５０４では、アップロードされた画像データが音声／画像格納データ１０７であり、対応付けられた音声データが存在するか否かを判断する。

ステップＳ５０４において対応付けられた音声データが存在しないと判断された場合には、ステップＳ５０１に戻り、ステップＳ５０１からステップＳ５０３の処理を繰り返し、未取得の他の画像データをアップロードする。

一方、ステップＳ５０４において、対応付けられた音声データが存在すると判断された場合には、ステップＳ５０５に進み、当該音声データ解析する。これにより、所定のコマンド（例えば、「はい、チーズ」等の文字列からなる音声シャッタコマンド）を示す音声データを検出し、該検出した音声データに基づいて、話者識別を行う。

上記第１の実施形態において説明したとおり、画像データと対応付けて格納される音声データは、音声シャッタモードに移行してから音声シャッタコマンドを示す音声データが検出されるまでの間の音声データである。このため、音声データには、撮像者以外の人が発した音声が含まれている可能性がある。そこで、話者識別を行うにあたっては、はじめに音声シャッタコマンドを示す音声データを検出しておき、当該検出した音声データについて話者識別を行う。

図５に戻る。ステップＳ５０６では、ステップＳ５０５における話者識別の結果、識別された話者情報を、アップロードした音声／画像格納データ１０７に含まれる画像データに付与する。

ステップＳ５０７では、格納部４０３が、ステップＳ５０６にて話者情報が付与された画像データを格納する。

この結果、音声シャッタモードで撮像された音声／画像格納データ１０７を、情報処理装置４００にアップロードすると、音声シャッタコマンドを発声した撮像者に関する話者情報を、該画像データに付与することが可能となる。そして、話者情報／画像格納データ４０４として格納することが可能となる。

３．話者情報／画像格納データの一例
図６は、話者情報／画像格納データ４０４の一例である。図６に示すように、話者情報６０１と、アップロードされた音声／画像格納データ１０７に含まれる画像データ６０２とが、対応付けて格納される。

なお、このようにして画像データに対応付けられた話者情報は、情報処理装置４００において、画像データを管理する際に有効に利用することができる。

４．画像データ管理部における管理機能
図７は、画像データ管理部４０５の管理機能を実行した場合に表示されるユーザインタフェース７０１の一例を示す図である。

画像データ管理部４０５では、撮像装置１００から過去にアップロードされた画像データ群７０２を一覧表示することが可能である。そして、不図示の検索ボタンをユーザが押下することにより、画像検索ダイアログ７０３が表示される。

画像検索ダイアログ７０３を用いることで、画像データに付与されたアノテーションデータにより画像データを検索することが可能である。例えば、画像検索ダイアログ７０３上において“Ｐｈｏｔｏｇｒａｐｈｅｒ”（撮像者）を選択し、撮像者情報入力エリア７０４に撮像者名を入力することで、当該撮像者名が話者識別情報として対応付けられている画像データの検索を行うことが可能となる。

以上の説明から明らかなように、本実施形態にかかる情報処理装置では、音声データが対応付けられた画像データをアップロードする際に、話者識別を行い、話者情報を画像データと対応付けて格納する構成とした。これにより、画像データに撮像者に関する話者情報を自動的に付加することが可能となり、音声データを有効に利用することができるようになる。

［第３の実施形態］
上記第２の実施形態では、撮像装置にて撮像された画像データが音声データとともにアップロードされる情報処理装置における各種処理として、話者識別を行う場合について説明したが、本発明はこれに限られない。

例えば、アップロードされた画像データをスライドショーとして表示する際に、対応付けられた音声データをあわせて出力するように構成してもよい。

１．情報処理装置の機能構成
図８は、撮像装置１００と通信可能に接続される情報処理装置８００が、該撮像装置１００と接続された様子を示す図である。図８を用いて、情報処理装置８００の機能構成について説明する。なお、図中の撮像装置１００及び撮像装置１００は、上記第１の実施形態において既に説明済みであるため、ここでは説明は省略する。

情報処理装置８００において、音声／画像格納データ取り込み部８０１は、撮像装置１００の格納部１０６に格納された音声／画像格納データ１０７を取り込む。なお、音声／画像格納データ１０７の取り込みは、例えば、撮像装置１００と情報処理装置８００とがＵＳＢケーブルで接続されたことを契機として処理が開始されるものとする。格納部８０２は、取り込まれた音声／画像格納データ１０７を、音声／画像格納データ８０３として格納する。

音声／画像データ出力部８０４は、ユーザからスライドショーの開始指示が入力された場合に、格納部８０２に格納された音声／画像格納データ８０３を含む全ての画像データの内容を、外部のディスプレイ８０５及びスピーカ８０６にそれぞれ出力する。

２．情報処理装置における処理の流れ
図９は、ユーザからスライドショーの開始指示が入力された場合の、音声／画像データ出力部８０４における処理の流れを示すフローチャートである。なお、スライドショーの開始指示の入力は、例えば、リモコンのスライドショーボタンを押下することにより実現される。

ステップＳ９０１では、未表示の画像データが存在するかを確認する。なお、未表示の画像データとは、音声／画像データ出力部８０４が処理を開始してから一度も表示していない画像データを指すものとする。

もし、既に全ての画像データが表示されていたと判断された場合には、処理を終了する。一方、未表示の画像データが存在すると判断された場合には、ステップＳ９０２において、当該未表示の画像データのうちの一つを取得する。ステップＳ９０３では、ステップＳ９０２において取得した画像データをディスプレイ８０５に表示する。

ステップＳ９０４では、選択した画像データをディスプレイ８０５に表示した後、当該選択された画像データが音声／画像格納データ８０３であり、画像データに音声データが対応付けられているかを確認する。

ステップＳ９０４において、音声データが対応付けられていると判断された場合には、ステップＳ９０５に進み、画像データをディスプレイ８０５に表示している最中に、当該画像データに対応付けられた音声データを出力する。

画像データの表示並びに音声データの出力が完了すると、ステップＳ９０６に進み、一定時間（例えば５秒間）処理を中断する。その後、ステップＳ９０１に戻り、未表示の画像データが存在するか否かの確認を行う。

これにより、本実施形態にかかる情報処理装置では、スライドショー実行時に、音声シャッタモードにおいてシャッタを動作させた際のユーザの発声を画像データの表示とあわせて出力することが可能となる。具体的には、「はい、チーズ」や「Ｓｍｉｌｅ！」といった撮像者が発した音声データを出力しながら画像データを表示することが可能となる。この結果、スライドショー実行時に撮像時の臨場感を体験することが可能となる。

［第４の実施形態］
上記第２の実施形態では、撮像装置にて撮像された画像データが音声データとともにアップロードされる情報処理装置における各種処理として、話者識別を行う場合を、上記第３の実施形態では、スライドショーを行う場合について、それぞれ説明した。しかしながら、本発明はこれに限られず、それらを組み合わせて実行するように構成してもよい。

この場合、上記第３の実施形態で説明した音声／画像格納データ８０３には、上記第２の実施形態で挙げた話者情報／画像格納データ４０４の情報が含まれることとなる。具体的には、画像データ、音声データ（音声メモ）、話者情報がそれぞれ対応付けられて格納されることとなる。

このような構成とすることで、例えば、スライドショー実行時に、ディスプレイ８０５に画像データを表示し、スピーカ８０６より音声データを出力するとともに、該音声データに対応する話者情報を、ディスプレイ８０５に表示させることが可能となる。

図１０は、本実施形態にかかる情報処理装置において実行されたスライドショーの一例を示す図である。

音声／画像データ出力部８０４では、格納部８０２に格納された画像データを自動で表示するとともに、表示中の画像データに話者情報が対応付けられている場合には、該話者情報により特定される撮像者を示すアイコン１００３を表示させることが可能である。話者情報に対応するアイコンを前もって決めておくことで、このような表示が可能となる。

このように、本実施形態にかかる情報処理装置では、スライドショー時に、音声シャッタモードにおいてシャッタを動作させた際の撮像者の発声を画像データの表示と共に再生するとともに、発声した撮像者に関する情報を表示することが可能となる。

［第５の実施形態］
上記第１の実施形態では、音声シャッタモードに移行してから所定のコマンドを示す音声データが検出されるまでの間に取り込まれた音声データ全てを、画像データに対応付けて格納する構成とした。しかしながら、本発明はこれに限定されず、取り込まれた音声データの少なくとも一部を画像データに対応付けて格納するように構成してもよい。以下、第５及び第６の実施形態では、再び撮像装置における処理について説明する。

図１１は、音声シャッタモードに移行してから、所定のコマンドを示す音声データが検出されるまでの間に取り込まれた音声データを時系列に示した図である。

上記第１の実施形態では、図１１における時刻Ａから時刻Ｅまでの間に取り込まれた音声データを撮像された画像データに対応付けて格納している。これに対して、本実施形態では、所定の音声シャッタコマンドである「はい、チーズ」の発声開始時刻Ｄから、該音声シャッタコマンドの発声が終了し、これを認識した時刻Ｅまでの音声データだけを残す。そして、その他の音声データ（時刻Ａ〜時刻Ｄまでの音声データ）を破棄する。これにより、音声シャッタコマンドに関係しない「もっと右によって」や、「はい、そこでいいよ」といった所定の音声シャッタコマンド以外の発声を音声データの格納対象から外すことが可能となる。

なお、破棄する音声データはこれに限られず、逆に、時刻Ｄから時刻Ｅまでの音声データを破棄し、時刻Ａ〜時刻Ｄまでの音声データだけを格納するようにしてもよい。これにより、「もっと右によって」や、「はい、そこでいいよ」といった、所定のコマンドを示す音声データ以外の音声データだけを格納することが可能となる。このようにして格納された音声データをスライドショー時に再生すると、「はい、チーズ」といった所定のコマンドを示す音声データ以外の音声データ（先ほどの例では「もっと右によって」や、「はい、そこでいいよ」）を出力させることが可能となる。この結果、ユーザの飽きが少なくなるという利点がある。

[第６の実施形態]
上記第１の実施形態では、ユーザが撮像装置を直接操作することにより、音声シャッタモードに移行する構成としたが、本発明はこれに限られない。例えば、リモートコントローラを介して、音声シャッタモードに移行させる構成としてもよい。

また、上記第１の実施形態では、音声処理部において音声シャッタコマンドを検出したと判断した場合に、ただちに撮像部が撮像処理を行う構成としたが、本発明はこれに限られない。例えば、検出した音声シャッタコマンドの内容に応じて、撮像部が撮像処理を行うタイミングを変更するように構成してもよい。また、検出した音声シャッタコマンドの内容に応じて、音声データとして取り込む時間軸上の範囲を変更するように構成してもよい。以下、本実施形態の詳細について説明する。

１．撮像装置の機能構成
図１２は、本発明の第６の実施形態にかかる撮像装置の機能構成図である。撮像装置１２００は、ユーザの操作または音声に応じて風景や人物を撮像するデジタルカメラ等の撮像装置である。

撮像装置１２００は、リモートコントローラ１２０８を無線接続することができるよう構成されている。リモートコントローラ１２０８から送信される無線信号は、リモートコントローラ操作取り込み部１２０９により、本体部１２１０内に取り込まれる。

かかる構成により、ユーザは、リモートコントローラ１２０８を操作することで、撮像装置１２００を操作することができる。例えば、ユーザは、リモートコントローラ１２０８を操作することにより、本体部１２１０を、離れた位置から音声シャッタモードに移行させることができる。

また、撮像装置１２００の本体部１２１０にはマイクロフォン１２０１が接続されており、音声取得部１２０３を介して、ユーザの発声を音声データとして本体部１２１０に取り込むことが可能な構成となっている。取り込んだ音声データは音声処理部１２０４に送信される。

音声処理部１２０４では、取り込んだ音声データを格納部１０６に送信するとともに、公知の技術である音声認識技術を用いて、該取り込んだ音声データを解析する。

音声処理部１２０４では、解析の結果、所定のコマンド（例えば「はい、チーズ」等の文字列からなる音声シャッタコマンド）を示す音声データが検出された場合には、音声シャッタコマンドを撮像部１２０５に通知する。

撮像部（撮像制御手段）１２０５では、音声処理部１０４より音声シャッタコマンドが通知されると、シャッタを動作させ、レンズ１２０２を介して外部より入射した光を取り込むことで被写体を撮像し、画像データを取得する。

撮像部１２０５において撮像された画像データは、格納部１２０６に送信される。格納部（格納制御手段）１２０６では、先に送信された音声データと画像データとを対応付けて、音声／画像格納データ１２０７として格納する。

２．撮像装置における音声シャッタモード時の処理の流れ
図１３は、撮像装置１２００の音声シャッタモード時の処理の流れを示すフローチャートである。

ユーザがリモートコントローラ１２０８上で、音声シャッタモードに移行する操作を行うと、図１３のフローチャートに示す処理が開始される。

音声シャッタモードに移行すると、ステップＳ１３０１では、音声取得部１２０３がマイクロフォン１２０１より送信される音声データの取得を開始する。

ステップＳ１３０２では、一定時間（例えば、０．１秒程度）のカウントアップを開始する。これにより、マイクロフォン１２０１より送信される音声データが一定時間取り込まれることとなる。

ステップＳ１３０３では、音声取得部１２０３にて取り込まれた音声データを、音声処理部１２０４が音声認識技術を用いて解析する。

ステップＳ１３０４では、音声処理部１２０４における解析の結果、音声シャッタコマンドを検出したか否かを判断する。ステップＳ１３０４における判断の結果、音声シャッタコマンドを検出したと判断されなかった場合には、ステップＳ１３０２に戻り、再びステップＳ１３０２からステップＳ１３０４までの処理を繰り返す。

一方、音声シャッタコマンドを検出したと判断された場合には、ステップＳ１３０５に進み、検出された音声シャッタコマンドにおけるユーザの発声形式に応じて、撮像タイミングを決定する。

なお、ここでいうユーザの発声形式とは、発声に含まれる言語的な情報以外の情報と定義する。例えば、発声時間（発声開始から終了までの長さ）等が発声形式の一つである。図１４は、発声時間に応じて撮像タイミングを決定する際に用いられる、発声時間／撮像タイミングテーブル１４０１の一例を示す図である。

図１４に示すとおり、「はい、チーズ」といった音声シャッタコマンドの発声時間が０．５秒未満の場合には、当該音声シャッタコマンドを認識した後、０．４秒で撮像処理を行う。同様に、音声シャッタコマンドの発声時間が０．５秒以上１秒未満の場合には、当該音声シャッタコマンドを認識した後、０．６秒で撮像処理を行う。同様に、音声シャッタコマンドの発声時間が１秒以上の場合には、当該音声シャッタコマンドを認識した後、０．８秒で撮像処理を行う。

つまり、音声シャッタコマンドの発声開始から終了までの時間がｍ秒のときには、音声シャッタコマンドを認識したＭ秒後に撮像処理を行い、ｎ秒（ｍ＞ｎ）のときには、音声シャッタコマンドを認識したＮ秒後（Ｍ＞Ｎ）に撮像処理を行う。

このように設定することにより、「はい、チーーーズ」といったように、ユーザが意図的に音声シャッタコマンドを間延びして発声した場合には、音声認識後１テンポ置いてから撮像処理が行われることとなる。これによりユーザの意図に合わせて撮像タイミングを制御することが可能となる。また例えば、発声終了後から撮影までの間を無音状態にしたい状況が在る場合には、「はい、チーーーズ」と発声することにより、上記環境を構成できるであろう。

なお、図１４に示す数値は一例であり、別の値を設定しておくことも可能である。例えば、図１４においては、０．５秒と１秒を発声時間の切れ目としていたが、それぞれの切れ目を１秒と２秒に変更しても良いであろう。

また、この図においては発声時間を基準にして３つに区分しているが、これに限らない。例えば発声時間が１秒以上の場合を更に複数の区分に分割しても構わない。その場合には、４つ以上の区分（図１４における・・・の表記に相当する）となるであろう。また、発声形式は、発声時間に限られず、例えば、声の高さ、声の大きさなどであってもよい。例えば、声の高さについて置き換えて説明すると、３つに区分された音の高さを、撮像タイミング（図１４における０．４秒、０．６秒、０．８秒）に対応付ける。そして、撮影時にユーザにより発声された音声シャッタコマンドの声の高さに基づいて、３つの撮像タイミングのいずれかを選択することになる。

図１３の説明に戻る。ステップＳ１３０６では、ステップＳ１３０５において決定された撮像タイミングに基づいて、撮像部１２０５が撮像処理を行う。

図１５は、図１４に示す発声時間／撮像タイミングテーブル１４０１に基づいて決定された撮像タイミングにより、撮像部１２０５が撮像処理を行った様子を示す図である。図１５において、縦軸は時間軸を表わしており、音声シャッタコマンドが検出されてから、撮像処理が実行されるまでの流れが時系列に示されている。

図１５に示すように、時刻Ｃにおいて、ユーザが「はい、チーズ」の発声を開始し、時刻Ｄにおいて、撮像装置１２００が「はい、チーズ」の音声シャッタコマンドを認識したとする。この場合、実際の撮像処理は、時刻Ｄ以降であって、時刻Ｅ１、時刻Ｅ２、時刻Ｅ３のいずれかのタイミングで実行されることとなる。この時、いずれのタイミングで撮像処理が実行されるかは、ユーザの発声形式によって、発声時間／撮像タイミングテーブル１４０１等に基づいて決定される。

図１３の説明に戻る。ステップＳ１３０７では、音声データの取り込みを終了する。なお、音声データの取り込み終了は、ステップＳ１３０６における撮像処理が完了した後すぐであってもよいし、例えば、撮像処理が完了してから５秒後といったように、一定時間が経過してからであってもよい。

ステップＳ１３０８では、ステップＳ１３０３において音声処理部１２０４が認識した音声データの内容に応じて、格納すべき音声データの位置を決定する。更に、決定した位置の音声データをファイル化する。

図１６は、音声処理部１２０４が認識した音声データの内容に応じて、格納すべき音声データの位置を決定する処理を説明するための図である。図１６において、縦軸は時間軸を表わしており、音声シャッタモードに移行してから所定のコマンドを示す音声データが検出されるまでの間に取り込まれた音声データが時系列に示されている。

図１６において、時刻Ａは、ユーザによりリモートコントローラ１２０８が操作され、音声シャッタモードに移行したタイミングを示している。時刻Ｂは、音声シャッタコマンドとして装置に登録されていない発声である、「もっと右によって」が発声開始されたタイミング（発声タイミング）を示している。時刻Ｃは、音声シャッタコマンドとして装置に登録されている、「はい、チーズ」が発声開始されたタイミングを示している。時刻Ｄは撮像装置１２００が、音声シャッタコマンドを認識したタイミングを示している。時刻Ｅは撮像装置１２００が撮像処理を行ったタイミングを示している。時刻Ｆは、撮像処理が完了した後にユーザが「ＯＫ」という音声シャッタコマンドとして装置に登録されている発声を開始したタイミング（発声タイミング）を示している。更に、時刻Ｇはリモートコントローラ１２０８が操作されることにより、音声シャッタモードから他のモードへ移行したタイミングを示している。

撮像装置１２００では、装置に認識された音声データの種類により、図１６に示す各音声データのうち、どの位置の音声データをファイル化するかを決定する。即ち、入力される音声シャッタコマンドが、装置に登録されている複数の音声シャッタコマンドの何れに相当するかに応じて、音声メモとしてファイル化するべき時間軸上の位置を決定する。即ち、図１６において表記した音声シャッタコマンドは「はい、チーズ」であるが、この場合とそれ以外のコマンド（「スマイル」等）が入った場合とでは、音声メモとしてファイル化する時間軸上の位置（時間関係）が異なる。以下に一例を説明する。

例えば、認識された音声シャッタコマンドが、「はい、チーズ」（第１の音声コマンド）であった場合は、当該音声データの部分だけ（即ち、図１６の時刻Ｃから時刻Ｄまでの間の音声データ）をファイル化する。また、認識した音声シャッタコマンドが「スマイル」（第２の音声コマンド）であった場合は、音声シャッタモードに移行してから音声シャッタコマンドの発声開始されるまでの音声データ（図１６の時刻Ａから時刻Ｃまでの間の音声データ）をファイル化する。また、これ以外の音声シャッタコマンド（第３の音声コマンド）を認識した場合には、撮像処理が完了した後、音声シャッタモードから他のモードへ移行するまでの音声データ（図１６の時刻Ｅから時刻Ｇまでの間の音声データ）をファイル化する。これにより、ユーザが発声する音声シャッタコマンドを意図的に変更すれば、撮像画像に添付される音声メモの時間帯を選択することができる。なお、ここでは音声シャッタコマンドを３区分（「はい、チーズ」と「スマイル」と「それ以外の音声シャッタコマンド」）としていたが、本発明はこれに限らない。例えば、「それ以外の音声シャッタコマンド」を更に細分化しても良い。

例えば、「３、２、１（カウントダウンを表す言葉）」（第４の音声コマンド）を音声シャッタコマンドとして登録しておく。そして、この音声シャッタコマンドを装置が認識した場合には、「このコマンドの発声が完了した直後（このコマンドが認識された直後）」から「音声シャッタモードから他のモードへ移行した時点」までに入力した音声データをファイル化することも有効である。つまり、撮像が完了した後ではなく、図１６の時刻Ｄから時刻Ｇまでの間の音声データをファイル化することも有効である。

なお、ステップＳ１３０８に示す処理を実現するためには、音声シャッタモードに移行してから、他のモードへ移行するまでの音声データを、メモリあるいは一時ファイルに保持し続けることが必要である。これにより、音声シャッタコマンドが認識された時点で、時間軸上のどの位置の音声データ（この音声データは音声シャッタコマンドとは限らない）を格納するかを決定し、音声メモとしてファイル化することが可能となる。

図１３の説明に戻る。ステップＳ１３０８において、決定された位置の音声データがファイル化されると、ステップＳ１３０９では、当該ファイル化された音声データを、撮像処理により取得された画像データと対応付けて、格納部１２０６に格納する。なお、格納部１２０６への格納方法は、既に、上記第１の実施形態において図３を用いて説明済みであるため、ここでは詳細な説明は省略する。

以上の説明から明らかなように、本実施形態によれば、音声シャッタモードにおいてシャッタを動作させるタイミングと比較的近い時間帯でのユーザの発声を、音声データとして取り込み、撮像された画像データと対応付けて格納することが可能となる。また、その際に、ユーザはリモートコントローラを用いて操作を行うことができる。

特に、本実施形態では、音声シャッタコマンドの内容に応じて、撮像処理を行うタイミングを変更することが可能となる。これにより、ユーザが撮像のタイミングを音声シャッタコマンドの発声によって制御することができる。また更に、音声シャッタコマンドの内容に応じて、音声データ（音声メモ）として撮影画像に添付（ファイル化）する時間軸上の範囲を制御することことも可能となる。

そして、ここで述べる２つの特徴（撮像タイミングの制御技術と音声メモの対象時間の制御）は組み合わせて使うとより効果的であろう。

例えば、上述した「３、２、１」の音声シャッタコマンドで時刻Ｄ以降を録音する場合を考える。もし、この「３、２、１」を２秒程度で発声するならば（図１４の１秒以上の発声に相当）、このコマンド音声メモとして録音されるべき時刻Ｄから時刻Ｅまでの間を長くできる。これにより、撮影者の音声シャッタコマンドを録音から排除しつつ、撮影者以外の撮影直前の音声を録音することが可能となる。その他、上記２つの特徴を組み合わせることによって、種々の使い方ができるであろう。

［第７の実施形態］
上記第１乃至第６の実施形態において格納される音声データは、撮像装置において、あるいは情報処理装置において、公知の雑音除去技術に基づいて雑音除去処理を行うようにしてもよい。これにより、スライドショー時に再生される音声データが雑音の無いクリアなものとなる。

また、雑音部分のみを抽出できるのであれば、この雑音だけを保存してもよい。例えば、川の流れる音や、鳥の鳴き声といった雑音（環境音）のみを残すことで、スライドショー時に撮像時の環境音を出力することが可能となる。

［他の実施形態］
なお、本発明は、複数の機器（例えばホストコンピュータ、インタフェース機器、リーダ、プリンタなど）から構成されるシステムに適用しても、一つの機器からなる装置（例えば、複写機、ファクシミリ装置など）に適用してもよい。

また、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記憶したコンピュータ読取可能な記憶媒体を、システムあるいは装置に供給するよう構成することによっても達成されることはいうまでもない。この場合、そのシステムあるいは装置のコンピュータ（またはＣＰＵやＭＰＵ）が記録媒体に格納されたプログラムコードを読出し実行することにより、上記機能が実現されることとなる。なお、この場合、そのプログラムコードを記録した記録媒体は本発明を構成することになる。

プログラムコードを供給するための記録媒体としては、例えば、フロッピ（登録商標）ディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、磁気テープ、不揮発性のメモリカード、ＲＯＭなどを用いることができる。

また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現される場合に限られない。例えば、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているＯＳ（オペレーティングシステム）などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。

さらに、記録媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、前述した実施形態の機能が実現される場合も含まれる。つまり、プログラムコードがメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行い、その処理によって実現される場合も含まれる。

本発明の第１の実施形態にかかる撮像装置の機能構成図である。撮像装置１００の音声シャッタモード時の処理の流れを示すフローチャートである。音声／画像格納データ１０７の一例を示す図である。撮像装置１００と通信可能に接続される情報処理装置４００が、該撮像装置１００と接続された様子を示す図である。撮像装置１００にて撮像された画像データが音声データとともにアップロードされる情報処理装置４００における処理の流れを示すフローチャートである。話者情報／画像格納データ４０４の一例を示す図である。画像データ管理部４０５の管理機能を実行した場合に表示されるユーザインタフェース７０１の一例を示す図である。撮像装置１００と通信可能に接続される情報処理装置８００が、該撮像装置１００と接続された様子を示す図である。ユーザからスライドショーの開始指示が入力された場合の、音声／画像データ出力部８０４における処理の流れを示すフローチャートである。情報処理装置８００において実行されたスライドショーの一例を示す図である。音声シャッタモードに移行してから、所定のコマンドを示す音声データが検出されるまでの間に取り込まれた音声データを時系列に示した図である。本発明の第６の実施形態にかかる撮像装置の機能構成図である。撮像装置１２００の音声シャッタモード時の処理の流れを示すフローチャートである。発声時間に応じて撮像タイミングを決定する際に用いられる、発声時間／撮像タイミングテーブル１４０１の一例を示す図である。発声時間／撮像タイミングテーブル１４０１に基づいて決定された撮像タイミングにより、撮像部１２０５が撮像処理を行った様子を示す図である。音声処理部１２０４が認識した音声データの内容に応じて、格納すべき音声データの位置を決定する処理を説明するための図である。

Claims

音声データを取得する音声取得手段と、
前記音声データに含まれる音声コマンドを検出する検出手段と、
前記音声コマンドを検出した場合に撮像手段に被写体を撮像させ、画像データを取得する撮像制御手段と、
前記音声コマンドの発声タイミングと予め定められた時間関係にある音声データのいずれかを、音声メモとして、前記取得された画像データと対応付けて格納手段に格納させる格納制御手段と
を備えることを特徴とする撮像装置。
前記撮像制御手段は、音声コマンドの発声開始から終了までの時間の長さに応じて、音声コマンドを検出したタイミングから撮像までの時間を制御することを特徴とする請求項１に記載の撮像装置。
前記撮像制御手段は、音声コマンドの発声開始から終了までの時間がｍ秒のときには、音声コマンドを検出したＭ秒後に被写体を撮像させ、音声コマンドの発声開始から終了までの時間がｎ秒（ｍ＞ｎ）のときには、音声コマンドを検出したＮ秒後（Ｍ＞Ｎ）に被写体を撮像させることを特徴とする請求項２に記載の撮像装置。
前記格納制御手段は、検出した音声コマンドの種類に応じて、前記予め定められた時間関係にある音声データのいずれを選択するか決定することを特徴とする請求項１に記載の撮像装置。
前記格納制御手段は、第１の音声コマンドを検出した場合には、該第１の音声コマンドの発声開始から終了までの間に前記音声取得手段が取得した音声データを、音声メモとして、前記取得された画像データと対応付けて格納手段に格納させることを特徴とする請求項４に記載の撮像装置。
前記格納制御手段は、第２の音声コマンドを検出した場合には、予め設定した時間から前記第２の音声コマンドの発声開始までの間に前記音声取得手段が取得した音声データを、音声メモとして、前記取得された画像データと対応付けて格納手段に格納させることを特徴とする請求項４に記載の撮像装置。
前記格納制御手段は、第３の音声コマンドを検出した場合には、前記第３の音声コマンドの発声終了から予め設定した時間までの間に前記音声取得手段が取得した音声データを、音声メモとして、前記取得された画像データと対応付けて格納手段に格納させることを特徴とする請求項４に記載の撮像装置。
前記格納制御手段は、第４の音声コマンドを検出した場合には、前記被写体を撮像した時から予め設定した時間までの間に音声取得手段が取得した音声データを、音声メモとして、前記取得された画像データと対応付けて格納手段に格納させることを特徴とする請求項４に記載の撮像装置。
音声データを取得する音声取得手段と、
前記音声データに含まれる音声コマンドを検出する検出手段と、
前記音声コマンドを検出した場合に撮像手段に被写体を撮像させ、画像データを取得する撮像制御手段と、
前記音声コマンドの発声タイミングと予め定められた時間関係にある音声データのいずれかを、音声メモとして、前記取得された画像データと対応付けて格納手段に格納させる格納制御手段と、を備え、
前記撮像制御手段は、音声コマンドの発声開始から終了までの時間の長さに応じて、音声コマンドを検出したタイミングから撮像までの時間を制御し、
前記格納制御手段は、検出した音声コマンドの種類に応じて、前記予め定められた時間関係にある音声データのいずれを選択するか決定することを特徴とする撮像装置。
撮像装置における情報処理方法であって、
音声データを取得する音声取得工程と、
前記音声データに含まれる音声コマンドを検出する検出工程と、
前記音声コマンドを検出した場合に撮像手段に被写体を撮像させ、画像データを取得する撮像制御工程と、
前記音声コマンドの発声タイミングと予め定められた時間関係にある音声データのいずれかを、音声メモとして、前記取得された画像データと対応付けて格納手段に格納させる格納制御工程と
を備えることを特徴とする情報処理方法。
撮像装置における情報処理方法であって、
音声データを取得する音声取得工程と、
前記音声データに含まれる音声コマンドを検出する検出工程と、
前記音声コマンドを検出した場合に撮像手段に被写体を撮像させ、画像データを取得する撮像制御工程と、
前記音声コマンドの発声タイミングと予め定められた時間関係にある音声データのいずれかを、音声メモとして、前記取得された画像データと対応付けて格納手段に格納させる格納制御工程と、を備え、
前記撮像制御工程は、音声コマンドの発声開始から終了までの時間の長さに応じて、音声コマンドを検出したタイミングから撮像までの時間を制御し、
前記格納制御工程は、検出した音声コマンドの種類に応じて、前記予め定められた時間関係にある音声データのいずれを選択するか決定することを特徴とする情報処理方法。
請求項１０または１１に記載の情報処理方法をコンピュータに実行させるためのプログラムを格納したコンピュータ読取可能な記憶媒体。