[go: up one dir, main page]

JP2010035118A - 撮像装置及び情報処理方法 - Google Patents

撮像装置及び情報処理方法 Download PDF

Info

Publication number
JP2010035118A
JP2010035118A JP2008202423A JP2008202423A JP2010035118A JP 2010035118 A JP2010035118 A JP 2010035118A JP 2008202423 A JP2008202423 A JP 2008202423A JP 2008202423 A JP2008202423 A JP 2008202423A JP 2010035118 A JP2010035118 A JP 2010035118A
Authority
JP
Japan
Prior art keywords
voice
data
imaging
image data
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008202423A
Other languages
English (en)
Other versions
JP5144424B2 (ja
Inventor
Kenichiro Nakagawa
賢一郎 中川
Tsuyoshi Yagisawa
津義 八木沢
Toshiaki Fukada
俊明 深田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2008202423A priority Critical patent/JP5144424B2/ja
Priority to US12/257,798 priority patent/US8126720B2/en
Publication of JP2010035118A publication Critical patent/JP2010035118A/ja
Application granted granted Critical
Publication of JP5144424B2 publication Critical patent/JP5144424B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/68Control of cameras or camera modules for stable pick-up of the scene, e.g. compensating for camera body vibrations
    • H04N23/681Motion detection
    • H04N23/6811Motion detection based on the image signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/765Interface circuits between an apparatus for recording and another apparatus
    • H04N5/77Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television camera
    • H04N5/772Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television camera the recording apparatus and the television camera being placed in the same enclosure
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/765Interface circuits between an apparatus for recording and another apparatus
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/765Interface circuits between an apparatus for recording and another apparatus
    • H04N5/775Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television receiver
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/804Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components
    • H04N9/8042Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components involving data reduction
    • H04N9/8047Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components involving data reduction using transform coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/804Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components
    • H04N9/806Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components with processing of the sound signal
    • H04N9/8063Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components with processing of the sound signal using time division multiplex of the PCM audio and PCM video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/82Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only
    • H04N9/8205Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Studio Devices (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

【課題】 撮像された画像データに音声データを付与するにあたり、ユーザの利便性を改善するとともに、より臨場感のある音声データを付与できるようにする。
【解決手段】 音声データを取得する音声取得部103と、前記取得された音声データを解析し、予め定められた音声データを検出する音声処理部104と、音声処理部104において前記予め定められた音声データを検出した場合に、シャッタを動作させ、画像データを撮像する撮像部105と、前記シャッタが動作するまでの間に音声取得部103により取得された音声データを、該シャッタの動作により撮像された画像データと対応付けて格納する格納部106とを備える。
【選択図】 図1

Description

本発明は、音声データを入力可能な撮像装置を用いて撮像された画像データを処理するための処理技術に関するものである。
近年、撮像装置であるデジタルカメラの進歩は目覚ましく、例えば、音声データの入力/処理/出力が可能な音声機能付きのデジタルカメラも登場してきている。
デジタルカメラにおける音声機能としては、例えば、マイクロフォンを接続し、撮像した画像データに対して、該マイクロフォンを介してユーザが入力した音声データのメモを付与する音声メモ機能が挙げられる。
また、他の音声機能としては、下記特許文献1に記載されているような音声シャッタ機能が挙げられる。音声シャッタ機能とは、「はい、チーズ」や「スマイル」といったユーザの特定の発声をデジタルカメラが認識することにより、シャッタを自動で動作させる機能である。当該機能は、撮像者自らが被写体となっているためシャッタボタンに手が届かない場合や、シャッタボタン押下時において手ぶれを防ぎたい場合等に効果的な機能として既に製品化されている。
更に、このような音声機能付きのデジタルカメラの登場に伴って、撮像装置にて撮像された画像データを、対応する音声データを用いて処理する機能も登場してきている。
一般に、多くのユーザは、撮像した画像データをパーソナルコンピュータ(以後PC)やSet Top Box(以後STB)等の機器にアップロードした後に、データの閲覧、編集、印刷作業等を行う。このため、音声データを用いて画像データを処理するこのような機能は、かかる機器上で実現されるケースが多い。
具体的には、下記特許文献2、3に、撮像装置にて撮像された画像データをPCに取り込み、スライドショーとして再生するにあたり、特定の音声データ(所定のBGMや音声メモ)を出力することが開示されている。
また、撮像装置にて撮像された画像データをPCやSTBにアップロードする際に、該画像データに付与された音声メモを用いて話者識別を行い、識別結果を撮像者情報として該画像データに対応付けて記録する技術が知られている。当該技術によれば、アップロードされた画像データを、撮像者情報に基づいて検索することが可能となる。
特開2001−305642号公報 特開2006−164229号公報 特開2005−12674号公報
しかしながら、撮像された画像データに付与された音声メモを用いて、画像データを処理するためには、ユーザは、予め画像データごとに、音声メモを付与しておかなければならず、利便性が悪い。
また、通常、付与される音声メモは、画像データの撮像後に入力されるものであるため、スライドショーとして画像データを再生する際に出力されたとしても、臨場感に欠けるという問題がある。
本発明は上記課題に鑑みてなされたものであり、撮像された画像データを音声データを用いて処理できるよう、該画像データに音声データを付与するにあたり、ユーザの利便性を改善するとともに、より臨場感のある音声データを付与できるようにする。
上記の目的を達成するために本発明に係る撮像装置は以下のような構成を備える。即ち、
音声データを取得する音声取得手段と、
前記音声データに含まれる音声コマンドを検出する検出手段と、
前記音声コマンドを検出した場合に撮像手段に被写体を撮像させ、画像データを取得する撮像制御手段と、
前記音声コマンドの発声タイミングと予め定められた時間関係にある音声データのいずれかを、音声メモとして、前記取得された画像データと対応付けて格納手段に格納させる格納制御手段とを備える。
本発明によれば、撮像された画像データを音声データを用いて処理できるよう、該画像データに音声データを付与するにあたり、ユーザの利便性を改善するとともに、より臨場感のある音声データを付与することができるようになる。
以下、図面を参照しながら各実施形態の詳細について説明する。
[第1の実施形態]
1.撮像装置の機能構成
図1は、本発明の第1の実施形態にかかる撮像装置の機能構成図である。撮像装置100は、ユーザの操作または音声に応じて風景や人物を撮像するデジタルカメラ等の撮像装置である。
撮像装置100の本体部110にはマイクロフォン101が接続されており、音声取得部103を介して、ユーザの発声を音声データとして本体部110に取り込む。取り込んだ音声データは音声処理部104に送信される。
音声処理部104では、取り込んだ音声データを格納部106に送信するとともに、公知の技術である音声認識技術を用いて、該取り込んだ音声データを解析する。
音声処理部104では、解析の結果、所定のコマンド(例えば「はい、チーズ」等の文字列からなる音声シャッタコマンド)を示す音声データが検出された場合には、音声シャッタコマンドを撮像部105に通知する。
撮像部(撮像制御手段)105では、音声処理部104より音声シャッタコマンドが通知されると、シャッタを動作させ、レンズ102を介して外部より入射した光を取り込むことで被写体を撮像し、画像データを取得する。なお、このように、音声データに基づいて、シャッタを動作させるモードを“音声シャッタモード”と称す。
撮像部105において撮像された画像データは、格納部106に送信される。格納部(格納制御手段)106では、先に送信された音声データと画像データとを対応付けて、音声/画像格納データ107として格納する。
2.撮像装置における音声シャッタモード時の処理の流れ
図2は、撮像装置100の音声シャッタモード時の処理の流れを示すフローチャートである。
ユーザが音声シャッタモードに移行する操作を行うと、図2のフローチャートに示す処理が開始される。具体的には、ユーザが撮像装置100上の不図示の音声シャッタボタンを押すことで、処理が開始される。
音声シャッタモードに移行すると、ステップS201では、音声取得部103がマイクロフォン101より送信される音声データの取得を開始する。
ステップS202では、一定時間(例えば、0.1秒程度)のカウントアップを開始する。これにより、マイクロフォン101より送信される音声データが一定時間取り込まれることとなる。一定時間経過したら、ステップS203に進む。
ステップS203では、一定時間が経過するまでの間に、音声取得部103にて取り込まれた音声データを、格納部106に送信する。
ステップS204では、一定時間が経過するまでの間に、音声取得部103にて取り込まれた音声データを、音声処理部104が音声認識技術を用いて解析する。
ステップS205では、音声処理部104における解析の結果、所定のコマンド(「はい、チーズ」等の文字列からなる音声シャッタコマンド)を検出したか否かを判断する。ステップS205における判断の結果、音声シャッタコマンドを検出したと判断されなかった場合には、ステップS202に戻り、再びステップS202からステップS204までの処理を繰り返す。
一方、音声シャッタコマンドを検出したと判断された場合には、音声処理部104が、当該音声シャッタコマンドを撮像部105に送信した後、ステップS206に進み、音声取得部103による音声データの取得を終了する。
ステップS207では、撮像部105が撮像処理を行う。更にステップS208では、撮像された画像データと、ステップS203で送信された音声データとを対応付けて音声/画像格納データ107として、格納部106に格納する。
なお、上述のステップS204で行われる音声認識技術を用いた音声データの解析は、音声データをテキストに変換するという狭義の音声認識であってもよい。あるいは、人の発声を検出するという広義の音声認識であってもよい。
つまり、音声データの取得を開始した後に、何らかの音声データが入力された場合に、シャッタを動作させるように構成してもよい。かかる構成にすれば、ユーザはシャッタを動作させる際に、あらかじめ決められた音声シャッタコマンドを発声する必要はなく、その場で思いついた発声をもってしてもシャッタを動作させることができるようになる。
3.音声/画像格納データの一例
図3は、音声/画像格納データ107の一例である。図3に示すように、音声/画像格納データ107は、ユーザが音声シャッタモード時に発声した音声データと、撮像された画像データとが対となって格納されている。
以上の説明から明らかなように、本実施形態によれば、音声シャッタモードにおいてユーザがシャッタを動作させるまでの間に発した音声を、音声データとして取り込み、そのときに撮像された画像データと対応付けて格納することが可能となる。
この結果、撮像された画像データを音声データを用いて処理できるようにするために、従来のように取得された画像データに、ユーザが後から音声メモを付与するといった作業を行う必要がなくなり、ユーザの利便性を改善させることが可能となる。
また、本実施形態によれば、シャッタを動作させる際の音声データが取り込まれる構成となっているため、撮像時の臨場感のある音声データが音声メモとして画像データに対応付けられることとなる。
[第2の実施形態]
上記第1の実施形態では、撮像時に取り込まれた音声データ(音声メモ)を画像データと対応付けて格納することが可能な撮像装置について説明した。一方、以下、第2乃至第4の本実施形態では、かかる撮像装置にて撮像された画像データが音声データとともにアップロードされる情報処理装置における各種処理について説明する。
1.情報処理装置の機能構成
図4は、撮像装置100と通信可能に接続される情報処理装置400が、該撮像装置100と接続された様子を示す図である。図4を用いて、情報処理装置400の機能構成について説明する。なお、図中の撮像装置100は、上記第1の実施形態において既に説明済みであるため、ここでは説明は省略する。
情報処理装置400において、音声/画像格納データ取り込み部401は、撮像装置100の格納部106に格納された音声/画像格納データ107を含む全ての画像データを取り込む。話者識別部402は、音声/画像格納データ取り込み部401にて取り込まれた音声/画像格納データ107に含まれる音声データについて話者識別を行い、話者情報を抽出する。なお、話者識別技術は公知の技術であるため、ここでは説明は省略する。
格納部403は、抽出された話者情報を、音声/画像格納データ取り込み部401にて取り込まれた音声/画像格納データ107に含まれる画像データと対応付けて、話者情報/画像格納データ404として格納する。
画像データ管理部405は、格納部403に格納された話者情報/画像格納データ404を管理する。
2.情報処理装置における処理の流れ
図5は、撮像装置100にて撮像された画像データが音声データとともにアップロードされる情報処理装置400における処理の流れを示すフローチャートである。
図5に示すフローチャートは、撮像装置100から情報処理装置に画像データをアップロードする際に実行される(例えば、撮像装置100と情報処理装置400とがUSBケーブルで接続されることで、処理が開始される)。
ステップS501では、情報処理装置400が未取得の画像データが撮像装置100内に存在するか否かを確認する。未取得の画像データが存在しないと判断された場合、撮像装置100側には新しい画像データは存在しないと判断し、処理を終了する。
一方、ステップS501において、未取得の画像データが存在すると判断された場合には、ステップS502に進み、未取得の画像データの中から一つの画像データを選択する。
ステップS503では、選択した画像データをアップロードする。ステップS504では、アップロードされた画像データが音声/画像格納データ107であり、対応付けられた音声データが存在するか否かを判断する。
ステップS504において対応付けられた音声データが存在しないと判断された場合には、ステップS501に戻り、ステップS501からステップS503の処理を繰り返し、未取得の他の画像データをアップロードする。
一方、ステップS504において、対応付けられた音声データが存在すると判断された場合には、ステップS505に進み、当該音声データ解析する。これにより、所定のコマンド(例えば、「はい、チーズ」等の文字列からなる音声シャッタコマンド)を示す音声データを検出し、該検出した音声データに基づいて、話者識別を行う。
上記第1の実施形態において説明したとおり、画像データと対応付けて格納される音声データは、音声シャッタモードに移行してから音声シャッタコマンドを示す音声データが検出されるまでの間の音声データである。このため、音声データには、撮像者以外の人が発した音声が含まれている可能性がある。そこで、話者識別を行うにあたっては、はじめに音声シャッタコマンドを示す音声データを検出しておき、当該検出した音声データについて話者識別を行う。
図5に戻る。ステップS506では、ステップS505における話者識別の結果、識別された話者情報を、アップロードした音声/画像格納データ107に含まれる画像データに付与する。
ステップS507では、格納部403が、ステップS506にて話者情報が付与された画像データを格納する。
この結果、音声シャッタモードで撮像された音声/画像格納データ107を、情報処理装置400にアップロードすると、音声シャッタコマンドを発声した撮像者に関する話者情報を、該画像データに付与することが可能となる。そして、話者情報/画像格納データ404として格納することが可能となる。
3.話者情報/画像格納データの一例
図6は、話者情報/画像格納データ404の一例である。図6に示すように、話者情報601と、アップロードされた音声/画像格納データ107に含まれる画像データ602とが、対応付けて格納される。
なお、このようにして画像データに対応付けられた話者情報は、情報処理装置400において、画像データを管理する際に有効に利用することができる。
4.画像データ管理部における管理機能
図7は、画像データ管理部405の管理機能を実行した場合に表示されるユーザインタフェース701の一例を示す図である。
画像データ管理部405では、撮像装置100から過去にアップロードされた画像データ群702を一覧表示することが可能である。そして、不図示の検索ボタンをユーザが押下することにより、画像検索ダイアログ703が表示される。
画像検索ダイアログ703を用いることで、画像データに付与されたアノテーションデータにより画像データを検索することが可能である。例えば、画像検索ダイアログ703上において“Photographer”(撮像者)を選択し、撮像者情報入力エリア704に撮像者名を入力することで、当該撮像者名が話者識別情報として対応付けられている画像データの検索を行うことが可能となる。
以上の説明から明らかなように、本実施形態にかかる情報処理装置では、音声データが対応付けられた画像データをアップロードする際に、話者識別を行い、話者情報を画像データと対応付けて格納する構成とした。これにより、画像データに撮像者に関する話者情報を自動的に付加することが可能となり、音声データを有効に利用することができるようになる。
[第3の実施形態]
上記第2の実施形態では、撮像装置にて撮像された画像データが音声データとともにアップロードされる情報処理装置における各種処理として、話者識別を行う場合について説明したが、本発明はこれに限られない。
例えば、アップロードされた画像データをスライドショーとして表示する際に、対応付けられた音声データをあわせて出力するように構成してもよい。
1.情報処理装置の機能構成
図8は、撮像装置100と通信可能に接続される情報処理装置800が、該撮像装置100と接続された様子を示す図である。図8を用いて、情報処理装置800の機能構成について説明する。なお、図中の撮像装置100及び撮像装置100は、上記第1の実施形態において既に説明済みであるため、ここでは説明は省略する。
情報処理装置800において、音声/画像格納データ取り込み部801は、撮像装置100の格納部106に格納された音声/画像格納データ107を取り込む。なお、音声/画像格納データ107の取り込みは、例えば、撮像装置100と情報処理装置800とがUSBケーブルで接続されたことを契機として処理が開始されるものとする。格納部802は、取り込まれた音声/画像格納データ107を、音声/画像格納データ803として格納する。
音声/画像データ出力部804は、ユーザからスライドショーの開始指示が入力された場合に、格納部802に格納された音声/画像格納データ803を含む全ての画像データの内容を、外部のディスプレイ805及びスピーカ806にそれぞれ出力する。
2.情報処理装置における処理の流れ
図9は、ユーザからスライドショーの開始指示が入力された場合の、音声/画像データ出力部804における処理の流れを示すフローチャートである。なお、スライドショーの開始指示の入力は、例えば、リモコンのスライドショーボタンを押下することにより実現される。
ステップS901では、未表示の画像データが存在するかを確認する。なお、未表示の画像データとは、音声/画像データ出力部804が処理を開始してから一度も表示していない画像データを指すものとする。
もし、既に全ての画像データが表示されていたと判断された場合には、処理を終了する。一方、未表示の画像データが存在すると判断された場合には、ステップS902において、当該未表示の画像データのうちの一つを取得する。ステップS903では、ステップS902において取得した画像データをディスプレイ805に表示する。
ステップS904では、選択した画像データをディスプレイ805に表示した後、当該選択された画像データが音声/画像格納データ803であり、画像データに音声データが対応付けられているかを確認する。
ステップS904において、音声データが対応付けられていると判断された場合には、ステップS905に進み、画像データをディスプレイ805に表示している最中に、当該画像データに対応付けられた音声データを出力する。
画像データの表示並びに音声データの出力が完了すると、ステップS906に進み、一定時間(例えば5秒間)処理を中断する。その後、ステップS901に戻り、未表示の画像データが存在するか否かの確認を行う。
これにより、本実施形態にかかる情報処理装置では、スライドショー実行時に、音声シャッタモードにおいてシャッタを動作させた際のユーザの発声を画像データの表示とあわせて出力することが可能となる。具体的には、「はい、チーズ」や「Smile!」といった撮像者が発した音声データを出力しながら画像データを表示することが可能となる。この結果、スライドショー実行時に撮像時の臨場感を体験することが可能となる。
[第4の実施形態]
上記第2の実施形態では、撮像装置にて撮像された画像データが音声データとともにアップロードされる情報処理装置における各種処理として、話者識別を行う場合を、上記第3の実施形態では、スライドショーを行う場合について、それぞれ説明した。しかしながら、本発明はこれに限られず、それらを組み合わせて実行するように構成してもよい。
この場合、上記第3の実施形態で説明した音声/画像格納データ803には、上記第2の実施形態で挙げた話者情報/画像格納データ404の情報が含まれることとなる。具体的には、画像データ、音声データ(音声メモ)、話者情報がそれぞれ対応付けられて格納されることとなる。
このような構成とすることで、例えば、スライドショー実行時に、ディスプレイ805に画像データを表示し、スピーカ806より音声データを出力するとともに、該音声データに対応する話者情報を、ディスプレイ805に表示させることが可能となる。
図10は、本実施形態にかかる情報処理装置において実行されたスライドショーの一例を示す図である。
音声/画像データ出力部804では、格納部802に格納された画像データを自動で表示するとともに、表示中の画像データに話者情報が対応付けられている場合には、該話者情報により特定される撮像者を示すアイコン1003を表示させることが可能である。話者情報に対応するアイコンを前もって決めておくことで、このような表示が可能となる。
このように、本実施形態にかかる情報処理装置では、スライドショー時に、音声シャッタモードにおいてシャッタを動作させた際の撮像者の発声を画像データの表示と共に再生するとともに、発声した撮像者に関する情報を表示することが可能となる。
[第5の実施形態]
上記第1の実施形態では、音声シャッタモードに移行してから所定のコマンドを示す音声データが検出されるまでの間に取り込まれた音声データ全てを、画像データに対応付けて格納する構成とした。しかしながら、本発明はこれに限定されず、取り込まれた音声データの少なくとも一部を画像データに対応付けて格納するように構成してもよい。以下、第5及び第6の実施形態では、再び撮像装置における処理について説明する。
図11は、音声シャッタモードに移行してから、所定のコマンドを示す音声データが検出されるまでの間に取り込まれた音声データを時系列に示した図である。
上記第1の実施形態では、図11における時刻Aから時刻Eまでの間に取り込まれた音声データを撮像された画像データに対応付けて格納している。これに対して、本実施形態では、所定の音声シャッタコマンドである「はい、チーズ」の発声開始時刻Dから、該音声シャッタコマンドの発声が終了し、これを認識した時刻Eまでの音声データだけを残す。そして、その他の音声データ(時刻A〜時刻Dまでの音声データ)を破棄する。これにより、音声シャッタコマンドに関係しない「もっと右によって」や、「はい、そこでいいよ」といった所定の音声シャッタコマンド以外の発声を音声データの格納対象から外すことが可能となる。
なお、破棄する音声データはこれに限られず、逆に、時刻Dから時刻Eまでの音声データを破棄し、時刻A〜時刻Dまでの音声データだけを格納するようにしてもよい。これにより、「もっと右によって」や、「はい、そこでいいよ」といった、所定のコマンドを示す音声データ以外の音声データだけを格納することが可能となる。このようにして格納された音声データをスライドショー時に再生すると、「はい、チーズ」といった所定のコマンドを示す音声データ以外の音声データ(先ほどの例では「もっと右によって」や、「はい、そこでいいよ」)を出力させることが可能となる。この結果、ユーザの飽きが少なくなるという利点がある。
[第6の実施形態]
上記第1の実施形態では、ユーザが撮像装置を直接操作することにより、音声シャッタモードに移行する構成としたが、本発明はこれに限られない。例えば、リモートコントローラを介して、音声シャッタモードに移行させる構成としてもよい。
また、上記第1の実施形態では、音声処理部において音声シャッタコマンドを検出したと判断した場合に、ただちに撮像部が撮像処理を行う構成としたが、本発明はこれに限られない。例えば、検出した音声シャッタコマンドの内容に応じて、撮像部が撮像処理を行うタイミングを変更するように構成してもよい。また、検出した音声シャッタコマンドの内容に応じて、音声データとして取り込む時間軸上の範囲を変更するように構成してもよい。以下、本実施形態の詳細について説明する。
1.撮像装置の機能構成
図12は、本発明の第6の実施形態にかかる撮像装置の機能構成図である。撮像装置1200は、ユーザの操作または音声に応じて風景や人物を撮像するデジタルカメラ等の撮像装置である。
撮像装置1200は、リモートコントローラ1208を無線接続することができるよう構成されている。リモートコントローラ1208から送信される無線信号は、リモートコントローラ操作取り込み部1209により、本体部1210内に取り込まれる。
かかる構成により、ユーザは、リモートコントローラ1208を操作することで、撮像装置1200を操作することができる。例えば、ユーザは、リモートコントローラ1208を操作することにより、本体部1210を、離れた位置から音声シャッタモードに移行させることができる。
また、撮像装置1200の本体部1210にはマイクロフォン1201が接続されており、音声取得部1203を介して、ユーザの発声を音声データとして本体部1210に取り込むことが可能な構成となっている。取り込んだ音声データは音声処理部1204に送信される。
音声処理部1204では、取り込んだ音声データを格納部106に送信するとともに、公知の技術である音声認識技術を用いて、該取り込んだ音声データを解析する。
音声処理部1204では、解析の結果、所定のコマンド(例えば「はい、チーズ」等の文字列からなる音声シャッタコマンド)を示す音声データが検出された場合には、音声シャッタコマンドを撮像部1205に通知する。
撮像部(撮像制御手段)1205では、音声処理部104より音声シャッタコマンドが通知されると、シャッタを動作させ、レンズ1202を介して外部より入射した光を取り込むことで被写体を撮像し、画像データを取得する。
撮像部1205において撮像された画像データは、格納部1206に送信される。格納部(格納制御手段)1206では、先に送信された音声データと画像データとを対応付けて、音声/画像格納データ1207として格納する。
2.撮像装置における音声シャッタモード時の処理の流れ
図13は、撮像装置1200の音声シャッタモード時の処理の流れを示すフローチャートである。
ユーザがリモートコントローラ1208上で、音声シャッタモードに移行する操作を行うと、図13のフローチャートに示す処理が開始される。
音声シャッタモードに移行すると、ステップS1301では、音声取得部1203がマイクロフォン1201より送信される音声データの取得を開始する。
ステップS1302では、一定時間(例えば、0.1秒程度)のカウントアップを開始する。これにより、マイクロフォン1201より送信される音声データが一定時間取り込まれることとなる。
ステップS1303では、音声取得部1203にて取り込まれた音声データを、音声処理部1204が音声認識技術を用いて解析する。
ステップS1304では、音声処理部1204における解析の結果、音声シャッタコマンドを検出したか否かを判断する。ステップS1304における判断の結果、音声シャッタコマンドを検出したと判断されなかった場合には、ステップS1302に戻り、再びステップS1302からステップS1304までの処理を繰り返す。
一方、音声シャッタコマンドを検出したと判断された場合には、ステップS1305に進み、検出された音声シャッタコマンドにおけるユーザの発声形式に応じて、撮像タイミングを決定する。
なお、ここでいうユーザの発声形式とは、発声に含まれる言語的な情報以外の情報と定義する。例えば、発声時間(発声開始から終了までの長さ)等が発声形式の一つである。図14は、発声時間に応じて撮像タイミングを決定する際に用いられる、発声時間/撮像タイミングテーブル1401の一例を示す図である。
図14に示すとおり、「はい、チーズ」といった音声シャッタコマンドの発声時間が0.5秒未満の場合には、当該音声シャッタコマンドを認識した後、0.4秒で撮像処理を行う。同様に、音声シャッタコマンドの発声時間が0.5秒以上1秒未満の場合には、当該音声シャッタコマンドを認識した後、0.6秒で撮像処理を行う。同様に、音声シャッタコマンドの発声時間が1秒以上の場合には、当該音声シャッタコマンドを認識した後、0.8秒で撮像処理を行う。
つまり、音声シャッタコマンドの発声開始から終了までの時間がm秒のときには、音声シャッタコマンドを認識したM秒後に撮像処理を行い、n秒(m>n)のときには、音声シャッタコマンドを認識したN秒後(M>N)に撮像処理を行う。
このように設定することにより、「はい、チーーーズ」といったように、ユーザが意図的に音声シャッタコマンドを間延びして発声した場合には、音声認識後1テンポ置いてから撮像処理が行われることとなる。これによりユーザの意図に合わせて撮像タイミングを制御することが可能となる。また例えば、発声終了後から撮影までの間を無音状態にしたい状況が在る場合には、「はい、チーーーズ」と発声することにより、上記環境を構成できるであろう。
なお、図14に示す数値は一例であり、別の値を設定しておくことも可能である。例えば、図14においては、0.5秒と1秒を発声時間の切れ目としていたが、それぞれの切れ目を1秒と2秒に変更しても良いであろう。
また、この図においては発声時間を基準にして3つに区分しているが、これに限らない。例えば発声時間が1秒以上の場合を更に複数の区分に分割しても構わない。その場合には、4つ以上の区分(図14における・・・の表記に相当する)となるであろう。また、発声形式は、発声時間に限られず、例えば、声の高さ、声の大きさなどであってもよい。例えば、声の高さについて置き換えて説明すると、3つに区分された音の高さを、撮像タイミング(図14における0.4秒、0.6秒、0.8秒)に対応付ける。そして、撮影時にユーザにより発声された音声シャッタコマンドの声の高さに基づいて、3つの撮像タイミングのいずれかを選択することになる。
図13の説明に戻る。ステップS1306では、ステップS1305において決定された撮像タイミングに基づいて、撮像部1205が撮像処理を行う。
図15は、図14に示す発声時間/撮像タイミングテーブル1401に基づいて決定された撮像タイミングにより、撮像部1205が撮像処理を行った様子を示す図である。図15において、縦軸は時間軸を表わしており、音声シャッタコマンドが検出されてから、撮像処理が実行されるまでの流れが時系列に示されている。
図15に示すように、時刻Cにおいて、ユーザが「はい、チーズ」の発声を開始し、時刻Dにおいて、撮像装置1200が「はい、チーズ」の音声シャッタコマンドを認識したとする。この場合、実際の撮像処理は、時刻D以降であって、時刻E1、時刻E2、時刻E3のいずれかのタイミングで実行されることとなる。この時、いずれのタイミングで撮像処理が実行されるかは、ユーザの発声形式によって、発声時間/撮像タイミングテーブル1401等に基づいて決定される。
図13の説明に戻る。ステップS1307では、音声データの取り込みを終了する。なお、音声データの取り込み終了は、ステップS1306における撮像処理が完了した後すぐであってもよいし、例えば、撮像処理が完了してから5秒後といったように、一定時間が経過してからであってもよい。
ステップS1308では、ステップS1303において音声処理部1204が認識した音声データの内容に応じて、格納すべき音声データの位置を決定する。更に、決定した位置の音声データをファイル化する。
図16は、音声処理部1204が認識した音声データの内容に応じて、格納すべき音声データの位置を決定する処理を説明するための図である。図16において、縦軸は時間軸を表わしており、音声シャッタモードに移行してから所定のコマンドを示す音声データが検出されるまでの間に取り込まれた音声データが時系列に示されている。
図16において、時刻Aは、ユーザによりリモートコントローラ1208が操作され、音声シャッタモードに移行したタイミングを示している。時刻Bは、音声シャッタコマンドとして装置に登録されていない発声である、「もっと右によって」が発声開始されたタイミング(発声タイミング)を示している。時刻Cは、音声シャッタコマンドとして装置に登録されている、「はい、チーズ」が発声開始されたタイミングを示している。時刻Dは撮像装置1200が、音声シャッタコマンドを認識したタイミングを示している。時刻Eは撮像装置1200が撮像処理を行ったタイミングを示している。時刻Fは、撮像処理が完了した後にユーザが「OK」という音声シャッタコマンドとして装置に登録されている発声を開始したタイミング(発声タイミング)を示している。更に、時刻Gはリモートコントローラ1208が操作されることにより、音声シャッタモードから他のモードへ移行したタイミングを示している。
撮像装置1200では、装置に認識された音声データの種類により、図16に示す各音声データのうち、どの位置の音声データをファイル化するかを決定する。即ち、入力される音声シャッタコマンドが、装置に登録されている複数の音声シャッタコマンドの何れに相当するかに応じて、音声メモとしてファイル化するべき時間軸上の位置を決定する。即ち、図16において表記した音声シャッタコマンドは「はい、チーズ」であるが、この場合とそれ以外のコマンド(「スマイル」等)が入った場合とでは、音声メモとしてファイル化する時間軸上の位置(時間関係)が異なる。以下に一例を説明する。
例えば、認識された音声シャッタコマンドが、「はい、チーズ」(第1の音声コマンド)であった場合は、当該音声データの部分だけ(即ち、図16の時刻Cから時刻Dまでの間の音声データ)をファイル化する。また、認識した音声シャッタコマンドが「スマイル」(第2の音声コマンド)であった場合は、音声シャッタモードに移行してから音声シャッタコマンドの発声開始されるまでの音声データ(図16の時刻Aから時刻Cまでの間の音声データ)をファイル化する。また、これ以外の音声シャッタコマンド(第3の音声コマンド)を認識した場合には、撮像処理が完了した後、音声シャッタモードから他のモードへ移行するまでの音声データ(図16の時刻Eから時刻Gまでの間の音声データ)をファイル化する。これにより、ユーザが発声する音声シャッタコマンドを意図的に変更すれば、撮像画像に添付される音声メモの時間帯を選択することができる。なお、ここでは音声シャッタコマンドを3区分(「はい、チーズ」と「スマイル」と「それ以外の音声シャッタコマンド」)としていたが、本発明はこれに限らない。例えば、「それ以外の音声シャッタコマンド」を更に細分化しても良い。
例えば、「3、2、1(カウントダウンを表す言葉)」(第4の音声コマンド)を音声シャッタコマンドとして登録しておく。そして、この音声シャッタコマンドを装置が認識した場合には、「このコマンドの発声が完了した直後(このコマンドが認識された直後)」から「音声シャッタモードから他のモードへ移行した時点」までに入力した音声データをファイル化することも有効である。つまり、撮像が完了した後ではなく、図16の時刻Dから時刻Gまでの間の音声データをファイル化することも有効である。
なお、ステップS1308に示す処理を実現するためには、音声シャッタモードに移行してから、他のモードへ移行するまでの音声データを、メモリあるいは一時ファイルに保持し続けることが必要である。これにより、音声シャッタコマンドが認識された時点で、時間軸上のどの位置の音声データ(この音声データは音声シャッタコマンドとは限らない)を格納するかを決定し、音声メモとしてファイル化することが可能となる。
図13の説明に戻る。ステップS1308において、決定された位置の音声データがファイル化されると、ステップS1309では、当該ファイル化された音声データを、撮像処理により取得された画像データと対応付けて、格納部1206に格納する。なお、格納部1206への格納方法は、既に、上記第1の実施形態において図3を用いて説明済みであるため、ここでは詳細な説明は省略する。
以上の説明から明らかなように、本実施形態によれば、音声シャッタモードにおいてシャッタを動作させるタイミングと比較的近い時間帯でのユーザの発声を、音声データとして取り込み、撮像された画像データと対応付けて格納することが可能となる。また、その際に、ユーザはリモートコントローラを用いて操作を行うことができる。
特に、本実施形態では、音声シャッタコマンドの内容に応じて、撮像処理を行うタイミングを変更することが可能となる。これにより、ユーザが撮像のタイミングを音声シャッタコマンドの発声によって制御することができる。また更に、音声シャッタコマンドの内容に応じて、音声データ(音声メモ)として撮影画像に添付(ファイル化)する時間軸上の範囲を制御することことも可能となる。
そして、ここで述べる2つの特徴(撮像タイミングの制御技術と音声メモの対象時間の制御)は組み合わせて使うとより効果的であろう。
例えば、上述した「3、2、1」の音声シャッタコマンドで時刻D以降を録音する場合を考える。もし、この「3、2、1」を2秒程度で発声するならば(図14の1秒以上の発声に相当)、このコマンド音声メモとして録音されるべき時刻Dから時刻Eまでの間を長くできる。これにより、撮影者の音声シャッタコマンドを録音から排除しつつ、撮影者以外の撮影直前の音声を録音することが可能となる。その他、上記2つの特徴を組み合わせることによって、種々の使い方ができるであろう。
[第7の実施形態]
上記第1乃至第6の実施形態において格納される音声データは、撮像装置において、あるいは情報処理装置において、公知の雑音除去技術に基づいて雑音除去処理を行うようにしてもよい。これにより、スライドショー時に再生される音声データが雑音の無いクリアなものとなる。
また、雑音部分のみを抽出できるのであれば、この雑音だけを保存してもよい。例えば、川の流れる音や、鳥の鳴き声といった雑音(環境音)のみを残すことで、スライドショー時に撮像時の環境音を出力することが可能となる。
[他の実施形態]
なお、本発明は、複数の機器(例えばホストコンピュータ、インタフェース機器、リーダ、プリンタなど)から構成されるシステムに適用しても、一つの機器からなる装置(例えば、複写機、ファクシミリ装置など)に適用してもよい。
また、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記憶したコンピュータ読取可能な記憶媒体を、システムあるいは装置に供給するよう構成することによっても達成されることはいうまでもない。この場合、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたプログラムコードを読出し実行することにより、上記機能が実現されることとなる。なお、この場合、そのプログラムコードを記録した記録媒体は本発明を構成することになる。
プログラムコードを供給するための記録媒体としては、例えば、フロッピ(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどを用いることができる。
また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現される場合に限られない。例えば、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
さらに、記録媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、前述した実施形態の機能が実現される場合も含まれる。つまり、プログラムコードがメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって実現される場合も含まれる。
本発明の第1の実施形態にかかる撮像装置の機能構成図である。 撮像装置100の音声シャッタモード時の処理の流れを示すフローチャートである。 音声/画像格納データ107の一例を示す図である。 撮像装置100と通信可能に接続される情報処理装置400が、該撮像装置100と接続された様子を示す図である。 撮像装置100にて撮像された画像データが音声データとともにアップロードされる情報処理装置400における処理の流れを示すフローチャートである。 話者情報/画像格納データ404の一例を示す図である。 画像データ管理部405の管理機能を実行した場合に表示されるユーザインタフェース701の一例を示す図である。 撮像装置100と通信可能に接続される情報処理装置800が、該撮像装置100と接続された様子を示す図である。 ユーザからスライドショーの開始指示が入力された場合の、音声/画像データ出力部804における処理の流れを示すフローチャートである。 情報処理装置800において実行されたスライドショーの一例を示す図である。 音声シャッタモードに移行してから、所定のコマンドを示す音声データが検出されるまでの間に取り込まれた音声データを時系列に示した図である。 本発明の第6の実施形態にかかる撮像装置の機能構成図である。 撮像装置1200の音声シャッタモード時の処理の流れを示すフローチャートである。 発声時間に応じて撮像タイミングを決定する際に用いられる、発声時間/撮像タイミングテーブル1401の一例を示す図である。 発声時間/撮像タイミングテーブル1401に基づいて決定された撮像タイミングにより、撮像部1205が撮像処理を行った様子を示す図である。 音声処理部1204が認識した音声データの内容に応じて、格納すべき音声データの位置を決定する処理を説明するための図である。

Claims (12)

  1. 音声データを取得する音声取得手段と、
    前記音声データに含まれる音声コマンドを検出する検出手段と、
    前記音声コマンドを検出した場合に撮像手段に被写体を撮像させ、画像データを取得する撮像制御手段と、
    前記音声コマンドの発声タイミングと予め定められた時間関係にある音声データのいずれかを、音声メモとして、前記取得された画像データと対応付けて格納手段に格納させる格納制御手段と
    を備えることを特徴とする撮像装置。
  2. 前記撮像制御手段は、音声コマンドの発声開始から終了までの時間の長さに応じて、音声コマンドを検出したタイミングから撮像までの時間を制御することを特徴とする請求項1に記載の撮像装置。
  3. 前記撮像制御手段は、音声コマンドの発声開始から終了までの時間がm秒のときには、音声コマンドを検出したM秒後に被写体を撮像させ、音声コマンドの発声開始から終了までの時間がn秒(m>n)のときには、音声コマンドを検出したN秒後(M>N)に被写体を撮像させることを特徴とする請求項2に記載の撮像装置。
  4. 前記格納制御手段は、検出した音声コマンドの種類に応じて、前記予め定められた時間関係にある音声データのいずれを選択するか決定することを特徴とする請求項1に記載の撮像装置。
  5. 前記格納制御手段は、第1の音声コマンドを検出した場合には、該第1の音声コマンドの発声開始から終了までの間に前記音声取得手段が取得した音声データを、音声メモとして、前記取得された画像データと対応付けて格納手段に格納させることを特徴とする請求項4に記載の撮像装置。
  6. 前記格納制御手段は、第2の音声コマンドを検出した場合には、予め設定した時間から前記第2の音声コマンドの発声開始までの間に前記音声取得手段が取得した音声データを、音声メモとして、前記取得された画像データと対応付けて格納手段に格納させることを特徴とする請求項4に記載の撮像装置。
  7. 前記格納制御手段は、第3の音声コマンドを検出した場合には、前記第3の音声コマンドの発声終了から予め設定した時間までの間に前記音声取得手段が取得した音声データを、音声メモとして、前記取得された画像データと対応付けて格納手段に格納させることを特徴とする請求項4に記載の撮像装置。
  8. 前記格納制御手段は、第4の音声コマンドを検出した場合には、前記被写体を撮像した時から予め設定した時間までの間に音声取得手段が取得した音声データを、音声メモとして、前記取得された画像データと対応付けて格納手段に格納させることを特徴とする請求項4に記載の撮像装置。
  9. 音声データを取得する音声取得手段と、
    前記音声データに含まれる音声コマンドを検出する検出手段と、
    前記音声コマンドを検出した場合に撮像手段に被写体を撮像させ、画像データを取得する撮像制御手段と、
    前記音声コマンドの発声タイミングと予め定められた時間関係にある音声データのいずれかを、音声メモとして、前記取得された画像データと対応付けて格納手段に格納させる格納制御手段と、を備え、
    前記撮像制御手段は、音声コマンドの発声開始から終了までの時間の長さに応じて、音声コマンドを検出したタイミングから撮像までの時間を制御し、
    前記格納制御手段は、検出した音声コマンドの種類に応じて、前記予め定められた時間関係にある音声データのいずれを選択するか決定することを特徴とする撮像装置。
  10. 撮像装置における情報処理方法であって、
    音声データを取得する音声取得工程と、
    前記音声データに含まれる音声コマンドを検出する検出工程と、
    前記音声コマンドを検出した場合に撮像手段に被写体を撮像させ、画像データを取得する撮像制御工程と、
    前記音声コマンドの発声タイミングと予め定められた時間関係にある音声データのいずれかを、音声メモとして、前記取得された画像データと対応付けて格納手段に格納させる格納制御工程と
    を備えることを特徴とする情報処理方法。
  11. 撮像装置における情報処理方法であって、
    音声データを取得する音声取得工程と、
    前記音声データに含まれる音声コマンドを検出する検出工程と、
    前記音声コマンドを検出した場合に撮像手段に被写体を撮像させ、画像データを取得する撮像制御工程と、
    前記音声コマンドの発声タイミングと予め定められた時間関係にある音声データのいずれかを、音声メモとして、前記取得された画像データと対応付けて格納手段に格納させる格納制御工程と、を備え、
    前記撮像制御工程は、音声コマンドの発声開始から終了までの時間の長さに応じて、音声コマンドを検出したタイミングから撮像までの時間を制御し、
    前記格納制御工程は、検出した音声コマンドの種類に応じて、前記予め定められた時間関係にある音声データのいずれを選択するか決定することを特徴とする情報処理方法。
  12. 請求項10または11に記載の情報処理方法をコンピュータに実行させるためのプログラムを格納したコンピュータ読取可能な記憶媒体。
JP2008202423A 2007-10-25 2008-08-05 撮像装置及び情報処理方法 Expired - Fee Related JP5144424B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2008202423A JP5144424B2 (ja) 2007-10-25 2008-08-05 撮像装置及び情報処理方法
US12/257,798 US8126720B2 (en) 2007-10-25 2008-10-24 Image capturing apparatus and information processing method

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP2007278054 2007-10-25
JP2007278054 2007-10-25
JP2008171241 2008-06-30
JP2008171241 2008-06-30
JP2008202423A JP5144424B2 (ja) 2007-10-25 2008-08-05 撮像装置及び情報処理方法

Publications (2)

Publication Number Publication Date
JP2010035118A true JP2010035118A (ja) 2010-02-12
JP5144424B2 JP5144424B2 (ja) 2013-02-13

Family

ID=40582315

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008202423A Expired - Fee Related JP5144424B2 (ja) 2007-10-25 2008-08-05 撮像装置及び情報処理方法

Country Status (2)

Country Link
US (1) US8126720B2 (ja)
JP (1) JP5144424B2 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101700357B1 (ko) * 2009-11-30 2017-01-26 삼성전자주식회사 점프 영상 촬영 장치 및 방법
KR101750338B1 (ko) * 2010-09-13 2017-06-23 삼성전자주식회사 마이크의 빔포밍 수행 방법 및 장치
US8775190B2 (en) * 2011-02-04 2014-07-08 Ryohei Tanaka Voice-operated control circuit and method for using same
WO2013102979A1 (ja) * 2012-01-06 2013-07-11 旭化成株式会社 撮像装置及び情報処理装置
TWM452661U (zh) * 2012-10-15 2013-05-11 Ozaki Int Co Ltd 具快門結構的保護殼
KR101990037B1 (ko) * 2012-11-13 2019-06-18 엘지전자 주식회사 이동 단말기 및 그것의 제어 방법
WO2014143534A1 (en) * 2013-03-14 2014-09-18 Motorola Mobility Llc Device for real-time recording of audio for insertion in photographic images
CN103747177A (zh) * 2013-12-31 2014-04-23 华为技术有限公司 视频拍摄的处理方法及装置
US9646607B2 (en) * 2014-03-10 2017-05-09 Dell Products, L.P. Managing wake-on-voice buffer quality based on system boot profiling
US9871974B2 (en) * 2014-12-05 2018-01-16 Amx, Llc Computing device camera view controller and shutter
US10778900B2 (en) * 2018-03-06 2020-09-15 Eikon Technologies LLC Method and system for dynamically adjusting camera shots
US11245840B2 (en) 2018-03-06 2022-02-08 Eikon Technologies LLC Method and system for dynamically adjusting camera shots
US10997965B2 (en) 2019-04-02 2021-05-04 Accenture Global Solutions Limited Automated voice processing testing system and method

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000050149A (ja) * 1998-07-27 2000-02-18 Sony Corp ビデオカメラ

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4951079A (en) * 1988-01-28 1990-08-21 Konica Corp. Voice-recognition camera
US5546145A (en) * 1994-08-30 1996-08-13 Eastman Kodak Company Camera on-board voice recognition
US5729741A (en) * 1995-04-10 1998-03-17 Golden Enterprises, Inc. System for storage and retrieval of diverse types of information obtained from different media sources which includes video, audio, and text transcriptions
US6031526A (en) * 1996-08-08 2000-02-29 Apollo Camera, Llc Voice controlled medical text and image reporting system
US6289140B1 (en) * 1998-02-19 2001-09-11 Hewlett-Packard Company Voice control input for portable capture devices
US6101338A (en) * 1998-10-09 2000-08-08 Eastman Kodak Company Speech recognition camera with a prompting display
US6721001B1 (en) * 1998-12-16 2004-04-13 International Business Machines Corporation Digital camera with voice recognition annotation
US7053938B1 (en) * 1999-10-07 2006-05-30 Intel Corporation Speech-to-text captioning for digital cameras and associated methods
US20010056342A1 (en) * 2000-02-24 2001-12-27 Piehn Thomas Barry Voice enabled digital camera and language translator
US6499016B1 (en) * 2000-02-28 2002-12-24 Flashpoint Technology, Inc. Automatically storing and presenting digital images using a speech-based command language
JP2001305642A (ja) 2000-04-25 2001-11-02 Fuji Photo Film Co Ltd 撮像装置
WO2002084999A1 (fr) * 2001-04-06 2002-10-24 Sony Corporation Camera numerique et procede de transfert de donnees
KR100458642B1 (ko) * 2002-09-19 2004-12-03 삼성테크윈 주식회사 휴대용 디지털 장치에서 대표-음성을 이용하여데이터-파일들을 관리하는 방법
JP2005012674A (ja) * 2003-06-20 2005-01-13 Canon Inc 画像表示方法及びそれを実行するプログラム並びに画像表示装置
US7324943B2 (en) * 2003-10-02 2008-01-29 Matsushita Electric Industrial Co., Ltd. Voice tagging, voice annotation, and speech recognition for portable devices with optional post processing
US20050192808A1 (en) * 2004-02-26 2005-09-01 Sharp Laboratories Of America, Inc. Use of speech recognition for identification and classification of images in a camera-equipped mobile handset
JP2006164229A (ja) 2004-11-09 2006-06-22 Canon Inc 情報再生装置及びその制御方法、並びにコンピュータプログラム及びコンピュータ可読記憶媒体
US7529772B2 (en) * 2005-09-27 2009-05-05 Scenera Technologies, Llc Method and system for associating user comments to a scene captured by a digital imaging device
US7697827B2 (en) * 2005-10-17 2010-04-13 Konicek Jeffrey C User-friendlier interfaces for a camera
US8502876B2 (en) * 2006-09-12 2013-08-06 Storz Endoskop Producktions GmbH Audio, visual and device data capturing system with real-time speech recognition command and control system

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000050149A (ja) * 1998-07-27 2000-02-18 Sony Corp ビデオカメラ

Also Published As

Publication number Publication date
JP5144424B2 (ja) 2013-02-13
US8126720B2 (en) 2012-02-28
US20090109297A1 (en) 2009-04-30

Similar Documents

Publication Publication Date Title
JP5144424B2 (ja) 撮像装置及び情報処理方法
JP4599244B2 (ja) 動画データから字幕を作成する装置及び方法、プログラム、並びに記憶媒体
JP4175390B2 (ja) 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
JP4794740B2 (ja) オーディオ/ビデオ信号生成装置、及びオーディオ/ビデオ信号生成方法
JP6060989B2 (ja) 音声録音装置、音声録音方法、及びプログラム
JP2019101754A (ja) 要約装置及びその制御方法、要約システム、プログラム
WO2005094437A2 (en) System and method for automatically cataloguing data by utilizing speech recognition procedures
JP2005345616A (ja) 情報処理装置及び情報処理方法
JP5320913B2 (ja) 撮像装置およびキーワード作成プログラム
JP2007258934A (ja) 情報処理装置及び情報処理方法
WO2014203870A1 (ja) 演奏システム、演奏方法及び演奏プログラム
JP5310682B2 (ja) カラオケ装置
JP2010200079A (ja) 撮影制御装置
JP5389594B2 (ja) 画像ファイル生成方法、そのプログラム、その記録媒体および画像ファイル生成装置
JP4235635B2 (ja) データ検索装置及びその制御方法
JP6635093B2 (ja) 画像記録装置、画像記録方法及びプログラム
JP5279420B2 (ja) 情報処理装置及び情報処理方法及びプログラム及び記憶媒体
JP7236570B1 (ja) システム、通信端末、及び方法
JP7288491B2 (ja) 情報処理装置、及び制御方法
JP2008042455A (ja) 記録装置及び記録方法
JP2012137560A (ja) カラオケ装置、カラオケ装置の制御方法及び制御プログラム
JP4673916B2 (ja) 情報処理装置、情報処理方法及び情報処理用プログラム
JP3852383B2 (ja) ビデオ再生装置
JP2007104405A (ja) 音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラム
JP5812848B2 (ja) 画像処理装置およびその制御方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110603

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120628

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120706

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120820

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120918

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120924

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121026

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121122

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151130

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 5144424

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees