JP6389296B1

JP6389296B1 - 映像データ処理装置、映像データ処理方法、及びコンピュータプログラム

Info

Publication number: JP6389296B1
Application number: JP2017065066A
Authority: JP
Inventors: 勇一朗浦田; 佳宏西川; 大介堀部
Original assignee: Nippon Telegraph and Telephone West Corp
Current assignee: Nippon Telegraph and Telephone West Corp
Priority date: 2017-03-29
Filing date: 2017-03-29
Publication date: 2018-09-12
Anticipated expiration: 2037-03-29
Also published as: JP2018169697A

Abstract

【課題】映像データに適切なメタデータを付与する映像データ処理装置を提供する。【解決手段】映像データの内容について予め設定された複数のカテゴリごとの文字認識用辞書と音声認識用辞書のどちらか一方又は両方を備える辞書記憶部５０と、映像データに含まれる映像内テキストを、辞書記憶部５０において予め選択された文字認識用辞書を使用して検出する映像内テキスト検出部３０と、映像データに付与された音声を認識して音声認識テキストを生成する音声認識部４０と、映像内テキストから重要語を表すタグを抽出し、該タグと該タグの重要度を生成し、音声認識テキストから重要語を表すタグを抽出し、該タグと該タグの重要度を生成する自然言語処理部７０と、映像内テキストのタグに応じたカテゴリの音声認識用辞書を選択し、音声認識テキストのタグに応じたカテゴリの文字認識用辞書を選択する辞書選択部６０とを備える。【選択図】図１

Description

本発明は、複数の映像データから、目的の映像データを検索する映像データ処理装置、映像データ処理方法、及びコンピュータプログラムに関する。

映像配信サービスの多様化により、視聴できる映像データの数は増加している。また、ディジタルカメラ、携帯端末等による動画撮影が容易になったことから、映像配信サービス以外で得られる映像データの数も急増している。その結果、映像データが氾濫する環境になって来ている。

そのような環境において、目的の映像データを利用者が視聴する為には、映像データに適切なメタデータを付与しておく必要がある。映像データの従来のメタデータの付与方法は、例えば特許文献１に開示されている。

特開２０１０−６８４３４号公報

しかしながら、従来のメタデータの付与方法は、予め登録したキーワードの中から選択したキーワードをメタデータとする方法であり、映像データに適切なメタデータを付与できない。つまり、登録したキーワードに対応しない映像データには、適切なメタデータを付与することが出来ないという課題がある。

本発明は、この課題に鑑みてなされたものであり、映像データに適切なメタデータを付与できる映像データ処理装置、映像データ処理方法、及びプログラムを提供することを目的とする。

本実施形態の一態様に係る映像データ処理装置は、映像データごとに、該映像データを示す映像データ識別子と、映像データの内容を表す映像データタグと、該映像データタグの重要度を表すタグ重要度とを対応付けて記憶するタグデータベースと、映像データの内容について予め設定された複数のカテゴリごとの文字認識用辞書と音声認識用辞書のどちらか一方又は両方を備える辞書記憶部と、映像データに含まれる物体を認識し、該物体を表すタグと該タグの尤度を生成する物体認識部と、該物体の重要度を示すデータを生成する重要度生成部と、映像データに含まれる映像内テキストを、前記辞書記憶部に前記文字認識用辞書が記憶されていれば当該文字認識用辞書を用いて検出する映像データ内テキスト検出部と、映像データに付与された音声を認識した音声認識テキストを、前記辞書記憶部に前記音声認識用辞書が記憶されていれば当該音声認識用辞書を用いて生成する音声認識部と、映像内テキストから重要語を表すタグを抽出し、該タグの前記映像内テキストにおける発生頻度と他のテキストにおける発生頻度とを考慮して該タグの重要度を生成し、前記音声認識テキストから重要語を表すタグを抽出し、該タグの前記音声認識テキストにおける発生頻度と他のテキストにおける発生頻度とを考慮して該タグの重要度を生成する自然言語処理部と、前記映像データ内テキスト検出部で用いた前記文字認識用辞書、及び前記音声認識部で用いた前記音声認識用辞書を、前記映像データ内テキスト検出部で検出した映像内テキストのタグに応じたカテゴリが変化した場合に変化したカテゴリの前記音声認識用辞書に切り替えて選択し、前記音声認識部で検出した音声認識テキストのタグに応じたカテゴリが変化した場合に変化したカテゴリの前記文字認識用辞書に切り替えて選択する辞書選択部と、生成された３種の前記タグの内の２つ又は３つが一致する場合、又は３種の前記タグの内の２つ又は３つが類似する場合、当該タグに対応する重要度に基づいてタグ重要度を求め、当該タグを映像データタグとして、当該タグ重要度に対応する映像データ識別子と、当該映像データタグと、当該タグ重要度を対応付けて前記タグデータベースに記憶する重要度統合部とを備え、前記タグ重要度は、前記一致する又は前記類似するタグを抽出する抽出精度を考慮した値であり、該抽出精度の高いタグに対応する重要度に大きな重みを乗じて求めることを要旨とする。

また、本実施形態の一態様に係る映像データ処理方法は、上記の映像データ処理装置が行う映像データ処理方法であって、前記映像データ処理装置は、映像データごとに、該映像データを示す映像データ識別子と、映像データの内容を表す映像データタグと、該映像データタグの重要度を表すタグ重要度とを対応付けて記憶するタグデータベースと、映像データの内容について予め設定された複数のカテゴリごとの文字認識用辞書と音声認識用辞書のどちらか一方又は両方を備える辞書記憶部とを備え、前記映像データ処理方法においては、映像データに含まれる物体を認識し、該物体を表すタグと該タグの尤度を生成し、該物体の重要度を示すデータを生成し、映像データに含まれる映像内テキストを、前記辞書記憶部に前記文字認識用辞書が記憶されていれば当該文字認識用辞書を用いて映像データからテキストを検出し、映像データに付与された音声を認識した音声認識テキストを、前記辞書記憶部に前記音声認識用辞書が記憶されていれば当該音声認識用辞書を用いて生成し、映像内テキストから重要語を表すタグを抽出し、該タグの前記映像内テキストにおける発生頻度と他のテキストにおける発生頻度とを考慮して該タグの重要度を生成し、前記音声認識テキストから重要語を表すタグを抽出し、該タグの前記音声認識テキストにおける発生頻度と他のテキストにおける発生頻度とを考慮して該タグの重要度を生成し、一度選択した前記文字認識用辞書及び音声認識用辞書を、検出した映像内テキストのタグに応じたカテゴリが変化した場合に変化したカテゴリの前記音声認識用辞書に切り替えて選択し、検出した音声認識テキストのタグに応じたカテゴリが変化した場合に変化したカテゴリの前記文字認識用辞書に切り替えて選択し、生成された３種の前記タグの内の２つ又は３つが一致する場合、又は３種の前記タグの内の２つ又は３つが類似する場合、当該タグに対応する重要度に基づいてタグ重要度を求め、当該タグを映像データタグとして、当該タグ重要度に対応する映像データの識別子と、当該映像データタグと、当該タグ重要度を対応付けて前記タグデータベースに記憶し、前記タグ重要度は、前記一致する又は前記類似するタグを抽出する抽出精度を考慮した値であり、該抽出精度の高いタグに対応する重要度に大きな重みを乗じて求めることを要旨とする。

また、本発明のコンピュータプログラムは、上記の映像データ処理装置としてコンピュータを機能させるようにしたものである。

本発明によれば、映像データを適切に分類したデータベースが生成できる。

本発明の第１実施形態に係る映像データ処理装置の機能構成例を示す図である。図１に示す映像データ処理装置が行うタグデータベース生成の動作フローを示す図である。図１に示すシーン分割部で映像データをシーンに分割した例を示す図である。図１に示す物体認識部で認識した物体の例を示す図である。図１に示す映像データ内テキスト検出部で検出した映像データ内テキストの例を示す図である。図１に示す自然言語処理部が生成する文字認識タグの例を示す図である。図１に示す自然言語処理部が生成する音声認識タグの例を示す図である。図１に示す重要度生成部が生成する重要度の例を示す図である。図１に示す重要度統合部の動作フローの例を示す図である。映像データタグとタグ重要度の例を示す図である。本発明の第２実施形態に係る映像データ処理装置の機能構成例を示す図である。本発明の第３実施形態に係る映像データ処理装置の機能構成例を示す図である。

以下、本発明の実施の形態について図面を用いて説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。

〔第１実施形態〕
図１に、第１実施形態に係る映像データ処理装置１の機能構成例を示す。映像データ処理装置１は、シーン分割部１０、物体認識部２０、映像データ内テキスト検出部３０、音声認識部４０、辞書記憶部５０、辞書選択部６０、自然言語処理部７０、重要度生成部８０、重要度統合部９０、タグデータベース１００、映像管理部１１０、及び映像データベース１２０を備える。映像データ処理装置１は、映像データに含まれる情報に基づいて、映像データに適切なメタデータを付与したデータベースを生成する。以降において、データベースはＤＢと表記する。

タグＤＢ１００は、映像データごとに、該映像データを示す映像データ識別子と、映像データの内容を表す映像データタグと、該映像データタグの重要度を表すタグ重要度とを対応付けて記憶する。映像データタグは、映像データから抽出したキーワードやキーフレーズを表すテキストデータである。

辞書記憶部５０は、映像データの内容について予め設定された複数のカテゴリごとの文字認識用辞書と音声認識用辞書を備える。なお、文字認識用辞書と音声認識用辞書は両方で複数のカテゴリごとに備える必要はない。どちらか一方の辞書を備える様にしても良い。

図２に示す映像データ処理装置１の動作フローを参照してその動作を説明する。なお、図２では、物体認識、映像データ内テキスト検出、及び音声認識を時系列に処理するフローを示すが、各処理は同時（並列）に処理しても良い。

シーン分割部１０は、映像データを複数のシーンに分割する（ステップＳ１）。シーンは、例えば映像データに付与された音声を音声区間ごとに分割した映像の範囲である。又は、映像の区間ごとに分割しても良い。映像の区間ごととは、例えば、映像データを構成する画素の明度の変化が一定の範囲の単位、又は画素の色調の変化が一定の範囲の単位である。なお、分割は一定時間の単位で区切っても良い。

また、シーン分割部１０は、一般的な動画配信システムＡＰＩ（Application Programming Interface）を用いて実現しても良い。動画配信システムＡＰＩとしては、例えばエヌ・ティ・ティアイティ製のviaPlatz（商標登録）を用いることができる。なお、シーン分割部１０の機能は、後述する物体認識部２０、映像データ内テキスト検出部３０、及び音声認識部４０の各機能構成部に含めても良い。

図３に、映像データを、シーン分割部１０で分割した例を示す。図３の１列目は、映像データを識別する映像データ識別子である。２列目は分割したシーンの番号であり、３列目はシーンの時間を示す。映像データ識別子Ａ００１の映像のシーン１は、映像の開始から10秒間、シーン２はシーン１の後の5秒間であることが分かる。なお、時間の分解能は、1秒以下の例えばmsで有っても良い。また、分解能はフレーム単位で有っても良い。

物体認識部２０は、映像データに含まれる物体を認識し、該物体を表すタグと該タグの尤度を生成する（ステップＳ２）。物体認識部２０は、映像データを分割したシーンごとの画像から、例えばＢｏＦ（Bag of Features）法の特徴量を抽出し、予め物体と関連付けられた特徴量と比較することで、画像に映った物体を認識する。

なお、物体認識部２０は、シーンに対応させて物体を認識する必要はない。複数のシーンから物体を認識しても良い。また、画像から抽出する特徴量は、何でも構わない。特徴量は、例えば色ヒストグラム等で有っても良い。又、一般的な画像認識ＡＰＩを用いて物体認識部２０を構成しても良い。

物体認識部２０は、映像データのフレームレートが24f/秒〜60f/秒で有ったとすると、１秒（24〜60フレーム）から例えば1枚の画像を抽出し、該画像から物体を認識する。なお、画像の抽出間隔は、任意で良く、例えば2秒ごと抽出しても良いし、0.5秒ごとに抽出しても良い。

図４に、物体認識部２０で認識した物体の例を示す。図４の１列目は、映像データを識別する映像データ識別子である。２列目は認識した物体を表す物体タグ、３列目は該タグの尤度、４列目は該タグを認識した映像データの開始からの時刻である。

図４の１行目は、映像データ識別子「Ａ００１」の映像データの開始から1秒後の画像から、「金閣寺」が認識され、その尤度は「0.7」で有ることを示している。尤度は、1.0に近い程、その物らしいことを表す。

この例では、映像データの開始から2秒後の画像から「木立」、3秒後の画像から「池」をそれぞれ認識する例を示しているが、1画像から複数のタグを抽出しても良い。又、物体タグは、分割したシーン番号と対応付けても良い。

映像データ内テキスト検出部３０は、映像データに含まれる映像内テキストを、辞書選択部６０において予め選択された文字認識用辞書を使用して検出する（ステップＳ３）。
なお、辞書記憶部５０に文字認識用辞書が記憶されていない場合、映像データ内テキスト検出部３０は、映像データ内テキスト検出部が備える（共通的な）辞書を用いて映像データから映像内テキストを検出する。

映像データに含まれる映像内テキストとは、映像データを構成する画像に映った例えば看板等の文字のことである。又は、スーパーインポーズ（superimpose）で画像に付けられた字幕や、テロップ（telop）等で映される文字のことである。なお、辞書選択部６０が、辞書記憶部５０から最初に選択する文字認識用辞書は、予め設定されている。

図５に、映像データ内テキスト検出部３０で検出した映像内テキストの例を示す。図５の１列目は、映像データを識別する映像データ識別子である。２列目は検出した映像内テキスト、３列目は該映像内テキストを検出した映像データの開始からの時刻である。

図５は、映像データ識別子「Ａ００１」の映像データの開始から1秒後の画像から「秋の金閣寺」の映像内テキストが検出されたことを示している。この映像内テキストは、例えば画像に映された「秋の金閣寺」のテロップから検出される。

自然言語処理部７０は、映像データ内テキストから重要語を表す文字認識タグを抽出し、該タグと該タグの重要度を生成する（ステップＳ４）。自然言語処理部７０は、映像データ内テキストの形態素解析、文脈解析、及び意味解析等を行い映像データ内テキストからキーワード（重要語）を抽出する。そして、例えばＴＦ−ＩＤＦ法を用いてキーワードの重要度を生成する。重要度は、例えば0〜100の範囲の数値情報である。

辞書選択部６０は、映像データ内テキスト検出部３０で検出した映像内テキストから生成された文字認識タグに応じたカテゴリの音声認識用辞書を選択する（ステップＳ５）。例えば文字認識タグが「金閣寺」とした場合のカテゴリは「京都観光」である。

音声認識部４０は、映像データに付与された音声から、辞書選択部６０において予め選択された音声認識用辞書を使用して音声認識テキストを認識する（ステップＳ６）。この例では、「京都観光」のカテゴリに対応する音声認識用辞書が選択される。なお、辞書記憶部５０に音声認識用辞書が記憶されていない場合、音声認識部４０は自らが備える標準（共通的な）辞書を用いて映像データに付与された音声から音声認識テキストを認識する。

音声認識部４０は、一般的な音声認識装置で実現できる。音声認識装置としては、例えばエヌ・ティ・ティアイティ製のSpeech Rec（商標登録）を用いることができる。

映像データに付与された音声を、例えば「秋の紅葉をバックにした金閣寺です。木立の紅葉を背景に、池の水面にその姿を映した見事な景色です。」とした場合、音声認識部４０は、その音声を音声認識テキストに変換して出力する。

自然言語処理部７０は、音声認識テキストから重要語を表す音声認識タグを抽出し、該タグと該タグの重要度を生成する（ステップＳ７）。

辞書選択部６０は、音声認識部４０で認識した音声認識テキストから生成された音声認識タグに応じたカテゴリの文字認識用辞書を選択する（ステップＳ８）。このように辞書選択部６０は、文字認識タグから音声認識用辞書を選択し、音声認識タグから文字認識用辞書を選択する。つまり、辞書選択部６０は、映像データ内テキスト検出部３０と音声認識部４０で使用する辞書を、カテゴリに対応させて決め合う様に動作する。その結果、文字認識タグの検出精度と音声認識タグの認識精度を向上させることが出来る。

つまり、辞書選択部６０は、映像データ内テキスト検出部３０で選択した文字認識用辞書、及び音声認識部４０で選択した音声認識用辞書を、映像データ内テキスト検出部３０で検出した映像内テキストのタグに応じたカテゴリが変化した場合に変化したカテゴリの音声認識用辞書に切り替えて選択し、音声認識部４０で検出した音声認識テキストのタグに応じたカテゴリが変化した場合に変化したカテゴリの文字認識用辞書に切り替えて選択する。

図６に、自然言語処理部７０が生成した文字認識タグと重要度の例を示す。図６の１列目は映像データ識別子、２列目は文字認識タグ、３列目は重要度、４列目は時刻である。

図６に、自然言語処理部７０が生成した音声認識タグと重要度の例を示す。図６の１列目は映像データ識別子、２列目は音声認識タグ、３列目は重要度、４列目は時刻である。この例では、映像データ識別子Ａ００１で識別される映像データの開始から1秒に「秋」と「金閣寺」の映像テキストタグが生成されたことを示している。

図７に、自然言語処理部７０で生成した音声認識テキストとその重要度を例示する。図７の列方向は、タグが音声認識タグである点が異なるだけで図６と同じである。

図７に示す例は、音声認識テキストを、「秋の紅葉をバックにした金閣寺です。木立の紅葉を背景に、池の水面にその姿を映した見事な景色です。」とした場合である。その音声認識テキストから、「秋」、「紅葉」、「金閣寺」、「木立」、「池」、及び「水面」の音声認識タグを生成する。

各々の音声認識テキストの重要度は、「秋」が90、「紅葉」が80、「金閣寺」が90、「木立」が50、「水面」が60、である。各々の音声認識テキストが生成された時刻は、順に、「秋」が5秒、「紅葉」が6秒、「金閣寺」が8秒、「木立」が10秒、「水面」が11秒である。「水面」以降の音声認識テキストと重要度の表記は省略している。

重要度生成部８０は、物体認識部２０が認識した物体タグの重要度を示すデータを生成する（ステップＳ６）。重要度は、物体タグの物体が画像に占める割合で有っても良い。例えば、画像における「金閣寺」の像の割合が60％以上であれば重要度を例えば90、像の割合が50％以下であれば重要度を50といった様に、画像中に占める物体の面積の割合に対応させて重要度を生成する。又は、物体認識部２０が出力する尤度を重要度に変換しても良い。例えば、尤度を100倍した値を重要度として用いても良い。

図８に、重要度生成部８０が生成した重要度の例を示す。図８の列と行は、尤度が重要度に代わった点が異なるだけで図４と同じである。図８に示す重要度の例は、図４に示した尤度を100倍した値である。

重要度統合部９０は、生成された３種のタグの内の２つ又は３つが一致する場合、又は３種のタグの内の２つ又は３つが類似する場合、当該タグに対応する重要度に基づいてタグ重要度を求め、当該タグを映像データタグとして、当該タグ重要度に対応する映像データ識別子と、当該映像データタグと、当該タグ重要度を対応付けてタグＤＢ１００に記憶する（ステップＳ９）。生成された３種のタグとは、上記の「物体タグ」、「文字認識タグ」、「音声認識タグ」である。

タグの類似の判定は、重要度統合部７０が備える類似語辞書や表現ゆらぎ辞書を参照して行う。図１において、類似語辞書及び表現ゆらぎ辞書の表記は省略している。

重要度統合部９０は、一致する又は類似するタグに対応する重要度に基づいてタグ重要度を求め、一致する又は類似するタグを映像データタグとする。一致するタグは、映像データの内容を、より良く表すタグであると考えられる。

そこで、３種のタグ（「物体タグ」、「文字認識タグ」、「音声認識タグ」）が一致する例えば「金閣寺」を映像データタグとし、そのタグ重要度を各々の重要度の例えば合計（70+90+90=250）とする。そして、映像データを識別する映像データ識別子と映像データタグとタグ重要度を、対応付けてタグＤＢ１００に記憶する。

一方、映像データは、映像管理部１１０によって、映像データを示す映像データ識別子と対応付けられて映像ＤＢ１２０に記憶されている。したがって、タグＤＢ１００を、タグ重要度の大きい順に検索することで、視聴したい映像データの映像データ識別子を的確に抽出することができる。

その後、抽出した映像データ識別子で、映像ＤＢ１２０を検索することで所望の映像データを取り出すことができる。なお、映像データは、シーン単位で検索することも可能である。

タグＤＢ１００から目的の映像データの映像データ識別子を検索し、該映像データ識別子に対応する映像データを映像ＤＢ１２０から取り出す処理は、映像検索部が行う。なお、図１において映像検索部の表記は省略している。

以上説明したように本実施形態の映像データ処理装置１が行う映像データ処理方法は、映像データに含まれる物体を認識し、該物体を表すタグと該タグの尤度を生成し、該物体の重要度を示すデータを生成し、映像データに含まれる映像内テキストを、辞書記憶部５０に文字認識用辞書が記憶されていれば当該文字認識用辞書を用いて映像データからテキストを検出し、映像データに付与された音声を認識した音声認識テキストを、辞書記憶部５０に音声認識用辞書が記憶されていれば当該音声認識用辞書を用いて生成し、映像内テキストから重要語を表すタグを抽出し、該タグと該タグの重要度を生成し、音声認識テキストから重要語を表すタグを抽出し、該タグと該タグの重要度を生成し、一度選択した前記文字認識用辞書及び音声認識用辞書を、検出した映像内テキストのタグに応じたカテゴリが変化した場合に変化したカテゴリの音声認識用辞書に切り替えて選択し、検出した音声認識テキストのタグに応じたカテゴリが変化した場合に変化したカテゴリの文字認識用辞書に切り替えて選択し、生成された３種の前記タグの内の２つ又は３つが一致する場合、又は３種のタグの内の２つ又は３つが類似する場合、当該タグに対応する重要度に基づいてタグ重要度を求め、当該タグを映像データタグとして、当該タグ重要度に対応する映像データの識別子と、当該映像データタグと、当該タグ重要度を対応付けてタグＤＢ１００に記憶する。

この本実施の形態の映像データ処理方法によれば、映像データを適切に分類したデータベース（タグＤＢ１００）を生成することができる。次に、重要度統合部７０の動作を更に詳しく説明する。

〔重要度統合部〕
図９に示す重要度統合部９０の動作フローを参照してその動作を説明する。

重要度統合部９０は、ダグＤＢ１００に記憶された１つのタグが、３つのタグ種の間（物体タグ、文字認識タグ、音声認識タグ）で、一致する又は類似する物が有るか否かを判定する（ステップＳ９０）。以降では、図６、図７、図８において同じ映像データ識別子に対応する同じタグの有無を判定する例で説明する。

一致するタグが無い場合、例えば音声認識タグしか存在しない「水面」については、音声認識タグをそのまま映像データタグとし（ステップＳ９１）、音声認識タグの重要度をタグ重要度とし、映像データ識別子と対応付けてタグＤＢ１００に記憶する（ステップＳ９２）。そして、他のタグ（物体タグ、文字認識タグ、音声認識タグ）について一致するものが有るか否かの判定に戻る（ステップＳ９０のＮＯ→ステップＳ９３のＮＯ）。この繰り返しは、全ての映像データについて終了（ステップＳ９３のＹＥＳ）するまで繰り返される。

一致するタグが有る場合は、全てのタグ種が一致するか否かを判定する（ステップＳ９４）。全てのタグ種が一致する場合（ステップＳ９４のＹＥＳ）、重要度統合部９０は、一致するタグに対応する重要度に基づいてタグ重要度を求める（ステップＳ９５）。タグ重要度は、例えば一致するタグに対応する重要度の合計を2倍した値である。全てのタグが一致するタグは、上記の例では「金閣寺」である。なお、タグ重要度の値は、各重要度の平均値で有っても良い。

次に重要度統合部９０は、当該一致するタグを映像データタグとして、当該タグ重要度に対応する映像データの識別子と、当該映像データタグと、当該タグ重要度を対応付けてタグＤＢ１００に記憶する（ステップＳ９６）。

全てのタグが一致しない場合（ステップＳ９４のＮＯ）、重要度統合部９０は、次に２つのタグ種が一致するか否かを判定する（ステップＳ９７）。２つのタグ種が一致しない場合は、ステップＳ９０に戻る。つまり、異なるタグ種間で一致するタグが無い場合、重要度の値は変化せずそのままタグ重要度としてタグＤＢ１００に記憶される。

２つのタグ種が一致する場合（ステップＳ９７のＹＥＳ）、重要度統合部９０は、一致するタグに対応する重要度に基づいてタグ重要度を求める（ステップＳ９８）。２つのタグ種間でタグが一致する場合のタグ重要度は、例えば一致するタグに対応する重要度の合計を1.5倍した値である。2つのタグ種で一致するタグは、上記の例では「秋」である。このように、タグ重要度は、各重要度の合計値又は平均値に、一致するタグの数が多いほど大きな重みが乗ぜられた値になる。

なお、タグ重要度は、一致するタグを抽出する抽出精度を考慮した値にしても良い。つまり、タグ重要度は一致するタグを抽出する抽出精度を考慮した値であり、抽出精度の高いタグに対応する重要度に、大きな重みを乗じて求めても良い。抽出精度とは、画像認識、文字認識、及び音声認識のそれぞれの認識精度のことである。

具体的には、例えば音声認識テキストの認識精度が、物体認識の認識精度よりも高い場合、音声認識テキストから抽出した音声認識タグに対応する重要度に大きな重みを乗じる。また、物体認識の認識精度が、音声認識テキストの認識精度よりも高い場合、物体認識で認識した物体タグに大きな重みを乗じる。要するに、タグ重要度＝物体タグの重要度×重みα＋文字認識タグの重要度×重みβ＋音声認識タグの重要度×重みγのそれぞれの重みα，β，γの値を認識精度に応じて変えても良い。

次に重要度統合部９０は、2つのタグ種が一致するタグを映像データタグとして、当該タグ重要度に対応する映像データの識別子と、当該映像データタグと、当該タグ重要度を対応付けてタグＤＢ１００に記憶する（ステップＳ９９）。

図１０に、タグＤＢ１００に記憶された映像データタグとタグ重要度の例を示す。図１０の１列目は映像データ識別子、２列目は映像データタグ、３列目はタグ重要度である。全てのタグ種間で一致する映像データタグである「金閣寺」のタグ重要度は360で最も高い値である。文字認識タグと音声認識タグの２つが生成された映像データタグである「秋」のタグ重要度は270である。音声認識タグのみが生成された映像データタグである「水面」のタグ重要度は60である。

以上説明したステップＳ９０〜９９の処理によって、一致するタグ種の数が多い程、そのタグに対応するタグ重要度の値は大きくなる。タグ種間で一致しないタグの重要度は、重要度生成部８０と自然言語処理部７０が生成する重要度の値から変化しない。

以上説明したステップＳ９０〜９９の処理によって、一致するタグ種の数が多い程、そのタグに対応するタグ重要度の値は大きくなる。タグ種間で一致しないタグのタグ重要度は、重要度生成部８０と自然言語処理部７０で生成する重要度の値から変化しない。

このように映像データ処理装置１は、映像データの内容をより良く表す映像データタグのタグ重要度の値を、大きくしてタグＤＢ１００に記憶する。本実施形態の映像データ処理装置１によれば、映像データに適切なメタデータを付与したデータベースが生成できる。

なお、図９に示す例では、タグの一致を判定したが、上記のようにタグの類似を判定しても良い。また、タグの一致と類似の両方を判定するようにしても良い。

〔第２実施形態〕
図１１に、第２実施形態に係る映像データ処理装置２の機能構成例を示す。映像データ処理装置２は、映像データ処理装置１の重要度統合部９０に代えてタグ管理部１３０を備える点で異なる。映像データ処理装置２は、タグ種の間で一致するタグに対応する重要度の統合を行わない。

タグ管理部１３０は、生成された３つのタグのそれぞれを映像データダグとし、且つそれぞれの重要度をタグ重要度とし、当該タグ重要度に対応する映像データの識別子と、当該映像データタグと、当該タグ重要度を対応付けてタグＤＢ１００に記憶する。

タグ管理部１３０は、「物体タグ」とその重要度、「文字認識タグ」と重要度、及び「音声認識タグ」とその重要度を、それぞれのタグを抽出した映像データ識別子に対応させ、それぞれのタグを映像データタグとし、それぞれのタグに対応する重要度をタグ重要度としてタグＤＢ１００に記憶する。つまり、各タグと重要度は、そのまま映像データ識別子とタグ重要度としてタグＤＢ１００に記憶される。

「文字認識タグ」と「音声認識タグ」は、辞書選択部６０が、映像データ内テキスト検出部３０と音声認識部４０で使用する辞書を、タグのカテゴリに対応させて決め合う様に動作して生成されたものである。よって、「文字認識タグ」と「音声認識タグ」の検出精度と認識精度は、比較的に高い。つまり、映像データ処理装置２は、映像データを適切に分類したデータベース（タグＤＢ１００）を生成することができる。

〔第３実施形態〕
図１２に、第３実施形態に係る映像データ処理装置３の機能構成例を示す。映像データ処理装置３は、物体認識部２３を備える点で、映像データ処理装置２と異なる。

物体認識部２３は、複数のカテゴリに対応する物体のそれぞれの特徴を表す特徴量を記憶し、辞書選択部６０が選択した文字認識用辞書のカテゴリ又は音声認識用辞書のカテゴリに、それぞれ対応するカテゴリの特徴量を使用する。

例えば辞書選択部６０が、「京都観光」のカテゴリを選択した場合、物体認識部２０は、「京都観光」のカテゴリに対応する特徴量を用いて画像を認識する。「京都観光」のカテゴリに対応する特徴量とは、例えば京都に所在する神社仏閣に関する特徴量である。

このように物体認識部２３の特徴量についてもカテゴリ対応させることで、物体認識の認識精度を向上させることができる。

以上の実施形態では、映像データを示す映像データ識別子と各タグを対応付ける例で説明を行ったが、本実施形態はこの例に限られない。シーン分割部１０で映像データを分割したシーンと各タグを対応付けるようにしても良い。この場合、映像のシーンの単位で目的の映像データを検索することが出来る。

また、物体タグ、文字認識タグ、及び音声認識タグの全てが一致するか否かの例で説明を行ったが、全てのタグ種間での一致の判定は不要である。例えば、文字認識タグと音声認識タグの間の一致を判定するだけでも良い。また、第３実施形態の映像データ処理装置３は、映像データ処理装置２の物体認識２０を、物体認識部２３に変更する例で説明を行ったが、映像データ装置の物体認識２０を物体認識部２３に変更しても良い。

このように本発明は、上記した実施形態に限定されるものではなく、その要旨の範囲内で数々の変形が可能である。

上記装置における処理部をコンピュータによって実現する場合、各処理部が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記装置における処理部がコンピュータ上で実現される。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としても良い。

１：映像データ処理装置
１０：シーン分割部
２０、２３：物体認識部
３０：映像データ内テキスト検出部
４０：音声認識部
５０：辞書記憶部
６０：辞書選択部
７０：自然言語処理部
８０：重要度生成部
９０：重要度統合部
１００：タグデータベース
１１０：映像管理部
１２０：映像データベース

Claims

映像データごとに、該映像データを示す映像データ識別子と、映像データの内容を表す映像データタグと、該映像データタグの重要度を表すタグ重要度とを対応付けて記憶するタグデータベースと、
映像データの内容について予め設定された複数のカテゴリごとの文字認識用辞書と音声認識用辞書のどちらか一方又は両方を備える辞書記憶部と、
映像データに含まれる物体を認識し、該物体を表すタグと該タグの尤度を生成する物体認識部と、
該物体の重要度を示すデータを生成する重要度生成部と、
映像データに含まれる映像内テキストを、前記辞書記憶部に前記文字認識用辞書が記憶されていれば当該文字認識用辞書を用いて検出する映像データ内テキスト検出部と、
映像データに付与された音声を認識した音声認識テキストを、前記辞書記憶部に前記音声認識用辞書が記憶されていれば当該音声認識用辞書を用いて生成する音声認識部と、
映像内テキストから重要語を表すタグを抽出し、該タグの前記映像内テキストにおける発生頻度と他のテキストにおける発生頻度とを考慮して該タグの重要度を生成し、前記音声認識テキストから重要語を表すタグを抽出し、該タグの前記音声認識テキストにおける発生頻度と他のテキストにおける発生頻度とを考慮して該タグの重要度を生成する自然言語処理部と、
前記映像データ内テキスト検出部で用いた前記文字認識用辞書、及び前記音声認識部で用いた前記音声認識用辞書を、前記映像データ内テキスト検出部で検出した映像内テキストのタグに応じたカテゴリが変化した場合に変化したカテゴリの前記音声認識用辞書に切り替えて選択し、前記音声認識部で検出した音声認識テキストのタグに応じたカテゴリが変化した場合に変化したカテゴリの前記文字認識用辞書に切り替えて選択する辞書選択部と、
生成された３種の前記タグの内の２つ又は３つが一致する場合、又は３種の前記タグの内の２つ又は３つが類似する場合、当該タグに対応する重要度に基づいてタグ重要度を求め、当該タグを映像データタグとして、当該タグ重要度に対応する映像データ識別子と、当該映像データタグと、当該タグ重要度を対応付けて前記タグデータベースに記憶する重要度統合部と
を備え、
前記タグ重要度は、前記一致する又は前記類似するタグを抽出する抽出精度を考慮した値であり、該抽出精度の高いタグに対応する重要度に大きな重みを乗じて求める
ことを特徴とする映像データ処理装置。
前記重要度統合部に代えてタグ管理部を備え、
前記タグ管理部は、生成された３種の前記タグのそれぞれを映像データダグとし、且つそれぞれの重要度をタグ重要度とし、当該タグ重要度に対応する映像データの識別子と、当該映像データタグと、当該タグ重要度を対応付けて前記タグデータベースに記憶する
ことを特徴とする請求項１に記載の映像データ処理装置。
前記物体認識部は、複数のカテゴリに対応する物体のそれぞれの特徴を表す特徴量を記憶し、前記辞書選択部が選択した文字認識用辞書のカテゴリ又は音声認識用辞書のカテゴリに、それぞれ対応するカテゴリの前記特徴量を使用して映像データに含まれる物体を認識することを特徴とする請求項１又は２に記載の映像データ処理装置。
映像データ処理装置が行う映像データ処理方法であって、
前記映像データ処理装置は、
映像データごとに、該映像データを示す映像データ識別子と、映像データの内容を表す映像データタグと、該映像データタグの重要度を表すタグ重要度とを対応付けて記憶するタグデータベースと、
映像データの内容について予め設定された複数のカテゴリごとの文字認識用辞書と音声認識用辞書のどちらか一方又は両方を備える辞書記憶部とを備え、
前記映像データ処理方法においては、
映像データに含まれる物体を認識し、該物体を表すタグと該タグの尤度を生成し、
該物体の重要度を示すデータを生成し、
映像データに含まれる映像内テキストを、前記辞書記憶部に前記文字認識用辞書が記憶されていれば当該文字認識用辞書を用いて映像データからテキストを検出し、
映像データに付与された音声を認識した音声認識テキストを、前記辞書記憶部に前記音声認識用辞書が記憶されていれば当該音声認識用辞書を用いて生成し、
映像内テキストから重要語を表すタグを抽出し、該タグの前記映像内テキストにおける発生頻度と他のテキストにおける発生頻度とを考慮して該タグの重要度を生成し、前記音声認識テキストから重要語を表すタグを抽出し、該タグの前記音声認識テキストにおける発生頻度と他のテキストにおける発生頻度とを考慮して該タグの重要度を生成し、
一度選択した前記文字認識用辞書及び音声認識用辞書を、検出した映像内テキストのタグに応じたカテゴリが変化した場合に変化したカテゴリの前記音声認識用辞書に切り替えて選択し、検出した音声認識テキストのタグに応じたカテゴリが変化した場合に変化したカテゴリの前記文字認識用辞書に切り替えて選択し、
生成された３種の前記タグの内の２つ又は３つが一致する場合、又は３種の前記タグの内の２つ又は３つが類似する場合、当該タグに対応する重要度に基づいてタグ重要度を求め、当該タグを映像データタグとして、当該タグ重要度に対応する映像データの識別子と、当該映像データタグと、当該タグ重要度を対応付けて前記タグデータベースに記憶し、
前記タグ重要度は、前記一致する又は前記類似するタグを抽出する抽出精度を考慮した値であり、該抽出精度の高いタグに対応する重要度に大きな重みを乗じて求める
ことを特徴とする映像データ処理方法。
請求項１乃至３の何れかに記載した映像データ処理装置としてコンピュータを機能させるためのコンピュータプログラム。