JP3361587B2

JP3361587B2 - 動画像検索装置及び方法

Info

Publication number: JP3361587B2
Application number: JP33050793A
Authority: JP
Inventors: 晃朗長坂; 博唯上田
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1993-12-27
Filing date: 1993-12-27
Publication date: 2003-01-07
Anticipated expiration: 2018-01-07
Also published as: JPH07192003A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、動画像中の字幕の現わ
れているシーンを検出し、そのシーンの代表画像を重要
度の高い画像として一覧表示することにより所望のシー
ンの検索を行う動画像検索装置及び方法に関する。

【０００２】

【従来の技術】近年，計算機の高速化と大容量化を背景
にして，従来は扱えなかった映画やビデオなどの動画像
情報を対象としたデータベースの構築が活発になってい
る。これに伴い，蓄積された大量の動画像の中から、所
望のシーンを効率良く選び出す検索技術の実用化が進め
られている。動画像の検索には大きく分けて２つのアプ
ローチがある。 (1) 動画像に予めシーンの特徴を記述したインデックス
やキーワードを付与し、ユーザが検索時に言葉や条件式
などで所望のシーンの特徴を指示し，計算機がそれに合
致したシーンを見つけ出す方法。 (2) 映像の概要を示すために動画像を何等かの基準で抽
出しそれらを直接ユーザに提示することで、ユーザが自
分の目で確認しながら所望のシーンを見つけ出す方法。

【０００３】(1)の方法は，見たいシーンについて曖昧
な記憶や情報しか持ち合わせていない一般ユーザにとっ
ては適切な条件設定が困難で自由な検索が妨げられると
いう問題がある。(2)の方法であれば，提示された映像
の概要を見ながら，所望のシーンかどうかを識別するだ
けでよいので，初心者にも簡単に検索を行うことができ
る。しかしながら，検索を効率良く行うためにはこうし
た概要のために抽出される画像の数は十分小さくなけれ
ばならず，膨大な動画像情報の中から重要な部分だけを
上手に選びだして概要を作成する必要がある。この概要
の作成は莫大な時間と労力を消費するため、手作業は実
用的ではない。自動的に動画像の中から代表画像を抽出
する一方法が情報処理学会論文誌 Vol.33, No.4, "カラ
ービデオ映像における自動索引付け法と物体探索法"に
示されている。この方法は動画像をシーンごとに自動的
に分割して，各シーン中の一枚の画像あるいは部分的な
動画像を縮小して一覧表示することで検索の手掛かりと
するものである。しかしこの方法においては，シーンの
重要な部分がその一覧中に含まれないことが起こりうる
一方、そもそもシーン自体が重要でない場合にも一覧に
登録されてしまうという問題がある。

【０００４】上述の問題を解決するためには，一覧とし
て表示する画像の重要度を何らかの尺度で測り，重要度
の高いものを選ぶ必要がある。しかも，実用的であるた
めには、この作業は計算機によって自動で行えるか，あ
るいは人間の作業が最小限になるよう計算機による支援
により行えるものである必要がある。特定のシーンを自
動的に検出する方法として、字幕が現れているシーンを
検出する方法がある。このような方法として、第44回情
報処理学会全国大会予稿集,2-301, "大相撲対戦からの
認識に基づく内容識別法"に記載のものがある。

【０００５】

【発明が解決しようとする課題】この"大相撲対戦から
の認識に基づく内容識別法"に記載の字幕検出方法は，
相撲中継の対戦字幕など定まった表示形態をした特定字
幕を検出するものである。例えば、対戦字幕であれば、
白色の字幕（力士名）が画面の左半分と右半分のそれぞ
れ中央に大きく提示されることに着目し、画像を白色に
対して二値化して、その白色の画素の分布状況を検出す
ることにより実行される。従って、特定の番組の，しか
も，特定の表示形態をした字幕部分を検出することしか
できないという本質的な問題がある。そのため，この方
法をそのまま適用しても、別の番組はもとより同じ番組
でも表示形態の異なる字幕は検出できないため，一般の
映像について概要情報を作成することはできない。

【０００６】本発明の目的は，動画像中に現われる様々
な形態の字幕を検出し、字幕の現れているシーンの代表
画像を動画像中から自動的に選び出すことによって的確
な映像の概要を作成し，また、ユーザが簡単に所望のシ
ーンを探しだし、有効に活用するべく、そのようにして
抽出された代表画像を各種の字幕の特徴を利用して提示
する動画像検索装置および方法を提供することである。

【０００７】

【課題を解決するための手段】動画像として取り込んだ
デジタル画像データについて、フレーム画像ごとに第一
の閾値以上の輝度を有する画素を抽出する輝度判定手段
と、その抽出された画素について、一連のフレーム画像
について同位置に現われる画素を有するフレーム画像を
抽出するフレーム照合手段を設け、抽出されたフレーム
画像を上記代表画像として出力する。

【０００８】更に、輝度判定手段により抽出された画素
について、近傍がその輝度と比較して輝度の差が第二の
閾値以上である画素を抽出する輝度差判定手段と、フレ
ーム照合手段により抽出されたフレーム画像について同
位置に現われる画素が密に存在する領域を字幕の現われ
ている領域として抽出する字幕領域抽出手段を設ける。

【０００９】また、検出された字幕領域の情報を使っ
て、得られた代表画像を動画像表示手段に提示する。特
に、ユーザに対してわかりやすく提示するために、字幕
の表示形態による分類に基づいて代表画像を提示する。
あるいは、字幕の存在時間によって字幕の上位・下位を
判定し代表画像を階層化して提示する。さらに、字幕の
文字認識を行い、同一文字列の存在による分類に基づき
代表画像を提示する。または文字認識した結果を分類す
るための辞書とこれを参照する手段を設け、代表画像を
字幕の意味内容により分類して提示する。また，一度に
多くのシーンの画像を一覧表示しようとして，シーン画
像の１つ１つが小さくなって字幕が読みにくくなる場合
のために，字幕部分だけを拡大して表示する手段を設け
る。

【００１０】

【作用】本発明によれば，字幕の表示形態に関わらず，
任意の形態をした字幕の現れているシーンだけを選別で
きる。輝度は、様々な形態についての字幕の有無の指標
として最も適切なものである。一般的に字幕は白で表わ
されることが多いが、ニュースの字幕等白色に限られな
いものも多い。輝度であれば、どのような形態の字幕で
あっても一元的な指標として判定することができる。

【００１１】本発明では、字幕が輝度の高い画素で構成
されていることに注目し、輝度判定手段により高輝度画
素を抽出する。また、字幕が一定時間、一定位置に提示
されることから、輝度判定手段により抽出された画素に
ついてフレーム照合手段によりフレーム画像上に現われ
る位置を照合し、一定時間同じ位置に同じ画素が現われ
ているフレーム画像を抽出する。

【００１２】更に、字幕を構成する文字は背景と接触す
る領域が大きいことから、輝度判定手段により抽出され
た画素について周辺画素との輝度差を判定する輝度差判
定手段を設けることにより、文字のエッジ部分を抽出す
る。この場合、フレームの照合は輝度差判定手段により
抽出された画素について行う。また、文字を構成する画
素は密に存在することから、字幕領域抽出手段を設け、
フレーム照合された画素について密に存在するかどうか
を判定する。

【００１３】このようにして検出した字幕の現われてい
るフレーム画像を一覧にして提示することにより、ユー
ザは一覧の中から所望のシーンを素早く探しだすことが
できる。さらに字幕は映像内容に対応するものであるか
ら、このようにして検出した字幕情報を使って、単なる
代表画像の一覧表示にとどまらず、代表画像を各種の方
法で分類し、ある意味的まとまりをもたせて代表画像を
ユーザに提示することにより、動画像検索をわかりやす
く有効に活用するために資することができる。具体的に
は、字幕の種類で分類する手段を設けることによって、
探す範囲を絞り込むことができ、より素早く所望のシー
ンを探し出すことができる。また、字幕の上位・下位を
判定する手段を設けることによって、階層的な探索がで
きる。さらに、字幕を文字認識する手段を設けること
で、ユーザが直接提示した任意の文字列をキーとした検
索が可能になる。文字認識した結果を分類するための辞
書と、これを参照する手段を設けることによって、字幕
をその意味合いによって分類することができる。また，
字幕部分だけを拡大して表示する手段を設けることによ
って，一覧のシーン画像の１つ１つが小さいときでも，
文字がつぶれてユーザが読みにくくなることがない。

【００１４】

【実施例】以下，本発明の一実施例を詳細に説明する。
図１は，本発明を実現するためのシステム構成の一例で
ある。１はＣＲＴ等のディスプレイ装置であり，コンピ
ュータ４の出力画面を表示する。コンピュータ４に対す
る命令は，ポインティングデバイス５を使って行うこと
ができる。１０の動画像再生装置は，光ディスクやビデ
オデッキ等である。動画像再生装置から出力される映像
信号は，逐次，３のＡ／Ｄ変換器によってデジタル画像
データに変換され，コンピュータに送られる。コンピュ
ータ内部では，デジタル画像データは，インタフェース
８を介してメモリ９に入り，メモリ９に格納されたプロ
グラムに従って，ＣＰＵ７によって処理される。１０が
扱う動画像の各フレームには，動画像の先頭から順に番
号（フレーム番号）が付けられている。フレーム番号を
制御線２によって動画像再生装置に送ることで，当該場
面の動画像が再生される。処理の必要に応じて，各種情
報を外部情報記憶装置６に蓄積することができる。メモ
リ９には，以下に説明する処理によって作成される各種
のデータが格納され，必要に応じて参照される。

【００１５】図２ａ）は、ＣＰＵ７によって実行される
処理をブロック図で示したものである。矢印は信号また
はデータの流れを示している。ＣＰＵ７の処理動作は、
大きく５つの処理部分に分けられる。字幕検出処理部１
７００は図１に示した動画像再生装置１０からＡ／Ｄ変
換器３を通してデジタル画像として取り込まれ、メモリ
９及び外部情報記憶装置６に記憶された動画像情報を受
取り、字幕検出処理を実行する。その処理により得られ
る字幕の位置や大きさなどの情報、及び一覧として提示
される画像データは後述するデータ構造体の形式で記憶
される（１７１０，１７１２）。画像情報管理部１７０
２はそれらのデータの入出力を管理する。１７０６はユ
ーザ・インタフェース部であり、ユーザからの各種の指
示を受け付ける。ユーザ・インタフェース部１７０６か
ら画像情報管理部１７０２への矢印は、後述する字幕検
出修正処理の指示に対応するものである。また、映像の
概要である一連の代表画像の提示についての指示はユー
ザ・インタフェース部１７０６から画像提示処理部１７
０４に伝達される。画像提示処理部１７０４はその指示
に応じて画像情報管理部１７０２を通じて字幕属性情報
データ、画像データを受け取って解析し、一連の画像情
報をユーザからの指示に対応するフォーマットで画像表
示部１７０８に伝達する。画像表示部１７０８は、ディ
スプレイ装置１に伝達された画像を提示する。ＧＵＩを
使用すれば、ユーザ・インタフェース部１７０６への入
力と画像表示部１７０８からの出力は同じディスプレイ
装置１の画面上に実現することができる。

【００１６】まず、字幕検出処理について説明する。本
実施例での方法は，動画像中のフレーム（動画像を構成
する最小単位の画像）を逐次調べ，字幕が現れているか
どうかを識別するものである。本実施例の方法は，字幕
に普遍的と考えられる特徴として， 1) 字幕の各文字は輝度の高い色で表示されること， 2) 文字の色とその背景の色との間には大きな輝度差が
あること， 3) 文字の現れている領域には，上記2)のような大きな
輝度差がある画素の対が比較的密集していること， 4) 文字は背景の変化にかかわらず一定時間同じ位置に
存在すること，の４つの特徴を用いて字幕検出を行っている。1)と2)に
ついては，字幕では，視聴者が文字を読みやすいよう背
景に比べて目立つ色が用いられることが多いことを利用
している。もちろん，文字の背景の輝度が高い場合に
は，逆に文字を輝度の低い色で表示する場合もあるの
で，そのときは，1)の条件を輝度の低い色と置き換える
必要がある。これは、輝度の高い場合の処理と輝度の低
い場合の処理を双方実行するようにすればよい。その場
合、いずれか一方はその他の字幕検出のための特徴量に
よる基準を満たさないため自動的に輝度の高い字幕も輝
度の低い字幕も検出することができる。3)は，文字が入
り組んだ複雑な形状をしているために，文字の色と背景
の色とが境界を接する部分が単位面積あたりでみると比
較的多く，その結果，輝度差が高い画素の対が多くなる
ことに着目している。本実施例では、4)について一定時
間同じ位置に存在するという条件を採用している。しか
し、字幕が同じ位置に存在せず、一定方向に移動する場
合等（例えば、文字が動画像の下部を左から右に流れる
場合）もあり、その場合には、所定の時間間隔で想定し
得る移動方向を考慮して、文字が存在するか否かを検出
する条件を加えればよい。

【００１７】図２ｂ）に字幕検出処理部の詳細を示す。
輝度判定部１８００は、フレーム画像のデジタル画素デ
ータの入力を受け、高輝度画素を抽出する(条件1))。輝
度差判定部１８０２は、抽出された高輝度画素に対して
近傍の画素の輝度と比較して輝度差の高い画素を抽出す
る(条件2))。この処理は、文字のエッジを構成する画素
を抽出することに相当する。次に、抽出された高輝度差
画素が一定時間同一位置にあることを判定するため、フ
レーム照合部１８０４において一連のフレームを照合す
る(条件4))。この照合を行うためには、照合すべき一連
のフレームの情報を記憶しておく必要がある。この情報
はメモリ９に一時的に記憶され処理にあたって参照され
る。これらの処理により得られた字幕のエッジを構成す
る画素の候補について、条件3)を適用する。字幕領域抽
出部１８０６では、候補画素についての存在分布をとり
候補画素が字幕であるかを判定し、字幕を構成している
領域を切り出し、後述するデータ構造体のフォーマット
で字幕に関する情報をメモリに記憶する。閾値管理部１
８０８は、上記の抽出、判定処理を実行するための閾値
を設定および保存する。

【００１８】ただし、本実施例では字幕検出を最も正確
に行える構成として上記４条件による判定を実施するも
のを説明しているが、これら４つの条件には重要性に相
違がある。特に重要なものは、条件1)による高輝度画素
の検出と条件4)によるフレーム画像の照合である。この
２つの条件判定による実施例については、別の実施例と
して後述する。

【００１９】図３に示したフローチャートに即して、本
実施例の方法を詳細に説明する。上記フローチャートを
実現するプログラムはメモリ９に格納される。ＣＰＵ７
はまず最初に初期化処理として，時間を表す変数ｔを０
にする（１００）。ここでいう変数ｔは，フレーム番号
とほぼ同義である。次に，動画像再生装置１０を制御し
て動画像を再生し，フレーム画像をＡ／Ｄ変換器３を使
ってw×hのサイズのデジタル画像としてメモリ９に取り
込む（１０２）。このサイズは任意であるが本アルゴリ
ズムの性質上，検出の信頼性を高めるためにはそのデジ
タル画像において文字を構成する線と線の間がつながら
ない程度に十分大きなサイズであることが望ましい。こ
の場合には字幕検出に必要な特徴が保持されている。そ
して，時間tの時点に対して，w×hのサイズの三次元配
列E(x, y, t)を用意する。

【００２０】取り込んだ画像の各画素について，その画
素が字幕を形成する画素の一つになっているかどうかを
見極めるため，以下の処理を行う（１０６）〜（１２
４）。 (1) 輝度（濃度）レベルが閾値th1以上かどうかを判定
する（１０８）。閾値以上であれば，１１０に進み，さ
もなければ，字幕とは無関係の画素であるとして１１６
を実行し，現在の画素座標に対応する配列Eのデータ領
域に0を代入する。 (2) ８近傍の画素，すなわち，現在の画素の座標が(x,
y)のとき，(x-1, y-1)，(x, y-1)，(x+1, y-1)，(x-1,
y)，(x+1, y)，(x-1, y+1)，(x, y+1)，(x+1, y+1)の座
標に位置する８つの画素と，現在の画素との間でそれぞ
れ輝度の差を求め，輝度の差が閾値th2以上のものがあ
るかどうかを調べる（１１０）。もし，一つでもあれ
ば，１１２に進み，なければ１１６に進む。

【００２１】(3) 輝度差が８近傍の画素全てで閾値を超
えているかを判定する（１１２）。全てで閾値を超えて
いる場合は，その画素は孤立点であり，逆にノイズであ
る可能性が高いので，これは字幕と無関係な画素である
として１１６に進む。そうでなければ，字幕を形成する
画素の一つであるとして１１４を実行し，現在の画素座
標に対応する配列Eのデータ領域に１を代入する。１１
２の処理は，サンプリングした画像データのサイズによ
って不要となる場合がある。画像のサイズが小さい場合
には，１画素あたりの字幕全体に占める面積の比率は高
くなっているので，１１２の処理は割愛する。

【００２２】(4) 現在座標を示す変数x, yを行・列に対
応して１ずつ増加させていき，最終的に画像中の全ての
画素について，(1)〜(3)の処理を行うようにする（１１
８）〜（１２４）。

【００２３】なお、閾値th1はシステムにおいて設定し
ておくことができる。輝度の設定値は字幕のみを抽出す
るという観点からは高めであることが望ましい。しか
し、字幕を構成する画素の輝度にはばらつきがあるた
め、その値が高すぎると字幕を構成する画素でありなが
ら、そうと判定されない画素が多くなり輝度差の判定時
に不都合が生じるため、閾値にある程度の余裕を持たせ
て設定しておく必要がある。例えば、最高階調の70%程
度であれば適切な結果が得られる。また閾値th2は、背
景の輝度の値によりある程度可変であることが望まし
い。すなわち、背景の輝度の高い場合には閾値th2を小
さく、背景の輝度の低い場合には閾値th2をより大きく
なるように設定する。背景の輝度の基準として画像全体
の輝度の値の平均値をとり、閾値th2をその関数として
定義する。閾値th1,th2,後述するth3は、図１８の閾値
管理部１８０８で管理する。閾値th1,th3については値
が修正できるようになっているのが好ましい。閾値th2
については、輝度判定部１８０２より、フレーム画像の
輝度の情報を受けて、その値を設定する。比較的単純な
構成としては、閾値th1,th3および閾値th2を決定する関
数の係数については初期設定として与えた値を保持して
おけばたりる。さらに、効果的に字幕の検出を行うため
にはその値をチューニングする必要がある。例えば、検
出漏れがあっては不都合な特定字幕が存在するような場
合、その字幕の現われるフレーム画像について、閾値を
変化させながら字幕検出を行う。その結果をフィードバ
ックして最適な値を閾値として字幕検出を実行する。こ
のように閾値をカスタマイズすることにより、適切な字
幕検出処理が行える。

【００２４】次に，一定時間同じ位置に文字が存在して
いることを判定する。上記処理によって作られる二次元
配列Eを，過去nフレーム分記憶する。それらnフレーム
分の二次元配列Eについて論理積をとる。具体的には，
各配列のそれぞれ同じ座標に対応するデータを全て比
べ，それらが全て１であれば１を二次元配列E'(x, y)に
代入する。一つでも０があった場合には，０を同様に二
次元配列E'(x, y)に代入する。そして，E'(x, y)を論理
積計算結果として出力する（１２６）。

【００２５】次に，上記の処理が完了した時点で字幕の
一部と目されている画素が果たしてフレーム画像中で密
集して存在しているかどうかを判定する。まず、E'(x,
y)の行（ｘ方向）、列（ｙ方向）のそれぞれについて、
その値が１であるものの数をカウントする。具体的に
は、ｘ方向については、xがiで、かつE'(x, y)の値が１
であるものの数をカウントし、頻度ヒストグラムＨx(i)
を作成する。また、ｙ方向についても同様に、yがiで、
かつE'(x, y)の値が１であるものの数をカウントし、頻
度ヒストグラムＨy(i)を作成する（１２８）。これらの
ヒストグラムは、どの行あるいは列に字幕らしい画素が
存在しているかを示している。もし、ヒストグラムの各
度数のうち、閾値th3を超えているものがあれば（１３
０）、その度数に対応する行あるいは列に字幕が現れて
いると最終的に判断する。そして、E'は論理積の結果な
ので、ｎフレーム前のフレームに字幕が現れていると判
断する（１３２）。そして，字幕検出処理１３２を実行
する。ここで、閾値th3は字幕として使われる最小の文
字の大きさを基準として決定できる。字幕は視聴者が見
るために提示する以上、どの映像であってもある一定以
上の大きさの文字を使用していることを利用するもので
ある。

【００２６】字幕検出処理１３２の詳細を図４と図５に
示す。前述の頻度ヒストグラムにより閾値th3を超えて
いる行があると判定されれば（８００）、図４のフロー
チャートに従った処理を実施する。閾値th3を超えてい
る行が連続している部分を抽出する。このとき，閾値th
3を超えて度数がピークとなっている行あるいは列が複
数あり，それらピークに挟まれた行あるいは列に十分な
度数がない場合には，複数の字幕が現れているとみな
し，それらの字幕の数を求めてLnに代入する（８０
２）。そして，全ての字幕について，以下の８０４〜８
２０の処理を行う。Lnはループカウンタとして用いら
れ，１つの字幕の処理が完了するごとに１ずつ減り（８
１６），０になるまでループする（８２０）。８０４は
閾値th3を超えている行が連続する部分を検出し，その
区間を求めて開始行のｙ座標をyo，終了行のｙ座標をyc
に代入する。次いで，E'(x, y)においてyがyoからycの
間である１の数をカウントしてヒストグラムＨ'x(i)を
作成し（８０６），そのヒストグラム中で閾値th4を超
えている度数が連続する部分を抽出する。そして，その
連続部分に対応する列の開始列のｘ座標をxoに，終了列
のｘ座標をxcに代入する（８０８）。こうして得られた
(xo, yo)および(xc, yc)によって示される矩形領域を字
幕の存在領域とする。これは横書きの字幕領域とみなす
ことができる。これは，字幕が専ら複数の文字から構成
され，その領域が行あるいは列方向に細長くなる特徴を
考慮している。もし，時間t-1において，E'から矩形領
域(xo, yo)-(xc,yc)に字幕があると判定されていたな
ら，これは以前より現れていた字幕であるとして特別な
処理はしない（８１２）。もし，字幕がなかったなら
ば，新規に字幕が現れたとして，その字幕の開始時間と
してｎフレーム前の時間もしくはフレーム番号を記憶す
る（８１４）。現在時間を用いないのは，字幕がｎフレ
ーム前から連続して同じ位置に現れていた場合にはじめ
てE'に現れるためである。こうして検出された字幕は，
常にプログラムの中で監視され，検出されなくなった時
間ｔから１を引いた時間，あるいはそれに対応するフレ
ーム番号をその字幕の終了時間として記憶する。それか
ら，E'(x, y)中の矩形領域(xo, yo)-(xc, yc)の全ての
要素を０にする（８１８）。

【００２７】一方，列について閾値th3より大きな度数
があった場合には，図５のフローチャートに示した処理
を行う（８２２）〜（８４２）。これは行について行っ
た上記の処理と同じものである。これを縦書きの字幕領
域と見なす。行と列ともに閾値th3を超えるものがあれ
ば、図４のフローチャートの処理と図５のフローチャー
トの処理を連続して行うことにより、縦書き、横書きの
字幕領域の双方を検出することができる。最後に時間ｔ
を一つ進め、１０２に戻って以上の処理を繰り返す（１
３４）。

【００２８】上記手段によって求められた字幕の存在す
る区間（字幕区間）の各々を図６に示すデータ構造体２
００の形式で記憶する。字幕区間の先頭のフレーム番号
は，始点フレーム番号として２０４に，末尾のフレーム
番号は，終点フレーム番号として２０６に格納される。
これは図４（図５）のフローチャート中の８１０〜８１
４（８３２〜８３６）の処理を実行することにより得ら
れるものである。２０２は代表フレーム番号であり，デ
フォルトとして先頭のフレームが選ばれるが，ユーザが
任意に設定することもできる。字幕位置２０８は，字幕
位置を記憶する字幕位置構造体へのポインタが格納され
る。上位字幕区間２１０は，後述する，より上位の字幕
の字幕区間構造体へのポインタである。下位字幕区間２
１２は，逆に，より下位の字幕の字幕区間構造体へのポ
インタである。同位字幕区間２１４は，共通の上位字幕
を持つ字幕の字幕区間構造体へのポインタで，このポイ
ンタで指定される字幕区間構造体との間で連接リストを
構成する。この同位字幕区間ポインタ２１４を辿ってい
くことにより共通の上位字幕を持つ字幕の字幕区間構造
体が全てリストアップできる。対応シーン２１６は，後
述するシーン構造体へのポインタである。２１８は，対
応シーンに現れる全ての字幕についての字幕区間構造体
を連接リスト形式で格納するためのポインタである。

【００２９】前述の字幕位置構造体３００の構造を図７
に示す。３０２は次の字幕位置へのポインタである。字
幕が，その存在する区間中ずっと定位置で表示されてい
た場合には，字幕位置は一つの構造体で表現できるので
NULLが入る。もし，後述する流れる字幕の場合には，字
幕位置は変動するので，複数の構造体が作られて，ポイ
ンタ３０２によって連接リストが構成され，字幕位置の
データが格納される。字幕位置構造体は，定位置に字幕
が表示されていると判定される区間ごとに１個作成され
る。この判定は，字幕の位置情報にどの程度の正確さを
求めるかによっても変化する。３０４は，こうした区間
の始点フレーム番号が格納され，３０６には同様に終点
フレーム番号が格納される。３０８には，字幕が現れて
いる領域を矩形領域で囲んだときの一つの頂点のｘ座
標，３１０にはそのｙ座標が入る。３１２は，その矩形
領域の幅，３１４はその高さが格納される。矩形領域
は，図４（図５）のフローチャート中の８０４〜８０８
（８２６〜８３０）の処理で得られるものである。

【００３０】図８は，シーン構造体５００の一例であ
る。シーン中に現れている字幕をシーンの再生中に即座
に呼び出すことができるようにするために、代表フレー
ム番号５０２，始点フレーム番号５０４，終点フレーム
番号５０６など各種属性情報の中に，対応字幕区間５０
８なるポインタ格納領域を設ける。対応字幕区間５０８
はシーン中に現われる字幕についての情報を保持する、
具体的にはそのシーンに現れている全ての字幕を連接リ
スト形式で格納するものである。これは，字幕区間構造
体２００の中の対応シーンの字幕２１８に対応するもの
である。

【００３１】上記の処理により得られる字幕に関する情
報は，計算機等により自動的に得られるが，中には誤判
定が含まれる場合もある。こうした字幕情報を一度だけ
参照する場合には，多少の誤判定はやむを得ないが，二
度三度と参照する場合に同じ誤りが繰り返されるのはユ
ーザにとって大きな不満になる。もし，複数回参照され
る需要があれば，一回目で誤りを正し，誤りのないもの
を記憶して次回の参照の際に供することが有効である。
以下、字幕検出修正処理について述べる。この処理は、
後で詳細に説明する画像提示処理中に字幕の検出に誤り
があることに気がつけば随時、画像提示処理を終了し、
字幕検出修正処理を実行することができるものである。
図１０は，検出された字幕情報を修正するためのインタ
フェース例である。

【００３２】修正用ウインドウ１０００は，計算機画面
上に表示され，マウスカーソルによる各種操作を受け入
れる。１００２は映像中の一部の区間のフレームの画像
を等時間間隔でサンプリングして，写真のネガのように
横一列に並べたものである。サンプリングの時間間隔
は，１０１８のスクロールバーで決定することができ
る。１０１８中のノブ１０３２をマウスでドラッグする
ことによって，時間間隔を自由に変えることができ，そ
れに応じて１００２に現れるフレーム画像も変化する。
１０３２を左端に近付けるほど，時間間隔は短くなり，
右端に近付けるほど時間間隔は長くなる。映像中のどの
部分区間を表示するかは，１０１６のスクロールバー及
びボタンによって変更できる。１０１６中のノブ１０３
０の位置が表示する部分区間の位置を示し，１０３０を
ドラッグすることによって自由に変更できる。左端に寄
せると映像の先頭の部分を表示し，右端では映像の末尾
の部分を表示する。ノブ１０３０の幅は，表示されてい
る部分区間の長さに対応している。この長さは１００２
で一度に表示できるフレーム画像の数と１０１８で決定
された時間間隔，そして映像全体の時間長とから容易に
計算される。１００４と１００６の矢印は，字幕が現れ
ている区間の先頭と末尾を表している。１０１４は検出
された字幕区間の映像全体の中での位置を表示するもの
である。検出された字幕区間１０１２は１０１４の目盛
り表示により映像全体の中での位置がわかるようになっ
ている。１０１２に付与された小さな矢印１０１０は１
００４や１００６の矢印に対応するものである。１００
８が，各フレームにおける字幕の存在位置を示した囲み
枠である。１００４や１００６の矢印の位置は変更する
ことができ，マウスで矢印部分をクリックすると矢印が
消える。続けて，任意のフレームをクリックすると，そ
の位置に消した矢印と同じ向きの矢印が現れ，新しい区
間が定義される。これによって，区間が伸縮するが，伸
びたときは伸びた区間についての字幕位置構造体３００
が作成され，逆に短くなった場合には，削られた区間の
字幕位置構造体が登録から抹消される。１００４と１０
０６を続けて消すと，その区間には字幕がなかったとし
て字幕区間構造体２００の登録を抹消する。同時に、こ
の字幕区間へのポインタを持つ全ての字幕区間構造体か
ら上位字幕区間，下位字幕区間などに記憶された，この
字幕区間構造体へのポインタが消去される。また、字幕
の位置の変更は，１００８をドラッグすることで変更で
きる。１００８の４つの頂点のいずれかをつかんでドラ
ッグすると，対角線を通して向いあう頂点を固定にして
長方形を拡大縮小できる。この変更データにより，字幕
位置構造体の字幕原点ｘ，ｙ座標及び字幕サイズの幅，
高さの記憶領域が更新される。

【００３３】これまで述べたような字幕の検出処理によ
り得られる字幕に関する情報をユーザが有効に利用でき
るよう、わかりやすく提示する方法について述べる。図
１１はコンピュータのディスプレイ上への提示の一例を
示している。ウインドウ７００は映像の概要を示す代表
的なフレーム画像を抽出し，それらを一覧にして表示す
る。代表フレーム画像は，字幕区間の先頭の画像を機械
的に抽出するなどして選ぶ。代表画像は，NTSC本来の解
像度でサンプリングされた映像のままの大きさでは，コ
ンピュータのディスプレイで表示しきれなかったり，表
示できる個数が限られてしまうので，間引き処理等によ
って縮小して用いる。ユーザはこれらの代表画像を確認
しつつ、見たいシーンを検索することができる。見たい
シーンを見つかったならば、そのシーンをモニタウイン
ドウ７０２に表示させる。この場合、再生するシーンの
選択はウインドウ７００に一覧表示されているシーンへ
のクリックと連動させて行う。モニタウインドウ７０２
に映像を再生する方法としては、計算機に接続された動
画像再生装置が出力する映像を用いる方法と，外部情報
記憶装置に登録されたデジタル化された映像を用いる方
法とがある。動画像再生装置による場合には，シーンの
先頭のフレーム番号を動画像再生装置に送り，そのフレ
ーム番号に対応するシーンから再生を開始する。そし
て，シーン末尾のフレーム番号に到達した時点で再生を
中断する命令を動画像再生装置に送る。デジタル化され
た映像の場合は，図９に示す物理映像構造体４００の形
式で記憶された映像データから，シーン先頭のフレーム
番号に対応するフレームの画像データを抽出してグラフ
ィックデータとして表示する。１フレーム分の表示処理
が終了すると，次のフレームの表示処理を連続して行う
ことで動画像の表示とする。表示処理に要する時間に合
わせて一定時間あたりに表示するフレーム画像の枚数を
調節し，動画像が早送り気味になったりスロー気味にな
ったりしないようにする。また、ボタン７０４は，ビデ
オ映像の再生状態を制御するためのボタンで，マウスや
タッチパネルのクリックに応じて，ビデオ映像の再生や
早送り・巻き戻しといった制御を行う。これらの操作に
より、検索したシーンの前後について容易に確認するこ
とができる。７０８はテキスト入出力ウインドウであ
り、後述する字幕中の文字列を検索する等に利用する。
テキストの入力にはキーボード１１を用いる。これらの
ウインドウは，ポインティングデバイス５の一つである
マウスを使って自由に動かせるカーソル７０６を操作し
て画面上の任意の位置に移動できる。あるいは，別の種
類のポインティングデバイスであるタッチパネルを使っ
ても同様のことができる。

【００３４】代表画像を提示するウインドウ７００は、
検出した字幕の情報を利用することによりユーザの見た
いシーンを検索する作業を容易にすることができる。以
下、字幕情報を利用した代表画像の一覧提示方法につい
て説明する。一覧表示の仕方としては，ビデオ映像中に
おける出現順に時系列に並べる方法を基本とする。時系
列は代表画像のフレーム番号に基づいて決定される。図
１２は，代表画像６０４を単純に時系列に並べたもの
で，左上がビデオ映像の先頭側，右下が同じく末尾側に
なる。１行で表示しきれない場合には，図のように折り
返して複数行に渡って表示を行い，さらに，１枚のウイ
ンドウで表示しきれなければ，スクロールバー６０２が
現れてスクロール表示を行う。

【００３５】検出した字幕により代表画像を分類し、そ
の分類を利用して代表画像を提示することも有効であ
る。例えば、 1) 字幕の表示形態による代表画面の分類に基づく提示 2) 字幕提示時間の包含関係もしくは字幕の表示形態に
よる代表画面の階層化に基づく提示 3) 字幕の内容による代表画面の分類に基づく提示これらの一覧表示の仕方は、画像提示処理モードにおい
て、ユーザが指定できる。これらの表示指定は、一時メ
モリに表示の情報を蓄えておくことにより、ユーザの検
索の進行にともなって、順次これらの表示方法を指定し
て代表画像を絞り込んでいくことができる。もちろん、
指定した表示方法が不適切であれば、その指定を解除し
て、新たな表示方法を指定することも可能である。

【００３６】図１３は，字幕の表示形態によって分類を
行い，その分類に基づいて表示した例である。分類は，
例えば，1) 文字の輝度の高低，2) 文字の配色，3) 文
字の大きさ，4) 縦書き・横書き，の４点の特徴を使う
ことによって，自動的に、またはユーザにそれらの分類
項目を指定させることにより行うことができる。すなわ
ち、代表画像についての字幕位置構造体により、字幕の
原点x ,y 座標及びサイズ幅、高さを、画素データの必
要な分類項目によっては物理映像構造体により前記のデ
ータにより決定される字幕部分の画素データを参照する
ことにより、字幕の表示形態を判定してそれにより代表
画像を分類して提示することができる。

【００３７】1)は，字幕の文字部分がその背景よりも明
るい色で表現されているのか，あるいは，背景より暗い
色で表現されているのかによる分類である。これは字幕
部分の輝度レベルで判断する。2)は，背景と文字部分と
を分けたとき，文字部分がどのような色構成で表現され
ているかで分類する。これは文字部分の色ヒストグラム
をとり，ヒストグラム間の類似性で判断する。なお、文
字部分については、字幕部分の輝度レベルが高ければ輝
度の高い画素が文字を構成する画素であり、字幕部分の
輝度レベルが低ければ輝度の低い画素が文字を構成する
画素であるとして判定することができる。3)は，字幕領
域の短辺の長さによって分類する。4)の縦書き・横書き
は，短辺がｘ軸に平行かｙ軸に平行かで判断できる。こ
れらによって，同じ種類の字幕どうしを１つのグループ
としてまとめることができる。字幕の形態が類似してい
る場合には，そのシーンの内容においても底流に共通の
ものがあることが多いので，分類されたシーンが内容上
の共通性をもって分類されていることが期待できる。

【００３８】図１４は，代表画像についてある基準に基
づき階層化し、その階層化した状態を視覚的に明示して
表示した例である。その階層化の基準としては、例えば
字幕の存在する時間の包含関係または字幕の表示形態を
とる。字幕の存在する時間の包含関係とは、あるシーン
について大見出しに対応する字幕は，そのシーンの間ず
っと現れていることが多く、また，その間に時折現れる
字幕は，そのシーンの中のもっと細かな部分部分，いわ
ば小見出しに対応するものであるからそれを利用する。
字幕の存在する区間は各字幕につき字幕区間構造体の始
点フレーム番号と終点フレーム番号とを参照することに
より得られるので，その区間の相互の包含関係を調べる
ことで，字幕が大見出しなのか小見出しなのかを区別す
ることができる。図１４は，シーンの代表画像６０４に
ついて、大見出しの字幕が現れている代表画像を上層
に，小見出しの代表画像を下層に並べ，包含関係がわか
るように線６０６で上層・下層の代表画像どうしを結ん
でいる。このような構造木は，包含関係のあるグループ
ごとに各々作られ，それが横方向に並ぶ。上層の字幕ど
うしをグループにして，構造木の階層数を増やすことも
できる。１枚のウインドウで表示できないときには，縦
方向・横方向それぞれについてスクロールバーが現れ
て，表示しきれない部分をスクロール表示する。代表画
像の数が多いときなどには，上層の字幕の代表画像だけ
を表示して大まかに候補を見つけてから，下層の字幕を
表示させて絞り込むといったことができる。以上の例で
は，存在時間の包含関係で上層・下層を決定したが，図
１３に関して述べた分類の結果を使って上層・下層を決
定することもできる。これは，特にニュース番組などに
おいては，大見出しに相当する字幕を掲げて総論を説明
したあと，細かい事項を説明し，また別件の総論を説明
するという流れの繰り返しであることに着目している。
前述の方法により、大見出しのグループを抽出してそれ
らが現れているシーンを上層の代表画像とし，各字幕の
字幕区間構造体を参照して、そのシーンから次の大見出
しの字幕が現れているシーンまでに現われている各シー
ンの代表画像を下層に表示する。また、上層・下層の判
定はシステムが判定基準を保持して自動的に行うこと
も、先に述べた表示形態による分類表示などにおいて分
類したグループをユーザが任意に選択して上層となるシ
ーンを設定して，階層化表示を実行することも可能であ
る。

【００３９】代表画像に現われた字幕を文字として認識
して、その情報を利用することを考える。輝度によって
判定された字幕の文字部分について，従来より広く利用
されている文字認識の技術を適用することで，代表画像
に現われた字幕をJISコード等の文字コードで表現する
ことができる。JISコードの文字は，日本語ワードプロ
セッサに用いられている仮名漢字変換等の手法により，
任意の文字列をキーボードから人間が入力することがで
きるので，そうした入力文字列をキーにした字幕の検
索，すなわち，そうした字幕の現れているシーンの検索
を行うことができる。また、字幕の文字を認識すること
により、その字幕の内容によるグループ化が可能にな
る。同じ単語を含む字幕どうしを同じグループとして分
類することもできる。さらに，単語とその意味合いを対
応づける辞書を予め作成しておくことにより，字幕文字
列中の単語が，例えば，人名なのか，あるいは，ある特
定の分野の専門用語なのかを識別することができる。人
名であれば，人名に関する字幕というグループで分類
し，政治用語があれば政治に関するグループ，医学用語
であれば，医学グループというように分類することがで
きる。その表示形式の一例を図１５に示す。ウインドウ
６００の左端に文字列６０８が表示されている。また，
単語を分類するための辞書の構造体の一例を図１６に示
す。９００は，単語を格納する配列，９０２はコード化
された単語であり，分類のための属性情報配列９０４へ
のポインタを合わせ持つ。９０６は分類記号であり，そ
の単語が人名なのか，政治用語なのかがコード化されて
格納される。単語は多義性を持つので，複数の分類記号
を持てるようにしている。

【００４０】これまで述べてきた一覧表示においては，
探索の効率を上げるために一目で確認できるシーンの数
を増やそうとすると，ディスプレイの表示の大きさや解
像度に限界があるため，シーンの代表画像を縮小して表
示しなくてはならない。しかし，縮小率を上げていくと
字幕が読めなくなるという問題がある。そこで，図１７
に示すように，字幕位置構造体に記憶された字幕部分を
切り出してその部分だけを相対的に拡大して，すなわ
ち，縮小率を代表画像６０４より低くして，６０４の近
傍に表示する。このとき，横書きの字幕の場合は６０４
の下に表示し，縦書きの場合は右横にというように，な
るべく代表画像間の間を大きくとらなくてすむよう配慮
する。字幕の部分は代表画像全体に比べて小さな領域で
あるので，字幕部分を拡大した画像を添えても，代表画
像全体の縮小率を下げるよりも表示に必要な面積は遥か
に少なくて済む。これにより，多数の代表画像の表示と
字幕が正しく読めることとの両立を図ることができる。
この表示方法は，これまで述べてきた字幕の現れている
シーンを選択的に一覧表示するときのみならず，字幕の
出ているシーンを含む全てのシーンを単純に一覧表示す
る場合にも有効である。

【００４１】以上で述べた字幕検出方法では最も効果的
な方法について説明したが、本発明の他の実施例を以下
に説明する。上記の実施例では字幕と背景の間の輝度差
を用いたが，本発明はそれに限定されるものではなく，
色情報を使うこともできる。これは、字幕を構成する画
素は色の点でも、白色など背景と比べて目立つ色が使用
されていることによる。これは図２ｂ）の構成における
輝度についての判定を色についての判定に置き換えるこ
とで実現できる。輝度でなく、色を使う方法は表示形態
に特徴のある字幕の検出により適したものである。すな
わち、ある色を指定して字幕の検出を行うことにより選
択的に字幕を抽出できるという利点がある。従って、報
道番組の見出しのように内容によっては大きさなど変わ
りうるが、常に同じスタイルで提示される字幕を見つけ
たいときに効率的である。この場合の閾値はある特定の
色を中心とした一定範囲の色として設定される。具体的
には、例えばＲＧＢ色空間における特定色を中心とする
部分空間として定義することができる。その設定は、検
出したい字幕のある画面を呼び出して、その字幕色に対
応するＲＧＢ色空間中の座標及びそれを中心とした部分
空間を閾値管理部にテーブルとして登録しておくことが
望ましい。

【００４２】上記ではＲＧＢ色空間による例を示した
が、本発明はそれに限定されるものではなく、例えば C
IE 1976 Y*u*v*色空間をはじめとする均等色空間を用い
ることができる。均等色空間とは、空間中のある点から
どちらの方向への色の変化についても、色変化の感覚差
がその点からのユークリッド距離に比例するような空間
である。この場合も一定範囲の色が、その色空間に占め
る部分空間として表わされる。この場合、ユーザの視覚
に対してより忠実な色の範囲を定義することができると
いう利点がある。

【００４３】輝度による判定と色による判定を併用した
ものが図１８に示したものである。輝度判定部１８０
０、輝度差判定部１８０２、フレーム照合部１８０４、
字幕領域抽出部１８０６は図２ｂ）に関して説明したも
のである。色判定部１８１０と色差判定部１８１２が上
述した色情報による字幕検出を行うブロックである。色
判定部１８１０は一定範囲の色をもつ画素を検出する。
１８１０により検出された画素について、近傍の画素と
比較して文字のエッジ部分に当たる画素を検出するのが
色差判定部１８１２である。閾値管理部１８０８は、色
による判定をも行う関係上、上述したような色について
の閾値情報を管理する点で図２ｂ）のものと異なる。輝
度による判定と色による判定とをセレクタ１８１４によ
り切り換えることができ、目的に応じた効率的な検出が
行える。検出される字幕を特定化する方法では、字幕の
出現位置によって制約することも可能である。

【００４４】また，字幕が一定時間静止することを検出
のための特徴量として用いたが，本発明は静止した字幕
のためだけではなく，スクロールするタイプの字幕にも
適用できる。すなわち，ある時点のフレームについて，
一定時間の静止を除く字幕検出のための特徴量を用いて
字幕らしい部位の候補を選びだす。検出された中から，
次のフレームにおいて，同じ特徴が同じ並びで現れてい
る領域が近傍にあるものに候補を絞る。そして，さらに
次のフレームにおいて，先程と同じ方向，同じ距離だけ
離れた近傍に，やはり同じ特徴が同じ並びで現れている
領域に候補を限定する。これを何フレーム分か繰り返し
ても検出され続けるものだけを字幕領域として判別す
る。

【００４５】また，表示方法の観点からは、字幕の現れ
ているシーンを一覧にして表示することを述べたが，そ
れらのシーンだけを集めてモニタ画面に順に再生してい
く表示方式も有用である。これは，ビデオのダイジェス
トとして用いることができる。

【００４６】本発明の方法は、映像検索を行う一つの検
索モードとしてシステムに持たせ複数の検索方法と併用
すれば極めて有効に機能する。映像検索を実行する他の
方法としては本出願人による映像を連想的に検索する方
法がある。この方法は、映像中に現われる事物を予めユ
ーザが登録し、登録された事物の現われる画面を代表画
像として一覧提示するものである。ユーザは提示された
画面を追っていくことにより所望の画面を見つけ出すこ
とができる。本願発明の字幕検出は映像の主題の変化点
に対応した代表画像を切り出すことに適している。その
中で、例えば注目する人物Ａを見つけ出した場合、それ
から連想検索モードに移ってその人物Ａを登録し、人物
Ａが映像全体でどのように現われているか調べることが
できる。このように、ユーザは各種の検索モードを選択
して順次利用することにより多面的な映像検索を実行す
ることができる。

【００４７】これまで述べた方法は第一の実施例に準じ
て字幕画素判定条件の1)から4)の全てを利用したものと
して説明してきた。しかし、前述したように本発明に必
須の構成は輝度（色）判定とフレーム画像の照合であ
り、判定条件をそれらのみに絞って装置の負荷を軽くす
る方が望ましい場合もある。すなわち、このような字幕
検出処理を一般のビデオ映像再生装置やビデオ映像再生
手段付きテレビジョンに適用する場合である。このよう
な場合であれば、字幕情報を蓄積して何回も利用するよ
りもむしろリアルタイム的処理により、字幕の現われて
いる場面を次々とサーチして見たい場面を探すという処
理が求められるであろう。この場合、処理速度を最重要
視するという観点から、判定条件を絞り込むことが有効
である。

【００４８】そのような場合、近傍との輝度の差または
色の差の判定を省略することができる。また、字幕領域
を確定する必要もなく、違う字幕が検出された時点でフ
レーム画像をそのまま提示していけばよいため字幕領域
抽出処理を省略することができる。その場合のユーザへ
の画像の提示方法としては、前述した画像を順に再生し
ていく表示方法や図１１におけるウインドウ７００とウ
インドウ７０２を切り換えて表示することが有効であ
る。すなわち、映像検索モードと映像再生モードを設
け、映像検索モードでは画面全体に一覧で検出した画像
を提示していき、ユーザがそれらを見ながら見たい画像
を指示すると映像再生モードの画面に切り替わり、通常
のビデオ再生と同じように、指定した場面から映像が画
面全体に映しだされる。

【００４９】

【発明の効果】本発明により，字幕が現れているシーン
だけが選別されて一覧表示されるので，ユーザはその中
から所望のシーンを素早く探しだすことができる。

【図面の簡単な説明】

【図１】本発明の実施例を実現するためのシステムブロ
ック図である。

【図２】ＣＰＵでの処理の流れを示すブロック図であ
る。

【図３】字幕を検出するアルゴリズムのフローチャート
である。

【図４】字幕検出処理の詳細を示すフローチャートであ
る。

【図５】字幕検出処理の詳細を示すフローチャートであ
る。

【図６】字幕区間を記憶する構造体である。

【図７】字幕位置を記憶する構造体である。

【図８】シーンを記憶する構造体である。

【図９】映像自体を記憶する構造体である。

【図１０】字幕検出の結果の修正を行うためのグラフィ
ックインタフェースの一例である。

【図１１】字幕の一覧表示を行うためのグラフィックイ
ンタフェースの一例である。

【図１２】字幕の現れているシーンを一覧表示した例で
ある。

【図１３】字幕を種類によって分類表示した例である。

【図１４】字幕の存在区間の包含関係に従って階層表示
した例である。

【図１５】字幕の文字認識結果に従って分類を行い表示
した例である。

【図１６】認識した単語を分類するための辞書の構造体
の一例である。

【図１７】字幕の部分だけを相対的に拡大して表示した
例である。

【図１８】字幕検出処理部の処理のブロック図である。

【符号の説明】

１…ディスプレイ，２…制御信号線，３…Ａ／Ｄ変換
器，４…コンピュータ，５…ポインティングデバイス，
６…外部情報記憶装置，７…ＣＰＵ，８…接続インタフ
ェース，９…メモリ，１０…動画像再生装置，１１…キ
ーボード。

フロントページの続き (56)参考文献特開平５−268518（ＪＰ，Ａ) 特開平５−328220（ＪＰ，Ａ) 特開平６−110942（ＪＰ，Ａ) 菊川健、川淵里美，映像資料サマリー自動作成システムの開発，電子情報通信学会論文誌Ａ，日本，社団法人電子情報通信学会，1992年２月25日，ＶＯＬ. Ｊ75−Ａ，Ｎｏ．２，ｐ．204−212 上田他，動画像解析に基づくビデオ構造の視角化とその応用，電子情報通信学会論文誌Ｄ−ＩＩ，日本，社団法人電子情報通信学会，1993年８月25日，Ｖｏｌ．Ｊ76−Ｄ−ＩＩ，Ｎｏ．８，ｐ. 1572−1580 外村他，蓄積映像ハンドリング技術，ＮＴＴＲ＆Ｄ，日本，1993年１月10日，Ｖｏｌ．42，Ｎｏ．１，ｐ．61 −70 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 17/30 H04N 5/278 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】動画像を構成するフレーム画像の各画素に
ついて、輝度が第１のしきい値以上であるかを判定する
輝度判定手段と、上記輝度判定手段で第１のしきい値以上の輝度を有する
と判定された上記各画素について、近傍画素との輝度の
差が第２のしきい値以上であるかを判定する輝度差判定
手段と、上記輝度差判定手段で輝度差が第２のしきい値以上であ
ると判定された上記各画素のうち複数の連続するフレー
ム画像中で同じ位置に表れる画素を有する複数のフレー
ム画像を抽出するフレーム照合手段を有し、上記抽出された複数のフレーム画像から代表画像を選択
して表示することを特徴とする動画像検索装置。
【請求項２】上記表示手段は、少なくとも二つの動画像
表示画面を有し、第一の動画像表示画面に、映像を再生した状態で表示
し、第二の動画像表示画面に、上記代表画像を一覧表示
する画像提示処理手段を有することを特徴とする請求項
１記載の動画像検索装置。
【請求項３】上記フレーム画像中、上記同位置に現われ
る画素が密に存在する領域を字幕の現われている領域と
して抽出する字幕領域抽出手段を有することを特徴とす
る請求項１または２記載の動画像検索装置。
【請求項４】上記一覧表示された代表画像に対して、上
記字幕領域を相対的に拡大して表示することを特徴とす
る請求項１乃至３のいずれかに記載の動画像検索装置。
【請求項５】動画像を構成するフレーム画像の各画素に
ついて、輝度が第１のしきい値以上であるかを判定し、第１のしきい値以上の輝度を有すると判定された上記各
画素について、近傍画素との輝度の差が第２のしきい値
以上であるかを判定し、近傍画素との輝度差が第２のしきい値以上であると判定
された上記各画素のうち複数の連続するフレーム画像中
で同じ位置に表れる画素を有する複数のフレーム画像を
抽出し、上記抽出した複数のフレーム画像から代表画像を選択し
て表示手段に表示することを特徴とする動画像検索方
法。