JP3361587B2 - 動画像検索装置及び方法 - Google Patents
動画像検索装置及び方法Info
- Publication number
- JP3361587B2 JP3361587B2 JP33050793A JP33050793A JP3361587B2 JP 3361587 B2 JP3361587 B2 JP 3361587B2 JP 33050793 A JP33050793 A JP 33050793A JP 33050793 A JP33050793 A JP 33050793A JP 3361587 B2 JP3361587 B2 JP 3361587B2
- Authority
- JP
- Japan
- Prior art keywords
- subtitle
- image
- brightness
- subtitles
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Studio Circuits (AREA)
Description
れているシーンを検出し、そのシーンの代表画像を重要
度の高い画像として一覧表示することにより所望のシー
ンの検索を行う動画像検索装置及び方法に関する。
にして,従来は扱えなかった映画やビデオなどの動画像
情報を対象としたデータベースの構築が活発になってい
る。これに伴い,蓄積された大量の動画像の中から、所
望のシーンを効率良く選び出す検索技術の実用化が進め
られている。動画像の検索には大きく分けて2つのアプ
ローチがある。 (1) 動画像に予めシーンの特徴を記述したインデックス
やキーワードを付与し、ユーザが検索時に言葉や条件式
などで所望のシーンの特徴を指示し,計算機がそれに合
致したシーンを見つけ出す方法。 (2) 映像の概要を示すために動画像を何等かの基準で抽
出しそれらを直接ユーザに提示することで、ユーザが自
分の目で確認しながら所望のシーンを見つけ出す方法。
な記憶や情報しか持ち合わせていない一般ユーザにとっ
ては適切な条件設定が困難で自由な検索が妨げられると
いう問題がある。(2)の方法であれば,提示された映像
の概要を見ながら,所望のシーンかどうかを識別するだ
けでよいので,初心者にも簡単に検索を行うことができ
る。しかしながら,検索を効率良く行うためにはこうし
た概要のために抽出される画像の数は十分小さくなけれ
ばならず,膨大な動画像情報の中から重要な部分だけを
上手に選びだして概要を作成する必要がある。この概要
の作成は莫大な時間と労力を消費するため、手作業は実
用的ではない。自動的に動画像の中から代表画像を抽出
する一方法が情報処理学会論文誌 Vol.33, No.4, "カラ
ービデオ映像における自動索引付け法と物体探索法"に
示されている。この方法は動画像をシーンごとに自動的
に分割して,各シーン中の一枚の画像あるいは部分的な
動画像を縮小して一覧表示することで検索の手掛かりと
するものである。しかしこの方法においては,シーンの
重要な部分がその一覧中に含まれないことが起こりうる
一方、そもそもシーン自体が重要でない場合にも一覧に
登録されてしまうという問題がある。
て表示する画像の重要度を何らかの尺度で測り,重要度
の高いものを選ぶ必要がある。しかも,実用的であるた
めには、この作業は計算機によって自動で行えるか,あ
るいは人間の作業が最小限になるよう計算機による支援
により行えるものである必要がある。特定のシーンを自
動的に検出する方法として、字幕が現れているシーンを
検出する方法がある。このような方法として、第44回情
報処理学会全国大会予稿集,2-301, "大相撲対戦からの
認識に基づく内容識別法"に記載のものがある。
の認識に基づく内容識別法"に記載の字幕検出方法は,
相撲中継の対戦字幕など定まった表示形態をした特定字
幕を検出するものである。例えば、対戦字幕であれば、
白色の字幕(力士名)が画面の左半分と右半分のそれぞ
れ中央に大きく提示されることに着目し、画像を白色に
対して二値化して、その白色の画素の分布状況を検出す
ることにより実行される。従って、特定の番組の,しか
も,特定の表示形態をした字幕部分を検出することしか
できないという本質的な問題がある。そのため,この方
法をそのまま適用しても、別の番組はもとより同じ番組
でも表示形態の異なる字幕は検出できないため,一般の
映像について概要情報を作成することはできない。
な形態の字幕を検出し、字幕の現れているシーンの代表
画像を動画像中から自動的に選び出すことによって的確
な映像の概要を作成し,また、ユーザが簡単に所望のシ
ーンを探しだし、有効に活用するべく、そのようにして
抽出された代表画像を各種の字幕の特徴を利用して提示
する動画像検索装置および方法を提供することである。
デジタル画像データについて、フレーム画像ごとに第一
の閾値以上の輝度を有する画素を抽出する輝度判定手段
と、その抽出された画素について、一連のフレーム画像
について同位置に現われる画素を有するフレーム画像を
抽出するフレーム照合手段を設け、抽出されたフレーム
画像を上記代表画像として出力する。
について、近傍がその輝度と比較して輝度の差が第二の
閾値以上である画素を抽出する輝度差判定手段と、フレ
ーム照合手段により抽出されたフレーム画像について同
位置に現われる画素が密に存在する領域を字幕の現われ
ている領域として抽出する字幕領域抽出手段を設ける。
て、得られた代表画像を動画像表示手段に提示する。特
に、ユーザに対してわかりやすく提示するために、字幕
の表示形態による分類に基づいて代表画像を提示する。
あるいは、字幕の存在時間によって字幕の上位・下位を
判定し代表画像を階層化して提示する。さらに、字幕の
文字認識を行い、同一文字列の存在による分類に基づき
代表画像を提示する。または文字認識した結果を分類す
るための辞書とこれを参照する手段を設け、代表画像を
字幕の意味内容により分類して提示する。また,一度に
多くのシーンの画像を一覧表示しようとして,シーン画
像の1つ1つが小さくなって字幕が読みにくくなる場合
のために,字幕部分だけを拡大して表示する手段を設け
る。
任意の形態をした字幕の現れているシーンだけを選別で
きる。輝度は、様々な形態についての字幕の有無の指標
として最も適切なものである。一般的に字幕は白で表わ
されることが多いが、ニュースの字幕等白色に限られな
いものも多い。輝度であれば、どのような形態の字幕で
あっても一元的な指標として判定することができる。
されていることに注目し、輝度判定手段により高輝度画
素を抽出する。また、字幕が一定時間、一定位置に提示
されることから、輝度判定手段により抽出された画素に
ついてフレーム照合手段によりフレーム画像上に現われ
る位置を照合し、一定時間同じ位置に同じ画素が現われ
ているフレーム画像を抽出する。
る領域が大きいことから、輝度判定手段により抽出され
た画素について周辺画素との輝度差を判定する輝度差判
定手段を設けることにより、文字のエッジ部分を抽出す
る。この場合、フレームの照合は輝度差判定手段により
抽出された画素について行う。また、文字を構成する画
素は密に存在することから、字幕領域抽出手段を設け、
フレーム照合された画素について密に存在するかどうか
を判定する。
るフレーム画像を一覧にして提示することにより、ユー
ザは一覧の中から所望のシーンを素早く探しだすことが
できる。さらに字幕は映像内容に対応するものであるか
ら、このようにして検出した字幕情報を使って、単なる
代表画像の一覧表示にとどまらず、代表画像を各種の方
法で分類し、ある意味的まとまりをもたせて代表画像を
ユーザに提示することにより、動画像検索をわかりやす
く有効に活用するために資することができる。具体的に
は、字幕の種類で分類する手段を設けることによって、
探す範囲を絞り込むことができ、より素早く所望のシー
ンを探し出すことができる。また、字幕の上位・下位を
判定する手段を設けることによって、階層的な探索がで
きる。さらに、字幕を文字認識する手段を設けること
で、ユーザが直接提示した任意の文字列をキーとした検
索が可能になる。文字認識した結果を分類するための辞
書と、これを参照する手段を設けることによって、字幕
をその意味合いによって分類することができる。また,
字幕部分だけを拡大して表示する手段を設けることによ
って,一覧のシーン画像の1つ1つが小さいときでも,
文字がつぶれてユーザが読みにくくなることがない。
図1は,本発明を実現するためのシステム構成の一例で
ある。1はCRT等のディスプレイ装置であり,コンピ
ュータ4の出力画面を表示する。コンピュータ4に対す
る命令は,ポインティングデバイス5を使って行うこと
ができる。10の動画像再生装置は,光ディスクやビデ
オデッキ等である。動画像再生装置から出力される映像
信号は,逐次,3のA/D変換器によってデジタル画像
データに変換され,コンピュータに送られる。コンピュ
ータ内部では,デジタル画像データは,インタフェース
8を介してメモリ9に入り,メモリ9に格納されたプロ
グラムに従って,CPU7によって処理される。10が
扱う動画像の各フレームには,動画像の先頭から順に番
号(フレーム番号)が付けられている。フレーム番号を
制御線2によって動画像再生装置に送ることで,当該場
面の動画像が再生される。処理の必要に応じて,各種情
報を外部情報記憶装置6に蓄積することができる。メモ
リ9には,以下に説明する処理によって作成される各種
のデータが格納され,必要に応じて参照される。
処理をブロック図で示したものである。矢印は信号また
はデータの流れを示している。CPU7の処理動作は、
大きく5つの処理部分に分けられる。字幕検出処理部1
700は図1に示した動画像再生装置10からA/D変
換器3を通してデジタル画像として取り込まれ、メモリ
9及び外部情報記憶装置6に記憶された動画像情報を受
取り、字幕検出処理を実行する。その処理により得られ
る字幕の位置や大きさなどの情報、及び一覧として提示
される画像データは後述するデータ構造体の形式で記憶
される(1710,1712)。画像情報管理部170
2はそれらのデータの入出力を管理する。1706はユ
ーザ・インタフェース部であり、ユーザからの各種の指
示を受け付ける。ユーザ・インタフェース部1706か
ら画像情報管理部1702への矢印は、後述する字幕検
出修正処理の指示に対応するものである。また、映像の
概要である一連の代表画像の提示についての指示はユー
ザ・インタフェース部1706から画像提示処理部17
04に伝達される。画像提示処理部1704はその指示
に応じて画像情報管理部1702を通じて字幕属性情報
データ、画像データを受け取って解析し、一連の画像情
報をユーザからの指示に対応するフォーマットで画像表
示部1708に伝達する。画像表示部1708は、ディ
スプレイ装置1に伝達された画像を提示する。GUIを
使用すれば、ユーザ・インタフェース部1706への入
力と画像表示部1708からの出力は同じディスプレイ
装置1の画面上に実現することができる。
実施例での方法は,動画像中のフレーム(動画像を構成
する最小単位の画像)を逐次調べ,字幕が現れているか
どうかを識別するものである。本実施例の方法は,字幕
に普遍的と考えられる特徴として, 1) 字幕の各文字は輝度の高い色で表示されること, 2) 文字の色とその背景の色との間には大きな輝度差が
あること, 3) 文字の現れている領域には,上記2)のような大きな
輝度差がある画素の対が比較的密集していること, 4) 文字は背景の変化にかかわらず一定時間同じ位置に
存在すること, の4つの特徴を用いて字幕検出を行っている。1)と2)に
ついては,字幕では,視聴者が文字を読みやすいよう背
景に比べて目立つ色が用いられることが多いことを利用
している。もちろん,文字の背景の輝度が高い場合に
は,逆に文字を輝度の低い色で表示する場合もあるの
で,そのときは,1)の条件を輝度の低い色と置き換える
必要がある。これは、輝度の高い場合の処理と輝度の低
い場合の処理を双方実行するようにすればよい。その場
合、いずれか一方はその他の字幕検出のための特徴量に
よる基準を満たさないため自動的に輝度の高い字幕も輝
度の低い字幕も検出することができる。3)は,文字が入
り組んだ複雑な形状をしているために,文字の色と背景
の色とが境界を接する部分が単位面積あたりでみると比
較的多く,その結果,輝度差が高い画素の対が多くなる
ことに着目している。本実施例では、4)について一定時
間同じ位置に存在するという条件を採用している。しか
し、字幕が同じ位置に存在せず、一定方向に移動する場
合等(例えば、文字が動画像の下部を左から右に流れる
場合)もあり、その場合には、所定の時間間隔で想定し
得る移動方向を考慮して、文字が存在するか否かを検出
する条件を加えればよい。
輝度判定部1800は、フレーム画像のデジタル画素デ
ータの入力を受け、高輝度画素を抽出する(条件1))。輝
度差判定部1802は、抽出された高輝度画素に対して
近傍の画素の輝度と比較して輝度差の高い画素を抽出す
る(条件2))。この処理は、文字のエッジを構成する画素
を抽出することに相当する。次に、抽出された高輝度差
画素が一定時間同一位置にあることを判定するため、フ
レーム照合部1804において一連のフレームを照合す
る(条件4))。この照合を行うためには、照合すべき一連
のフレームの情報を記憶しておく必要がある。この情報
はメモリ9に一時的に記憶され処理にあたって参照され
る。これらの処理により得られた字幕のエッジを構成す
る画素の候補について、条件3)を適用する。字幕領域抽
出部1806では、候補画素についての存在分布をとり
候補画素が字幕であるかを判定し、字幕を構成している
領域を切り出し、後述するデータ構造体のフォーマット
で字幕に関する情報をメモリに記憶する。閾値管理部1
808は、上記の抽出、判定処理を実行するための閾値
を設定および保存する。
に行える構成として上記4条件による判定を実施するも
のを説明しているが、これら4つの条件には重要性に相
違がある。特に重要なものは、条件1)による高輝度画素
の検出と条件4)によるフレーム画像の照合である。この
2つの条件判定による実施例については、別の実施例と
して後述する。
実施例の方法を詳細に説明する。上記フローチャートを
実現するプログラムはメモリ9に格納される。CPU7
はまず最初に初期化処理として,時間を表す変数tを0
にする(100)。ここでいう変数tは,フレーム番号
とほぼ同義である。次に,動画像再生装置10を制御し
て動画像を再生し,フレーム画像をA/D変換器3を使
ってw×hのサイズのデジタル画像としてメモリ9に取り
込む(102)。このサイズは任意であるが本アルゴリ
ズムの性質上,検出の信頼性を高めるためにはそのデジ
タル画像において文字を構成する線と線の間がつながら
ない程度に十分大きなサイズであることが望ましい。こ
の場合には字幕検出に必要な特徴が保持されている。そ
して,時間tの時点に対して,w×hのサイズの三次元配
列E(x, y, t)を用意する。
素が字幕を形成する画素の一つになっているかどうかを
見極めるため,以下の処理を行う(106)〜(12
4)。 (1) 輝度(濃度)レベルが閾値th1以上かどうかを判定
する(108)。閾値以上であれば,110に進み,さ
もなければ,字幕とは無関係の画素であるとして116
を実行し,現在の画素座標に対応する配列Eのデータ領
域に0を代入する。 (2) 8近傍の画素,すなわち,現在の画素の座標が(x,
y)のとき,(x-1, y-1),(x, y-1),(x+1, y-1),(x-1,
y),(x+1, y),(x-1, y+1),(x, y+1),(x+1, y+1)の座
標に位置する8つの画素と,現在の画素との間でそれぞ
れ輝度の差を求め,輝度の差が閾値th2以上のものがあ
るかどうかを調べる(110)。もし,一つでもあれ
ば,112に進み,なければ116に進む。
えているかを判定する(112)。全てで閾値を超えて
いる場合は,その画素は孤立点であり,逆にノイズであ
る可能性が高いので,これは字幕と無関係な画素である
として116に進む。そうでなければ,字幕を形成する
画素の一つであるとして114を実行し,現在の画素座
標に対応する配列Eのデータ領域に1を代入する。11
2の処理は,サンプリングした画像データのサイズによ
って不要となる場合がある。画像のサイズが小さい場合
には,1画素あたりの字幕全体に占める面積の比率は高
くなっているので,112の処理は割愛する。
応して1ずつ増加させていき,最終的に画像中の全ての
画素について,(1)〜(3)の処理を行うようにする(11
8)〜(124)。
ておくことができる。輝度の設定値は字幕のみを抽出す
るという観点からは高めであることが望ましい。しか
し、字幕を構成する画素の輝度にはばらつきがあるた
め、その値が高すぎると字幕を構成する画素でありなが
ら、そうと判定されない画素が多くなり輝度差の判定時
に不都合が生じるため、閾値にある程度の余裕を持たせ
て設定しておく必要がある。例えば、最高階調の70%程
度であれば適切な結果が得られる。また閾値th2は、背
景の輝度の値によりある程度可変であることが望まし
い。すなわち、背景の輝度の高い場合には閾値th2を小
さく、背景の輝度の低い場合には閾値th2をより大きく
なるように設定する。背景の輝度の基準として画像全体
の輝度の値の平均値をとり、閾値th2をその関数として
定義する。閾値th1,th2,後述するth3は、図18の閾値
管理部1808で管理する。閾値th1,th3については値
が修正できるようになっているのが好ましい。閾値th2
については、輝度判定部1802より、フレーム画像の
輝度の情報を受けて、その値を設定する。比較的単純な
構成としては、閾値th1,th3および閾値th2を決定する関
数の係数については初期設定として与えた値を保持して
おけばたりる。さらに、効果的に字幕の検出を行うため
にはその値をチューニングする必要がある。例えば、検
出漏れがあっては不都合な特定字幕が存在するような場
合、その字幕の現われるフレーム画像について、閾値を
変化させながら字幕検出を行う。その結果をフィードバ
ックして最適な値を閾値として字幕検出を実行する。こ
のように閾値をカスタマイズすることにより、適切な字
幕検出処理が行える。
いることを判定する。上記処理によって作られる二次元
配列Eを,過去nフレーム分記憶する。それらnフレーム
分の二次元配列Eについて論理積をとる。具体的には,
各配列のそれぞれ同じ座標に対応するデータを全て比
べ,それらが全て1であれば1を二次元配列E'(x, y)に
代入する。一つでも0があった場合には,0を同様に二
次元配列E'(x, y)に代入する。そして,E'(x, y)を論理
積計算結果として出力する(126)。
一部と目されている画素が果たしてフレーム画像中で密
集して存在しているかどうかを判定する。まず、E'(x,
y)の行(x方向)、列(y方向)のそれぞれについて、
その値が1であるものの数をカウントする。具体的に
は、x方向については、xがiで、かつE'(x, y)の値が1
であるものの数をカウントし、頻度ヒストグラムHx(i)
を作成する。また、y方向についても同様に、yがiで、
かつE'(x, y)の値が1であるものの数をカウントし、頻
度ヒストグラムHy(i)を作成する(128)。これらの
ヒストグラムは、どの行あるいは列に字幕らしい画素が
存在しているかを示している。もし、ヒストグラムの各
度数のうち、閾値th3を超えているものがあれば(13
0)、その度数に対応する行あるいは列に字幕が現れて
いると最終的に判断する。そして、E'は論理積の結果な
ので、nフレーム前のフレームに字幕が現れていると判
断する(132)。そして,字幕検出処理132を実行
する。ここで、閾値th3は字幕として使われる最小の文
字の大きさを基準として決定できる。字幕は視聴者が見
るために提示する以上、どの映像であってもある一定以
上の大きさの文字を使用していることを利用するもので
ある。
示す。前述の頻度ヒストグラムにより閾値th3を超えて
いる行があると判定されれば(800)、図4のフロー
チャートに従った処理を実施する。閾値th3を超えてい
る行が連続している部分を抽出する。このとき,閾値th
3を超えて度数がピークとなっている行あるいは列が複
数あり,それらピークに挟まれた行あるいは列に十分な
度数がない場合には,複数の字幕が現れているとみな
し,それらの字幕の数を求めてLnに代入する(80
2)。そして,全ての字幕について,以下の804〜8
20の処理を行う。Lnはループカウンタとして用いら
れ,1つの字幕の処理が完了するごとに1ずつ減り(8
16),0になるまでループする(820)。804は
閾値th3を超えている行が連続する部分を検出し,その
区間を求めて開始行のy座標をyo,終了行のy座標をyc
に代入する。次いで,E'(x, y)においてyがyoからycの
間である1の数をカウントしてヒストグラムH'x(i)を
作成し(806),そのヒストグラム中で閾値th4を超
えている度数が連続する部分を抽出する。そして,その
連続部分に対応する列の開始列のx座標をxoに,終了列
のx座標をxcに代入する(808)。こうして得られた
(xo, yo)および(xc, yc)によって示される矩形領域を字
幕の存在領域とする。これは横書きの字幕領域とみなす
ことができる。これは,字幕が専ら複数の文字から構成
され,その領域が行あるいは列方向に細長くなる特徴を
考慮している。もし,時間t-1において,E'から矩形領
域(xo, yo)-(xc,yc)に字幕があると判定されていたな
ら,これは以前より現れていた字幕であるとして特別な
処理はしない(812)。もし,字幕がなかったなら
ば,新規に字幕が現れたとして,その字幕の開始時間と
してnフレーム前の時間もしくはフレーム番号を記憶す
る(814)。現在時間を用いないのは,字幕がnフレ
ーム前から連続して同じ位置に現れていた場合にはじめ
てE'に現れるためである。こうして検出された字幕は,
常にプログラムの中で監視され,検出されなくなった時
間tから1を引いた時間,あるいはそれに対応するフレ
ーム番号をその字幕の終了時間として記憶する。それか
ら,E'(x, y)中の矩形領域(xo, yo)-(xc, yc)の全ての
要素を0にする(818)。
があった場合には,図5のフローチャートに示した処理
を行う(822)〜(842)。これは行について行っ
た上記の処理と同じものである。これを縦書きの字幕領
域と見なす。行と列ともに閾値th3を超えるものがあれ
ば、図4のフローチャートの処理と図5のフローチャー
トの処理を連続して行うことにより、縦書き、横書きの
字幕領域の双方を検出することができる。最後に時間t
を一つ進め、102に戻って以上の処理を繰り返す(1
34)。
る区間(字幕区間)の各々を図6に示すデータ構造体2
00の形式で記憶する。字幕区間の先頭のフレーム番号
は,始点フレーム番号として204に,末尾のフレーム
番号は,終点フレーム番号として206に格納される。
これは図4(図5)のフローチャート中の810〜81
4(832〜836)の処理を実行することにより得ら
れるものである。202は代表フレーム番号であり,デ
フォルトとして先頭のフレームが選ばれるが,ユーザが
任意に設定することもできる。字幕位置208は,字幕
位置を記憶する字幕位置構造体へのポインタが格納され
る。上位字幕区間210は,後述する,より上位の字幕
の字幕区間構造体へのポインタである。下位字幕区間2
12は,逆に,より下位の字幕の字幕区間構造体へのポ
インタである。同位字幕区間214は,共通の上位字幕
を持つ字幕の字幕区間構造体へのポインタで,このポイ
ンタで指定される字幕区間構造体との間で連接リストを
構成する。この同位字幕区間ポインタ214を辿ってい
くことにより共通の上位字幕を持つ字幕の字幕区間構造
体が全てリストアップできる。対応シーン216は,後
述するシーン構造体へのポインタである。218は,対
応シーンに現れる全ての字幕についての字幕区間構造体
を連接リスト形式で格納するためのポインタである。
に示す。302は次の字幕位置へのポインタである。字
幕が,その存在する区間中ずっと定位置で表示されてい
た場合には,字幕位置は一つの構造体で表現できるので
NULLが入る。もし,後述する流れる字幕の場合には,字
幕位置は変動するので,複数の構造体が作られて,ポイ
ンタ302によって連接リストが構成され,字幕位置の
データが格納される。字幕位置構造体は,定位置に字幕
が表示されていると判定される区間ごとに1個作成され
る。この判定は,字幕の位置情報にどの程度の正確さを
求めるかによっても変化する。304は,こうした区間
の始点フレーム番号が格納され,306には同様に終点
フレーム番号が格納される。308には,字幕が現れて
いる領域を矩形領域で囲んだときの一つの頂点のx座
標,310にはそのy座標が入る。312は,その矩形
領域の幅,314はその高さが格納される。矩形領域
は,図4(図5)のフローチャート中の804〜808
(826〜830)の処理で得られるものである。
る。シーン中に現れている字幕をシーンの再生中に即座
に呼び出すことができるようにするために、代表フレー
ム番号502,始点フレーム番号504,終点フレーム
番号506など各種属性情報の中に,対応字幕区間50
8なるポインタ格納領域を設ける。対応字幕区間508
はシーン中に現われる字幕についての情報を保持する、
具体的にはそのシーンに現れている全ての字幕を連接リ
スト形式で格納するものである。これは,字幕区間構造
体200の中の対応シーンの字幕218に対応するもの
である。
報は,計算機等により自動的に得られるが,中には誤判
定が含まれる場合もある。こうした字幕情報を一度だけ
参照する場合には,多少の誤判定はやむを得ないが,二
度三度と参照する場合に同じ誤りが繰り返されるのはユ
ーザにとって大きな不満になる。もし,複数回参照され
る需要があれば,一回目で誤りを正し,誤りのないもの
を記憶して次回の参照の際に供することが有効である。
以下、字幕検出修正処理について述べる。この処理は、
後で詳細に説明する画像提示処理中に字幕の検出に誤り
があることに気がつけば随時、画像提示処理を終了し、
字幕検出修正処理を実行することができるものである。
図10は,検出された字幕情報を修正するためのインタ
フェース例である。
上に表示され,マウスカーソルによる各種操作を受け入
れる。1002は映像中の一部の区間のフレームの画像
を等時間間隔でサンプリングして,写真のネガのように
横一列に並べたものである。サンプリングの時間間隔
は,1018のスクロールバーで決定することができ
る。1018中のノブ1032をマウスでドラッグする
ことによって,時間間隔を自由に変えることができ,そ
れに応じて1002に現れるフレーム画像も変化する。
1032を左端に近付けるほど,時間間隔は短くなり,
右端に近付けるほど時間間隔は長くなる。映像中のどの
部分区間を表示するかは,1016のスクロールバー及
びボタンによって変更できる。1016中のノブ103
0の位置が表示する部分区間の位置を示し,1030を
ドラッグすることによって自由に変更できる。左端に寄
せると映像の先頭の部分を表示し,右端では映像の末尾
の部分を表示する。ノブ1030の幅は,表示されてい
る部分区間の長さに対応している。この長さは1002
で一度に表示できるフレーム画像の数と1018で決定
された時間間隔,そして映像全体の時間長とから容易に
計算される。1004と1006の矢印は,字幕が現れ
ている区間の先頭と末尾を表している。1014は検出
された字幕区間の映像全体の中での位置を表示するもの
である。検出された字幕区間1012は1014の目盛
り表示により映像全体の中での位置がわかるようになっ
ている。1012に付与された小さな矢印1010は1
004や1006の矢印に対応するものである。100
8が,各フレームにおける字幕の存在位置を示した囲み
枠である。1004や1006の矢印の位置は変更する
ことができ,マウスで矢印部分をクリックすると矢印が
消える。続けて,任意のフレームをクリックすると,そ
の位置に消した矢印と同じ向きの矢印が現れ,新しい区
間が定義される。これによって,区間が伸縮するが,伸
びたときは伸びた区間についての字幕位置構造体300
が作成され,逆に短くなった場合には,削られた区間の
字幕位置構造体が登録から抹消される。1004と10
06を続けて消すと,その区間には字幕がなかったとし
て字幕区間構造体200の登録を抹消する。同時に、こ
の字幕区間へのポインタを持つ全ての字幕区間構造体か
ら上位字幕区間,下位字幕区間などに記憶された,この
字幕区間構造体へのポインタが消去される。また、字幕
の位置の変更は,1008をドラッグすることで変更で
きる。1008の4つの頂点のいずれかをつかんでドラ
ッグすると,対角線を通して向いあう頂点を固定にして
長方形を拡大縮小できる。この変更データにより,字幕
位置構造体の字幕原点x,y座標及び字幕サイズの幅,
高さの記憶領域が更新される。
り得られる字幕に関する情報をユーザが有効に利用でき
るよう、わかりやすく提示する方法について述べる。図
11はコンピュータのディスプレイ上への提示の一例を
示している。ウインドウ700は映像の概要を示す代表
的なフレーム画像を抽出し,それらを一覧にして表示す
る。代表フレーム画像は,字幕区間の先頭の画像を機械
的に抽出するなどして選ぶ。代表画像は,NTSC本来の解
像度でサンプリングされた映像のままの大きさでは,コ
ンピュータのディスプレイで表示しきれなかったり,表
示できる個数が限られてしまうので,間引き処理等によ
って縮小して用いる。ユーザはこれらの代表画像を確認
しつつ、見たいシーンを検索することができる。見たい
シーンを見つかったならば、そのシーンをモニタウイン
ドウ702に表示させる。この場合、再生するシーンの
選択はウインドウ700に一覧表示されているシーンへ
のクリックと連動させて行う。モニタウインドウ702
に映像を再生する方法としては、計算機に接続された動
画像再生装置が出力する映像を用いる方法と,外部情報
記憶装置に登録されたデジタル化された映像を用いる方
法とがある。動画像再生装置による場合には,シーンの
先頭のフレーム番号を動画像再生装置に送り,そのフレ
ーム番号に対応するシーンから再生を開始する。そし
て,シーン末尾のフレーム番号に到達した時点で再生を
中断する命令を動画像再生装置に送る。デジタル化され
た映像の場合は,図9に示す物理映像構造体400の形
式で記憶された映像データから,シーン先頭のフレーム
番号に対応するフレームの画像データを抽出してグラフ
ィックデータとして表示する。1フレーム分の表示処理
が終了すると,次のフレームの表示処理を連続して行う
ことで動画像の表示とする。表示処理に要する時間に合
わせて一定時間あたりに表示するフレーム画像の枚数を
調節し,動画像が早送り気味になったりスロー気味にな
ったりしないようにする。また、ボタン704は,ビデ
オ映像の再生状態を制御するためのボタンで,マウスや
タッチパネルのクリックに応じて,ビデオ映像の再生や
早送り・巻き戻しといった制御を行う。これらの操作に
より、検索したシーンの前後について容易に確認するこ
とができる。708はテキスト入出力ウインドウであ
り、後述する字幕中の文字列を検索する等に利用する。
テキストの入力にはキーボード11を用いる。これらの
ウインドウは,ポインティングデバイス5の一つである
マウスを使って自由に動かせるカーソル706を操作し
て画面上の任意の位置に移動できる。あるいは,別の種
類のポインティングデバイスであるタッチパネルを使っ
ても同様のことができる。
検出した字幕の情報を利用することによりユーザの見た
いシーンを検索する作業を容易にすることができる。以
下、字幕情報を利用した代表画像の一覧提示方法につい
て説明する。一覧表示の仕方としては,ビデオ映像中に
おける出現順に時系列に並べる方法を基本とする。時系
列は代表画像のフレーム番号に基づいて決定される。図
12は,代表画像604を単純に時系列に並べたもの
で,左上がビデオ映像の先頭側,右下が同じく末尾側に
なる。1行で表示しきれない場合には,図のように折り
返して複数行に渡って表示を行い,さらに,1枚のウイ
ンドウで表示しきれなければ,スクロールバー602が
現れてスクロール表示を行う。
の分類を利用して代表画像を提示することも有効であ
る。例えば、 1) 字幕の表示形態による代表画面の分類に基づく提示 2) 字幕提示時間の包含関係もしくは字幕の表示形態に
よる代表画面の階層化に基づく提示 3) 字幕の内容による代表画面の分類に基づく提示 これらの一覧表示の仕方は、画像提示処理モードにおい
て、ユーザが指定できる。これらの表示指定は、一時メ
モリに表示の情報を蓄えておくことにより、ユーザの検
索の進行にともなって、順次これらの表示方法を指定し
て代表画像を絞り込んでいくことができる。もちろん、
指定した表示方法が不適切であれば、その指定を解除し
て、新たな表示方法を指定することも可能である。
行い,その分類に基づいて表示した例である。分類は,
例えば,1) 文字の輝度の高低,2) 文字の配色,3) 文
字の大きさ,4) 縦書き・横書き,の4点の特徴を使う
ことによって,自動的に、またはユーザにそれらの分類
項目を指定させることにより行うことができる。すなわ
ち、代表画像についての字幕位置構造体により、字幕の
原点x ,y 座標及びサイズ幅、高さを、画素データの必
要な分類項目によっては物理映像構造体により前記のデ
ータにより決定される字幕部分の画素データを参照する
ことにより、字幕の表示形態を判定してそれにより代表
画像を分類して提示することができる。
るい色で表現されているのか,あるいは,背景より暗い
色で表現されているのかによる分類である。これは字幕
部分の輝度レベルで判断する。2)は,背景と文字部分と
を分けたとき,文字部分がどのような色構成で表現され
ているかで分類する。これは文字部分の色ヒストグラム
をとり,ヒストグラム間の類似性で判断する。なお、文
字部分については、字幕部分の輝度レベルが高ければ輝
度の高い画素が文字を構成する画素であり、字幕部分の
輝度レベルが低ければ輝度の低い画素が文字を構成する
画素であるとして判定することができる。3)は,字幕領
域の短辺の長さによって分類する。4)の縦書き・横書き
は,短辺がx軸に平行かy軸に平行かで判断できる。こ
れらによって,同じ種類の字幕どうしを1つのグループ
としてまとめることができる。字幕の形態が類似してい
る場合には,そのシーンの内容においても底流に共通の
ものがあることが多いので,分類されたシーンが内容上
の共通性をもって分類されていることが期待できる。
づき階層化し、その階層化した状態を視覚的に明示して
表示した例である。その階層化の基準としては、例えば
字幕の存在する時間の包含関係または字幕の表示形態を
とる。字幕の存在する時間の包含関係とは、あるシーン
について大見出しに対応する字幕は,そのシーンの間ず
っと現れていることが多く、また,その間に時折現れる
字幕は,そのシーンの中のもっと細かな部分部分,いわ
ば小見出しに対応するものであるからそれを利用する。
字幕の存在する区間は各字幕につき字幕区間構造体の始
点フレーム番号と終点フレーム番号とを参照することに
より得られるので,その区間の相互の包含関係を調べる
ことで,字幕が大見出しなのか小見出しなのかを区別す
ることができる。図14は,シーンの代表画像604に
ついて、大見出しの字幕が現れている代表画像を上層
に,小見出しの代表画像を下層に並べ,包含関係がわか
るように線606で上層・下層の代表画像どうしを結ん
でいる。このような構造木は,包含関係のあるグループ
ごとに各々作られ,それが横方向に並ぶ。上層の字幕ど
うしをグループにして,構造木の階層数を増やすことも
できる。1枚のウインドウで表示できないときには,縦
方向・横方向それぞれについてスクロールバーが現れ
て,表示しきれない部分をスクロール表示する。代表画
像の数が多いときなどには,上層の字幕の代表画像だけ
を表示して大まかに候補を見つけてから,下層の字幕を
表示させて絞り込むといったことができる。以上の例で
は,存在時間の包含関係で上層・下層を決定したが,図
13に関して述べた分類の結果を使って上層・下層を決
定することもできる。これは,特にニュース番組などに
おいては,大見出しに相当する字幕を掲げて総論を説明
したあと,細かい事項を説明し,また別件の総論を説明
するという流れの繰り返しであることに着目している。
前述の方法により、大見出しのグループを抽出してそれ
らが現れているシーンを上層の代表画像とし,各字幕の
字幕区間構造体を参照して、そのシーンから次の大見出
しの字幕が現れているシーンまでに現われている各シー
ンの代表画像を下層に表示する。また、上層・下層の判
定はシステムが判定基準を保持して自動的に行うこと
も、先に述べた表示形態による分類表示などにおいて分
類したグループをユーザが任意に選択して上層となるシ
ーンを設定して,階層化表示を実行することも可能であ
る。
して、その情報を利用することを考える。輝度によって
判定された字幕の文字部分について,従来より広く利用
されている文字認識の技術を適用することで,代表画像
に現われた字幕をJISコード等の文字コードで表現する
ことができる。JISコードの文字は,日本語ワードプロ
セッサに用いられている仮名漢字変換等の手法により,
任意の文字列をキーボードから人間が入力することがで
きるので,そうした入力文字列をキーにした字幕の検
索,すなわち,そうした字幕の現れているシーンの検索
を行うことができる。また、字幕の文字を認識すること
により、その字幕の内容によるグループ化が可能にな
る。同じ単語を含む字幕どうしを同じグループとして分
類することもできる。さらに,単語とその意味合いを対
応づける辞書を予め作成しておくことにより,字幕文字
列中の単語が,例えば,人名なのか,あるいは,ある特
定の分野の専門用語なのかを識別することができる。人
名であれば,人名に関する字幕というグループで分類
し,政治用語があれば政治に関するグループ,医学用語
であれば,医学グループというように分類することがで
きる。その表示形式の一例を図15に示す。ウインドウ
600の左端に文字列608が表示されている。また,
単語を分類するための辞書の構造体の一例を図16に示
す。900は,単語を格納する配列,902はコード化
された単語であり,分類のための属性情報配列904へ
のポインタを合わせ持つ。906は分類記号であり,そ
の単語が人名なのか,政治用語なのかがコード化されて
格納される。単語は多義性を持つので,複数の分類記号
を持てるようにしている。
探索の効率を上げるために一目で確認できるシーンの数
を増やそうとすると,ディスプレイの表示の大きさや解
像度に限界があるため,シーンの代表画像を縮小して表
示しなくてはならない。しかし,縮小率を上げていくと
字幕が読めなくなるという問題がある。そこで,図17
に示すように,字幕位置構造体に記憶された字幕部分を
切り出してその部分だけを相対的に拡大して,すなわ
ち,縮小率を代表画像604より低くして,604の近
傍に表示する。このとき,横書きの字幕の場合は604
の下に表示し,縦書きの場合は右横にというように,な
るべく代表画像間の間を大きくとらなくてすむよう配慮
する。字幕の部分は代表画像全体に比べて小さな領域で
あるので,字幕部分を拡大した画像を添えても,代表画
像全体の縮小率を下げるよりも表示に必要な面積は遥か
に少なくて済む。これにより,多数の代表画像の表示と
字幕が正しく読めることとの両立を図ることができる。
この表示方法は,これまで述べてきた字幕の現れている
シーンを選択的に一覧表示するときのみならず,字幕の
出ているシーンを含む全てのシーンを単純に一覧表示す
る場合にも有効である。
な方法について説明したが、本発明の他の実施例を以下
に説明する。上記の実施例では字幕と背景の間の輝度差
を用いたが,本発明はそれに限定されるものではなく,
色情報を使うこともできる。これは、字幕を構成する画
素は色の点でも、白色など背景と比べて目立つ色が使用
されていることによる。これは図2b)の構成における
輝度についての判定を色についての判定に置き換えるこ
とで実現できる。輝度でなく、色を使う方法は表示形態
に特徴のある字幕の検出により適したものである。すな
わち、ある色を指定して字幕の検出を行うことにより選
択的に字幕を抽出できるという利点がある。従って、報
道番組の見出しのように内容によっては大きさなど変わ
りうるが、常に同じスタイルで提示される字幕を見つけ
たいときに効率的である。この場合の閾値はある特定の
色を中心とした一定範囲の色として設定される。具体的
には、例えばRGB色空間における特定色を中心とする
部分空間として定義することができる。その設定は、検
出したい字幕のある画面を呼び出して、その字幕色に対
応するRGB色空間中の座標及びそれを中心とした部分
空間を閾値管理部にテーブルとして登録しておくことが
望ましい。
が、本発明はそれに限定されるものではなく、例えば C
IE 1976 Y*u*v*色空間をはじめとする均等色空間を用い
ることができる。均等色空間とは、空間中のある点から
どちらの方向への色の変化についても、色変化の感覚差
がその点からのユークリッド距離に比例するような空間
である。この場合も一定範囲の色が、その色空間に占め
る部分空間として表わされる。この場合、ユーザの視覚
に対してより忠実な色の範囲を定義することができると
いう利点がある。
ものが図18に示したものである。輝度判定部180
0、輝度差判定部1802、フレーム照合部1804、
字幕領域抽出部1806は図2b)に関して説明したも
のである。色判定部1810と色差判定部1812が上
述した色情報による字幕検出を行うブロックである。色
判定部1810は一定範囲の色をもつ画素を検出する。
1810により検出された画素について、近傍の画素と
比較して文字のエッジ部分に当たる画素を検出するのが
色差判定部1812である。閾値管理部1808は、色
による判定をも行う関係上、上述したような色について
の閾値情報を管理する点で図2b)のものと異なる。輝
度による判定と色による判定とをセレクタ1814によ
り切り換えることができ、目的に応じた効率的な検出が
行える。検出される字幕を特定化する方法では、字幕の
出現位置によって制約することも可能である。
のための特徴量として用いたが,本発明は静止した字幕
のためだけではなく,スクロールするタイプの字幕にも
適用できる。すなわち,ある時点のフレームについて,
一定時間の静止を除く字幕検出のための特徴量を用いて
字幕らしい部位の候補を選びだす。検出された中から,
次のフレームにおいて,同じ特徴が同じ並びで現れてい
る領域が近傍にあるものに候補を絞る。そして,さらに
次のフレームにおいて,先程と同じ方向,同じ距離だけ
離れた近傍に,やはり同じ特徴が同じ並びで現れている
領域に候補を限定する。これを何フレーム分か繰り返し
ても検出され続けるものだけを字幕領域として判別す
る。
ているシーンを一覧にして表示することを述べたが,そ
れらのシーンだけを集めてモニタ画面に順に再生してい
く表示方式も有用である。これは,ビデオのダイジェス
トとして用いることができる。
索モードとしてシステムに持たせ複数の検索方法と併用
すれば極めて有効に機能する。映像検索を実行する他の
方法としては本出願人による映像を連想的に検索する方
法がある。この方法は、映像中に現われる事物を予めユ
ーザが登録し、登録された事物の現われる画面を代表画
像として一覧提示するものである。ユーザは提示された
画面を追っていくことにより所望の画面を見つけ出すこ
とができる。本願発明の字幕検出は映像の主題の変化点
に対応した代表画像を切り出すことに適している。その
中で、例えば注目する人物Aを見つけ出した場合、それ
から連想検索モードに移ってその人物Aを登録し、人物
Aが映像全体でどのように現われているか調べることが
できる。このように、ユーザは各種の検索モードを選択
して順次利用することにより多面的な映像検索を実行す
ることができる。
て字幕画素判定条件の1)から4)の全てを利用したものと
して説明してきた。しかし、前述したように本発明に必
須の構成は輝度(色)判定とフレーム画像の照合であ
り、判定条件をそれらのみに絞って装置の負荷を軽くす
る方が望ましい場合もある。すなわち、このような字幕
検出処理を一般のビデオ映像再生装置やビデオ映像再生
手段付きテレビジョンに適用する場合である。このよう
な場合であれば、字幕情報を蓄積して何回も利用するよ
りもむしろリアルタイム的処理により、字幕の現われて
いる場面を次々とサーチして見たい場面を探すという処
理が求められるであろう。この場合、処理速度を最重要
視するという観点から、判定条件を絞り込むことが有効
である。
色の差の判定を省略することができる。また、字幕領域
を確定する必要もなく、違う字幕が検出された時点でフ
レーム画像をそのまま提示していけばよいため字幕領域
抽出処理を省略することができる。その場合のユーザへ
の画像の提示方法としては、前述した画像を順に再生し
ていく表示方法や図11におけるウインドウ700とウ
インドウ702を切り換えて表示することが有効であ
る。すなわち、映像検索モードと映像再生モードを設
け、映像検索モードでは画面全体に一覧で検出した画像
を提示していき、ユーザがそれらを見ながら見たい画像
を指示すると映像再生モードの画面に切り替わり、通常
のビデオ再生と同じように、指定した場面から映像が画
面全体に映しだされる。
だけが選別されて一覧表示されるので,ユーザはその中
から所望のシーンを素早く探しだすことができる。
ック図である。
る。
である。
る。
る。
ックインタフェースの一例である。
ンタフェースの一例である。
ある。
した例である。
した例である。
の一例である。
例である。
器,4…コンピュータ,5…ポインティングデバイス,
6…外部情報記憶装置,7…CPU,8…接続インタフ
ェース,9…メモリ,10…動画像再生装置,11…キ
ーボード。
Claims (5)
- 【請求項1】動画像を構成するフレーム画像の各画素に
ついて、輝度が第1のしきい値以上であるかを判定する
輝度判定手段と、上記輝度判定手段で第1のしきい値以上の輝度を有する
と判定された上記各画素について、近傍画素との輝度の
差が第2のしきい値以上であるかを判定する輝度差判定
手段と、 上記輝度差判定手段で輝度差が第2のしきい値以上であ
ると判定された上記各 画素のうち複数の連続するフレー
ム画像中で同じ位置に表れる画素を有する複数のフレー
ム画像を抽出するフレーム照合手段を有し、上記 抽出された複数のフレーム画像から代表画像を選択
して表示することを特徴とする動画像検索装置。 - 【請求項2】上記表示手段は、少なくとも二つの動画像
表示画面を有し、 第一の動画像表示画面に、映像を再生した状態で表示
し、第二の動画像表示画面に、上記代表画像を一覧表示
する画像提示処理手段を有することを特徴とする請求項
1記載の動画像検索装置。 - 【請求項3】上記フレーム画像中、上記同位置に現われ
る画素が密に存在する領域を字幕の現われている領域と
して抽出する字幕領域抽出手段を有することを特徴とす
る請求項1または2記載の動画像検索装置。 - 【請求項4】上記一覧表示された代表画像に対して、上
記字幕領域を相対的に拡大して表示することを特徴とす
る請求項1乃至3のいずれかに記載の動画像検索装置。 - 【請求項5】動画像を構成するフレーム画像の各画素に
ついて、輝度が第1のしきい値以上であるかを判定し、 第1のしきい値以上の輝度を有すると判定された上記各
画素について、近傍画素との輝度の差が第2のしきい値
以上であるかを判定し、 近傍画素との輝度差が第2のしきい値以上であると判定
された上記各 画素のうち複数の連続するフレーム画像中
で同じ位置に表れる画素を有する複数のフレーム画像を
抽出し、上記 抽出した複数のフレーム画像から代表画像を選択し
て表示手段に表示することを特徴とする動画像検索方
法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP33050793A JP3361587B2 (ja) | 1993-12-27 | 1993-12-27 | 動画像検索装置及び方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP33050793A JP3361587B2 (ja) | 1993-12-27 | 1993-12-27 | 動画像検索装置及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH07192003A JPH07192003A (ja) | 1995-07-28 |
JP3361587B2 true JP3361587B2 (ja) | 2003-01-07 |
Family
ID=18233407
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP33050793A Expired - Fee Related JP3361587B2 (ja) | 1993-12-27 | 1993-12-27 | 動画像検索装置及び方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3361587B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021018849A (ja) * | 2019-07-17 | 2021-02-15 | オムロン株式会社 | 予測装置、データ生成装置、予測装置の制御方法、データ生成装置の制御方法、情報処理プログラム、および記録媒体 |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3472659B2 (ja) * | 1995-02-20 | 2003-12-02 | 株式会社日立製作所 | 映像供給方法および映像供給システム |
JP3733161B2 (ja) * | 1995-08-01 | 2006-01-11 | キヤノン株式会社 | 画像処理装置および方法 |
JP3728775B2 (ja) * | 1995-08-18 | 2005-12-21 | 株式会社日立製作所 | 動画像の特徴場面検出方法及び装置 |
JPH0981170A (ja) * | 1995-09-14 | 1997-03-28 | Brother Ind Ltd | カラオケ装置 |
JPH0991453A (ja) * | 1995-09-21 | 1997-04-04 | Sanyo Electric Co Ltd | 画像処理方法およびその装置 |
JP3386102B2 (ja) * | 1996-10-04 | 2003-03-17 | 日本電信電話株式会社 | 映像検索方法および装置 |
JP3412737B2 (ja) * | 1996-10-07 | 2003-06-03 | 日本電信電話株式会社 | 映像目次生成表示装置 |
US6098082A (en) * | 1996-07-15 | 2000-08-01 | At&T Corp | Method for automatically providing a compressed rendition of a video program in a format suitable for electronic searching and retrieval |
US6219382B1 (en) | 1996-11-25 | 2001-04-17 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for locating a caption-added frame in a moving picture signal |
JP3503797B2 (ja) * | 1997-04-30 | 2004-03-08 | 日本電信電話株式会社 | 映像テロップ検出方法および装置 |
US6366699B1 (en) | 1997-12-04 | 2002-04-02 | Nippon Telegraph And Telephone Corporation | Scheme for extractions and recognitions of telop characters from video data |
JP3412748B2 (ja) * | 1997-12-17 | 2003-06-03 | 日本電信電話株式会社 | 映像データベース検索表示方法、装置および映像データベース検索表示プログラムを記録した記録媒体 |
JP3412749B2 (ja) * | 1998-02-26 | 2003-06-03 | 日本電信電話株式会社 | 映像表示方法、および映像構造化プログラムを記録した記録媒体 |
JP3379453B2 (ja) * | 1998-12-17 | 2003-02-24 | 松下電器産業株式会社 | 字幕領域検出方法及びその装置、並びに動画像検索方法及びその装置 |
JP4778158B2 (ja) * | 2001-05-31 | 2011-09-21 | オリンパス株式会社 | 画像選出支援装置 |
JP4671640B2 (ja) * | 2004-08-12 | 2011-04-20 | エヌ・ティ・ティ・コミュニケーションズ株式会社 | 映像ジャンル判定方法、映像ジャンル判定装置及び映像ジャンル判定プログラム |
US7949207B2 (en) | 2004-12-24 | 2011-05-24 | Nec Corporation | Video structuring device and method |
JP2007028347A (ja) * | 2005-07-20 | 2007-02-01 | Sharp Corp | 映像表示装置、及びテロップ表示時のosd表示位置制御方法 |
JP2007336478A (ja) * | 2006-06-19 | 2007-12-27 | Sharp Corp | 出力方法及び出力装置 |
JP2008166988A (ja) | 2006-12-27 | 2008-07-17 | Sony Corp | 情報処理装置および方法、並びにプログラム |
US8094202B2 (en) | 2007-05-17 | 2012-01-10 | Canon Kabushiki Kaisha | Moving image capture apparatus and moving image capture method |
JP5020705B2 (ja) * | 2007-05-17 | 2012-09-05 | キヤノン株式会社 | 動画撮像装置及び動画撮像方法 |
JP2008004116A (ja) * | 2007-08-02 | 2008-01-10 | Hitachi Ltd | 映像中の文字検索方法及び装置 |
JP5173337B2 (ja) | 2007-09-18 | 2013-04-03 | Kddi株式会社 | 要約コンテンツ生成装置およびコンピュータプログラム |
JP5240833B2 (ja) * | 2008-06-11 | 2013-07-17 | Necカシオモバイルコミュニケーションズ株式会社 | 字幕付映像再生装置、字幕付映像再生方法及びプログラム |
JP2010011395A (ja) * | 2008-06-30 | 2010-01-14 | Toshiba Corp | 映像記録再生装置および映像記録再生方法 |
JP2010130394A (ja) * | 2008-11-28 | 2010-06-10 | Hitachi Ltd | 記録装置及び記録方法 |
JP6329687B1 (ja) * | 2017-12-08 | 2018-05-23 | 株式会社フォトロン | テロップ編集装置及びテロップ編集プログラム |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05268518A (ja) * | 1992-03-19 | 1993-10-15 | Nippon Telegr & Teleph Corp <Ntt> | 映像処理装置 |
JP3093438B2 (ja) * | 1992-05-22 | 2000-10-03 | 日本放送協会 | スーパーインポーズ方法および装置 |
JPH06110942A (ja) * | 1992-09-25 | 1994-04-22 | Toshiba Corp | 映像インデックス作成装置 |
-
1993
- 1993-12-27 JP JP33050793A patent/JP3361587B2/ja not_active Expired - Fee Related
Non-Patent Citations (3)
Title |
---|
上田 他,動画像解析に基づくビデオ構造の視角化とその応用,電子情報通信学会論文誌D−II,日本,社団法人電子情報通信学会,1993年 8月25日,Vol.J76−D−II,No.8,p.1572−1580 |
外村 他,蓄積映像ハンドリング技術,NTT R&D,日本,1993年 1月10日,Vol.42,No.1,p.61−70 |
菊川健、川淵里美,映像資料サマリー自動作成システムの開発,電子情報通信学会論文誌A,日本,社団法人電子情報通信学会,1992年 2月25日,VOL.J75−A,No.2,p.204−212 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021018849A (ja) * | 2019-07-17 | 2021-02-15 | オムロン株式会社 | 予測装置、データ生成装置、予測装置の制御方法、データ生成装置の制御方法、情報処理プログラム、および記録媒体 |
Also Published As
Publication number | Publication date |
---|---|
JPH07192003A (ja) | 1995-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3361587B2 (ja) | 動画像検索装置及び方法 | |
JP4643829B2 (ja) | ビデオフレーム中の検出されたテキストを使用してビデオコンテンツを分析するシステム及び方法 | |
US8316301B2 (en) | Apparatus, medium, and method segmenting video sequences based on topic | |
EP0729117B1 (en) | Method and apparatus for detecting a point of change in moving images | |
US6608930B1 (en) | Method and system for analyzing video content using detected text in video frames | |
US6243419B1 (en) | Scheme for detecting captions in coded video data without decoding coded video data | |
JP2994177B2 (ja) | ビデオ・セグメント間の境界部の位置を特定するためのシステム及び方法 | |
US6424744B2 (en) | Video retrieval method and apparatus | |
US6571054B1 (en) | Method for creating and utilizing electronic image book and recording medium having recorded therein a program for implementing the method | |
US6222532B1 (en) | Method and device for navigating through video matter by means of displaying a plurality of key-frames in parallel | |
US7184100B1 (en) | Method of selecting key-frames from a video sequence | |
Gargi et al. | Indexing text events in digital video databases | |
KR20000009742A (ko) | 동영상에서의 특정인물 등장구간 검색 시스템 | |
US7308119B2 (en) | Image retrieval apparatus and method, and image display apparatus and method thereof | |
Oh et al. | Content-based scene change detection and classification technique using background tracking | |
US20080095442A1 (en) | Detection and Modification of Text in a Image | |
US6606636B1 (en) | Method and apparatus for retrieving dynamic images and method of and apparatus for managing images | |
JP3332166B2 (ja) | 動画像の検索装置 | |
JP3258924B2 (ja) | シーン管理装置、シーン管理方法及び記録媒体 | |
JP3379453B2 (ja) | 字幕領域検出方法及びその装置、並びに動画像検索方法及びその装置 | |
US7200814B2 (en) | Reproduction apparatus | |
JP3024574B2 (ja) | 動画像検索装置 | |
JP3386102B2 (ja) | 映像検索方法および装置 | |
KR100245170B1 (ko) | 칼라 영상 분류 방법 및 장치 | |
KR20010110415A (ko) | 뉴럴 네트워크에 적용된 형상 특성들을 이용한 심볼 분류 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20071018 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081018 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091018 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091018 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101018 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111018 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121018 Year of fee payment: 10 |
|
LAPS | Cancellation because of no payment of annual fees |