JP3590896B2 - Caption detection method - Google Patents
Caption detection method Download PDFInfo
- Publication number
- JP3590896B2 JP3590896B2 JP01561295A JP1561295A JP3590896B2 JP 3590896 B2 JP3590896 B2 JP 3590896B2 JP 01561295 A JP01561295 A JP 01561295A JP 1561295 A JP1561295 A JP 1561295A JP 3590896 B2 JP3590896 B2 JP 3590896B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- caption
- image
- subtitle
- detection method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000001514 detection method Methods 0.000 title claims description 41
- 238000000034 method Methods 0.000 description 209
- 230000008569 process Effects 0.000 description 199
- 238000000605 extraction Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 9
- 230000008859 change Effects 0.000 description 5
- 239000003086 colorant Substances 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
- Character Input (AREA)
- Image Processing (AREA)
Description
【0001】
【産業上の利用分野】
本発明は、字幕検出方法に関し、さらに詳しくは、画像中に字幕が有るか否かを判定する字幕検出方法に関する。
【0002】
【従来の技術】
字幕検出方法については、次の従来技術がある。
特開平5−137066号公報には、ビデオ信号のエッジ成分を抽出してカラオケビデオ中の字幕部分と背景部分とを識別する技術が開示されている。
また、「大相撲対戦からの認識に基づく内容識別法、第44回情報処理学会全国大会予稿集、2−301」には、画面を左部分と右部分とに分割し、左部分に縦書きされている字幕と右部分に縦書きされている字幕とから対戦力士を認識する技術が開示されている。
【0003】
動画像の代表画像抽出装置については、次の従来技術がある。
特開平5−244475号公報では、フレーム間差分に基づいて画像の変化点を求め、その変化点を与える画像を代表画像として抽出する技術が提案されている。
【0004】
その他の関連する従来技術として、特開平3−273363号公報,特開平3−292572号公報に開示の技術がある。
【0005】
【発明が解決しようとする課題】
上記特開平5−137066号公報に開示の字幕検出方法は、字幕が横書きであることが前提であり、縦書きの字幕には対応できない。すなわち、カラオケビデオには対応できても、一般の画像には対応できない問題点がある。
また、上記「大相撲対戦からの認識に基づく内容識別法、第44回情報処理学会全国大会予稿集、2−301」に開示の従来技術は、画面の左部分と右部分とに字幕がそれぞれ縦書きされていることが前提であり、やはり一般の画像には対応できない問題点がある。
そこで、本発明の第1の目的は、字幕の表示態様が任意である一般の画像に対して字幕が有るか否かを判定することが出来る字幕検出方法を提供することにある。
【0006】
また、上記特開平5−244475号公報に開示の動画像の代表画像抽出装置では、画像の変化のみに着目して代表画像を抽出しているため、画像自体の変化は少ない場合には、必要な代表画像を抽出できない問題点がある。例えば、アナウンサーが複数のニュースを次々に読み上げているような画像の場合、画像自体の変化が少なく,字幕のみが変化するため、ニュースごとに代表画像を抽出することが出来ないことがある。
そこで、本発明の第2の目的は、字幕を検出し、その結果に基づいて代表画像を抽出することが出来る字幕検出方法を提供することにある。
【0007】
【課題を解決するための手段】
【0008】
第1の観点では、本発明は、画像を複数の領域に区分し、各領域別に第一の閾値以上の高輝度の画素数および第二の閾値以上の輝度値の差があるエッジ数を計数し、前記画素数が第三の閾値以上であり且つ前記エッジ数が第三の閾値以上の領域を字幕有りの領域と判別し、字幕有りの領域数を行方向および列方向に投影し、行方向に投影したときの字幕有りの領域数の最大値または列方向に投影したときの字幕有りの領域数の最大値が第四の閾値以上のときに画像中に字幕が有ると判定することを特徴とする字幕検出方法を提供する。
【0009】
第2の観点では、本発明は、上記構成の字幕検出方法において、少なくとも過去2フレーム以上連続して同一場所に存在した高輝度の画素数およびエッジ数を計数することを特徴とする字幕検出方法を提供する。
【0010】
第3の観点では、本発明は、上記構成の字幕検出方法において、水平方向の輝度差が第二の閾値以上のエッジと、垂直方向の輝度差が第二の閾値以上のエッジとを計数することを特徴とする字幕検出方法を提供する。
【0011】
第4の観点では、本発明は、上記構成の字幕検出方法において、行方向に投影したときの字幕有りの領域数の最大値が、列方向に投影したときの字幕有りの領域数の最大値より大きい場合は、字幕が横書きであると判定し、そうでない場合は字幕が縦書きであると判定することを特徴とする字幕検出方法を提供する。
【0012】
第5の観点では、本発明は、上記構成の字幕検出方法において、字幕有りと判定した画像の中から代表画像を選択することを特徴とする字幕検出方法を提供する。
【0014】
第6の観点では、本発明は、上記構成の字幕検出方法において、字幕有りと判定した画像が時間的に連続するフレームであるとき、そのうちの一つのフレームの画像のみを代表画像として選択することを特徴とする字幕検出方法を提供する。
【0015】
第7の観点では、本発明は、上記構成の字幕検出方法において、抽出した各代表画像を縮小して画面に並べて表示することを特徴とする字幕検出方法を提供する。
【0016】
【作用】
上記第1の観点による字幕検出方法では、画像を複数の領域に区分し、各領域別に字幕の特徴量を算出し、それらの特徴量により各領域が字幕有りの領域か否かを判別する。そして、字幕有りの領域数を行方向および列方向に投影し、その投影結果に基づいて画像中に字幕が有るか否かを判定する。
これによれば、区分した領域別に字幕の有無を判別しているので、字幕の文字数が画面全体で少ない場合であっても、字幕の検出が可能である。また、字幕有りの領域数を行方向および列方向に投影し、その投影結果に基づいて画像中に字幕が有るか否かを判定しているので、字幕が横書きでも縦書きでも対応でき、字幕の表示位置の制限もない。従って、字幕の表示態様が任意である一般の画像に対して字幕が有るか否かを判定することが出来る。
【0017】
さらに、上記第1の観点による字幕検出方法では、画像を複数の領域に区分し、各領域別に第一の閾値以上の高輝度の画素数および第二の閾値以上の輝度値の差があるエッジ数を計数し、前記画素数が第三の閾値以上であり且つ前記エッジ数が第三の閾値以上の領域を字幕有りの領域と判別する。そして、字幕有りの領域数を行方向および列方向に投影し、行方向に投影したときの字幕有りの領域数の最大値または列方向に投影したときの字幕有りの領域数の最大値が第四の閾値以上のときに画像中に字幕が有ると判定する。
これによれば、上記の作用に加えて、高輝度の画素数を計数しているので、背景よりも高輝度の画素で構成される文字を好適に判別できる。また、強エッジのエッジ数を計数しているので、背景よりもエッジの出現頻度の高い文字を好適に判別できる。そして、高輝度の画素数と強エッジのエッジ数を両方により領域に字幕が有るか無いかを判別しているので、高精度に判別できる。
【0018】
上記第2の観点による字幕検出方法では、少なくとも過去2フレーム以上連続して同一場所に存在した高輝度の画素数およびエッジ数を計数する。
動画像では、背景の画素は変化しやすいが、字幕は視聴者が読み終るまで一定時間変化させずに表示される。そこで、過去のフレームと比較することにより、字幕にかかる画素やエッジを高精度に検出できる。
【0019】
上記第3の観点による字幕検出方法では、水平方向の輝度差が第二の閾値以上のエッジと、垂直方向の輝度差が第二の閾値以上のエッジとを計数する。
例えば、窓のブラインドのような背景では、エッジが高頻度に出現する。しかし、水平方向のエッジまたは垂直方向のエッジの一方しか現われないので、両方を考慮することにより、窓のブラインドのような背景のエッジは計数されなくなり、誤判定を防止できる。
【0020】
上記第4の観点による字幕検出方法では、行方向に投影したときの字幕有りの領域数の最大値が、列方向に投影したときの字幕有りの領域数の最大値より大きい場合は、字幕が横書きであると判定し、そうでない場合は字幕が縦書きであると判定する。
これにより、字幕の書式を検出できるようになる。
【0021】
上記第5の観点による字幕検出方法では、字幕有りと判定した画像の中から代表画像を選択する。
このように字幕の有る画像を検出し、その中から代表画像を抽出するので、画像自体の変化が少なく,字幕のみが変化する動画像でも、代表画像を適切に抽出することが出来る。
【0023】
上記第6の観点による字幕検出方法では、字幕有りと判定した画像が時間的に連続するとき、そのうちの一つのフレームの画像のみを代表画像として選択する。
これにより、例えば字幕の代り目の画像を抽出することが出来る。
【0024】
上記第7の観点による字幕検出方法では、抽出した各代表画像を縮小して画面に並べて表示する。
これにより、複数の代表画像を一覧できるようになり、ユーザは簡単に所望のシーンを探し出すことが出来る。
【0025】
【実施例】
以下、図を参照して本発明を詳細に説明する。なお、これにより本発明が限定されるものではない。
【0026】
図1は、本発明の字幕検出方法を実施する動画像の代表画像抽出装置のシステム構成図である。
この動画像の代表画像抽出装置1000において、ビデオ再生装置9は、動画像を再生するための光ディスクやビデオデッキ等の装置である。ビデオ再生装置9が扱う動画像の各フレームには、動画像の先頭から順にフレーム番号がつけられており、このフレーム番号がコンピュータ3から制御信号10によってビデオ再生装置に送られることで、該当フレームの動画像が再生され、映像信号Vがビデオ入力装置11へ出力される。
ビデオ入力装置11は、前記映像信号Vをデジタル画像データ12に変換し、コンピュータ3に送る。
【0027】
コンピュータ3は、インターフェース6を介して、前記デジタル画像データ12を取り込み、メモリ5に格納しているプログラムに従ってCPU4で処理する。メモリ5には、各種のデータが格納され、必要に応じて参照される。また、処理の必要に応じて、各種情報が外部記憶装置13に蓄積される。
コンピュータ3に対する命令は、マウス等のポインティングデバイス7やキーボード8を使って行うことが出来る。
CRT等のディスプレイ装置1はコンピュータ3の出力画面を表示し、スピーカ2はコンピュータ3の出力音声を発生する。
【0028】
図2は、ディスプレイ装置1に表示する画面例である。
領域50には、デジタル画像データ12に基づく動画像を表示する。
領域60には、本システムを制御するボタンと本システムの動作状況を表示する。開始ボタン61は、代表画像抽出処理の実行開始を行なうボタンである。停止ボタン62は、代表画像抽出処理の実行停止を行なうボタンである。ボタンを押す操作は、ユーザがポインティングデバイス7を操作してカーソル80をボタン上に位置合わせし、クリックすることで行なう。検出画面数表示63は、実行開始から現在までに抽出した代表画像の個数である。開始時間表示64は、代表画像抽出処理の実行開始時刻である。
【0029】
領域70には、抽出したm個の代表画像を縮小して表示する(図2では、m=6)。すなわち、動画像のフレームに字幕が存在すると、そのフレームの画像を代表画像として抽出し、適切な大きさに縮小して領域70に表示する。また、当該代表画像の抽出時間を合わせて表示する。抽出した代表画像が領域70の表示可能数mを越えた場合には、自動スクロールし、最新のm個の代表画像だけを表示する。なお、ユーザがスクロールボタン71,73を押したり,スクロールバー72をドラッグすることで、スクロールアウトした代表画像を表示させることが出来る。
【0030】
図3は、代表画像抽出処理の機能ブロック図である。
動画像入力部100は、デジタル画像データ12をメモリ5に取り込み、ディスプレイ装置1の領域50に動画像を表示する。
特徴抽出部150の領域別輝度計数部200は、動画像の各フレームの画面を複数の領域に区分したときの各領域内の第一の閾値以上の高輝度の画素を検出し、それら画素数を出力する。
特徴抽出部150の領域別エッジ計数部300は、動画像の各フレームの画面を複数の領域に区分したときの各領域内の第二の閾値以上のエッジを検出し、それらエッジ数を出力する。
字幕判定部400は、前記画素数および前記エッジ数が第三の閾値以上の領域を字幕有りの領域と判別し、字幕有りの領域数を行方向および列方向に投影し、行方向に投影したときの字幕有りの領域数の最大値または列方向に投影したときの字幕有りの領域数の最大値が第四の閾値以上のときに、当該フレームの画像中に字幕が有ると判定する。
代表画像作成部500は、字幕有りと判定したフレームの画像を縮小して代表画像としてメモリ5に記憶する。
表示部600は、複数の縮小代表画像と抽出時刻をディスプレイ装置1の領域70に並べて表示する。
【0031】
図4は、メモリ5に記憶されるプログラムとデータの構成図である。
プログラム5−1は、代表画像抽出処理のプログラムである。このプログラム5−1は、以下のデータ5−2〜データ5−27を参照する。
【0032】
代表画像構造体5−2は、代表画像と付属データ(抽出時刻など)を格納する構造体である(図5に詳細を示す)。この代表画像構造体5−2は、抽出結果として蓄積するデータである。
【0033】
闘値1(5−3)は、高輝度の画素を検出するための第一の閾値である。
闘値2(5−4)は、強エッジを検出するための第二の閾値である。
闘値3(5−5)は、字幕有りの区分領域を判別するための第三の閾値である。
閾値4(5−6)は、字幕が有るフレームを検出するための第四の閾値である。
上記闘値1(5−3),闘値2(5−4),闘値3(5−5)および閾値4(5−6)は、予め設定しておくデータである。
【0034】
以下のデータ5−7〜データ5−27は、1回あたりの処理に利用するワーク用データである。
画像データ5−7は、現在の処理対象のフレームのデジタル画像データであり、[240]×[320]個(=画面の画素数:図18参照)の配列データである。各配列は、赤画像データ5−7−1,緑画像データ5−7−2,青画像データ5−7−3の3種類の色成分データからなっている。
輝度データ5−8は、高輝度の画素の検出結果を示す[240]×[320]個の配列データである。
横エッジデータ5−9は、画面の横方向の輝度差が大きい画素(強エッジの画素)の検出結果を示す[240]×[320]個の配列データである。
縦エッジデータ5−10は、画面の縦方向の輝度差が大きい画素(強エッジの画素)の検出結果を示す[240]×[320]個の配列データである。
【0035】
前フレーム輝度データ5−11は、現在の処理対象のフレームの前フレームの輝度データ(5−8)である。
前フレーム横エッジデータ5−12は、現在の処理対象のフレームの前フレームの横エッジデータ(5−9)である。
前フレーム縦エッジデータ5−13は、現在の処理対象のフレームの前フレームの縦エッジデータ(5−10)である。
【0036】
輝度照合データ5−14は、前記輝度データ5−8と前記前フレーム輝度データ5−11の両方が高輝度の画素を格納した[240]×[320]個の配列データである。
横エッジ照合データ5−15は、前記横エッジデータ5−9と前記前フレーム横エッジデータ5−12の両方が強エッジの画素を格納した[240]×[320]個の配列データである。
縦エッジ照合データ5−16は、前記縦エッジデータ5−10と前記前フレーム縦エッジデータ5−13の両方が強エッジの画素を格納した[240]×[320]個の配列データである。
【0037】
輝度領域データ5−17は、領域ごとに前記輝度照合データ5−14の高輝度の画素数を計数した結果を格納した配列データである。これは、[10]×[16]個(=領域数:図18参照)の配列データである。なお、本実施例では、画面を[10]×[16]の領域に区分しているが、1つの領域に字幕の文字が1つ入る程度のサイズに区分するのが好ましい。
横エッジ領域データ5−18は、領域ごとに前記横エッジ照合データ5−15の強エッジの画素数(エッジ数)を計数した結果を格納した[10]×[16]個の配列データである。
縦エッジ領域データ5−19は、領域ごとに前記縦エッジ照合データ5−16の強エッジの画素数(エッジ数)を計数した結果を格納した[10]×[16]個の配列データである。
上記輝度データ5−8〜縦エッジ領域データ5−19は、前記特徴抽出部150が作成するデータである。
【0038】
字幕領域データ5−20は、領域ごとに字幕の有無の判別結果を格納した[10]×[16]個の配列データである。
字幕付属データ5−21は、字幕が有るときの字幕の位置および方向のデータである。
行カウントデータ5−22は、行ごとに字幕有りの領域の個数を格納した[10]個の配列データである。
最大行カウントデータ5−23は、前記行カウントデータ5−22の配列データのうちの最大値を格納したデータである。
最大行位置データ5−24は、前記行カウントデータ5−22の配列データのうちの最大値に対応する行の行番号を格納したデータである。
列カウントデータ5−25は、列ごとに字幕有りの領域の個数を格納した[16]個の配列データである。
最大列カウントデータ5−26は、前記列カウントデータ5−25の配列データのうちの最大値を格納したデータである。
最大列位置データ5−27は、前記列カウントデータ5−25の配列データのうちの最大値に対応する列の列番号を格納したデータである。
前字幕領域データ5−28は、現在の処理対象のフレームの前フレームの字幕領域データ(5−20)である。
領域一致数5−29は、現在の処理対象のフレームと前フレームとで字幕の有無が一致した領域数である。
上記字幕領域データ5−20から領域一致数5−29は、字幕判定部400が作成するデータである。
【0039】
図5は、前記代表画像構造体5−2の構成図である。
代表画像識別番号5−2−1は、抽出した代表画像の順番である。
代表画像データ5−2−2は、抽出した画像を縮小した配列データである。これは、[120]×[160]個(=画面の画素数の1/2)の配列データである。各配列は、赤画像データ,緑画像データ,青画像データの3種類の色成分データからなっている。
代表画像表示位置X(5−2−3)および代表画像表示位置Y(5−2−4)は、代表画像を領域70に表示する際のX,Y座標位置である。
字幕開始時間5−2−5は、当該代表画像にかかる字幕が出現した時刻である。
字幕終了時間5−2−6は、当該代表画像にかかる字幕が消失した時刻である。
字幕書式5−2−7は、当該代表画像にかかる字幕の表示方向と位置のデータである。
【0040】
図6,図7,図8は、領域別輝度計数部200における処理手順を示すフロー図である。
図6の処理201では、画素横位置カウンタXおよび画素縦位置カウンタYを“0”に初期化する。
処理202では、赤画像データ5−7−1,緑画像データ5−7−2,青画像データ5−7−3の配列[Y][X]の輝度値が闘値1(5−3)以上であるか否かを調べ、3色ともに闘値1以上の輝度であれば処理203へ移り、闘値1未満ならば処理204へ移る。
処理203では、輝度データ5−8の配列[Y][X]に“1”を書き込む。
処理204では、輝度データ5−8の配列[Y][X]に“0”を書き込む。
処理205〜処理209は、上記処理202〜処理204を全ての画素に対して行うためのアドレス更新処理である。上記処理202〜処理204を全ての画素に対して行って輝度データ5−8を作成完了すると、図7の処理210に移る。
【0041】
図7の処理210では、画素横位置カウンタXおよび画素縦位置カウンタYを“0”に初期化する。
処理211では、輝度データ5−8の配列[Y][X]の値と前フレーム輝度データ5−11の配列[Y][X]の値が両方とも“1”であるかどうかを調べ、両方とも“1”ならば処理212へ移り、そうでなければ処理213へ移る。
処理212では、輝度照合データ5−14の配列[Y][X]に“1”を書き込む。
処理213では、輝度照合データ5−14の配列[Y][X]に“0”を書き込む。
処理214〜処理218は、上記処理211〜処理213を全ての画素に対して行うためのアドレス更新処理である。上記処理202〜処理204を全ての画素に対して行って輝度照合データ5−14を作成完了すると、処理219に移る。
【0042】
処理219では、画素横位置カウンタXおよび画素縦位置カウンタYを“0”に初期化する。
処理220では、輝度データ5−8の配列[Y][X]の内容を前フレーム輝度データ5−11の配列[Y][X]に複写する。
処理221〜処理225は、上記処理220を全ての画素に対して行うためのアドレス更新処理である。上記処理220を全ての画素に対して行って前フレーム輝度データ5−11を更新完了すると、図8の処理226に移る。
【0043】
図8の処理226では、領域内画素横位置カウンタiおよび領域内画素縦位置カウンタjおよび領域横位置カウンタXbおよび領域縦位置カウンタYbを“0”に初期化する。また、輝度領域データ5−17を“0”に初期化する。
処理227では、輝度照合データ5−14の配列[Yb*24+j][Xb*20+i]の内容が“1”かどうかを調べ、“1”であれば処理228へ移り、そうでなければ処理229へ移る。
処理228では、輝度領域データ5−17の配列[Yb][Xb]に“1”を加える。
処理229〜処理239は、上記処理227,処理228を全ての画素に対して行うためのアドレス更新処理である。上記処理227,処理228を全ての画素に対して行って輝度領域データ5−17を作成完了すると、領域別輝度計数部200における処理を終了する。
【0044】
図9,図10,図11は、領域別エッジ計数部300における処理手順を示すフロー図である。
図9の処理301では、画素横位置カウンタXおよび画素縦位置カウンタYを“1”に初期化する。
処理302では、赤画像データ5−7−1,緑画像データ5−7−2,青画像データ5−7−3の配列[Y][X+1]の輝度値と配列[Y][X−1]の輝度値の差が闘値2(5−4)以上であるか否かを調べ、3色ともに輝度値の差が闘値2以上であれば処理303へ移り、闘値2未満ならば処理304へ移る。
処理303では、横エッジデータ5−9(図4)の配列[Y][X]に“1”を書き込む。
処理304では、横エッジデータ5−9(図4)の配列[Y][X]に“0”を書き込む。
処理305では、赤画像データ5−7−1,緑画像データ5−7−2,青画像データ5−7−3の配列[Y+1][X]の輝度値と配列[Y−1][X]の輝度値の差が闘値2(5−4)以上であるか否かを調べ、3色ともに輝度値の差が闘値2以上であれば処理306へ移り、闘値2未満ならば処理307へ移る。
処理306では、縦エッジデータ5−10(図4)の配列[Y][X]に“1”を書き込む。
処理307では、縦エッジデータ5−10(図4)の配列[Y][X]に“0”を書き込む。
処理308〜処理312は、上記処理302〜処理307を全ての画素に対して行うためのアドレス更新処理である。上記処理202〜処理204を画面の縁の画素を除く全ての画素に対して行って横エッジデータ5−9および縦エッジデータ5−10を作成完了すると、図10の処理313に移る。
【0045】
図10の処理313では、画素横位置カウンタXおよび画素縦位置カウンタYを“0”に初期化する。
処理314では、横エッジデータ5−9の配列[Y][X]の値と前フレーム横エッジデータ5−12の配列[Y][X]の値が共に“1”であるかどうかを調べ、両方とも“1”ならば処理315へ移り、そうでなければ処理316へ移る。
処理315では、横エッジ照合データ5−15の配列[Y][X]に“1”を書き込む。
処理316では、横エッジ照合データ5−15の配列[Y][X]に“0”を書き込む。
処理317では、縦エッジデータ5−10の配列[Y][X]の値と前フレーム縦エッジデータ5−13の配列[Y][X]の値が共に“1”であるか否かを調べ、両方とも“1”ならば処理318へ移り、そうでなければ処理319へ移る。
処理318では、縦エッジ照合データ5−16の配列[Y][X]に“1”を書き込む。
処理319では、縦エッジ照合データ5−16の配列[Y][X]に“0”を書き込む。
処理320〜処理324は、上記処理314〜処理319を全ての画素に対して行うためのアドレス更新処理である。上記処理314〜処理319を全ての画素に対して行って横エッジ照合データ5−15および縦エッジ照合データ5−16を作成完了すると、処理325に移る。
【0046】
処理325では、横エッジデータ5−9の配列[Y][X]の内容を前フレーム横エッジデータ5−12の配列[Y][X]に複写する。また、縦エッジデータ5−10の配列[Y][X]の内容を前フレーム縦エッジデータ5−13の配列[Y][X]に複写する。
処理327〜処理331は、上記処理326を全ての画素に対して行うためのアドレス更新処理である。上記処理326を全ての画素に対して行って前フレーム横エッジデータ5−12および前フレーム縦エッジデータ5−13を更新完了すると、図11の処理332に移る。
【0047】
図11の処理332では、領域内画素横位置カウンタiおよび領域内画素縦位置カウンタjおよび領域横位置カウンタXbおよび領域縦位置カウンタYbを“0”に初期化する。また、横エッジ領域データ5−18および縦エッジ領域データ5−19を“0”に初期化する。
処理333では、横エッジ照合データ5−15の配列[Yb*24+j][Xb*20+i]の内容が“1”かどうかを調べ、“1”であれば処理334へ移り、そうでなければ処理335へ移る。
処理334では、横エッジ領域データ5−18の配列[Yb][Xb]に“1”を加える。
処理335では、縦エッジ照合データ5−16の配列[Yb*24+j][Xb*20+i]の内容が“1”かどうかを調べ、“1”であれば処理336へ移り、そうでなければ処理337へ移る。
処理336では、縦エッジ領域データ5−19の配列[Yb][Xb]に“1”を加える。
処理337〜処理348は、上記処理333〜処理336を全ての画素に対して行うためのアドレス更新処理である。上記処理333〜処理336を全ての画素に対して行って横エッジ領域データ5−18および縦エッジ領域データ5−19を作成完了すると、領域別エッジ計数部300における処理を終了する。
【0048】
図12,図13,図14は、字幕判定部400および代表画像作成部500における処理手順を示すフロー図である。なお、字幕判定部400の処理を参照番号4xxで示し、代表画像作成部500の処理を参照番号5xxで示す。
図12の処理401では、領域横位置カウンタXbおよび領域縦位置カウンタYbを“0”に初期化する。
処理402では、輝度領域データ5−17の配列[Yb][Xb]の値と横エッジ領域データ5−18の配列[Yb][Xb]の値と縦エッジ領域データ5−19の配列[Yb][Xb]の値が共に闘値3(5−5)以上であるか否かを調べ、共に闘値3以上ならば処理403へ移り、そうでなければ処理404へ移る。
処理403では、字幕領域データ5−20の配列[Yb][Xb]に“1”を書き込む。“1”を書き込んだ配列に対応する領域が字幕有りの領域である。
処理404では、字幕領域データ5−20の配列[Yb][Xb]に“0”を書き込む。“0”を書き込んだ配列に対応する領域が字幕無しの領域である。
処理405〜処理409は、上記処理402〜処理404を全ての領域に対して行うためのアドレス更新処理である。上記処理402〜処理404を全ての領域に対して行って字幕領域データ5−20を作成完了すると、図13の処理410に移る。
【0049】
図13の処理410では、領域横位置カウンタXbおよび領域縦位置カウンタYbを“0”に初期化する。また、行カウントデータ5−22を“0”に初期化する。
処理411では、行カウントデータ5−22の配列[Yb]に字幕領域データの配列[Yb][Xb]の内容を加算する。
処理412〜処理416は、上記処理411を全ての領域に対して行うためのアドレス更新処理である。上記処理411を全ての領域に対して行って行カウントデータ5−22を作成完了すると、処理417に移る。
処理417では、領域横位置カウンタXbおよび領域縦位置カウンタYbを“0”に初期化する。又、列カウントデータ5−25を“0”に初期化する。
処理418では、列カウントデータ5−25の配列[Xb]に字幕領域データの配列[Yb][Xb]の内容を加算する。
処理419〜処理423は、上記処理418を全ての領域に対して行うためのアドレス更新処理である。上記処理418を全ての領域に対して行って列カウントデータ5−25を作成完了すると、図14の処理424に移る。
【0050】
図14の処理424では、領域横位置カウンタXbおよび領域縦位置カウンタYbを“0”に初期化する。また、最大行カウントデータ5−23および最大列カウントデータ5−26を“0”に初期化する。
処理425では、行カウントデータ5−22の配列[Yb]の値が最大行カウントデータ5−23より大きいかを調べ、大きければ処理426へ移り、大きくなければ処理428に移る。
処理426では、行カウントデータ5−22の配列[Yb]の値を最大行カウントデータ5−23に複写する。
処理427では、最大行位置データ5−24に“Yb”の値を記憶する。
処理428および処理429は、上記処理425〜処理427を全ての行に対して行うためのアドレス更新処理である。上記処理425〜処理427を全ての行に対して行って最大行カウントデータ5−23および最大行位置データ5−24を作成完了すると、処理430に移る。
処理430では、列カウントデータ5−25の配列[Xb]の値が最大列カウントデータ5−26より大きいかを調べ、大きければ処理431へ移り、大きくなければ処理433に移る。
処理431では、列カウントデータ5−25の配列[Xb]の値を最大列カウントデータ5−26に複写する。
処理432では、最大列位置データ5−27に“Xb”の値を記憶する。
処理433および処理434は、上記処理430〜処理432を全ての列に対して行うためのアドレス更新処理である。上記処理430〜処理432を全ての列に対して行って最大列カウントデータ5−26および最大列位置データ5−27を作成完了すると、処理435に移る。
【0051】
処理435では、最大行カウントデータ5−23が閾値4(5−6)以上であるか又は最大列カウントデータ5−26が閾値4以上であるか否かを調べる。最大行カウントデータ5−23が閾値4以上であるか又は最大列カウントデータ5−26が閾値4以上であれば、当該フレームの画像中に字幕有りと判定し、処理436へ移る。最大行カウントデータ5−23が閾値4未満であり且つ最大列カウントデータ5−26が閾値4未満であれば、当該フレームの画像中に字幕無しと判定し、図17の処理471に移る。
処理436では、最大行カウントデータ5−23が最大列カウントデータ5−26以上であるか否かを調べる。最大行カウントデータ5−23が最大列カウントデータ5−26以上であれば、「字幕が横書きである」と判定し、処理437に移る。最大行カウントデータ5−23が最大列カウントデータ5−26以上でなければ、「字幕は縦書きである」と判定し、処理440に移る。
【0052】
処理437では、最大行位置データ5−24が“5”行目(画面の中段の行)以上であるかを調べ、“5”以上であれば「字幕は画面の上半分に横書き」と判断し、処理438へ移り、“5”未満であれば「字幕は下半分に横書き」と判断し、処理439へ移る。
処理438では、字幕付属データ5−21に“上横書き”を書き込む。
処理439では、字幕付属データ5−21に“下横書き”を書き込む。そして、図15の処理451に移る。
【0053】
一方、処理440では、最大列位置データ5−27が“8”列目(画面の中央の列)以上であるかを調べ、“8”以上であれば「字幕は画面の右半分に縦書き」と判断し、処理441へ移り、“8”未満であれば「字幕は画面の左半分に縦書き」と判断し、処理442へ移る。
処理441では、字幕付属データ5−21に“右縦書き”を書き込む。
処理442では、字幕付属データ5−21に“左縦書き”を書き込む。そして、図15の処理451に移る。
【0054】
図15の処理451では、領域横位置カウンタXb及び領域縦位置カウンタYbを“0”に初期化する。又、領域一致数5−29を“0”に初期化する。
処理452では、字幕領域データ5−20の配列[Yb][Xb]の値と前字幕領域データ5−28の配列[Yb][Xb]の値が一致するかどうかを調べ、一致すれば処理453へ移り、一致しなければ処理454へ移る。
処理453では、領域一致数5−29に“1”を加える。
処理454から処理458は、上記処理452および処理453を全ての領域に対して行うためのアドレス更新処理である。上記処理452,処理453を全ての領域に対して行って領域一致数5−29を作成完了すると、処理459に移る。
【0055】
処理459では、領域一致数5−29を領域数“160”で割って一致度を求め、その一致度が“0.7”未満か否かを調べる。一致度が“0.7”未満なら、字幕が変化したと判断し、処理501へ移る。一致度が“0.7”以上なら、字幕が変化していないと判断し、図16の処理461へ移る。なお、本実施例では一致度の閾値を“0.7”としたが、任意に設定可能である。
処理501では、新たな代表画像構造体5−2を生成し、その代表画像構造体5−2の代表画像識別番号5−2−1に、前回生成した代表画像構造体5−2の代表画像識別番号5−2−1に“1”を加えた値を設定する。また、字幕開始時間5−2−5に現在時刻を格納し、字幕書式5−2−7に字幕付属データ5−21を複写する。
処理502では、画素横位置カウンタXおよび画素縦位置カウンタYを“0”に初期化する。
処理503では、代表画像データ5−2−2の配列[Y][X]に緑画像データ5−7−2の配列[Y*2][X*2]の輝度値を複写する。
処理504〜処理508は、上記処理503を代表画像の全ての画素に対して行うためのアドレス更新処理である。上記処理503を代表画像の全ての画素に対して行って代表画像データ5−2−2を作成完了すると、図16の処理461に移る。なお、代表画像データ5−2−2は、緑画像データ5−7−2の1/2縮小画像となる。
【0056】
図16の処理461では、領域横位置カウンタXbおよび領域縦位置カウンタYbを“0”に初期化する。
処理462では、前字幕領域データ5−28の配列[Yb][Xb]に字幕領域データ5−20の配列[Yb][Xb]の値を複写する。
処理463から処理467は、上記処理462を全ての領域に対して行うためのアドレス更新処理である。上記処理462を全ての領域に対して行って前字幕領域データ5−28を更新完了すると、処理468に移る。
処理468では、代表画像構造体5−2の字幕終了時間5−2−6に現在時刻を格納する。そして、字幕判定部400における処理を終了する。
【0057】
一方、図17の処理471では、領域横位置カウンタXbおよび領域縦位置カウンタYbを“0”に初期化する。
処理472では、前字幕領域データ5−28の配列[Yb][Xb]に“0”を格納する。
処理473から処理477は、上記処理472を全ての領域に対して行うためのアドレス更新処理である。上記処理472を全ての領域に対して行って前字幕領域データ5−28を更新完了すると、字幕判定部400における処理を終了する。
【0058】
以上の動画像の代表画像抽出装置1000によれば、特徴抽出部150によって、領域別に字幕が現われているかどうかを判定しているので、字幕の文字数が画面全体で少ない場合であっても、字幕を好適に検出可能である。また、特徴抽出部150は、字幕の特徴として高輝度の画素と強エッジの画素の両方をチェックしているので、ライト照明のようなエッジが無くかつ高輝度の背景や将棋盤のようにエッジは有るが輝度の低い背景は字幕と区別されるため、誤抽出を防止できる。また、字幕判定部400によって、字幕有無の情報を行方向および列方向に投影して判断しているので、字幕が縦書きでも横書きでも対応可能であり、また、現われた字幕が縦書きか横書きであるかを区別可能である。さらに、代表画像作成部500によって縮小した代表画像を作成し、表示部600によって複数の縮小代表画像を一覧表示するため、代表画像の検索が容易になる。
【0059】
【発明の効果】
本発明の字幕検出方法によれば、字幕の表示態様が任意である一般の画像に対して字幕が有るか否かを判定することが出来るようになる。
また、画像自体の変化が少なく,字幕のみが変化するような場合でも、必要な代表画像を抽出することが出来る。
【図面の簡単な説明】
【図1】本発明の一実施例の動画像の代表画像抽出装置のシステム構成図である。
【図2】ディスプレイ装置に表示する画面の例示図である。
【図3】代表画像抽出処理の機能ブロック図である。
【図4】メモリに記憶されるプログラムとデータの構成図である。
【図5】代表画像構造体の構成図である。
【図6】領域別輝度計数部における高輝度の画素を抽出する処理のフロー図である。
【図7】領域別輝度計数部における複数のフレームに渡り高輝度が継続している画素を抽出する処理のフロー図である。
【図8】領域別輝度計数部における領域別に高輝度の画素数を計数する処理のフロー図である。
【図9】領域別エッジ計数部における縦エッジおよび横エッジの画素を抽出する処理のフロー図である。
【図10】領域別エッジ計数部における複数のフレームに渡り強エッジが継続している画素を抽出する処理のフロー図である。
【図11】領域別エッジ計数部における領域ごとに縦エッジ数および横エッジ数を計数する処理のフロー図である。
【図12】字幕判定部における領域ごとに字幕有無を判別する処理のフロー図である。
【図13】字幕判定部における字幕有りの領域を行方向および列方向に投影する処理のフロー図である。
【図14】字幕判定部における字幕有りの画像を判定する処理のフロー図である。
【図15】字幕判定部における字幕有りの画像の連続性を判定する処理のフロー図である。
【図16】字幕判定部における字幕有りの画像の連続性を判定する処理の続きのフロー図である。
【図17】字幕判定部における字幕無しの画像についての処理のフロー図である。
【図18】複数の領域に区分した画面の説明図である。
【符号の説明】
1…ディスプレィ装置、2…スピーカ、3…コンピュータ、4…CPU、
5…メモリ、6…インタフェース、7…ポインティングデバイス、
8…キーボード、9…ビデオ再生装置、10…制御信号、
11…ビデオ入力装置、12…ディジタル画像データ、
13…外部情報記憶装置、
100…動画入力部、150…特徴抽出部、200…領域別輝度計数部、
300…領域別エッジ計数部、400…字幕判定部、
500…代表画像作成部、600…表示部、
1000…動画像の代表画像抽出装置。[0001]
[Industrial applications]
The present invention relates to a method for detecting subtitles. To the law More specifically, a subtitle detection method for determining whether or not subtitles are present in an image. To the law Related.
[0002]
[Prior art]
There is the following conventional technique for the caption detection method.
JP-A-5-137066 discloses a technique for extracting an edge component of a video signal to identify a subtitle portion and a background portion in a karaoke video.
Also, in the "Content Identification Method Based on Recognition from Sumo Matching, Proceedings of the 44th Annual Conference of the IPSJ, 2-301", the screen is divided into a left part and a right part, and the left part is written vertically. There is disclosed a technique for recognizing an opponent from subtitles that are displayed and subtitles that are written vertically on the right part.
[0003]
As a representative image extracting device for a moving image, there is the following conventional technology.
Japanese Patent Application Laid-Open No. Hei 5-244475 proposes a technique in which a change point of an image is obtained based on a difference between frames, and an image giving the change point is extracted as a representative image.
[0004]
As other related prior arts, there are techniques disclosed in Japanese Patent Application Laid-Open Nos. 3-273363 and 3-292572.
[0005]
[Problems to be solved by the invention]
The caption detection method disclosed in Japanese Patent Application Laid-Open No. Hei 5-137066 is based on the premise that captions are written horizontally, and cannot be used for captions written vertically. In other words, there is a problem that it can handle karaoke videos but cannot handle general images.
In addition, the conventional technology disclosed in the above-mentioned "Content identification method based on recognition from sumo wrestling match, Proceedings of the 44th Annual Conference of IPSJ, 2-301" has subtitles on the left and right portions of the screen, respectively. It is premised that it is written, and there is still a problem that cannot be dealt with general images.
Therefore, a first object of the present invention is to provide a subtitle detection method capable of determining whether or not a general image whose subtitle display mode is arbitrary has a subtitle.
[0006]
In the moving image representative image extracting apparatus disclosed in Japanese Patent Application Laid-Open No. 5-244475, the representative image is extracted by paying attention only to the change in the image. There is a problem that a typical image cannot be extracted. For example, in the case of an image in which an announcer reads a plurality of news one after another, the representative image may not be able to be extracted for each news because the image itself changes little and only the subtitle changes.
Therefore, a second object of the present invention is to Detect subtitles, and based on the results Representative images can be extracted Caption detection method Is to provide.
[0007]
[Means for Solving the Problems]
[0008]
No. 1 In terms of the present invention, the present invention, the image is divided into a plurality of regions, counting the number of high-luminance pixels equal to or greater than the first threshold and the number of edges having a difference in luminance value equal to or greater than the second threshold for each region, The area where the number of pixels is equal to or greater than a third threshold and the number of edges is equal to or greater than the third threshold is determined as an area with captions, and the number of areas with captions is projected in the row direction and the column direction. When the maximum value of the number of areas with subtitles when projected or the maximum value of the number of areas with subtitles when projected in the column direction is equal to or greater than a fourth threshold, it is determined that subtitles are present in the image. A subtitle detection method is provided.
[0009]
No. 2 In view of the above, the present invention provides a subtitle detection method having the above configuration, wherein the number of high-luminance pixels and the number of edges existing in the same place at least continuously for at least two past frames are counted. I do.
[0010]
No. 3 In the aspect of the present invention, in the caption detection method having the above configuration, the horizontal luminance difference counts edges having a second threshold or more, and the vertical luminance difference counts edges having a second threshold or more. A featured subtitle detection method is provided.
[0011]
No. 4 In the aspect of the present invention, in the caption detection method having the above configuration, the maximum value of the number of subtitled areas when projected in the row direction is larger than the maximum value of the number of subtitled areas when projected in the column direction. In such a case, a subtitle detection method is provided in which it is determined that the subtitle is horizontally written, and otherwise, it is determined that the subtitle is vertically written.
[0012]
No. According to a fifth aspect, the present invention provides the caption detection method having the above configuration, Select a representative image from the images determined to have subtitles Caption detection method characterized by the following: I will provide a.
[0014]
No. 6 In terms of the present invention, the present invention In the caption detection method, When an image determined to have subtitles is a temporally continuous frame, only one of the frames is selected as a representative image. Caption detection method I will provide a.
[0015]
No. 7 In terms of the present invention, the present invention Caption detection method In, each extracted representative image is reduced and displayed side by side on the screen Caption detection method characterized by the following: I will provide a.
[0016]
[Action]
In the caption detection method according to the first aspect, the image is divided into a plurality of regions, the feature amount of the caption is calculated for each region, and it is determined whether or not each region is a region with a caption based on the feature amount. Then, the number of areas with captions is projected in the row direction and the column direction, and it is determined whether or not captions are present in the image based on the projection results.
According to this, since the presence / absence of subtitles is determined for each of the divided areas, subtitles can be detected even when the number of subtitles is small in the entire screen. In addition, since the number of subtitled areas is projected in the row and column directions, and whether or not subtitles are present in the image is determined based on the projection result, subtitles can be written in either horizontal or vertical writing. There is no restriction on the display position of. Therefore, it is possible to determine whether or not there is a caption for a general image whose caption display mode is arbitrary.
[0017]
Further, the first In the caption detection method according to the viewpoint, the image is divided into a plurality of regions, and the number of high-luminance pixels equal to or greater than the first threshold and the number of edges having a difference in luminance value equal to or greater than the second threshold are counted for each region, An area in which the number of pixels is equal to or greater than a third threshold and in which the number of edges is equal to or greater than the third threshold is determined as an area having captions. Then, the number of subtitled areas is projected in the row and column directions, and the maximum value of the number of subtitled areas when projected in the row direction or the maximum value of subtitled areas when projected in the column direction is the second value. When the number is equal to or larger than the fourth threshold, it is determined that there is a caption in the image.
According to this, Of In addition to the function, the number of pixels with high luminance is counted, so that characters composed of pixels with higher luminance than the background can be suitably discriminated. Further, since the number of strong edges is counted, a character having a higher frequency of appearance of an edge than the background can be suitably determined. Then, since it is determined whether or not a subtitle exists in the area based on both the number of high-luminance pixels and the number of strong edges, it is possible to determine with high accuracy.
[0018]
The above 2 In the caption detection method according to the aspect described above, the number of high-luminance pixels and the number of edges existing at the same place at least continuously for at least two past frames are counted.
In a moving image, the background pixels are likely to change, but the subtitles are displayed without changing for a certain period of time until the viewer finishes reading. Therefore, by comparing with a past frame, a pixel or an edge relating to a caption can be detected with high accuracy.
[0019]
The above 3 In the caption detection method according to the aspect described above, edges whose luminance difference in the horizontal direction is equal to or greater than a second threshold value and edges whose luminance difference in the vertical direction is equal to or greater than the second threshold value are counted.
For example, in a background such as a window blind, edges appear frequently. However, since only one of the horizontal edge and the vertical edge appears, by considering both, background edges such as window blinds are not counted, and erroneous determination can be prevented.
[0020]
The above 4 In the caption detection method according to the above aspect, if the maximum value of the number of subtitled areas when projected in the row direction is larger than the maximum value of the number of subtitled areas when projected in the column direction, the caption is written horizontally. Otherwise, it is determined that the caption is in vertical writing.
This makes it possible to detect a subtitle format.
[0021]
The above 5 In terms of With caption detection, A representative image is selected from the images determined to have subtitles.
As described above, since the image having the caption is detected and the representative image is extracted from the image, the representative image can be appropriately extracted even from a moving image in which the image itself has little change and only the caption changes.
[0023]
The above 6 In terms of With caption detection, When images determined to have subtitles are temporally continuous, only one frame image is selected as a representative image.
As a result, for example, an image in place of the caption can be extracted.
[0024]
The above 7 In terms of With caption detection, Each extracted representative image is reduced and displayed on the screen.
As a result, a plurality of representative images can be listed, and the user can easily find a desired scene.
[0025]
【Example】
Hereinafter, the present invention will be described in detail with reference to the drawings. Note that the present invention is not limited to this.
[0026]
FIG. Implement
In the moving image representative
The
[0027]
The
Commands to the
A
[0028]
FIG. 2 is an example of a screen displayed on the
In the
In an
[0029]
In the
[0030]
FIG. 3 is a functional block diagram of the representative image extracting process.
The moving
The region-based
The region-based
The
The representative
The
[0031]
FIG. 4 is a configuration diagram of programs and data stored in the
The program 5-1 is a program for a representative image extraction process. This program 5-1 refers to the following data 5-2 to data 5-27.
[0032]
The representative image structure 5-2 is a structure that stores a representative image and attached data (such as extraction time) (details are shown in FIG. 5). This representative image structure 5-2 is data to be accumulated as an extraction result.
[0033]
The threshold value 1 (5-3) is a first threshold value for detecting a high-luminance pixel.
The threshold value 2 (5-4) is a second threshold value for detecting a strong edge.
The threshold value 3 (5-5) is a third threshold value for determining a segmented area with subtitles.
The threshold value 4 (5-6) is a fourth threshold value for detecting a frame having a caption.
The threshold value 1 (5-3), the threshold value 2 (5-4), the threshold value 3 (5-5), and the threshold value 4 (5-6) are data set in advance.
[0034]
The following data 5-7 to data 5-27 are work data used for one process.
The image data 5-7 is digital image data of the current frame to be processed, and is [240] × [320] (= number of screen pixels: see FIG. 18) array data. Each array is composed of three types of color component data of red image data 5-7-1, green image data 5-7-2, and blue image data 5-7-3.
The luminance data 5-8 is [240] × [320] array data indicating the detection result of the high luminance pixels.
The horizontal edge data 5-9 is [240] × [320] array data indicating a detection result of a pixel having a large luminance difference in the horizontal direction of the screen (a pixel of a strong edge).
The vertical edge data 5-10 is [240] × [320] array data indicating a detection result of a pixel having a large luminance difference in the vertical direction of the screen (a pixel of a strong edge).
[0035]
The previous frame luminance data 5-11 is luminance data (5-8) of the previous frame of the current processing target frame.
The previous frame horizontal edge data 5-12 is horizontal edge data (5-9) of the previous frame of the current frame to be processed.
The previous frame vertical edge data 5-13 is the vertical edge data (5-10) of the previous frame of the current frame to be processed.
[0036]
The luminance collation data 5-14 is [240] × [320] array data in which both the luminance data 5-8 and the previous frame luminance data 5-11 store high luminance pixels.
The horizontal edge collation data 5-15 is [240] × [320] array data in which both the horizontal edge data 5-9 and the previous frame horizontal edge data 5-12 store pixels of strong edges.
The vertical edge collation data 5-16 is [240] × [320] array data in which both the vertical edge data 5-10 and the previous frame vertical edge data 5-13 store pixels of strong edges.
[0037]
The luminance area data 5-17 is array data storing the result of counting the number of high luminance pixels of the luminance collation data 5-14 for each area. This is [10] × [16] (= number of areas: see FIG. 18) array data. In the present embodiment, the screen is divided into [10] × [16] areas, but it is preferable to divide the screen into a size such that one subtitle character is included in one area.
The horizontal edge area data 5-18 is [10] × [16] array data that stores the result of counting the number of pixels (edge number) of strong edges of the horizontal edge collation data 5-15 for each area. .
The vertical edge area data 5-19 is [10] × [16] array data that stores the result of counting the number of pixels (edge number) of strong edges of the vertical edge collation data 5-16 for each area. .
The luminance data 5-8 to the vertical edge area data 5-19 are data created by the
[0038]
The subtitle area data 5-20 is [10] × [16] pieces of array data that stores the determination result of the presence or absence of subtitles for each area.
The subtitle attached data 5-21 is data on the position and direction of the subtitle when there is a subtitle.
The row count data 5-22 is [10] pieces of array data in which the number of areas with captions is stored for each row.
The maximum row count data 5-23 is data storing the maximum value of the array data of the row count data 5-22.
The maximum row position data 5-24 is data that stores the row number of the row corresponding to the maximum value in the array data of the row count data 5-22.
The column count data 5-25 is [16] pieces of array data in which the number of areas with captions is stored for each column.
The maximum column count data 5-26 is data storing the maximum value of the array data of the column count data 5-25.
The maximum column position data 5-27 is data storing the column number of the column corresponding to the maximum value in the array data of the column count data 5-25.
The previous caption area data 5-28 is caption area data (5-20) of the previous frame of the current frame to be processed.
The area match number 5-29 is the number of areas where the presence or absence of subtitles matches between the current frame to be processed and the previous frame.
The area matching number 5-29 from the caption area data 5-20 is data created by the
[0039]
FIG. 5 is a configuration diagram of the representative image structure 5-2.
The representative image identification number 5-2-1 is the order of the extracted representative images.
The representative image data 5-2-2 is array data obtained by reducing the extracted image. This is [120] × [160] (= 1 / the number of pixels on the screen) array data. Each array is composed of three types of color component data of red image data, green image data, and blue image data.
The representative image display position X (5-2-3) and the representative image display position Y (5-2-4) are X and Y coordinate positions when the representative image is displayed in the
The subtitle start time 5-2-5 is a time at which a subtitle relating to the representative image appears.
The subtitle end time 5-2-6 is the time at which the subtitle relating to the representative image has disappeared.
The caption format 5-2-7 is data on the display direction and position of the caption for the representative image.
[0040]
6, 7, and 8 are flowcharts showing the processing procedure in the region-by-region
In the
In the
In the
In
[0041]
In the
In the
In the
In the
[0042]
In process 219, the pixel horizontal position counter X and the pixel vertical position counter Y are initialized to “0”.
In the
[0043]
In the
In the
In the
[0044]
FIGS. 9, 10, and 11 are flowcharts showing the processing procedure in the
In the
In the
In the
In the
In the
In the
In the
[0045]
In the
In the
In the
In the
In the process 317, it is determined whether the value of the array [Y] [X] of the vertical edge data 5-10 and the value of the array [Y] [X] of the previous frame vertical edge data 5-13 are both "1". The process proceeds to step 318 if both are “1”, and to step 319 otherwise.
In the process 318, “1” is written into the array [Y] [X] of the vertical edge collation data 5-16.
In
[0046]
In the
[0047]
In the
In the
In the
In the
In the
[0048]
12, 13, and 14 are flowcharts illustrating processing procedures in the
In the
In the
In the
In the
[0049]
In
In the
In
In the
[0050]
In the process 424 in FIG. 14, the area horizontal position counter Xb and the area vertical position counter Yb are initialized to “0”. Further, the maximum row count data 5-23 and the maximum column count data 5-26 are initialized to “0”.
In the process 425, it is checked whether or not the value of the array [Yb] of the row count data 5-22 is larger than the maximum row count data 5-23. If the value is larger, the process proceeds to a process 426;
In the process 426, the value of the array [Yb] of the row count data 5-22 is copied to the maximum row count data 5-23.
In the
In the
In the process 431, the value of the array [Xb] of the column count data 5-25 is copied to the maximum column count data 5-26.
In the process 432, the value of “Xb” is stored in the maximum column position data 5-27.
[0051]
In the
In the process 436, it is checked whether or not the maximum row count data 5-23 is greater than or equal to the maximum column count data 5-26. If the maximum row count data 5-23 is equal to or larger than the maximum column count data 5-26, it is determined that "subtitles are written horizontally", and the process proceeds to
[0052]
In the
In the
In the
[0053]
On the other hand, in the
In the
In the process 442, "left vertical writing" is written in the subtitle attached data 5-21. Then, the process proceeds to the
[0054]
In the
In the
In the
[0055]
In the
In
In
In process 503, the luminance value of the array [Y * 2] [X * 2] of the green image data 5-7-2 is copied to the array [Y] [X] of the representative image data 5-2-2.
[0056]
In the
In the
In the process 468, the current time is stored in the subtitle end time 5-2-6 of the representative image structure 5-2. Then, the processing in
[0057]
On the other hand, in a process 471 of FIG. 17, the area horizontal position counter Xb and the area vertical position counter Yb are initialized to “0”.
In the
[0058]
According to the above-described representative
[0059]
【The invention's effect】
ADVANTAGE OF THE INVENTION According to the caption detection method of this invention, it becomes possible to determine whether a caption exists with respect to the general image in which the display mode of a caption is arbitrary.
Also, Even in the case where the image itself changes little and only the subtitle changes, a necessary representative image can be extracted.
[Brief description of the drawings]
FIG. 1 is a system configuration diagram of an apparatus for extracting a representative image of a moving image according to an embodiment of the present invention.
FIG. 2 is an exemplary view of a screen displayed on a display device.
FIG. 3 is a functional block diagram of a representative image extraction process.
FIG. 4 is a configuration diagram of programs and data stored in a memory.
FIG. 5 is a configuration diagram of a representative image structure.
FIG. 6 is a flowchart of a process of extracting a high-luminance pixel in a region-specific luminance counting unit.
FIG. 7 is a flowchart of a process of extracting pixels in which high luminance continues over a plurality of frames in a region-specific luminance counting unit.
FIG. 8 is a flowchart of a process of counting the number of high-luminance pixels for each area in an area-by-area brightness counting unit.
FIG. 9 is a flowchart of a process of extracting pixels of a vertical edge and a horizontal edge in a region-based edge counting unit.
FIG. 10 is a flowchart of a process of extracting pixels in which a strong edge continues over a plurality of frames in the region-based edge counting unit.
FIG. 11 is a flowchart of a process of counting the number of vertical edges and the number of horizontal edges for each area in an area-by-area edge counting unit.
FIG. 12 is a flowchart of a process of determining the presence or absence of subtitles for each area in a subtitle determination unit.
FIG. 13 is a flowchart of a process of projecting an area having a caption in a row direction and a column direction in a caption determination unit.
FIG. 14 is a flowchart of a process of determining an image with a subtitle in a subtitle determination unit.
FIG. 15 is a flowchart illustrating a process of determining the continuity of an image having a caption in a caption determining unit.
FIG. 16 is a flowchart illustrating a continuation of a process of determining the continuity of an image having a caption in the caption determining unit;
FIG. 17 is a flowchart of a process for an image without subtitles in a subtitle determination unit.
FIG. 18 is an explanatory diagram of a screen divided into a plurality of areas.
[Explanation of symbols]
DESCRIPTION OF
5 memory, 6 interface, 7 pointing device,
8 keyboard, 9 video player, 10 control signal,
11 video input device, 12 digital image data,
13 ... External information storage device,
100: moving image input unit, 150: feature extraction unit, 200: region-specific luminance counting unit,
300: an edge counting unit for each area; 400: a subtitle determination unit;
500: representative image creation unit, 600: display unit,
1000: Representative image extraction device for moving images.
Claims (7)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP01561295A JP3590896B2 (en) | 1995-02-02 | 1995-02-02 | Caption detection method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP01561295A JP3590896B2 (en) | 1995-02-02 | 1995-02-02 | Caption detection method |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH08212231A JPH08212231A (en) | 1996-08-20 |
JP3590896B2 true JP3590896B2 (en) | 2004-11-17 |
Family
ID=11893536
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP01561295A Expired - Fee Related JP3590896B2 (en) | 1995-02-02 | 1995-02-02 | Caption detection method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3590896B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103839509A (en) * | 2012-11-27 | 2014-06-04 | 乐金显示有限公司 | Timing controller, driving method thereof, and display device using the same |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
MY119560A (en) | 1996-05-27 | 2005-06-30 | Nippon Telegraph & Telephone | Scheme for detecting captions in coded video data without decoding coded video data |
US6219382B1 (en) | 1996-11-25 | 2001-04-17 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for locating a caption-added frame in a moving picture signal |
JP3503797B2 (en) * | 1997-04-30 | 2004-03-08 | 日本電信電話株式会社 | Video telop detection method and apparatus |
JP3609236B2 (en) * | 1997-05-16 | 2005-01-12 | 日本電信電話株式会社 | Video telop detection method and apparatus |
JP3096280B2 (en) * | 1997-11-10 | 2000-10-10 | 日本電信電話株式会社 | Electronic video document creation and utilization method and program storage medium |
JP3379453B2 (en) * | 1998-12-17 | 2003-02-24 | 松下電器産業株式会社 | Caption region detection method and device, and moving image search method and device |
KR100293768B1 (en) * | 1999-04-12 | 2001-06-15 | 박규진 | A loading method of digital audio caption data |
JP2000350156A (en) * | 1999-06-09 | 2000-12-15 | Hitachi Ltd | Moving image information storage method and recording medium storing the same |
JP2001258957A (en) * | 2000-03-16 | 2001-09-25 | Denso Corp | Bed monitor |
KR100788655B1 (en) * | 2003-11-10 | 2007-12-26 | 삼성전자주식회사 | Storage medium, reproducing apparatus, and reproducing method in which text-based subtitle data including style information is recorded |
KR100722773B1 (en) * | 2006-02-28 | 2007-05-30 | 삼성전자주식회사 | Method and apparatus for detecting graphics region in video |
JP4965980B2 (en) | 2006-11-30 | 2012-07-04 | 株式会社東芝 | Subtitle detection device |
JP4787191B2 (en) * | 2007-03-07 | 2011-10-05 | 日本電信電話株式会社 | Video search method, apparatus and program |
JP5194615B2 (en) * | 2007-07-31 | 2013-05-08 | ソニー株式会社 | Image determination apparatus, image determination method, and program |
JP2009147749A (en) * | 2007-12-14 | 2009-07-02 | Toshiba Corp | Video playback apparatus and video playback method |
CN101527800B (en) * | 2009-03-31 | 2011-01-05 | 西安交通大学 | Method for obtaining compressed video caption based on H.264/AVC |
JP5894852B2 (en) * | 2012-04-27 | 2016-03-30 | 日本放送協会 | Representative still image extraction apparatus and program |
CN112381854B (en) * | 2020-11-13 | 2024-04-19 | 西安闻泰电子科技有限公司 | Image-based motion detection method and device, electronic equipment and storage medium |
CN113343986B (en) * | 2021-06-29 | 2023-08-25 | 北京奇艺世纪科技有限公司 | Subtitle time interval determining method and device, electronic equipment and readable storage medium |
-
1995
- 1995-02-02 JP JP01561295A patent/JP3590896B2/en not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103839509A (en) * | 2012-11-27 | 2014-06-04 | 乐金显示有限公司 | Timing controller, driving method thereof, and display device using the same |
CN103839509B (en) * | 2012-11-27 | 2016-08-17 | 乐金显示有限公司 | Its display device of timing controller and driving method thereof and use |
Also Published As
Publication number | Publication date |
---|---|
JPH08212231A (en) | 1996-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3590896B2 (en) | Caption detection method | |
US6256419B1 (en) | Method and apparatus for detecting a point of change in a moving image | |
US7633554B2 (en) | Selectively overlaying a user interface atop a video signal | |
JP3361587B2 (en) | Moving image search apparatus and method | |
US6046778A (en) | Apparatus for generating sub-picture units for subtitles and storage medium storing sub-picture unit generation program | |
JP3738483B2 (en) | Method and apparatus for television signal classification | |
US5745190A (en) | Method and apparatus for supplying data | |
JP4427600B1 (en) | Video analysis apparatus and program | |
JPH09130732A (en) | Scene change detection method and dynamic image edit device | |
EP1482731A2 (en) | Broadcast program contents menu creation apparatus and method | |
US11798279B2 (en) | Methods and systems for sport data extraction | |
JP3258924B2 (en) | Scene management device, scene management method, and recording medium | |
US7170935B2 (en) | Image processing apparatus and method, and computer-readable memory | |
JP4244584B2 (en) | Important image detection apparatus, important image detection method, program and recording medium, and important image detection system | |
US20040246259A1 (en) | Music program contents menu creation apparatus and method | |
JP3379453B2 (en) | Caption region detection method and device, and moving image search method and device | |
JP2020141273A (en) | Commercial detector | |
JP3625935B2 (en) | Important image extracting apparatus and important image extracting method for moving images | |
JP3157928B2 (en) | Video pick-up device | |
JPH07111630A (en) | Moving image editing device and cut integrating method | |
JP5424737B2 (en) | Image playback device | |
EP1069765B1 (en) | Feature scene detecting method and apparatus, and storage medium containing processing program therefor | |
JPH10150657A (en) | Moving object display method, display system using the same, and program recording medium therefor | |
JPH0895986A (en) | Database apparatus for moving images and registration method thereof | |
JP3941808B2 (en) | Moving image change point detection method and apparatus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040601 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040716 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040810 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040810 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080903 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080903 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090903 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090903 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100903 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100903 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110903 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120903 Year of fee payment: 8 |
|
LAPS | Cancellation because of no payment of annual fees |