[go: up one dir, main page]

JP3590896B2 - Caption detection method - Google Patents

Caption detection method Download PDF

Info

Publication number
JP3590896B2
JP3590896B2 JP01561295A JP1561295A JP3590896B2 JP 3590896 B2 JP3590896 B2 JP 3590896B2 JP 01561295 A JP01561295 A JP 01561295A JP 1561295 A JP1561295 A JP 1561295A JP 3590896 B2 JP3590896 B2 JP 3590896B2
Authority
JP
Japan
Prior art keywords
data
caption
image
subtitle
detection method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP01561295A
Other languages
Japanese (ja)
Other versions
JPH08212231A (en
Inventor
勝美 谷口
孝文 宮武
晃朗 長坂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP01561295A priority Critical patent/JP3590896B2/en
Publication of JPH08212231A publication Critical patent/JPH08212231A/en
Application granted granted Critical
Publication of JP3590896B2 publication Critical patent/JP3590896B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)
  • Image Processing (AREA)

Description

【0001】
【産業上の利用分野】
本発明は、字幕検出方法に関し、さらに詳しくは、画像中に字幕が有るか否かを判定する字幕検出方法に関する。
【0002】
【従来の技術】
字幕検出方法については、次の従来技術がある。
特開平5−137066号公報には、ビデオ信号のエッジ成分を抽出してカラオケビデオ中の字幕部分と背景部分とを識別する技術が開示されている。
また、「大相撲対戦からの認識に基づく内容識別法、第44回情報処理学会全国大会予稿集、2−301」には、画面を左部分と右部分とに分割し、左部分に縦書きされている字幕と右部分に縦書きされている字幕とから対戦力士を認識する技術が開示されている。
【0003】
動画像の代表画像抽出装置については、次の従来技術がある。
特開平5−244475号公報では、フレーム間差分に基づいて画像の変化点を求め、その変化点を与える画像を代表画像として抽出する技術が提案されている。
【0004】
その他の関連する従来技術として、特開平3−273363号公報,特開平3−292572号公報に開示の技術がある。
【0005】
【発明が解決しようとする課題】
上記特開平5−137066号公報に開示の字幕検出方法は、字幕が横書きであることが前提であり、縦書きの字幕には対応できない。すなわち、カラオケビデオには対応できても、一般の画像には対応できない問題点がある。
また、上記「大相撲対戦からの認識に基づく内容識別法、第44回情報処理学会全国大会予稿集、2−301」に開示の従来技術は、画面の左部分と右部分とに字幕がそれぞれ縦書きされていることが前提であり、やはり一般の画像には対応できない問題点がある。
そこで、本発明の第1の目的は、字幕の表示態様が任意である一般の画像に対して字幕が有るか否かを判定することが出来る字幕検出方法を提供することにある。
【0006】
また、上記特開平5−244475号公報に開示の動画像の代表画像抽出装置では、画像の変化のみに着目して代表画像を抽出しているため、画像自体の変化は少ない場合には、必要な代表画像を抽出できない問題点がある。例えば、アナウンサーが複数のニュースを次々に読み上げているような画像の場合、画像自体の変化が少なく,字幕のみが変化するため、ニュースごとに代表画像を抽出することが出来ないことがある。
そこで、本発明の第2の目的は、字幕を検出し、その結果に基づいて代表画像を抽出することが出来る字幕検出方法を提供することにある。
【0007】
【課題を解決するための手段】
【0008】
の観点では、本発明は、画像を複数の領域に区分し、各領域別に第一の閾値以上の高輝度の画素数および第二の閾値以上の輝度値の差があるエッジ数を計数し、前記画素数が第三の閾値以上であり且つ前記エッジ数が第三の閾値以上の領域を字幕有りの領域と判別し、字幕有りの領域数を行方向および列方向に投影し、行方向に投影したときの字幕有りの領域数の最大値または列方向に投影したときの字幕有りの領域数の最大値が第四の閾値以上のときに画像中に字幕が有ると判定することを特徴とする字幕検出方法を提供する。
【0009】
の観点では、本発明は、上記構成の字幕検出方法において、少なくとも過去2フレーム以上連続して同一場所に存在した高輝度の画素数およびエッジ数を計数することを特徴とする字幕検出方法を提供する。
【0010】
の観点では、本発明は、上記構成の字幕検出方法において、水平方向の輝度差が第二の閾値以上のエッジと、垂直方向の輝度差が第二の閾値以上のエッジとを計数することを特徴とする字幕検出方法を提供する。
【0011】
の観点では、本発明は、上記構成の字幕検出方法において、行方向に投影したときの字幕有りの領域数の最大値が、列方向に投影したときの字幕有りの領域数の最大値より大きい場合は、字幕が横書きであると判定し、そうでない場合は字幕が縦書きであると判定することを特徴とする字幕検出方法を提供する。
【0012】
5の観点では、本発明は、上記構成の字幕検出方法において、字幕有りと判定した画像の中から代表画像を選択することを特徴とする字幕検出方法を提供する。
【0014】
の観点では、本発明は、上記構成の字幕検出方法において、字幕有りと判定した画像が時間的に連続するフレームであるとき、そのうちの一つのフレームの画像のみを代表画像として選択することを特徴とする字幕検出方法を提供する。
【0015】
の観点では、本発明は、上記構成の字幕検出方法において、抽出した各代表画像を縮小して画面に並べて表示することを特徴とする字幕検出方法を提供する。
【0016】
【作用】
上記第1の観点による字幕検出方法では、画像を複数の領域に区分し、各領域別に字幕の特徴量を算出し、それらの特徴量により各領域が字幕有りの領域か否かを判別する。そして、字幕有りの領域数を行方向および列方向に投影し、その投影結果に基づいて画像中に字幕が有るか否かを判定する。
これによれば、区分した領域別に字幕の有無を判別しているので、字幕の文字数が画面全体で少ない場合であっても、字幕の検出が可能である。また、字幕有りの領域数を行方向および列方向に投影し、その投影結果に基づいて画像中に字幕が有るか否かを判定しているので、字幕が横書きでも縦書きでも対応でき、字幕の表示位置の制限もない。従って、字幕の表示態様が任意である一般の画像に対して字幕が有るか否かを判定することが出来る。
【0017】
さらに、上記第1の観点による字幕検出方法では、画像を複数の領域に区分し、各領域別に第一の閾値以上の高輝度の画素数および第二の閾値以上の輝度値の差があるエッジ数を計数し、前記画素数が第三の閾値以上であり且つ前記エッジ数が第三の閾値以上の領域を字幕有りの領域と判別する。そして、字幕有りの領域数を行方向および列方向に投影し、行方向に投影したときの字幕有りの領域数の最大値または列方向に投影したときの字幕有りの領域数の最大値が第四の閾値以上のときに画像中に字幕が有ると判定する。
これによれば、上記の作用に加えて、高輝度の画素数を計数しているので、背景よりも高輝度の画素で構成される文字を好適に判別できる。また、強エッジのエッジ数を計数しているので、背景よりもエッジの出現頻度の高い文字を好適に判別できる。そして、高輝度の画素数と強エッジのエッジ数を両方により領域に字幕が有るか無いかを判別しているので、高精度に判別できる。
【0018】
上記第の観点による字幕検出方法では、少なくとも過去2フレーム以上連続して同一場所に存在した高輝度の画素数およびエッジ数を計数する。
動画像では、背景の画素は変化しやすいが、字幕は視聴者が読み終るまで一定時間変化させずに表示される。そこで、過去のフレームと比較することにより、字幕にかかる画素やエッジを高精度に検出できる。
【0019】
上記第の観点による字幕検出方法では、水平方向の輝度差が第二の閾値以上のエッジと、垂直方向の輝度差が第二の閾値以上のエッジとを計数する。
例えば、窓のブラインドのような背景では、エッジが高頻度に出現する。しかし、水平方向のエッジまたは垂直方向のエッジの一方しか現われないので、両方を考慮することにより、窓のブラインドのような背景のエッジは計数されなくなり、誤判定を防止できる。
【0020】
上記第の観点による字幕検出方法では、行方向に投影したときの字幕有りの領域数の最大値が、列方向に投影したときの字幕有りの領域数の最大値より大きい場合は、字幕が横書きであると判定し、そうでない場合は字幕が縦書きであると判定する。
これにより、字幕の書式を検出できるようになる。
【0021】
上記第の観点による字幕検出方法では、字幕有りと判定した画像の中から代表画像を選択する。
このように字幕の有る画像を検出し、その中から代表画像を抽出するので、画像自体の変化が少なく,字幕のみが変化する動画像でも、代表画像を適切に抽出することが出来る。
【0023】
上記第の観点による字幕検出方法では、字幕有りと判定した画像が時間的に連続するとき、そのうちの一つのフレームの画像のみを代表画像として選択する。
これにより、例えば字幕の代り目の画像を抽出することが出来る。
【0024】
上記第の観点による字幕検出方法では、抽出した各代表画像を縮小して画面に並べて表示する。
これにより、複数の代表画像を一覧できるようになり、ユーザは簡単に所望のシーンを探し出すことが出来る。
【0025】
【実施例】
以下、図を参照して本発明を詳細に説明する。なお、これにより本発明が限定されるものではない。
【0026】
図1は、本発明の字幕検出方法を実施する動画像の代表画像抽出装置のシステム構成図である。
この動画像の代表画像抽出装置1000において、ビデオ再生装置9は、動画像を再生するための光ディスクやビデオデッキ等の装置である。ビデオ再生装置9が扱う動画像の各フレームには、動画像の先頭から順にフレーム番号がつけられており、このフレーム番号がコンピュータ3から制御信号10によってビデオ再生装置に送られることで、該当フレームの動画像が再生され、映像信号Vがビデオ入力装置11へ出力される。
ビデオ入力装置11は、前記映像信号Vをデジタル画像データ12に変換し、コンピュータ3に送る。
【0027】
コンピュータ3は、インターフェース6を介して、前記デジタル画像データ12を取り込み、メモリ5に格納しているプログラムに従ってCPU4で処理する。メモリ5には、各種のデータが格納され、必要に応じて参照される。また、処理の必要に応じて、各種情報が外部記憶装置13に蓄積される。
コンピュータ3に対する命令は、マウス等のポインティングデバイス7やキーボード8を使って行うことが出来る。
CRT等のディスプレイ装置1はコンピュータ3の出力画面を表示し、スピーカ2はコンピュータ3の出力音声を発生する。
【0028】
図2は、ディスプレイ装置1に表示する画面例である。
領域50には、デジタル画像データ12に基づく動画像を表示する。
領域60には、本システムを制御するボタンと本システムの動作状況を表示する。開始ボタン61は、代表画像抽出処理の実行開始を行なうボタンである。停止ボタン62は、代表画像抽出処理の実行停止を行なうボタンである。ボタンを押す操作は、ユーザがポインティングデバイス7を操作してカーソル80をボタン上に位置合わせし、クリックすることで行なう。検出画面数表示63は、実行開始から現在までに抽出した代表画像の個数である。開始時間表示64は、代表画像抽出処理の実行開始時刻である。
【0029】
領域70には、抽出したm個の代表画像を縮小して表示する(図2では、m=6)。すなわち、動画像のフレームに字幕が存在すると、そのフレームの画像を代表画像として抽出し、適切な大きさに縮小して領域70に表示する。また、当該代表画像の抽出時間を合わせて表示する。抽出した代表画像が領域70の表示可能数mを越えた場合には、自動スクロールし、最新のm個の代表画像だけを表示する。なお、ユーザがスクロールボタン71,73を押したり,スクロールバー72をドラッグすることで、スクロールアウトした代表画像を表示させることが出来る。
【0030】
図3は、代表画像抽出処理の機能ブロック図である。
動画像入力部100は、デジタル画像データ12をメモリ5に取り込み、ディスプレイ装置1の領域50に動画像を表示する。
特徴抽出部150の領域別輝度計数部200は、動画像の各フレームの画面を複数の領域に区分したときの各領域内の第一の閾値以上の高輝度の画素を検出し、それら画素数を出力する。
特徴抽出部150の領域別エッジ計数部300は、動画像の各フレームの画面を複数の領域に区分したときの各領域内の第二の閾値以上のエッジを検出し、それらエッジ数を出力する。
字幕判定部400は、前記画素数および前記エッジ数が第三の閾値以上の領域を字幕有りの領域と判別し、字幕有りの領域数を行方向および列方向に投影し、行方向に投影したときの字幕有りの領域数の最大値または列方向に投影したときの字幕有りの領域数の最大値が第四の閾値以上のときに、当該フレームの画像中に字幕が有ると判定する。
代表画像作成部500は、字幕有りと判定したフレームの画像を縮小して代表画像としてメモリ5に記憶する。
表示部600は、複数の縮小代表画像と抽出時刻をディスプレイ装置1の領域70に並べて表示する。
【0031】
図4は、メモリ5に記憶されるプログラムとデータの構成図である。
プログラム5−1は、代表画像抽出処理のプログラムである。このプログラム5−1は、以下のデータ5−2〜データ5−27を参照する。
【0032】
代表画像構造体5−2は、代表画像と付属データ(抽出時刻など)を格納する構造体である(図5に詳細を示す)。この代表画像構造体5−2は、抽出結果として蓄積するデータである。
【0033】
闘値1(5−3)は、高輝度の画素を検出するための第一の閾値である。
闘値2(5−4)は、強エッジを検出するための第二の閾値である。
闘値3(5−5)は、字幕有りの区分領域を判別するための第三の閾値である。
閾値4(5−6)は、字幕が有るフレームを検出するための第四の閾値である。
上記闘値1(5−3),闘値2(5−4),闘値3(5−5)および閾値4(5−6)は、予め設定しておくデータである。
【0034】
以下のデータ5−7〜データ5−27は、1回あたりの処理に利用するワーク用データである。
画像データ5−7は、現在の処理対象のフレームのデジタル画像データであり、[240]×[320]個(=画面の画素数:図18参照)の配列データである。各配列は、赤画像データ5−7−1,緑画像データ5−7−2,青画像データ5−7−3の3種類の色成分データからなっている。
輝度データ5−8は、高輝度の画素の検出結果を示す[240]×[320]個の配列データである。
横エッジデータ5−9は、画面の横方向の輝度差が大きい画素(強エッジの画素)の検出結果を示す[240]×[320]個の配列データである。
縦エッジデータ5−10は、画面の縦方向の輝度差が大きい画素(強エッジの画素)の検出結果を示す[240]×[320]個の配列データである。
【0035】
前フレーム輝度データ5−11は、現在の処理対象のフレームの前フレームの輝度データ(5−8)である。
前フレーム横エッジデータ5−12は、現在の処理対象のフレームの前フレームの横エッジデータ(5−9)である。
前フレーム縦エッジデータ5−13は、現在の処理対象のフレームの前フレームの縦エッジデータ(5−10)である。
【0036】
輝度照合データ5−14は、前記輝度データ5−8と前記前フレーム輝度データ5−11の両方が高輝度の画素を格納した[240]×[320]個の配列データである。
横エッジ照合データ5−15は、前記横エッジデータ5−9と前記前フレーム横エッジデータ5−12の両方が強エッジの画素を格納した[240]×[320]個の配列データである。
縦エッジ照合データ5−16は、前記縦エッジデータ5−10と前記前フレーム縦エッジデータ5−13の両方が強エッジの画素を格納した[240]×[320]個の配列データである。
【0037】
輝度領域データ5−17は、領域ごとに前記輝度照合データ5−14の高輝度の画素数を計数した結果を格納した配列データである。これは、[10]×[16]個(=領域数:図18参照)の配列データである。なお、本実施例では、画面を[10]×[16]の領域に区分しているが、1つの領域に字幕の文字が1つ入る程度のサイズに区分するのが好ましい。
横エッジ領域データ5−18は、領域ごとに前記横エッジ照合データ5−15の強エッジの画素数(エッジ数)を計数した結果を格納した[10]×[16]個の配列データである。
縦エッジ領域データ5−19は、領域ごとに前記縦エッジ照合データ5−16の強エッジの画素数(エッジ数)を計数した結果を格納した[10]×[16]個の配列データである。
上記輝度データ5−8〜縦エッジ領域データ5−19は、前記特徴抽出部150が作成するデータである。
【0038】
字幕領域データ5−20は、領域ごとに字幕の有無の判別結果を格納した[10]×[16]個の配列データである。
字幕付属データ5−21は、字幕が有るときの字幕の位置および方向のデータである。
行カウントデータ5−22は、行ごとに字幕有りの領域の個数を格納した[10]個の配列データである。
最大行カウントデータ5−23は、前記行カウントデータ5−22の配列データのうちの最大値を格納したデータである。
最大行位置データ5−24は、前記行カウントデータ5−22の配列データのうちの最大値に対応する行の行番号を格納したデータである。
列カウントデータ5−25は、列ごとに字幕有りの領域の個数を格納した[16]個の配列データである。
最大列カウントデータ5−26は、前記列カウントデータ5−25の配列データのうちの最大値を格納したデータである。
最大列位置データ5−27は、前記列カウントデータ5−25の配列データのうちの最大値に対応する列の列番号を格納したデータである。
前字幕領域データ5−28は、現在の処理対象のフレームの前フレームの字幕領域データ(5−20)である。
領域一致数5−29は、現在の処理対象のフレームと前フレームとで字幕の有無が一致した領域数である。
上記字幕領域データ5−20から領域一致数5−29は、字幕判定部400が作成するデータである。
【0039】
図5は、前記代表画像構造体5−2の構成図である。
代表画像識別番号5−2−1は、抽出した代表画像の順番である。
代表画像データ5−2−2は、抽出した画像を縮小した配列データである。これは、[120]×[160]個(=画面の画素数の1/2)の配列データである。各配列は、赤画像データ,緑画像データ,青画像データの3種類の色成分データからなっている。
代表画像表示位置X(5−2−3)および代表画像表示位置Y(5−2−4)は、代表画像を領域70に表示する際のX,Y座標位置である。
字幕開始時間5−2−5は、当該代表画像にかかる字幕が出現した時刻である。
字幕終了時間5−2−6は、当該代表画像にかかる字幕が消失した時刻である。
字幕書式5−2−7は、当該代表画像にかかる字幕の表示方向と位置のデータである。
【0040】
図6,図7,図8は、領域別輝度計数部200における処理手順を示すフロー図である。
図6の処理201では、画素横位置カウンタXおよび画素縦位置カウンタYを“0”に初期化する。
処理202では、赤画像データ5−7−1,緑画像データ5−7−2,青画像データ5−7−3の配列[Y][X]の輝度値が闘値1(5−3)以上であるか否かを調べ、3色ともに闘値1以上の輝度であれば処理203へ移り、闘値1未満ならば処理204へ移る。
処理203では、輝度データ5−8の配列[Y][X]に“1”を書き込む。
処理204では、輝度データ5−8の配列[Y][X]に“0”を書き込む。
処理205〜処理209は、上記処理202〜処理204を全ての画素に対して行うためのアドレス更新処理である。上記処理202〜処理204を全ての画素に対して行って輝度データ5−8を作成完了すると、図7の処理210に移る。
【0041】
図7の処理210では、画素横位置カウンタXおよび画素縦位置カウンタYを“0”に初期化する。
処理211では、輝度データ5−8の配列[Y][X]の値と前フレーム輝度データ5−11の配列[Y][X]の値が両方とも“1”であるかどうかを調べ、両方とも“1”ならば処理212へ移り、そうでなければ処理213へ移る。
処理212では、輝度照合データ5−14の配列[Y][X]に“1”を書き込む。
処理213では、輝度照合データ5−14の配列[Y][X]に“0”を書き込む。
処理214〜処理218は、上記処理211〜処理213を全ての画素に対して行うためのアドレス更新処理である。上記処理202〜処理204を全ての画素に対して行って輝度照合データ5−14を作成完了すると、処理219に移る。
【0042】
処理219では、画素横位置カウンタXおよび画素縦位置カウンタYを“0”に初期化する。
処理220では、輝度データ5−8の配列[Y][X]の内容を前フレーム輝度データ5−11の配列[Y][X]に複写する。
処理221〜処理225は、上記処理220を全ての画素に対して行うためのアドレス更新処理である。上記処理220を全ての画素に対して行って前フレーム輝度データ5−11を更新完了すると、図8の処理226に移る。
【0043】
図8の処理226では、領域内画素横位置カウンタiおよび領域内画素縦位置カウンタjおよび領域横位置カウンタXbおよび領域縦位置カウンタYbを“0”に初期化する。また、輝度領域データ5−17を“0”に初期化する。
処理227では、輝度照合データ5−14の配列[Yb*24+j][Xb*20+i]の内容が“1”かどうかを調べ、“1”であれば処理228へ移り、そうでなければ処理229へ移る。
処理228では、輝度領域データ5−17の配列[Yb][Xb]に“1”を加える。
処理229〜処理239は、上記処理227,処理228を全ての画素に対して行うためのアドレス更新処理である。上記処理227,処理228を全ての画素に対して行って輝度領域データ5−17を作成完了すると、領域別輝度計数部200における処理を終了する。
【0044】
図9,図10,図11は、領域別エッジ計数部300における処理手順を示すフロー図である。
図9の処理301では、画素横位置カウンタXおよび画素縦位置カウンタYを“1”に初期化する。
処理302では、赤画像データ5−7−1,緑画像データ5−7−2,青画像データ5−7−3の配列[Y][X+1]の輝度値と配列[Y][X−1]の輝度値の差が闘値2(5−4)以上であるか否かを調べ、3色ともに輝度値の差が闘値2以上であれば処理303へ移り、闘値2未満ならば処理304へ移る。
処理303では、横エッジデータ5−9(図4)の配列[Y][X]に“1”を書き込む。
処理304では、横エッジデータ5−9(図4)の配列[Y][X]に“0”を書き込む。
処理305では、赤画像データ5−7−1,緑画像データ5−7−2,青画像データ5−7−3の配列[Y+1][X]の輝度値と配列[Y−1][X]の輝度値の差が闘値2(5−4)以上であるか否かを調べ、3色ともに輝度値の差が闘値2以上であれば処理306へ移り、闘値2未満ならば処理307へ移る。
処理306では、縦エッジデータ5−10(図4)の配列[Y][X]に“1”を書き込む。
処理307では、縦エッジデータ5−10(図4)の配列[Y][X]に“0”を書き込む。
処理308〜処理312は、上記処理302〜処理307を全ての画素に対して行うためのアドレス更新処理である。上記処理202〜処理204を画面の縁の画素を除く全ての画素に対して行って横エッジデータ5−9および縦エッジデータ5−10を作成完了すると、図10の処理313に移る。
【0045】
図10の処理313では、画素横位置カウンタXおよび画素縦位置カウンタYを“0”に初期化する。
処理314では、横エッジデータ5−9の配列[Y][X]の値と前フレーム横エッジデータ5−12の配列[Y][X]の値が共に“1”であるかどうかを調べ、両方とも“1”ならば処理315へ移り、そうでなければ処理316へ移る。
処理315では、横エッジ照合データ5−15の配列[Y][X]に“1”を書き込む。
処理316では、横エッジ照合データ5−15の配列[Y][X]に“0”を書き込む。
処理317では、縦エッジデータ5−10の配列[Y][X]の値と前フレーム縦エッジデータ5−13の配列[Y][X]の値が共に“1”であるか否かを調べ、両方とも“1”ならば処理318へ移り、そうでなければ処理319へ移る。
処理318では、縦エッジ照合データ5−16の配列[Y][X]に“1”を書き込む。
処理319では、縦エッジ照合データ5−16の配列[Y][X]に“0”を書き込む。
処理320〜処理324は、上記処理314〜処理319を全ての画素に対して行うためのアドレス更新処理である。上記処理314〜処理319を全ての画素に対して行って横エッジ照合データ5−15および縦エッジ照合データ5−16を作成完了すると、処理325に移る。
【0046】
処理325では、横エッジデータ5−9の配列[Y][X]の内容を前フレーム横エッジデータ5−12の配列[Y][X]に複写する。また、縦エッジデータ5−10の配列[Y][X]の内容を前フレーム縦エッジデータ5−13の配列[Y][X]に複写する。
処理327〜処理331は、上記処理326を全ての画素に対して行うためのアドレス更新処理である。上記処理326を全ての画素に対して行って前フレーム横エッジデータ5−12および前フレーム縦エッジデータ5−13を更新完了すると、図11の処理332に移る。
【0047】
図11の処理332では、領域内画素横位置カウンタiおよび領域内画素縦位置カウンタjおよび領域横位置カウンタXbおよび領域縦位置カウンタYbを“0”に初期化する。また、横エッジ領域データ5−18および縦エッジ領域データ5−19を“0”に初期化する。
処理333では、横エッジ照合データ5−15の配列[Yb*24+j][Xb*20+i]の内容が“1”かどうかを調べ、“1”であれば処理334へ移り、そうでなければ処理335へ移る。
処理334では、横エッジ領域データ5−18の配列[Yb][Xb]に“1”を加える。
処理335では、縦エッジ照合データ5−16の配列[Yb*24+j][Xb*20+i]の内容が“1”かどうかを調べ、“1”であれば処理336へ移り、そうでなければ処理337へ移る。
処理336では、縦エッジ領域データ5−19の配列[Yb][Xb]に“1”を加える。
処理337〜処理348は、上記処理333〜処理336を全ての画素に対して行うためのアドレス更新処理である。上記処理333〜処理336を全ての画素に対して行って横エッジ領域データ5−18および縦エッジ領域データ5−19を作成完了すると、領域別エッジ計数部300における処理を終了する。
【0048】
図12,図13,図14は、字幕判定部400および代表画像作成部500における処理手順を示すフロー図である。なお、字幕判定部400の処理を参照番号4xxで示し、代表画像作成部500の処理を参照番号5xxで示す。
図12の処理401では、領域横位置カウンタXbおよび領域縦位置カウンタYbを“0”に初期化する。
処理402では、輝度領域データ5−17の配列[Yb][Xb]の値と横エッジ領域データ5−18の配列[Yb][Xb]の値と縦エッジ領域データ5−19の配列[Yb][Xb]の値が共に闘値3(5−5)以上であるか否かを調べ、共に闘値3以上ならば処理403へ移り、そうでなければ処理404へ移る。
処理403では、字幕領域データ5−20の配列[Yb][Xb]に“1”を書き込む。“1”を書き込んだ配列に対応する領域が字幕有りの領域である。
処理404では、字幕領域データ5−20の配列[Yb][Xb]に“0”を書き込む。“0”を書き込んだ配列に対応する領域が字幕無しの領域である。
処理405〜処理409は、上記処理402〜処理404を全ての領域に対して行うためのアドレス更新処理である。上記処理402〜処理404を全ての領域に対して行って字幕領域データ5−20を作成完了すると、図13の処理410に移る。
【0049】
図13の処理410では、領域横位置カウンタXbおよび領域縦位置カウンタYbを“0”に初期化する。また、行カウントデータ5−22を“0”に初期化する。
処理411では、行カウントデータ5−22の配列[Yb]に字幕領域データの配列[Yb][Xb]の内容を加算する。
処理412〜処理416は、上記処理411を全ての領域に対して行うためのアドレス更新処理である。上記処理411を全ての領域に対して行って行カウントデータ5−22を作成完了すると、処理417に移る。
処理417では、領域横位置カウンタXbおよび領域縦位置カウンタYbを“0”に初期化する。又、列カウントデータ5−25を“0”に初期化する。
処理418では、列カウントデータ5−25の配列[Xb]に字幕領域データの配列[Yb][Xb]の内容を加算する。
処理419〜処理423は、上記処理418を全ての領域に対して行うためのアドレス更新処理である。上記処理418を全ての領域に対して行って列カウントデータ5−25を作成完了すると、図14の処理424に移る。
【0050】
図14の処理424では、領域横位置カウンタXbおよび領域縦位置カウンタYbを“0”に初期化する。また、最大行カウントデータ5−23および最大列カウントデータ5−26を“0”に初期化する。
処理425では、行カウントデータ5−22の配列[Yb]の値が最大行カウントデータ5−23より大きいかを調べ、大きければ処理426へ移り、大きくなければ処理428に移る。
処理426では、行カウントデータ5−22の配列[Yb]の値を最大行カウントデータ5−23に複写する。
処理427では、最大行位置データ5−24に“Yb”の値を記憶する。
処理428および処理429は、上記処理425〜処理427を全ての行に対して行うためのアドレス更新処理である。上記処理425〜処理427を全ての行に対して行って最大行カウントデータ5−23および最大行位置データ5−24を作成完了すると、処理430に移る。
処理430では、列カウントデータ5−25の配列[Xb]の値が最大列カウントデータ5−26より大きいかを調べ、大きければ処理431へ移り、大きくなければ処理433に移る。
処理431では、列カウントデータ5−25の配列[Xb]の値を最大列カウントデータ5−26に複写する。
処理432では、最大列位置データ5−27に“Xb”の値を記憶する。
処理433および処理434は、上記処理430〜処理432を全ての列に対して行うためのアドレス更新処理である。上記処理430〜処理432を全ての列に対して行って最大列カウントデータ5−26および最大列位置データ5−27を作成完了すると、処理435に移る。
【0051】
処理435では、最大行カウントデータ5−23が閾値4(5−6)以上であるか又は最大列カウントデータ5−26が閾値4以上であるか否かを調べる。最大行カウントデータ5−23が閾値4以上であるか又は最大列カウントデータ5−26が閾値4以上であれば、当該フレームの画像中に字幕有りと判定し、処理436へ移る。最大行カウントデータ5−23が閾値4未満であり且つ最大列カウントデータ5−26が閾値4未満であれば、当該フレームの画像中に字幕無しと判定し、図17の処理471に移る。
処理436では、最大行カウントデータ5−23が最大列カウントデータ5−26以上であるか否かを調べる。最大行カウントデータ5−23が最大列カウントデータ5−26以上であれば、「字幕が横書きである」と判定し、処理437に移る。最大行カウントデータ5−23が最大列カウントデータ5−26以上でなければ、「字幕は縦書きである」と判定し、処理440に移る。
【0052】
処理437では、最大行位置データ5−24が“5”行目(画面の中段の行)以上であるかを調べ、“5”以上であれば「字幕は画面の上半分に横書き」と判断し、処理438へ移り、“5”未満であれば「字幕は下半分に横書き」と判断し、処理439へ移る。
処理438では、字幕付属データ5−21に“上横書き”を書き込む。
処理439では、字幕付属データ5−21に“下横書き”を書き込む。そして、図15の処理451に移る。
【0053】
一方、処理440では、最大列位置データ5−27が“8”列目(画面の中央の列)以上であるかを調べ、“8”以上であれば「字幕は画面の右半分に縦書き」と判断し、処理441へ移り、“8”未満であれば「字幕は画面の左半分に縦書き」と判断し、処理442へ移る。
処理441では、字幕付属データ5−21に“右縦書き”を書き込む。
処理442では、字幕付属データ5−21に“左縦書き”を書き込む。そして、図15の処理451に移る。
【0054】
図15の処理451では、領域横位置カウンタXb及び領域縦位置カウンタYbを“0”に初期化する。又、領域一致数5−29を“0”に初期化する。
処理452では、字幕領域データ5−20の配列[Yb][Xb]の値と前字幕領域データ5−28の配列[Yb][Xb]の値が一致するかどうかを調べ、一致すれば処理453へ移り、一致しなければ処理454へ移る。
処理453では、領域一致数5−29に“1”を加える。
処理454から処理458は、上記処理452および処理453を全ての領域に対して行うためのアドレス更新処理である。上記処理452,処理453を全ての領域に対して行って領域一致数5−29を作成完了すると、処理459に移る。
【0055】
処理459では、領域一致数5−29を領域数“160”で割って一致度を求め、その一致度が“0.7”未満か否かを調べる。一致度が“0.7”未満なら、字幕が変化したと判断し、処理501へ移る。一致度が“0.7”以上なら、字幕が変化していないと判断し、図16の処理461へ移る。なお、本実施例では一致度の閾値を“0.7”としたが、任意に設定可能である。
処理501では、新たな代表画像構造体5−2を生成し、その代表画像構造体5−2の代表画像識別番号5−2−1に、前回生成した代表画像構造体5−2の代表画像識別番号5−2−1に“1”を加えた値を設定する。また、字幕開始時間5−2−5に現在時刻を格納し、字幕書式5−2−7に字幕付属データ5−21を複写する。
処理502では、画素横位置カウンタXおよび画素縦位置カウンタYを“0”に初期化する。
処理503では、代表画像データ5−2−2の配列[Y][X]に緑画像データ5−7−2の配列[Y*2][X*2]の輝度値を複写する。
処理504〜処理508は、上記処理503を代表画像の全ての画素に対して行うためのアドレス更新処理である。上記処理503を代表画像の全ての画素に対して行って代表画像データ5−2−2を作成完了すると、図16の処理461に移る。なお、代表画像データ5−2−2は、緑画像データ5−7−2の1/2縮小画像となる。
【0056】
図16の処理461では、領域横位置カウンタXbおよび領域縦位置カウンタYbを“0”に初期化する。
処理462では、前字幕領域データ5−28の配列[Yb][Xb]に字幕領域データ5−20の配列[Yb][Xb]の値を複写する。
処理463から処理467は、上記処理462を全ての領域に対して行うためのアドレス更新処理である。上記処理462を全ての領域に対して行って前字幕領域データ5−28を更新完了すると、処理468に移る。
処理468では、代表画像構造体5−2の字幕終了時間5−2−6に現在時刻を格納する。そして、字幕判定部400における処理を終了する。
【0057】
一方、図17の処理471では、領域横位置カウンタXbおよび領域縦位置カウンタYbを“0”に初期化する。
処理472では、前字幕領域データ5−28の配列[Yb][Xb]に“0”を格納する。
処理473から処理477は、上記処理472を全ての領域に対して行うためのアドレス更新処理である。上記処理472を全ての領域に対して行って前字幕領域データ5−28を更新完了すると、字幕判定部400における処理を終了する。
【0058】
以上の動画像の代表画像抽出装置1000によれば、特徴抽出部150によって、領域別に字幕が現われているかどうかを判定しているので、字幕の文字数が画面全体で少ない場合であっても、字幕を好適に検出可能である。また、特徴抽出部150は、字幕の特徴として高輝度の画素と強エッジの画素の両方をチェックしているので、ライト照明のようなエッジが無くかつ高輝度の背景や将棋盤のようにエッジは有るが輝度の低い背景は字幕と区別されるため、誤抽出を防止できる。また、字幕判定部400によって、字幕有無の情報を行方向および列方向に投影して判断しているので、字幕が縦書きでも横書きでも対応可能であり、また、現われた字幕が縦書きか横書きであるかを区別可能である。さらに、代表画像作成部500によって縮小した代表画像を作成し、表示部600によって複数の縮小代表画像を一覧表示するため、代表画像の検索が容易になる。
【0059】
【発明の効果】
本発明の字幕検出方法によれば、字幕の表示態様が任意である一般の画像に対して字幕が有るか否かを判定することが出来るようになる。
また、画像自体の変化が少なく,字幕のみが変化するような場合でも、必要な代表画像を抽出することが出来る。
【図面の簡単な説明】
【図1】本発明の一実施例の動画像の代表画像抽出装置のシステム構成図である。
【図2】ディスプレイ装置に表示する画面の例示図である。
【図3】代表画像抽出処理の機能ブロック図である。
【図4】メモリに記憶されるプログラムとデータの構成図である。
【図5】代表画像構造体の構成図である。
【図6】領域別輝度計数部における高輝度の画素を抽出する処理のフロー図である。
【図7】領域別輝度計数部における複数のフレームに渡り高輝度が継続している画素を抽出する処理のフロー図である。
【図8】領域別輝度計数部における領域別に高輝度の画素数を計数する処理のフロー図である。
【図9】領域別エッジ計数部における縦エッジおよび横エッジの画素を抽出する処理のフロー図である。
【図10】領域別エッジ計数部における複数のフレームに渡り強エッジが継続している画素を抽出する処理のフロー図である。
【図11】領域別エッジ計数部における領域ごとに縦エッジ数および横エッジ数を計数する処理のフロー図である。
【図12】字幕判定部における領域ごとに字幕有無を判別する処理のフロー図である。
【図13】字幕判定部における字幕有りの領域を行方向および列方向に投影する処理のフロー図である。
【図14】字幕判定部における字幕有りの画像を判定する処理のフロー図である。
【図15】字幕判定部における字幕有りの画像の連続性を判定する処理のフロー図である。
【図16】字幕判定部における字幕有りの画像の連続性を判定する処理の続きのフロー図である。
【図17】字幕判定部における字幕無しの画像についての処理のフロー図である。
【図18】複数の領域に区分した画面の説明図である。
【符号の説明】
1…ディスプレィ装置、2…スピーカ、3…コンピュータ、4…CPU、
5…メモリ、6…インタフェース、7…ポインティングデバイス、
8…キーボード、9…ビデオ再生装置、10…制御信号、
11…ビデオ入力装置、12…ディジタル画像データ、
13…外部情報記憶装置、
100…動画入力部、150…特徴抽出部、200…領域別輝度計数部、
300…領域別エッジ計数部、400…字幕判定部、
500…代表画像作成部、600…表示部、
1000…動画像の代表画像抽出装置。
[0001]
[Industrial applications]
The present invention relates to a method for detecting subtitles. To the law More specifically, a subtitle detection method for determining whether or not subtitles are present in an image. To the law Related.
[0002]
[Prior art]
There is the following conventional technique for the caption detection method.
JP-A-5-137066 discloses a technique for extracting an edge component of a video signal to identify a subtitle portion and a background portion in a karaoke video.
Also, in the "Content Identification Method Based on Recognition from Sumo Matching, Proceedings of the 44th Annual Conference of the IPSJ, 2-301", the screen is divided into a left part and a right part, and the left part is written vertically. There is disclosed a technique for recognizing an opponent from subtitles that are displayed and subtitles that are written vertically on the right part.
[0003]
As a representative image extracting device for a moving image, there is the following conventional technology.
Japanese Patent Application Laid-Open No. Hei 5-244475 proposes a technique in which a change point of an image is obtained based on a difference between frames, and an image giving the change point is extracted as a representative image.
[0004]
As other related prior arts, there are techniques disclosed in Japanese Patent Application Laid-Open Nos. 3-273363 and 3-292572.
[0005]
[Problems to be solved by the invention]
The caption detection method disclosed in Japanese Patent Application Laid-Open No. Hei 5-137066 is based on the premise that captions are written horizontally, and cannot be used for captions written vertically. In other words, there is a problem that it can handle karaoke videos but cannot handle general images.
In addition, the conventional technology disclosed in the above-mentioned "Content identification method based on recognition from sumo wrestling match, Proceedings of the 44th Annual Conference of IPSJ, 2-301" has subtitles on the left and right portions of the screen, respectively. It is premised that it is written, and there is still a problem that cannot be dealt with general images.
Therefore, a first object of the present invention is to provide a subtitle detection method capable of determining whether or not a general image whose subtitle display mode is arbitrary has a subtitle.
[0006]
In the moving image representative image extracting apparatus disclosed in Japanese Patent Application Laid-Open No. 5-244475, the representative image is extracted by paying attention only to the change in the image. There is a problem that a typical image cannot be extracted. For example, in the case of an image in which an announcer reads a plurality of news one after another, the representative image may not be able to be extracted for each news because the image itself changes little and only the subtitle changes.
Therefore, a second object of the present invention is to Detect subtitles, and based on the results Representative images can be extracted Caption detection method Is to provide.
[0007]
[Means for Solving the Problems]
[0008]
No. 1 In terms of the present invention, the present invention, the image is divided into a plurality of regions, counting the number of high-luminance pixels equal to or greater than the first threshold and the number of edges having a difference in luminance value equal to or greater than the second threshold for each region, The area where the number of pixels is equal to or greater than a third threshold and the number of edges is equal to or greater than the third threshold is determined as an area with captions, and the number of areas with captions is projected in the row direction and the column direction. When the maximum value of the number of areas with subtitles when projected or the maximum value of the number of areas with subtitles when projected in the column direction is equal to or greater than a fourth threshold, it is determined that subtitles are present in the image. A subtitle detection method is provided.
[0009]
No. 2 In view of the above, the present invention provides a subtitle detection method having the above configuration, wherein the number of high-luminance pixels and the number of edges existing in the same place at least continuously for at least two past frames are counted. I do.
[0010]
No. 3 In the aspect of the present invention, in the caption detection method having the above configuration, the horizontal luminance difference counts edges having a second threshold or more, and the vertical luminance difference counts edges having a second threshold or more. A featured subtitle detection method is provided.
[0011]
No. 4 In the aspect of the present invention, in the caption detection method having the above configuration, the maximum value of the number of subtitled areas when projected in the row direction is larger than the maximum value of the number of subtitled areas when projected in the column direction. In such a case, a subtitle detection method is provided in which it is determined that the subtitle is horizontally written, and otherwise, it is determined that the subtitle is vertically written.
[0012]
No. According to a fifth aspect, the present invention provides the caption detection method having the above configuration, Select a representative image from the images determined to have subtitles Caption detection method characterized by the following: I will provide a.
[0014]
No. 6 In terms of the present invention, the present invention In the caption detection method, When an image determined to have subtitles is a temporally continuous frame, only one of the frames is selected as a representative image. Caption detection method I will provide a.
[0015]
No. 7 In terms of the present invention, the present invention Caption detection method In, each extracted representative image is reduced and displayed side by side on the screen Caption detection method characterized by the following: I will provide a.
[0016]
[Action]
In the caption detection method according to the first aspect, the image is divided into a plurality of regions, the feature amount of the caption is calculated for each region, and it is determined whether or not each region is a region with a caption based on the feature amount. Then, the number of areas with captions is projected in the row direction and the column direction, and it is determined whether or not captions are present in the image based on the projection results.
According to this, since the presence / absence of subtitles is determined for each of the divided areas, subtitles can be detected even when the number of subtitles is small in the entire screen. In addition, since the number of subtitled areas is projected in the row and column directions, and whether or not subtitles are present in the image is determined based on the projection result, subtitles can be written in either horizontal or vertical writing. There is no restriction on the display position of. Therefore, it is possible to determine whether or not there is a caption for a general image whose caption display mode is arbitrary.
[0017]
Further, the first In the caption detection method according to the viewpoint, the image is divided into a plurality of regions, and the number of high-luminance pixels equal to or greater than the first threshold and the number of edges having a difference in luminance value equal to or greater than the second threshold are counted for each region, An area in which the number of pixels is equal to or greater than a third threshold and in which the number of edges is equal to or greater than the third threshold is determined as an area having captions. Then, the number of subtitled areas is projected in the row and column directions, and the maximum value of the number of subtitled areas when projected in the row direction or the maximum value of subtitled areas when projected in the column direction is the second value. When the number is equal to or larger than the fourth threshold, it is determined that there is a caption in the image.
According to this, Of In addition to the function, the number of pixels with high luminance is counted, so that characters composed of pixels with higher luminance than the background can be suitably discriminated. Further, since the number of strong edges is counted, a character having a higher frequency of appearance of an edge than the background can be suitably determined. Then, since it is determined whether or not a subtitle exists in the area based on both the number of high-luminance pixels and the number of strong edges, it is possible to determine with high accuracy.
[0018]
The above 2 In the caption detection method according to the aspect described above, the number of high-luminance pixels and the number of edges existing at the same place at least continuously for at least two past frames are counted.
In a moving image, the background pixels are likely to change, but the subtitles are displayed without changing for a certain period of time until the viewer finishes reading. Therefore, by comparing with a past frame, a pixel or an edge relating to a caption can be detected with high accuracy.
[0019]
The above 3 In the caption detection method according to the aspect described above, edges whose luminance difference in the horizontal direction is equal to or greater than a second threshold value and edges whose luminance difference in the vertical direction is equal to or greater than the second threshold value are counted.
For example, in a background such as a window blind, edges appear frequently. However, since only one of the horizontal edge and the vertical edge appears, by considering both, background edges such as window blinds are not counted, and erroneous determination can be prevented.
[0020]
The above 4 In the caption detection method according to the above aspect, if the maximum value of the number of subtitled areas when projected in the row direction is larger than the maximum value of the number of subtitled areas when projected in the column direction, the caption is written horizontally. Otherwise, it is determined that the caption is in vertical writing.
This makes it possible to detect a subtitle format.
[0021]
The above 5 In terms of With caption detection, A representative image is selected from the images determined to have subtitles.
As described above, since the image having the caption is detected and the representative image is extracted from the image, the representative image can be appropriately extracted even from a moving image in which the image itself has little change and only the caption changes.
[0023]
The above 6 In terms of With caption detection, When images determined to have subtitles are temporally continuous, only one frame image is selected as a representative image.
As a result, for example, an image in place of the caption can be extracted.
[0024]
The above 7 In terms of With caption detection, Each extracted representative image is reduced and displayed on the screen.
As a result, a plurality of representative images can be listed, and the user can easily find a desired scene.
[0025]
【Example】
Hereinafter, the present invention will be described in detail with reference to the drawings. Note that the present invention is not limited to this.
[0026]
FIG. Implement caption detection method 1 is a system configuration diagram of a representative image extraction device for a moving image.
In the moving image representative image extracting device 1000, the video reproducing device 9 is a device such as an optical disk or a video deck for reproducing a moving image. Each frame of the moving image handled by the video playback device 9 is assigned a frame number in order from the beginning of the moving image, and the frame number is transmitted from the computer 3 to the video playback device by the control signal 10 so that the corresponding frame is assigned. Is reproduced, and the video signal V is output to the video input device 11.
The video input device 11 converts the video signal V into digital image data 12 and sends it to the computer 3.
[0027]
The computer 3 captures the digital image data 12 via the interface 6 and processes the digital image data 12 with the CPU 4 according to a program stored in the memory 5. Various data are stored in the memory 5 and are referred to as needed. Further, various kinds of information are stored in the external storage device 13 as necessary for processing.
Commands to the computer 3 can be issued by using a pointing device 7 such as a mouse or a keyboard 8.
A display device 1 such as a CRT displays an output screen of the computer 3, and a speaker 2 generates an output sound of the computer 3.
[0028]
FIG. 2 is an example of a screen displayed on the display device 1.
In the area 50, a moving image based on the digital image data 12 is displayed.
In an area 60, buttons for controlling the present system and the operation status of the present system are displayed. The start button 61 is a button for starting execution of the representative image extraction process. The stop button 62 is a button for stopping the execution of the representative image extraction processing. The operation of pressing the button is performed when the user operates the pointing device 7 to position the cursor 80 on the button and clicks the button. The detection screen number display 63 is the number of representative images extracted from the start of execution to the present. The start time display 64 is the execution start time of the representative image extraction process.
[0029]
In the area 70, the extracted m representative images are reduced and displayed (in FIG. 2, m = 6). That is, when a subtitle exists in a frame of a moving image, the image of the frame is extracted as a representative image, reduced to an appropriate size, and displayed in the area 70. Also, the extraction time of the representative image is displayed together. When the extracted representative image exceeds the displayable number m of the area 70, the display is automatically scrolled and only the latest m representative images are displayed. The user can press the scroll buttons 71 and 73 or drag the scroll bar 72 to display the scrolled-out representative image.
[0030]
FIG. 3 is a functional block diagram of the representative image extracting process.
The moving image input unit 100 loads the digital image data 12 into the memory 5 and displays the moving image on the area 50 of the display device 1.
The region-based luminance counting unit 200 of the feature extraction unit 150 detects high-luminance pixels equal to or greater than a first threshold in each region when the screen of each frame of the moving image is divided into a plurality of regions, and determines the number of pixels. Is output.
The region-based edge counting unit 300 of the feature extraction unit 150 detects edges having a second threshold or more in each region when the screen of each frame of the moving image is divided into a plurality of regions, and outputs the number of edges. .
The subtitle determination unit 400 determines an area in which the number of pixels and the number of edges are equal to or greater than the third threshold value as an area with subtitles, projects the number of subtitled areas in the row direction and the column direction, and projects in the row direction. When the maximum value of the number of regions with subtitles at that time or the maximum value of the number of regions with subtitles when projected in the column direction is equal to or greater than the fourth threshold value, it is determined that there is a subtitle in the image of the frame.
The representative image creation unit 500 reduces the image of the frame determined to have the subtitle and stores it in the memory 5 as a representative image.
The display unit 600 displays the plurality of reduced representative images and the extraction time in the area 70 of the display device 1 side by side.
[0031]
FIG. 4 is a configuration diagram of programs and data stored in the memory 5.
The program 5-1 is a program for a representative image extraction process. This program 5-1 refers to the following data 5-2 to data 5-27.
[0032]
The representative image structure 5-2 is a structure that stores a representative image and attached data (such as extraction time) (details are shown in FIG. 5). This representative image structure 5-2 is data to be accumulated as an extraction result.
[0033]
The threshold value 1 (5-3) is a first threshold value for detecting a high-luminance pixel.
The threshold value 2 (5-4) is a second threshold value for detecting a strong edge.
The threshold value 3 (5-5) is a third threshold value for determining a segmented area with subtitles.
The threshold value 4 (5-6) is a fourth threshold value for detecting a frame having a caption.
The threshold value 1 (5-3), the threshold value 2 (5-4), the threshold value 3 (5-5), and the threshold value 4 (5-6) are data set in advance.
[0034]
The following data 5-7 to data 5-27 are work data used for one process.
The image data 5-7 is digital image data of the current frame to be processed, and is [240] × [320] (= number of screen pixels: see FIG. 18) array data. Each array is composed of three types of color component data of red image data 5-7-1, green image data 5-7-2, and blue image data 5-7-3.
The luminance data 5-8 is [240] × [320] array data indicating the detection result of the high luminance pixels.
The horizontal edge data 5-9 is [240] × [320] array data indicating a detection result of a pixel having a large luminance difference in the horizontal direction of the screen (a pixel of a strong edge).
The vertical edge data 5-10 is [240] × [320] array data indicating a detection result of a pixel having a large luminance difference in the vertical direction of the screen (a pixel of a strong edge).
[0035]
The previous frame luminance data 5-11 is luminance data (5-8) of the previous frame of the current processing target frame.
The previous frame horizontal edge data 5-12 is horizontal edge data (5-9) of the previous frame of the current frame to be processed.
The previous frame vertical edge data 5-13 is the vertical edge data (5-10) of the previous frame of the current frame to be processed.
[0036]
The luminance collation data 5-14 is [240] × [320] array data in which both the luminance data 5-8 and the previous frame luminance data 5-11 store high luminance pixels.
The horizontal edge collation data 5-15 is [240] × [320] array data in which both the horizontal edge data 5-9 and the previous frame horizontal edge data 5-12 store pixels of strong edges.
The vertical edge collation data 5-16 is [240] × [320] array data in which both the vertical edge data 5-10 and the previous frame vertical edge data 5-13 store pixels of strong edges.
[0037]
The luminance area data 5-17 is array data storing the result of counting the number of high luminance pixels of the luminance collation data 5-14 for each area. This is [10] × [16] (= number of areas: see FIG. 18) array data. In the present embodiment, the screen is divided into [10] × [16] areas, but it is preferable to divide the screen into a size such that one subtitle character is included in one area.
The horizontal edge area data 5-18 is [10] × [16] array data that stores the result of counting the number of pixels (edge number) of strong edges of the horizontal edge collation data 5-15 for each area. .
The vertical edge area data 5-19 is [10] × [16] array data that stores the result of counting the number of pixels (edge number) of strong edges of the vertical edge collation data 5-16 for each area. .
The luminance data 5-8 to the vertical edge area data 5-19 are data created by the feature extracting unit 150.
[0038]
The subtitle area data 5-20 is [10] × [16] pieces of array data that stores the determination result of the presence or absence of subtitles for each area.
The subtitle attached data 5-21 is data on the position and direction of the subtitle when there is a subtitle.
The row count data 5-22 is [10] pieces of array data in which the number of areas with captions is stored for each row.
The maximum row count data 5-23 is data storing the maximum value of the array data of the row count data 5-22.
The maximum row position data 5-24 is data that stores the row number of the row corresponding to the maximum value in the array data of the row count data 5-22.
The column count data 5-25 is [16] pieces of array data in which the number of areas with captions is stored for each column.
The maximum column count data 5-26 is data storing the maximum value of the array data of the column count data 5-25.
The maximum column position data 5-27 is data storing the column number of the column corresponding to the maximum value in the array data of the column count data 5-25.
The previous caption area data 5-28 is caption area data (5-20) of the previous frame of the current frame to be processed.
The area match number 5-29 is the number of areas where the presence or absence of subtitles matches between the current frame to be processed and the previous frame.
The area matching number 5-29 from the caption area data 5-20 is data created by the caption determination unit 400.
[0039]
FIG. 5 is a configuration diagram of the representative image structure 5-2.
The representative image identification number 5-2-1 is the order of the extracted representative images.
The representative image data 5-2-2 is array data obtained by reducing the extracted image. This is [120] × [160] (= 1 / the number of pixels on the screen) array data. Each array is composed of three types of color component data of red image data, green image data, and blue image data.
The representative image display position X (5-2-3) and the representative image display position Y (5-2-4) are X and Y coordinate positions when the representative image is displayed in the area 70.
The subtitle start time 5-2-5 is a time at which a subtitle relating to the representative image appears.
The subtitle end time 5-2-6 is the time at which the subtitle relating to the representative image has disappeared.
The caption format 5-2-7 is data on the display direction and position of the caption for the representative image.
[0040]
6, 7, and 8 are flowcharts showing the processing procedure in the region-by-region luminance counting section 200.
In the process 201 of FIG. 6, the pixel horizontal position counter X and the pixel vertical position counter Y are initialized to “0”.
In the process 202, the luminance value of the array [Y] [X] of the red image data 5-7-1, the green image data 5-7-2, and the blue image data 5-7-3 is a threshold value 1 (5-3). It is checked whether or not the above is the case. If all three colors have a luminance value equal to or greater than the threshold value 1, the process proceeds to step 203;
In the process 203, “1” is written in the array [Y] [X] of the luminance data 5-8.
In step 204, “0” is written to the array [Y] [X] of the luminance data 5-8.
Processes 205 to 209 are address update processes for performing the processes 202 to 204 on all the pixels. When the processes 202 to 204 are performed on all the pixels to complete the creation of the luminance data 5-8, the process proceeds to a process 210 in FIG.
[0041]
In the process 210 of FIG. 7, the pixel horizontal position counter X and the pixel vertical position counter Y are initialized to “0”.
In the process 211, it is checked whether both the value of the array [Y] [X] of the luminance data 5-8 and the value of the array [Y] [X] of the previous frame luminance data 5-11 are "1". If both are "1", the process proceeds to step 212; otherwise, the process proceeds to step 213.
In the process 212, “1” is written to the array [Y] [X] of the luminance collation data 5-14.
In the process 213, “0” is written to the array [Y] [X] of the luminance collation data 5-14.
Processes 214 to 218 are address update processes for performing the processes 211 to 213 on all pixels. When the above steps 202 to 204 are performed on all the pixels to complete the creation of the luminance collation data 5-14, the process proceeds to step 219.
[0042]
In process 219, the pixel horizontal position counter X and the pixel vertical position counter Y are initialized to “0”.
In the process 220, the contents of the array [Y] [X] of the luminance data 5-8 are copied to the array [Y] [X] of the previous frame luminance data 5-11.
Processes 221 to 225 are address update processes for performing the process 220 for all pixels. When the above process 220 is performed on all the pixels to complete the update of the previous frame luminance data 5-11, the process proceeds to a process 226 in FIG.
[0043]
In the process 226 in FIG. 8, the in-region pixel horizontal position counter i, the in-region pixel vertical position counter j, the region horizontal position counter Xb, and the region vertical position counter Yb are initialized to “0”. Also, the luminance area data 5-17 is initialized to “0”.
In the process 227, it is checked whether or not the content of the array [Yb * 24 + j] [Xb * 20 + i] of the luminance collation data 5-14 is "1". If "1", the process proceeds to the process 228; Move to
In the process 228, “1” is added to the array [Yb] [Xb] of the luminance area data 5-17.
Processes 229 to 239 are address update processes for performing the processes 227 and 228 for all pixels. When the processing 227 and the processing 228 are performed for all the pixels to complete the creation of the brightness area data 5-17, the processing in the area-by-area brightness counting unit 200 ends.
[0044]
FIGS. 9, 10, and 11 are flowcharts showing the processing procedure in the edge counting unit 300 for each area.
In the process 301 of FIG. 9, the pixel horizontal position counter X and the pixel vertical position counter Y are initialized to “1”.
In the process 302, the luminance value of the array [Y] [X + 1] and the array [Y] [X-1] of the red image data 5-7-1, the green image data 5-7-2, and the blue image data 5-7-3 It is checked whether or not the difference between the brightness values is equal to or greater than the threshold value 2 (5-4). If the difference between the brightness values for all three colors is equal to or greater than the threshold value 2, the process proceeds to step 303; Move to processing 304.
In the process 303, “1” is written in the array [Y] [X] of the horizontal edge data 5-9 (FIG. 4).
In the process 304, “0” is written to the array [Y] [X] of the horizontal edge data 5-9 (FIG. 4).
In the process 305, the luminance value of the array [Y + 1] [X] and the array [Y-1] [X of the red image data 5-7-1, the green image data 5-7-2, and the blue image data 5-7-3 It is checked whether or not the difference between the brightness values is equal to or greater than the threshold value 2 (5-4). If the difference between the brightness values for all three colors is equal to or greater than the threshold value 2, the process proceeds to processing 306; Move to processing 307.
In the process 306, “1” is written in the array [Y] [X] of the vertical edge data 5-10 (FIG. 4).
In the process 307, “0” is written in the array [Y] [X] of the vertical edge data 5-10 (FIG. 4).
Processes 308 to 312 are address update processes for performing the processes 302 to 307 for all pixels. When the processes 202 to 204 are performed on all the pixels except for the pixels at the edges of the screen to complete the creation of the horizontal edge data 5-9 and the vertical edge data 5-10, the process proceeds to the process 313 in FIG.
[0045]
In the process 313 of FIG. 10, the pixel horizontal position counter X and the pixel vertical position counter Y are initialized to “0”.
In the process 314, it is checked whether both the value of the array [Y] [X] of the horizontal edge data 5-9 and the value of the array [Y] [X] of the previous frame horizontal edge data 5-12 are "1". If both are "1", the process proceeds to step 315; otherwise, the process proceeds to step 316.
In the process 315, “1” is written into the array [Y] [X] of the horizontal edge collation data 5-15.
In the process 316, “0” is written in the array [Y] [X] of the horizontal edge collation data 5-15.
In the process 317, it is determined whether the value of the array [Y] [X] of the vertical edge data 5-10 and the value of the array [Y] [X] of the previous frame vertical edge data 5-13 are both "1". The process proceeds to step 318 if both are “1”, and to step 319 otherwise.
In the process 318, “1” is written into the array [Y] [X] of the vertical edge collation data 5-16.
In process 319, “0” is written to the array [Y] [X] of the vertical edge collation data 5-16.
Processes 320 to 324 are address update processes for performing the processes 314 to 319 for all pixels. When the processes 314 to 319 are performed on all the pixels to complete the creation of the horizontal edge collation data 5-15 and the vertical edge collation data 5-16, the process proceeds to a process 325.
[0046]
In the process 325, the contents of the array [Y] [X] of the horizontal edge data 5-9 are copied to the array [Y] [X] of the previous frame horizontal edge data 5-12. The contents of the array [Y] [X] of the vertical edge data 5-10 are copied to the array [Y] [X] of the previous frame vertical edge data 5-13.
Processes 327 to 331 are address update processes for performing the process 326 for all pixels. When the process 326 is performed on all the pixels to update the previous frame horizontal edge data 5-12 and the previous frame vertical edge data 5-13, the process proceeds to the process 332 in FIG.
[0047]
In the process 332 in FIG. 11, the in-region pixel horizontal position counter i, the in-region pixel vertical position counter j, the region horizontal position counter Xb, and the region vertical position counter Yb are initialized to “0”. Further, the horizontal edge area data 5-18 and the vertical edge area data 5-19 are initialized to "0".
In the process 333, it is checked whether or not the content of the array [Yb * 24 + j] [Xb * 20 + i] of the horizontal edge collation data 5-15 is "1". If "1", the process proceeds to the process 334; Move on to 335.
In the process 334, “1” is added to the array [Yb] [Xb] of the horizontal edge area data 5-18.
In the process 335, it is checked whether or not the contents of the array [Yb * 24 + j] [Xb * 20 + i] of the vertical edge collation data 5-16 are "1". Move on to 337.
In the process 336, “1” is added to the array [Yb] [Xb] of the vertical edge area data 5-19.
Processes 337 to 348 are address update processes for performing the processes 333 to 336 for all pixels. When the processes 333 to 336 are performed on all the pixels to complete the creation of the horizontal edge region data 5-18 and the vertical edge region data 5-19, the process in the region-specific edge counting unit 300 ends.
[0048]
12, 13, and 14 are flowcharts illustrating processing procedures in the subtitle determination unit 400 and the representative image creation unit 500. Note that the processing of the caption determination unit 400 is indicated by reference number 4xx, and the processing of the representative image creation unit 500 is indicated by reference number 5xx.
In the process 401 of FIG. 12, the area horizontal position counter Xb and the area vertical position counter Yb are initialized to “0”.
In the process 402, the value of the array [Yb] [Xb] of the luminance area data 5-17, the value of the array [Yb] [Xb] of the horizontal edge area data 5-18, and the array [Yb] of the vertical edge area data 5-19 It is checked whether the values of [Xb] are both equal to or greater than the threshold value 3 (5-5). If both are equal to or greater than the threshold value 3, the process proceeds to step 403; otherwise, the process proceeds to step 404.
In the process 403, “1” is written to the array [Yb] [Xb] of the caption area data 5-20. The area corresponding to the array in which “1” is written is the area with subtitles.
In the process 404, “0” is written to the array [Yb] [Xb] of the subtitle area data 5-20. The area corresponding to the array in which “0” is written is the area without subtitles.
Processes 405 to 409 are address update processes for performing the processes 402 to 404 for all areas. When the processes 402 to 404 are performed on all the regions to complete the creation of the subtitle region data 5-20, the process proceeds to a process 410 in FIG.
[0049]
In processing 410 of FIG. 13, the area horizontal position counter Xb and the area vertical position counter Yb are initialized to “0”. Further, the row count data 5-22 is initialized to “0”.
In the process 411, the contents of the subtitle area data array [Yb] [Xb] are added to the array [Yb] of the row count data 5-22.
Processes 412 to 416 are address update processes for performing the process 411 for all areas. When the process 411 is performed on all the areas to complete the creation of the row count data 5-22, the process proceeds to a process 417.
In process 417, the area horizontal position counter Xb and the area vertical position counter Yb are initialized to “0”. Also, the column count data 5-25 is initialized to "0".
In the process 418, the contents of the subtitle area data array [Yb] [Xb] are added to the array [Xb] of the column count data 5-25.
Processes 419 to 423 are address update processes for performing the process 418 for all areas. When the process 418 is performed on all the areas to complete the creation of the column count data 5-25, the process proceeds to a process 424 in FIG.
[0050]
In the process 424 in FIG. 14, the area horizontal position counter Xb and the area vertical position counter Yb are initialized to “0”. Further, the maximum row count data 5-23 and the maximum column count data 5-26 are initialized to “0”.
In the process 425, it is checked whether or not the value of the array [Yb] of the row count data 5-22 is larger than the maximum row count data 5-23. If the value is larger, the process proceeds to a process 426;
In the process 426, the value of the array [Yb] of the row count data 5-22 is copied to the maximum row count data 5-23.
In the process 427, the value of “Yb” is stored in the maximum row position data 5-24.
Processes 428 and 429 are address update processes for performing the processes 425 to 427 for all rows. When the processes 425 to 427 are performed on all the rows to complete the creation of the maximum row count data 5-23 and the maximum row position data 5-24, the process proceeds to the process 430.
In the process 430, it is checked whether or not the value of the array [Xb] of the column count data 5-25 is larger than the maximum column count data 5-26. If the value is larger, the process proceeds to a process 431;
In the process 431, the value of the array [Xb] of the column count data 5-25 is copied to the maximum column count data 5-26.
In the process 432, the value of “Xb” is stored in the maximum column position data 5-27.
Processes 433 and 434 are address update processes for performing the processes 430 to 432 for all columns. When the processes 430 to 432 are performed on all the columns to create the maximum column count data 5-26 and the maximum column position data 5-27, the process proceeds to a process 435.
[0051]
In the process 435, it is checked whether or not the maximum row count data 5-23 is equal to or larger than the threshold value 4 (5-6) or the maximum column count data 5-26 is equal to or larger than the threshold value 4. If the maximum row count data 5-23 is greater than or equal to the threshold value 4 or the maximum column count data 5-26 is greater than or equal to the threshold value 4, it is determined that there is a caption in the image of the frame, and the process proceeds to step 436. If the maximum row count data 5-23 is less than the threshold value 4 and the maximum column count data 5-26 is less than the threshold value 4, it is determined that there is no caption in the image of the frame, and the process proceeds to the process 471 in FIG.
In the process 436, it is checked whether or not the maximum row count data 5-23 is greater than or equal to the maximum column count data 5-26. If the maximum row count data 5-23 is equal to or larger than the maximum column count data 5-26, it is determined that "subtitles are written horizontally", and the process proceeds to processing 437. If the maximum row count data 5-23 is not equal to or greater than the maximum column count data 5-26, it is determined that "subtitles are written vertically", and the process proceeds to 440.
[0052]
In the process 437, it is checked whether or not the maximum line position data 5-24 is equal to or greater than the "5" th line (middle line of the screen). Then, the processing shifts to processing 438. If it is less than “5”, it is determined that “subtitles are written horizontally in the lower half”, and the processing shifts to processing 439.
In the process 438, “Upper horizontal writing” is written in the subtitle attached data 5-21.
In the process 439, "lower horizontal writing" is written in the subtitle attached data 5-21. Then, the process proceeds to the process 451 in FIG.
[0053]
On the other hand, in the process 440, it is checked whether or not the maximum column position data 5-27 is equal to or larger than the "8" th column (the center column of the screen). And proceeds to processing 441. If it is less than “8”, it is determined that “subtitles are written vertically in the left half of the screen”, and processing proceeds to processing 442.
In the process 441, “right vertical writing” is written in the subtitle attached data 5-21.
In the process 442, "left vertical writing" is written in the subtitle attached data 5-21. Then, the process proceeds to the process 451 in FIG.
[0054]
In the process 451 of FIG. 15, the area horizontal position counter Xb and the area vertical position counter Yb are initialized to “0”. Also, the number of area matches 5-29 is initialized to "0".
In the process 452, it is checked whether or not the value of the array [Yb] [Xb] of the subtitle region data 5-20 matches the value of the array [Yb] [Xb] of the previous subtitle region data 5-28. The process moves to 453, and if they do not match, the process moves to 454.
In the process 453, “1” is added to the area matching number 5-29.
Processes 454 to 458 are address update processes for performing the processes 452 and 453 for all areas. When the processing 452 and the processing 453 are performed on all the areas to complete the creation of the area matching number 5-29, the processing shifts to the processing 459.
[0055]
In the process 459, the matching degree is obtained by dividing the area matching number 5-29 by the area number "160", and it is checked whether the matching degree is less than "0.7". If the degree of coincidence is less than “0.7”, it is determined that the caption has changed, and the process proceeds to processing 501. If the degree of coincidence is equal to or more than "0.7", it is determined that the subtitle has not changed, and the routine goes to processing 461 in FIG. In the present embodiment, the threshold value of the degree of coincidence is set to “0.7”, but can be set arbitrarily.
In processing 501, a new representative image structure 5-2 is generated, and the representative image identification number 5-2-1 of the representative image structure 5-2 is added to the representative image of the previously generated representative image structure 5-2. A value obtained by adding “1” to the identification number 5-2-1 is set. Also, the current time is stored in the subtitle start time 5-2-5, and the subtitle attached data 5-21 is copied to the subtitle format 5-2-7.
In process 502, a pixel horizontal position counter X and a pixel vertical position counter Y are initialized to “0”.
In process 503, the luminance value of the array [Y * 2] [X * 2] of the green image data 5-7-2 is copied to the array [Y] [X] of the representative image data 5-2-2.
Processes 504 to 508 are address update processes for performing the process 503 on all the pixels of the representative image. When the process 503 is performed on all the pixels of the representative image to create the representative image data 5-2-2, the process proceeds to the process 461 in FIG. Note that the representative image data 5-2-2 is a 1/2 reduced image of the green image data 5-7-2.
[0056]
In the process 461 of FIG. 16, the area horizontal position counter Xb and the area vertical position counter Yb are initialized to “0”.
In the process 462, the value of the array [Yb] [Xb] of the subtitle area data 5-20 is copied to the array [Yb] [Xb] of the previous subtitle area data 5-28.
Processes 463 to 467 are address update processes for performing the process 462 for all areas. When the above processing 462 is performed for all the areas and the update of the previous subtitle area data 5-28 is completed, the processing moves to processing 468.
In the process 468, the current time is stored in the subtitle end time 5-2-6 of the representative image structure 5-2. Then, the processing in subtitle determination section 400 ends.
[0057]
On the other hand, in a process 471 of FIG. 17, the area horizontal position counter Xb and the area vertical position counter Yb are initialized to “0”.
In the process 472, “0” is stored in the array [Yb] [Xb] of the previous caption area data 5-28.
Processes 473 to 477 are address update processes for performing the process 472 for all areas. When the above-described process 472 is performed on all the regions and the update of the previous subtitle region data 5-28 is completed, the process in the subtitle determination unit 400 ends.
[0058]
According to the above-described representative image extracting apparatus 1000 for a moving image, the feature extracting unit 150 determines whether or not subtitles appear in each region. Can be suitably detected. In addition, since the feature extraction unit 150 checks both high-brightness pixels and strong-edge pixels as subtitle features, there is no edge such as light illumination and an edge such as a high-brightness background or shogi board. A background with a low brightness is distinguished from a caption, so that erroneous extraction can be prevented. In addition, since the subtitle determination unit 400 determines whether or not the subtitles are projected vertically or horizontally, the information about the presence or absence of the subtitles is projected in the row direction and the column direction. Can be distinguished. Furthermore, since the reduced representative image is created by the representative image creation unit 500 and a plurality of reduced representative images are displayed as a list on the display unit 600, the search for the representative image is facilitated.
[0059]
【The invention's effect】
ADVANTAGE OF THE INVENTION According to the caption detection method of this invention, it becomes possible to determine whether a caption exists with respect to the general image in which the display mode of a caption is arbitrary.
Also, Even in the case where the image itself changes little and only the subtitle changes, a necessary representative image can be extracted.
[Brief description of the drawings]
FIG. 1 is a system configuration diagram of an apparatus for extracting a representative image of a moving image according to an embodiment of the present invention.
FIG. 2 is an exemplary view of a screen displayed on a display device.
FIG. 3 is a functional block diagram of a representative image extraction process.
FIG. 4 is a configuration diagram of programs and data stored in a memory.
FIG. 5 is a configuration diagram of a representative image structure.
FIG. 6 is a flowchart of a process of extracting a high-luminance pixel in a region-specific luminance counting unit.
FIG. 7 is a flowchart of a process of extracting pixels in which high luminance continues over a plurality of frames in a region-specific luminance counting unit.
FIG. 8 is a flowchart of a process of counting the number of high-luminance pixels for each area in an area-by-area brightness counting unit.
FIG. 9 is a flowchart of a process of extracting pixels of a vertical edge and a horizontal edge in a region-based edge counting unit.
FIG. 10 is a flowchart of a process of extracting pixels in which a strong edge continues over a plurality of frames in the region-based edge counting unit.
FIG. 11 is a flowchart of a process of counting the number of vertical edges and the number of horizontal edges for each area in an area-by-area edge counting unit.
FIG. 12 is a flowchart of a process of determining the presence or absence of subtitles for each area in a subtitle determination unit.
FIG. 13 is a flowchart of a process of projecting an area having a caption in a row direction and a column direction in a caption determination unit.
FIG. 14 is a flowchart of a process of determining an image with a subtitle in a subtitle determination unit.
FIG. 15 is a flowchart illustrating a process of determining the continuity of an image having a caption in a caption determining unit.
FIG. 16 is a flowchart illustrating a continuation of a process of determining the continuity of an image having a caption in the caption determining unit;
FIG. 17 is a flowchart of a process for an image without subtitles in a subtitle determination unit.
FIG. 18 is an explanatory diagram of a screen divided into a plurality of areas.
[Explanation of symbols]
DESCRIPTION OF SYMBOLS 1 ... Display apparatus, 2 ... Speaker, 3 ... Computer, 4 ... CPU,
5 memory, 6 interface, 7 pointing device,
8 keyboard, 9 video player, 10 control signal,
11 video input device, 12 digital image data,
13 ... External information storage device,
100: moving image input unit, 150: feature extraction unit, 200: region-specific luminance counting unit,
300: an edge counting unit for each area; 400: a subtitle determination unit;
500: representative image creation unit, 600: display unit,
1000: Representative image extraction device for moving images.

Claims (7)

画像を複数の領域に区分し、各領域別に第一の閾値以上の高輝度の画素数および第二の閾値以上の輝度値の差があるエッジ数を計数し、前記画素数が第三の閾値以上であり且つ前記エッジ数が第三の閾値以上の領域を字幕有りの領域と判別し、字幕有りの領域数を行方向および列方向に投影し、行方向に投影したときの字幕有りの領域数の最大値または列方向に投影したときの字幕有りの領域数の最大値が第四の閾値以上のときに画像中に字幕が有ると判定することを特徴とする字幕検出方法。The image is divided into a plurality of regions, and the number of high-luminance pixels equal to or greater than a first threshold and the number of edges having a difference in luminance value equal to or greater than a second threshold are counted for each region, and the number of pixels is equal to a third threshold. A region having the above caption and having the number of edges equal to or greater than the third threshold is determined as a subtitle-containing region, and the number of subtitle-containing regions is projected in the row direction and the column direction. A caption detection method characterized in that it is determined that a caption is present in an image when the maximum value of the number or the maximum value of the number of areas with captions when projected in the column direction is equal to or greater than a fourth threshold value . 請求項1に記載の字幕検出方法において、少なくとも過去2フレーム以上連続して同一場所に存在した高輝度の画素数およびエッジ数を計数することを特徴とする字幕検出方法。 2. The subtitle detection method according to claim 1, wherein the number of high-luminance pixels and the number of edges existing at the same place at least two consecutive frames in the past are counted . 請求項1または請求項2に記載の字幕検出方法において、水平方向の輝度差が第二の閾値以上のエッジと、垂直方向の輝度差が第二の閾値以上のエッジとを計数することを特徴とする字幕検出方法。Characterized in the caption detection method according to claim 1 or claim 2, the luminance difference in the horizontal direction is a second threshold or more edges, luminance difference in the vertical direction to be counted and a second threshold value or more edges Subtitle detection method. 請求項1から請求項3のいずれかに記載の字幕検出方法において、行方向に投影したときの字幕有りの領域数の最大値が、列方向に投影したときの字幕有りの領域数の最大値より大きい場合は、字幕が横書きであると判定し、そうでない場合は字幕が縦書きであると判定することを特徴とする字幕検出方法。 4. The caption detection method according to claim 1 , wherein the maximum value of the number of subtitled areas when projected in the row direction is the maximum value of the number of subtitled areas when projected in the column direction. A caption detection method characterized by determining that the caption is horizontal writing when the size is larger than the above, and otherwise determining that the caption is vertical writing . 請求項1から請求項4のいずれかに記載の字幕検出方法において、字幕有りと判定した画像の中から代表画像を選択することを特徴とする字幕検出方法。The subtitle detection method according to any one of claims 1 to 4, wherein a representative image is selected from images determined to have subtitles. 請求項5に記載の字幕検出方法において、字幕有りと判定した画像が時間的に連続するフレームであるとき、そのうちの一つのフレームの画像のみを代表画像として選択することを特徴とする字幕検出方法 6. The subtitle detection method according to claim 5, wherein when the image determined to have subtitles is a temporally continuous frame, only one of the frames is selected as a representative image. . 請求項5または請求項6に記載の字幕検出方法において、抽出した各代表画像を縮小して画面に並べて表示することを特徴とする字幕検出方法 7. The caption detection method according to claim 5, wherein each of the extracted representative images is reduced and displayed side by side on a screen .
JP01561295A 1995-02-02 1995-02-02 Caption detection method Expired - Fee Related JP3590896B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP01561295A JP3590896B2 (en) 1995-02-02 1995-02-02 Caption detection method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP01561295A JP3590896B2 (en) 1995-02-02 1995-02-02 Caption detection method

Publications (2)

Publication Number Publication Date
JPH08212231A JPH08212231A (en) 1996-08-20
JP3590896B2 true JP3590896B2 (en) 2004-11-17

Family

ID=11893536

Family Applications (1)

Application Number Title Priority Date Filing Date
JP01561295A Expired - Fee Related JP3590896B2 (en) 1995-02-02 1995-02-02 Caption detection method

Country Status (1)

Country Link
JP (1) JP3590896B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103839509A (en) * 2012-11-27 2014-06-04 乐金显示有限公司 Timing controller, driving method thereof, and display device using the same

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MY119560A (en) 1996-05-27 2005-06-30 Nippon Telegraph & Telephone Scheme for detecting captions in coded video data without decoding coded video data
US6219382B1 (en) 1996-11-25 2001-04-17 Matsushita Electric Industrial Co., Ltd. Method and apparatus for locating a caption-added frame in a moving picture signal
JP3503797B2 (en) * 1997-04-30 2004-03-08 日本電信電話株式会社 Video telop detection method and apparatus
JP3609236B2 (en) * 1997-05-16 2005-01-12 日本電信電話株式会社 Video telop detection method and apparatus
JP3096280B2 (en) * 1997-11-10 2000-10-10 日本電信電話株式会社 Electronic video document creation and utilization method and program storage medium
JP3379453B2 (en) * 1998-12-17 2003-02-24 松下電器産業株式会社 Caption region detection method and device, and moving image search method and device
KR100293768B1 (en) * 1999-04-12 2001-06-15 박규진 A loading method of digital audio caption data
JP2000350156A (en) * 1999-06-09 2000-12-15 Hitachi Ltd Moving image information storage method and recording medium storing the same
JP2001258957A (en) * 2000-03-16 2001-09-25 Denso Corp Bed monitor
KR100788655B1 (en) * 2003-11-10 2007-12-26 삼성전자주식회사 Storage medium, reproducing apparatus, and reproducing method in which text-based subtitle data including style information is recorded
KR100722773B1 (en) * 2006-02-28 2007-05-30 삼성전자주식회사 Method and apparatus for detecting graphics region in video
JP4965980B2 (en) 2006-11-30 2012-07-04 株式会社東芝 Subtitle detection device
JP4787191B2 (en) * 2007-03-07 2011-10-05 日本電信電話株式会社 Video search method, apparatus and program
JP5194615B2 (en) * 2007-07-31 2013-05-08 ソニー株式会社 Image determination apparatus, image determination method, and program
JP2009147749A (en) * 2007-12-14 2009-07-02 Toshiba Corp Video playback apparatus and video playback method
CN101527800B (en) * 2009-03-31 2011-01-05 西安交通大学 Method for obtaining compressed video caption based on H.264/AVC
JP5894852B2 (en) * 2012-04-27 2016-03-30 日本放送協会 Representative still image extraction apparatus and program
CN112381854B (en) * 2020-11-13 2024-04-19 西安闻泰电子科技有限公司 Image-based motion detection method and device, electronic equipment and storage medium
CN113343986B (en) * 2021-06-29 2023-08-25 北京奇艺世纪科技有限公司 Subtitle time interval determining method and device, electronic equipment and readable storage medium

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103839509A (en) * 2012-11-27 2014-06-04 乐金显示有限公司 Timing controller, driving method thereof, and display device using the same
CN103839509B (en) * 2012-11-27 2016-08-17 乐金显示有限公司 Its display device of timing controller and driving method thereof and use

Also Published As

Publication number Publication date
JPH08212231A (en) 1996-08-20

Similar Documents

Publication Publication Date Title
JP3590896B2 (en) Caption detection method
US6256419B1 (en) Method and apparatus for detecting a point of change in a moving image
US7633554B2 (en) Selectively overlaying a user interface atop a video signal
JP3361587B2 (en) Moving image search apparatus and method
US6046778A (en) Apparatus for generating sub-picture units for subtitles and storage medium storing sub-picture unit generation program
JP3738483B2 (en) Method and apparatus for television signal classification
US5745190A (en) Method and apparatus for supplying data
JP4427600B1 (en) Video analysis apparatus and program
JPH09130732A (en) Scene change detection method and dynamic image edit device
EP1482731A2 (en) Broadcast program contents menu creation apparatus and method
US11798279B2 (en) Methods and systems for sport data extraction
JP3258924B2 (en) Scene management device, scene management method, and recording medium
US7170935B2 (en) Image processing apparatus and method, and computer-readable memory
JP4244584B2 (en) Important image detection apparatus, important image detection method, program and recording medium, and important image detection system
US20040246259A1 (en) Music program contents menu creation apparatus and method
JP3379453B2 (en) Caption region detection method and device, and moving image search method and device
JP2020141273A (en) Commercial detector
JP3625935B2 (en) Important image extracting apparatus and important image extracting method for moving images
JP3157928B2 (en) Video pick-up device
JPH07111630A (en) Moving image editing device and cut integrating method
JP5424737B2 (en) Image playback device
EP1069765B1 (en) Feature scene detecting method and apparatus, and storage medium containing processing program therefor
JPH10150657A (en) Moving object display method, display system using the same, and program recording medium therefor
JPH0895986A (en) Database apparatus for moving images and registration method thereof
JP3941808B2 (en) Moving image change point detection method and apparatus

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040601

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040716

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040810

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040810

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080903

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080903

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090903

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090903

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100903

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100903

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110903

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120903

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees