[go: up one dir, main page]

JP2014110020A - 画像処理装置、画像処理方法および画像処理プログラム - Google Patents

画像処理装置、画像処理方法および画像処理プログラム Download PDF

Info

Publication number
JP2014110020A
JP2014110020A JP2012265629A JP2012265629A JP2014110020A JP 2014110020 A JP2014110020 A JP 2014110020A JP 2012265629 A JP2012265629 A JP 2012265629A JP 2012265629 A JP2012265629 A JP 2012265629A JP 2014110020 A JP2014110020 A JP 2014110020A
Authority
JP
Japan
Prior art keywords
feature
learning
video data
frame images
temporal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012265629A
Other languages
English (en)
Inventor
Masataka Ohashi
正隆 大橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung R&D Institute Japan Co Ltd
Original Assignee
Samsung R&D Institute Japan Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung R&D Institute Japan Co Ltd filed Critical Samsung R&D Institute Japan Co Ltd
Priority to JP2012265629A priority Critical patent/JP2014110020A/ja
Publication of JP2014110020A publication Critical patent/JP2014110020A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Television Signal Processing For Recording (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Image Analysis (AREA)

Abstract

【課題】映像の時空間変化の特徴に基づいて、より高精度かつ高速でシーンチェンジを検出する。
【解決手段】本発明に係る画像処理装置は、学習用映像データを取得する第1取得部11と、学習用映像データから、映像の時空間変化の特徴を抽出する第1特徴抽出部12と、第1特徴を用いて、場面の切り替わりの有無を学習する学習部10と、表示用映像データを取得する第2取得部11’と、表示用映像データから、映像の時空間変化の特徴を抽出する第2特徴抽出部13’と、第2特徴および学習部10により得られた学習結果に基づき、場面の切り替わりの有無を推定する推定部12’と、を有し、第1特徴および第2特徴は、フレーム画像間の輝度または色の差分値および当該差分値の時間変化率の共起確率と、フレーム画像内で隣接するブロック間における輝度または色の差分値および当該差分値の時間変化率の共起確率と、の少なくともいずれかを含む。
【選択図】図1

Description

本発明は、画像処理装置、画像処理方法および画像処理プログラムに関する。
近年、テレビ映像等の連続する複数のフレーム画像を含む映像において、フレーム画像間の場面の切り替わり(シーンチェンジともいう)を検出する需要がある。たとえば、テレビコマーシャルを含む映像において、テレビコマーシャル前後のシーンチェンジを検出することにより、テレビコマーシャルの部分をスキップさせて、テレビコマーシャル以外の映像を表示させることができる。
これに関連した技術として、物の動きを表現する映像において、動く前の物を含むフレーム画像と、動いた後の当該物を含むフレーム画像との間の画素毎の誤差値に基づいて、シーンチェンジを検出するものがある(たとえば、特許文献1)。具体的には、この技術では、動く前の物のフレーム画像内での位置から、動いた後の当該物の、時間的に後のフレーム画像内での位置までの平面的な距離を、動きベクトルとして検出する。そして、時間的に後のフレーム画像内での動きベクトル先のフレーム画像の一部をブロックとして切り出して、切り出したブロックと、動く前の物を含むブロックとの間のピクセル毎の誤差値の和を算出し、算出値に基づいてシーンチェンジを検出する。
また、シーンチェンジを検出するために、フレーム画像内の特徴点のマッチング数を特徴量として算出するSIFT(Scale−Invariant Feature Transform)アルゴリズムや、FFT(Fast Fourier Transform)を用いる技術もある(たとえば、非特許文献1および非特許文献2)。
特開平08−102938号公報
Li, J., Ding, Y., Shi, Y., Li, W.:"A Divide−And−Rule Scheme For Shot Boundary Detection Based on SIFT";JDCTA(2010)pp.202−214 A. Miene, Th. Hermes, G. T. Ioannidis, O. Herzog:"Automatic Shot Boundary Detection Using Adaptive Thresholds",[平成24年9月12日検索],インターネット<http://www-nlpir.nist.gov/projects/tvpubs/tvpapers03/ubremen.paper.pdf>
しかしながら、上記特許文献1記載の技術では、シーンチェンジの検出の際に、動きベクトルを検出したり、動きベクトルを用いてフレーム画像からブロックの切り出しを行ったりしなくてはならず、その分処理時間が余計にかかる。また、上記非特許文献1および非特許文献2記載の技術では、処理量の多いSIFTアルゴリズムやFFTを用いるので、処理時間がかかる。
本願発明は、上記課題に鑑みてなされたものであり、従来よりも高精度かつ高速でシーンチェンジを検出することのできる画像処理装置、画像処理方法および画像処理プログラムを提供する。
上記目的を達成するための本発明による画像処理装置は、連続する複数のフレーム画像についてのデータを含む学習用映像データを取得する第1取得部と、前記学習用映像データから、映像の時空間変化の特徴を第1特徴として抽出する第1特徴抽出部と、前記第1特徴を用いて、連続するフレーム画像間での場面の切り替わりの有無を学習する学習部と、連続する複数のフレーム画像についてのデータを含む表示用映像データを取得する第2取得部と、前記表示用映像データから、映像の時空間変化の特徴を第2特徴として抽出する第2特徴抽出部と、前記第2特徴および前記学習部により得られた学習結果に基づき、連続するフレーム画像間での場面の切り替わりの有無を推定する推定部と、を有し、前記第1特徴および前記第2特徴は、フレーム画像間の輝度または色の差分値および当該差分値の時間変化率の共起確率と、フレーム画像内で隣接するブロック間における輝度または色の差分値および当該差分値の時間変化率の共起確率と、の少なくともいずれかの共起確率を含むことを特徴とする。
また、上記目的を達成するための本発明による画像処理方法は、連続する複数のフレーム画像についてのデータを含む学習用映像データを取得するステップ(a)と、前記学習用映像データから、映像の時空間変化の特徴を第1特徴として抽出するステップ(b)と、前記第1特徴を用いて、連続するフレーム画像間での場面の切り替わりの有無を学習するステップ(c)と、連続する複数のフレーム画像についてのデータを含む表示用映像データを取得するステップ(d)と、前記表示用映像データから、映像の時空間変化の特徴を第2特徴として抽出する(e)と、前記第2特徴および前記ステップ(c)で得られた学習結果に基づき、連続するフレーム画像間での場面の切り替わりの有無を推定するステップ(f)と、を有し、前記第1特徴および前記第2特徴は、フレーム画像間の輝度または色の差分値および当該差分値の時間変化率の共起確率と、フレーム画像内で隣接するブロック間における輝度または色の差分値および当該差分値の時間変化率の共起確率と、の少なくともいずれかの共起確率を含むことを特徴とする。
すなわち、本発明は、フレーム画像間の輝度または色の差分値および当該差分値の時間変化率の共起確率、または、フレーム画像内で隣接するブロック間における輝度または色の差分値および当該差分値の時間変化率の共起確率に基づいて、シーンチェンジを検出する。
本発明によれば、従来よりも高精度かつ高速でシーンチェンジを検出することができる。
本発明の実施形態に係る画像処理装置の構成を示すブロック図である。 時空間特徴抽出部の構成を示すブロック図である。 時空間変化の特徴量の説明に供する図である。 本実施形態に係る、シーンチェンジの有無を学習するための処理の手順を示すフローチャートである。 本実施形態に係る、フレーム画像および時空間変化特徴量の共起ヒストグラムを例示する図である。 本実施形態に係る、シーンチェンジの有無を推定するための処理の手順を示すフローチャートである。
以下、本発明の実施形態を添付した図面を参照して説明する。
図1は、本発明の実施形態に係る画像処理装置1の構成を示すブロック図である。本実施形態に係る画像処理装置1は、図1に示すように学習部10および推定部10’を含み、連続する複数のフレーム画像についてのデータを含む映像データ内のシーンチェンジの有無に関する推定結果を出力する。学習部10は、取得部11、第1特徴抽出部12およびシーンチェンジ学習部17を含み、入力された学習用映像データから学習された、シーンチェンジを検出するための学習結果を出力する。第1特徴抽出部12は、時空間特徴抽出部13、距離計算部14、フレーム間相関値計算部15、および画面輝度平均差分計算部16を含み、学習用映像に含まれる各フレーム画像から、複数種の特徴(特徴量または特徴ベクトル)を抽出する。
また、推定部10’は、取得部11’、第2特徴抽出部12’およびシーンチェンジ推定部17’を含み、シーンチェンジ学習部17による学習結果に基づいて、表示用映像データからシーンチェンジの有無を推定して、推定結果を出力する。第2特徴抽出部12’は、第1特徴抽出部12と同様に、時空間特徴抽出部13’、距離計算部14’、フレーム間相関値計算部15’および画面輝度平均差分計算部16’を含み、表示用映像に含まれる各フレーム画像から、複数種の特徴(特徴量または特徴ベクトル)を抽出する。
以下、上記画像処理装置1の各構成について、それぞれ詳細に説明する。
取得部11は、外部から、学習部10がシーンチェンジの有無を学習するために準備された学習用映像データを取得する。取得部11は、第1取得部として機能する。
第1特徴抽出部12は、取得部11により取得された学習用映像に含まれる各フレーム画像から、複数種の特徴を抽出し、シーンチェンジ学習部17に出力する。複数種の特徴については後述する。
時空間特徴抽出部(以下、抽出部という)13は、取得された学習用映像データに画像データとして含まれる各フレーム画像を相互に比較して、輝度の時空間変化を特徴量(第1特徴量)として算出し、シーンチェンジ学習部17に出力する。詳細は図2を参照して後述する。
距離計算部14は、フレーム画像毎にカラーヒストグラムを作成し、作成したカラーヒストグラムに基づいて、フレーム画像間の距離(類似度)を算出する。フレーム画像間の距離を算出する方法には、相関値やManhattan距離を用いる方法等があるが、本実施形態では、たとえば下記数式1に示されるIntersection距離を用いる。
ここで、Dはフレーム画像間距離、Y,Cr,Cbはフレーム画像内の各色、NはカラーヒストグラムHのビンの数、H(b,t)は時刻tにおけるフレーム画像のカラーヒストグラムのビンbの値、minは時刻tおよびt−1におけるフレーム画像のカラーヒストグラムのビンの値のうち小さい方の値をそれぞれ示す。これにより、距離計算部14は、フレーム画像間の類似度Dを算出し、これを特徴量(第2特徴量)としてシーンチェンジ学習部17に出力する。
フレーム間相関値計算部(以下、相関値計算部という)15は、フレーム画像間の相関度合を示す相関値(Correlation)を算出する。具体的には、相関値計算部15は、まず、たとえば一フレーム画像内において隣接するブロック(以下、隣接ブロックという)間の輝度の差分Sを算出する。たとえば、フレーム画像内において横方向の座標をxおよび縦方向の座標をyとする場合、隣接ブロック間([x,y]および[x+1,y]におけるブロック)の輝度Iの差分は、下記数式2により算出される。
そして、相関値計算部15は、数値Sから0〜1までの数値Eが求まるように、算出した数値Sを数値Eに線形変換する。たとえば、時刻tにおけるフレーム画像の数値Eは、下記数式3により算出される。
そして、相関値計算部15は、下記数式4に従って、異なる時刻tおよびt−1におけるフレーム画像に対する数値Eの差分の絶対値に基づいて、当該フレーム画像間の相関値(Correlation)を算出する。
相関値計算部15は、このように算出した相関値(Correlation)を、フレーム画像間の相関度についての特徴量(第3特徴量)としてシーンチェンジ学習部17に出力する。
画面輝度平均差分計算部(以下、平均差分計算部という)16は、フレーム画像ごとに輝度の平均値を算出して、フレーム画像間の平均輝度の差分を算出する。平均差分計算部16は、このように算出した差分を、特徴量(第4特徴量)としてシーンチェンジ学習部17に出力する。
シーンチェンジ学習部17は、抽出部13からの時空間変化特徴量(第1特徴量)、距離計算部14からの画像間距離(第2特徴量)、相関値計算部15からの相関値(第3特徴量)、および平均差分計算部16からの平均輝度の差分(第4特徴量)に基づいて、シーンチェンジを学習する。具体的には、シーンチェンジ学習部17は、第1特徴抽出部12から得られた複数種の特徴量(第1〜第4特徴量)と、正解データとを関連付ける学習を行う。すなわち、シーンチェンジ学習部17は、第1特徴抽出部12から得られた複数種の特徴量から、シーンチェンジの有無を判定するための学習モデル(識別器)を生成する。たとえば、シーンチェンジ学習部17は、学習モデルとして、少なくとも一つ以上のパラメータ(変数)を持つ数理モデルを採用し、各特徴量(第1〜第4特徴量)を入力したときに正解データの値(シーンチェンジの有無)を出力するように数理モデルのパラメータ値を決定する。ここで決定されたパラメータ値は、学習結果(学習パラメータ)として記憶される。
推定部10’については後述する。
次に、図2および図3を参照して、抽出部13の詳細な構成および各機能について詳細に説明する。
図2は時空間特徴抽出部の構成を示すブロック図、図3は時空間変化の特徴量の説明に供する図である。
図2に示すように、抽出部13は、ブロック分割部13a、時間的差分算出部13b、比率算出部13c、共起ヒストグラム作成部13d、1次元化処理部13eを含む。また、抽出部13は、空間的差分算出部13f、差分算出部13g、比率算出部13h、共起ヒストグラム作成部13iおよび1次元化処理部13jを含む。さらに、抽出部13は、結合部13kおよびフレーム画像の一部や数値等を一時的に記憶するためのバッファを備えている。
ブロック分割部13aは、入力されたフレーム画像を所定の大きさのブロックに分割する。分割されたブロック画像は、時間的差分算出部13bおよび空間的差分算出部13fに渡される。
時間的差分算出部13bは、時間的に連続するフレーム画像内の、対応するブロック間の輝度の差分Tを算出する。たとえば、図3に示すように、時間的差分算出部13bは、時刻tおよびt−1のフレーム画像間において、位置[x,y]のブロック間の輝度Iの差分T(x,y,t)(=I(x,y,t)−I(x,y,t−1))を算出する。フレーム画像内の全てのブロックについて、Tが算出される。なお、時間的に先行するフレーム画像内のブロックの輝度を一時的に記憶するために、バッファが適宜用いられる。
比率算出部13cは、異なる時刻のフレーム画像間について算出されたTの時間的変化率を表すパラメータLを算出する。具体的には、比率算出部13cは、[x,y]に位置するブロックについて、時刻tの一時刻前t−1に算出されたT(x,y,t−1)を、時刻tに算出されたT(x,y,t)により除算することにより、L(=T(x,y,t−1)/T(x,y,t))を算出する。ここで、Lの値は、たとえば、小数点以下第1位までの数値に量子化される。また、分母が0(ゼロ)または非常に小さい値の場合、Lは、適宜設定される上限値として出力されうる。また、時間的に先行して算出されたTを記憶するために、バッファが適宜用いられる。
共起ヒストグラム作成部13dは、算出された値に基づいて、共起ヒストグラムを作成する。本実施形態では、共起ヒストグラムとは、たとえば2つの変数の組合せのうち、組合せが同一となる(共起する)ブロックの総数(投票数)をビンの値とする2次元ヒストグラムである。たとえば、共起ヒストグラム作成部13dは、時間的差分算出部13bおよび比率算出部13cによりブロックごとに算出されたTおよびLの値の組合せに応じて各ブロックを分類し、同一の分類となるブロックの数を累積(投票)して、その投票数をビンの値とする共起ヒストグラムを作成する。共起ヒストグラムの詳細については後述する。
1次元化処理部13eは、生成された共起ヒストグラムを表現する情報を1次元化する。具体的には、1次元化処理部13eは、たとえばTおよびLを変数とする共起ヒストグラムについて、T、Lおよび共起確率の個々の値を所定順に羅列した情報に変換することにより、1次元的な情報に変換する。
空間的差分算出部13fは、一フレーム画像内における隣接ブロック間の輝度の差分を算出する。たとえば、空間的差分算出部13fは、図3に示すように、時刻tのフレーム画像内の[x,y]と[x+1,y]とにおけるブロック間の輝度Iの差分S(x,y,t)(=I(x+1,y,t)−I(x,y,t))を算出する。全ての隣接ブロック間について、Sが算出される。ブロックの輝度を一時的に記憶するために、バッファが適宜用いられる。
差分算出部13gは、空間的差分算出部13fにより算出されたSの差分を算出する。具体的には、差分算出部13gは、時刻tにおける位置[x+1,y]および[x,y]のブロック間の輝度差S(x,y,t)から、時刻t−1における同位置のブロック間の輝度差S(x,y,t−1)を減算して、U(x,y,t)(=S(x,y,t)−S(x,y,t−1))を算出する。なお、先行する時間において算出されたSを一時的に記憶するために、バッファが適宜用いられる。
比率算出部13hは、異なる時間について算出されたUの時間変化率を表すパラメータLを算出する。具体的には、比率算出部13hは、[x,y]および[x+1,y]のブロック間の輝度差Sの、時刻t−2とt−1間における差分U(x,y,t−1)を、同ブロック間の輝度差Sの、時刻t−1とt間における差分U(x,y,t)により除算して、L(=U(x,y,t−1)/U(x,y,t))を算出する。ここで、Lの値は、上述のLと同様に、小数点以下第1までの数値に量子化してもよい。また、分母が0(ゼロ)または非常に小さい値の場合、Lは、適宜設定される上限値として出力されうる。また、先行する時間において算出されたUを一時的に記憶するために、バッファが適宜用いられる。
共起ヒストグラム作成部13iは、上述の共起ヒストグラム作成部13dと同様に、共起ヒストグラムを作成する。たとえば、共起ヒストグラム作成部13iは、差分算出部13gおよび比率算出部13hにより隣接ブロックごとに算出されたUおよびLの値の組合せに応じて、各隣接ブロックを分類し、同一の分類となる隣接ブロックの数を累積(投票)して、その投票数をビンの値とする2次元ヒストグラムを作成する。共起ヒストグラムの詳細については後述する。
1次元化処理部13jは、上述の1次元化処理部13eと同様に、作成された共起ヒストグラムを1次元的な情報に変換する。
結合処理部13kは、1次元化処理部13eおよび1次元化処理部13jにより1次元化された情報を結合して、結合した情報を時空間変化特徴量(第1特徴量)として出力する。
次に、推定部10’(図1参照)について詳細に説明する。
推定部10’は、表示用映像データを取得して、当該映像データ内のシーンチェンジを推定して、推定結果を出力する。推定部10’の取得部11’、第2特徴抽出部12’、時空間特徴抽出部13’、距離計算部14’、フレーム間相関値計算部15’および画面輝度平均差分計算部16’の機能は、上述した学習部10の対応する各部の機能と同様であるので、重複を避けるために、その説明を省略する。
シーンチェンジ推定部17’は、時空間特徴抽出部13’、距離計算部14’、フレーム間相関値計算部15’および画面輝度平均差分計算部16’により算出された、表示用映像データについての特徴量と、学習部10により取得された学習結果(学習モデル)とに基づいて、表示用映像データ内のシーンチェンジの有無を推定する。
また、シーンチェンジ推定部17’は、時空間特徴抽出部13’により算出された特徴量SおよびTに基づいて、シーンチェンジの種類を識別できる。たとえば、シーンの急な変化を表すハードカット(Hardcut)や、シーンが徐々に変化するディゾルブ(Dissolve)を検出できる。具体的には、シーンチェンジ推定部17’は、T(x,y,t)≠T(x,y,t−1)かつS(x,y,t)≠S(x,y,t−1)の場合、ハードカットであると判断し、T(x,y,t)≒T(x,y,t−1)かつS(x,y,t)≒S(x,y,t−1)の場合、ディゾルブであると判断する。このとき、シーンチェンジ学習部17は、シーンチェンジの種類を学習可能なように構成される。
なお、画像処理装置1の上記各部は、制御部(不図示)により制御される。たとえば、制御部は、CPU(Central Processing Unit)がストレージにインストールされているプログラムをメモリーに読み出して実行することにより実現される。
次に、図4および図5を参照して、本実施形態に係る画像処理装置1によりシーンチェンジの有無を学習する処理の手順について詳細に説明する。
図4は本実施形態に係る、シーンチェンジの有無を学習するための処理の手順を示すフローチャート、図5は本実施形態に係る、フレーム画像および時空間変化特徴量の共起ヒストグラムを例示する図である。
図4に示すように、まず、学習用映像データが取得される(ステップS1)。このステップでは、学習部10の取得部11が、学習用の映像データを取得する。
続いて、学習用映像の時空間変化の特徴(上記の第1特徴量)が抽出される(ステップS2)。このステップでは、時空間特徴抽出部13が、ステップS1で取得された学習用映像データについて、時空間変化特徴量を抽出する。具体的には、時空間特徴抽出部13は、上述のように、学習用映像に含まれる各フレーム画像についてTおよびSを算出し、Sに基づいてUを算出し、TおよびUに基づいてLおよびLを算出する。そして、TおよびL並びにUおよびLに基づいて共起ヒストグラムを作成する。
学習用映像に含まれる時間的に連続するフレーム画像の例は、図5(A)〜図5(C)に示す通りである。図5(A)に示されるフレーム画像(たとえば、時刻tにおける画像)と、図5(A)に時間的に先行する図示しないフレーム画像(たとえば、時刻t−1および時刻t−2における画像)とを用いて、時刻tにおけるパラメータT、S、U、LおよびLが算出される。そして、TおよびLの組合せ並びにUおよびLの組合せの共起確率についての2次元ヒストグラムが作成される。たとえば、TおよびLの組合せの投票数を示す、図5(D)に示した共起ヒストグラムが作成される。当該共起ヒストグラムは、(0≦T<1,0≦L<0.25)となるブロックが、図5(A)のフレーム画像に関して1400弱程あることを示している。これは、フレーム画像間の輝度差Tが1未満と小さいが、Tの変化量が時間経過に連れて大きくなっている(Lが低い)ためである。
同様に、図5(E)に示す共起ヒストグラムは、図5(B)に示すフレーム画像と、これに時間的に先行するフレーム画像とを用いて算出されたTおよびLの値の組合せの共起確率を示している。当該共起ヒストグラムでは、図5(B)のフレーム画像に関して、0≦T<4となるブロックが増加しており、時間的に連続するフレーム画像間の差分値Tの大きいブロックが、図5(A)のフレーム画像の場合と比べて多いという傾向があることがわかる。これは、輝度差Tが2または3以上と比較的大きいと同時に、Tの変化量が時間経過に連れて大きくなっている(Lが低い)ためである。
図5(F)の共起ヒストグラムも、図5(C)に示すフレーム画像と、これに先行するフレーム画像とを用いて算出されたTおよびLの値の組合せの共起確率を示している。当該共起ヒストグラムでは、図5(C)のフレーム画像に関して、(0≦T<1,0≦L<1.0)の範囲で、幅広く共起ヒストグラムの値が高くなっており、輝度差Tの時間的な変化率Lが比較的大きい範囲において、輝度差Tが大きくなっていることがわかる。これは、輝度差Tが0から9以下となる範囲で様々に変化するブロックがある一方で、Tの変化量が画面全体的に時間経過に対して一律となってきている(Lが1に近い)ためである。
また、時空間特徴抽出部13は、UおよびLの組合せの投票数を示す共起ヒストグラム(不図示)を、各フレーム画像に対して同様に作成する。そして、時空間特徴抽出部13は、上述したように、共起ヒストグラムを表現する情報を一元化し、統合したものを時空間変化特徴量として出力する。
図4に戻って、ステップS2後、類似度についての特徴量(上記の第2特徴量)が抽出される(ステップS3)。このステップでは、上述した距離計算部14が、ステップS1で取得された学習用映像内の時間的に連続するフレーム画像間の類似度を算出し、類似度についての特徴量として出力する。
続いて、相関度についての特徴量(上記の第3特徴量)が抽出される(ステップS4)。このステップでは、上述した相関値計算部15が、ステップS1で取得された学習用映像内の時間的に連続するフレーム画像間の相関度を算出し、相関度についての特徴量として出力する。
続いて、画面輝度平均の差分についての特徴量(上記の第4特徴量)が抽出される(ステップS5)。このステップでは、上述した平均差分計算部16がステップS1で取得された学習用映像内の時間的に連続するフレーム画像間の平均輝度の差分を算出し、輝度平均差分についての特徴量として出力する。
続いて、第1特徴抽出部12から抽出された複数種の特徴量(第1〜第4特徴量)から、シーンチェンジの有無を判定するための学習パラメータが生成される(ステップS6)。このステップでは、ステップS1で取得された学習用映像内の全てのフレーム画像に対する特徴量と、別途取得された正解データとに基づいて、シーンチェンジ学習部17が、シーンチェンジの有無を学習する。そして、各特徴量(第1〜第4特徴量)を学習モデルに入力したときに正解データの値(シーンチェンジの有無)が出力されるように学習モデルのパラメータ値を決定する。ここで決定されたパラメータ値は、学習結果(学習パラメータ)として出力、記憶される。
その後、シーンチェンジの有無を学習する処理の手順は終了する。
次に、図6を参照して、本実施形態に係る画像処理装置1によりシーンチェンジを推定する処理の手順について詳細に説明する。
図6は、本実施形態に係る、シーンチェンジの有無を推定するための処理の手順を示すフローチャートである。
図6に示すように、まず、表示用映像データが取得される(ステップS11)。このステップでは、推定部10’の取得部11’が、表示用映像データを取得する。
続いて、表示用映像の時空間変化の特徴(上記の第1特徴量)が抽出される(ステップS12)。このステップでは、時空間特徴抽出部13’が、ステップS11で取得された表示用映像データについて、時空間変化特徴量を抽出する。このステップは、時空間特徴抽出部13により実行される上記ステップS2と同様である。
続いて、類似度についての特徴量(上記の第2特徴量)が抽出される(ステップS13)。このステップでは、距離計算部14’が、ステップS11で取得された表示用映像に含まれるフレーム画像間の類似度を算出し、類似度についての特徴量として出力する。このステップは、距離計算部14により実行される上記ステップS3と同様である。
続いて、相関度についての特徴量(上記の第3特徴量)が抽出される(ステップS14)。このステップでは、相関値計算部15’が、ステップS11で取得された表示用映像に含まれるフレーム画像間の相関度を算出し、相関度についての特徴量として出力する。このステップは、相関値計算部15により実行される上記ステップS4と同様である。
続いて、画面輝度平均の差分についての特徴量(上記の第4特徴量)が抽出される(ステップS15)。このステップでは、上述した平均差分計算部16’がステップS11で取得された表示用映像内の時間的に連続するフレーム画像間の平均輝度の差分を算出し、輝度平均差分についての特徴量として出力する。このステップは、平均差分計算部16により実行される上記ステップS5と同様である。
続いて、シーンチェンジの有無が推定される(ステップS16)。このステップでは、ステップS11で取得された表示用映像内のフレーム画像から抽出された特徴量(第1〜第4抽出量)を、ステップS6で生成された学習結果に基づく学習モデルに入力することによって、シーンチェンジ推定部17’が、表示用映像データ内のシーンチェンジの有無を推定し、推定結果を出力する。
その後、シーンチェンジの有無を推定する処理の手順は終了する。
以上のように、本実施形態によれば、フレーム画像内のブロック間の輝度の差分値によるパラメータS,UやT、およびこれらの比率によるパラメータL,Lについての共起確率により、シーンチェンジを高精度で検出できると同時にその種類も検出できる。さらに、これらのパラメータは、比較的容易に算出できるので、より高速にシーンチェンジの有無や種類を検出できる。
以上本発明を適用した実施形態を説明したが、そのほか、本願の特許請求の範囲に記載した技術思想の範囲でさまざまな変形形態が可能であることは言うまでもない。
たとえば、ブロックの大きさは、図示した大きさに限定されない。任意に設定できる。ブロックではなく、画素毎にパラメータを算出してもよい。または、フレーム画像を縮小、すなわちフレーム画像についてのデータ量を減少した上で、当該データに基づいて輝度を算出し、各種特徴量を抽出してもよい。
また、図4のフローチャートでは、ステップS2〜5およびステップS12〜15において時空間変化特徴量、類似度、相関度および画面輝度平均の差分に関する特徴量を抽出する形態について述べたが、これに限定されない。シーンチェンジを検出するためのその他の特徴量が追加的に抽出されてもよい。
また、図5(D)〜図5(F)の共起ヒストグラムでは、便宜のため0(ゼロ)以上の値のみを示しているが、これに限定されない。負の値を含むこともある。
また、上記実施形態では、輝度の差分に基づいてSやT等のパラメータを算出したが、これに限定されない。フレーム画像内の各色の明度または彩度等の値や色温度の差分に基づいて、各パラメータを算出してもよい。
上記本実施形態にかかる画像処理装置における各種処理を行う手段および方法は、専用のハードウエア回路、またはプログラムされたコンピューターのいずれによっても実現することが可能である。上記プログラムは、たとえば、メモリスティックおよびCD−ROM等のコンピューター読み取り可能な記録媒体によって提供されてもよいし、インターネット等のネットワークを介してオンラインで提供されてもよい。この場合、コンピューター読み取り可能な記録媒体に記録されたプログラムは、通常、ハードディスク等の記憶部に転送され記憶される。また、上記プログラムは、単独のアプリケーションソフトとして提供されてもよいし、画像形成システムの一機能としてその装置のソフトウエアに組み込まれてもよい。
1 画像処理装置、
10 学習部、
11 取得部、
12 第1特徴抽出部、
13 時空間特徴抽出部、
13a ブロック分割部、
13b 時間的差分算出部、
13c,13h 比率算出部、
13d,13i 共起ヒストグラム作成部、
13e,13j 1次元化処理部、
13f 空間的差分算出部、
13g 差分算出部、
13k 結合処理部、
14 距離計算部、
15 フレーム間相関値計算部、
16 画面輝度平均差分計算部、
17 シーンチェンジ学習部、
10’ 推定部、
11’ 取得部、
12’ 第2特徴抽出部、
13’ 時空間特徴抽出部、
14’ 距離計算部、
15’ フレーム間相関値計算部、
16’ 画面輝度平均差分計算部、
17’ シーンチェンジ推定部。

Claims (15)

  1. 連続する複数のフレーム画像についてのデータを含む学習用映像データを取得する第1取得部と、
    前記学習用映像データから、映像の時空間変化の特徴を第1特徴として抽出する第1特徴抽出部と、
    前記第1特徴を用いて、連続するフレーム画像間での場面の切り替わりの有無を学習する学習部と、
    連続する複数のフレーム画像についてのデータを含む表示用映像データを取得する第2取得部と、
    前記表示用映像データから、映像の時空間変化の特徴を第2特徴として抽出する第2特徴抽出部と、
    前記第2特徴および前記学習部により得られた学習結果に基づき、連続するフレーム画像間での場面の切り替わりの有無を推定する推定部と、
    を有し、
    前記第1特徴および前記第2特徴は、フレーム画像間の輝度または色の差分値および当該差分値の時間変化率の共起確率と、フレーム画像内で隣接するブロック間における輝度または色の差分値および当該差分値の時間変化率の共起確率と、の少なくともいずれかの共起確率を含む画像処理装置。
  2. 前記第1特徴抽出部は、前記学習用映像データから、フレーム画像間の類似度に基づく特徴を第3特徴量として抽出し、
    前記学習部は、前記第3特徴量をさらに用いて、連続するフレーム画像間での場面の切り替わりの有無を学習する請求項1に記載の画像処理装置。
  3. 前記第1特徴抽出部は、前記学習用映像データから、フレーム画像間の相関度に基づく特徴を第4特徴量として抽出し、
    前記学習部は、前記第4特徴量をさらに用いて、連続するフレーム画像間での場面の切り替わりの有無を学習する請求項1または2に記載の画像処理装置。
  4. 前記学習部は、前記第1特徴を有する学習用映像データについて、場面の切り替わりの種類を識別する請求項1〜3のいずれか一項に記載の画像処理装置。
  5. 前記第1特徴抽出部は、前記学習用映像データを減少し、減少した学習用映像データから、映像の時空間変化の特徴を第1特徴として抽出し、
    前記第2特徴抽出部は、前記表示用映像データを減少し、減少した表示用映像データから、映像の時空間変化の特徴を第2特徴として抽出する、請求項1〜4のいずれか一項に記載の画像処理装置。
  6. 連続する複数のフレーム画像についてのデータを含む学習用映像データを取得するステップ(a)と、
    前記学習用映像データから、映像の時空間変化の特徴を第1特徴として抽出するステップ(b)と、
    前記第1特徴を用いて、連続するフレーム画像間での場面の切り替わりの有無を学習するステップ(c)と、
    連続する複数のフレーム画像についてのデータを含む表示用映像データを取得するステップ(d)と、
    前記表示用映像データから、映像の時空間変化の特徴を第2特徴として抽出するステップ(e)と、
    前記第2特徴および前記ステップ(c)で得られた学習結果に基づき、連続するフレーム画像間での場面の切り替わりの有無を推定するステップ(f)と、
    を有し、
    前記第1特徴および前記第2特徴は、フレーム画像間の輝度または色の差分値および当該差分値の時間変化率の共起確率と、フレーム画像内で隣接するブロック間における輝度または色の差分値および当該差分値の時間変化率の共起確率と、の少なくともいずれかの共起確率を含む画像処理方法。
  7. 前記学習用映像データから、フレーム画像間の類似度に基づく特徴を第3特徴量として抽出するステップ(g)をさらに有し、
    前記ステップ(c)において、前記第3特徴量をさらに用いて、連続するフレーム画像間での場面の切り替わりの有無を学習する請求項6に記載の画像処理方法。
  8. 前記学習用映像データから、フレーム画像間の相関度に基づく特徴を第4特徴量として抽出するステップ(h)をさらに有し、
    前記ステップ(c)において、前記第4特徴量をさらに用いて、連続するフレーム画像間での場面の切り替わりの有無を学習する請求項6または7に記載の画像処理方法。
  9. 前記第1特徴を有する学習用映像データについて、場面の切り替わりの種類を識別するステップ(i)をさらに有する、請求項6〜8のいずれか一項に記載の画像処理方法。
  10. 前記ステップ(b)の前に前記学習用映像データを減少するステップを有し、前記ステップ(b)において、減少した学習用映像データから、映像の時空間変化の特徴を第1特徴として抽出し、
    前記ステップ(e)の前に前記表示用映像データを減少し、前記ステップ(e)において、減少した表示用映像データから、映像の時空間変化の特徴を第2特徴として抽出する、請求項6〜9のいずれか一項に記載の画像処理方法。
  11. 連続する複数のフレーム画像についてのデータを含む学習用映像データを取得する手順(a)と、
    前記学習用映像データから、映像の時空間変化の特徴を第1特徴として抽出する手順(b)と、
    前記第1特徴を用いて、連続するフレーム画像間での場面の切り替わりの有無を学習する手順(c)と、
    連続する複数のフレーム画像についてのデータを含む表示用映像データを取得する手順(d)と、
    前記表示用映像データから、映像の時空間変化の特徴を第2特徴として抽出する手順(e)と、
    前記第2特徴および前記手順(c)で得られた学習結果に基づき、連続するフレーム画像間での場面の切り替わりの有無を推定する手順(f)と、
    を含む手順をコンピューターに実行させるための画像処理プログラムにおいて、
    前記第1特徴および前記第2特徴は、フレーム画像間の輝度または色の差分値および当該差分値の時間変化率の共起確率と、フレーム画像内で隣接するブロック間における輝度または色の差分値および当該差分値の時間変化率の共起確率と、の少なくともいずれかの共起確率を含む画像処理プログラム。
  12. 前記学習用映像データから、フレーム画像間の類似度に基づく特徴を第3特徴量として抽出する手順(g)をさらに有し、
    前記手順(c)において、前記第3特徴量をさらに用いて、連続するフレーム画像間での場面の切り替わりの有無を学習する請求項11に記載の画像処理プログラム。
  13. 前記学習用映像データから、フレーム画像間の相関度に基づく特徴を第4特徴量として抽出する手順(h)をさらに有し、
    前記手順(c)において、前記第4特徴量をさらに用いて、連続するフレーム画像間での場面の切り替わりの有無を学習する請求項11または12に記載の画像処理プログラム。
  14. 前記第1特徴を有する学習用映像データについて、場面の切り替わりの種類を識別する手順(i)をさらに有する、請求項11〜13のいずれか一項に記載の画像処理プログラム。
  15. 前記手順(b)の前に前記学習用映像データを減少する手順を有し、前記手順(b)において、減少した学習用映像データから、映像の時空間変化の特徴を第1特徴として抽出し、
    前記手順(e)の前に前記表示用映像データを減少し、前記手順(e)において、減少した表示用映像データから、映像の時空間変化の特徴を第2特徴として抽出する、請求項11〜14のいずれか一項に記載の画像処理プログラム。
JP2012265629A 2012-12-04 2012-12-04 画像処理装置、画像処理方法および画像処理プログラム Pending JP2014110020A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012265629A JP2014110020A (ja) 2012-12-04 2012-12-04 画像処理装置、画像処理方法および画像処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012265629A JP2014110020A (ja) 2012-12-04 2012-12-04 画像処理装置、画像処理方法および画像処理プログラム

Publications (1)

Publication Number Publication Date
JP2014110020A true JP2014110020A (ja) 2014-06-12

Family

ID=51030588

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012265629A Pending JP2014110020A (ja) 2012-12-04 2012-12-04 画像処理装置、画像処理方法および画像処理プログラム

Country Status (1)

Country Link
JP (1) JP2014110020A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105744252A (zh) * 2014-12-12 2016-07-06 华为终端(东莞)有限公司 一种帧输出方法及装置
CN108335292A (zh) * 2015-08-13 2018-07-27 海信集团有限公司 一种场景切换中插入图片的方法
JP2018120362A (ja) * 2017-01-24 2018-08-02 日本放送協会 シーン変化点モデル学習装置、シーン変化点検出装置およびそれらのプログラム
CN110189242A (zh) * 2019-05-06 2019-08-30 百度在线网络技术(北京)有限公司 图像处理方法和装置
CN113225461A (zh) * 2021-02-04 2021-08-06 江西方兴科技有限公司 一种检测视频监控场景切换的系统及方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105744252A (zh) * 2014-12-12 2016-07-06 华为终端(东莞)有限公司 一种帧输出方法及装置
CN105744252B (zh) * 2014-12-12 2018-01-16 华为终端(东莞)有限公司 一种帧输出方法及装置
CN108335292A (zh) * 2015-08-13 2018-07-27 海信集团有限公司 一种场景切换中插入图片的方法
CN108335292B (zh) * 2015-08-13 2021-07-30 海信集团有限公司 一种场景切换中插入图片的方法
JP2018120362A (ja) * 2017-01-24 2018-08-02 日本放送協会 シーン変化点モデル学習装置、シーン変化点検出装置およびそれらのプログラム
CN110189242A (zh) * 2019-05-06 2019-08-30 百度在线网络技术(北京)有限公司 图像处理方法和装置
CN113225461A (zh) * 2021-02-04 2021-08-06 江西方兴科技有限公司 一种检测视频监控场景切换的系统及方法

Similar Documents

Publication Publication Date Title
US20230077355A1 (en) Tracker assisted image capture
JP6904346B2 (ja) 画像処理装置、画像処理システム、および画像処理方法、並びにプログラム
US7489803B2 (en) Object detection
US7421149B2 (en) Object detection
US7522772B2 (en) Object detection
JP6474854B2 (ja) 背景モデルを更新するための方法及び装置
JP5478047B2 (ja) 映像データ圧縮前処理方法およびこれを用いた映像データ圧縮方法と映像データ圧縮システム
CN110443833A (zh) 对象跟踪方法和设备
EP1542152A1 (en) Object detection
EP1542154A2 (en) Object detection
US20140126818A1 (en) Method of occlusion-based background motion estimation
JP7197000B2 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP6577397B2 (ja) 画像解析装置、画像解析方法、画像解析プログラム、および画像解析システム
KR20110074107A (ko) 카메라를 이용한 오브젝트 검출 방법
JP2014110020A (ja) 画像処理装置、画像処理方法および画像処理プログラム
JP2018124689A (ja) 移動物体検出装置、移動物体検出システム、及び移動物体検出方法
KR101396838B1 (ko) 다수의 모션 모델을 선택적으로 이용하는 영상 안정화 방법 및 시스템
JP5644505B2 (ja) 照合加重情報抽出装置
JP2021111228A (ja) 学習装置、学習方法、及びプログラム
Teknomo et al. Background image generation using boolean operations
JP2006244074A (ja) 動物体アップフレーム検出方法及びプログラム及びプログラムを格納した記憶媒体及び動物体アップショット検出方法及び動物体アップフレームあるいはショット検出方法及びプログラム及びプログラムを格納した記憶媒体
JP6257337B2 (ja) 画像選択装置
JP5699856B2 (ja) 動画像処理装置、動画像処理方法及び動画像処理用コンピュータプログラム
JP4924423B2 (ja) 特徴量の予測誤差に基づいて動画像のカット点を検出する装置
US20240428445A1 (en) Image processing apparatus, control method therefor, storage medium, system, and learned data generation method