JP4081745B2 - Decoding device and decoding method, learning device and learning method, program, and recording medium - Google Patents
Decoding device and decoding method, learning device and learning method, program, and recording medium Download PDFInfo
- Publication number
- JP4081745B2 JP4081745B2 JP2002061419A JP2002061419A JP4081745B2 JP 4081745 B2 JP4081745 B2 JP 4081745B2 JP 2002061419 A JP2002061419 A JP 2002061419A JP 2002061419 A JP2002061419 A JP 2002061419A JP 4081745 B2 JP4081745 B2 JP 4081745B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- dct
- tap
- image
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Compression Or Coding Systems Of Tv Signals (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は、復号装置および復号方法、学習装置および学習方法、並びにプログラムおよび記録媒体に関し、特に、例えば、画像データを符号化した符号化データを、高品質(高画質)の画像に復号することができるようにする復号装置および復号方法、学習装置および学習方法、並びにプログラムおよび記録媒体に関する。
【0002】
【従来の技術】
画像(動画像)データの高能率符号化方式としては、例えば、MPEG(Moving Picture Experts Group)方式が知られており、MPEG方式では、画像データが、横×縦が8×8画素のブロック単位で、水平および垂直の2方向についてDCT(Discrete Cosine Transform)変換され、さらに量子化される。
【0003】
このように、MPEG方式では、画像データがDCT変換されるが、例えば、MPEG2方式では、DCT変換の対象となるブロックのDCTタイプを、マクロブロック単位で、フレームDCTモードとフィールドDCTモードに切り替えることができる。フレームDCTモードでは、ブロックが、同一フレームの画素から構成され、そのようなブロックの画素値がDCT変換される。また、フィールドDCTモードでは、ブロックが、同一フィールドの画素から構成され、そのようなブロックの画素値がDCT変換される。
【0004】
DCTタイプを、フレームDCTモードまたはフィールドDCTモードのうちのいずれとするかは、基本的には、例えば、画像の動きや、周辺のマクロブロックとの連続性等の画像の特性に基づき、復号画像におけるブロック歪みモスキートノイズ等を低減するように決定される。即ち、例えば、動きの大きい画像については、フィールドDCTモードが選択され、動きのほとんどない画像(静止している画像)については、フレームDCTモードが選択される。
【0005】
【発明が解決しようとする課題】
ところで、MPEG2方式においては、デコーダ側においてオーバーフローおよびアンダーフローが生じないように、符号化データのデータレートが制限される。そして、この符号化データのデータレートを制限するために、本来、フレームDCTモードまたはフィールドDCTモードに設定すべきDCTタイプが、フィールドDCTモードまたはフレームDCTモードに、いわば不適切に設定されることがある。
【0006】
即ち、DCTタイプとしては、一般には、フィールドを構成する画素間の相関(例えば、フィールドを構成する、隣接する画素どうしの差分の自乗和の逆数など)(以下、適宜、フィールド画素相関という)が、フレームを構成する画素間の相関(例えば、フレームを構成する、隣接する画素どうしの差分の自乗和の逆数など)(以下、適宜、フレーム画素相関という)より大であれば、フィールドDCTモードが設定され、フレーム画素相関が、フィールド画素相関より大であれば、フレームDCTモードが設定される。
【0007】
しかしながら、符号化データが、データレートの制限を受ける場合には、DCTタイプは、フィールド画素相関とフレーム画素相関の大小に関係なく、その制限されたデータレートに基づいて設定され、従って、例えば、動きの大きい画像について、フィールドDCTモードではなく、フレームDCTモードが設定されるような、不適切なDCTタイプが設定されることがある。
【0008】
このような不適切なDCTタイプが設定された場合であっても、デコーダ側では、その不適切なDCTタイプにしたがって、符号化データを復号しなければならず、復号画像の画質が劣化する課題があった。
【0009】
また、動きのある画像が、高圧縮率でMPEG2符号化された場合には、データレートの制限に起因して、あるフレームのマクロブロックと、次のフレームの対応するマクロブロックとにおいて、同一の動き物体が表示されているのにもかかわらず、異なるDCTタイプが設定されることがあり、その結果、動きが不自然な復号画像が得られることがあった。
【0010】
一方、復号側において、復号画像から、フレームDCTモードとフィールドDCTモードのうちのいずれを設定するのが適切であったのかを判定することは困難である。
【0011】
本発明は、このような状況に鑑みてなされたものであり、符号化データを、高品質(高画質)の画像に復号することができるようにするものである。
【0012】
【課題を解決するための手段】
本発明の復号装置は、符号化データに含まれるDCTタイプの正しさを、その符号化データに含まれる画像データの動きベクトルに基づいて、ブロック単位の画像データの動きの有無によって判定し、その判定結果を表すミスマッチ情報を出力する判定手段と、符号化データを復号して得られる低品質な画像よりも高品質な画像の高品質データのうちの、得ようとしている画素単位の高品質データを注目データとし、注目データを求めるための所定のタップ係数との積和演算に用いる低品質な画像の画素単位の低品質データの幾つかを、予測タップとして抽出する予測タップ抽出手段と、低品質データに対応する、学習の生徒となる生徒データと、高品質データに対応する、学習の教師となる教師データとを用い、生徒データとタップ係数との積和演算により求められる教師データの予測値の予測誤差を統計的に最小にする学習を行うことにより得られるタップ係数と、予測タップとの積和演算を行うことにより、注目データを求める予測演算手段とを有する復号手段とを備え、予測タップ抽出手段は、ミスマッチ情報に基づき、ミスマッチ情報が、DCTタイプが正しいことを表している場合において、DCTタイプがフィールドDCTモードであるとき、注目データのフィールドの低品質データから、予測タップを抽出し、ミスマッチ情報が、DCTタイプが正しいことを表している場合において、DCTタイプがフレームDCTモードであるとき、注目データのフレームの低品質データから、予測タップを抽出し、ミスマッチ情報が、DCTタイプが正しくないことを表している場合、注目データのフィールドとフレームの両方の低品質データから、予測タップを抽出することを特徴とする。
【0013】
本発明の復号方法は、符号化データに含まれるDCTタイプの正しさを、その符号化データに含まれる画像データの動きベクトルに基づいて、ブロック単位の画像データの動きの有無によって判定し、その判定結果を表すミスマッチ情報を出力する判定ステップと、符号化データを復号して得られる低品質な画像よりも高品質な画像の高品質データのうちの、得ようとしている画素単位の高品質データを注目データとし、注目データを求めるための所定のタップ係数との積和演算に用いる低品質な画像の画素単位の低品質データの幾つかを、予測タップとして抽出する予測タップ抽出ステップと、低品質データに対応する、学習の生徒となる生徒データと、高品質データに対応する、学習の教師となる教師データとを用い、生徒データとタップ係数との積和演算により求められる教師データの予測値の予測誤差を統計的に最小にする学習を行うことにより得られるタップ係数と、予測タップとの積和演算を行うことにより、注目データを求める予測演算ステップとを含む復号ステップとを備え、予測タップ抽出ステップにおいては、ミスマッチ情報に基づき、ミスマッチ情報が、DCTタイプが正しいことを表している場合において、DCTタイプがフィールドDCTモードであるとき、注目データのフィールドの低品質データから、予測タップを抽出し、ミスマッチ情報が、DCTタイプが正しいことを表している場合において、DCTタイプがフレームDCTモードであるとき、注目データのフレームの低品質データから、予測タップを抽出し、ミスマッチ情報が、DCTタイプが正しくないことを表している場合、注目データのフィールドとフレームの両方の低品質データから、予測タップを抽出することを特徴とする。
【0014】
本発明の第1のプログラムは、符号化データに含まれるDCTタイプの正しさを、その符号化データに含まれる画像データの動きベクトルに基づいて、ブロック単位の画像データの動きの有無によって判定し、その判定結果を表すミスマッチ情報を出力する判定ステップと、符号化データを復号して得られる低品質な画像よりも高品質な画像の高品質データのうちの、得ようとしている画素単位の高品質データを注目データとし、注目データを求めるための所定のタップ係数との積和演算に用いる低品質な画像の画素単位の低品質データの幾つかを、予測タップとして抽出する予測タップ抽出ステップと、低品質データに対応する、学習の生徒となる生徒データと、高品質データに対応する、学習の教師となる教師データとを用い、生徒データとタップ係数との積和演算により求められる教師データの予測値の予測誤差を統計的に最小にする学習を行うことにより得られるタップ係数と、予測タップとの積和演算を行うことにより、注目データを求める予測演算ステップとを含む復号ステップとを備え、予測タップ抽出ステップにおいては、ミスマッチ情報に基づき、ミスマッチ情報が、DCTタイプが正しいことを表している場合において、DCTタイプがフィールドDCTモードであるとき、注目データのフィールドの低品質データから、予測タップを抽出し、ミスマッチ情報が、DCTタイプが正しいことを表している場合において、DCTタイプがフレームDCTモードであるとき、注目データのフレームの低品質データから、予測タップを抽出し、ミスマッチ情報が、DCTタイプが正しくないことを表している場合、注目データのフィールドとフレームの両方の低品質データから、予測タップを抽出することを特徴とする。
【0015】
本発明の第1の記録媒体は、符号化データに含まれるDCTタイプの正しさを、その符号化データに含まれる画像データの動きベクトルに基づいて、ブロック単位の画像データの動きの有無によって判定し、その判定結果を表すミスマッチ情報を出力する判定ステップと、符号化データを復号して得られる低品質な画像よりも高品質な画像の高品質データのうちの、得ようとしている画素単位の高品質データを注目データとし、注目データを求めるための所定のタップ係数との積和演算に用いる低品質な画像の画素単位の低品質データの幾つかを、予測タップとして抽出する予測タップ抽出ステップと、低品質データに対応する、学習の生徒となる生徒データと、高品質データに対応する、学習の教師となる教師データとを用い、生徒データとタップ係数との積和演算により求められる教師データの予測値の予測誤差を統計的に最小にする学習を行うことにより得られるタップ係数と、予測タップとの積和演算を行うことにより、注目データを求める予測演算ステップとを含む復号ステップとを備え、予測タップ抽出ステップにおいては、ミスマッチ情報に基づき、ミスマッチ情報が、DCTタイプが正しいことを表している場合において、DCTタイプがフィールドDCTモードであるとき、注目データのフィールドの低品質データから、予測タップを抽出し、ミスマッチ情報が、DCTタイプが正しいことを表している場合において、DCTタイプがフレームDCTモードであるとき、注目データのフレームの低品質データから、予測タップを抽出し、ミスマッチ情報が、DCTタイプが正しくないことを表している場合、注目データのフィールドとフレームの両方の低品質データから、予測タップを抽出するプログラムが記録されていることを特徴とする。
【0016】
本発明の学習装置は、学習用の画像データから、タップ係数の学習の教師となる教師データを生成して出力する教師データ生成手段と、学習用の画像データから、タップ係数の学習の生徒となる生徒データを生成して出力する生徒データ生成手段と、学習用の画像データを符号化し、DCTタイプおよび画像データの動きベクトルを含む学習用の符号化データを出力する符号化手段と、学習用の符号化データに含まれるDCTタイプの正しさを、その学習用の符号化データに含まれる画像データの動きベクトルに基づいて、ブロック単位の画像データの動きの有無によって判定し、その判定結果を表すミスマッチ情報を出力する判定手段と、符号化データを復号して得られる低品質な画像よりも高品質な画像の高品質データのうちの、得ようとしている画素単位の高品質データを注目データとし、注目データを求めるための所定のタップ係数との積和演算に用いる低品質な画像の画素単位の低品質データの幾つかを、予測タップとして抽出する予測タップ抽出手段と、低品質データに対応する生徒データと、高品質データに対応する教師データとを用い、生徒データとタップ係数との積和演算により求められる教師データの予測値の予測誤差が統計的に最小になるタップ係数を求めるタップ係数演算手段とを有する学習手段と、タップ係数と、予測タップとの積和演算を行うことにより、注目データを求める予測演算手段を有する復号手段とを備え、予測タップ抽出手段は、ミスマッチ情報に基づき、ミスマッチ情報が、DCTタイプが正しいことを表している場合において、DCTタイプがフィールドDCTモードであるとき、注目データのフィールドの低品質データから、予測タップを抽出し、ミスマッチ情報が、DCTタイプが正しいことを表している場合において、DCTタイプがフレームDCTモードであるとき、注目データのフレームの低品質データから、予測タップを抽出し、ミスマッチ情報が、DCTタイプが正しくないことを表している場合、注目データのフィールドとフレームの両方の低品質データから、予測タップを抽出することを特徴とする。
【0017】
本発明の学習方法は、学習用の画像データから、タップ係数の学習の教師となる教師データを生成して出力する教師データ生成ステップと、学習用の画像データから、タップ係数の学習の生徒となる生徒データを生成して出力する生徒データ生成ステップと、学習用の画像データを符号化し、DCTタイプおよび画像データの動きベクトルを含む学習用の符号化データを出力する符号化ステップと、学習用の符号化データに含まれるDCTタイプの正しさを、その学習用の符号化データに含まれる画像データの動きベクトルに基づいて、ブロック単位の画像データの動きの有無によって判定し、その判定結果を表すミスマッチ情報を出力する判定ステップと、符号化データを復号して得られる低品質な画像よりも高品質な画像の高品質データのうちの、得ようとしている画素単位の高品質データを注目データとし、注目データを求めるための所定のタップ係数との積和演算に用いる低品質な画像の画素単位の低品質データの幾つかを、予測タップとして抽出する予測タップ抽出ステップと、低品質データに対応する生徒データと、高品質データに対応する教師データとを用い、生徒データとタップ係数との積和演算により求められる教師データの予測値の予測誤差が統計的に最小になるタップ係数を求めるタップ係数演算ステップとを有する学習ステップと、タップ係数と、予測タップとの積和演算を行うことにより、注目データを求める予測演算ステップを有する復号ステップとを備え、予測タップ抽出ステップにおいては、ミスマッチ情報に基づき、ミスマッチ情報が、DCTタイプが正しいことを表している場合において、DCTタイプがフィールドDCTモードであるとき、注目データのフィールドの低品質データから、予測タップを抽出し、ミスマッチ情報が、DCTタイプが正しいことを表している場合において、DCTタイプがフレームDCTモードであるとき、注目データのフレームの低品質データから、予測タップを抽出し、ミスマッチ情報が、DCTタイプが正しくないことを表している場合、注目データのフィールドとフレームの両方の低品質データから、予測タップを抽出することを特徴とする。
【0018】
本発明の第2のプログラムは、学習用の画像データから、タップ係数の学習の教師となる教師データを生成して出力する教師データ生成ステップと、学習用の画像データから、タップ係数の学習の生徒となる生徒データを生成して出力する生徒データ生成ステップと、学習用の画像データを符号化し、DCTタイプおよび画像データの動きベクトルを含む学習用の符号化データを出力する符号化ステップと、学習用の符号化データに含まれるDCTタイプの正しさを、その学習用の符号化データに含まれる画像データの動きベクトルに基づいて、ブロック単位の画像データの動きの有無によって判定し、その判定結果を表すミスマッチ情報を出力する判定ステップと、符号化データを復号して得られる低品質な画像よりも高品質な画像の高品質データのうちの、得ようとしている画素単位の高品質データを注目データとし、注目データを求めるための所定のタップ係数との積和演算に用いる低品質な画像の画素単位の低品質データの幾つかを、予測タップとして抽出する予測タップ抽出ステップと、低品質データに対応する生徒データと、高品質データに対応する教師データとを用い、生徒データとタップ係数との積和演算により求められる教師データの予測値の予測誤差が統計的に最小になるタップ係数を求めるタップ係数演算ステップとを有する学習ステップと、タップ係数と、予測タップとの積和演算を行うことにより、注目データを求める予測演算ステップを有する復号ステップとを備え、予測タップ抽出ステップにおいては、ミスマッチ情報に基づき、ミスマッチ情報が、DCTタイプが正しいことを表している場合において、DCTタイプがフィールドDCTモードであるとき、注目データのフィールドの低品質データから、予測タップを抽出し、ミスマッチ情報が、DCTタイプが正しいことを表している場合において、DCTタイプがフレームDCTモードであるとき、注目データのフレームの低品質データから、予測タップを抽出し、ミスマッチ情報が、DCTタイプが正しくないことを表している場合、注目データのフィールドとフレームの両方の低品質データから、予測タップを抽出することを特徴とする。
【0019】
本発明の第2の記録媒体は、学習用の画像データから、タップ係数の学習の教師となる教師データを生成して出力する教師データ生成ステップと、学習用の画像データから、タップ係数の学習の生徒となる生徒データを生成して出力する生徒データ生成ステップと、学習用の画像データを符号化し、DCTタイプおよび画像データの動きベクトルを含む学習用の符号化データを出力する符号化ステップと、学習用の符号化データに含まれるDCTタイプの正しさを、その学習用の符号化データに含まれる画像データの動きベクトルに基づいて、ブロック単位の画像データの動きの有無によって判定し、その判定結果を表すミスマッチ情報を出力する判定ステップと、符号化データを復号して得られる低品質な画像よりも高品質な画像の高品質データのうちの、得ようとしている画素単位の高品質データを注目データとし、注目データを求めるための所定のタップ係数との積和演算に用いる低品質な画像の画素単位の低品質データの幾つかを、予測タップとして抽出する予測タップ抽出ステップと、低品質データに対応する生徒データと、高品質データに対応する教師データとを用い、生徒データとタップ係数との積和演算により求められる教師データの予測値の予測誤差が統計的に最小になるタップ係数を求めるタップ係数演算ステップとを有する学習ステップと、タップ係数と、予測タップとの積和演算を行うことにより、注目データを求める予測演算ステップを有する復号ステップとを備え、予測タップ抽出ステップにおいては、ミスマッチ情報に基づき、ミスマッチ情報が、DCTタイプが正しいことを表している場合において、DCTタイプがフィールドDCTモードであるとき、注目データのフィールドの低品質データから、予測タップを抽出し、ミスマッチ情報が、DCTタイプが正しいことを表している場合において、DCTタイプがフレームDCTモードであるとき、注目データのフレームの低品質データから、予測タップを抽出し、ミスマッチ情報が、DCTタイプが正しくないことを表している場合、注目データのフィールドとフレームの両方の低品質データから、予測タップを抽出するプログラムが記録されていることを特徴とする。
【0020】
本発明の復号装置および復号方法、並びに第1のプログラムおよび第1の記録媒体においては、符号化データに含まれるDCTタイプの正しさが、その符号化データに含まれる画像データの動きベクトルに基づいて、ブロック単位の画像データの動きの有無によって判定され、その判定結果を表すミスマッチ情報を出力される。そして、符号化データを復号して得られる低品質な画像よりも高品質な画像の高品質データのうちの、得ようとしている画素単位の高品質データが注目データとされ、注目データを求めるための所定のタップ係数との積和演算に用いる低品質な画像の画素単位の低品質データの幾つかが、予測タップとして抽出され、低品質データに対応する、学習の生徒となる生徒データと、高品質データに対応する、学習の教師となる教師データとを用い、生徒データとタップ係数との積和演算により求められる教師データの予測値の予測誤差を統計的に最小にする学習を行うことにより得られるタップ係数と、予測タップとの積和演算を行うことにより、注目データが求められる。ここで、ミスマッチ情報に基づき、ミスマッチ情報が、DCTタイプが正しいことを表している場合において、DCTタイプがフィールドDCTモードであるとき、注目データのフィールドの低品質データから、予測タップが抽出され、ミスマッチ情報が、DCTタイプが正しいことを表している場合において、DCTタイプがフレームDCTモードであるとき、注目データのフレームの低品質データから、予測タップが抽出され、ミスマッチ情報が、DCTタイプが正しくないことを表している場合、注目データのフィールドとフレームの両方の低品質データから、予測タップが抽出される。
【0021】
本発明の学習装置および学習方法、並びに第2のプログラムおよび第2の記録媒体においては、学習用の画像データから、タップ係数の学習の教師となる教師データが生成されるとともに、生徒となる生徒データが生成される。また、学習用の画像データが符号化され、DCTタイプおよび画像データの動きベクトルを含む学習用の符号化データが出力される。そして、学習用の符号化データに含まれるDCTタイプの正しさが、その学習用の符号化データに含まれる画像データの動きベクトルに基づいて、ブロック単位の画像データの動きの有無によって判定され、その判定結果を表すミスマッチ情報が出力される。そして、符号化データを復号して得られる低品質な画像よりも高品質な画像の高品質データのうちの、得ようとしている画素単位の高品質データが注目データとされ、注目データを求めるための所定のタップ係数との積和演算に用いる低品質な画像の画素単位の低品質データの幾つかが、予測タップとして抽出され、低品質データに対応する生徒データと、高品質データに対応する教師データとを用い、生徒データとタップ係数との積和演算により求められる教師データの予測値の予測誤差が統計的に最小になるタップ係数が求められ、タップ係数と、予測タップとの積和演算を行うことにより、注目データが求められる。ここで、ミスマッチ情報に基づき、ミスマッチ情報が、DCTタイプが正しいことを表している場合において、DCTタイプがフィールドDCTモードであるとき、注目データのフィールドの低品質データから、予測タップが抽出され、ミスマッチ情報が、DCTタイプが正しいことを表している場合において、DCTタイプがフレームDCTモードであるとき、注目データのフレームの低品質データから、予測タップが抽出され、ミスマッチ情報が、DCTタイプが正しくないことを表している場合、注目データのフィールドとフレームの両方の低品質データから、予測タップが抽出される。
【0022】
【発明の実施の形態】
図1は、本発明を適用した復号装置の一実施の形態の構成例を示している。
【0023】
復号装置には、図示せぬ記録媒体(例えば、光ディスクや、光磁気ディスク、相変化ディスク、磁気テープ、半導体メモリ等)から再生された符号化データ、または伝送媒体(例えば、インターネットや、CATV網、衛星回線、地上波等)を介して伝送されてくる符号化データが、復号対象として入力されるようになっている。ここで、符号化データは、画像(動画像)データを所定の符号化方式で符号化して得られるもので、少なくとも、その復号を制御するための復号制御情報を含んでいる。
【0024】
なお、符号化データとしては、例えば、画像データをMPEG2方式で符号化したもの等を採用することができる。
【0025】
ここで、MPEG2方式では、符号化側において、画像データ(原画像)がブロック単位でDCT変換され、さらに量子化される。また、符号化側では、符号化対象の画像データについて、動きベクトルが検出されるとともに、符号化データがローカルデコードされ、そのローカルデコードされた画像データを参照画像として、その参照画像について、検出された動きベクトルを用いて動き補償が施されることにより、予測画像が生成される。そして、符号化対象の画像と予測画像との差分が演算されることにより、残差画像が求められ、その残差画像が、上述のようにDCT変換、量子化される。さらに、符号化側では、ブロック単位でのDCT変換にあたって、DCTタイプ(フレームDCTモードまたはフィールドDCTモード)が、マクロブロック単位で設定される。
【0026】
一方、画像データ(原画像または残差画像)をDCT変換し、さらに量子化して得られるDCT係数を、量子化DCT係数というものとすると、復号側では、量子化DCT係数が、逆量子化され、DCT係数とされる。さらに、復号側では、そのDCT係数が逆DCT変換され、その結果得られる画素が、DCTタイプにしたがい、フレーム構造に並べ替えられることで、画像データが復号され、あるいは残差画像データが求められる。そして、残差画像データについては、既に復号された画像データを参照画像として、その参照画像について、動きベクトルを用いて動き補償が施されることにより、予測画像データが生成される。そして、残差画像データと予測画像データとが加算されることにより、画像データが復号される。
【0027】
従って、画像データをMPEG2方式で符号化して得られる符号化データには、画像データ(原画像または残差画像)をDCT変換し、さらに量子化して得られるDCT係数、つまり、画像データの直接の符号化結果の他、復号側において、そのDCT係数を画像に復号するのに必要な情報、即ち、動きベクトルや、DCTタイプなどの復号を制御する情報(以下、適宜、復号制御情報という)も含まれる。なお、符号化データには、動きベクトルやDCTタイプの他、ピクチャタイプや、テンポラルリファレンス、その他の復号制御情報も含まれる。
【0028】
復号装置に入力された符号化データは、ミスマッチ検出部1と復号処理部2に供給されるようになっている。
【0029】
ミスマッチ検出部1は、符号化データからミスマッチ情報を検出する。即ち、ミスマッチ検出部1は、符号化データに含まれる復号制御情報の正しさを判定し、その判定結果を表すミスマッチ情報を、復号処理部2に出力する。復号処理部2は、ミスマッチ検出部1から供給されるミスマッチ情報に基づいて、符号化データを復号し、その結果得られる復号データを出力する。
【0030】
次に、図2のフローチャートを参照して、図1の復号装置の処理(復号処理)について説明する。
【0031】
ミスマッチ検出部1と復号処理部2には、符号化データが供給され、ミスマッチ検出部1は、まず最初に、ステップS1において、符号化データからミスマッチ情報を検出し、復号処理部2に供給して、ステップS2に進む。ステップS2では、復号処理部2が、ミスマッチ検出部1から供給されるミスマッチ情報に基づいて、そのミスマッチ情報が検出された符号化データを復号し、復号画像データを出力して、ステップS3に進む。ステップS3では、ミスマッチ検出部1または復号処理部2が、復号すべき符号化データが、まだ存在するかどうかを判定する。ステップS3において、復号すべき符号化データが、まだ存在すると判定された場合、ステップS1に戻り、以下、同様の処理が繰り返される。
【0032】
また、ステップS3において、復号すべき符号化データが存在しないと判定された場合、処理を終了する。
【0033】
次に、図3は、本発明を適用した復号装置の他の実施の形態の構成例を示している。なお、図中、図1における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。即ち、図3の復号装置は、パラメータ記憶部3が、新たに設けられている他は、基本的に、図1の復号装置と同様に構成されている。
【0034】
パラメータ記憶部3は、後述する学習装置による学習によって得られたパラメータを記憶しており、復号処理部2は、パラメータ記憶部3に記憶されたパラメータを用いて、そこに供給される符号化データを復号する。
【0035】
従って、図3の復号装置では、復号処理部2において、符号化データの復号が、パラメータ記憶部3に記憶されたパラメータを用いて行われる他は、図1の復号装置と同様の処理が行われるため、その処理についての説明は省略する。
【0036】
次に、図4は、図3のパラメータ記憶部3に記憶させるパラメータを学習する学習装置の一実施の形態の構成例を示している。
【0037】
学習用データ記憶部11は、パラメータの学習に用いられる画像(動画像)データである学習用データを記憶している。
【0038】
符号化部12は、学習用データ記憶部11に記憶されている学習用データを読み出し、図3の復号装置で復号対象とする符号化データと同一の符号化方式で、学習用データを符号化する。学習用データを符号化することにより得られる符号化データ(以下、適宜、学習用符号化データという)は、符号化部12からミスマッチ検出部13に供給されるようになっている。
【0039】
ミスマッチ検出部13は、図3のミスマッチ検出部1と同様に構成され、符号化部12から供給される符号化データから、ミスマッチ情報を検出し、学習処理部14に供給する。
【0040】
学習処理部14は、学習用データ記憶部11に記憶されている学習用データを読み出し、その学習用データから、パラメータについての学習の教師となる教師データと、その学習の生徒となる生徒データを生成する。さらに、学習処理部14は、ミスマッチ検出部13から供給されるミスマッチ情報に基づき、生成した教師データと生徒データを用いて、生徒データを教師データに変換するパラメータを学習する。
【0041】
次に、図5のフローチャートを参照して、図4の学習装置の処理(学習処理)について説明する。
【0042】
まず最初に、ステップS11において、符号化部12は、学習用データ記憶部11に記憶されている学習用データを読み出して符号化し、その結果得られる学習用符号化データを、ミスマッチ検出部13に供給して、ステップS12に進む。ステップS12では、ミスマッチ検出部13が、符号化部12から供給される符号化データから、ミスマッチ情報を検出し、学習処理部14に供給して、ステップS13に進む。
【0043】
ステップS13では、学習処理部14が、学習用データ記憶部11から、学習用データを読み出し、その学習用データから、教師データと生徒データを生成する。さらに、学習処理部14は、ミスマッチ検出部13から供給されるミスマッチ情報に基づき、生成した教師データと生徒データを用いて、パラメータを学習する。
【0044】
即ち、学習処理部14は、ミスマッチ情報に基づき、生徒データから、対応する教師データを得ることができるようにするのに最適なパラメータを算出することができるようにするための処理(学習)を行う。
【0045】
そして、ステップS14に進み、符号化部12または学習処理部14が、まだ処理していない学習用データが、学習用データ記憶部11に記憶されているかどうかを判定する。ステップS14において、まだ処理していない学習用データが、学習用データ記憶部11に記憶されていると判定された場合、ステップS11に戻り、その、まだ処理していない学習用データを対象に、以下、同様の処理が繰り返される。
【0046】
また、ステップS14において、まだ処理していない学習用データが、学習用データ記憶部11に記憶されていないと判定された場合、即ち、学習用データ記憶部11に記憶された学習用データすべてを用いて学習を行った場合、ステップS15に進み、学習処理部14は、ステップS13の学習結果に基づき、パラメータを算出し、処理を終了する。
【0047】
次に、図6は、図3の復号装置の詳細構成例を示している。
【0048】
復号制御情報抽出部21には、画像データを、例えばMPEG2方式で符号化して得られる符号化データが、復号対象として供給されるようになっており、復号制御情報抽出部21は、符号化データから、その符号化データに含まれる複数(複数種類)の復号制御情報、即ち、本実施の形態では、例えば、DCTタイプ、ピクチャタイプ、動きベクトルを抽出して、判定部22に供給する。
【0049】
判定部22は、復号制御情報抽出部21から供給される複数の復号制御情報のうちの1つの(1つの種類の)復号制御情報の正しさを、他の(他の種類の)復号制御情報に基づいて判定する。そして、判定部22は、その1つの復号制御情報の正しさの判定結果としてのミスマッチ情報を、復号処理部2に出力する。
【0050】
なお、以上の復号制御情報抽出部21および判定部22が、図3のミスマッチ検出部1を構成している。
【0051】
前処理部31には、復号対象の符号化データが供給されるようになっており、前処理部31は、符号化データに対して、所定の前処理を施し、その結果得られる前処理データを、クラス分類適応処理部32に供給する。
【0052】
クラス分類適応処理部32は、前処理部31から供給される前処理データから、後述する予測タップおよびクラスタップを構成し、係数メモリ41に記憶されたパラメータを用いて、後述するクラス分類適応処理を行う。そして、クラス分類適応処理部32は、クラス分類適応処理を行うことによって得られるデータ(以下、適宜、適応処理データという)を、後処理部33に出力する。
【0053】
また、クラス分類適応処理部32には、ミスマッチ検出部1の判定部22が出力するミスマッチ情報が供給されるようになっており、クラス分類適応処理部32は、このミスマッチ情報に基づき、クラス分類適応処理を行う。
【0054】
後処理部33は、クラス分類適応処理部32が出力するデータに対して、所定の後処理を施し、これにより、符号化データを、高画質の画像データに復号して出力する。
【0055】
なお、以上の前処理部31、クラス分類適応処理部32、および後処理部33が、図3の復号処理部2を構成している。
【0056】
係数メモリ41は、クラス分類適応処理部32がクラス分類適応処理を行うのに用いる、後述するクラスごとのタップ係数を記憶している。
【0057】
なお、この係数メモリ41によって、図3のパラメータ記憶部3が構成されている。
【0058】
次に、図7および図8を参照して、図6のミスマッチ検出部1の処理について説明する。
【0059】
図7は、MPEG2方式において、フレームDCTモードでDCT変換されるブロック(図7A)と、フィールドDCTモードでDCT変換されるブロック(図7B)を示している。
【0060】
なお、図7の実施の形態では、輝度信号のブロックを示してある。また、図7において(後述する図8においても同様)、影を付してあるラインは、奇数ライン(トップフィールド)を表し、影を付していないラインは、偶数ライン(ボトムフィールド)を表す。
【0061】
フレームDCTモードでは、横×縦が16×16画素で構成されるマクロブロックが、図7Aに示すように、左上、左下、右上、または右下の4つの8×8画素のブロックに分割され、各ブロックがDCT変換される。
【0062】
一方、フィールドDCTモードでは、マクロブロックは、図7Bに示すように、上側の8ラインが奇数ライン(トップフィールド)で構成され、下側の8ラインが偶数ライン(ボトムフィールド)で構成されるように、画素の位置が並べ替えられる。そして、その並べ替え後のマクロブロックが、左上、左下、右上、または右下の4つの8×8画素のブロックに分割され、各ブロックがDCT変換される。
【0063】
以上のように、フレームDCTモードでは、同一フレームを構成する8×8画素のブロック単位で、DCT変換が行われ、フィールドDCTモードでは、同一フィールドを構成する8×8画素のブロック単位で、DCT変換が行われる。
【0064】
ところで、例えば、いま、円形の動き物体が、水平方向に移動している画像を考えた場合、あるフレームを構成するトップフィールドとボトムフィールドにおいて、円形の動き物体は、例えば、図8Aに示すように、その動きに対応して、少しずれた位置に表示される。このため、このような動き物体が表示された画像については、フレーム画素相関よりも、フィールド画素相関の方が大になり、フィールドDCTモードでDCT変換を行うことにより、滑らかな動きの復号画像を得ることができる。
【0065】
しかしながら、MPEG方式では、前述したように、動き物体が表示された画像について、データレートの制限に起因して、符号化データのデータ量を低減するために、フィールドDCTモードではなく、フレームDCTモードで、画像データがDCT変換される場合がある。
【0066】
いま、円形の動き物体が表示されている部分の一部のマクロブロックについて、フレームDCTモードが設定されるとともに、他のマクロブロックについて、フィールドDCTモードが設定され、DCT変換が行われたとすると、フレームDCTモードが設定されたマクロブロックについては、例えば、図8Bに示すように、円形の動き物体のエッジ部分がぼやけた復号画像が得られる。
【0067】
ここで、図8Bは、2×2個のマクロブロックのうち、右上のマクロブロックのDCTタイプがフレームDCTモードとされ、他の3つのマクロブロックのDCTタイプがフィールドDCTモードとされた場合の復号画像を示している。
【0068】
DCTタイプを、フレームDCTモードまたはフィールドDCTモードのうちのいずれとするかは、マクロブロック単位で設定されることから、異なるフレームの対応するマクロブロック(同一位置のマクロブロック)であっても、DCTタイプが異なる場合がある。そして、動き物体が表示されている、ある位置のマクロブロックのDCTタイプが、フレーム単位で変化すると、復号画像における動き物体の動きは、不自然なものとなる。
【0069】
このような復号画像におけるエッジ部分のぼけ(ぶれ)や、不自然な動きは、フィールドDCTモードでDCT変換すべきマクロブロックが、データレートの制限から、フレームDCTモードでDCT変換されたこと、即ち、動きのある部分は、フィールドDCTモードでDCT変換すべきであるのに、フレームDCTモードでDCT変換されたことに起因する。従って、フィールドDCTモードでDCT変換すべきマクロブロックを、フレームDCTモードでDCT変換したことは、復号画像の画質を向上させる観点からは、正しくない(適切でない)ということができ、符号化データに含まれる復号制御情報の1つである、そのようなフレームDCTモードを表すDCTタイプも正しくないということができる。
【0070】
そこで、ミスマッチ検出部1は、例えば、符号化データに含まれるDCTタイプの正しさを判定し、その判定結果を表すミスマッチ情報を出力する。
【0071】
即ち、ミスマッチ検出部1は、例えば、動きのある画像が表示されているマクロブロックのDCTタイプが、フレームDCTモードとなっている場合、そのマクロブロックのDCTタイプが正しくないと判定する。一方、ミスマッチ検出部1は、例えば、動きのある画像が表示されているマクロブロックのDCTタイプが、フィールドDCTモードとなっている場合と、マクロブロックに動きがない画像が表示されている場合は、そのマクロブロックのDCTタイプが正しいと判定する。
【0072】
なお、ミスマッチ検出部1は、マクロブロック(に表示された画像)に動きがあるかどうかを、符号化データに含まれる復号制御情報の他の1つである、例えば、そのマクロブロックの動きベクトルに基づいて判定する。
【0073】
次に、図9は、図6のクラス分類適応処理部32の構成例を示している。
【0074】
クラス分類適応処理は、クラス分類処理と適応処理とからなり、クラス分類処理によって、データが、その性質に基づいてクラス分けされ、各クラスごとに適応処理が施される。
【0075】
ここで、適応処理について、低画質の画像(以下、適宜、低画質画像という)を、高画質の画像(以下、適宜、高画質画像という)に変換する場合を例に説明する。
【0076】
この場合、適応処理では、低画質画像を構成する画素(以下、適宜、低画質画素という)と、所定のタップ係数との線形結合により、その低画質画像の画質を向上させた高画質画像の画素の予測値を求めることで、その低画質画像の画質を高画質化した画像が得られる。
【0077】
具体的には、例えば、いま、ある高画質画像データを教師データとするとともに、その高画質画像の画質を劣化させた低画質画像データを生徒データとして、高画質画像を構成する画素(以下、適宜、高画質画素という)yの予測値E[y]を、幾つかの低画質画素(低画質画像を構成する画素の画素値)x1,x2,・・・の集合と、所定のタップ係数w1,w2,・・・の線形結合により規定される線形1次結合モデルにより求めることを考える。この場合、予測値E[y]は、次式で表すことができる。
【0078】
E[y]=w1x1+w2x2+・・・・・・(1)
【0079】
式(1)を一般化するために、タップ係数wjの集合でなる行列W、生徒データxijの集合でなる行列X、および予測値E[yj]の集合でなる行列Y’を、
【数1】
で定義すると、次のような観測方程式が成立する。
【0080】
XW=Y’・・・(2)
【0081】
ここで、行列Xの成分xijは、i件目の生徒データの集合(i件目の教師データyiの予測に用いる生徒データの集合)の中のj番目の生徒データを意味し、行列Wの成分wjは、生徒データの集合の中のj番目の生徒データとの積が演算されるタップ係数を表す。また、yiは、i件目の教師データを表し、従って、E[yi]は、i件目の教師データの予測値を表す。なお、式(1)の左辺におけるyは、行列Yの成分yiのサフィックスiを省略したものであり、また、式(1)の右辺におけるx1,x2,・・・も、行列Xの成分xijのサフィックスiを省略したものである。
【0082】
式(2)の観測方程式に最小自乗法を適用して、高画質画素(の画素値)yに近い予測値E[y]を求めることを考える。この場合、教師データとなる高画質画素の真値yの集合でなる行列Y、および高画質画素yの予測値E[y]の残差(真値yに対する誤差)eの集合でなる行列Eを、
【数2】
で定義すると、式(2)から、次のような残差方程式が成立する。
【0083】
XW=Y+E・・・(3)
【0084】
この場合、高画質画素yに近い予測値E[y]を求めるためのタップ係数wjは、自乗誤差
【数3】
を最小にすることで求めることができる。
【0085】
従って、上述の自乗誤差をタップ係数wjで微分したものが0になる場合、即ち、次式を満たすタップ係数wjが、高画質画素yに近い予測値E[y]を求めるため最適値ということになる。
【0086】
【数4】
【0087】
そこで、まず、式(3)を、タップ係数wjで微分することにより、次式が成立する。
【0088】
【数5】
【0089】
式(4)および(5)より、式(6)が得られる。
【0090】
【数6】
【0091】
さらに、式(3)の残差方程式における生徒データxij、タップ係数wj、教師データyi、および残差eiの関係を考慮すると、式(6)から、次のような正規方程式を得ることができる。
【0092】
【数7】
【0093】
なお、式(7)に示した正規方程式は、行列(共分散行列)Aおよびベクトルvを、
【数8】
で定義するとともに、ベクトルWを、数1で示したように定義すると、式
AW=v・・・(8)
で表すことができる。
【0094】
式(7)における各正規方程式は、生徒データxijおよび教師データyiのセットを、ある程度の数だけ用意することで、求めるべきタップ係数wjの数Jと同じ数だけたてることができ、従って、式(8)を、ベクトルWについて解くことで(但し、式(8)を解くには、式(8)における行列Aが正則である必要がある)、最適なタップ係数wjを求めることができる。なお、式(8)を解くにあたっては、例えば、掃き出し法(Gauss-Jordanの消去法)などを用いることが可能である。
【0095】
以上のように、生徒データと教師データを用いて、最適なタップ係数(ここでは、生徒データから教師データの予測値を求めた場合に、その予測値の自乗誤差の総和を最小にするタップ係数)wjを求める学習をしておき、さらに、そのタップ係数wjを用い、式(1)により、教師データyに近い予測値E[y]を求めるのが適応処理である。
【0096】
なお、適応処理は、低画質画像には含まれていないが、高画質画像に含まれる成分が再現される点で、単なる補間とは異なる。即ち、適応処理では、式(1)だけを見る限りは、いわゆる補間フィルタを用いての単なる補間と同一に見えるが、その補間フィルタのタップ係数に相当するタップ係数wが、教師データと生徒データを用いての学習により求められるため、教師データとしての高画質画像に含まれる成分を再現することができる。このことから、適応処理は、いわば画像の創造作用がある処理ということができる。
【0097】
ここで、生徒データとしては、例えば、教師データとしての高画質の画像データをMPEG符号化し、さらにMPEG復号して得られる復号画像データを用いることができる。この場合、MPEG符号化における量子化に起因して生じるブロック歪み等を低減した高画質の画像を求めることのできるタップ係数を得ることができる。
【0098】
さらに、例えば、教師データとして、高画質の画像データを用いるとともに、生徒データとして、教師データとしての画像データをDCT変換し、さらに量子化、逆量子化して得られるDCT係数を用いるようにすることも可能である。この場合、DCT係数を、高画質の画像(の予測値)に変換するタップ係数を得ることができる。
【0099】
また、上述の場合には、高画質画像の予測値を、線形1次予測するようにしたが、その他、高画質画像の予測値は、2次以上の式によって予測することも可能である。
【0100】
図9のクラス分類適応処理部32は、上述のようなクラス分類適応処理を行うようになっている。
【0101】
即ち、前処理部31(図6)が出力する前処理データは、タップ抽出部51および52に供給されるようになっている。
【0102】
タップ抽出部51は、得ようとしている適応処理データを、注目データとし、さらに、その注目データを予測するのに用いる前処理データの幾つかを、予測タップとして抽出する。また、タップ抽出部52は、注目データをクラス分類するのに用いる前処理データの幾つかを、クラスタップとして抽出する。
【0103】
ここで、タップ抽出部51および52には、判定部22(図6)が出力するミスマッチ情報も供給されるようになっている。そして、タップ抽出部51と52は、ミスマッチ情報に基づき、予測タップとクラスタップの構造を、それぞれ変更するようになっている。
【0104】
なお、ここでは、説明を簡単にするために、予測タップとクラスタップは、同一のタップ構造を有するものとする。但し、予測タップとクラスタップとは、異なるタップ構造とすることが可能である。
【0105】
タップ抽出部51で得られた予測タップは、予測部54に供給され、タップ抽出部52で得られたクラスタップは、クラス分類部53に供給される。
【0106】
クラス分類部53には、クラスタップの他、ミスマッチ情報も供給されるようになっており、クラス分類部53は、タップ抽出部52からのクラスタップとミスマッチ情報に基づき、注目データをクラス分類し、その結果得られるクラスに対応するクラスコードを、係数メモリ41に供給する。
【0107】
係数メモリ41は、各クラスコードに対応するアドレスに、そのクラスコードに対応するクラスのタップ係数を記憶しており、クラス分類部53から供給されるクラスコードに対応するアドレスに記憶されているタップ係数を、予測部54に供給する。
【0108】
予測部54は、タップ抽出部51が出力する予測タップと、係数メモリ41が出力するタップ係数とを取得し、その予測タップとタップ係数とを用いて、式(1)に示した線形予測演算を行う。これにより、予測部54は、適応処理データ(の予測値)を求めて出力する。
【0109】
次に、図10のフローチャートを参照して、図6の復号装置の処理(復号処理)について説明する。
【0110】
クラス分類適応処理部32(図9)のタップ抽出部51では、得ようとしている適応処理データが、注目データとされ、ステップS21において、ミスマッチ検出部1が、その注目データに対応する符号化データ(以下、適宜、注目符号化データという)から、ミスマッチ情報を生成する。
【0111】
即ち、ミスマッチ検出部1では、復号制御情報抽出部21が、注目符号化データから、複数の復号制御情報としての、例えば、動きベクトルやDCTタイプなどを抽出し、判定部22に供給する。そして、判定部22は、例えば、復号制御情報抽出部21から供給される動きベクトルなどに基づいて、同じく復号制御情報抽出部21から供給されるDCTタイプの正しさを判定し、その判定結果としてのミスマッチ情報を、クラス分類適応処理部32に供給する。
【0112】
そして、ステップS22に進み、前処理部31は、注目データについての予測タップとクラスタップを構成するのに必要な前処理データを得るための符号化データに対して、前処理を施し、その結果得られる前処理データを、クラス分類適応処理部32に供給する。
【0113】
クラス分類適応処理部32(図9)では、ステップS23において、タップ抽出部51と52が、前処理部31から供給される前処理データを用い、例えば、ミスマッチ検出部1からのミスマッチ情報に基づくタップ構造の予測タップとクラスタップを、それぞれ構成する。そして、予測タップは、タップ抽出部51から予測部54に供給され、クラスタップは、タップ抽出部52からクラス分類部53に供給される。
【0114】
クラス分類部53は、タップ抽出部52から、注目データについてのクラスタップを受信し、ステップS24において、そのクラスタップと、ミスマッチ検出部1から供給されるミスマッチ情報に基づき、注目データをクラス分類し、注目データのクラスを表すクラスコードを、係数メモリ41に出力する。
【0115】
係数メモリ41は、クラス分類部53から供給されるクラスコードに対応するアドレスに記憶されているタップ係数を読み出して出力する。予測部54は、ステップS25において、係数メモリ41が出力するタップ係数を取得し、ステップS26に進む。
【0116】
ステップS26では、予測部54が、タップ抽出部51が出力する予測タップと、係数メモリ41から取得したタップ係数とを用いて、式(1)に示した線形予測演算を行う。これにより、予測部54は、注目データとしての適応処理データ(の予測値)を求め、後処理部33に供給する。
【0117】
後処理部33(図6)は、ステップS27において、クラス分類適応処理部32(の予測部54)からの注目データに対して、所定の後処理を施し、これにより、復号画像データを得て出力する。
【0118】
その後、ステップS28に進み、まだ、注目データとしていない適応処理データがあるかどうかが判定される。ステップS28において、まだ、注目データとしていない適応処理データがあると判定された場合、その、まだ注目データとされていない適応処理データのうちの1つが、新たに注目データとされ、ステップS21に戻り、以下、同様の処理が繰り返される。
【0119】
また、ステップS28において、まだ、注目データとされていない適応処理データがないと判定された場合、処理を終了する。
【0120】
次に、図11は、図6の係数メモリ41に記憶させるタップ係数を学習する場合の、図4の学習装置の詳細構成例を示している。
【0121】
図11の実施の形態において、ミスマッチ検出部13は、復号制御情報抽出部71および判定部72から構成されており、符号化部12が出力する符号化データは、復号制御情報抽出部71に供給されるようになっている。復号制御情報抽出部71または判定部72は、図6の復号制御情報抽出部21または判定部22とそれぞれ同様に構成されており、図6で説明した場合と同様に、後述する注目教師データに対応する符号化データから、ミスマッチ情報を求めて、学習処理部14に供給する。
【0122】
学習処理部14は、適応学習部60、教師データ生成部61、および生徒データ生成部63から構成されている。
【0123】
適応学習部60は、教師データ記憶部62、生徒データ記憶部64、タップ抽出部65および66、クラス分類部67、足し込み部68、およびタップ係数算出部69から構成され、教師データ生成部61は、逆後処理部61Aから構成され、生徒データ生成部63は、符号化部63Aおよび前処理部63Bから構成されている。
【0124】
逆後処理部61Aは、学習用データ記憶部11から学習用データを読み出し、図6の後処理部33が行う処理と相補的な関係にある処理(以下、適宜、逆後処理という)を行う。即ち、例えば、学習用データをyとするとともに、図6の後処理部33が、適応処理データxに対して施す後処理を、関数f(x)で表すとすると、逆後処理部61Aは、学習用データyに対して、関数f-1(y)(f-1()は、関数f()の逆関数を表す)で表される処理を逆後処理として施し、その結果得られるデータを、教師データとして、適応学習部60に出力する。なお、逆後処理部61Aが出力する教師データは、図6のクラス分類適応処理部32から後処理部33に供給される適応処理データに相当する。
【0125】
教師データ記憶部62は、教師データ生成部61(の逆後処理部61A)が出力する教師データを一時記憶する。
【0126】
符号化部63Aは、学習用データ記憶部11から学習用データを読み出し、符号化部12と同一の符号化方式、即ち、本実施の形態では、例えば、MPEG2方式で符号化して出力する。従って、符号化部63Aは、符号化部12が出力するのと同一の符号化データを出力する。なお、符号化部12と63Aとは、1つの符号化部で共用することが可能である。
【0127】
前処理部63Bは、符号化部63Aが出力する符号化データに対して、図6の前処理部31が行うのと同一の前処理を施し、その結果得られる前処理データを、生徒データとして、適応学習部60に出力する。なお、前処理部63Bが出力する生徒データは、図6の前処理部31からクラス分類適応処理部32に供給される前処理データに相当する。
【0128】
生徒データ記憶部64は、生徒データ生成部63(の前処理部63B)が出力する生徒データを一時記憶する。
【0129】
タップ抽出部65は、教師データ記憶部62に記憶された教師データを、順次、注目教師データとし、その注目教師データについて、生徒データ記憶部64に記憶された生徒データを抽出することにより、図9のタップ抽出部51が構成するのと同一のタップ構造の予測タップを構成して出力する。なお、タップ抽出部65には、ミスマッチ検出部13(の判定部72)が出力するミスマッチ情報が供給されるようになっており、タップ抽出部65は、図9のタップ抽出部51と同様に、注目教師データについてのミスマッチ情報に基づいて、予測タップのタップ構造を変更するようになっている。
【0130】
タップ抽出部66は、注目教師データについて、生徒データ記憶部64に記憶された生徒データを抽出することにより、図9のタップ抽出部52が構成するのと同一のタップ構造のクラスタップを構成して出力する。なお、タップ抽出部66には、ミスマッチ検出部13が出力するミスマッチ情報が供給されるようになっており、タップ抽出部66は、図9のタップ抽出部52と同様に、注目教師データについてのミスマッチ情報に基づいて、クラスタップのタップ構造を変更するようになっている。
【0131】
クラス分類部67には、タップ抽出部66が出力するクラスタップと、ミスマッチ検出部13が出力するミスマッチ情報が供給されるようになっている。クラス分類部67は、注目教師データについてのクラスタップとミスマッチ情報に基づき、注目教師データについて、図9のクラス分類部53と同一のクラス分類を行い、その結果得られるクラスに対応するクラスコードを、足し込み部68に出力する。
【0132】
足し込み部68は、教師データ記憶部62から、注目教師データを読み出し、その注目教師データと、タップ抽出部65から供給される注目教師データについて構成された予測タップを構成する生徒データを対象とした足し込みを、クラス分類部67から供給されるクラスコードごとに行う。
【0133】
即ち、足し込み部68は、クラス分類部67から供給されるクラスコードに対応するクラスごとに、予測タップ(生徒データ)を用い、式(8)の行列Aにおける各コンポーネントとなっている、生徒データどうしの乗算(xinxim)と、サメーション(Σ)に相当する演算を行う。
【0134】
さらに、足し込み部68は、やはり、クラス分類部67から供給されるクラスコードに対応するクラスごとに、予測タップ(生徒データ)および教師データを用い、式(8)のベクトルvにおける各コンポーネントとなっている、生徒データと教師データの乗算(xinyi)と、サメーション(Σ)に相当する演算を行う。
【0135】
即ち、足し込み部68は、前回、注目教師データとされた教師データについて求められた式(8)における行列Aのコンポーネントと、ベクトルvのコンポーネントを、その内蔵するメモリ(図示せず)に記憶しており、その行列Aまたはベクトルvの各コンポーネントに対して、新たに注目教師データとされた教師データについて、その教師データyiおよび生徒データxin(xim)を用いて計算される、対応するコンポーネントxinximまたはxinyiを足し込む(行列A、ベクトルvにおけるサメーションで表される加算を行う)。
【0136】
そして、足し込み部68は、教師データ記憶部62に記憶された教師データすべてを注目教師データとして、上述の足し込みを行うことにより、各クラスについて、式(8)に示した正規方程式をたてると、その正規方程式を、タップ係数算出部69に供給する。
【0137】
タップ係数算出部69は、足し込み部68から供給されるクラスごとの正規方程式を解くことにより、各クラスごとのタップ係数を求めて出力する。
【0138】
次に、図12のフローチャートを参照して、図11の学習装置の処理(学習処理)について、説明する。
【0139】
まず最初に、ステップS31において、教師データ生成部61と生徒データ生成部63が、学習用データ記憶部11に記憶された学習用データから、教師データと生徒データを、それぞれ生成する。教師データは、教師データ生成部61から教師データ記憶部62に供給されて記憶され、生徒データは、生徒データ生成部63から生徒データ記憶部64に供給されて記憶される。
【0140】
その後、タップ抽出部65は、教師データ記憶部62に記憶された教師データのうち、まだ、注目教師データとしていないものを、注目教師データとする。そして、ステップS32において、符号化部12は、学習用データ記憶部11に記憶された学習用データを符号化し、これにより、注目教師データに対応する符号化データ(注目教師データに対応する学習用データを符号化したもの)を得て、ミスマッチ検出部13に供給する。
【0141】
ミスマッチ検出部13は、符号化部12から供給される符号化データから、注目教師データについてのミスマッチ情報を生成し、学習処理部14のタップ抽出部65および66、並びにクラス分類部67に供給する。
【0142】
そして、ステップS34に進み、タップ抽出部65が、ミスマッチ情報に基づき、注目教師データについて、生徒データ記憶部64に記憶された生徒データを読み出して予測タップを構成し、足し込み部68に供給するとともに、タップ抽出部66が、やはり、ミスマッチ情報に基づき、注目教師データについて、生徒データ記憶部64に記憶された生徒データを読み出してクラスタップを構成し、クラス分類部67に供給する。
【0143】
クラス分類部67は、ステップS35において、注目教師データについてのクラスタップとミスマッチ情報に基づき、注目教師データについてクラス分類を行い、その結果得られるクラスに対応するクラスコードを、足し込み部68に出力する。
【0144】
足し込み部68は、ステップS36において、教師データ記憶部62から注目教師データを読み出し、その注目教師データと、タップ抽出部65からの予測タップを用い、式(8)の行列Aとベクトルvのコンポーネントを計算する。さらに、足し込み部68は、既に得られている行列Aとベクトルvのコンポーネントのうち、クラス分類部67からのクラスコードに対応するものに対して、注目データと予測タップから求められた行列Aとベクトルvのコンポーネントをそれぞれ足し込み、ステップS37に進む。
【0145】
ステップS37では、タップ抽出部65が、教師データ記憶部62に、まだ、注目教師データとしていない教師データが記憶されているかどうかを判定する。ステップS37において、注目教師データとしていない教師データが、まだ、教師データ記憶部62に記憶されていると判定された場合、タップ抽出部65は、まだ注目教師データとしていない教師データを、新たに、注目教師データとして、ステップS32に戻り、以下、同様の処理が繰り返される。
【0146】
また、ステップS37において、注目教師データとしていない教師データが、教師データ記憶部62に記憶されていないと判定された場合、足し込み部68は、いままでの処理によって得られたクラスごとの行列Aおよびベクトルvのコンポーネントで構成される式(8)の正規方程式を、タップ係数算出部69に供給し、ステップS38に進む。
【0147】
ステップS38では、タップ係数算出部69は、足し込み部68から供給される各クラスごとの正規方程式を解くことにより、各クラスごとに、タップ係数を求めて出力し、処理を終了する。
【0148】
なお、学習用データ記憶部11に記憶されている学習用データの数が十分でないこと等に起因して、タップ係数を求めるのに必要な数の正規方程式が得られないクラスが生じることがあり得るが、そのようなクラスについては、タップ係数算出部69は、例えば、デフォルトのタップ係数を出力するようになっている。
【0149】
次に、図13は、符号化データが画像データをMPEG2方式で符号化したものである場合の、図6の復号装置の第1の詳細構成例を示している。
【0150】
図13の実施の形態では、復号制御情報抽出部21は、逆VLC部111で構成されている。逆VLC部111は、例えば、後述するMPEGデコーダ116を構成する逆VLC部121(図14)と同様に構成されており、符号化データから、複数の復号制御情報としての、例えば、DCTタイプ、ピクチャタイプ、マクロブロック(MB)タイプ、動きベクトルを抽出し、判定部22に供給する。
【0151】
判定部22は、フィールド/フレーム判定部112、イントラ/ノンイントラ判定部113、静動判定部114、およびミスマッチ情報生成部115から構成されている。
【0152】
フィールド/フレーム判定部112は、逆VLC部111が出力するDCTタイプに基づいて、注目データに対応する画素を有するブロック(以下、適宜、注目ブロックという)が、フレームDCTモードとフィールドDCTモードのうちのいずれでDCT変換されたかを判定し、その判定結果を、ミスマッチ情報生成部115に供給する。
【0153】
イントラ/ノンイントラ判定部113は、逆VLC部111が出力するピクチャタイプとマクロブロックタイプに基づいて、注目ブロック(を含むマクロブロック)が、イントラ符号化とノンイントラ符号化のうちのいずれで符号化されているのかを判定し、その判定結果を、ミスマッチ情報生成部115に供給する。
【0154】
静動判定部114は、逆VLC部111が出力する動きベクトルに基づいて、注目ブロックの動きの有無(注目ブロックに表示された画像の動きの有無)を判定し、その判定結果を、ミスマッチ情報生成部115に供給する。
【0155】
ミスマッチ情報生成部115は、フィールド/フレーム判定部112、イントラ/ノンイントラ判定部113、および静動判定部114の出力に基づいて、逆VLC部111が出力する注目ブロック(を含むマクロブロック)のDCTタイプの正しさを判定し、その判定結果としてのミスマッチ情報を生成して、クラス分類適応処理部32に供給する。
【0156】
ここで、図13の実施の形態では、前処理部31は、MPEGデコーダ116で構成されており、MPEGデコーダ116は、符号化データをMPEG2方式で復号し、その結果得られる復号画像データを、前処理データとして、クラス分類適応処理部32に供給する。
【0157】
次に、図14は、図13のMPEGデコーダ116の構成例を示している。
【0158】
符号化データは、逆VLC部121に供給される。逆VLC部121は、符号化データから、量子化DCT係数(量子化されたDCT係数)のVLCコード(量子化DCT係数を可変長符号化したもの)を分離するとともに、量子化ステップ、動きベクトル、ピクチャタイプ、テンポラルリファレンス、その他の復号制御情報を分離する。
【0159】
そして、逆VLC部121は、量子化DCT係数のVLCコードを逆VLC処理することで、量子化DCT係数に復号し、逆量子化部122に供給する。さらに、逆VLC部121は、量子化ステップを逆量子化部122に、動きベクトルを動き補償部125に、ピクチャタイプをメモリ126に、テンポラルリファレンスをピクチャ選択部127に、それぞれ供給する。
【0160】
逆量子化部122は、逆VLC部121から供給される量子化DCT係数を、同じく逆VLC部121から供給される量子化ステップで逆量子化し、その結果得られるDCT係数を、逆DCT変換部123に供給する。逆DCT変換部123は、逆量子化部122から供給されるDCT係数を、逆DCT変換し、演算部124に供給する。
【0161】
演算部124には、逆DCT変換部123の出力の他、動き補償部125の出力も供給されるようになっており、演算部124は、逆DCT変換部123の出力に対して、動き補償部125の出力を、必要に応じて加算することにより、復号画像データを得て出力する。
【0162】
即ち、MPEG符号化では、ピクチャタイプとして、I,P,Bの3つが定義されており、各ピクチャは、横×縦が8×8画素のブロック単位で、DCT変換されるが、その際、Iピクチャのブロックは、他のフレームまたはフィールドを参照せずに(予測画像との差分が計算されずに)イントラ(intra)符号化され、Pピクチャのブロックは、イントラ符号化、または前方予測符号化され、Bピクチャのブロックは、イントラ符号化、前方予測符号化、後方予測符号化、または両方向予測符号化される。
【0163】
ここで、前方予測符号化では、符号化対象のブロックのフレーム(またはフィールド)より時間的に先行するフレーム(またはフィールド)の画像を参照画像として、その参照画像を動き補償することにより得られる、符号化対象のブロックの予測画像と、符号化対象のブロックとの差分が求められ、その差分値、即ち、残差画像がDCT変換される。
【0164】
また、後方予測符号化では、符号化対象のブロックのフレームより時間的に後行するフレームの画像を参照画像として、その参照画像を動き補償することにより得られる、符号化対象のブロックの予測画像と、符号化対象のブロックとの差分が求められ、その差分値(残差画像)がDCT変換される。
【0165】
さらに、両方向予測符号化では、符号化対象のブロックのフレームより時間的に先行するフレームと後行するフレームの2フレーム(またはフィールド)の画像を参照画像として、その参照画像を動き補償することにより得られる、符号化対象のブロックの予測画像と、符号化対象のブロックとの差分が求められ、その差分値(残差画像)がDCT変換される。
【0166】
従って、ブロックが、ノンイントラ(non-intra)符号化(前方予測符号化、後方予測符号化、または両方向予測符号化)されている場合、逆DCT変換部123の出力は、残差画像(元の画像と、その予測画像との差分値)を復号したものとなっており、演算部124は、この残差画像の復号結果(以下、適宜、復号残差画像という)と、動き補償部125から供給される予測画像とを加算することで、ノンイントラ符号化されたブロックを復号し、その結果得られる復号画像データを出力する。
【0167】
一方、逆DCT変換部123が出力するブロックが、イントラ符号化されたものであった場合には、逆DCT変換部123の出力は、元の画像を復号したものとなっており、演算部124は、逆DCT変換部123の出力を、そのまま、復号画像データとして出力する。
【0168】
演算部124が出力する復号画像データは、メモリ126とピクチャ選択部127に供給される。
【0169】
メモリ126は、演算部124から供給される復号画像データが、IピクチャまたはPピクチャの画像データである場合、その復号画像データを、その後に復号される符号化データの参照画像として一時記憶する。ここで、MPEG2では、Bピクチャは参照画像とされないことから、演算部124から供給される復号画像が、Bピクチャの画像である場合には、メモリ126では、Bピクチャの復号画像は記憶されない。なお、メモリ126は、演算部124から供給される復号画像が、I,P,Bのうちのいずれのピクチャであるかは、逆VLC部121から供給されるピクチャタイプを参照することにより判断する。
【0170】
ピクチャ選択部127は、演算部124が出力する復号画像、またはメモリ126に記憶された復号画像のフレーム(またはフィールド)を、表示順に選択して出力する。即ち、MPEG2方式では、画像のフレーム(またはフィールド)の表示順と復号順(符号化順)とが一致していないため、ピクチャ選択部127は、復号順に得られる復号画像のフレーム(またはフィールド)を表示順に並べ替えて出力する。なお、ピクチャ選択部127は、表示順を、逆VLC部121から供給されるテンポラルリファレンスを参照することにより判断する。
【0171】
一方、動き補償部125は、逆VLC部121が出力する動きベクトルを受信するとともに、参照画像となるフレーム(またはフィールド)を、メモリ126から読み出し、その参照画像に対して、逆VLC部121からの動きベクトルにしたがった動き補償を施し、その結果得られる予測画像を、演算部124に供給する。演算部124では、上述したように、動き補償部125からの予測画像と、逆DCT変換部123が出力する残差画像と加算され、これにより、ノンイントラ符号化(予測符号化)されたブロックが復号される。
【0172】
次に、図15のフローチャートを参照して、図13のミスマッチ情報生成部115の処理について説明する。
【0173】
ミスマッチ情報生成部115は、まず最初に、ステップS41において、注目ブロック(を含むマクロブロック)が、イントラ符号化されたものであるか、またはノンイントラ符号化されたものであるかを、イントラ/ノンイントラ判定部113の出力に基づいて判定する。
【0174】
ここで、イントラ/ノンイントラ判定部113は、注目ブロックのフレームのピクチャタイプが、Iピクチャを表している場合、注目ブロックがイントラ符号化されていると判定する。また、イントラ/ノンイントラ判定部113は、注目ブロックのフレームのピクチャタイプが、PまたはBピクチャを表している場合には、注目ブロックを含むマクロブロック(以下、適宜、注目マクロブロックという)のマクロブロックタイプに基づいて、注目ブロックがイントラ符号化またはノンイントラ符号化されているかを判定する。
【0175】
ステップS41において、注目ブロックがノンイントラ符号化されていると判定された場合、ステップS42に進み、ミスマッチ情報生成部115は、注目ブロックが、動いている画像を表示しているブロック(以下、適宜、動きブロックという)であるか、または静止している画像を表示しているブロック(以下、適宜、静止ブロックという)であるかを、静動判定部114の出力に基づいて判定する。
【0176】
ここで、静動判定部114は、ノンイントラ符号化されているブロックについては、そのブロックを含むマクロブロックの動きベクトルの大きさが、所定の閾値εより大(または以上)である場合、そのノンイントラ符号化されているブロックが動きブロックであると判定する。また、静動判定部114は、ノンイントラ符号化されているブロックを含むマクロブロックの動きベクトルの大きさが、所定の閾値ε以下(または未満)である場合、そのノンイントラ符号化されているブロックが静止ブロックであると判定する。
【0177】
ステップS42において、注目ブロックが動きブロックであると判定された場合、ステップS45に進み、後述する処理が行われる。
【0178】
また、ステップS42において、注目ブロックが静止ブロックであると判定された場合、ステップS43に進み、ミスマッチ情報生成部115は、注目データのミスマッチ情報として、注目データのDCTタイプ(注目マクロブロックのDCTタイプ)が正しいことを表す、例えば、1ビットの0を生成して出力し、処理を終了する。
【0179】
一方、ステップS41において、注目ブロックがイントラ符号化されていると判定された場合、ステップS44に進み、ミスマッチ情報生成部115は、注目ブロックが、動きブロックまたは静止ブロックのうちのいずれであるかを、静動判定部114の出力に基づいて判定する。
【0180】
ここで、静動判定部114は、イントラ符号化されているブロックについては、例えば、そのブロックの、1フレーム前のフレームにおける対応するブロック(以下、適宜、対応前ブロックという)と、1フレーム後のフレームにおける対応するブロック(以下、適宜、対応後ブロックという)のうちのいずれか一方、または両方の動きベクトルと、所定の閾値εとの大小関係によって、ノンイントラ符号化されているブロックにおける場合と同様に、動きブロックまたは静止ブロックの別を判定する。あるいは、静動判定部114は、例えば、イントラ符号化されているブロックについての対応前ブロックと対応後ブロックのうちのいずれか一方、または両方が動きブロックである場合、そのイントラ符号化されているブロックも動きブロックであると判定し、対応前ブロックと対応後ブロックのうちの両方またはいずれか一方が静止ブロックである場合、そのイントラ符号化されているブロックも静止ブロックであると判定する。
【0181】
ステップS44において、注目ブロックが静止ブロックであると判定された場合、ステップS43に進み、上述したように、ミスマッチ情報生成部115は、注目データのミスマッチ情報として、注目データのDCTタイプが正しいことを表す1ビットの0を生成して出力し、処理を終了する。
【0182】
また、ステップS44において、注目ブロックが動きブロックであると判定された場合、ステップS45に進み、ミスマッチ情報生成部115は、注目ブロックのDCTタイプが、フレームDCTモードまたはフィールドDCTモードのうちのいずれであるかを、フィールド/フレーム判定部112の出力に基づいて判定する。
【0183】
ステップS45において、注目ブロックのDCTタイプが、フィールドDCTモードであると判定された場合、ステップS43に進み、上述したように、ミスマッチ情報生成部115は、注目データのミスマッチ情報として、注目データのDCTタイプが正しいことを表す1ビットの0を生成して出力し、処理を終了する。
【0184】
また、ステップS45において、注目ブロックのDCTタイプが、フレームDCTモードであると判定された場合、ステップS46に進み、ミスマッチ情報生成部115は、注目データのミスマッチ情報として、注目データのDCTタイプ(注目マクロブロックのDCTタイプ)が正しくないことを表す、例えば、1ビットの1を生成して出力し、処理を終了する。
【0185】
図15の実施の形態によれば、例えば、図16に示すように、隣接する2×2個のマクロブロックMB#1,#2,#3,#4において、水平方向に移動している円形の物体が表示されている場合において、右上のマクロブロックMB#2のDCTタイプがフレームDCTモードであり、他の3つのマクロブロックMB#1,#3、および#4のDCTタイプがフィールドDCTモードであるときには、ミスマッチ情報生成部115において、以下のようなミスマッチ情報が生成される。
【0186】
即ち、マクロブロックMB#1,#2,#3,#4それぞれを構成するブロックは、いずれも、動きブロックであり、フィールドDCTモードでDCT変換すべきである。従って、DCTタイプがフィールドDCTモードになっているマクロブロックMB#1,#3,#4それぞれを構成するブロックのデータが注目データとされた場合には、ミスマッチ情報として、DCTタイプが正しいことを表す1ビットの0が生成される。また、DCTタイプがフレームDCTモードになっているマクロブロックMB#2を構成するブロックのデータが注目データとされた場合には、ミスマッチ情報として、DCTタイプが正しくないことを表す1ビットの1が生成される。
【0187】
なお、図15の実施の形態では、注目ブロックが動きブロックであり、かつそのDCTタイプがフレームDCTモードになっている場合にのみ、DCTタイプが正しくないことを表すミスマッチ情報を生成し、他の場合には、DCTタイプが正しいことを表すミスマッチ情報を生成するようにしたが、その他、例えば、注目ブロックが動きブロックであり、かつそのDCTタイプがフレームDCTモードになっている場合と、注目ブロックが静止ブロックであり、かつそのDCTタイプがフィールドDCTモードになっている場合に、DCTタイプが正しくないことを表すミスマッチ情報を生成し、注目ブロックが動きブロックであり、かつそのDCTタイプがフィールドDCTモードになっている場合と、注目ブロックが静止ブロックであり、かつそのDCTタイプがフレームDCTモードになっている場合に、DCTタイプが正しいことを表すミスマッチ情報を生成するようにすることなども可能である。
【0188】
また、図15の実施の形態では、説明を簡単にするために、DCTタイプが正しいか、正しくないかを表す1ビットのミスマッチ情報を生成するようにしたが、ミスマッチ情報としては、その他、例えば、注目データのDCTタイプと、その注目データを含むブロック(注目ブロック)が、本来、フレームDCTモードまたはフィールドDCTモードのうちのいずれでDCT変換すべきものであるかを表す情報(以下、適宜、ブロックタイプという)とのセットを生成するようにすることも可能である。
【0189】
ここで、ブロックタイプは、例えば、注目ブロックが動きブロックである場合には、フィールドDCTモードを表すものとし、注目ブロックが静止ブロックである場合には、フレームDCTモードを表すものとするようにすることが可能である。
【0190】
次に、図13の実施の形態におけるクラス分類適応処理部32(図9)の処理について説明する。
【0191】
クラス分類適応処理部32では、前処理部31を構成する図14で説明したMPEGデコーダ116が出力する復号画像データを対象に、クラス分類適応処理が行われ、その結果得られる適応処理データが、後処理部33に出力される。後処理部33は、クラス分類適応処理部32からの適応処理データを、そのまま、高画質の画像データ(高画質画像データ)として出力する。
【0192】
従って、図13の実施の形態では、クラス分類適応処理部32においてクラス分類適応処理が行われることにより、前処理部31のMPEGデコーダ116が出力する、符号化データをMPEG方式で復号した復号画像データが、高画質画像データに変換されて出力される。
【0193】
即ち、クラス分類適応処理部32(図9)では、前処理部31のMPEGデコーダ116が出力する復号画像データが、タップ抽出部51と52に供給される。
【0194】
タップ抽出部51は、まだ、注目データとしていない高画質画像データの画素を注目データとして、その注目データ(の画素値)を予測するのに用いる復号画像データの幾つか(の画素)を、予測タップとして抽出する。タップ抽出部52も、注目データをクラス分類するのに用いる復号画像データの幾つかを、クラスタップとして抽出する。
【0195】
ここで、上述したように、タップ抽出部51および52には、判定部22からミスマッチ情報も供給されるようになっており、タップ抽出部51と52は、ミスマッチ情報に基づき、予測タップとクラスタップの構造を、それぞれ変更するようになっている。
【0196】
即ち、例えば、いま、上述したような、注目ブロックのDCTタイプとブロックタイプとのセットが、注目データについてのミスマッチ情報として、判定部22(のミスマッチ情報生成部115(図13))からクラス分類適応処理部32に供給されるものとすると、タップ抽出部51は、ミスマッチ情報としての、注目ブロックのDCTタイプとブロックタイプとのセットを受信し、MPEGデコーダ116から供給される復号画像データから、例えば、図17に示すようなタップ構造設定テーブルにしたがったタップ構造の予測タップを抽出する。
【0197】
即ち、タップ抽出部51は、ミスマッチ情報としてのDCTタイプとブロックタイプが、いずれもフィールドDCTモードである場合、後述するフィールドタップのみからなるパターンAのタップ構造の予測タップを構成する。また、タップ抽出部51は、ミスマッチ情報としてのDCTタイプとブロックタイプが、それぞれフィールドDCTモードとフレームDCTモードである場合、フィールドタップの数が、後述するフレームタップの数より多いパターンBのタップ構造の予測タップを構成する。さらに、タップ抽出部51は、ミスマッチ情報としてのDCTタイプとブロックタイプが、それぞれフレームDCTモードとフィールドDCTモードである場合、フレームタップの数が、フィールドタップの数より多いパターンCのタップ構造の予測タップを構成する。また、タップ抽出部51は、ミスマッチ情報としてのDCTタイプとブロックタイプが、いずれもフレームDCTモードである場合、フレームタップのみからなるパターンDのタップ構造の予測タップを構成する。
【0198】
ここで、図18は、パターンA乃至Dのタップ構造を示している。なお、図18において、○印が、復号画像データの画素を表している。また、斜線を付してある○印は、フィールドタップとなっている画素を表し、●印は、フレームタップとなっている画素を表している。
【0199】
図18Aは、パターンAのタップ構造を示している。パターンAのタップ構造は、例えば、注目データに対応する復号画像データの画素(以下、適宜、注目画素という)、注目画素の左右それぞれに隣接する2画素、注目画素の上方向に1画素おいて隣接する画素、その画素の左右それぞれに隣接する2画素、注目画素の上方向に3画素おいて隣接する画素、その画素の左右それぞれに隣接する2画素、注目画素の下方向に1画素おいて隣接する画素、その画素の左右それぞれに隣接する2画素、注目画素の下方向に3画素おいて隣接する画素、その画素の左右それぞれに隣接する2画素の合計25画素で構成される。
【0200】
ここで、フィールドタップとは、例えば、その上下に隣接する2画素が、いずれもタップ(ここでは、予測タップまたはクラスタップ)となっていない画素を意味する。図18AのパターンAのタップ構造では、いずれのタップも、その上下に隣接する画素がタップになっていないので、すべてフィールドタップである。
【0201】
図18Bは、パターンBのタップ構造を示している。パターンBのタップ構造は、例えば、注目画素、注目画素の左右それぞれに隣接する2画素、注目画素の上方向に1画素おいて隣接する画素の左右それぞれに隣接する2画素、注目画素の上方向に3画素おいて隣接する画素の左右それぞれに隣接する1画素、注目画素の下方向に1画素おいて隣接する画素の左右それぞれに隣接する2画素、注目画素の下方向に3画素おいて隣接する画素の左右それぞれに隣接する1画素、注目画素の上に隣接する4画素、注目画素の下に隣接する4画素の合計25画素で構成される。
【0202】
ここで、フレームタップとは、その上または下に隣接する画素のうちの少なくとも一方がタップとなっている画素を意味する。図18BのパターンBのタップ構造では、注目画素と、注目画素の上下それぞれに隣接する4画素の合計9画素がフレームタップとなっており、残りの16画素がフィールドタップとなっている。
【0203】
図18Cは、パターンCのタップ構造を示している。パターンCのタップ構造は、例えば、注目画素、注目画素の左右それぞれに隣接する2画素、注目画素の上方向に1画素おいて隣接する画素の左右それぞれに隣接する2画素、注目画素の下方向に1画素おいて隣接する画素の左右それぞれに隣接する2画素、注目画素の上下それぞれに隣接する4画素、注目画素の上に隣接する画素の左右それぞれに隣接する1画素、注目画素の下に隣接する画素の左右それぞれに隣接する1画素の合計25画素で構成される。
【0204】
パターンCのタップ構造では、注目画素、注目画素の上下それぞれに隣接する4画素、注目画素の左に隣接する画素、その画素の上下それぞれに隣接する2画素、注目画素の右に隣接する画素、その画素の上下それぞれに隣接する2画素の合計19画素がフレームタップとなっており、残りの6画素がフィールドタップになっている。
【0205】
図18Dは、パターンDのタップ構造を示している。パターンDのタップ構造は、例えば、注目画素を中心として隣接する、横×縦が5×5画素の合計25画素で構成される。
【0206】
パターンDのタップ構造では、いずれのタップも、その上または下の少なくとも一方の画素がタップとなっているので、すべてフレームタップである。
【0207】
タップ抽出部51(図9)は、ミスマッチ情報に基づき、注目データについて、図18に示したパターンA乃至Dのうちのいずれかのタップ構造の予測タップを構成する。
【0208】
タップ抽出部52も、タップ抽出部51と同様に、ミスマッチ情報に基づくタップ構造のクラスタップを構成する。
【0209】
なお、ここでは、ミスマッチ情報に基づいて、予測タップとして抽出する復号画像データの画素の位置を変更するだけで、予測タップを構成する画素数は、25画素のまま変更しないようにしたが、タップ抽出部51では、ミスマッチ情報に基づいて、予測タップを構成する復号画像データの画素の数を変更するようにすることも可能である。
【0210】
また、前処理部31のMPEGデコーダ116では、符号化データにおける量子化DCT係数が、その符号化データに含まれる動きベクトルや、DCTタイプ、量子化ステップ、ピクチャタイプ、その他の復号制御情報を用いて、画像に復号されるが、タップ抽出部51では、このような復号制御情報も、予測タップに含めることが可能である。さらに、この場合、ミスマッチ情報に基づいて、予測タップとする復号制御情報を変更することも可能である。さらに、タープ抽出部51では、符号化データに含まれる量子化DCT係数や、その量子化DCT係数を逆量子化して得られるDCT係数も、予測タップに含めるようにすることが可能である。
【0211】
タップ抽出部52でも、タップ抽出部51における場合と同様にして、クラスタップを構成することができる。
【0212】
タップ抽出部51で得られた予測タップは、予測部54に供給され、タップ抽出部52で得られたクラスタップは、クラス分類部53に供給される。
【0213】
クラス分類部53には、クラスタップの他、注目データについてのミスマッチ情報も供給され、クラス分類部53では、上述したように、クラスタップとミスマッチ情報に基づき、注目データがクラス分類される。
【0214】
即ち、クラス分類部53は、例えば、注目データについてのクラスタップに対して、例えば、ADRC(Adaptive Dynamic Range Coding)処理等の圧縮処理を施すことによりクラス分類を行い、クラスコードを求める。
【0215】
ここで、ADRC処理を用いたクラス分類では、クラスタップを構成するデータ(ここでは、画素値)が、ADRC処理され、例えば、その結果得られるADRCコードが、クラスコードとされる。
【0216】
なお、KビットADRCにおいては、例えば、クラスタップを構成するデータの最大値MAXと最小値MINが検出され、DR=MAX-MINを、集合の局所的なダイナミックレンジとし、このダイナミックレンジDRに基づいて、クラスタップを構成するデータがKビットに再量子化される。即ち、クラスタップを構成する各データから、最小値MINが減算され、その減算値がDR/2Kで除算(量子化)される。そして、以上のようにして得られる、クラスタップを構成するKビットの各データを、所定の順番で並べたビット列が、ADRCコードとして出力される。従って、クラスタップが、例えば、1ビットADRC処理された場合には、そのクラスタップを構成する各データは、最小値MINが減算された後に、最大値MAXと最小値MINとの平均値で除算され(小数点以下切り捨て)、これにより、各データが1ビットとされる(2値化される)。そして、その1ビットのデータを所定の順番で並べたビット列が、ADRCコードとして出力される。
【0217】
なお、クラス分類部53には、例えば、クラスタップを構成するデータのレベル分布のパターンを、そのままクラスコードとして出力させることも可能である。しかしながら、この場合、クラスタップが、N個のデータで構成され、各データに、Kビットが割り当てられているとすると、クラス分類部24が出力するクラスコードの場合の数は、(2N)K通りとなり、データのビット数Kに指数的に比例した膨大な数となる。
【0218】
従って、クラス分類部53においては、クラスタップの情報量を、上述のADRC処理や、あるいはベクトル量子化等によって圧縮することにより、クラス分類を行うのが好ましい。
【0219】
ここで、クラスタップを用いてクラス分類を行うことにより得られるクラスコードを、以下、適宜、クラスタップコードという。
【0220】
クラス分類部53は、上述のようにしてクラスタップコードを求める他、注目データについてのミスマッチ情報としての、例えば、DCTタイプとブロックタイプのセットを用いてクラス分類を行うことにより、2ビットのクラスコードを求める。
【0221】
即ち、いま、ミスマッチ情報を用いたクラス分類によって得られるクラスコードを、ミスマッチコードというものとすると、クラス分類部53は、ミスマッチ情報としてのDCTタイプとブロックタイプが、いずれもフィールドDCTモードを表している場合には、2ビットのミスマッチコードを、例えば「00」とする。また、クラス分類部53は、DCTタイプとブロックタイプが、それぞれフィールドDCTモードとフレームDCTモードを表している場合には、2ビットのミスマッチコードを、例えば「01」とする。さらに、クラス分類部53は、DCTタイプとブロックタイプが、それぞれフレームDCTモードとフィールドDCTモードを表している場合には、2ビットのミスマッチコードを、例えば「10」とする。また、クラス分類部53は、DCTタイプとブロックタイプが、いずれもフレームDCTモードを表している場合には、2ビットのミスマッチコードを、例えば「11」とする。
【0222】
その後、クラス分類部53は、例えば、注目データについて得られたクラスタップコードの上位ビットとして、注目データについて得られたミスマッチコードを付加し、このクラスタップコードとミスマッチコードとで構成されるコードを、注目データについての最終的なクラスコードとして出力する。
【0223】
なお、クラス分類部53では、その他、例えば、DCTタイプ以外の復号制御情報にも基づいて、クラス分類を行うようにすることが可能である。
【0224】
クラス分類部53が出力するクラスコードは、係数メモリ41に供給される。係数メモリ41では、そのクラスコードに対応するタップ係数が読み出され、予測部54に供給される。
【0225】
予測部54は、タップ抽出部51が出力する予測タップと、係数メモリ41から取得したタップ係数とを用いて、式(1)に示した線形予測演算を行う。これにより、予測部54は、注目データ(の予測値)、即ち、高画質画像データを求め、後処理部33に供給する。
【0226】
後処理部33では、上述したように、クラス分類適応処理部32(の予測部54)の出力、即ち、高画質画像データが、そのまま出力される。
【0227】
なお、上述の場合には、注目ブロックのDCTタイプが正しいか、正しくないかを表す1ビットの情報や、注目ブロックのDCTタイプとブロックタイプのセットを、ミスマッチ情報とするようにしたが、ミスマッチ情報としては、その他、例えば、注目ブロックのDCTタイプが、どの程度正しいかを表す評価値などを採用することが可能である。
【0228】
注目ブロックのDCTタイプの正しいの程度を表す評価値としては、例えば、注目ブロックのDCTタイプがフィールドDCTモードである場合には、注目ブロック(注目マクロブロック)の動きベクトルの大きさを採用し、注目ブロックのDCTタイプがフレームDCTモードである場合には、動きベクトルの最大の大きさから、注目ブロックの動きベクトルの大きさを減算して得られる減算値を採用することが可能である。この場合、注目ブロックのDCTタイプがフィールドDCTモードであるときには、注目ブロックの動きベクトルの大きさが大きいほど、また、注目ブロックのDCTタイプがフレームDCTモードであるときには、注目ブロックの動きベクトルの大きさが小さいほど、評価値が大きくなる。
【0229】
そして、この場合、タップ抽出部51や52では、例えば、ミスマッチ情報としての評価値を、1つ以上の閾値と比較し、その比較結果に基づいて、予測タップやクラスタップのタップ構造を変更するようにすることが可能である。また、クラス分類部53では、例えば、ミスマッチ情報としての評価値を量子化し、その量子化値を、ミスマッチコードとして用いることが可能である。
【0230】
さらに、上述の場合には、注目ブロックが動きブロックか、または静止ブロックであるかを、注目ブロックの動きベクトル、あるいは対応前ブロックまたは対応後ブロックの動きベクトルや、静止ブロックもしくは動きブロックの別に基づいて判定するようにしたが、注目ブロックが動きブロックまたは静止ブロックのうちのいずれであるかの判定は、その他、例えば、注目ブロックや、対応前ブロックまたは対応後ブロックの周辺のブロックの動きベクトル等にも基づいて判定するようにすることが可能である。
【0231】
次に、図19は、図13の係数メモリ41に記憶させるタップ係数を学習する場合の、図11の学習装置の詳細構成例を示している。
【0232】
図19の実施の形態では、学習用データ記憶部11に、学習用データとして、高画質の画像データ(学習用画像データ)が記憶されている。
【0233】
図19の実施の形態において、符号化部12は、MPEGエンコーダ131で構成されており、MPEGエンコーダ131は、学習用データ記憶部11から学習用画像データを読み出して、MPEG2方式で符号化し、その結果得られる符号化データを出力する。
【0234】
即ち、図20は、図19のMPEGエンコーダ131の構成例を示している。
【0235】
学習用画像データは、動きベクトル検出部141と演算部143に供給される。動きベクトル検出部141は、学習用画像データを対象に、例えば、ブロックマッチングを行うことにより、学習用画像データの動きベクトルを検出し、動き補償部142に供給する。
【0236】
また、演算部143は、必要に応じて、学習用画像データ(原画像)から、動き補償部142から供給される予測画像を減算し、その結果得られる残差画像を、DCT変換部144に供給する。DCT変換部144は、演算部143からの残差画像をDCT変換し、その結果得られるDCT係数を、量子化部145に供給する。量子化部145は、DCT変換部144から供給されるDCT係数を、所定の量子化ステップで量子化することにより、量子化DCT係数を得て、VLC部146および逆量子化部147に供給する。
【0237】
VLC部146は、量子化部145から供給される量子化DCT係数をVLCコードに可変長符号化し、さらに、必要な復号制御情報(例えば、動きベクトル検出部141で検出された動きベクトルや、量子化部145で用いられた量子化ステップなど)を多重化することで、符号化データを得て出力する。
【0238】
一方、逆量子化部147では、量子化部145が出力する量子化DCT係数が逆量子化され、DCT係数が求められて、逆DCT変換部148に供給される。逆DCT変換部148は、逆量子化部147からのDCT係数を、逆DCT変換することにより、残差画像に復号し、演算部149に供給する。
【0239】
演算部149には、逆DCT変換部148から、残差画像が供給される他、動き補償部142から、その残差画像を求めるのに演算部143で用いられたのと同一の予測画像が供給されるようになっており、演算部149は、残差画像と予測画像とを加算することで、元の画像を復号(ローカルデコード)する。この復号画像は、メモリ150に供給され、参照画像として記憶される。
【0240】
そして、動き補償部142では、メモリ150に記憶された参照画像が読み出され、動きベクトル検出部141から供給される動きベクトルにしたがって動き補償が施されることにより、予測画像が生成される。この予測画像は、動き補償部142から演算部143および149に供給される。
【0241】
上述したように、演算部143では、動き補償部142からの予測画像を用いて、残差画像が求められ、また、演算部149では、動き補償部142からの予測画像を用いて、元の画像が復号される。
【0242】
図19に戻り、MPEGデコーダ131が出力する符号化データは、復号制御情報抽出部71に供給される。
【0243】
復号制御情報抽出部71は、逆VLC部132で構成されている。逆VLC部132は、図13の逆VLC部111と同様の処理を行い、これにより、符号化データから、複数の復号制御情報としてのDCTタイプ、ピクチャタイプ、マクロブロックタイプ、動きベクトルを抽出し、判定部72に供給する。
【0244】
判定部72は、フィールド/フレーム判定部133、イントラ/ノンイントラ判定部134、静動判定部135、およびミスマッチ情報生成部136で構成されている。そして、フィールド/フレーム判定部133、イントラ/ノンイントラ判定部134、静動判定部135、またはミスマッチ情報生成部136では、復号制御情報抽出部71から供給される複数の復号制御情報としてのDCTタイプ、ピクチャタイプ、マクロブロックタイプ、および動きベクトルを用いて、図13のフィールド/フレーム判定部112、イントラ/ノンイントラ判定部113、静動判定部114、またはミスマッチ情報生成部115における場合とそれぞれ同様の処理が行われ、これにより、適応学習部60において注目教師データとされている教師データについてのミスマッチ情報が生成される。このミスマッチ情報は、ミスマッチ情報生成部136から適応学習部60に供給される。
【0245】
図19の実施の形態では、逆後処理部61Aは、学習用データ記憶部11から学習用画像データを読み出し、そのまま、教師データとして、適応学習部60に出力する。適応学習部60(図11)では、教師データ記憶部62において、逆後処理部61Aからの教師データが記憶される。
【0246】
符号化部63Aは、MPEGエンコーダ137で構成され、MPEGエンコーダ137は、MPEGエンコーダ131と同様に、学習用データ記憶部11から学習用画像データを読み出して、MPEG2方式で符号化し、その結果得られる符号化データを、前処理部63Bに出力する。
【0247】
前処理部63Bは、図14のMPEGデコーダ116と同様に構成されるMPEGデコーダ138で構成され、MPEGデコーダ138は、MPEGエンコーダ137からの符号化データを、MPEG2方式で復号し、その結果得られる復号画像データを、生徒データとして、適応学習部60に出力する。適応学習部60(図11)では、生徒データ記憶部64において、MPEGデコーダ138からの生徒データが記憶される。
【0248】
そして、適応学習部60では、教師データおよび生徒データを用い、生徒データから抽出される予測タップから、式(1)の線形予測演算を行うことにより得られる教師データの予測値の予測誤差を統計的に最小にするタップ係数を求める学習が行われる。
【0249】
即ち、適応学習部60(図11)では、タップ抽出部65が、教師データ記憶部62に記憶された教師データのうち、まだ、注目教師データとしていないものを、注目教師データとし、注目教師データについて、生徒データ記憶部64に記憶された生徒データから予測タップを構成して、足し込み部68に供給する。さらに、タップ抽出部66が、注目教師データについて、生徒データ記憶部64に記憶された生徒データからクラスタップを構成し、クラス分類部67に供給する。
【0250】
ここで、タップ抽出部65および66には、ミスマッチ情報が供給されるようになっており、タップ抽出部65または66それぞれは、ミスマッチ情報に基づき、注目教師データについて、図13で説明したクラス分類適応処理部32のタップ抽出部51または52(図9)が構成するのと同一のタップ構造の予測タップまたはクラスタップを構成する。
【0251】
従って、例えば、タップ抽出部51または52において、図13で説明したように、符号化データに含まれる復号制御情報をも用いて、予測タップまたはクラスタップがそれぞれ構成される場合には、図19の学習装置でも、タップ抽出部65または66(図11)において、復号制御情報をも用いて、予測タップまたはクラスタップがそれぞれ構成される。
【0252】
その後、クラス分類部67(図11)では、注目教師データについてのクラスタップとミスマッチ情報に基づき、注目教師データについて、図13で説明したクラス分類部53における場合と同様のクラス分類を行い、その結果得られるクラスに対応するクラスコードを、足し込み部68に出力する。
【0253】
足し込み部68は、教師データ記憶部62から注目教師データを読み出し、その注目教師データと、タップ抽出部65からの予測タップを用い、式(8)の行列Aとベクトルvのコンポーネントを計算する。さらに、足し込み部68は、既に得られている行列Aとベクトルvのコンポーネントのうち、クラス分類部67からのクラスコードに対応するものに対して、注目教師データと予測タップから求められた行列Aとベクトルvのコンポーネントを足し込む。
【0254】
以上の処理が、教師データ記憶部62に記憶された教師データすべてを、注目教師データとして行われると、足し込み部68は、いままでの処理によって得られたクラスごとの行列Aおよびベクトルvのコンポーネントで構成される式(8)の正規方程式を、タップ係数算出部69に供給し、タップ係数算出部69は、その各クラスごとの正規方程式を解くことにより、各クラスごとに、タップ係数を求めて出力する。
【0255】
なお、図19の学習装置では、例えば、符号化部63AのMPEGエンコーダ137において学習用画像データをMPEG符号化する前に、その学習用画像データの画素数を,1/Nに間引くようにすることで、適応学習部60において、MPEG復号された画像データを、高画質で、かつ画素数をN倍にする(解像度を高くする)タップ係数を得ることができる。
【0256】
次に、図21は、符号化データが画像データをMPEG2方式で符号化したものである場合の、図6の復号装置の第2の詳細構成例を示している。なお、図中、図13における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。
【0257】
図21の実施の形態では、前処理部31が、逆VLC部161、逆量子化部162、演算部163、MPEGデコーダ164、メモリ165、動き補償部166、およびDCT変換部167で構成されている。
【0258】
前処理部31において、符号化データは、逆VLC部161とMPEGデコーダ164に供給される。
【0259】
逆VLC部161は、符号化データから、量子化DCT係数のVLCコードを分離するとともに、量子化ステップ、動きベクトル、その他の復号制御情報を分離する。そして、逆VLC部161は、量子化DCT係数のVLCコードを逆VLC処理することで、量子化DCT係数に復号し、逆量子化部162に供給する。さらに、逆VLC部161は、量子化ステップを、逆量子化部162に、動きベクトルを、動き補償部166に、それぞれ供給する。
【0260】
逆量子化部162は、逆VLC部161から供給される量子化DCT係数を、同じく逆VLC部161から供給される量子化ステップで逆量子化し、その結果得られる8×8画素のブロックのDCT係数を、演算部163に供給する。
【0261】
一方、MPEGデコーダ164では、符号化データが、MPEG方式で復号され、復号画像データが出力される。MPEGデコーダ164が出力する復号画像のうち、参照画像とされ得るIピクチャとPピクチャは、メモリ165に供給されて記憶される。
【0262】
そして、動き補償部166は、メモリ165に記憶された復号画像を参照画像として読み出し、その参照画像に対して、逆VLC部161から供給される動きベクトルにしたがい、動き補償を施すことで、逆量子化部162から演算部163に供給されたブロックの予測画像を生成し、DCT変換部167に供給する。DCT変換部167は、動き補償部166から供給される予測画像をDCT変換し、その結果得られるDCT係数を、演算部163に供給する。
【0263】
演算部163は、逆量子化部162から供給されるブロックの各DCT係数と、DCT変換部167から供給される、対応するDCT係数とを、必要に応じて加算することで、そのブロックの画素値をDCT変換したDCT係数を求める。
【0264】
即ち、逆量子化部162から供給されるブロックがイントラ符号化されているものである場合、逆量子化部162から供給されるブロックのDCT係数は、元の画素値をDCT変換したものとなっているから、演算部163は、逆量子化部162から供給されるブロックのDCT係数を、そのまま出力する。
【0265】
また、逆量子化部162から供給されるブロックがノンイントラ符号化されているものである場合、逆量子化部162から供給されるブロックのDCT係数は、元の画素値と予測画像との差分値(残差画像)をDCT変換したものとなっているから、演算部163は、逆量子化部162から供給されるブロックの各DCT係数と、DCT変換部167から供給される、予測画像をDCT変換して得られるDCT係数の対応するものとを加算することにより、元の画素値をDCT変換して得られるDCT係数を求めて出力する。
【0266】
演算部163が出力するブロックのDCT係数は、前処理データとして、クラス分類適応処理部32に供給される。
【0267】
図21の実施の形態では、クラス分類適応処理部32において、前処理部31が出力するDCT係数を対象に、クラス分類適応処理が行われ、これにより、高画質画像データ(の予測値)が、適応処理データとして求められる。
【0268】
即ち、クラス分類適応処理部32(図9)では、前処理部31が出力するDCT係数が、タップ抽出部51と52に供給される。
【0269】
タップ抽出部51は、まだ、注目データとしていない高画質画像データの画素を注目データとして、その注目データを予測するのに用いる前処理データとしてのDCT係数の幾つかを、予測タップとして抽出する。タップ抽出部52も、注目データをクラス分類するのに用いる前処理データとしてのDCT係数の幾つかを、クラスタップとして抽出する。
【0270】
なお、タップ抽出部51または52は、注目データについてのミスマッチ情報に基づいて、予測タップまたはクラスタップのタップ構造を、それぞれ変更する。
【0271】
即ち、タップ抽出部51は、例えば、注目データのブロック(注目ブロック)のDCT係数すべての他、注目ブロックの上下左右それぞれに隣接するブロックにおける必要なDCT係数を、ミスマッチ情報に応じて抽出して、予測タップを構成する。タップ抽出部51も、タップ抽出部51と同様にして、クラスタップを構成する。
【0272】
そして、タップ抽出部51で得られた予測タップは、予測部54に供給され、タップ抽出部52で得られたクラスタップは、クラス分類部53に供給される。
【0273】
クラス分類部53では、クラスタップと、注目データについてのミスマッチ情報に基づき、図13で説明した場合と同様にして、注目データがクラス分類され、注目データについてのクラスコードが、係数メモリ41に供給される。係数メモリ41では、注目データについてのクラスコードに対応するタップ係数が読み出され、予測部54に供給される。
【0274】
予測部54は、係数メモリ41から供給されるタップ係数を取得し、そのタップ係数と、タップ抽出部51が出力する予測タップとを用いて、式(1)に示した線形予測演算を行う。これにより、予測部54は、注目データ(の予測値)、即ち、高画質画像データを求め、後処理部33に供給する。
【0275】
後処理部33では、クラス分類適応処理部32からの高画質画像データが、そのまま出力される。
【0276】
従って、図21の実施の形態では、クラス分類適応処理部32において、DCT係数が高画質画像データに変換される。
【0277】
次に、図22は、図21の復号装置の係数メモリ41に記憶させるタップ係数を学習する場合の、図11の学習装置の詳細構成例を示している。なお、図中、図19における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。
【0278】
図22の実施の形態では、前処理部63Bが、逆VLC部171、逆量子化部172、演算部173、MPEGデコーダ174、メモリ175、動き補償部176、およびDCT変換部177で構成されており、これらの逆VLC部171乃至DCT変換部177は、図21の逆VLC部161乃至DCT変換部167とそれぞれ同様に構成されている。
【0279】
従って、前処理部63Bでは、符号化部63AのMPEGエンコーダ137が出力する符号化データに対して、図21の前処理部31における場合と同様の処理が施され、これにより得られるDCT係数が、生徒データとして、適応学習部60に供給される。
【0280】
適応学習部60(図11)では、生徒データ記憶部64において、前処理部63Bから供給されるDCT係数が、生徒データとして記憶され、図19で説明した場合と同様に、教師データおよび生徒データを用い、生徒データから抽出される予測タップから、式(1)の線形予測演算を行うことにより得られる教師データの予測値の予測誤差を統計的に最小にするタップ係数を求める学習が行われ、これにより、生徒データとしてのDCT係数を、高画質画像データに変換するクラスごとのタップ係数が求められる。
【0281】
但し、図22の実施の形態において、適応学習部60(図11)では、そのタップ抽出部65または66それぞれにおいて、図21のクラス分類適応処理部32(図9)におけるタップ抽出部51または52が構成するのと同一のタップ構造の予測タップまたはクラスタップが、ミスマッチ情報に基づいて構成される。さらに、図22の適応学習部60(図11)におけるクラス分類部67でも、図21のクラス分類適応処理部32(図9)におけるクラス分類部53と同様のクラス分類が行われる。
【0282】
次に、図23は、符号化データが画像データをMPEG2方式で符号化したものである場合の、図6の復号装置の第3の詳細構成例を示している。なお、図中、図21における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。
【0283】
図23の復号装置は、後処理部33が、逆DCT変換部181で構成されていることを除いて、図21における場合と同様に構成されている。
【0284】
図23の実施の形態では、クラス分類適応処理部32において、前処理部31が出力するDCT係数を対象に、クラス分類適応処理が行われ、これにより、逆DCT変換を行った場合に、高画質画像データを得ることのできるDCT係数(以下、適宜、高画質DCT係数という)(の予測値)が、適応処理データとして求められる。
【0285】
即ち、クラス分類適応処理部32(図9)では、前処理部31が出力する前処理データとしてのDCT係数が、タップ抽出部51と52に供給される。
【0286】
タップ抽出部51は、まだ、注目データとしていない高画質DCT係数を注目データとして、その注目データを予測するのに用いる前処理データとしてのDCT係数の幾つかを、予測タップとして抽出する。即ち、タップ抽出部51は、ミスマッチ情報に基づき、注目データについて、例えば、図21における場合と同様のタップ構造の予測タップを構成する。タップ抽出部52も、ミスマッチ情報に基づき、注目データについて、例えば、図21における場合と同様のタップ構造のクラスタップを構成する。
【0287】
そして、タップ抽出部51で得られた予測タップは、予測部54に供給され、タップ抽出部52で得られたクラスタップは、クラス分類部53に供給される。
【0288】
クラス分類部53では、クラスタップと、注目データについてのミスマッチ情報に基づき、図21における場合と同様にして、注目データがクラス分類され、注目データについてのクラスコードが、係数メモリ41に供給される。係数メモリ41では、注目データについてのクラスコードに対応するタップ係数が読み出され、予測部54に供給される。
【0289】
予測部54は、係数メモリ41が出力するタップ係数を取得し、そのタップ係数と、タップ抽出部51が出力する予測タップとを用いて、式(1)に示した線形予測演算を行う。これにより、予測部54は、注目データ(の予測値)、即ち、高画質DCT係数を求め、後処理部33に供給する。
【0290】
後処理部33では、逆DCT変換部181において、クラス分類適応処理部32が出力する高画質DCT係数が、ブロック単位で逆DCT変換され、これにより、高画質画像データが求められて出力される。
【0291】
次に、図24は、図23の復号装置の係数メモリ41に記憶させるタップ係数を学習する場合の、図11の学習装置の詳細構成例を示している。なお、図中、図22における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。
【0292】
図24の学習装置は、逆後処理部61Aが、DCT変換部191で構成されていることを除いて、図22における場合と同様に構成されている。
【0293】
従って、逆後処理部61Aでは、DCT変換部191において、学習用データ記憶部11から読み出された学習用画像データとしての高画質画像データが、ブロック単位でDCT変換され、その結果得られるDCT係数である高画質DCT係数が、教師データとして、適応学習部60に供給される。
【0294】
適応学習部60(図11)では、教師データ記憶部62において、逆後処理部61Aから供給される高画質DCT係数が、教師データとして記憶され、その教師データと、生徒データ記憶部64に記憶された生徒データとしてのDCT係数(このDCT係数は、画像データをMPEG符号化した符号化データから得たもの)とを用い、生徒データから抽出される予測タップから、式(1)の線形予測演算を行うことにより得られる教師データの予測値の予測誤差を統計的に最小にするタップ係数を求める学習が行われ、これにより、生徒データとしてのDCT係数を、高画質DCT係数に変換するクラスごとのタップ係数が求められる。
【0295】
即ち、いまの場合、生徒データされているDCT係数は、前処理部63Bにおいて、符号化データから求められたものであり、量子化誤差を含んでいるため、そのDCT係数を逆DCT変換して得られる画像は、いわゆるブロック歪み等を有する低画質のものとなる。
【0296】
そこで、適応学習部60では、上述のように、式(1)の線形予測演算を行うことにより得られる教師データ(学習用画像データをDCT変換して得られる高画質DCT係数)の予測値の予測誤差を統計的に最小にするタップ係数を求める学習が行われることにより、生徒データされているDCT係数を、高画質DCT係数に変換するクラスごとのタップ係数が求められる。
【0297】
なお、図24の実施の形態において、適応学習部60(図11)では、そのタップ抽出部65または66それぞれにおいて、図23のクラス分類適応処理部32(図9)におけるタップ抽出部51または52が構成するのと同一のタップ構造の予測タップまたはクラスタップが、ミスマッチ情報に基づいて構成される。さらに、図24の適応学習部60(図11)におけるクラス分類部67でも、図23のクラス分類適応処理部32(図9)におけるクラス分類部53と同様のクラス分類が行われる。
【0298】
以上のように、符号化データに含まれる復号制御情報の正しさを判定し、その判定結果を表すミスマッチ情報に基づいて、符号化データの復号、およびその復号に用いるタップ係数の学習を行うようにしたので、学習においては、復号制御情報の正しさを考慮して、原画像に近い予測値を求めるためのタップ係数を求めることができ、その結果、そのようなタップ係数を用いて、符号化データの復号を行うことで、高画質の画像を得ることが可能となる。
【0299】
即ち、本実施の形態では、DCTタイプの正しさを判定し、その判定結果を考慮して、タップ係数の学習を行うようにしたので、MPEG2方式で復号すれば、自然な動きになる部分については、その部分を、原画像に近い予測値に復号するためのタップ係数を得ることができる他、MPEG2方式で復号すれば、不自然な動きになる部分についても、その部分を、原画像に近い予測値に復号するためのタップ係数を得ることができる。そして、そのようなタップ係数を用い、やはり、DCTタイプの正しさを考慮して、符号化データの復号を行うことにより、高画質の画像を得ることができる。
【0300】
次に、上述した一連の処理は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。
【0301】
そこで、図25は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示している。
【0302】
プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク405やROM403に予め記録しておくことができる。
【0303】
あるいはまた、プログラムは、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory),MO(Magneto Optical)ディスク,DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリなどのリムーバブル記録媒体411に、一時的あるいは永続的に格納(記録)しておくことができる。このようなリムーバブル記録媒体411は、いわゆるパッケージソフトウエアとして提供することができる。
【0304】
なお、プログラムは、上述したようなリムーバブル記録媒体411からコンピュータにインストールする他、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送し、コンピュータでは、そのようにして転送されてくるプログラムを、通信部408で受信し、内蔵するハードディスク405にインストールすることができる。
【0305】
コンピュータは、CPU(Central Processing Unit)402を内蔵している。CPU402には、バス401を介して、入出力インタフェース410が接続されており、CPU402は、入出力インタフェース410を介して、ユーザによって、キーボードや、マウス、マイク等で構成される入力部407が操作等されることにより指令が入力されると、それにしたがって、ROM(Read Only Memory)403に格納されているプログラムを実行する。あるいは、また、CPU402は、ハードディスク405に格納されているプログラム、衛星若しくはネットワークから転送され、通信部408で受信されてハードディスク405にインストールされたプログラム、またはドライブ409に装着されたリムーバブル記録媒体411から読み出されてハードディスク405にインストールされたプログラムを、RAM(Random Access Memory)404にロードして実行する。これにより、CPU402は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU402は、その処理結果を、必要に応じて、例えば、入出力インタフェース410を介して、LCD(Liquid CryStal Display)やスピーカ等で構成される出力部406から出力、あるいは、通信部408から送信、さらには、ハードディスク405に記録等させる。
【0306】
ここで、本明細書において、コンピュータに各種の処理を行わせるためのプログラムを記述する処理ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含むものである。
【0307】
また、プログラムは、1のコンピュータにより処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。
【0308】
なお、本実施の形態では、画像データをMPEG2方式で符号化した場合について説明したが、本発明は、MPEG2方式に限定されるものではなく、その他の非可逆圧縮方式で符号化された画像を復号する場合に適用可能である。
【0309】
また、本実施の形態では、符号化データに含まれる複数の復号制御情報のうちの1つであるDCTタイプの正しさ(適切さ)を、その複数の復号制御情報のうちの他の1つである動きベクトルに基づいて判定し、その判定結果を表すミスマッチ情報に基づいて、符号化データの復号およびタップ係数の学習を行うようにしたが、その他、符号化データに含まれる複数の復号制御情報のうちのDCTタイプ以外の正しさ(適切さ)を、その複数の復号制御情報のうちの他の1以上に基づいて判定し、その判定結果を表すミスマッチ情報に基づいて、符号化データの復号およびタップ係数の学習を行うようにすることが可能である。
【0310】
【発明の効果】
本発明の復号装置および復号方法、並びに第1のプログラムおよび第1の記録媒体によれば、符号化データに含まれるDCTタイプの正しさが、その符号化データに含まれる画像データの動きベクトルに基づいて、ブロック単位の画像データの動きの有無によって判定され、その判定結果を表すミスマッチ情報を出力される。そして、符号化データを復号して得られる低品質な画像よりも高品質な画像の高品質データのうちの、得ようとしている画素単位の高品質データが注目データとされ、注目データを求めるための所定のタップ係数との積和演算に用いる低品質な画像の画素単位の低品質データの幾つかが、予測タップとして抽出され、低品質データに対応する、学習の生徒となる生徒データと、高品質データに対応する、学習の教師となる教師データとを用い、生徒データとタップ係数との積和演算により求められる教師データの予測値の予測誤差を統計的に最小にする学習を行うことにより得られるタップ係数と、予測タップとの積和演算を行うことにより、注目データが求められる。ここで、ミスマッチ情報に基づき、ミスマッチ情報が、DCTタイプが正しいことを表している場合において、DCTタイプがフィールドDCTモードであるとき、注目データのフィールドの低品質データから、予測タップが抽出され、ミスマッチ情報が、DCTタイプが正しいことを表している場合において、DCTタイプがフレームDCTモードであるとき、注目データのフレームの低品質データから、予測タップが抽出され、ミスマッチ情報が、DCTタイプが正しくないことを表している場合、注目データのフィールドとフレームの両方の低品質データから、予測タップが抽出される。従って、符号化データを、高画質の画像データに復号することが可能となる。
【0311】
本発明の学習装置および学習方法、並びに第2のプログラムおよび第2の記録媒体によれば、学習用の画像データから、タップ係数の学習の教師となる教師データが生成されるとともに、生徒となる生徒データが生成される。また、学習用の画像データが符号化され、DCTタイプおよび画像データの動きベクトルを含む学習用の符号化データが出力される。そして、学習用の符号化データに含まれるDCTタイプの正しさが、その学習用の符号化データに含まれる画像データの動きベクトルに基づいて、ブロック単位の画像データの動きの有無によって判定され、その判定結果を表すミスマッチ情報が出力される。さらに、符号化データを復号して得られる低品質な画像よりも高品質な画像の高品質データのうちの、得ようとしている画素単位の高品質データが注目データとされ、注目データを求めるための所定のタップ係数との積和演算に用いる低品質な画像の画素単位の低品質データの幾つかが、予測タップとして抽出され、低品質データに対応する生徒データと、高品質データに対応する教師データとを用い、生徒データとタップ係数との積和演算により求められる教師データの予測値の予測誤差が統計的に最小になるタップ係数が求められ、タップ係数と、予測タップとの積和演算を行うことにより、注目データが求められる。ここで、ミスマッチ情報に基づき、ミスマッチ情報が、DCTタイプが正しいことを表している場合において、DCTタイプがフィールドDCTモードであるとき、注目データのフィールドの低品質データから、予測タップが抽出され、ミスマッチ情報が、DCTタイプが正しいことを表している場合において、DCTタイプがフレームDCTモードであるとき、注目データのフレームの低品質データから、予測タップが抽出され、ミスマッチ情報が、DCTタイプが正しくないことを表している場合、注目データのフィールドとフレームの両方の低品質データから、予測タップが抽出される。従って、そのタップ係数により、符号化データを、高画質の画像データに復号することが可能となる。
【図面の簡単な説明】
【図1】本発明を適用した復号装置の一実施の形態の構成例を示すブロック図である。
【図2】復号装置の処理を説明するフローチャートである。
【図3】本発明を適用した復号装置の他の一実施の形態の構成例を示すブロック図である。
【図4】本発明を適用した学習装置の一実施の形態の構成例を示すブロック図である。
【図5】学習装置の処理を説明するフローチャートである。
【図6】本発明を適用した復号装置のより詳細な構成例を示すブロック図である。
【図7】フレームDCTモードとフィールドDCTモードを説明する図である。
【図8】動き物体が表示されたマクロブロックを、フレームDCTモードとフィールドDCTモードで符号化した場合の復号画像を模式的に示す図である。
【図9】クラス分類適応処理部32の構成例を示すブロック図である。
【図10】復号装置の処理を説明するフローチャートである。
【図11】本発明を適用した学習装置のより詳細な構成例を示すブロック図である。
【図12】学習装置の処理を説明するフローチャートである。
【図13】MPEG方式で符号化された符号化データを復号する復号装置の第1の構成例を示すブロック図である。
【図14】MPEGデコーダ116の構成例を示すブロック図である。
【図15】ミスマッチ情報生成部115の処理を説明するフローチャートである。
【図16】動き物体が表示されたマクロブロックを、フレームDCTモードとフィールドDCTモードで符号化した場合の復号画像を模式的に示す図である。
【図17】タップ構造設定テーブルを示す図である。
【図18】パターンA乃至Dのタップ構造を示す図である。
【図19】MPEG方式で符号化された符号化データを復号するのに用いられるタップ係数を学習する学習装置の第1の構成例を示すブロック図である。
【図20】MPEGエンコーダ131の構成例を示すブロック図である。
【図21】MPEG方式で符号化された符号化データを復号する復号装置の第2の構成例を示すブロック図である。
【図22】MPEG方式で符号化された符号化データを復号するのに用いられるタップ係数を学習する学習装置の第2の構成例を示すブロック図である。
【図23】MPEG方式で符号化された符号化データを復号する復号装置の第3の構成例を示すブロック図である。
【図24】MPEG方式で符号化された符号化データを復号するのに用いられるタップ係数を学習する学習装置の第3の構成例を示すブロック図である。
【図25】本発明を適用したコンピュータの一実施の形態の構成例を示すブロック図である。
【符号の説明】
1 ミスマッチ検出部, 2 復号処理部, 3 パラメータ記憶部, 11学習用データ記憶部, 12 符号化部, 13 ミスマッチ検出部, 14学習処理部, 21 復号制御情報抽出部, 22 判定部, 31 前処理部, 32 クラス分類適応処理部, 33 後処理部, 41 係数メモリ,51,52 タップ抽出部, 53 クラス分類部, 54 予測部, 60適応学習部, 61 教師データ生成部, 61A 逆後処理部, 62 教師データ記憶部, 63 生徒データ生成部, 63A 符号化部, 63B 前処理部, 64 生徒データ記憶部, 65,66 タップ抽出部, 67 クラス分類部, 68 足し込み部, 69 タップ係数算出部, 71 復号制御情報抽出部, 72 判定部, 111 逆VLC部, 112 フィールド/フレーム判定部, 113 イントラ/ノンイントラ判定部, 114 静動判定部, 115 ミスマッチ情報生成部, 116 MPEGデコーダ, 121 逆VLC部, 122 逆量子化部, 123 逆DCT変換部, 124 演算部, 125 動き補償部, 126 メモリ, 127 ピクチャ選択部, 131 MPEGエンコーダ, 132 逆VLC部, 133 フィールド/フレーム判定部, 134 イントラ/ノンイントラ判定部, 135 静動判定部, 136 ミスマッチ情報生成部, 137 MPEGエンコーダ, 138 MPEGデコーダ, 141 動きベクトル検出部, 142動き補償部, 143 演算部, 144 DCT変換部, 145 量子化部, 146 VLC部, 147 逆量子化部, 148 逆DCT変換部,149 演算部, 150 メモリ, 161 逆VLC部, 162 逆量子化部, 163 演算部, 164 MPEGデコーダ, 165 メモリ,166 動き補償部, 167 DCT変換部, 171 逆VLC部, 172 逆量子化部, 173 演算部, 174 MPEGデコーダ, 175メモリ, 176 動き補償部, 177 DCT変換部, 181 逆DCT変換部, 191 DCT変換部, 401 バス, 402 CPU, 403 ROM, 404 RAM, 405 ハードディスク, 406 出力部, 407 入力部, 408 通信部, 409 ドライブ, 410 入出力インタフェース, 411 リムーバブル記録媒体[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a decoding device and a decoding method, a learning device and a learning method, and a program and a recording medium, and in particular, for example, decoding encoded data obtained by encoding image data into a high-quality (high-quality) image. The present invention relates to a decoding device and a decoding method, a learning device and a learning method, a program, and a recording medium.
[0002]
[Prior art]
For example, MPEG (Moving Picture Experts Group) method is known as a high-efficiency encoding method for image (moving image) data. In MPEG method, image data is a block unit of 8 × 8 pixels in horizontal × vertical. Thus, DCT (Discrete Cosine Transform) transformation is performed in two directions, horizontal and vertical, and further quantized.
[0003]
As described above, in the MPEG system, the image data is DCT converted. For example, in the MPEG2 system, the DCT type of the block to be DCT converted is switched between the frame DCT mode and the field DCT mode in units of macroblocks. Can do. In the frame DCT mode, a block is composed of pixels of the same frame, and pixel values of such a block are DCT transformed. In the field DCT mode, a block is composed of pixels in the same field, and pixel values of such a block are DCT converted.
[0004]
Whether the DCT type is the frame DCT mode or the field DCT mode is basically determined based on the characteristics of the image such as the motion of the image and continuity with the surrounding macroblocks. Is determined so as to reduce block distortion mosquito noise and the like. That is, for example, the field DCT mode is selected for an image with a large motion, and the frame DCT mode is selected for an image with little motion (a still image).
[0005]
[Problems to be solved by the invention]
By the way, in the MPEG2 system, the data rate of encoded data is limited so that overflow and underflow do not occur on the decoder side. In order to limit the data rate of the encoded data, the DCT type that should originally be set to the frame DCT mode or the field DCT mode may be inappropriately set to the field DCT mode or the frame DCT mode. is there.
[0006]
That is, as a DCT type, there is generally a correlation between pixels constituting a field (for example, the reciprocal of the sum of squares of differences between adjacent pixels constituting a field) (hereinafter referred to as field pixel correlation as appropriate). If the correlation between the pixels constituting the frame (for example, the reciprocal of the sum of squares of differences between adjacent pixels constituting the frame) (hereinafter referred to as frame pixel correlation as appropriate) is greater than the field DCT mode, If set and the frame pixel correlation is greater than the field pixel correlation, the frame DCT mode is set.
[0007]
However, if the encoded data is subject to data rate limitations, the DCT type is set based on the limited data rate regardless of the magnitude of the field pixel correlation and frame pixel correlation, and thus, for example, An improper DCT type may be set such that the frame DCT mode is set instead of the field DCT mode for an image with large motion.
[0008]
Even when such an inappropriate DCT type is set, the decoder side must decode the encoded data in accordance with the inappropriate DCT type, and the image quality of the decoded image deteriorates. was there.
[0009]
Also, when a moving image is MPEG2 encoded at a high compression rate, the same macroblock in one frame and the corresponding macroblock in the next frame are caused by the data rate limitation. Although a moving object is displayed, a different DCT type may be set, and as a result, a decoded image with unnatural motion may be obtained.
[0010]
On the other hand, on the decoding side, it is difficult to determine which one of the frame DCT mode and the field DCT mode is appropriate from the decoded image.
[0011]
The present invention has been made in view of such a situation, and enables encoded data to be decoded into a high-quality (high-quality) image.
[0012]
[Means for Solving the Problems]
The decoding device of the present invention determines the correctness of the DCT type included in the encoded data based on the presence or absence of motion of the image data in block units based on the motion vector of the image data included in the encoded data, Among the high-quality data of the high-quality image than the low-quality image obtained by decoding the encoded data and the determination means for outputting the mismatch information representing the determination result, High quality data for each pixel you are trying to obtain Featured data age , For seeking attention data Low quality image used for product-sum operation with a given tap coefficient Pixel by pixel Prediction tap extracting means for extracting some of the low quality data as prediction taps, student data to be learning students corresponding to the low quality data, teacher data to be learning teachers corresponding to the high quality data, and The product-sum operation of the tap coefficient obtained by performing learning that statistically minimizes the prediction error of the predicted value of the teacher data obtained by the product-sum operation of the student data and the tap coefficient and the prediction tap is performed. And a decoding means having a prediction calculation means for obtaining the attention data. The prediction tap extraction means is based on the mismatch information, and when the mismatch information indicates that the DCT type is correct, the DCT type is When in the field DCT mode, a prediction tap is extracted from the low quality data in the field of interest data, and the mismatch information is D In the case where the T type represents correctness, when the DCT type is the frame DCT mode, a prediction tap is extracted from the low quality data of the frame of the target data, and the mismatch information indicates that the DCT type is incorrect. The prediction tap is extracted from the low quality data of both the field and the frame of the target data.
[0013]
In the decoding method of the present invention, the correctness of the DCT type included in the encoded data is determined based on the motion vector of the image data included in the encoded data based on the presence / absence of motion of the image data in block units. Of the high-quality data of the high-quality image than the low-quality image obtained by decoding the encoded data and the determination step that outputs mismatch information representing the determination result, High quality data for each pixel you are trying to obtain Featured data age , For seeking attention data Low quality image used for product-sum operation with a given tap coefficient Pixel by pixel A prediction tap extraction step for extracting some of the low quality data as prediction taps, student data for learning students corresponding to the low quality data, and teacher data for learning teacher corresponding to the high quality data; The product-sum operation of the tap coefficient obtained by performing learning that statistically minimizes the prediction error of the predicted value of the teacher data obtained by the product-sum operation of the student data and the tap coefficient and the prediction tap is performed. And a decoding step including a prediction calculation step for obtaining data of interest. In the prediction tap extraction step, when the mismatch information indicates that the DCT type is correct based on the mismatch information, the DCT type When is in the field DCT mode, the prediction tap is extracted from the low quality data in the field of the target data. When the mismatch information indicates that the DCT type is correct, when the DCT type is the frame DCT mode, a prediction tap is extracted from the low quality data of the frame of the target data, and the mismatch information is correct for the DCT type. In the case where it indicates that there is no data, a prediction tap is extracted from the low quality data of both the field and the frame of the data of interest.
[0014]
The first program of the present invention determines the correctness of the DCT type included in the encoded data based on the presence or absence of motion of the image data in block units based on the motion vector of the image data included in the encoded data. A determination step of outputting mismatch information representing the determination result, and high-quality data of a higher-quality image than a low-quality image obtained by decoding the encoded data, High quality data for each pixel you are trying to obtain Featured data age , For seeking attention data Low quality image used for product-sum operation with a given tap coefficient Pixel by pixel A prediction tap extraction step for extracting some of the low quality data as prediction taps, student data for learning students corresponding to the low quality data, and teacher data for learning teacher corresponding to the high quality data; The product-sum operation of the tap coefficient obtained by performing learning that statistically minimizes the prediction error of the predicted value of the teacher data obtained by the product-sum operation of the student data and the tap coefficient and the prediction tap is performed. And a decoding step including a prediction calculation step for obtaining data of interest. In the prediction tap extraction step, when the mismatch information indicates that the DCT type is correct based on the mismatch information, the DCT type When is in the field DCT mode, the prediction tap is extracted from the low quality data in the field of the target data. When the mismatch information indicates that the DCT type is correct, when the DCT type is the frame DCT mode, a prediction tap is extracted from the low quality data of the frame of the target data, and the mismatch information is correct for the DCT type. In the case where it indicates that there is no data, a prediction tap is extracted from the low quality data of both the field and the frame of the data of interest.
[0015]
According to the first recording medium of the present invention, the correctness of the DCT type included in the encoded data is determined based on the presence or absence of the motion of the image data in block units based on the motion vector of the image data included in the encoded data. A determination step of outputting mismatch information representing the determination result, and high quality data of a higher quality image than a low quality image obtained by decoding the encoded data, High quality data for each pixel you are trying to obtain Featured data age , For seeking attention data Low quality image used for product-sum operation with a given tap coefficient Pixel by pixel A prediction tap extraction step for extracting some of the low quality data as prediction taps, student data for learning students corresponding to the low quality data, and teacher data for learning teacher corresponding to the high quality data; The product-sum operation of the tap coefficient obtained by performing learning that statistically minimizes the prediction error of the predicted value of the teacher data obtained by the product-sum operation of the student data and the tap coefficient and the prediction tap is performed. And a decoding step including a prediction calculation step for obtaining data of interest. In the prediction tap extraction step, when the mismatch information indicates that the DCT type is correct based on the mismatch information, the DCT type When is in the field DCT mode, the prediction tap is extracted from the low quality data in the field of the target data. When the mismatch information indicates that the DCT type is correct, when the DCT type is the frame DCT mode, a prediction tap is extracted from the low quality data of the frame of the target data, and the mismatch information is correct for the DCT type. In the case of the absence of data, a program for extracting prediction taps from low quality data of both the field and frame of the data of interest is recorded.
[0016]
The learning device of the present invention includes teacher data generation means for generating and outputting teacher data to be a teacher for learning tap coefficients from image data for learning, and a student for learning tap coefficients from image data for learning. Student data generating means for generating and outputting student data, encoding means for encoding learning image data, and outputting learning encoded data including a DCT type and a motion vector of the image data, and learning data The correctness of the DCT type included in the encoded data is determined on the basis of the motion vector of the image data included in the encoded data for learning based on the presence or absence of motion of the image data in block units, and the determination result is Among the high-quality data of the high-quality image than the low-quality image obtained by decoding the encoded data and the determination means that outputs the mismatch information that represents, High quality data for each pixel you are trying to obtain Featured data age , For seeking attention data Low quality image used for product-sum operation with a given tap coefficient Pixel by pixel The product sum of student data and tap coefficients using prediction tap extraction means for extracting some of the low quality data as prediction taps, student data corresponding to the low quality data, and teacher data corresponding to the high quality data By performing a product-sum operation with a learning means having a tap coefficient calculation means for obtaining a tap coefficient that statistically minimizes the prediction error of the predicted value of the teacher data obtained by the calculation, and the tap coefficient and the prediction tap, And a predicting tap extracting means based on the mismatch information, when the mismatch information indicates that the DCT type is correct, the DCT type is the field DCT mode. When the prediction tap is extracted from the low quality data in the field of attention data, the mismatch information is When the DCT type is the frame DCT mode, the prediction tap is extracted from the low quality data of the frame of the target data, and the mismatch information indicates that the DCT type is not correct. In this case, the prediction tap is extracted from the low quality data of both the field and the frame of the attention data.
[0017]
The learning method of the present invention includes a teacher data generation step for generating and outputting teacher data to be a teacher for learning tap coefficients from image data for learning, and a student for learning tap coefficients from image data for learning. A student data generation step for generating and outputting student data, an encoding step for encoding image data for learning, and outputting encoded data for learning including a DCT type and a motion vector of the image data, and for learning The correctness of the DCT type included in the encoded data is determined on the basis of the motion vector of the image data included in the encoded data for learning based on the presence or absence of motion of the image data in block units, and the determination result is A decision step that outputs mismatch information to represent, and high quality data of a higher quality image than a lower quality image obtained by decoding the encoded data Of out, High quality data for each pixel you are trying to obtain Featured data age , For seeking attention data Low quality image used for product-sum operation with a given tap coefficient Pixel by pixel Using a prediction tap extraction step for extracting some of the low quality data as prediction taps, student data corresponding to the low quality data, and teacher data corresponding to the high quality data, the product sum of the student data and the tap coefficient By performing a product-sum operation of the tap coefficient and the prediction tap, a learning step having a tap coefficient calculation step for obtaining a tap coefficient that statistically minimizes the prediction error of the predicted value of the teacher data obtained by the calculation, And a decoding step having a prediction calculation step for obtaining data of interest. In the prediction tap extraction step, when the mismatch information indicates that the DCT type is correct based on the mismatch information, the DCT type is the field DCT mode. At one time, the prediction tap is extracted from the low quality data of the field of attention data In the case where the mismatch information indicates that the DCT type is correct, when the DCT type is the frame DCT mode, the prediction tap is extracted from the low quality data of the frame of the target data, and the mismatch information is the DCT type In the case where it is not correct, a prediction tap is extracted from the low quality data of both the field and the frame of the target data.
[0018]
A second program of the present invention includes a teacher data generation step for generating and outputting teacher data to be a teacher for learning tap coefficients from image data for learning, and learning of tap coefficients from the image data for learning. A student data generation step for generating and outputting student data to be a student; an encoding step for encoding learning image data and outputting encoded data for learning including a DCT type and a motion vector of the image data; The correctness of the DCT type included in the learning encoded data is determined based on the motion vector of the image data included in the learning encoded data based on the presence or absence of motion of the image data in units of blocks, and the determination Judgment step that outputs mismatch information indicating the result, and high quality image with higher quality than low quality image obtained by decoding encoded data Of the data, High quality data for each pixel you are trying to obtain Featured data age , For seeking attention data Low quality image used for product-sum operation with a given tap coefficient Pixel by pixel Using the prediction tap extraction step for extracting some of the low quality data as prediction taps, the student data corresponding to the low quality data, and the teacher data corresponding to the high quality data, the product sum of the student data and the tap coefficient By performing a product-sum operation of the tap coefficient and the prediction tap, a learning step having a tap coefficient calculation step for obtaining a tap coefficient that statistically minimizes the prediction error of the predicted value of the teacher data obtained by the calculation, And a decoding step having a prediction calculation step for obtaining data of interest. In the prediction tap extraction step, when the mismatch information indicates that the DCT type is correct based on the mismatch information, the DCT type is the field DCT mode. At one time, the prediction tap is extracted from the low quality data of the field of attention data In the case where the mismatch information indicates that the DCT type is correct, when the DCT type is the frame DCT mode, the prediction tap is extracted from the low quality data of the frame of the target data, and the mismatch information is the DCT type In the case where it is not correct, a prediction tap is extracted from the low quality data of both the field and the frame of the target data.
[0019]
The second recording medium of the present invention includes a teacher data generation step for generating and outputting teacher data serving as a teacher for learning tap coefficients from image data for learning, and learning of tap coefficients from the image data for learning. A student data generation step for generating and outputting student data to be a student, an encoding step for encoding learning image data and outputting encoded data for learning including a DCT type and a motion vector of the image data; The correctness of the DCT type included in the learning encoded data is determined based on the presence or absence of motion of the image data in block units based on the motion vector of the image data included in the learning encoded data, A decision step that outputs mismatch information indicating the decision result, and a higher quality image than a lower quality image obtained by decoding the encoded data Of the over data, High quality data for each pixel you are trying to obtain Featured data age , For seeking attention data Low quality image used for product-sum operation with a given tap coefficient Pixel by pixel Using a prediction tap extraction step for extracting some of the low quality data as prediction taps, student data corresponding to the low quality data, and teacher data corresponding to the high quality data, the product sum of the student data and the tap coefficient By performing a product-sum operation of the tap coefficient and the prediction tap, a learning step having a tap coefficient calculation step for obtaining a tap coefficient that statistically minimizes the prediction error of the predicted value of the teacher data obtained by the calculation, And a decoding step having a prediction calculation step for obtaining data of interest. In the prediction tap extraction step, when the mismatch information indicates that the DCT type is correct based on the mismatch information, the DCT type is the field DCT mode. At one time, the prediction tap is extracted from the low quality data of the field of attention data In the case where the mismatch information indicates that the DCT type is correct, when the DCT type is the frame DCT mode, the prediction tap is extracted from the low quality data of the frame of the target data, and the mismatch information is the DCT type If it is not correct, a program for extracting prediction taps from low quality data of both the field and frame of the data of interest is recorded.
[0020]
In the decoding apparatus and decoding method, and the first program and the first recording medium of the present invention, the correctness of the DCT type included in the encoded data is based on the motion vector of the image data included in the encoded data. Thus, determination is made based on the presence or absence of movement of the image data in block units, and mismatch information indicating the determination result is output. Of the high quality data of the high quality image than the low quality image obtained by decoding the encoded data, The high-quality data for each pixel you are trying to obtain Featured data And , For seeking attention data Low quality image used for product-sum operation with a given tap coefficient Pixel by pixel Some of the low-quality data is extracted as prediction taps, and the student data is the student data that corresponds to the low-quality data and becomes the learning student, and the teacher data that corresponds to the high-quality data and becomes the learning teacher. By performing the product-sum operation on the tap coefficient obtained by performing learning that statistically minimizes the prediction error of the predicted value of the teacher data obtained by the product-sum operation between the tap coefficient and the tap coefficient, Data is required. Here, based on the mismatch information, when the mismatch information indicates that the DCT type is correct, when the DCT type is the field DCT mode, a prediction tap is extracted from the low quality data in the field of the target data, In the case where the mismatch information indicates that the DCT type is correct, when the DCT type is the frame DCT mode, the prediction tap is extracted from the low quality data of the frame of the target data, and the mismatch information is correct for the DCT type. If not, a prediction tap is extracted from the low quality data of both the field of interest data and the frame.
[0021]
In the learning apparatus and the learning method, the second program, and the second recording medium of the present invention, teacher data serving as a teacher for learning the tap coefficient is generated from learning image data, and a student serving as a student Data is generated. Further, learning image data is encoded, and encoded learning data including a DCT type and a motion vector of the image data is output. Then, the correctness of the DCT type included in the learning encoded data is determined based on the presence or absence of motion of the image data in block units based on the motion vector of the image data included in the learning encoded data. Mismatch information representing the determination result is output. Of the high quality data of the high quality image than the low quality image obtained by decoding the encoded data, The high-quality data for each pixel you are trying to obtain Featured data And , For seeking attention data Low quality image used for product-sum operation with a given tap coefficient Pixel by pixel Some of the low-quality data is extracted as prediction taps, and the teacher is obtained by multiplying the student data by the tap coefficient using the student data corresponding to the low-quality data and the teacher data corresponding to the high-quality data. A tap coefficient that statistically minimizes the prediction error of the predicted value of data is obtained, and attention data is obtained by performing a product-sum operation on the tap coefficient and the prediction tap. Here, based on the mismatch information, when the mismatch information indicates that the DCT type is correct, when the DCT type is the field DCT mode, a prediction tap is extracted from the low quality data in the field of the target data, In the case where the mismatch information indicates that the DCT type is correct, when the DCT type is the frame DCT mode, the prediction tap is extracted from the low quality data of the frame of interest data, and the mismatch information is correct for the DCT type. If not, a prediction tap is extracted from the low quality data of both the field of interest data and the frame.
[0022]
DETAILED DESCRIPTION OF THE INVENTION
FIG. 1 shows a configuration example of an embodiment of a decoding device to which the present invention is applied.
[0023]
The decoding apparatus includes encoded data reproduced from a recording medium (not shown) (for example, an optical disk, a magneto-optical disk, a phase change disk, a magnetic tape, a semiconductor memory, etc.) or a transmission medium (for example, the Internet or a CATV network). Encoded data transmitted via a satellite line, terrestrial wave, etc.) is input as a decoding target. Here, the encoded data is obtained by encoding image (moving image) data by a predetermined encoding method, and includes at least decoding control information for controlling the decoding.
[0024]
As the encoded data, for example, image data encoded by the MPEG2 method can be employed.
[0025]
Here, in the MPEG2 system, on the encoding side, image data (original image) is subjected to DCT conversion in units of blocks and further quantized. On the encoding side, a motion vector is detected for the image data to be encoded, the encoded data is locally decoded, and the local decoded image data is used as a reference image to detect the reference image. A predicted image is generated by performing motion compensation using the obtained motion vector. Then, by calculating the difference between the image to be encoded and the predicted image, a residual image is obtained, and the residual image is DCT transformed and quantized as described above. Further, on the encoding side, in DCT conversion in units of blocks, a DCT type (frame DCT mode or field DCT mode) is set in units of macroblocks.
[0026]
On the other hand, assuming that the DCT coefficient obtained by DCT transforming and further quantizing the image data (original image or residual image) is called a quantized DCT coefficient, on the decoding side, the quantized DCT coefficient is dequantized. , DCT coefficients. Further, on the decoding side, the DCT coefficients are subjected to inverse DCT transform, and the resulting pixels are rearranged into a frame structure according to the DCT type, whereby image data is decoded or residual image data is obtained. . As for the residual image data, predicted image data is generated by performing motion compensation on the reference image using the already decoded image data as a reference image using a motion vector. Then, the image data is decoded by adding the residual image data and the predicted image data.
[0027]
Therefore, the encoded data obtained by encoding the image data by the MPEG2 system is subjected to DCT conversion of the image data (original image or residual image) and further quantized, that is, the direct data of the image data. In addition to the encoding result, information necessary for decoding the DCT coefficient into an image on the decoding side, that is, information for controlling decoding such as a motion vector and a DCT type (hereinafter referred to as decoding control information as appropriate) is also included. included. The encoded data includes a picture type, a temporal reference, and other decoding control information in addition to a motion vector and a DCT type.
[0028]
The encoded data input to the decoding device is supplied to the
[0029]
The
[0030]
Next, processing (decoding processing) of the decoding device in FIG. 1 will be described with reference to the flowchart in FIG.
[0031]
Encoded data is supplied to the
[0032]
If it is determined in step S3 that there is no encoded data to be decoded, the process ends.
[0033]
Next, FIG. 3 shows a configuration example of another embodiment of a decoding device to which the present invention is applied. In the figure, portions corresponding to those in FIG. 1 are denoted by the same reference numerals, and description thereof will be omitted below as appropriate. That is, the decoding apparatus in FIG. 3 is basically configured in the same manner as the decoding apparatus in FIG. 1 except that the
[0034]
The
[0035]
Therefore, in the decoding device of FIG. 3, the
[0036]
Next, FIG. 4 shows a configuration example of an embodiment of a learning device that learns parameters to be stored in the
[0037]
The learning
[0038]
The
[0039]
The
[0040]
The
[0041]
Next, processing (learning processing) of the learning device in FIG. 4 will be described with reference to the flowchart in FIG.
[0042]
First, in step S <b> 11, the
[0043]
In step S13, the
[0044]
That is, the
[0045]
In step S14, the
[0046]
If it is determined in step S14 that the learning data not yet processed is not stored in the learning
[0047]
Next, FIG. 6 shows a detailed configuration example of the decoding device of FIG.
[0048]
The decoding control
[0049]
The
[0050]
The decoding control
[0051]
The preprocessing
[0052]
The class classification
[0053]
The class classification
[0054]
The
[0055]
The
[0056]
The
[0057]
The
[0058]
Next, processing of the
[0059]
FIG. 7 shows a block (FIG. 7A) subjected to DCT conversion in the frame DCT mode and a block (FIG. 7B) subjected to DCT conversion in the field DCT mode in the MPEG2 system.
[0060]
In the embodiment of FIG. 7, a block of luminance signals is shown. In FIG. 7 (the same applies to FIG. 8 described later), a shaded line represents an odd line (top field), and a non-shadowed line represents an even line (bottom field). .
[0061]
In the frame DCT mode, a macro block composed of 16 × 16 pixels in horizontal and vertical directions is divided into four 8 × 8 pixel blocks in the upper left, lower left, upper right, or lower right, as shown in FIG. Each block is DCT transformed.
[0062]
On the other hand, in the field DCT mode, as shown in FIG. 7B, in the macroblock, the upper 8 lines are configured by odd lines (top field), and the lower 8 lines are configured by even lines (bottom field). The pixel positions are rearranged. Then, the rearranged macroblock is divided into four 8 × 8 pixel blocks in the upper left, lower left, upper right, or lower right, and each block is DCT transformed.
[0063]
As described above, in the frame DCT mode, DCT conversion is performed in units of 8 × 8 pixels constituting the same frame, and in the field DCT mode, DCT is performed in units of blocks of 8 × 8 pixels constituting the same field. Conversion is performed.
[0064]
By the way, for example, when an image in which a circular moving object is moving in the horizontal direction is considered, the circular moving object is, for example, as shown in FIG. In addition, it is displayed at a slightly shifted position corresponding to the movement. For this reason, for an image in which such a moving object is displayed, the field pixel correlation is larger than the frame pixel correlation, and a smooth motion decoded image is obtained by performing DCT conversion in the field DCT mode. Obtainable.
[0065]
However, in the MPEG system, as described above, the frame DCT mode is used instead of the field DCT mode in order to reduce the data amount of the encoded data due to the data rate limitation for the image on which the moving object is displayed. Thus, the image data may be DCT transformed.
[0066]
Assuming that the frame DCT mode is set for some of the macroblocks where the circular moving object is displayed, and the field DCT mode is set for the other macroblocks, and DCT conversion is performed. For a macroblock in which the frame DCT mode is set, for example, as illustrated in FIG. 8B, a decoded image in which the edge portion of a circular moving object is blurred is obtained.
[0067]
Here, FIG. 8B shows the decoding when the DCT type of the upper right macroblock among the 2 × 2 macroblocks is set to the frame DCT mode and the DCT types of the other three macroblocks are set to the field DCT mode. An image is shown.
[0068]
Whether the DCT type is the frame DCT mode or the field DCT mode is set in units of macroblocks. Therefore, even if the corresponding macroblocks (macroblocks at the same position) in different frames are used, The type may be different. When the DCT type of a macroblock at a certain position where a moving object is displayed changes in units of frames, the movement of the moving object in the decoded image becomes unnatural.
[0069]
Such blurring (blurring) and unnatural motion in the decoded image is caused by the fact that a macroblock to be DCT-converted in the field DCT mode has been DCT-converted in the frame DCT mode due to data rate limitations. The moving part is caused by DCT conversion in the frame DCT mode, which should be DCT converted in the field DCT mode. Therefore, it can be said that the macroblock to be DCT-converted in the field DCT mode is DCT-converted in the frame DCT mode from the viewpoint of improving the image quality of the decoded image. It can be said that the DCT type representing such a frame DCT mode, which is one of the included decoding control information, is also incorrect.
[0070]
Therefore, for example, the
[0071]
That is, the
[0072]
Note that the
[0073]
Next, FIG. 9 shows a configuration example of the class classification
[0074]
The class classification adaptation process includes a class classification process and an adaptation process. By the class classification process, data is classified based on its property, and the adaptation process is performed for each class.
[0075]
Here, the adaptive processing will be described by taking as an example the case of converting a low-quality image (hereinafter, appropriately referred to as a low-quality image) into a high-quality image (hereinafter, appropriately referred to as a high-quality image).
[0076]
In this case, in the adaptive processing, a high-quality image that has improved the image quality of the low-quality image by linear combination of pixels constituting the low-quality image (hereinafter referred to as low-quality pixels as appropriate) and a predetermined tap coefficient. By obtaining the predicted value of the pixel, an image in which the image quality of the low-quality image is improved can be obtained.
[0077]
Specifically, for example, a certain high-quality image data is used as teacher data, and low-quality image data with degraded image quality of the high-quality image is used as student data. The predicted value E [y] of y (referred to as a high-quality pixel, as appropriate) 1 , X 2 , ... and a predetermined tap coefficient w 1 , W 2 Consider a linear primary combination model defined by the linear combination of. In this case, the predicted value E [y] can be expressed by the following equation.
[0078]
E [y] = w 1 x 1 + W 2 x 2 + ・ ・ ・ (1)
[0079]
To generalize equation (1), tap coefficient w j A matrix W consisting of ij And a predicted value E [y j ] A matrix Y ′ consisting of a set of
[Expression 1]
Then, the following observation equation holds.
[0080]
XW = Y ′ (2)
[0081]
Here, the component x of the matrix X ij Is a set of i-th student data (i-th teacher data y i The j-th student data in the set of student data used for the prediction of j Represents a tap coefficient by which a product with the jth student data in the student data set is calculated. Y i Represents the i-th teacher data, and thus E [y i ] Represents the predicted value of the i-th teacher data. Note that y on the left side of Equation (1) is the component y of the matrix Y. i The suffix i is omitted, and x on the right side of Equation (1) 1 , X 2 ,... Are also components x of the matrix X ij The suffix i is omitted.
[0082]
Consider that the least square method is applied to the observation equation of Expression (2) to obtain a predicted value E [y] close to (a pixel value of) high-quality pixel (y). In this case, a matrix Y composed of a set of true values y of high-quality pixels to be teacher data, and a matrix E composed of sets of residuals (errors relative to the true value y) e of predicted values E [y] of the high-quality pixels y. The
[Expression 2]
From the equation (2), the following residual equation is established.
[0083]
XW = Y + E (3)
[0084]
In this case, the tap coefficient w for obtaining the predicted value E [y] close to the high-quality pixel y j Is the square error
[Equation 3]
Can be obtained by minimizing.
[0085]
Therefore, the above square error is converted to the tap coefficient w. j When the value differentiated by 0 is 0, that is, the tap coefficient w satisfying the following equation: j However, this is the optimum value for obtaining the predicted value E [y] close to the high-quality pixel y.
[0086]
[Expression 4]
[0087]
Therefore, first, the equation (3) is changed to the tap coefficient w. j Is differentiated by the following equation.
[0088]
[Equation 5]
[0089]
From equations (4) and (5), equation (6) is obtained.
[0090]
[Formula 6]
[0091]
Furthermore, the student data x in the residual equation of equation (3) ij , Tap coefficient w j , Teacher data y i And residual e i Considering this relationship, the following normal equation can be obtained from the equation (6).
[0092]
[Expression 7]
[0093]
In addition, the normal equation shown in Expression (7) has a matrix (covariance matrix) A and a vector v,
[Equation 8]
And the vector W is defined as shown in
AW = v (8)
Can be expressed as
[0094]
Each normal equation in equation (7) is the student data x ij And teacher data y i By preparing a certain number of sets, a tap coefficient w to be obtained j Therefore, by solving equation (8) with respect to vector W (however, to solve equation (8), matrix A in equation (8) is regular). Necessary), the optimal tap coefficient w j Can be requested. In solving the equation (8), for example, a sweeping method (Gauss-Jordan elimination method) or the like can be used.
[0095]
As described above, the optimum tap coefficient using the student data and the teacher data (in this case, when the predicted value of the teacher data is obtained from the student data, the tap coefficient that minimizes the sum of the square errors of the predicted values) ) W j And learning the tap coefficient w j The adaptive process is to obtain the predicted value E [y] close to the teacher data y by using the equation (1).
[0096]
The adaptive processing is not included in the low-quality image, but differs from simple interpolation in that the component included in the high-quality image is reproduced. That is, in the adaptive processing, as long as only Expression (1) is seen, it looks the same as simple interpolation using a so-called interpolation filter, but the tap coefficient w corresponding to the tap coefficient of the interpolation filter is the teacher data and student data. Therefore, the components included in the high-quality image as teacher data can be reproduced. From this, it can be said that the adaptive process is a process having an image creating action.
[0097]
Here, as the student data, for example, decoded image data obtained by MPEG-encoding high-quality image data as teacher data and further MPEG decoding can be used. In this case, it is possible to obtain a tap coefficient that can obtain a high-quality image with reduced block distortion or the like caused by quantization in MPEG encoding.
[0098]
Further, for example, high-quality image data is used as teacher data, and DCT coefficients obtained by DCT transforming image data as teacher data and further quantizing and dequantizing are used as student data. Is also possible. In this case, a tap coefficient for converting the DCT coefficient into a high-quality image (predicted value thereof) can be obtained.
[0099]
In the above case, the prediction value of the high-quality image is linearly linearly predicted, but the prediction value of the high-quality image can also be predicted by a quadratic or higher formula.
[0100]
The class classification
[0101]
That is, the preprocessing data output from the preprocessing unit 31 (FIG. 6) is supplied to the
[0102]
The
[0103]
Here, mismatch information output from the determination unit 22 (FIG. 6) is also supplied to the
[0104]
Here, in order to simplify the description, it is assumed that the prediction tap and the class tap have the same tap structure. However, the prediction tap and the class tap can have different tap structures.
[0105]
The prediction tap obtained by the
[0106]
In addition to the class tap, mismatch information is also supplied to the
[0107]
The
[0108]
The
[0109]
Next, processing (decoding processing) of the decoding device in FIG. 6 will be described with reference to the flowchart in FIG.
[0110]
In the
[0111]
That is, in the
[0112]
And it progresses to step S22 and the
[0113]
In the class classification adaptive processing unit 32 (FIG. 9), in step S23, the
[0114]
The
[0115]
The
[0116]
In step S <b> 26, the
[0117]
In step S27, the post-processing unit 33 (FIG. 6) performs predetermined post-processing on the attention data from the class classification adaptive processing unit 32 (
[0118]
Thereafter, the process proceeds to step S28, where it is determined whether there is any adaptive processing data that has not yet been set as the data of interest. If it is determined in step S28 that there is adaptation processing data that has not yet been set as attention data, one of the adaptation processing data that has not yet been set as attention data is newly set as attention data, and the process returns to step S21. Thereafter, the same processing is repeated.
[0119]
If it is determined in step S28 that there is no adaptive process data that has not yet been set as attention data, the process ends.
[0120]
Next, FIG. 11 shows a detailed configuration example of the learning device in FIG. 4 when learning tap coefficients to be stored in the
[0121]
In the embodiment of FIG. 11, the
[0122]
The
[0123]
The
[0124]
The
[0125]
The teacher
[0126]
The
[0127]
The preprocessing unit 63B performs the same preprocessing as that performed by the preprocessing
[0128]
The student
[0129]
The
[0130]
The
[0131]
The
[0132]
The adding
[0133]
That is, the adding
[0134]
Further, the adding
[0135]
In other words, the adding
[0136]
Then, the
[0137]
The tap
[0138]
Next, processing (learning processing) of the learning device in FIG. 11 will be described with reference to the flowchart in FIG.
[0139]
First, in step S31, the teacher
[0140]
Thereafter, the
[0141]
The
[0142]
In step S 34, the
[0143]
In step S35, the
[0144]
In step S 36, the adding
[0145]
In step S <b> 37, the
[0146]
If it is determined in step S37 that the teacher data that is not the attention teacher data is not stored in the teacher
[0147]
In step S38, the tap
[0148]
There may be a class in which the number of normal equations necessary for obtaining tap coefficients cannot be obtained due to an insufficient number of learning data stored in the learning
[0149]
Next, FIG. 13 shows a first detailed configuration example of the decoding device of FIG. 6 when the encoded data is obtained by encoding image data by the MPEG2 system.
[0150]
In the embodiment of FIG. 13, the decoding control
[0151]
The
[0152]
Based on the DCT type output from the
[0153]
Based on the picture type and macroblock type output from the
[0154]
The static
[0155]
Based on the outputs of the field /
[0156]
Here, in the embodiment of FIG. 13, the preprocessing
[0157]
Next, FIG. 14 shows a configuration example of the
[0158]
The encoded data is supplied to the
[0159]
Then, the
[0160]
The
[0161]
The
[0162]
That is, in MPEG encoding, three picture types of I, P, and B are defined, and each picture is DCT-converted in units of blocks of 8 × 8 pixels in width × length. The I picture block is intra-coded without referring to other frames or fields (the difference from the predicted image is not calculated), and the P picture block is intra-coded or forward-predicted code. The B picture block is subjected to intra coding, forward prediction coding, backward prediction coding, or bidirectional prediction coding.
[0163]
Here, in forward predictive coding, an image of a frame (or field) temporally preceding the frame (or field) of the block to be coded is used as a reference image, and the reference image is obtained by motion compensation. The difference between the prediction image of the encoding target block and the encoding target block is obtained, and the difference value, that is, the residual image is DCT transformed.
[0164]
Further, in backward predictive coding, a predicted image of a block to be encoded, which is obtained by performing motion compensation on the reference image using a frame image temporally following the frame of the block to be encoded as a reference image. And the difference from the block to be encoded are obtained, and the difference value (residual image) is DCT transformed.
[0165]
Furthermore, in bi-directional predictive coding, two frames (or fields) of a frame temporally preceding and following a frame of a block to be encoded are used as reference images, and the reference image is subjected to motion compensation. The obtained difference between the prediction image of the encoding target block and the encoding target block is obtained, and the difference value (residual image) is subjected to DCT transform.
[0166]
Therefore, when the block is non-intra coded (forward prediction coding, backward prediction coding, or bidirectional prediction coding), the output of the inverse
[0167]
On the other hand, when the block output from the inverse
[0168]
The decoded image data output from the
[0169]
When the decoded image data supplied from the
[0170]
The
[0171]
On the other hand, the
[0172]
Next, processing of the mismatch
[0173]
First, in step S41, the mismatch
[0174]
Here, the intra /
[0175]
When it is determined in step S41 that the target block is non-intra coded, the process proceeds to step S42, and the mismatch
[0176]
Here, the static
[0177]
If it is determined in step S42 that the block of interest is a motion block, the process proceeds to step S45, and processing described later is performed.
[0178]
If it is determined in step S42 that the target block is a still block, the process proceeds to step S43, and the mismatch
[0179]
On the other hand, when it is determined in step S41 that the block of interest is intra-encoded, the process proceeds to step S44, and the mismatch
[0180]
Here, for the block that has been intra-encoded, the static
[0181]
When it is determined in step S44 that the target block is a still block, the process proceeds to step S43, and as described above, the mismatch
[0182]
If it is determined in step S44 that the target block is a motion block, the process proceeds to step S45, and the mismatch
[0183]
If it is determined in step S45 that the DCT type of the target block is the field DCT mode, the process proceeds to step S43, and as described above, the mismatch
[0184]
If it is determined in step S45 that the DCT type of the block of interest is the frame DCT mode, the process proceeds to step S46, and the mismatch
[0185]
According to the embodiment of FIG. 15, for example, as shown in FIG. 16, in the adjacent 2 × 2
[0186]
That is, all the blocks constituting the
[0187]
In the embodiment of FIG. 15, only when the target block is a motion block and the DCT type is in the frame DCT mode, mismatch information indicating that the DCT type is incorrect is generated, In this case, mismatch information indicating that the DCT type is correct is generated. However, for example, when the target block is a motion block and the DCT type is in the frame DCT mode, Is a static block and the DCT type is in field DCT mode, mismatch information indicating that the DCT type is incorrect is generated, the target block is a motion block, and the DCT type is a field DCT. Mode and when the block of interest is a static block And that when the DCT type is in the frame DCT mode, it is also such that to generate a mismatch information indicating that DCT type is correct.
[0188]
Further, in the embodiment of FIG. 15, in order to simplify the description, 1-bit mismatch information indicating whether the DCT type is correct or incorrect is generated. However, as the mismatch information, for example, , DCT type of the data of interest, and information indicating whether the block including the data of interest (target block) is to be subjected to DCT conversion in the frame DCT mode or the field DCT mode (hereinafter referred to as a block as appropriate) It is also possible to generate a set with a type).
[0189]
Here, the block type represents, for example, the field DCT mode when the target block is a motion block, and represents the frame DCT mode when the target block is a stationary block. It is possible.
[0190]
Next, processing of the class classification adaptation processing unit 32 (FIG. 9) in the embodiment of FIG. 13 will be described.
[0191]
In the class classification
[0192]
Therefore, in the embodiment of FIG. 13, the class classification
[0193]
That is, in the class classification adaptive processing unit 32 (FIG. 9), the decoded image data output from the
[0194]
The
[0195]
Here, as described above, mismatch information is also supplied from the
[0196]
That is, for example, as described above, the set of the DCT type and block type of the block of interest is classified into the class classification from the determination unit 22 (the mismatch information generation unit 115 (FIG. 13)) as mismatch information about the data of interest. Assuming that the
[0197]
That is, when both the DCT type and the block type as mismatch information are in the field DCT mode, the
[0198]
Here, FIG. 18 shows a tap structure of patterns A to D. In FIG. 18, the ◯ marks represent the pixels of the decoded image data. In addition, a circle mark with a hatched line represents a pixel that is a field tap, and a mark ● represents a pixel that is a frame tap.
[0199]
FIG. 18A shows a tap structure of pattern A. The tap structure of the pattern A includes, for example, a pixel of decoded image data corresponding to the target data (hereinafter referred to as the target pixel as appropriate), two pixels adjacent to the left and right of the target pixel, and one pixel above the target pixel. Adjacent pixels, 2 pixels adjacent to the left and right of the pixel, 3 pixels above the pixel of interest adjacent to each other, 2 pixels adjacent to the left and right of the pixel, and 1 pixel below the pixel of interest A total of 25 pixels are composed of adjacent pixels, two pixels adjacent to the left and right of the pixel, pixels adjacent to each other in the downward direction of the pixel of interest, and two pixels adjacent to the left and right of the pixel.
[0200]
Here, the field tap means, for example, a pixel in which none of the two adjacent pixels above and below is a tap (in this case, a prediction tap or a class tap). In the tap structure of the pattern A in FIG. 18A, all the taps are field taps because the adjacent pixels above and below the taps are not taps.
[0201]
FIG. 18B shows a tap structure of pattern B. The tap structure of the pattern B includes, for example, the target pixel, two pixels adjacent to the left and right of the target pixel, two pixels adjacent to the left and right of the adjacent pixel in the upper direction of the target pixel, and the upward direction of the
[0202]
Here, the frame tap means a pixel in which at least one of the adjacent pixels above or below is a tap. In the tap structure of the pattern B in FIG. 18B, a total of 9 pixels of the target pixel and the four pixels adjacent to the top and bottom of the target pixel are frame taps, and the remaining 16 pixels are field taps.
[0203]
FIG. 18C shows a tap structure of pattern C. The tap structure of the pattern C is, for example, the target pixel, two pixels adjacent to the left and right of the target pixel, two pixels adjacent to the left and right of the adjacent pixel in the upper direction of the target pixel, and the downward direction of the
[0204]
In the tap structure of pattern C, the pixel of interest, four pixels adjacent to the top and bottom of the pixel of interest, the pixel adjacent to the left of the pixel of interest, two pixels adjacent to the top and bottom of the pixel, the pixel adjacent to the right of the pixel of interest, A total of 19 pixels, which are two adjacent pixels above and below the pixel, are frame taps, and the remaining 6 pixels are field taps.
[0205]
FIG. 18D shows a tap structure of the pattern D. The tap structure of the pattern D includes, for example, a total of 25 pixels, which are adjacent to each other with the pixel of interest at the center and are 5 × 5 pixels in horizontal × vertical.
[0206]
In the tap structure of the pattern D, all the taps are frame taps because at least one pixel above or below is a tap.
[0207]
Based on the mismatch information, the tap extraction unit 51 (FIG. 9) configures a prediction tap having a tap structure of any one of the patterns A to D shown in FIG.
[0208]
Similarly to the
[0209]
Here, based on the mismatch information, only the pixel position of the decoded image data extracted as the prediction tap is changed, and the number of pixels constituting the prediction tap remains 25 pixels, but the tap is not changed. The
[0210]
In addition, in the
[0211]
In the
[0212]
The prediction tap obtained by the
[0213]
In addition to the class tap, mismatch information about the attention data is also supplied to the
[0214]
That is, for example, the
[0215]
Here, in class classification using ADRC processing, data (here, pixel values) constituting a class tap is subjected to ADRC processing, and for example, an ADRC code obtained as a result is used as a class code.
[0216]
In the K-bit ADRC, for example, the maximum value MAX and the minimum value MIN of the data constituting the class tap are detected, and DR = MAX-MIN is set as the local dynamic range of the set, and based on this dynamic range DR Thus, the data constituting the class tap is requantized to K bits. That is, the minimum value MIN is subtracted from each data constituting the class tap, and the subtracted value is DR / 2. K Divide by (quantize). A bit string obtained by arranging the K-bit data constituting the class tap in a predetermined order is output as an ADRC code. Therefore, for example, when a class tap is subjected to 1-bit ADRC processing, each data constituting the class tap is divided by the average value of the maximum value MAX and the minimum value MIN after the minimum value MIN is subtracted. Thus, each data is made 1 bit (binarized). Then, a bit string in which the 1-bit data is arranged in a predetermined order is output as an ADRC code.
[0217]
Note that the
[0218]
Therefore, the
[0219]
Here, a class code obtained by classifying using a class tap is hereinafter referred to as a class tap code as appropriate.
[0220]
In addition to obtaining the class tap code as described above, the
[0221]
That is, if a class code obtained by class classification using mismatch information is referred to as a mismatch code, the
[0222]
Thereafter, the
[0223]
The
[0224]
The class code output from the
[0225]
The
[0226]
As described above, the
[0227]
In the above case, 1-bit information indicating whether the DCT type of the target block is correct or incorrect, or a set of the DCT type and block type of the target block is used as mismatch information. As the information, for example, an evaluation value indicating how much the DCT type of the block of interest is correct can be adopted.
[0228]
As an evaluation value representing the correctness of the DCT type of the target block, for example, when the DCT type of the target block is the field DCT mode, the size of the motion vector of the target block (target macroblock) is adopted. When the DCT type of the block of interest is the frame DCT mode, it is possible to employ a subtraction value obtained by subtracting the size of the motion vector of the block of interest from the maximum size of the motion vector. In this case, when the DCT type of the block of interest is the field DCT mode, the larger the motion vector of the block of interest is, and when the DCT type of the block of interest is the frame DCT mode, the size of the motion vector of the block of interest is large. The smaller the value, the larger the evaluation value.
[0229]
In this case, for example, the
[0230]
Further, in the above-described case, whether the target block is a motion block or a still block is determined based on the motion vector of the target block, the motion vector of the pre-corresponding block or the post-corresponding block, and the static block or the motion block. However, the determination of whether the target block is a motion block or a still block is performed in addition to, for example, a motion vector of a block around the target block, a pre-corresponding block, or a post-corresponding block, etc. It is also possible to make a determination based on the above.
[0231]
Next, FIG. 19 shows a detailed configuration example of the learning device of FIG. 11 when learning the tap coefficients to be stored in the
[0232]
In the embodiment of FIG. 19, high-quality image data (learning image data) is stored in the learning
[0233]
In the embodiment of FIG. 19, the
[0234]
That is, FIG. 20 shows a configuration example of the
[0235]
The image data for learning is supplied to the motion
[0236]
In addition, the
[0237]
The
[0238]
On the other hand, in the inverse quantization unit 147, the quantized DCT coefficient output from the
[0239]
The arithmetic unit 149 is supplied with the residual image from the inverse DCT transform unit 148, and also receives the same predicted image used in the
[0240]
Then, the
[0241]
As described above, the
[0242]
Returning to FIG. 19, the encoded data output from the
[0243]
The decoding control
[0244]
The
[0245]
In the embodiment of FIG. 19, the
[0246]
The
[0247]
The pre-processing unit 63B includes an
[0248]
Then, the
[0249]
That is, in the adaptive learning unit 60 (FIG. 11), the
[0250]
Here, mismatch information is supplied to the
[0251]
Therefore, for example, in the case where the
[0252]
Thereafter, in the class classification unit 67 (FIG. 11), based on the class tap and mismatch information for the attention teacher data, the same class classification as that in the
[0253]
The adding
[0254]
When the above processing is performed on all the teacher data stored in the teacher
[0255]
In the learning device of FIG. 19, for example, the number of pixels of the learning image data is thinned out to 1 / N before the
[0256]
Next, FIG. 21 shows a second detailed configuration example of the decoding device of FIG. 6 when the encoded data is obtained by encoding image data by the MPEG2 system. In the figure, portions corresponding to those in FIG. 13 are denoted by the same reference numerals, and description thereof will be omitted below as appropriate.
[0257]
In the embodiment of FIG. 21, the preprocessing
[0258]
In the
[0259]
The
[0260]
The
[0261]
On the other hand, in the
[0262]
Then, the motion compensation unit 166 reads the decoded image stored in the
[0263]
The
[0264]
That is, when the block supplied from the
[0265]
Further, when the block supplied from the
[0266]
The DCT coefficient of the block output from the
[0267]
In the embodiment of FIG. 21, the class classification
[0268]
That is, in the class classification adaptive processing unit 32 (FIG. 9), the DCT coefficients output from the preprocessing
[0269]
The
[0270]
The
[0271]
That is, for example, the
[0272]
The prediction tap obtained by the
[0273]
Based on the class tap and mismatch information about the data of interest, the
[0274]
The
[0275]
In the
[0276]
Therefore, in the embodiment of FIG. 21, the class classification
[0277]
Next, FIG. 22 shows a detailed configuration example of the learning device in FIG. 11 when learning tap coefficients to be stored in the
[0278]
In the embodiment of FIG. 22, the preprocessing unit 63B includes an
[0279]
Therefore, in the preprocessing unit 63B, the same processing as in the
[0280]
In the adaptive learning unit 60 (FIG. 11), the DCT coefficients supplied from the preprocessing unit 63B are stored as student data in the student
[0281]
However, in the embodiment of FIG. 22, in the adaptive learning unit 60 (FIG. 11), the
[0282]
Next, FIG. 23 shows a third detailed configuration example of the decoding device of FIG. 6 when the encoded data is obtained by encoding image data by the MPEG2 system. In the figure, portions corresponding to those in FIG. 21 are denoted by the same reference numerals, and description thereof will be omitted below as appropriate.
[0283]
The decoding apparatus in FIG. 23 is configured in the same manner as in FIG. 21 except that the
[0284]
In the embodiment of FIG. 23, in the class classification
[0285]
That is, in the class classification adaptive processing unit 32 (FIG. 9), the DCT coefficient as the preprocessing data output from the preprocessing
[0286]
The
[0287]
The prediction tap obtained by the
[0288]
Based on the class tap and mismatch information about the data of interest, the
[0289]
The
[0290]
In the
[0291]
Next, FIG. 24 illustrates a detailed configuration example of the learning device in FIG. 11 when learning tap coefficients to be stored in the
[0292]
The learning device in FIG. 24 is configured in the same manner as in FIG. 22 except that the
[0293]
Accordingly, in the
[0294]
In the adaptive learning unit 60 (FIG. 11), the high-quality DCT coefficient supplied from the
[0295]
That is, in this case, the DCT coefficient that is student data is obtained from the encoded data in the pre-processing unit 63B and includes a quantization error. Therefore, the DCT coefficient is subjected to inverse DCT conversion. The obtained image has a low image quality having a so-called block distortion or the like.
[0296]
Therefore, as described above, the
[0297]
24, in the adaptive learning unit 60 (FIG. 11), the
[0298]
As described above, the correctness of the decoding control information included in the encoded data is determined, and based on the mismatch information representing the determination result, the encoded data is decoded and the tap coefficients used for the decoding are learned. Therefore, in learning, it is possible to obtain a tap coefficient for obtaining a prediction value close to the original image in consideration of the correctness of the decoding control information, and as a result, using such a tap coefficient, By decoding the digitized data, a high-quality image can be obtained.
[0299]
In other words, in the present embodiment, the correctness of the DCT type is determined, and the tap coefficient is learned in consideration of the determination result. In addition to obtaining a tap coefficient for decoding the part into a predicted value close to the original image, if the MPEG2 method is used for decoding, the part that becomes unnatural motion is converted into the original image. A tap coefficient for decoding to a close prediction value can be obtained. A high-quality image can be obtained by using such a tap coefficient and decoding the encoded data in consideration of the correctness of the DCT type.
[0300]
Next, the series of processes described above can be performed by hardware or software. When a series of processing is performed by software, a program constituting the software is installed in a general-purpose computer or the like.
[0301]
Therefore, FIG. 25 illustrates a configuration example of an embodiment of a computer in which a program for executing the above-described series of processes is installed.
[0302]
The program can be recorded in advance on a
[0303]
Alternatively, the program is stored temporarily on a removable recording medium 411 such as a flexible disk, a CD-ROM (Compact Disc Read Only Memory), an MO (Magneto Optical) disk, a DVD (Digital Versatile Disc), a magnetic disk, or a semiconductor memory. It can be stored permanently (recorded). Such a removable recording medium 411 can be provided as so-called package software.
[0304]
The program is installed in the computer from the removable recording medium 411 as described above, or transferred from the download site to the computer wirelessly via a digital satellite broadcasting artificial satellite, LAN (Local Area Network), The program can be transferred to a computer via a network such as the Internet, and the computer can receive the program transferred in this way by the
[0305]
The computer includes a CPU (Central Processing Unit) 402. An input /
[0306]
Here, in this specification, the processing steps for describing a program for causing a computer to perform various types of processing do not necessarily have to be processed in time series according to the order described in the flowchart, but in parallel or individually. This includes processing to be executed (for example, parallel processing or processing by an object).
[0307]
Further, the program may be processed by one computer or may be distributedly processed by a plurality of computers. Furthermore, the program may be transferred to a remote computer and executed.
[0308]
In the present embodiment, the case where the image data is encoded by the MPEG2 system has been described. However, the present invention is not limited to the MPEG2 system, and an image encoded by another lossy compression system is used. Applicable when decrypting.
[0309]
Further, in the present embodiment, the correctness (appropriateness) of the DCT type, which is one of the plurality of decoding control information included in the encoded data, is set as another one of the plurality of decoding control information. Is determined based on the motion vector, and decoding of the encoded data and learning of the tap coefficient are performed based on the mismatch information representing the determination result. In addition, a plurality of decoding controls included in the encoded data are performed. The correctness (adequacy) of information other than the DCT type is determined based on one or more of the plurality of decoding control information, and based on the mismatch information representing the determination result, the encoded data It is possible to perform decoding and learning of tap coefficients.
[0310]
【The invention's effect】
According to the decoding apparatus and the decoding method, the first program, and the first recording medium of the present invention, the correctness of the DCT type included in the encoded data is converted into the motion vector of the image data included in the encoded data. Based on the presence / absence of motion of image data in units of blocks, mismatch information representing the determination result is output. Of the high quality data of the high quality image than the low quality image obtained by decoding the encoded data, The high-quality data for each pixel you are trying to obtain Featured data And , For seeking attention data Low quality image used for product-sum operation with a given tap coefficient Pixel by pixel Some of the low-quality data is extracted as prediction taps, and the student data is the student data that corresponds to the low-quality data and becomes the learning student, and the teacher data that corresponds to the high-quality data and becomes the learning teacher. By performing the product-sum operation on the tap coefficient obtained by performing learning that statistically minimizes the prediction error of the predicted value of the teacher data obtained by the product-sum operation between the tap coefficient and the tap coefficient, Data is required. Here, based on the mismatch information, when the mismatch information indicates that the DCT type is correct, when the DCT type is the field DCT mode, a prediction tap is extracted from the low quality data in the field of the target data, In the case where the mismatch information indicates that the DCT type is correct, when the DCT type is the frame DCT mode, the prediction tap is extracted from the low quality data of the frame of the target data, and the mismatch information is correct for the DCT type. If not, a prediction tap is extracted from the low quality data of both the field of interest data and the frame. Therefore, the encoded data can be decoded into high-quality image data.
[0311]
According to the learning device, the learning method, the second program, and the second recording medium of the present invention, teacher data serving as a teacher for learning tap coefficients is generated from the learning image data, and the student becomes a student. Student data is generated. Further, learning image data is encoded, and encoded learning data including a DCT type and a motion vector of the image data is output. Then, the correctness of the DCT type included in the learning encoded data is determined based on the presence or absence of motion of the image data in block units based on the motion vector of the image data included in the learning encoded data. Mismatch information representing the determination result is output. Furthermore, of the high quality data of the high quality image than the low quality image obtained by decoding the encoded data, The high-quality data for each pixel you are trying to obtain Featured data And , For seeking attention data Low quality image used for product-sum operation with a given tap coefficient Pixel by pixel Some of the low-quality data is extracted as prediction taps, and the teacher is obtained by multiplying the student data by the tap coefficient using the student data corresponding to the low-quality data and the teacher data corresponding to the high-quality data. A tap coefficient that statistically minimizes the prediction error of the predicted value of data is obtained, and attention data is obtained by performing a product-sum operation on the tap coefficient and the prediction tap. Here, based on the mismatch information, when the mismatch information indicates that the DCT type is correct, when the DCT type is the field DCT mode, a prediction tap is extracted from the low quality data in the field of the target data, In the case where the mismatch information indicates that the DCT type is correct, when the DCT type is the frame DCT mode, the prediction tap is extracted from the low quality data of the frame of the target data, and the mismatch information is correct for the DCT type. If not, a prediction tap is extracted from the low quality data of both the field of interest data and the frame. Therefore, encoded data can be decoded into high-quality image data by the tap coefficient.
[Brief description of the drawings]
FIG. 1 is a block diagram illustrating a configuration example of an embodiment of a decoding device to which the present invention has been applied.
FIG. 2 is a flowchart illustrating processing of a decoding device.
FIG. 3 is a block diagram illustrating a configuration example of another embodiment of a decoding device to which the present invention has been applied.
FIG. 4 is a block diagram illustrating a configuration example of an embodiment of a learning device to which the present invention has been applied.
FIG. 5 is a flowchart illustrating processing of the learning device.
FIG. 6 is a block diagram illustrating a more detailed configuration example of a decoding device to which the present invention has been applied.
FIG. 7 is a diagram for explaining a frame DCT mode and a field DCT mode.
FIG. 8 is a diagram schematically illustrating a decoded image when a macroblock on which a moving object is displayed is encoded in a frame DCT mode and a field DCT mode.
9 is a block diagram illustrating a configuration example of a class classification
FIG. 10 is a flowchart illustrating processing of a decoding device.
FIG. 11 is a block diagram showing a more detailed configuration example of a learning apparatus to which the present invention is applied.
FIG. 12 is a flowchart illustrating processing of the learning device.
FIG. 13 is a block diagram illustrating a first configuration example of a decoding device that decodes encoded data encoded by the MPEG method.
14 is a block diagram illustrating a configuration example of an
FIG. 15 is a flowchart for explaining processing of the mismatch
FIG. 16 is a diagram schematically illustrating a decoded image when a macroblock on which a moving object is displayed is encoded in a frame DCT mode and a field DCT mode.
FIG. 17 is a diagram illustrating a tap structure setting table.
FIG. 18 is a diagram illustrating a tap structure of patterns A to D;
FIG. 19 is a block diagram illustrating a first configuration example of a learning device that learns tap coefficients used to decode encoded data encoded by the MPEG method;
20 is a block diagram illustrating a configuration example of an
FIG. 21 is a block diagram illustrating a second configuration example of a decoding device that decodes encoded data encoded by the MPEG method.
FIG. 22 is a block diagram illustrating a second configuration example of a learning device that learns tap coefficients used to decode encoded data encoded by the MPEG method.
FIG. 23 is a block diagram illustrating a third configuration example of a decoding device that decodes encoded data encoded by the MPEG method.
FIG. 24 is a block diagram illustrating a third configuration example of a learning device that learns tap coefficients used to decode encoded data encoded by the MPEG method.
FIG. 25 is a block diagram illustrating a configuration example of an embodiment of a computer to which the present invention has been applied.
[Explanation of symbols]
DESCRIPTION OF SYMBOLS 1 Mismatch detection part, 2 Decoding processing part, 3 Parameter storage part, 11 Learning data storage part, 12 Encoding part, 13 Mismatch detection part, 14 Learning processing part, 21 Decoding control information extraction part, 22 Determination part, 31 Before Processing unit, 32 class classification adaptive processing unit, 33 post-processing unit, 41 coefficient memory, 51, 52 tap extraction unit, 53 class classification unit, 54 prediction unit, 60 adaptive learning unit, 61 teacher data generation unit, 61A reverse post-processing Unit, 62 teacher data storage unit, 63 student data generation unit, 63A encoding unit, 63B preprocessing unit, 64 student data storage unit, 65, 66 tap extraction unit, 67 class classification unit, 68 addition unit, 69 tap coefficient Calculation unit, 71 decoding control information extraction unit, 72 determination unit, 111 inverse VLC unit, 112 field / frame determination unit, 113 intra / Non-intra decision unit, 114 static motion decision unit, 115 mismatch information generation unit, 116 MPEG decoder, 121 inverse VLC unit, 122 inverse quantization unit, 123 inverse DCT conversion unit, 124 operation unit, 125 motion compensation unit, 126 memory , 127 picture selection unit, 131 MPEG encoder, 132 inverse VLC unit, 133 field / frame determination unit, 134 intra / non-intra determination unit, 135 still motion determination unit, 136 mismatch information generation unit, 137 MPEG encoder, 138 MPEG decoder, 141 motion vector detection unit, 142 motion compensation unit, 143 calculation unit, 144 DCT conversion unit, 145 quantization unit, 146 VLC unit, 147 inverse quantization unit, 148 inverse DCT conversion unit, 149 calculation unit, 150 memory, 161 inverse VLC section, 16 Inverse quantization unit, 163 calculation unit, 164 MPEG decoder, 165 memory, 166 motion compensation unit, 167 DCT conversion unit, 171 inverse VLC unit, 172 inverse quantization unit, 173 calculation unit, 174 MPEG decoder, 175 memory, 176 motion Compensation unit, 177 DCT conversion unit, 181 inverse DCT conversion unit, 191 DCT conversion unit, 401 bus, 402 CPU, 403 ROM, 404 RAM, 405 hard disk, 406 output unit, 407 input unit, 408 communication unit, 409 drive, 410 I / O interface, 411 removable recording media
Claims (24)
前記符号化データに含まれるDCTタイプの正しさを、その符号化データに含まれる前記画像データの動きベクトルに基づいて、前記ブロック単位の画像データの動きの有無によって判定し、その判定結果を表すミスマッチ情報を出力する判定手段と、
前記符号化データを復号して得られる低品質な画像よりも高品質な画像の高品質データのうちの、得ようとしている画素単位の前記高品質データを注目データとし、前記注目データを求めるための所定のタップ係数との積和演算に用いる前記低品質な画像の画素単位の低品質データの幾つかを、予測タップとして抽出する予測タップ抽出手段と、
前記低品質データに対応する、学習の生徒となる生徒データと、前記高品質データに対応する、前記学習の教師となる教師データとを用い、前記生徒データとタップ係数との積和演算により求められる前記教師データの予測値の予測誤差を統計的に最小にする前記学習を行うことにより得られるタップ係数と、前記予測タップとの前記積和演算を行うことにより、前記注目データを求める予測演算手段と
を有する復号手段と
を備え、
前記予測タップ抽出手段は、前記ミスマッチ情報に基づき、
前記ミスマッチ情報が、前記DCTタイプが正しいことを表している場合において、前記DCTタイプがフィールドDCTモードであるとき、前記注目データのフィールドの前記低品質データから、前記予測タップを抽出し、
前記ミスマッチ情報が、前記DCTタイプが正しいことを表している場合において、前記DCTタイプがフレームDCTモードであるとき、前記注目データのフレームの前記低品質データから、前記予測タップを抽出し、
前記ミスマッチ情報が、前記DCTタイプが正しくないことを表している場合、前記注目データのフィールドとフレームの両方の前記低品質データから、前記予測タップを抽出する
ことを特徴とする復号装置。Encoded data obtained by encoding image data, and at least a motion vector is detected from the image data and a motion compensation is performed using the motion vector to generate a predicted image, and the image data and the predicted image Including a DCT type representing a field DCT mode or a frame DCT mode when DCT is converted in a predetermined block unit by a field DCT (Discrete Cosine Transform) mode or a frame DCT mode, and a motion vector of the image data In a decoding device for decoding encoded data,
The correctness of the DCT type included in the encoded data is determined based on the presence or absence of motion of the image data in block units based on the motion vector of the image data included in the encoded data, and represents the determination result Judgment means for outputting mismatch information;
In order to obtain the attention data by using the high-quality data in units of pixels to be obtained as the attention data among the high-quality data of the higher-quality image than the low-quality image obtained by decoding the encoded data. Prediction tap extraction means for extracting some of the low-quality data in pixel units of the low-quality image used as a prediction tap for a product-sum operation with a predetermined tap coefficient;
Using student data corresponding to the low-quality data and learning data corresponding to the high-quality data and teacher data corresponding to the high-quality data and obtained by a product-sum operation of the student data and tap coefficients Prediction calculation for obtaining the attention data by performing the product-sum operation on the tap coefficient obtained by performing the learning to statistically minimize the prediction error of the predicted value of the teacher data and the prediction tap. And a decoding means comprising:
The prediction tap extraction means is based on the mismatch information,
When the mismatch information indicates that the DCT type is correct, when the DCT type is a field DCT mode, the prediction tap is extracted from the low quality data in the field of the attention data;
In the case where the mismatch information indicates that the DCT type is correct, when the DCT type is a frame DCT mode, the prediction tap is extracted from the low quality data of the frame of the target data;
When the mismatch information indicates that the DCT type is incorrect, the prediction tap is extracted from the low quality data of both the field of interest data and the frame.
前記ブロック単位の画像データに動きがある場合において、そのブロックについてのDCTタイプがフレームDCTモードであるとき、そのDCTタイプが正しくないと判定する
ことを特徴とする請求項1に記載の復号装置。The determination means includes
2. The decoding device according to claim 1, wherein when there is a motion in the image data of the block unit, when the DCT type for the block is a frame DCT mode, it is determined that the DCT type is not correct.
前記判定手段は、
イントラ符号化されたブロックについては、そのブロックのフレームの前または後のフレームのブロックにおける前記動きベクトルに基づいて、画像データの動きの有無を判定し、
ノンイントラ符号化されたブロックについては、そのブロックにおける前記動きベクトルに基づいて、画像データの動きの有無を判定する
ことを特徴とする請求項2に記載の復号装置。The encoded data is obtained by performing non-intra encoding or intra encoding that is encoding that does not use the predicted image for the block-unit image data.
The determination means includes
For an intra-coded block, the presence or absence of motion of image data is determined based on the motion vector in a block of a frame before or after the frame of the block;
The decoding apparatus according to claim 2, wherein the presence or absence of motion of image data is determined for a non-intra coded block based on the motion vector in the block.
前記注目データを、複数のクラスのうちのいずれかのクラスにクラス分類するのに用いる画素単位の前記低品質データの幾つかを、クラスタップとして抽出するクラスタップ抽出手段と、
前記注目データを、前記クラスタップを構成する前記低品質データの値に対応するクラスにクラス分類し、前記注目データのクラスを表すクラスコードを出力するクラス分類手段と、
前記クラスごとの前記タップ係数から、前記クラスコードに対応するタップ係数を取得するタップ係数取得手段と
をさらに有し、
前記予測演算手段は、前記予測タップ抽出手段が出力する予測タップと、前記タップ係数取得手段において得られたタップ係数との積和演算を行うことにより、前記注目データを求める
ことを特徴とする請求項1に記載の復号装置。The decoding means includes
Class tap extraction means for extracting some of the low quality data in pixel units used as a class tap for classifying the attention data into any one of a plurality of classes;
Classifying means for classifying the attention data into classes corresponding to values of the low quality data constituting the class tap, and outputting a class code representing the class of the attention data;
Tap coefficient acquisition means for acquiring a tap coefficient corresponding to the class code from the tap coefficient for each class; and
The prediction calculation means obtains the attention data by performing a product-sum operation on the prediction tap output by the prediction tap extraction means and the tap coefficient obtained by the tap coefficient acquisition means. Item 4. A decoding device according to Item 1.
前記ミスマッチ情報が、前記DCTタイプが正しいことを表している場合において、前記DCTタイプがフィールドDCTモードであるとき、前記注目データのフィールドの前記低品質データから、前記クラスタップを抽出し、
前記ミスマッチ情報が、前記DCTタイプが正しいことを表している場合において、前記DCTタイプがフレームDCTモードであるとき、前記注目データのフレームの前記低品質データから、前記クラスタップを抽出し、
前記ミスマッチ情報が、前記DCTタイプが正しくないことを表している場合、前記注目データのフィールドとフレームの両方の前記低品質データから、前記クラスタップを抽出する
ことを特徴とする請求項4に記載の復号装置。The class tap extraction means is based on the mismatch information,
In the case where the mismatch information indicates that the DCT type is correct, when the DCT type is a field DCT mode, the class tap is extracted from the low quality data in the field of the target data;
In the case where the mismatch information indicates that the DCT type is correct, when the DCT type is a frame DCT mode, the class tap is extracted from the low quality data of the frame of the target data;
The class tap is extracted from the low quality data of both the field and the frame of the data of interest when the mismatch information indicates that the DCT type is not correct. Decoding device.
ことを特徴とする請求項4に記載の復号装置。The class classification means classifies the data of interest into a class corresponding to a value of the low quality data constituting the class tap and a value of the mismatch information based on the mismatch information. The decoding device according to claim 4.
ことを特徴とする請求項1に記載の復号装置。The decoding apparatus according to claim 1, wherein the encoded data is obtained by encoding image data according to an MPEG (Moving Picture Experts Group) method.
前記高品質データは、前記低品質データである画像データよりも高画質の画像データである
ことを特徴とする請求項1に記載の復号装置。The low-quality data is image data obtained by decoding the encoded data according to the MPEG (Moving Picture Experts Group) system,
The decoding apparatus according to claim 1, wherein the high quality data is image data with higher image quality than image data that is the low quality data.
前記高品質データは、前記符号化データをMPEG方式にしたがって復号して得られる画像データよりも高画質の画像データである
ことを特徴とする請求項1に記載の復号装置。The low quality data is a DCT coefficient of image data obtained by decoding the encoded data in accordance with an MPEG (Moving Picture Experts Group) system,
The decoding apparatus according to claim 1, wherein the high-quality data is image data with higher image quality than image data obtained by decoding the encoded data according to an MPEG system.
前記高品質データは、前記符号化データをMPEG方式にしたがって復号して得られる画像データよりも高画質の画像データのDCT係数である
ことを特徴とする請求項1に記載の復号装置。The low quality data is a DCT coefficient of image data obtained by decoding the encoded data in accordance with an MPEG (Moving Picture Experts Group) system,
The decoding apparatus according to claim 1, wherein the high-quality data is a DCT coefficient of image data having higher image quality than image data obtained by decoding the encoded data according to an MPEG system.
前記符号化データに含まれるDCTタイプの正しさを、その符号化データに含まれる前記画像データの動きベクトルに基づいて、前記ブロック単位の画像データの動きの有無によって判定し、その判定結果を表すミスマッチ情報を出力する判定ステップと、
前記符号化データを復号して得られる低品質な画像よりも高品質な画像の高品質データのうちの、得ようとしている画素単位の前記高品質データを注目データとし、前記注目データを求めるための所定のタップ係数との積和演算に用いる前記低品質な画像の画素単位の低品質データの幾つかを、予測タップとして抽出する予測タップ抽出ステップと、
前記低品質データに対応する、学習の生徒となる生徒データと、前記高品質データに対応する、前記学習の教師となる教師データとを用い、前記生徒データとタップ係数との積和演算により求められる前記教師データの予測値の予測誤差を統計的に最小にする前記学習を行うことにより得られるタップ係数と、前記予測タップとの前記積和演算を行うことにより、前記注目データを求める予測演算ステップと
を含む復号ステップと
を備え、
前記予測タップ抽出ステップにおいては、前記ミスマッチ情報に基づき、
前記ミスマッチ情報が、前記DCTタイプが正しいことを表している場合において、前記DCTタイプがフィールドDCTモードであるとき、前記注目データのフィールドの前記低品質データから、前記予測タップを抽出し、
前記ミスマッチ情報が、前記DCTタイプが正しいことを表している場合において、前記DCTタイプがフレームDCTモードであるとき、前記注目データのフレームの前記低品質データから、前記予測タップを抽出し、
前記ミスマッチ情報が、前記DCTタイプが正しくないことを表している場合、前記注目データのフィールドとフレームの両方の前記低品質データから、前記予測タップを抽出する
ことを特徴とする復号方法。Encoded data obtained by encoding image data, and at least a motion vector is detected from the image data and a motion compensation is performed using the motion vector to generate a predicted image, and the image data and the predicted image Including a DCT type representing a field DCT mode or a frame DCT mode when DCT is converted in a predetermined block unit by a field DCT (Discrete Cosine Transform) mode or a frame DCT mode, and a motion vector of the image data In a decoding method for decoding encoded data,
The correctness of the DCT type included in the encoded data is determined based on the presence or absence of motion of the image data in block units based on the motion vector of the image data included in the encoded data, and represents the determination result A determination step of outputting mismatch information;
In order to obtain the attention data by using the high-quality data in units of pixels to be obtained as the attention data among the high-quality data of the high-quality image obtained by decoding the encoded data. A prediction tap extraction step for extracting some of the low quality data in pixel units of the low quality image used as a prediction tap for a product-sum operation with a predetermined tap coefficient;
Using student data corresponding to the low-quality data and learning data corresponding to the high-quality data and teacher data corresponding to the high-quality data and obtained by a product-sum operation of the student data and tap coefficients Prediction calculation for obtaining the attention data by performing the product-sum operation on the tap coefficient obtained by performing the learning to statistically minimize the prediction error of the predicted value of the teacher data and the prediction tap. And a decryption step comprising:
In the prediction tap extraction step, based on the mismatch information,
When the mismatch information indicates that the DCT type is correct, when the DCT type is a field DCT mode, the prediction tap is extracted from the low quality data in the field of the attention data;
In the case where the mismatch information indicates that the DCT type is correct, when the DCT type is a frame DCT mode, the prediction tap is extracted from the low quality data of the frame of the target data;
When the mismatch information indicates that the DCT type is not correct, the prediction tap is extracted from the low quality data of both the field of interest data and the frame.
前記符号化データに含まれるDCTタイプの正しさを、その符号化データに含まれる前記画像データの動きベクトルに基づいて、前記ブロック単位の画像データの動きの有無によって判定し、その判定結果を表すミスマッチ情報を出力する判定ステップと、
前記符号化データを復号して得られる低品質な画像よりも高品質な画像の高品質データのうちの、得ようとしている画素単位の前記高品質データを注目データとし、前記注目データを求めるための所定のタップ係数との積和演算に用いる前記低品質な画像の画素単位の低品質データの幾つかを、予測タップとして抽出する予測タップ抽出ステップと、
前記低品質データに対応する、学習の生徒となる生徒データと、前記高品質データに対応する、前記学習の教師となる教師データとを用い、前記生徒データとタップ係数との積和演算により求められる前記教師データの予測値の予測誤差を統計的に最小にする前記学習を行うことにより得られるタップ係数と、前記予測タップとの前記積和演算を行うことにより、前記注目データを求める予測演算ステップと
を含む復号ステップと
を備え、
前記予測タップ抽出ステップにおいては、前記ミスマッチ情報に基づき、
前記ミスマッチ情報が、前記DCTタイプが正しいことを表している場合において、前記DCTタイプがフィールドDCTモードであるとき、前記注目データのフィールドの前記低品質データから、前記予測タップを抽出し、
前記ミスマッチ情報が、前記DCTタイプが正しいことを表している場合において、前記DCTタイプがフレームDCTモードであるとき、前記注目データのフレームの前記低品質データから、前記予測タップを抽出し、
前記ミスマッチ情報が、前記DCTタイプが正しくないことを表している場合、前記注目データのフィールドとフレームの両方の前記低品質データから、前記予測タップを抽出する
ことを特徴とするプログラム。Encoded data obtained by encoding image data, and at least a motion vector is detected from the image data and a motion compensation is performed using the motion vector to generate a predicted image, and the image data and the predicted image Including a DCT type representing a field DCT mode or a frame DCT mode when DCT is converted in a predetermined block unit by a field DCT (Discrete Cosine Transform) mode or a frame DCT mode, and a motion vector of the image data In a program for causing a computer to perform a decoding process for decoding encoded data,
The correctness of the DCT type included in the encoded data is determined based on the presence or absence of motion of the image data in block units based on the motion vector of the image data included in the encoded data, and represents the determination result A determination step of outputting mismatch information;
In order to obtain the attention data by using the high-quality data in units of pixels to be obtained as the attention data among the high-quality data of the high-quality image obtained by decoding the encoded data. A prediction tap extraction step for extracting some of the low quality data in pixel units of the low quality image used as a prediction tap for a product-sum operation with a predetermined tap coefficient;
Using student data corresponding to the low-quality data and learning data corresponding to the high-quality data and teacher data corresponding to the high-quality data and obtained by a product-sum operation of the student data and tap coefficients Prediction calculation for obtaining the attention data by performing the product-sum operation on the tap coefficient obtained by performing the learning to statistically minimize the prediction error of the predicted value of the teacher data and the prediction tap. And a decryption step comprising:
In the prediction tap extraction step, based on the mismatch information,
When the mismatch information indicates that the DCT type is correct, when the DCT type is a field DCT mode, the prediction tap is extracted from the low quality data in the field of the attention data;
In the case where the mismatch information indicates that the DCT type is correct, when the DCT type is a frame DCT mode, the prediction tap is extracted from the low quality data of the frame of the target data;
When the mismatch information indicates that the DCT type is not correct, the prediction tap is extracted from the low quality data of both the field of interest data and the frame.
前記符号化データに含まれるDCTタイプの正しさを、その符号化データに含まれる前記画像データの動きベクトルに基づいて、前記ブロック単位の画像データの動きの有無によって判定し、その判定結果を表すミスマッチ情報を出力する判定ステップと、
前記符号化データを復号して得られる低品質な画像よりも高品質な画像の高品質データのうちの、得ようとしている画素単位の前記高品質データを注目データとし、前記注目データを求めるための所定のタップ係数との積和演算に用いる前記低品質な画像の画素単位の低品質データの幾つかを、予測タップとして抽出する予測タップ抽出ステップと、
前記低品質データに対応する、学習の生徒となる生徒データと、前記高品質データに対応する、前記学習の教師となる教師データとを用い、前記生徒データとタップ係数との積和演算により求められる前記教師データの予測値の予測誤差を統計的に最小にする前記学習を行うことにより得られるタップ係数と、前記予測タップとの前記積和演算を行うことにより、前記注目データを求める予測演算ステップと
を含む復号ステップと
を備え、
前記予測タップ抽出ステップにおいては、前記ミスマッチ情報に基づき、
前記ミスマッチ情報が、前記DCTタイプが正しいことを表している場合において、前記DCTタイプがフィールドDCTモードであるとき、前記注目データのフィールドの前記低品質データから、前記予測タップを抽出し、
前記ミスマッチ情報が、前記DCTタイプが正しいことを表している場合において、前記DCTタイプがフレームDCTモードであるとき、前記注目データのフレームの前記低品質データから、前記予測タップを抽出し、
前記ミスマッチ情報が、前記DCTタイプが正しくないことを表している場合、前記注目データのフィールドとフレームの両方の前記低品質データから、前記予測タップを抽出する
プログラムが記録されている
ことを特徴とする記録媒体。Encoded data obtained by encoding image data, and at least a motion vector is detected from the image data and a motion compensation is performed using the motion vector to generate a predicted image, and the image data and the predicted image Including a DCT type representing a field DCT mode or a frame DCT mode when DCT conversion is performed in a predetermined block unit in a field DCT (Discrete Cosine Transform) mode or a frame DCT mode, and a motion vector of the image data In a recording medium on which a program for causing a computer to perform a decoding process for decoding encoded data is recorded,
The correctness of the DCT type included in the encoded data is determined based on the presence or absence of motion of the image data in block units based on the motion vector of the image data included in the encoded data, and represents the determination result A determination step of outputting mismatch information;
In order to obtain the attention data by using the high-quality data in units of pixels to be obtained as the attention data among the high-quality data of the high-quality image obtained by decoding the encoded data. A prediction tap extraction step for extracting some of the low quality data in pixel units of the low quality image used as a prediction tap for a product-sum operation with a predetermined tap coefficient;
Using student data corresponding to the low-quality data and learning data corresponding to the high-quality data and teacher data corresponding to the high-quality data and obtained by a product-sum operation of the student data and tap coefficients Prediction calculation for obtaining the attention data by performing the product-sum operation on the tap coefficient obtained by performing the learning to statistically minimize the prediction error of the predicted value of the teacher data and the prediction tap. And a decryption step comprising:
In the prediction tap extraction step, based on the mismatch information,
When the mismatch information indicates that the DCT type is correct, when the DCT type is a field DCT mode, the prediction tap is extracted from the low quality data in the field of the attention data;
In the case where the mismatch information indicates that the DCT type is correct, when the DCT type is a frame DCT mode, the prediction tap is extracted from the low quality data of the frame of the target data;
When the mismatch information indicates that the DCT type is not correct, a program for extracting the prediction tap from the low-quality data of both the field and frame of the data of interest is recorded. Recording media to be used.
学習用の画像データから、前記タップ係数の学習の教師となる教師データを生成して出力する教師データ生成手段と、
前記学習用の画像データから、前記タップ係数の学習の生徒となる生徒データを生成して出力する生徒データ生成手段と、
前記学習用の画像データを符号化し、前記DCTタイプおよび前記画像データの動きベクトルを含む学習用の符号化データを出力する符号化手段と、
前記学習用の符号化データに含まれる前記DCTタイプの正しさを、その学習用の符号化データに含まれる前記画像データの動きベクトルに基づいて、前記ブロック単位の画像データの動きの有無によって判定し、その判定結果を表すミスマッチ情報を出力する判定手段と、
前記符号化データを復号して得られる低品質な画像よりも高品質な画像の高品質データのうちの、得ようとしている画素単位の前記高品質データを注目データとし、前記注目データを求めるための所定のタップ係数との積和演算に用いる前記低品質な画像の画素単位の低品質データの幾つかを、予測タップとして抽出する予測タップ抽出手段と、
前記低品質データに対応する前記生徒データと、前記高品質データに対応する前記教師データとを用い、前記生徒データとタップ係数との積和演算により求められる前記教師データの予測値の予測誤差が統計的に最小になるタップ係数を求めるタップ係数演算手段と
を有する学習手段と、
前記タップ係数と、前記予測タップとの前記積和演算を行うことにより、前記注目データを求める予測演算手段
を有する復号手段と
を備え、
前記予測タップ抽出手段は、前記ミスマッチ情報に基づき、
前記ミスマッチ情報が、前記DCTタイプが正しいことを表している場合において、前記DCTタイプがフィールドDCTモードであるとき、前記注目データのフィールドの前記低品質データから、前記予測タップを抽出し、
前記ミスマッチ情報が、前記DCTタイプが正しいことを表している場合において、前記DCTタイプがフレームDCTモードであるとき、前記注目データのフレームの前記低品質データから、前記予測タップを抽出し、
前記ミスマッチ情報が、前記DCTタイプが正しくないことを表している場合、前記注目データのフィールドとフレームの両方の前記低品質データから、前記予測タップを抽出する
ことを特徴とする学習装置。Encoded data obtained by encoding image data, and at least a motion vector is detected from the image data and a motion compensation is performed using the motion vector to generate a predicted image, and the image data and the predicted image Including a DCT type representing a field DCT mode or a frame DCT mode when DCT is converted in a predetermined block unit by a field DCT (Discrete Cosine Transform) mode or a frame DCT mode, and a motion vector of the image data In a learning device that learns tap coefficients used to decode encoded data,
Teacher data generation means for generating and outputting teacher data serving as a teacher for learning the tap coefficient from image data for learning;
Student data generation means for generating and outputting student data to be students of learning of the tap coefficient from the learning image data;
Encoding means for encoding the learning image data and outputting encoded data for learning including the DCT type and a motion vector of the image data;
The correctness of the DCT type included in the learning encoded data is determined based on the presence or absence of motion of the block-based image data based on the motion vector of the image data included in the learning encoded data. Determining means for outputting mismatch information representing the determination result;
In order to obtain the attention data by using the high-quality data in units of pixels to be obtained as the attention data among the high-quality data of the higher-quality image than the low-quality image obtained by decoding the encoded data. Prediction tap extraction means for extracting some of the low-quality data in pixel units of the low-quality image used as a prediction tap for a product-sum operation with a predetermined tap coefficient;
Using the student data corresponding to the low quality data and the teacher data corresponding to the high quality data, a prediction error of the predicted value of the teacher data obtained by a product-sum operation of the student data and a tap coefficient is A learning means having a tap coefficient calculating means for obtaining a statistically minimum tap coefficient;
Decoding means having prediction calculation means for obtaining the data of interest by performing the product-sum calculation of the tap coefficient and the prediction tap;
The prediction tap extraction means is based on the mismatch information,
When the mismatch information indicates that the DCT type is correct, when the DCT type is a field DCT mode, the prediction tap is extracted from the low quality data in the field of the attention data;
In the case where the mismatch information indicates that the DCT type is correct, when the DCT type is a frame DCT mode, the prediction tap is extracted from the low quality data of the frame of the target data;
When the mismatch information indicates that the DCT type is not correct, the prediction tap is extracted from the low quality data of both the field of interest data and the frame.
前記ブロック単位の画像データに動きがある場合において、そのブロックについてのDCTタイプがフレームDCTモードであるとき、そのDCTタイプが正しくないと判定する
ことを特徴とする請求項14に記載の学習装置。The determination means includes
The learning apparatus according to claim 14, wherein when there is a motion in the block-unit image data and the DCT type for the block is a frame DCT mode, the DCT type is determined to be incorrect.
前記判定手段は、
イントラ符号化されたブロックについては、そのブロックのフレームの前または後のフレームのブロックにおける前記動きベクトルに基づいて、画像データの動きの有無を判定し、
ノンイントラ符号化されたブロックについては、そのブロックにおける前記動きベクトルに基づいて、画像データの動きの有無を判定する
ことを特徴とする請求項15に記載の学習装置。The encoded data is obtained by performing non-intra encoding or intra encoding that is encoding that does not use the predicted image for the block-unit image data.
The determination means includes
For an intra-coded block, the presence or absence of motion of image data is determined based on the motion vector in a block of a frame before or after the frame of the block;
The learning apparatus according to claim 15, wherein the presence or absence of motion of image data is determined for a non-intra coded block based on the motion vector in the block.
前記注目データを、複数のクラスのうちのいずれかのクラスにクラス分類するのに用いる画素単位の前記低品質データの幾つかを、クラスタップとして抽出するクラスタップ抽出手段と、
前記注目データを、前記クラスタップを構成する前記低品質データの値に対応するクラスにクラス分類し、前記注目データのクラスを表すクラスコードを出力するクラス分類手段と
をさらに有し、
前記タップ係数演算手段は、前記予測タップとタップ係数とを用いて積和演算を行うことにより得られる前記教師データの予測値の予測誤差が統計的に最小になる前記タップ係数を、前記クラスごとに求める
ことを特徴とする請求項14に記載の学習装置。The learning means includes
Class tap extraction means for extracting some of the low quality data in pixel units used as a class tap for classifying the attention data into any one of a plurality of classes;
Classifying means for classifying the attention data into classes corresponding to values of the low quality data constituting the class tap, and classifying means for outputting a class code representing the class of the attention data; and
The tap coefficient calculation means, for each class, the tap coefficient for which the prediction error of the predicted value of the teacher data obtained by performing a product-sum operation using the prediction tap and the tap coefficient is statistically minimized. The learning device according to claim 14, characterized in that:
ことを特徴とする請求項14に記載の学習装置。15. The learning apparatus according to claim 14, wherein the encoding means encodes learning image data by an MPEG (Moving Picture Experts Group) method and outputs the learning encoded data.
前記高品質データは、前記低品質データである画像データよりも高画質の画像データである
ことを特徴とする請求項14に記載の学習装置。The low-quality data is image data obtained by decoding the encoded data according to the MPEG (Moving Picture Experts Group) system,
The learning apparatus according to claim 14, wherein the high quality data is image data with higher image quality than image data that is the low quality data.
前記高品質データは、前記符号化データをMPEG方式にしたがって復号して得られる画像データよりも高画質の画像データである
ことを特徴とする請求項14に記載の学習装置。The low quality data is a DCT coefficient of image data obtained by decoding the encoded data in accordance with an MPEG (Moving Picture Experts Group) system,
The learning device according to claim 14, wherein the high-quality data is image data with higher image quality than image data obtained by decoding the encoded data according to an MPEG system.
前記高品質データは、前記符号化データをMPEG方式にしたがって復号して得られる画像データよりも高画質の画像データのDCT係数である
ことを特徴とする請求項14に記載の学習装置。The low quality data is a DCT coefficient of image data obtained by decoding the encoded data in accordance with an MPEG (Moving Picture Experts Group) system,
The learning apparatus according to claim 14, wherein the high-quality data is a DCT coefficient of image data having higher image quality than image data obtained by decoding the encoded data according to an MPEG system.
学習用の画像データから、前記タップ係数の学習の教師となる教師データを生成して出力する教師データ生成ステップと、
前記学習用の画像データから、前記タップ係数の学習の生徒となる生徒データを生成して出力する生徒データ生成ステップと、
前記学習用の画像データを符号化し、前記DCTタイプおよび前記画像データの動きベクトルを含む学習用の符号化データを出力する符号化ステップと、
前記学習用の符号化データに含まれる前記DCTタイプの正しさを、その学習用の符号化データに含まれる前記画像データの動きベクトルに基づいて、前記ブロック単位の画像データの動きの有無によって判定し、その判定結果を表すミスマッチ情報を出力する判定ステップと、
前記符号化データを復号して得られる低品質な画像よりも高品質な画像の高品質データのうちの、得ようとしている画素単位の前記高品質データを注目データとし、前記注目データを求めるための所定のタップ係数との積和演算に用いる前記低品質な画像の画素単位の低品質データの幾つかを、予測タップとして抽出する予測タップ抽出ステップと、
前記低品質データに対応する前記生徒データと、前記高品質データに対応する前記教師データとを用い、前記生徒データとタップ係数との積和演算により求められる前記教師データの予測値の予測誤差が統計的に最小になるタップ係数を求めるタップ係数演算ステップと
を有する学習ステップと、
前記タップ係数と、前記予測タップとの前記積和演算を行うことにより、前記注目データを求める予測演算ステップ
を有する復号ステップと
を備え、
前記予測タップ抽出ステップにおいては、前記ミスマッチ情報に基づき、
前記ミスマッチ情報が、前記DCTタイプが正しいことを表している場合において、前記DCTタイプがフィールドDCTモードであるとき、前記注目データのフィールドの前記低品質データから、前記予測タップを抽出し、
前記ミスマッチ情報が、前記DCTタイプが正しいことを表している場合において、前記DCTタイプがフレームDCTモードであるとき、前記注目データのフレームの前記低品質データから、前記予測タップを抽出し、
前記ミスマッチ情報が、前記DCTタイプが正しくないことを表している場合、前記注目データのフィールドとフレームの両方の前記低品質データから、前記予測タップを抽出する
ことを特徴とする学習方法。Encoded data obtained by encoding image data, and at least a motion vector is detected from the image data and a motion compensation is performed using the motion vector to generate a predicted image, and the image data and the predicted image Including a DCT type representing a field DCT mode or a frame DCT mode when DCT is converted in a predetermined block unit by a field DCT (Discrete Cosine Transform) mode or a frame DCT mode, and a motion vector of the image data In a learning method for learning tap coefficients used to decode encoded data,
A teacher data generation step for generating and outputting teacher data to be a teacher for learning the tap coefficient from the image data for learning; and
A student data generation step of generating and outputting student data to be students of learning of the tap coefficient from the learning image data;
An encoding step of encoding the learning image data and outputting encoded data for learning including the DCT type and a motion vector of the image data;
The correctness of the DCT type included in the learning encoded data is determined based on the presence or absence of motion of the block-based image data based on the motion vector of the image data included in the learning encoded data. And a determination step for outputting mismatch information representing the determination result;
In order to obtain the attention data by using the high-quality data in units of pixels to be obtained as the attention data among the high-quality data of the high-quality image obtained by decoding the encoded data. A prediction tap extraction step for extracting some of the low quality data in pixel units of the low quality image used as a prediction tap for a product-sum operation with a predetermined tap coefficient;
Using the student data corresponding to the low quality data and the teacher data corresponding to the high quality data, a prediction error of a predicted value of the teacher data obtained by a product-sum operation of the student data and a tap coefficient is A learning step having a tap coefficient calculation step for obtaining a tap coefficient that is statistically minimized;
A decoding step including a prediction calculation step for obtaining the data of interest by performing the product-sum operation on the tap coefficient and the prediction tap,
In the prediction tap extraction step, based on the mismatch information,
When the mismatch information indicates that the DCT type is correct, when the DCT type is a field DCT mode, the prediction tap is extracted from the low quality data in the field of the attention data;
In the case where the mismatch information indicates that the DCT type is correct, when the DCT type is a frame DCT mode, the prediction tap is extracted from the low quality data of the frame of the target data;
When the mismatch information indicates that the DCT type is not correct, the prediction tap is extracted from the low quality data of both the field of interest data and the frame.
学習用の画像データから、前記タップ係数の学習の教師となる教師データを生成して出力する教師データ生成ステップと、
前記学習用の画像データから、前記タップ係数の学習の生徒となる生徒データを生成して出力する生徒データ生成ステップと、
前記学習用の画像データを符号化し、前記DCTタイプおよび前記画像データの動きベクトルを含む学習用の符号化データを出力する符号化ステップと、
前記学習用の符号化データに含まれる前記DCTタイプの正しさを、その学習用の符号化データに含まれる前記画像データの動きベクトルに基づいて、前記ブロック単位の画像データの動きの有無によって判定し、その判定結果を表すミスマッチ情報を出力する判定ステップと、
前記符号化データを復号して得られる低品質な画像よりも高品質な画像の高品質データのうちの、得ようとしている画素単位の前記高品質データを注目データとし、前記注目データを求めるための所定のタップ係数との積和演算に用いる前記低品質な画像の画素単位の低品質データの幾つかを、予測タップとして抽出する予測タップ抽出ステップと、
前記低品質データに対応する前記生徒データと、前記高品質データに対応する前記教師データとを用い、前記生徒データとタップ係数との積和演算により求められる前記教師データの予測値の予測誤差が統計的に最小になるタップ係数を求めるタップ係数演算ステップと
を有する学習ステップと、
前記タップ係数と、前記予測タップとの前記積和演算を行うことにより、前記注目データを求める予測演算ステップ
を有する復号ステップと
を備え、
前記予測タップ抽出ステップにおいては、前記ミスマッチ情報に基づき、
前記ミスマッチ情報が、前記DCTタイプが正しいことを表している場合において、前記DCTタイプがフィールドDCTモードであるとき、前記注目データのフィールドの前記低品質データから、前記予測タップを抽出し、
前記ミスマッチ情報が、前記DCTタイプが正しいことを表している場合において、前記DCTタイプがフレームDCTモードであるとき、前記注目データのフレームの前記低品質データから、前記予測タップを抽出し、
前記ミスマッチ情報が、前記DCTタイプが正しくないことを表している場合、前記注目データのフィールドとフレームの両方の前記低品質データから、前記予測タップを抽出する
ことを特徴とするプログラム。Encoded data obtained by encoding image data, and at least a motion vector is detected from the image data and a motion compensation is performed using the motion vector to generate a predicted image, and the image data and the predicted image Including a DCT type representing a field DCT mode or a frame DCT mode when DCT is converted in a predetermined block unit by a field DCT (Discrete Cosine Transform) mode or a frame DCT mode, and a motion vector of the image data In a program for causing a computer to perform a learning process for learning a tap coefficient used to decode encoded data,
A teacher data generation step for generating and outputting teacher data to be a teacher for learning the tap coefficient from the image data for learning; and
A student data generation step of generating and outputting student data to be students of learning of the tap coefficient from the learning image data;
An encoding step of encoding the learning image data and outputting encoded data for learning including the DCT type and a motion vector of the image data;
The correctness of the DCT type included in the learning encoded data is determined based on the presence or absence of motion of the block-based image data based on the motion vector of the image data included in the learning encoded data. And a determination step for outputting mismatch information representing the determination result;
In order to obtain the attention data by using the high-quality data in units of pixels to be obtained as the attention data among the high-quality data of the high-quality image obtained by decoding the encoded data. A prediction tap extraction step for extracting some of the low quality data in pixel units of the low quality image used as a prediction tap for a product-sum operation with a predetermined tap coefficient;
Using the student data corresponding to the low quality data and the teacher data corresponding to the high quality data, a prediction error of a predicted value of the teacher data obtained by a product-sum operation of the student data and a tap coefficient is A learning step having a tap coefficient calculation step for obtaining a tap coefficient that is statistically minimized;
A decoding step including a prediction calculation step for obtaining the data of interest by performing the product-sum operation on the tap coefficient and the prediction tap,
In the prediction tap extraction step, based on the mismatch information,
When the mismatch information indicates that the DCT type is correct, when the DCT type is a field DCT mode, the prediction tap is extracted from the low quality data in the field of the attention data;
In the case where the mismatch information indicates that the DCT type is correct, when the DCT type is a frame DCT mode, the prediction tap is extracted from the low quality data of the frame of the target data;
When the mismatch information indicates that the DCT type is not correct, the prediction tap is extracted from the low quality data of both the field of interest data and the frame.
学習用の画像データから、前記タップ係数の学習の教師となる教師データを生成して出力する教師データ生成ステップと、
前記学習用の画像データから、前記タップ係数の学習の生徒となる生徒データを生成して出力する生徒データ生成ステップと、
前記学習用の画像データを符号化し、前記DCTタイプおよび前記画像データの動きベクトルを含む学習用の符号化データを出力する符号化ステップと、
前記学習用の符号化データに含まれる前記DCTタイプの正しさを、その学習用の符号化データに含まれる前記画像データの動きベクトルに基づいて、前記ブロック単位の画像データの動きの有無によって判定し、その判定結果を表すミスマッチ情報を出力する判定ステップと、
前記符号化データを復号して得られる低品質な画像よりも高品質な画像の高品質データのうちの、得ようとしている画素単位の前記高品質データを注目データとし、前記注目データを求めるための所定のタップ係数との積和演算に用いる前記低品質な画像の画素単位の低品質データの幾つかを、予測タップとして抽出する予測タップ抽出ステップと、
前記低品質データに対応する前記生徒データと、前記高品質データに対応する前記教師データとを用い、前記生徒データとタップ係数との積和演算により求められる前記教師データの予測値の予測誤差が統計的に最小になるタップ係数を求めるタップ係数演算ステップと
を有する学習ステップと、
前記タップ係数と、前記予測タップとの前記積和演算を行うことにより、前記注目データを求める予測演算ステップ
を有する復号ステップと
を備え、
前記予測タップ抽出ステップにおいては、前記ミスマッチ情報に基づき、
前記ミスマッチ情報が、前記DCTタイプが正しいことを表している場合において、前記DCTタイプがフィールドDCTモードであるとき、前記注目データのフィールドの前記低品質データから、前記予測タップを抽出し、
前記ミスマッチ情報が、前記DCTタイプが正しいことを表している場合において、前記DCTタイプがフレームDCTモードであるとき、前記注目データのフレームの前記低品質データから、前記予測タップを抽出し、
前記ミスマッチ情報が、前記DCTタイプが正しくないことを表している場合、前記注目データのフィールドとフレームの両方の前記低品質データから、前記予測タップを抽出する
プログラムが記録されている
ことを特徴とする記録媒体。Encoded data obtained by encoding image data, and at least a motion vector is detected from the image data and a motion compensation is performed using the motion vector to generate a predicted image, and the image data and the predicted image Including a DCT type representing a field DCT mode or a frame DCT mode when DCT is converted in a predetermined block unit by a field DCT (Discrete Cosine Transform) mode or a frame DCT mode, and a motion vector of the image data In a recording medium on which a program for causing a computer to perform a learning process for learning a tap coefficient used for decoding encoded data is recorded,
A teacher data generation step for generating and outputting teacher data to be a teacher for learning the tap coefficient from the image data for learning; and
A student data generation step of generating and outputting student data to be students of learning of the tap coefficient from the learning image data;
An encoding step of encoding the learning image data and outputting encoded data for learning including the DCT type and a motion vector of the image data;
The correctness of the DCT type included in the learning encoded data is determined based on the presence or absence of motion of the block-based image data based on the motion vector of the image data included in the learning encoded data. And a determination step for outputting mismatch information representing the determination result;
In order to obtain the attention data by using the high-quality data in units of pixels to be obtained as the attention data among the high-quality data of the high-quality image obtained by decoding the encoded data. A prediction tap extraction step for extracting some of the low quality data in pixel units of the low quality image used as a prediction tap for a product-sum operation with a predetermined tap coefficient;
Using the student data corresponding to the low quality data and the teacher data corresponding to the high quality data, a prediction error of a predicted value of the teacher data obtained by a product-sum operation of the student data and a tap coefficient is A learning step having a tap coefficient calculation step for obtaining a tap coefficient that is statistically minimized;
A decoding step including a prediction calculation step for obtaining the data of interest by performing the product-sum operation on the tap coefficient and the prediction tap,
In the prediction tap extraction step, based on the mismatch information,
When the mismatch information indicates that the DCT type is correct, when the DCT type is a field DCT mode, the prediction tap is extracted from the low quality data in the field of the attention data;
In the case where the mismatch information indicates that the DCT type is correct, when the DCT type is a frame DCT mode, the prediction tap is extracted from the low quality data of the frame of the target data;
When the mismatch information indicates that the DCT type is not correct, a program for extracting the prediction tap from the low-quality data of both the field and frame of the data of interest is recorded. Recording media to be used.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002061419A JP4081745B2 (en) | 2002-03-07 | 2002-03-07 | Decoding device and decoding method, learning device and learning method, program, and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002061419A JP4081745B2 (en) | 2002-03-07 | 2002-03-07 | Decoding device and decoding method, learning device and learning method, program, and recording medium |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2003264837A JP2003264837A (en) | 2003-09-19 |
JP2003264837A5 JP2003264837A5 (en) | 2005-09-02 |
JP4081745B2 true JP4081745B2 (en) | 2008-04-30 |
Family
ID=29195737
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002061419A Expired - Fee Related JP4081745B2 (en) | 2002-03-07 | 2002-03-07 | Decoding device and decoding method, learning device and learning method, program, and recording medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4081745B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6499060B1 (en) | 1999-03-12 | 2002-12-24 | Microsoft Corporation | Media coding for loss recovery with remotely predicted data units |
US8634413B2 (en) * | 2004-12-30 | 2014-01-21 | Microsoft Corporation | Use of frame caching to improve packet loss recovery |
EP2413612B1 (en) * | 2010-07-30 | 2015-02-25 | Deutsche Telekom AG | Methods and apparatuses for temporal synchronization between the video bit stream and the output video sequence |
-
2002
- 2002-03-07 JP JP2002061419A patent/JP4081745B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2003264837A (en) | 2003-09-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210258579A1 (en) | Method and device for encoding or decoding image | |
JP6336438B2 (en) | Method, program, and computer system | |
US8553768B2 (en) | Image encoding/decoding method and apparatus | |
US7289671B2 (en) | Data processing apparatus and method and recording medium | |
WO2009084340A1 (en) | Moving image encoder and moving image decoder | |
US20090232207A1 (en) | Method and apparatus for encoding/decoding image based on intra prediction | |
US20100284461A1 (en) | Encoding Filter Coefficients | |
US20080232705A1 (en) | Method and apparatus for image encoding and image decoding | |
KR100703788B1 (en) | Multi-layered Video Encoding Method Using Smooth Prediction, Decoding Method, Video Encoder and Video Decoder | |
KR20120116936A (en) | Method for coding and method for reconstruction of a block of an image | |
CN1695381A (en) | Sharpness enhancement in post-processing of digital video signals using coding information and local spatial features | |
JP2010534015A (en) | Image processing method and corresponding electronic device | |
MX2014015293A (en) | Encoding device, decoding device, and program. | |
KR20130129418A (en) | Compression of pictures | |
JP4494803B2 (en) | Improved noise prediction method and apparatus based on motion compensation, and moving picture encoding method and apparatus using the same | |
US20040005077A1 (en) | Anti-compression techniques for visual images | |
US20060093041A1 (en) | Intra-frame prediction for high-pass temporal-filtered frames in wavelet video coding | |
JP4847076B2 (en) | Method and transcoder for estimating output macroblocks and motion vectors for transcoding | |
JP4081745B2 (en) | Decoding device and decoding method, learning device and learning method, program, and recording medium | |
JP2003061091A (en) | Method and apparatus for up-sampling compressed bitstream | |
US20090279610A1 (en) | Method and apparatus for encoding/decoding with interlace scanning based motion vector transformation | |
JP4784618B2 (en) | Moving picture encoding apparatus, moving picture decoding apparatus, moving picture encoding program, and moving picture decoding program | |
JP4752088B2 (en) | Data processing apparatus, data processing method, and recording medium | |
JP4517448B2 (en) | Data processing apparatus, data processing method, and recording medium | |
JP4154902B2 (en) | Image processing apparatus, image processing method, program, and recording medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050303 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050303 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070824 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071018 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20071108 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071220 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080118 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080131 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110222 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120222 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130222 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130222 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140222 Year of fee payment: 6 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |