DE69736852T2

DE69736852T2 - Codierung- und Decodierungssystem für bewegte Bilder mit beliebig geformten Objekten

Info

Publication number: DE69736852T2
Application number: DE1997636852
Authority: DE
Inventors: Kang-Wook Chun; Byeung-Woo Sungnam-city Jeon
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 1996-05-29
Filing date: 1997-05-27
Publication date: 2007-09-06
Anticipated expiration: 2017-05-28
Also published as: CN1177259A; KR970078652A; EP1523196A2; US6038258A; EP1715695A2; KR100215451B1; CN1254238A; DE69736852D1; EP1523196A3; ES2277350T3; US6236680B1; EP0810792A3; US6744817B2; EP0810792B1; EP1715695A3; CN1146242C; CN1134988C; JPH1056643A; EP0810792A2; US20010014119A1

Description

Die vorliegende Erfindung betrifft ein System zum Dekodieren eines Bewegtbildes, das ein beliebiges Objekt enthält.
In jüngster Zeit haben internationale Standards zum Übertragen eines Bewegtbildes bei einer sehr niedrigen Bitrate solche Fortschritte gemacht, dass sie bei einem Bildtelefon oder einem Videokonferenzsystem eingesetzt werden. Um ein Bewegtbild mit einer sehr niedrigen Rate zu übertragen, wird verbreitet ein objektorientiertes Kodierverfahren zum Teilen des relevanten Objektes in ein Bewegtbild und zum Senden des geteilten Objektes untersucht. Das objektorientierte Kodierverfahren wird als ein grundlegendes Verfahren zum Übertragen eines Bewegtbildes mit einer sehr niedrigen Bitrate anerkannt. Bei dem objektorientierten Kodieren des Bewegtbildes ist ein Vorhersageverfahren zum Aufheben temporaler Korrelation in Bezug auf ein Objekt erforderlich, und ein genaueres Bewegungs-Vorhersageverfahren wird benötigt, um eine Effizienz beim Kodieren zu verbessern.
Hötter M.: "Optimization and Efficiency of an Object-Oriented Analysis-Synthesis Coder" IEEE Transactions on Circuits and Systems for video Technology, US, IEEE Inc. New York, Band 4, Nr. 2, 1. April 1994 (1994-04-01), Seiten 181-194 offenbart einen objektorientierten Analyse-Synthese-Kodierer, der auf einem Quellenmodell des Bewegens flexibler 2D-Objekte basiert und beliebig geformte Objekte statt rechteckiger Blöcke kodiert. Die Objekte werden durch drei Parametersätze beschrieben, die ihre Bewegung, Form und Farbe definieren. Die Parametersätze jedes Objektes werden durch Bildanalyse gewonnen und mit einer objektabhängigen Parameter-Kodierung kodiert. Unter Verwendung der kodierten Parametersätze kann ein Bild durch modellbasierte Bildsynthese rekonstruiert werden. Dieses Dokument bildet den vorkennzeichnenden Abschnitt der unabhängigen Ansprüche.
Salembier P. et al.: "Very low bit rate video coding using active triangular mesh", IEEE international conference on acoustics, speech, and signal processing-proceedings. (ICASSP), US, New York, IEEE, Band Conf. 21, 7. Mai 1996 (1996-05-07), Seiten 2060-2063 offenbart ein Video-Kodierschema für Anwendungen mit sehr niedriger Bitrate, das aktive Netze (meshes) nutzt, die dazu dienen, einen gesamten Bildrahmen effizient darzustellen und zu kodieren. Das heißt, es wird ein aktives Dreiecks-Netz-Kodierschema offenbart.
Ein Ziel der vorliegenden Erfindung besteht darin, eine Vorrichtung und ein Verfahren zum Dekodieren zu schaffen, mit denen Daten dekodiert werden, die ein beliebiges Objekt in einem Bewegtbild darstellen, wobei das beliebige Objekt, das aus einem Bild extrahiert wird, als Netze dargestellt wird, und Kontrollpunkte der Netze für Kodierung mit Bewegungsvorhersage genutzt werden.
Gemäß der vorliegenden Erfindung werden eine Vorrichtung und ein Verfahren geschaffen, wie sie in den beigefügten Ansprüche aufgeführt sind. Bevorzugte Merkmale der Erfindung werden aus den abhängigen Ansprüchen und der folgenden Beschreibung ersichtlich.
Gemäß einem Aspekt der vorliegenden Erfindung wird eine Bilddekodiervorrichtung geschaffen, die umfasst:
eine Informationseingabeeinrichtung zum Empfangen von Konturinformationen eines Objektes und eines Bewegungsvektors,
eine Objektkontur-Wiederherstellungseinrichtung zum Wiederherstellen einer Kontur des Objektes unter Verwendung der Konturinformationen des Objektes, und
eine Bewegungskompensationseinrichtung zum Durchführen einer räumlichen Transformation des Objektes in Beziehung zu dem Bewegungsvektor, dadurch gekennzeichnet, dass der Bewegungsvektor ein Bewegungsvektor an einem Knotenpunkt eines Netzes ist, die Vorrichtung des Weiteren eine Netzerzeugungseinrichtung zum Wiederherstellen einer Netzstruktur für das Objekt unter Verwendung der Konturinformationen des Objektes umfasst, und die Bewegungskompensationseinrichtung räumliche Transformation als eine Einheit des Netzes unter Verwendung des Bewegungsvektors auf dem Knotenpunkt des Netzes und der Netzstruktur für das Referenzobjekt durchführt, um ein Vorhersageobjekt zu erzeugen.
Gemäß einem weiteren Aspekt der vorliegenden Erfindung wird ein Verfahren zum Dekodieren von kodierten Daten zur Wiederherstellung eines visuellen Objektes daraus geschaffen, wobei das Verfahren umfasst:
Gewinnen einer Vielzahl von Bewegungsvektoren aus den kodierten Daten; und
Durchführen einer räumlichen Transformation unter Verwendung der Vielzahl von Bewegungsvektoren, um das visuelle Objekt wiederherzustellen; dadurch gekennzeichnet, dass die kodierten Daten aus einer Netzdarstellung eines visuellen Objektes erzeugt werden und Netzdaten sowie Konturinformationen umfassen, die Vielzahl von Bewegungsvektoren eine relative Bewegung zwischen jeweiligen einer Vielzahl von Knotenpunkten der Netzdarstellung des visuellen Objektes und entsprechende räumliche Positionen eines vorgegebenen Bezugsobjektes darstellen, das Verfahren des Weiteren den Schritt des Reproduzierens der Netzdarstellung aus den Netzdaten und der Konturinformationen der kodierten Daten umfasst und der Durchführungsschritt das Durchführen der räumlichen Transformation der reproduzierten Netzdarstellung unter Verwendung der Vielzahl von Bewegungsvektoren umfasst, um das visuelle Objekt wiederherzustellen.
Zum besseren Verständnis der Erfindung und um zu zeigen, wie Ausführungen derselben umgesetzt werden können, wird im Folgenden als Beispiel auf die beigefügten schematischen Zeichnungen Bezug genommen, bei denen:
1 ein Blockschaltbild ist, das eine Bewegtbild-Kodiervorrichtung als Hintergrund für eine bevorzugte Ausführung der vorliegenden Erfindung zeigt;
2 ein detailliertes Blockschaltbild der Netzerzeugungseinrichtung in 1 ist;
3 ein Blockschaltbild ist, das eine bevorzugte Bewegtbild-Dekodiervorrichtung zum Dekodieren von mit der Vorrichtung in 1 kodierten Daten zeigt;
4 ein Blockschaltbild ist, das eine Bewegtbild-Kodiervorrichtung als Hintergrund für eine weitere bevorzugte Ausführung der vorliegenden Erfindung zeigt; und
5 ein Blockschaltbild ist, das eine bevorzugte Bewegtbild-Dekodiervorrichtung zum Dekodieren von mit der Vorrichtung in 4 kodierten Daten zeigt.
Bevorzugte Ausführungen der vorliegenden Erfindung werden ausführlich unter Bezugnahme auf die beigefügten Zeichnungen beschrieben.
In 1, die eine Bewegtbild-Kodiervorrichtung gemäß einer bevorzugten Ausführung der vorliegenden Erfindung zeigt, empfängt eine Objekt-Extrahiereinrichtung 10 digitale Bilddaten von einer externen Quelle und extrahiert ein beliebiges Objekt aus einem aktuellen Bild, das durch die empfangenen Bilddaten dargestellt wird. Dann erzeugt die Objekt-Extrahiereinrichtung 10 Objektkontur-Daten, die Konturinformationen des extrahierten Objektes darstellen. Die Objektkontur-Daten werden einer Differenzdaten-Kodier einrichtung 20 und einer weiter unten beschriebenen Dekodiervorrichtung in 3 zugeführt. Die Objektkontur-Daten enthalten räumliche Positionen von Pixeln, die eine Kontur des Objektes bestimmen, oder räumliche Positionen von Segmenten, die aus den Pixeln zusammengesetzt sind. Die Objekt-Extrahiereinrichtung 10 gibt die Objektkontur-Daten und die empfangenen aktuellen Bilddaten an eine Netzerzeugungseinrichtung 12 aus. Die Netzerzeugungseinrichtung 12 unterscheidet einen Objektbereich aus dem aktuellen Bild auf Basis der Kontur-Daten und führt eine Signalverarbeitung für regelmäßige Netzdarstellung in Bezug auf das Bild in dem Objektbereich durch. Die detaillierte Struktur und Funktion der Netzerzeugungseinrichtung 12 werden unter Bezugnahme auf 2 beschrieben.
Eine Blockbildungseinrichtung 121 in der Netzerzeugungseinrichtung 12 empfängt die aktuellen Bilddaten und die von der Objekt-Extrahiereinrichtung 10 ausgegebenen Objektkontur-Daten. Die Blockbildungseinrichtung 121 teilt das durch die empfangenen Bilddaten dargestellte aktuelle Bild in Bildblöcke, die jeweils eine vorgegebene Größe haben, und führt Bild-Blockdaten, die Bildblöcke darstellen, und die Objektkontur-Daten einer Blockauswähleinrichtung 123 zu. Die Blockauswähleinrichtung 123 wählt auf Basis der Objektkontur-Daten Bildblöcke, die die Bilddaten in dem Objektbereich enthalten, aus den gesamten Bildblöcken aus, die das aktuelle Bild bilden. Die Daten, die die ausgewählten Bildblöcke darstellen, und die Objektkontur-Daten werden an eine Objekt-Bildzusammensetzeinrichtung 125 ausgegeben. Dabei werden Bildblöcke, die nur Bilddaten aufweisen, die nicht zu dem Objektbereich gehören, nicht ausgewählt. Daher werden die Daten, die die Bildblöcke darstellen, die nicht ausgewählt werden, der Objekt-Bildzusammensetzeinrichtung 125 nicht zugeführt. Die Objekt-Bildzusammensetzeinrichtung 125, die die Daten der ausgewählten Bildblöcke empfängt, führt die ausgewählten Bildblöcke zusammen und führt die Daten, die das Objektbild darstellen, das aus dem Ergebnis der Zusammenführung erzeugt wird, und die Objektkontur-Daten einer Netz-Zusammensetzeinrichtung 127 zu. Die Netz-Zusammensetzeinrichtung 127, die die Objekt-Bilddaten empfängt, teilt das Objektbild in ein regelmäßiges rechteckiges Netz oder ein regelmäßiges dreieckiges Netz.
Wenn ein Bild unter Verwendung regelmäßiger rechteckiger Netze aufgeteilt wird, teilt die Netz-Zusammensetzeinrichtung 127 das Objektbild in Raster, die jeweils eine vorgegebene Größe haben, die sich von einer Blockgröße unterscheidet. Dabei hat ein Raster eine Größe, die kleiner ist als die eines Blocks. Dann bestimmt die Netz-Zusammensetzeinrichtung 127 in dem Objektbereich enthaltene Schnittpunkte, unter den Schnittpunk ten der Raster, die durch die Unterteilung gewonnen werden, als Kontrollpunkte und bestimmt Raster mit den Kontrollpunkten als regelmäßige rechteckige Netze. Die Netz-Zusammensetzeinrichtung 127 gibt rechteckige Netzdaten, die die Bilddaten enthalten, zu denen die Kontrollpunkte der regelmäßigen rechteckigen Netze gehören, an einen Bewegungs-Schätz-und-Kompensations-Abschnitt 14 in 1 aus. Dabei enthalten die Bilddaten, zu denen jeder Kontrollpunkt gehört, die Position eines Kontrollpunktes und einen Grauwert an der Position des Kontrollpunktes sowie die Positionen der Pixel, die Positionen an den Kontrollpunkt angrenzend haben und die Grauwerte. Die Netz-Zusammensetzeinrichtung 127 gibt auch die aktuellen Bilddaten an eine Differenzwert-Berechnungseinrichtung 18 aus.
Wenn ein Bild unter Verwendung regelmäßiger dreieckiger Netze unterteilt wird, unterteilt die Netz-Zusammensetzeinrichtung 127 jedes regelmäßige rechteckige Netz, das durch den oben beschriebenen Prozess gewonnen wird, in zwei regelmäßige dreieckige Netze auf Basis von Ähnlichkeit der Bilddaten in dem Netz. Um Ähnlichkeit der Bilddaten jedes regelmäßigen rechteckigen Netzes zu beurteilen, vergleicht die Netz-Zusammensetzeinrichtung 127 einen Differenzwert zwischen Pixelwerten, die zwei Kontrollpunkten entsprechen, die sich in einer diagonalen Richtung von 45° in dem regelmäßigen rechteckigen Netz befinden, mit einem Differenzwert zwischen Pixelwerten, die zwei Kontrollpunkten entsprechen, die sich in einer diagonalen Richtung von –45° befinden, bezüglich der Größe. Die Netz-Zusammensetzeinrichtung 127 unterteilt das rechteckige Netz in der diagonalen Richtung, die dem kleineren Differenzwert entspricht. Dadurch werden zwei regelmäßige dreieckige Netze an jedem rechteckigen Netz erzeugt. Die Netz-Zusammensetzeinrichtung 127 gibt die dreieckigen Netzdaten, die die Bilddaten enthalten, zu denen die Kontrollpunkte der regelmäßigen dreieckigen Netze gehören, an den Bewegungs-Schätz-und-Kompensations-Abschnitt 14 aus. Die Netz-Zusammensetzeinrichtung 127 gibt die aktuellen Bilddaten auch an eine Differenzwert-Berechnungseinrichtung 18 aus.
Der Bewegungs-Schätz-und-Kompensations-Abschnitt 14 führt eine Bewegungs-Schätz-und-Kompensation unter Verwendung der in dem Speicher 16 gespeicherten Bezugsbilddaten und der Netzdaten durch, zu denen das Objektbild in dem aktuellen Bild gehört, die von der Netz-Bildungseinrichtung 12 empfangen werden. Der Bewegungs-Schätz-und-Kompensations-Abschnitt 14 vergleicht zunächst die Bilddaten, die zu den Kontrollpunkten jedes Netzes gehören, mit den in dem Speicher 16 gespeicherten Bezugsbilddaten bezüglich der Größe. Jeder Kontrollpunkt entspricht idealerweise einem einzelnen Pixel. Das heißt, ein Kontrollpunkt wird durch eine räumliche Position eines Pixels und einen Grauwert ausgedrückt. Es ist jedoch schwierig, lediglich durch Vergleich von Pixel zu Pixel genau eine Position zu finden, die Bilddaten aufweist, die dem Kontrollpunkt in dem Bezugsbild entsprechen. So sind die Bilddaten, zu denen jeder Kontrollpunkt gehört, Bilddaten, die zu einem Pixel gehören, das dem Kontrollpunkt entspricht, sowie eine Vielzahl von Pixeln, die benachbart zu dem Pixel sind, das dem Kontrollpunkt entspricht, wie dies in der Netz-Zusammenstellenrichtung 127 beschrieben ist. Der Bewegungs-Schätz-und-Kompensations-Abschnitt 14 bestimmt eine Position in dem Bezugsbild, das die Bilddaten aufweist, die den Bilddaten des Kontrollpunktes am ähnlichsten sind, auf Basis des Ergebnisses des Größenvergleichs der Daten. Dann bestimmt der Bewegungs-Schätz-und-Kompensations-Abschnitt 14 einen Bewegungsvektor, der Bewegung zwischen einem Kontrollpunkt und einer entsprechenden Position in dem Bezugsbild darstellt. Wenn die Bewegungsvektoren bezüglich aller Kontrollpunkte bestimmt sind, führt der Bewegungs-Schätz-und-Kompensations-Abschnitt 14 räumliche Transformation, wie beispielsweise so genanntes Bild-Warping, unter Verwendung der bestimmten Bewegungsvektoren durch und erzeugt ein Vorhersagebild in Bezug auf das aktuelle Bild. Die Daten, die das Vorhersagebild darstellen, werden an die Differenzwert-Berechnungseinrichtung 18 und den Addierer 24 ausgegeben. Die Bewegungsinformationen, die die Bewegungsvektoren darstellen, die allen Kontrollpunkten entsprechen, werden der Vorrichtung in 3 zugeführt. Da die oben beschriebene räumliche Transformation auf dem Gebiet digitaler Bildverarbeitung bekannt ist, wird ihre ausführliche Beschreibung weggelassen.
Die Differenzwert-Berechnungseinrichtung 18 berechnet Differenzwerte zwischen den von der Netzerzeugungseinrichtung 12 empfangenen aktuellen Bilddaten und den Vorhersagebilddaten, die von dem Bewegungs-Schätz-und-Kompensations-Abschnitt 14 ausgegeben werden. Die Differenzwert-Berechnung wird zwischen den Pixeln durchgeführt, die entsprechende Positionen in Bezug auf das aktuelle Bild und das Vorhersagebild haben, und die resultierenden Differenzwert-Daten werden an eine Differenzdaten-Kodiereinrichtung 20 ausgegeben. Die Differenzdaten-Kodiereinrichtung 20 kodiert Differenzwert-Daten in dem Objektbereich, der durch die Objektkontur-Daten der Objekt-Extrahiereinrichtung 10 unter den von der Differenzwert-Berechnungseinrichtung 18 zugeführten Differenzwert-Daten bestimmt werden. Wenn die durch die Differenzdaten-Kodiereinrichtung 20 kodierten Daten als Differenzwert-Daten in dem Objektbereich definiert sind, werden nur Differenzwert-Daten, die zu dem Objekt des aktuellen Bildes ge hören, kodiert. Dementsprechend kann die Differenzdaten-Kodiereinrichtung 20 einen effizienteren Kodiervorgang in Bezug auf das aktuelle Bild durchführen. Die Differenzdaten-Kodiereinrichtung 20 kodiert auch die von der Objekt-Extrahiereinrichtung 10 empfangenen Objektkontur-Daten. Um die Differenzwert-Daten und die Objektkontur-Daten in dem Objektbereich zu kodieren, verwendet die Differenzdaten-Kodiereinrichtung 20 ein bekanntes orthogonales Transformations-Kodierverfahren einschließlich diskreter Kosinustransformationen (DCT) und so weiter. Die kodierten Objektkontur-Daten, die kodierten Differenzwert-Daten und die Bewegungsinformationen werden zu einer weiter unten beschriebenen Dekodiervorrichtung in 3 über einen Übertragungskanal (nicht dargestellt) übertragen oder werden auf einem Speichermedium aufgezeichnet, das in der Dekodiervorrichtung in 3 verwendet wird.
Eine Differenzdaten-Dekodiereinrichtung 22, die die kodierten Differenzwert-Daten der Differenzdaten-Kodiereinrichtung 20 empfängt, stellt die Differenzwert-Daten über eine zu der Signalverarbeitung der Differenzdaten-Kodiereinrichtung 20 umgekehrte Prozedur wieder her. Der Addierer 24 addiert die Vorhersagebild-Daten, die von dem Bewegungs-Schätz-und-Kompensations-Abschnitt 14 ausgegeben werden, und die Differenzwert-Daten der Differenzdaten-Dekodiereinrichtung 22 und gibt das addierte Ergebnis an den Speicher 16 aus. Die von dem Addierer 24 ausgegebenen Daten sind Daten des aktuellen Bildes, anhand derer Bewegungs-Schätz-und-Kompensation durchgeführt worden ist, und sie werden in dem Speicher 16 gespeichert, um als Bezugsbild-Daten für Bewegungs-Schätzung und Bewegungs-Kompensation in Bezug auf ein nächstes Bild zu dienen.
Eine Bewegbild-Dekodiervorrichtung, die in 3 dargestellt ist, empfängt die kodierten Differenzwert-Daten, die kodierten Objektkontur-Daten und die durch die Vorrichtung in 1 erzeugten Bewegungsinformationen. Eine Objektkontur-Wiederherstellungseinrichtung 30 dekodiert die kodierten Objektkontur-Daten. Die Objektkontur-Daten werden an eine Netzerzeugungseinrichtung 34 ausgegeben. Die Netzerzeugungseinrichtung 34, die die Objektkontur-Daten empfängt, teilt das gesamte Bild in Raster, die jeweils eine vorgegebene Größe haben, bestimmt Schnittpunkte, die in dem Objektbereich vorhanden sind, der durch die Objektkontur-Daten bestimmt wird, als Kontrollpunkt unter den Schnittpunkten der sich durch die Unterteilung ergebenden Raster und bestimmt die Raster mit den Kontrollpunkten als rechteckige Netze. Wenn die Netzerzeugungseinrichtung 12 in 1 dazu dient, Netzdaten zu erzeugen, die die rechteckigen Netze darstellen, erzeugt die Netzerzeugungseinrichtung 34 auch Netzdaten, die rechteckige Net ze darstellen. Wenn die Netzerzeugungseinrichtung 12 in 1 hingegen dazu dient, die Netzdaten mit den dreieckigen Netzen zu erzeugen, erzeugt die Netzerzeugungseinrichtung 34 Netzdaten mit den dreieckigen Netzen, die Netzerzeugungseinrichtung 34 führt die erzeugten Netzdaten einer Bewegungs-Kompensationseinrichtung 38 zu und führt die Objektkontur-Daten einem Addierer 36 zu.
Eine Differenzdaten-Dekodiereinrichtung 32 dekodiert die durch die Vorrichtung in 1 erzeugten kodierten Differenzwertdaten. Die Differenzwertdaten werden an den Addierer 36 ausgegeben. Die Bewegungs-Kompensationseinrichtung 38 empfängt die von der Netzerzeugungseinrichtung 34 ausgegebenen Daten und die durch die Vorrichtung in 1 erzeugten Bewegungsinformationen. Die Bewegungs-Kompensationseinrichtung 38 erzeugt Vorhersagebilddaten unter Verwendung von Kontrollpunkten, die in den Netzdaten enthalten sind, die einem aktuellen Bild entsprechen, von Bewegungsvektoren, die allen Kontrollpunkten entsprechen und in Bewegungsinformationen enthalten sind, und den Bezugsbild-Daten, die in dem Speicher 40 gespeichert sind. Um die Vorhersagebild-Daten zu erzeugen, verwendet die Bewegungs-Kompensationseinrichtung 38 einen Bewegungsvektor, der jedem Kontrollpunkt entspricht, um eine Position in dem Bezugsbild zu finden, die dem Kontrollpunkt am ähnlichsten ist, und verwendet dann räumliche Transformation, wie beispielsweise Bild-Warping, um Vorhersagebild-Daten für ein aktuelles Bild zu erzeugen. Die Bewegungs-Kompensationseinrichtung 38 gibt die erzeugten Vorhersagebild-Daten an einen Addierer 36 aus.
Der Addierer 36 empfängt die von der Bewegungs-Kompensationseinrichtung 38 ausgegebenen Vorhersagebild-Daten und die von der Differenzdaten-Dekodiereinrichtung 32 ausgegebenen Differenzwert-Daten. Der Addierer 36 addiert von den gesamten Vorhersagebild-Daten nur Vorhersagebild-Daten in dem Objektbereich, der durch die von der Netzerzeugungseinrichtung 34 zugeführten Objektkontur-Daten bestimmt wird, zu den entsprechenden Differenzwertdaten. So können Bilddaten bezüglich eines Objektes in dem aktuellen Bild wiederhergestellt werden. Die Ausgabedaten des Addierers 36 werden in dem Speicher 40 gespeichert, um sie als Bezugsbild-Daten für Bewegungskompensation eines nächsten Bildes zu verwenden.
4 ist ein Blockschaltbild, das eine Bewegtbild-Kodiervorrichtung gemäß einer weiteren bevorzugten Ausführung der vorliegenden Erfindung zeigt. Da die Blöcke in 4 die gleichen Bezugszeichen haben wie die Blöcke in 1 und die gleichen Funktionen erfüllen wie die entsprechenden Blöcke in 1, wird die ausführliche Beschreibung derselben weggelassen. Die Vorrichtung in 1 verwendet die aus dem aktuellen Bild gewonnenen Netze und die in dem Speicher 16 gespeicherten Bezugsbild-Daten, um Vorhersagebild-Daten zu erzeugen. Im Unterschied dazu verwendet die Vorrichtung in 4 Netze, die aus Bilddaten, die in einem Speicher 48 gespeichert sind, gewonnen werden, und von außen eingegebene aktuelle Bilddaten, um Vorhersagebild-Daten zu erzeugen.
Die externen aktuellen Bilddaten werden in die Objekt-Extrahiereinrichtung 10 und einen Bewegungs-Schätz-und-Kompensations-Abschnitt 44 eingegeben. Die Objekt-Extrahiereinrichtung 10 erzeugt Objektkontur-Daten unter Verwendung der aktuellen Bilddaten. Die Objektkontur-Daten werden in die Differenzdaten-Kodiereinrichtung 20 eingegeben. Eine Netzerzeugungseinrichtung 42 liest die in dem Speicher 48 gespeicherten Bezugsbild-Daten und unterteilt die gesamten Bezugsdaten in unregelmäßige Netze. Bei dieser Unterteilung unterteilt die Netzerzeugungseinrichtung 42 das Bezugsbild in regelmäßige rechteckige Netze und unterteilt die regelmäßigen rechteckigen Netze wiederum in regelmäßige dreieckige Netze. Da das Verfahren zum Erzeugen des regelmäßigen rechteckigen Netzes und des regelmäßigen dreieckigen Netzes das gleiche ist wie eine Signalverarbeitung der Netzerzeugungseinrichtung 12 in 1 wird die ausführliche Beschreibung desselben weggelassen.
Eine weitere Funktion der Netzerzeugungseinrichtung 42 besteht darin, ein unregelmäßige Netz aus regelmäßigen rechteckigen Netzen oder regelmäßigen dreieckigen Netzen zu erzeugen. Der Vorgang zum Erzeugen des unregelmäßigen Netzes läuft wie folgt ab. Die Netzerzeugungseinrichtung 42 entfernt einen ausgewählten der Kontrollpunkte der regelmäßigen dreieckigen Netze und führt Triangulierung in Bezug auf den Bereich aus, aus dem der Kontrollpunkt entfernt ist. Die dreieckigen Netze, die durch die Triangulierung erzeugt werden, haben unregelmäßige dreieckige Formen. Eine derartige Entfernung von Kontrollpunkten und die Triangulierung werden wiederholt, bis die Anzahl der verbleibenden Kontrollpunkte einem vorgegebenen Wert identisch ist. Um einen bestimmten Kontrollpunkt zu entfernen, ein quantifizierter Differenzwert zwischen Bild-Beschreibbarkeit (image descriptiveness), die gewonnen wird, wenn der Kontrollpunkt aus einem Stützbereich des Kontrollpunktes entfernt worden ist, und der, wenn ersterer nicht entfernt worden ist. Der Stützbereich ist ein Bereich, der von zu einem entsprechenden Kontrollpunkt benachbarten Kontrollpunkten und Linien umgeben wird, die die benachbarten Kontrollpunkte verbinden. Ein Kontrollpunkt, der dem kleinsten Differenzwert unter den quantifizierten Differenzwerten der Bild-Beschreibbarkeit entspricht, trägt nur geringfügig zur Bild-Beschreibbarkeit bei, so dass er entfernt wird. Das Verfahren der Erzeugung unregelmäßiger Netze wird in einem Dokument unter dem Titel "Irregular Triangular Mesh Representation Based on Adaptive Control Point Removal" offenbart, das in SPIE's 1996 symposium on Visual Communications and image Processing von Kang W. Chun, Byungwoo Jean und Jae M. Jo. veröffentlicht wird. Die Netzerzeugungseinrichtung 42 gibt Informationen über die abschließend erzeugten unregelmäßigen dreieckigen Netze aus, d. h. die unregelmäßigen Netz-Daten, die die verbleibenden Kontrollpunkte und die unregelmäßigen Netze darstellen, die von den Kontrollpunkten umgeben werden, und zwar an einen Bewegungs-Schätz-und-Kompensations-Abschnitt 44. Die Netzerzeugungseinrichtung 42 gibt die aus dem Speicher 48 gelesenen Bezugsbilddaten auch an eine Differenzwert-Berechungseinrichtung 46 aus.
Der Bewegungs-Schätz-und-Kompensations-Abschnitt 44 empfängt die extern zugeführten aktuellen Bilddaten und die unregelmäßigen Netz-Daten der Netzerzeugungseinrichtung 42 und liest die in dem Speicher 48 gespeicherten Bezugsbild-Daten. Der Bewegungs-Schätz-und-Kompensations-Abschnitt 44 bestimmt entsprechende Positionen in dem aktuellen Bild mit den Bilddaten, die den Kontrollpunkten der unregelmäßigen Netze am ähnlichsten sind. Nachdem die entsprechenden Positionen bestimmt sind, erzeugt der Bewegungs-Schätz-und-Kompensations-Abschnitt 44 Bewegungsvektoren zwischen den Kontrollpunkten und den entsprechenden Positionen und verwendet räumliche Transformation, um ein Vorhersagebild unter Verwendung des aktuellen Bildes zu erzeugen. Die Vorhersagebild-Daten werden der Differenzwert-Berechnungseinrichtung 46 und dem Addierer 24 zugeführt, und die Bewegungsinformationen, die die Bewegungsvektoren darstellen, werden über einen Übertragungskanal übertragen oder auf einem Speichermedium aufgezeichnet, das für eine Dekodiervorrichtung zu verwenden ist.
Die Differenzwert-Berechnungseinrichtung 46 erzeugt Differenzwert-Daten zwischen den von der Netzerzeugungseinrichtung 42 empfangenen Bezugsbild-Daten und den Vorhersagebild-Daten von dem Bewegungs-Schätz-und-Kompensations-Abschnitt 44, um die Differenzwert-Daten einer Differenzdaten-Kodiereinrichtung 20 zuzuführen. Die Differenzdaten-Kodiereinrichtung 20 kodiert die von der Objekt-Extrahiereinrichtung 10 ausgegebenen Objektkontur-Daten und die von der Differenzwert-Berechnungseinrichtung 46 ausgegebenen Differenzwert-Daten. Die Differenzdaten-Kodiereinrichtung 20 verarbeitet die eingegebenen Daten auf die gleiche Weise wie die entsprechenden Blöcke in 1. So enthalten die von der Differenzdaten-Kodiereinrichtung 20 ausgegebenen ko dierten Daten Daten, die gewonnen werden, indem die Differenzwertdaten in dem Objektbereich kodiert werden, und die kodierten Objektkontur-Daten. Die kodierten Daten werden zu einem Empfänger über einen Übertragungskanal (nicht dargestellt) übertragen oder werden auf einem Aufzeichnungsmedium (nicht dargestellt) aufgezeichnet. Die kodierten Differenzwert-Daten unter den kodierten Daten werden zu der Differenzdaten-Dekodiereinrichtung 22 übertragen.
Die Differenzdaten-Dekodiereinrichtung 22 dekodiert die in der Differenzdaten-Kodiereinrichtung 20 kodierten Differenzwert-Daten, um die dekodierten Differenzwert-Daten dem Addierer 24 zuzuführen. Der Addierer 24 addiert die von dem Bewegungs-Schätz-und-Kompensations-Abschnitt 44 zugeführten Vorhersagebild-Daten und die Differenzwert-Daten der Differenzdaten-Dekodiereinrichtung 22, und die resultierenden Daten werden in dem Speicher 48 gespeichert, um sie als Bezugsbild-Daten für Bewegungs-Schätzung und Bewegungs-Kompensation für ein nächstes Bild zu verwenden.
5 zeigt eine Bewegtbild-Dekodiervorrichtung, die der Vorrichtung in 4 entspricht. Da Blöcke mit den gleichen Bezugszeichen wie die der Blöcke in 3 von den in 5 dargestellten Blöcken die gleiche Funktion haben wie die Blöcke in 3, wird die ausführliche Beschreibung derselben weggelassen. Die kodierten Objektkontur-Daten werden in eine Objektkontur-Wiederherstellungseinrichtung 30 eingegeben, und die Bewegungsinformationen werden in eine Bewegungs-Kompensationseinrichtung 52 eingegeben. Des Weiteren werden die kodierten Differenzwert-Daten der Differenzdaten-Dekodiereinrichtung 32 zugeführt. Die Differenzdaten-Dekodiereinrichtung 32 dekodiert die kodierten Differenzwert-Daten, um die dekodierten Differenzwert-Daten an einen Addierer 56 auszugeben. Die Objektkontur-Wiederherstellungseinrichtung 30 dekodiert die kodierten Objektkontur-Daten, um die dekodierten Objektkontur-Daten an eine Netzerzeugungseinrichtung 51 auszugeben. Die Netzerzeugungseinrichtung 51 liest die in einem Speicher 54 gespeicherten Bezugsbild-Daten und unterteilt den Objektbereich in dem durch die Objektkontur-Daten bestimmten Bezugsbild über die gleiche Signalverarbeitung wie die der Netzerzeugungseinrichtung 42 in 4 in unregelmäßige Netze. Die von der Netzerzeugungseinrichtung 51 ausgegebenen Netz-Daten werden der Bewegungs-Kompensationseinrichtung 52 zugeführt. Die Bewegungs-Kompensationseinrichtung 52 verwendet die Netz-Daten, die Bewegungsinformationen und die in dem Speicher 54 gespeicherten Bezugsbild-Daten, um die Vorhersagebild-Daten zu erzeugen. Der Addierer 56 addiert die Vorhersagebild-Daten und die von der Differenzdaten-Dekodiereinrichtung 32 ausgegebenen Differenzwert-Daten. Das entstehende aktuelle Bild wird in dem Speicher 54 gespeichert, um es als Bezugsbild-Daten für Bewegungskompensation eines nächsten Bildes zu verwenden.
Das Kodier-und-Dekodier-System gemäß der vorliegenden Erfindung führt, wie oben beschrieben, Bewegungs-Schätzung und Bewegungs-Kompensation auf Basis von Netz-Darstellung in Bezug auf ein beliebiges Objekt durch, das in einem Bild enthalten ist. Dadurch kann verglichen mit einem Fall, in dem Bewegungs-Schätzung und Bewegungs-Kompensation in Bezug auf das gesamte Bild durchgeführt wird, ein effizienteres Kodieren durchgeführt werden. So kann eine Vorrichtung, die für Anwendungen geeignet ist, die eine sehr niedrige Bitrate erfordern, gestaltet werden.
Obwohl einige bevorzugte Ausführungen dargestellt und beschrieben wurden, weiß der Fachmann, dass verschiedene Änderungen und Abwandlungen vorgenommen werden können, ohne vom Schutzumfang der Erfindung abzuweichen, wie er in den beigefügten Ansprüchen definiert ist.

Claims

Bildkodiervorrichtung, die umfasst: eine Informationseingabeeinrichtung zum Empfangen von Konturinformationen eines Objektes und eines Bewegungsvektors, eine Objektkontur-Wiederherstellungseinrichtung (30) zum Wiederherstellen einer Kontur des Objektes unter Verwendung der Konturinformation des Objektes und eine Bewegungskompensationseinrichtung (52) zum Durchführen einer räumlichen Transformation des Objektes in Beziehung zu dem Bewegungsvektor, dadurch gekennzeichnet, dass der Bewegungsvektor ein Bewegungsvektor eines Knotenpunktes eines Netzes ist, die Vorrichtung des Weiteren eine Netzerzeugungseinrichtung (51) zum Wiederherstellen einer Netzstruktur für das Objekt unter Verwendung der Konturinformation des Objektes umfasst und die Bewegungskompensationseinrichtung (52) räumliche Transformation als eine Einheit des Netzes unter Verwendung des Bewegungsvektors auf dem Knotenpunkt des Netzes und der Netzstruktur für das Referenzobjekt durchführt, um ein Prognoseobjekt zu erzeugen.
Verfahren zum Dekodieren von kodierten Daten, um aus diesen ein visuelles Objekt wiederherzustellen, das Verfahren umfasst: Erhalten einer Vielzahl von Bewegungsvektoren aus den kodierten Daten und Durchführen einer räumlichen Transformation unter Verwendung der Vielzahl von Bewegungsvektoren, um das visuelle Objekt wiederherzustellen, dadurch gekennzeichnet, dass die kodierten Daten von einer Netzdarstellung eines visuellen Objektes erzeugt werden und Netzdaten und Konturinformation umfassen, die Vielzahl von Bewegungsvektoren eine Relativbewegung zwischen jeweiligen entsprechenden einer Vielzahl von Knotenpunkten der Netzdarstellung des visuellen Objektes und entsprechende räumliche Positionen eines vorgegebenen Referenzobjektes darstellt, das Verfahren des Weiteren den Schritt des Reproduzierens der Netzdarstellung aus den Netzdaten und der Konturinformation der kodierten Daten umfasst und der Durchführungsschritt das Durchführen der räumlichen Transformation der reproduzierten Netzdarstellung unter Verwendung der Vielzahl von Bewegungsvektoren umfasst, um das visuelle Objekt wiederherzustellen.
Verfahren nach Anspruch 2, das des Weiteren umfasst: Ersetzen des vorgegebenen Referenzobjektes durch das wiederhergestellte visuelle Objekt.