DE69809289T2 - Verfahren zum hierarchischen zusammenfassen und schnellen durchsehen einer digitalen videosequenz - Google Patents
Verfahren zum hierarchischen zusammenfassen und schnellen durchsehen einer digitalen videosequenzInfo
- Publication number
- DE69809289T2 DE69809289T2 DE69809289T DE69809289T DE69809289T2 DE 69809289 T2 DE69809289 T2 DE 69809289T2 DE 69809289 T DE69809289 T DE 69809289T DE 69809289 T DE69809289 T DE 69809289T DE 69809289 T2 DE69809289 T2 DE 69809289T2
- Authority
- DE
- Germany
- Prior art keywords
- frames
- frame
- key
- video sequence
- key frames
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title description 89
- 238000012216 screening Methods 0.000 title description 4
- 239000013598 vector Substances 0.000 description 58
- 230000009471 action Effects 0.000 description 28
- 238000007906 compression Methods 0.000 description 26
- 230000006835 compression Effects 0.000 description 26
- 238000012545 processing Methods 0.000 description 18
- 238000003860 storage Methods 0.000 description 16
- 230000008859 change Effects 0.000 description 15
- 238000004422 calculation algorithm Methods 0.000 description 14
- 238000001514 detection method Methods 0.000 description 14
- 238000013459 approach Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 13
- 230000001186 cumulative effect Effects 0.000 description 12
- 239000011159 matrix material Substances 0.000 description 10
- 238000013139 quantization Methods 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 9
- 238000004091 panning Methods 0.000 description 9
- 230000002829 reductive effect Effects 0.000 description 8
- 230000002776 aggregation Effects 0.000 description 7
- 238000004220 aggregation Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 230000015654 memory Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000005192 partition Methods 0.000 description 6
- 230000000007 visual effect Effects 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 5
- 230000002123 temporal effect Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000012935 Averaging Methods 0.000 description 3
- 241000282326 Felis catus Species 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000012804 iterative process Methods 0.000 description 3
- 238000012952 Resampling Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- VYZAMTAEIAYCRO-UHFFFAOYSA-N Chromium Chemical compound [Cr] VYZAMTAEIAYCRO-UHFFFAOYSA-N 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000004886 head movement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
- 230000003936 working memory Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/14—Picture signal circuitry for video frequency region
- H04N5/147—Scene change detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/738—Presentation of query results
- G06F16/739—Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7847—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
- G06F16/785—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using colour or luminescence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7847—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
- G06F16/786—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using motion, e.g. object motion or camera motion
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/02—Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
- G11B27/031—Electronic editing of digitised analogue information signals, e.g. audio or video signals
- G11B27/034—Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/102—Programmed access in sequence to addressed parts of tracks of operating record carriers
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/19—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
- G11B27/28—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/19—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
- G11B27/28—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
- G11B27/32—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording on separate auxiliary tracks of the same or an auxiliary record carrier
- G11B27/326—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording on separate auxiliary tracks of the same or an auxiliary record carrier used signal is a video-frame or a video-field (P.I.P.)
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Library & Information Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Television Signal Processing For Recording (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Processing Or Creating Images (AREA)
- Image Analysis (AREA)
Description
- Diese Erfindung bezieht sich auf ein Verfahren zum Bestimmen der Darstellung einer digitalen Videosequenz durch einen Stapel von Standbildern in einem hierarchischen Zusammenfassen von Applikationen, wie zum Beispiel (i) visuelle Identifizierung des Videoinhalts; (ii) Videoindexierung (iii) Videosurfen; und (iv) Videoeditierung. Die digitale Videosequenz können komprimierte MPEG-Dateien (Moving Pictures Experts Group) sein, und die Darstellung kann unter minimalem Decodieraufwand der Bitstrom-Kompression bestimmt werden.
- Wesentlich bei einer kompakten Videodarstellung sind die Abfrage vieler Informationen und der Abruf der Applikationen. Die Beispiele für solche Applikationen rangieren vom Multimedia-Datenbankzugang bis zum schnellen Durchsehen (bzw. schnellen Vorwärtsspielen) eines Videoclips. Die jüngsten Lösungsansätze haben sich hauptsächlich auf die Unterteilung eines vorhandenen Videosegments in "Schüsse" konzentriert. Jeder Schuss wird durch einen Key-Frame dargestellt, der den Schuss zusammenfasst. Somit kann man diese darstellenden Rahmen anstelle einer schnellen Durchsicht durch die gesamte Videosequenz betrachten. Die Schusserfassung kann mit einer sehr hohen Genauigkeit (> 90%) und wenigen Verfehlungen (< 5%) erreicht werden. Auf Histogramme (Schaubilder) basierende Lösungsansätze gehören ebenso zu den erfolgreichsten Schusserfassungsstrategien als auch zur geringsten computertechnischen Berechnungsaufwandsanforderung. Ein Vergleich zwischen verschiedenen Schusserfassungsstrategen kann auch in einschlägiger Literatur gefunden werden. Viele dieser Schemen können auch einige spezielle Interessensituationen berücksichtigten: Kameraschwenk (Pan), Zoom, Bildauflösung und Ein-/Ausblendung beim Bestimmen dar Videoschussgrenzen.
- Die bekannten Techniken konzentrieren sich im Allgemeinen auf das Erfassen der Schussgrenzen oder Szenenänderungen und verwenden eine Kollektion, die aus einem einzigen Rahmen aus jedem Schuss als Key-Frames hergestellt ist und stellen die Videosequenz dar. Das Zuteilen von mehr als einem Key-Frame auf jeden Schuss stellt bessere Zusammenfassungen zur Darstellung des Videoinhalts zur Verfügung. Solche bekannten Verfahren der Zusammenfassung von Daten sind jedoch mit nur einer einzigen Ebenenzusammenfassung ahne jegliche Flexibilität ausgestattet.
- Andere bekannten Techniken verwenden Farbhistogramme (Farbschaubilder) und beschreiben diverse Verfahren zum Ausbilden von Histogrammen aus MPEG-Bitströmen (zum Beispiel Histogramme von DC-Koeffizienten eines 8 · 8 Block-DCT). Obwohl dies relativ geradeausprojektiert für I-Rahmen (innercodiert) ist, gibt es mehr als eine Art des Wiederverwertens der DC- Koeffizienten (Nullfrequenz) eines P-Rahmens (Prädiktionsrahmens/Vorhalterahmens) oder B-Rahmens (bidirektional vorhaltend) unter einem minimalen Decodieraufwand seines Vergleichsbildes.
- Bekannte Vergleichsverfahren, die eine diskrete/digitale Kosinus- Transformation der (DCT)-Videokompression aufweisen, sind jedoch nicht hinsichtlich sämtlicher, praktischer Aspekte eines Betriebssystems ausgerichtet. Nachdem Key-Frames zum Beispiel identifiziert worden sind, müssen sie zur visuellen Darstellung decodiert werden. Keines der bekannten Vergleichsverfahren spezifiziert einen effizienten Mechanismus zum Decodieren der Key-Frames, der an einer beliebigen Stelle des Bitstromes positioniert sein kann, ohne die gesamte Videosequenz zu decodieren.
- Eine beträchtliche Einschränkung der vorgenannten Schemen besteht dahingehend, dass alle Schüsse gleichwertig behandelt werden. In den meisten Situationen könnte es nicht ausreichend sein, den gesamten Schuss durch nur einen Rahmen darstellen zu wollen. Dies führt zu der Idee der Zuteilung einiger Key-Frames pro Schuss, die von der Menge der "interessanten Aktion" in dem Schuss abhängig ist. Der gegenwärtige Stand der Technik des Videosurfsystems teilt daher eine Videosequenz in ihre Komponentenschüsse auf und stellt jeden Schuss durch einige Repräsentativ-Key-Frames dar, wobei die Darstellung als "die Zusammenfassung" bezeichnet wird.
- Die vorliegende Erfindung verbessert und erweitert die offengelegten Verfahren von L. Lagendijk, A. Hanjalic, M. Ceccarelli, M, Soletic, und E. Persoon gemäss der Offenlegungsschrift "Visual Search in SMASH System", dem Sitzungsprotokoll der Internationalen Konferenz über Bildverarbeitung, Seite 671-674, Lausanne, 1996; nachstehend bezeichnet als "Lagendijk".
- Die vorliegende Erfindung ist ein Verfahren zum hierarchischen Zusammenfassen und schnellen Durchsehen einer digitalen Videosequenz und weist in seiner Grundform das Eingeben eines digitalen Videosignals für eine digitale Videosequenz und Generieren einer hierarchischen Zusammenfassung auf, welcher die Key-Frames der Videosequenz zugrunde gelegt ist. Zusätzliche Schritte umfassen das computertechnische Berechnen der Histogramme (Schaubilder) für die digitale Videosequenz, das Erfassen der Schussgrenzen innerhalb der digitalen Videosequenz, das Bestimmen der Anzahl der Key- Frames zur Zuteilung innerhalb eines jeden Schusses, das Lokalisieren der tatsächlichen Position eines jedes Key-Frame innerhalb eines jeden Schusses, das Identifizieren der Key-Frame-Positionen nach dem größten konsekutiven Differenzkriterium, das Ausschneiden der Key-Frames für einen Schuss mit bedeutungsloser Aktion, das effiziente Extrahieren der Key-Frames im Falle einer Videosequenzkompression und das schnelle Durchsehen (Surfen) der Schüsse unter Verwendung der hierarchischen Key-Frame-Zusammenfassung.
- Die "Videosequenz-Zusammenfassung von Daten" bezeichnet das Bestimmen der überhängendsten Rahmen einer vorhandenen Videosequenz, die als Repräsentant/Charakteristikum für die Videosequenz verwendet werden. Ein Verfahren des hierarchischen Zusammenfassens wird zum Konstruktionsaufbau einer hierarchischen Zusammenfassung in vielfachen Abstufungen offengelegt, wobei die Abstufungen im Verhältnis zum Detail variieren (zum Beispiel der Anzahl der Rahmen). Die gröbste bzw. kompakteste Abstufung stellt die überhängendsten Rahmen zur Verfügung und enthält die geringste Anzahl an Rahmen.
- Ein Ziel der Erfindung ist es, ein Verfahren zur Erzeugung einer hierarchischen Multiabstufungszusammenfassung zur Verfügung zu stellen, wobei jede Abstufung zu einem unterschiedlichen Abstufungsdetail korrespondiert.
- Ein weiteres Ziel der Erfindung ist es, ein Verfahren zur Verbesserung der Key-Frame-Auswahl zur Verfügung zu stellen.
- Ein weiteres Ziel der Erfindung ist es, den Bewegungsinhalt einer Szene, insbesondere der Zoom- und Kameraschwenkszene, zu erfassen und zu nutzen, und sie dem Anwender zusammen mit der hierarchischen Rahmenzusammenfassung zu präsentieren.
- Ein weiteres Ziel der Erfindung ist es, ein Verfahren zur Erzeugung einer hierarchischen Multiabstufungszusammenfassung einer MPEG-2 Videosequenzkompression zur Verfügung zu stellen, wobei jede Abstufung zu einem unterschiedlichen Abstufungsdetail korrespondiert.
- Noch ein weiteres Ziel der Erfindung ist es, ein Verfahren zur Verfügung zu stellen, das für eine MPEG-2 Videosequenzkompression zum Konstruktionsaufbau von Histogrammen (Schaubildern) und zum Generieren einer hierarchischen Zusammenfassung unter minimalem Decodieraufwand des Bitstromes direkt angewendet werden kann.
- Ein weiteres Ziel der Erfindung ist es, ein vollständig effizientes System für das Generieren von Zusammenfassungen einer MPEG-2- Videosequenzkompression zur Verfügung zu stellen.
- Jedoch noch ein weiteres Ziel der Erfindung ist es, eine effiziente Art und Weise der Handhabung der Histogrammberechnung (Schaubildberechnung) für MPEG-Bitstrome zur Verfügung zu stellen.
- Fig. 1 zeigt eine Darstellung der hierarchischen Struktur einer Videosequenzzusammenfassung für drei Abstufungen.
- Fig. 2 zeigt ein Blockdiagramm des ersten Ausführungsbeispiels des Verfahrens gemäß der Erfindung.
- Fig. 3 zeigt ein Blockdiagramm eines automatischen Kameraschwenk- /Zoomverarbeitungsmoduls gemäß der Erfindung.
- Fig. 4 zeigt ein Blockdiagramm eines Feinabstufungs-Key-Frames- Auswahl-Algorithmus gemäß der Erfindung.
- Fig. 5 zeigt ein Blockdiagramm des hierarchischen Zusammenfassens gemäß der Erfindung.
- Fig. 6 zeigt eine Abbildung kumulativer Aktionsmaße (C(x)), Verteilung der Key-Frames (kj) und korrespondierende Schusssegmente (tj-1, tj).
- Fig. 7 zeigt ein Blockdiagramm eines Abschnitts des zweiten Ausführungsbeispiels gemäß der Erfindung zur Anwendung einer MPEG-2 Eingangs- Videosequenz-Kompression.
- Fig. 8 zeigt eine Darstellung der Daten, die verwendet werden können, um die Key-Frames beim hierarchischen Zusammenfassen zu decodieren.
- Fig. 9 zeigt eine grafische Darstellung der Bewegungskompensation.
- Fig. 10 zeigt eine Abbildung des Unterschiedes zwischen dem Bewegungskompensationsalgorithmus zum Definieren von Fall (a) und Fall (b).
- Auf Grund der gegenwärtigen Technologie zum automatischen Einfangen/Festhalten des semantischen Oberhangs ist diese noch nicht voll entwickelt/ausgereift, damit sich Verfahren der Videosequenzzusammenfassung von Daten auf Niedrigabstufungsbild-Programmfunktionen verlassen können, wie zum Beispiel Farbhistogramme (Farbschaubilder). Eine Videosequenz- Zusammenfassung ist eine Art und Weise des Bestimmens der überhängendsten Rahmen einer vorhandenen Videosequenz, was als Repräsentant/Charakteristikum der Videosequenz verwendet werden kann. Es ist möglich, dass ein spezieller Rahmen mit wichtigen Informationen nicht in einer einzigen Zusammenfassung enthalten sein kann, die eine vorher spezifizierte Anzahl von Rahmen aufweist.
- Unter Bezugnahme auf Fig. 1 kann eine hierarchische Multiabstufungszusammenfassung 20, die durch das hierarchische Zusammenfassungsverfahren von Daten gemäß der Erfindung generiert wird, eine detaillierte Feinabstufungszusammenfassung mit einer ausreichend großen Anzahl von Rahmen zur Verfügung stellen, so dass wichtige Inhaltsinformationen nicht verloren gehen, jedoch gleichzeitig sind die Zusammenfassungen bei gröberen Abstufungen weniger detailliert ausgestattet, um die Nutzung einer groben oder kompakten Zusammenfassung zum schnellen Durchsehen (Surfen) und Identifizieren der Videosequenz nicht zu behindern. Die hierarchische Multiabstufungszusammenfassung 20 umfasst eine kompakteste Zusammenfassung 22, bei der gröbsten Abstufung, welche solange ausreichen sollte, bis detailliertere Informationen als notwendig erachtet werden und die feineren Abstufungszusammenfassungen abgerufen werden, wie zum Beispiel die Grobzusammenfassung 24 und die Feinstzusammenfassung 26. Obwohl drei Abstufungen der Summation in Fig. 1 dargestellt sind, sollte begrüßt werden, dass die hierarchische Zusammenfassung gemäß der Erfindung von jeglicher Anzahl von Abstufungen Gebrauch machen kann, die größer als eine andere ist.
- Die Zusammenfassung 20 erleichtert auch das schnelle Durchsehen (Surfen) durch eine Datenbank von Videosequenzen, wobei das schnelle Durchsehen auf Basis der kompaktesten Zusammenfassung durchgeführt werden kann. Eine progressive Verfeinerung der Zusammenfassung auf detailliertere Abstufungen kann auf Abruf des Anwenders durchgeführt werden.
- Die hierarchische Multiabstufungszusammenfassung von Daten erleichtert die effektive Art der visuellen und interaktiven Darstellung der Videosequenzzusammenfassung für den Anwender. Der Anwender kann mit der Zusammenfassung über eine grafische Anwenderschnittstelle bei der Verfeinerung der Zusammenfassung interaktiv vorgehen, mit der Visualisierung unterschiedlicher Abstufungen der Zusammenfassung und mit dem Abspielen/Rückspielen der Videosequenz zwischen zwei Key-Frames und mit der Zusammenfassung bei irgendeiner Abstufung. Anwender des hierin offengelegten Verfahrens können die maximale Anzahl der Key-Frames in der Zusammenfassung und die Anzahl der Abstufungen der Hierarchie spezifizieren. Somit ist das System bezüglich einer begrenzten Speicherkapazität und Ressourceanwendungen kontrollierbar.
- Das hierin offengelegte Verfahren ist sowohl bei einer unkomprimierten (bzw. dekomprimierten) als auch bei einer auf DCT-basierenden (auf einer diskreten/digitalen Kosinus-Transformation basierenden) Videosequenzkompression anwendbar, wie zum Beispiel bei einer MPEG- Videosequenzkompression oder bei sonstigen, auf Bewegungskompensation, vorhaltebedingte/prädiktive Videosequenzkompression. Im Falle einer MPEG Videosequenzkompression wird die Zusammenfassung von Daten unter minimalem Decodieraufwand des Bitstromes und mit einer effizienten Art des Decodierens der Key-Frames durchgeführt, was zu reduzierten Computerberechnungs- und Speicherkapazitätsanforderungen führt. Die hierin enthaltenen Beispiele gehen von einer MPEG-2 Videosequenzkompression aus aber wie schon vorher erwähnt, sind sie auf irgendeine auf DCT-basierende Videosequenzkompression anwendbar. Der Fachmann versteht, dass ein Vergleich zu einer MPEG-Videoseuyenz ein Vergleich mit einer Videostromkompression ist, außer etwas anderes wird erwähnt.
- Bei der hierin offengelegten hierarchischen Zusammenfassung von Daten wird das Erfassen von Spezialeffekten, wie zum Beispiel Überblendungen, über eine Nachbearbeitung unterstützt. Segmente, die solche Effekte enthalten, weist der Zusammenfassungsprozess der Daten nicht auf, um nicht nachteilig deren Genauigkeit zu beeinflussen. Vorkehrungen bezüglich des Verfahrens des Erfassens von Kameraschwenk- und Zoomsegmenten für kompakteste und ausdrucksstarke Darstellung in der Zusammenfassung werden ebenso ermöglicht.
- Eine Videosequenz kann auf Basis ihrer Zusammenfassungsrahmen unter Verwendung von für Standbilder entwickelten Techniken indexiert werden. Multiple Abstufungen bieten Flexibilität in Richtung Indexierung bei wechselnder Detailabstufung.
- Der hierarchische Lösungsweg gemäß der Erfindung ermöglicht dem Anwender ein schnelles Durchsehen (Surfen) durch eine Ansammlung von Videosequenzen auf Grund des Betrachtens von deren kompaktesten Zusammenfassungen 22 mit einer Möglichkeit eines Zugangs zu einer feineren Zusammenfassung 24, 26, falls der Inhalt der kompaktesten Zusammenfassung tatsächlich interessant erscheint. Ein Anwender des Verfahrens gemäß dieser Erfindung hat die Flexibilität, die Zusammenfassung der ausgewählten Segmente der Videosequenz zu verfeinern.
- Wenn das Zusammenfassen einer MPEG-Videosequenz angewandt wird, werden zwei Komponenten bereitgestellt, welche als "Bitstromindex- Tabellengenenator" und "Decodermanager" bezeichnet werden. Diese Komponenten sind zur effizienten Decodierung der Key-Frames notwendig, um eine visuelle Zusammenfassung und ein anschließendes, schnelles Durchsehen durch die Videosequenz zu generieren, ohne das ein Decodieren ihrer Gesamtheit erforderlich wird.
- Das gesamte Verfahren der Erfindung ist allgemein unter 30 in Fig. 2 zusammengefasst. Das Verfahren dient der Absicht, um auf einer Videokamera und einem Recorder/Aufzeichnungsgerät, wie zum Beispiel einem Camcorder betrieben werden zu können, oder auf einem Computersystem, das die Kapazität aufweist, zu einem Minimum Videosequenzen aufzunehmen und idealerweise große Mengen von Videodaten abspeichern zu können, wobei die Videosequenzdaten als Videosequenzeingangsmaterial 32 dienen. Der Mechanismus, welchen das Verfahren gemäß der Erfindung aufweist, wird hierin als "System" bezeichnet. Das Videosequenzeingangsmaterial 32 wird zunächst dahingehend verarbeitet, um Rahmen zu erfassen und zu entfernen, die in Spezialeffekten enthalten sind, wie zum Beispiel Ein- oder Ausblendung 34, weil die Einblend- /Ausblendrahmen zu falschen Schussgrenzen und Key-Frames führen. Solche Rahmen werden als globale Bewegungsvorgänge eingestuft und werden nachfolgend von der weiteren Verarbeitung ausgeschlossen. Der nächste Schritt ist die Histogramm-Computerberechnung 36. Farbbildhistogramme, das heißt Farbverteilungen, bilden repräsentative Charakteristikvektoren der Videosequenzrahmen und werden bei der Schussgrenz-Erfassung 38 und Key-Frame- Auswahl verwendet. Die Schussgrenz-Erfassung 38 wird unter Verwendung einer Schwellenmethode durchgeführt, wobei Unterschiede zwischen Histogrammen von aufeinanderfolgenden Rahmen verglichen werden.
- In Anbetracht einer Gesamtanzahl von Key-Frames (Anwender spezifiziert) 40 wird jeder Schuss einer von der "Aktion" innerhalb des Schusses abhängenden Anzahl von Key-Frames 42 entsprechend der allgemein bekannten Technik zugeteilt. Die Feinstabstufungs-Key-Frame-Auswahl 44 wird unter Verwendung einer verbesserten Version der Lagendijk-Technik durchgeführt. Die hierin offengelegte Implementierung umfasst eine verbesserte Version dieser Technik durch Integrieren zusätzlicher, neuer Schritte, wie in Fig. 4 dargestellt ist, die später hierin detaillierter beschrieben werden, wobei eine Erweiterung des Feinstabstufungs-Key-Frame-Auswahlverfahren zur Verfügung gestellt wird.
- Unter nochmaliger Bezugnahme auf Fig. 2 sind die automatische Kameraschwenk-/Zoomverarbeitung 46, die zur Generierung eines Bildmosaiks führt, sowie eine Zoom-Zusammenfassung 52, optionale Schritte und werden hierin später erklärt. Der nächste Schritt ist das neue Verfahren zur Generierung einer Key-Frame-Hierarchie 48, das heißt ein Zusammenfassen bei gröberen Details als bei der Feinstabstufungszusammenfassung. Dieser Prozess wird auch später hierin in den Einzelheiten beschrieben. Er basiert auf einer Variation des Themas der Vektorquantisierung. Nachdem die Feinst- und Grobabstufungszusammenfassungen für einen vorhandenen Schuss bestimmt werden, wird der Prozess für andere Schüsse in der Videosequenz, Block 50, wiederholt. Zusätzliche Schritte umfassen das schnelle Durchsehen der hierarchischen Zusammenfassung, Block 53, und Beendigung des Prozesses, Block 54.
- Die Schritte der automatischen Kameraschwenk-/Zoomverarbeitung 46 werden in Fig. 3 dargestellt, welche das Erfassen der Kameraschwenk- und Zoomvorgänge in der digitalen Videosequenz aufweisen. Rahmen, die globale Bewegung enthalten, werden erfasst 56. Dies ist ein Pre-Screening-Verfahren mit dem Ziel, jene Rahmen zu identifizieren, welche globalen Bewegungen unterliegen. Diese Rahmen können unter Verwendung eines Bildmosaiks kompakt (raumsparend) dargestellt werden, wenn die globale Bewegung auf Grund eines Kameraschwenks erfolgt, wie zum Beispiel durch einen Kameraschwenk-Detektor 58 oder durch eine Zoom-Zusammenfassung 52, das heißt hiervon des ersten und letzten Rahmens einer Zoom-In oder Zoom-Out-Sequenz, wie dies durch den Zoom-Detektor 60 erfasst und durch den Zoom-Auswerter 66 kompiliert worden ist. Folglich wird ein Mosaikaufbau 62 nur für jene Rahmen versucht, die eine globale Kameraschwenkbewegung manifestieren und welche zu einem Bildmosaik 51 führen. Rahmen, die im Bildmosaik 51 beteiligt sind oder in einer Zoom-In oder Zoom-Out-Sequenz werden von der Feinstabstufungszusammenfassung, Block 64, ausgeschlossen, da die Feinstabstufungszusammenfassung weiter verarbeitet wird, um die gröberen, kompakteren (raumsparenderen) Abstufungen zu bilden.
- In einem alternativen Ausführungsbeispiel kann die Kameraschwenk- /Zoomverarbeitung 46 vorzugsweise interaktiv als automatisch ausgeführt werden. Der Anwender kann aus der ausgewählten Feinst-Key-Frame- Zusammenstellung 44 jene Key-Frames auswählen, welche den Start und das Ende einer Kameraschwenksequenz bilden, und das System kann als Reaktion ein Bildmosaik 51 konstruieren und es dem Anwender präsentieren. Der Anwender kann Rahmennummern K und L identifizieren oder markieren, das heißt zwischen zwei Key-Frames dazwischen befindet sich ein Kameraschwenk. Der Bild- Mosaik-Aufbauer 62 betrachtet Rahmen zwischen Rahmennummer K-n und L+n beim Aufbau als Mosaik, wobei "n" eine vorher festgelegte Offseteinstellung darstellt. Ein Bild-Mosaik-Aufbauer 62 kann entsprechend den dem durchschnittlich begabten Fachmann bekannten Bildmaschentechniken implementiert werden.
- Beim Zoomen ebenso wie beim Kameraschwenken kann der Anwender manuell den Anfang und das Ende der Rahmen spezifizieren oder ein automatischer Zoomerfassungsalgorithmus kann eingesetzt werden, welcher wiederum ein Algorithmus ist, der dem durchschnittlichen Fachmann sehr wohl bekannt ist.
- Eine Form des hierarchischen Zusammenfassens wird in Fig. 5 dargestellt sowie allgemein unter Bezugsziffer 70. Das hierarchische Zusammenfassen ist in hierarchische Key-Frame-Abstufungen unterteilt. Dem Anwender kann als erstes die kompakteste (gröbste) Abstufungszusammenfassung 72 präsentiert werden, das heißt die kompakteste Zusammenfassung möglicherweise zusammen mit Bildmosaik 51 und Zoom-Zusammenfassung 52. Dann kann der Anwender einen Vorgängerrahmen markieren und den/die Nachfolgerrahmen in der feineren Abstufung sehen, hierin als Grobabstufung 74 bezeichnet. Das Markieren der Rahmen in der Feinstabstufung 76 resultiert in ein Playback/Abspielen der Videosequenz; zum Beispiel, wenn der j-th-Key-Frame bei der Feinstabstufung markiert wird, werden die Rahmen zwischen den j th und (j+1) st Key-Frames abgespielt/zurückgespult. Bei einer tatsächlichen GUI- Einlaufzeit (Implementierung) kann die Nachfolger-Vorgänger-Beziehung explizit während der Anzeige indiziert werden. Der hierin verwendete Begriff "Markieren" oder "Markierung" kann zugleich das Identifizieren eines besonderen Objektes auf einem Computermonitor sein, wie das Klicken auf einen besonderen Rahmen. Die Key-Frames beim hierarchischen Zusammenfassen können räumlich in Layout-Strukturen (Verkleinerung für Kontrollzwecke) stichprobenartig zur kosteneffektiven Speicherung zusammengefasst und unterteilt werden sowie- zum schnellem Abruf und zur Anzeige der Zusammenfassung. Das normale Playback einer Videosequenz wird bei der Feinstabstufung ausgeführt, jedoch kann das Playback auch bei einer gröberen Abstufung ausgeführt werden.
- Das erste Ausführungsbeispiel gemäß der Erfindung wird hierin als eine "Pixel-Domain" bezeichnet, ein Losungsansatz zum hierarchischen Zusammenfassen und schnellen Durchsehen einer digitalen Videosequenz, welcher bei einem unkomprimierten, digitalen Videoeingangsmaterial 32 erforderlich wird.
- Es wird davon ausgegangen, dass die Gesamtanzahl der zu verwendenden Key-Frames für die gesamte Videosequenz vorhanden ist (was normalerweise von den Speicherplatzanforderungen diktiert wird). Die Technik Lagendijks weist drei Hauptschritte auf:
- 1. Erfassen der Schussgrenzen;
- 2. Bestimmen der Anzahl der jedem Schuss zuzuteilenden Key-Frames und
- 3. Lokalisieren der Positionen der Key-Frames innerhalb eines jeden Schusses.
- Die in dieser Erfindung verwendete Technik wird allgemein unter 80 in Fig. 4 dargestellt und umfasst ein 3-Schritt-Iterativ-Verfahren 82. Das Erfassen der Schussgrenzen, Block 38, Fig. 2, wird unter Verwendung eines Histogrammes ausgeführt, welches auf einem dynamischen Schwellenansatz basiert. Es wird davon ausgegangen, dass die ersten "n", typischerweise n = 3, Rahmen der Sequenz nicht mit den Schussgrenzen korrespondieren. Das mittlere Aktionsmaß Am und die Standardabweichung des Aktionsmaßes Asd werden durch Errechnen der mittleren und der standardisierten Abweichung der Aktionsmaße jeweils bestimmt, welche später hierin definiert werden, über die ersten n-Rahmen. Der Schwellenwert wird bis Am +αAsd gesetzt. Erst nachdem eine Grenze nach diesem Schwellenwert erfasst ist, wird ein neuer Schwellenwert für den nächsten Schuss in der gleichen Art und Weise unter Verwendung der ersten n-Rahmen für diesen neuen Schuss festgelegt. Typischerweise wird der Parameterwert α bis 10 festgesetzt.
- Das Aktionsmaß (A(.,.)) zwischen zwei Histogrammen (h&sub1; und h&sub2;) wird bestimmt zur (l&sub1; Norm)
- A(h1,h&sub2;) = Σi h&sub1;(i) - h&sub2; (i)
- Das kumulative Aktionsmaß (C(.)) für einen Schuss (s) mit n-Rahmen s&sub1;, ..., sn wird bestimmt zu:
- C(x) = Σs1s1 ix s1 A(hs,hs, i-1), (x s n)
- Das kumulative Aktionsmaß für jeden Schuss und die Summe der kumulativen Aktionsmaße für jeden Schuss wird somit festgestellt. Die Anzahl der zugeteilten Key-Frames zu einem speziellen Schuss "s", Block 42, wird auf die relative Menge des kumulativen Aktionsmaßes innerhalb dieses Schusses proportioniert.
- Lokalisieren der tatsächlichen Positionen der Key-Frames innerhalb des Schusses kann als ein l&sub1; Minimierungsproblem angesehen werden. Jeder Key-Frame repräsentiert (und ersetzt) einen aneinandergrenzenden Satz von Videosequenzrahmen. Der Verbund dieser aneinandergrenzenden Sätze von Videorahmen stellt den gesamten Schuss dar. Da jeder dieser aneinandergrenzenden Sätze von Videorahmen durch einen einzigen Key-Frame repräsentiert wird, möchte man sicherstellen, dass die Menge der Aktion innerhalb eines aneinandergrenzenden Satzes von Videorahmen klein ist. Der Hintergrund dieser Sache ist der, dass, falls es zuviel "Aktion" innerhalb eines aneinandergrenzenden Satzes von Videorahmen gibt, ein einziger Key-Frame nicht imstande ist, die Aktion vollständig darstellen zu können. Somit wird eine einem einzigen Schuss (welcher der gleiche ist wie die Anzahl der aneinandergrenzenden Sätze, in welche der Schuss aufgeteilt ist) zugeteilte, vorhandene Gesamtanzahl von Key-Frames einem Minimierungsverfahren unterzogen, welches die Key-Frames feststellt und welche die "Aktion" innerhalb der korrespondierenden, angrenzenden Sätze der Videorahmen minimiert. Unter der Annahme, dass K Key-Frames innerhalb eines Schusses s positioniert werden sollen, wird die Lokalisierung der Key-Frames auf kj (j = 1, ..., K) belassen. Ferner wird kj-1, ..., tj-1 der angrenzende Satz von Videosequenzrahmen durch den Key-Frame bei kj repräsentiert. Mit anderen Worten [tj-1, tj-1] ist das Schusssegment, welches durch den Key-Frame h dargestellt wird. Das nachfolgende Kostenkriterium muss über alle möglichen tj minimiert werden (kj wird bestimmt durch Auswahlen tj, das heißt kj = (tj + t1-1)/2)):
- g(k&sub1;, ...,kK,t&sub1;, ..., tK-1) = Σ j=k j=1 tj tj-1 C(x)-C(kj) dx
- Es ist zu beachten, dass t&sub0; und tk der erste und der letzte Rahmen des Schusses sind (und folglich die Konstanten sind) Erst wenn kj = (tj + kj-1 )/2 in vorgenanntem Kostenkriterium ersetzt worden sind, wird eine zufriedenstellende, optimale Lösung erreicht 2C(ti) - C(ki) ≤ C(ki+1).
- Um die Minimierung auszuführen, werden folgende Schritte in einer iterativen Art durchgeführt, welche sich von der Technik Lagendijk unterscheidet.
- 1. Setzen k1 = 1 (vorausgesetzt, dass t&sub0; = 0 und der zweite Rahmen als Kandidat für den ersten Rahmen gewählt worden ist).
- 2. Für 1 = 1 durch K-1
- ti = 2ki - ti-1.
- Definieren von ti+1 als ersten. Videosequenzrahmen (das heißt den Videosequenzrahmen mit dem kleinsten Folgewert/tiefgestellten Indexwert, n, das heißt größer als t1), wofür 2C(ti) - C(ki) ≤ C(ki+1) gilt.
- 3. Für i = K, Errechnen von t' K = 2kK - tK-1. Falls tK > 2kK - t K-1 = t' K' gilt, Inkrementieren von k&sub1; um 1 und Übergehen zu Schritt 2; ansonsten Beibehalten der Ergebnisse der vorhergehenden Iteration, Addieren eines Offset zu sämtlichen kis, so dass tK = t'K' gilt, und Stoppen.
- Die Minimierung kann mit einer endlichen Zahl dez Schritte ausgeführt werden wie in Fig. 6 dargestellt ist. Ein kumulativer Fehler ist eine nicht mindernde Funktion innerhalb eines Schusses. Folglich hat das vorgenannte Minimierungsverfahren das Herausfinden jener Key-Frames, kj, zum Ziel, welche die beste Treppenapproximation (bestens im Sinne von 11) zur kumulativen Fehlerkurve 90 ergibt. Dies resultiert in eine Verteilung der Key- Frames kj, welche anpassungsfähig an die Menge der "Aktion" im Schuss variiert. Das zu minimierende Feld, wie durch die Integration in Eq. 3 zum Ausdruck gebracht, wird bei 92 dargestellt.
- Der Inhalt des dritten, vorgenannten Schrittes ist wie folgt: Der letzte Key-Frame des Schusses sollte so nahe wie möglich zum Mittepunkt zwischen tK-1 und t = tK sein. Inkrementieren von k&sub1; und Schritt 2 und 3 solange wiederholen, bis dieser Mittepunkt zum ersten Mal darüber hinausgeht. Dann nimmt man die Ergebnisse der vorhergehenden Iteration und gleicht sie so aus, dass der Letzte Key-Frame mit dem Mittepunkt übereinstimmt, das heißt tk = 2kK - tK-1, und der t'x, der durch das 3-Schritt-Iterativ-Verfahren bestimmt wird, stimmt mit tk überein.
- Eine weitere Neuheit, die bezüglich des früheren Algorithmus-vorgestellt wurde, bezieht sich auf Fälle, wobei man die Schussgrenze selbst mit k1 = 1 überschießt auf Grund einer ausreichend großen Anzahl von Key-Frames, die diesem speziellen Schuss zugeteilt sind. In diesem Fall wird ein einfaches Schema angewandt, um die Key-Frames in einer solchen Art und Weise zu verteilen, dass sie in gleichen Abständen angeordnet sind. In diesem einfachen Schema wird, falls ein Schuss zuzuteilende n-Rahmen und K-Rahmen aufweist, jeder (n/K)th Rahmen als ein Key-Frame selektiert.
- Bei der Technik Lagendijks wird der Key-Frame für ein Schusssegment [tj-1,tj -1] ergibt tj-1 und tj-1, immer bei kj = (tj + tj-1)/2 lokalisiert. Mit anderen Worten, der Key-Frame wird immer so ausgewählt, dass er in der Mitte des Segments als Repräsentant/Charakteristikum der Rahmen in dem Segment steht. Jedoch wenn man auf die Definition des kumulativen Fehlers zurückkommt, ist der kumulative Fehler nur von der absoluten Änderung zwischen aufeinanderfolgende Rahmen abhängig. Folglich könnte ein Key-Frame in der Mitte eines Segmentes nicht repräsentativ für die tatsächliche Änderung zwischen zwei Rahmen sein, die durch mehr als einen Rahmen getrennt sind. Betrachten wir eine Videosequenz, wobei ein Reporter spricht. Wir nehmen an, dass es da zwei Rahmen gibt, die zum Beispiel 10 Rahmen auseinander liegen, und dass beide Rahmen den Reporter mit einem offenen Mund zeigen. Infolgedessen tritt bei den beiden Rahmen eine sehr geringe Änderung bzw. "Aktion" auf. Jedoch die kumulative Änderung zwischen den beiden Rahmen könnte groß sein, da die kumulative Änderung die Summe der absoluten Änderungen zwischen aufeinanderfolgenden Rahmen darstellt. Es ist möglich, dass diese beiden Rahmen unter jenen als Key-Frames ausgewählten sich befinden können, falls die "Mitte des Segments" -Regel angewandt wird. Folglich könnte ein blindes Auswählen der "Mitte des Segments" -Rahmen als den Key- Frame zu einer fehlerhaften Selektion der Key-Frames führen.
- Bei diesem Ausführungsbeispiel wird das resultierende Setzen der Breakpoints/Programmstops innerhalb jeden Schusses, (t&sub0;, t&sub1;, ...,tk), die man durch das 3-Schritt-Iterativ-Verfahren erhält, in Betracht gezogen. Jener Rahmen in dem Segment (tj-1,tj-1), welcher am unterschiedlichsten (im Verhältnis zum Aktionsmaß A(.)) zum vorhergehenden Key-Frame (kj-1) ist, wird als der Key-Frame ausgewählt, der bei k2 lokalisiert wird. Diese Strategie nimmt die größte Differenz zum vorhergehenden Key-Frame und wird hierin als das "größte konsekutive Differenz" -Kriterium, Block 84, bezeichnet. Der erste Key-Frame, (k&sub1;), wird als der eine von dem 3-Schritt-Iterativ- Verfahren Bestimmte erfasst. Dieses Verfahren stellt sicher, dass die aufeinanderfolgenden. Key-Frames sich ausreichend voneinander unterscheiden, so dass die Redundanz/der Überhang so weit als möglich reduziert wird.
- Da die Technik Lagendijks insgesamt auf einen kumulativen Fehler basierend ist, wie vorstehend beschrieben, könnte sie über große Fehler zwischen zwei Rahmen Bericht erstatten, die aber in der Tat sehr eng zusammen sind. Obwohl die vorstehend vorgestellte Technik gut für das Auswählen des interessantesten Rahmens in einem vorhandenen Schusssegment ist, löst es nicht die Situation, in der das gesamte Schusssegment "uninteressant" vom Standpunkt der Aktion innerhalb des Schusssegmentes ist. Zum Beispiel kann es eine Akkumulation von Fehlern auf Grund einer leichten Kamerabewegung geben, die nicht zu einer sehr bedeutungsvollen Änderung zwischen aufeinanderfolgenden Key-Frames führen.
- Um Schüsse mit bedeutungsloser Aktion zu überspringen/ignorieren, werden diese Schüsse identifiziert und die Key-Frames für diese Schüsse ausgeschnitten, Block 86, was die Feinstabstufung der Key-Frames hinterlässt, Block 44. Dies wird durch Bewertung der mittleren und der standardisierten Abweichung des Aktionsmaßes zwischen aufeinanderfolgenden Videosequenzrahmen ausgeführt, welche zwischen zwei vorhandenen Key-Frames liegen und die bestimmt und analysiert werden. Falls ausreichend "bedeutungsvolle Aktion" zwischen zwei Key-Frames vorhanden ist, dann ist das Aktionsmaß zwischen aufeinanderfolgenden Rahmen in der Original-Videosequenz entscheidend, das heißt der Key-Frame wird entsprechend des grölten konsekutiven Differenzkriteriums, Block 84, identifiziert.
- Folglich: wenn Am das mittlere Aktionsmaß zwischen Key-Frames ki und ki-1, und Asd die Standardabweichung des Aktionsmaßes ist:
- (s/β)*Asd + Am < A(kn ki-1)
- falls der Inhalt zwischen zwei Key-Frames interessant ist, wobei "s" die Anzahl der Videosequenzrahmen zwischen den beiden Key-Frames ki und ki-1 ist. Falls das Schusssegment im vorgenannten Sinne uninteressant ist, wird dieser spezielle Key-Frame gelöscht und das Schusssegment wird mit dem nächsten Schusssegment verschmolzen.
- Der Parameter β nach der vorherigen Ausdrucksweise ist eine Konstante. Falls β weniger als 1 ist, werden nur die Key-Frames mit großen Unterschieden überleben, was zu einem exzessiven Ausschneiden führen kann. Als Wert von β wird 2,0 für die hierin berichteten Simulationen gewählt. Die Quantität (s/β) erhöht sich, wenn die Anzahl der den Schüssen zugeteilten Key-Frames gering ist, da sich die Entfernung zwischen den Key-Frames erhöht und folglich die Anzahl der Rahmen zwischen den Key-F rames, "s", sich erhöht, wenn die Anzahl der den Schüssen zugeteilten Key-Frames gering ist. Der maximale Wert, der (s/β) erreicht werden kann, wird als α festgelegt, wobei α der verwendete Faktor zum Definieren des Schwellenwertes für die Schussgrenzerfassung ist, um die Menge des Ausschneidens der Key-Frames zu limitieren.
- Weitere Experimente brachten hervor, dass das lineare Schwellenschema zu einer ungleichmäßigen Key-Frame-Zuteilung bei mancher Auswahl der Gesamtanzahl der Key-Frames führen könnte. Um dieses Problem zu beheben, wird ein Grenzwert MAXERASE = 0,3 auf eine maximale Prozentzahl der Gesamtanzahl der Key-Frames festgelegt, der durch das vorgenannte Ausschneidevertähren gelöscht werden könnte. Im Falle der Limitierung werden die überschüssigsten 30 Prozent der Rahmen entfernt, die mit MAXERASE = 0,3 korrespondieren. Die Bedeutung von "überschüssiqsten" wird auch in dem Sinne verwendet, dass A(ki,ki-1) der kleinste für den überschüssigsten Key-Frame ist. In diesem Fall wird ki der überflüssige, zu entfernende Key-Frame.
- Diese Technik, wenn sie bei einer High-Motion-Sequenz angewendet wird, produziert keine Änderung, wie erwartet wurde, da die Bewegung äußerst konstruktiv ist, das heißt Eq. (4) wird bei sämtlichen, gelöschten Key-Frames erfüllt und folglich gibt es keine Redundanz.
- Obzwar die vorgenannte Offenlegung ein intelligentes "Video- Indexierungssystem" beschreibt, stellt ein solches System nur eine fixierte Sequenz von Videorahmen zur Verfügung, welche mehr eine kompaktere Darstellung des Videoinhalts ist als die Originalvollsequenz der Videorahmen. In den meisten Situationen ist diese Darstellung immer nach unangemessen, da die Interessensabstufung in einer Videosequenz variiert, da man sich entlang der Sequenz und den Inhaltsänderungen bewegt. Auch kann die Interessensabstufung in einem speziellen Videoinhalt nicht vorhergesehen werden. Betrachten wir eine Videosequenz, bei der ein Mädchen eine Katze streichelt: Die Kamera schwenkt von dem Mädchen zur Katze. Eine Person könnte die Katze näher sehen wollen, aber nicht das Mädchen, wogegen eine andere Person das Mädchen nah sehen möchte und nicht die Katze, jedoch eine weitere Person wiederum möchte alle beide sehen. Ziel ist es, die Anzahl der "uninteressanten Rahmen" zu minimieren, die irgendjemand von diesen vorgenannten Personen ansieht.
- Um diverse Sichtanforderungen bei dem gleichen Videoindexierungssystem zu vereinbaren und zu erfüllen, wird ein Multi-Bildauflösungs- Videobrowser, Black 53, Fig. 2, zur Verfügung gestellt, weicher es dem Anwendet ermöglicht, die hierarchische Zusammenfassung durch Selektieren einer speziellen Abstutungszusammentassung schnell durchzusehen. Dies ist ein Browser anstelle eines reinen Indexierungssystems. Ein Zuschauer könnte bei einer Grobabstufung für das Detail beginnen und das Detail mit einem Mausklick erweitern, und zwar an jenen Stellen der Key-Frame-Sequenz, die für den Zuschauer interessanter erscheinen. Mehr als eine Detailabstufung ist erforderlich, so dass der Zuschauer bei einem selektierten Tempo, dem Zuschauer entsprechend, schnell durchsehen kann. Die Feinstabstufungs-Key- Frames können immer noch erfasst werden. Bei einer gröberen Abstufung werden ähnliche Key-Frames bei Feinabstufungen zusammen gebündelt, und jedes Bündel wird durch einen repräsentativen Key-Frame dargestellt.
- Um dieses Bündelproblem zu lösen, wird eine Modifizierung des ganz bekannten Linde-Buza-Gray (LBG) Algorithmus (oder Lloyd Algorithmus oder K- Mittel-Algorithmus) vorgeschlagen. Es ist zur Kenntnis zu nehmen, dass es erstrebenswert ist, ähnliche Bilder zusammenzugruppieren. Es wird davon ausgegangen, dass Bilder durch deren Histogramme dargestellt werden und dass ähnliche Bilder ähnliche Histogramme aufweisen. Indem man jedes Histogramm als einen Charakteristikvektor seines zugeteilten Rahmens behandelt, findet man (N/r)- repräsentative Histogramme in der Grobabstufung, um die N-Histogramme in der Feinstabstufung ersetzen zu können, wobei N die Anzahl der Key-Frames in der Feinstabstufung darstellt. Der Parameter "r" ist das Komprimierungsverhältnis und ist ein an das Programm des Zuschauers gelieferter Parameter. In der nachfolgenden Erörterung werden die Key- Frames im Verhältnis zu deren Histogrammvektoren zum Ausdruck gebracht.
- Diese Erörterung ist zu den regelmäßigen Gruppierungs- /Bündelproblemen unterschiedlich, da gewünscht wird, einen repräsentativen Vektor zum Ersatz auszuwählen/aufzupicken, zum Beispiel "p" konsekutive Vektoren (zeitentsprechend/rechtzeitig). Im normalen LGB-Fall gibt es keine "Konsekutivitätseinschränkung" bei den Vektoren, die bei einem repräsentativen Vektor quantisiert sind. Die nachfolgende Iteration, die der normalen LGB-Iteration ähnlich ist, wird immer konvergieren. Dieses neue 3-Stufen- Iterativ-Verfahren wird hierin als "paarweise" LBG oder PLBG -Iteration bezeichnet. Es muss angemerkt werden, dass die PLBG die gleichen lokalen Minimierungsprobleme hat wie die LBG: Glücklicherweise kann eine "Clean-Up- Stufe" nach den Iterationen angewandt werden, um sich diesem Problem schnell anzunehmen Zu Beginn starten Sie mit einer gleichmäßig beabstandeten Sequenzpartition der Histogrammvektoren. Zum Beispiel enthält bei einem Komprimierungsverhältnis von 3 jeder partitionierte Satz 3 Histogrammvektoren (außer möglicherweise der letzte Satz oder die letzten beiden Sätze). Dann gehen Sie durch die nachfolgenden Schritte für das PLBG-Verfahren:
- 1. Zuteilen des Schwerpunkts- (oder des mittleren) Histogramms als repräsentativen Vektor für jeden Satz Vektoren;
- 2. Starten mit der ersten Partition, Justieren jeder Partition so, um die gesamte l&sub2;-Nnrm für die benachbarten Sätze an beiden Seiten der Partition zu minimieren (dabei im paarweisen Verhältnis).
- Mathematisch: Falls Hi-1 der repräsentative Vektor für die Vektoren im Satz (ti-1,t&sub1;) und Hi der repräsentative Vektor für die Vektoren im Satz (ti, ti+1) ist, ti so justieren, dass die Gesamtsumme der rechteckigen/quadratischen Entfernungen der Vektoren in jedem Satz zu dem korrespondierenden, repräsentativen Vektor minimiert wird.
- 3. Falls nach erfolgter Justierung für eine Partition ti = ti+1 gilt, Hi vom repräsentativen Satz der Vektoren löschen. Falls ti-1 = ti gilt, Hi-1 vom Satz der repräsentativen Vektoren löschen.
- 4. Übergehen zu Schritt 1.
- Das Stoppkriterium kann entweder auf einer Mengenreduzierung in der Verwerfung/Verzerrung oder auf eine fixierte Anzahl der Iterationen basieren. Wie bereits festgestellt wurde, nach 10 Iterationen stoppen. Bei jeder Iteration wird die Verwerfung (l&sub2;-Norm zwischen dem repräsentativen Vektor jeden Satzes und den korrespondierenden Vektoren in dem Satz) reduziert. Folglich bildet die gesamte Verwerfung bei jeder Iteration eine reduzierende Sequenz. Außerdem ist die Verwertung immer großer als oder gleich Null. Hierbei hat die Sequenz ein Limit durch eine elementare Realanalyse. Fragen wie zum Beispiel "Gibt es ein lokales Minimieren (und hierbei einen fixierten Punkt) für die Iteration"? sind rein akademisch und der Leser sollte sich auf die Literatur für derartige Diskussionspunkte beziehen. Der Löschschritt (Schritt 3) könnte tatsächlich zu einer leicht geringeren Anzahl von Key-Frames führen als ursprünglich erwartet oder selektiert wurde.
- Bei dem vorgenannten Verfahren wird nach dem Stoppen der Rahmen in der ersten Gruppierung, deren Histogramm dem repräsentativen Vektor am nächsten kommt, als erster Key-Frame selektiert. Key-Frames für aufeinenderfolgende Gruppierungen können auf die gleiche Art und Weise bestimmt werden. Bessere Ergebnisse werden erzielt, wenn Key-Frames innerhalb aufeinanderfolgender Gruppierung entsprechend der "größten Differenz zu dem vorhergehenden Key-Frame-Kriterium" selektiert werden, wobei die Differenz im Verhältnis zum Aktionsmaß ausgedrückt wird.
- Bei der Formulierung der vorgenannten Iteration gibt es die Möglichkeit, dass der letzte Satz nicht adäquat dargestellt wird, da die letzte Partition immer an den letzten Vektor in der Sequenz fixiert ist. Das gleiche könnte für den ersten Rahmen des Schusses genannt werden, jedoch wurde eine solche Situation nicht bei den hierin berichteten Experimenten beobachtet. Folglich wird ein weiterer Schritt nach der Vervollständigung der Iteration zur Verfügung gestellt, um dieses Problem zu lösen. In dieser Endstufe ist zu testen, ob ein repräsentativerer Vektor am Ende der Darstellung addiert werden muss. Insbesondere sehen Sie das Addieren des letzten Vektors als den neuen Repräsentanten an. Falls die Differenz zwischen dem letzten Vektor und dem vorhergehenden, repräsentativen Vektor weniger als 0- X (bedeutet die Differenz zwischen sämtlichen anderen Paaren der aufeinanderfolgenden repräsentativen Vektoren) ist, wird der letzte Vektor möglich. Wählen Sie 0- als 0,75 während den Simulationen. Beachten Sie, dass 0- zwischen 0 und 1 variieren kann.
- Der Basislösungsansatz (Lagendijk) lässt die Szene aus, welche ein Merkmal des Interesses aufweist, falls 3 Key-Frames spezifiziert werden und dieser Basisweg auf einer Videosequenz angewandt wird. Die Ergebnisse sind von minderer Qualität in Bezug auf die kompakteste (gröbste) Abstufung der Multiabstufungs-Hierarchie mit 3 Key-Frames, die unter Anwendung des vorgenannten Verfahrens generiert worden sind. Ferner ist es weitaus effizienter, den vorgeschlagenen, herarchischen Lösungsweg zu nutzen als mehrfach den Basisalgorithmus, um eine unterschiedliche Anzahl von Key-Frames zu erhalten und eine Multiabstufungszusammenfassung zu generieren.
- Ein auf ein Histogramm basierendes Aktionsmaß ist nicht in allen Situationen adäquat. Zum Beispiel, wenn ein schwarzes Objekt gegen einen weißen Hintergrund adaptiert wird, würde das auf ein Histogramm basierende Aktionsmaß die Bewegung nicht registrieren. In Situationen, in denen es erstrebenswert ist, die Feinmotorik einzufangen, zum Beispiel Handgestikulationen oder Kopfbewegungen, ist es vorteilhaft, ein besseres Aktionsmaß zu haben.
- Block-Histogramme sind für die Schusserfassung vorgestellt worden. Jedoch kam man zu dem Schluss, dass Block-Histogramme für die Schusserfassung zu empfindlich waren und Anlass zu einer Reihe von Fehlalarmen gaben. Die Idee hinter Block-Histogrammen ist es, das Bild in einige Blöcke aufzuteilen (4 oder 16 für gewöhnlich) und das Aktionsmaß als Summe der absoluten Histogramm-Differenzen über jeden Block zu bestimmen. Es kann leicht verstanden werden, dass Block-Histogramme gegenüber Bewegung heikler/empfindlicher sein würden, welche nicht durch einen auf einem einfachen, allgemeinen Histogramm basierenden Lösungsansatz erfasst wurde. Block-Histogramme wurden experimentell nur für die Feinstabstufungs-Key- Frames angewandt, wie in dem 3-Stufen-Iterations-Verfahren in Fig. 4 dargestellt ist. Der Nachteil bei der Verwendung von Block-Histogrammen ist, dass sie rechnerisch und speichermäßig intensiver zu handhaben sind, da es erforderlich ist, mit 4 oder 16 Histogrammen pro Videorahmen anstelle mit nur einem zu arbeiten. In Experimentierreihen jedoch wurde festgestellt, dass der Block-Histogramm-Ansatz nicht zu beträchtlichen Leistungsverbesserungen führte.
- Die interessanten Spezialfälle, wie zum Beispiel Kameraschwenk oder Zoom, sind bisher noch nicht betrachtet worden. Im Falle eines Kameraschwenks sollte ein intelligenter Browser die Rahmen mit einem Schwenk (a) erfassen und eine Option für die in ein Bildmosaik zu Anschauungszwecken zu konvertierenden Schwenkrahmen zur Verfügung stellen (b). Da die Erfassung von Kameraschwenk und Zoom jeweils zu berechnende Bewegungsvektoren umfassen, kann die Zoomerfassung mit gleichzeitiger Schwenkerfassung ohne viel zusätzliche Computerüberlastung erzielt werden.
- Da das Herausfinden der Bewegungsvektoren für jeden Rahmen in einer Sequenz computertechnisch anspruchsvoll beim Errechnen ist, ist ein Pre- Screening-Verfahren entwickelt worden, das zunächst sämtlichen, möglichen Sequenzen von Rahmen mit dominanter, bzw. globaler, Bewegung erfasst. Da dominante Bewegung auch durch einen (a) Kameraschwenk oder durch einen (b) Zoomvorgang oder durch einen (c) anderen Spezialfilmschnitteffekt verursacht werden kann, wird die erfasste Sequenz näher überprüft, um das Vorhandensein eines Kameraschwanks oder Zoomvorgangs festzustellen.
- Dominanzbewegung setzt voraus, dass jedes Pixels innerhalb des Videorahmens eine Änderung in der Intensität erfährt. Diese Änderung in der Intensität wird normalerweise durch Zoom oder Kamerabewegung verursacht. Diese Änderung wird am ehesten in den Randpixels des Videorahmens wahrnehmbar.
- Der Lösungsweg ist, jedes Pixel anzusehen und zu bestimmen, ob es sich um einen Randpixel handelt und falls ja, den Unterschied zwischen dem aktuellen Pixel und dem Pixel an der gleichen Stelle im vorhergehenden Rahmen herauszufinden. Falls der absolute Wert des Unterschiedes auf einem Randpixel größer als ein Schwellenwert (PZ_THRESH = 15) ist, wird das Pixel so spezifiziert, als ob es eine Bewegung aufweist. Um zu bestimmen, ob das Pixel ein Randpixel ist, wird der durch den Sobel -Randerfassungsermittler erzielte Wert auf diesem Pixel mit einem Schwellenwert (PZ_THRE5H1 = 50) verglichen. Wenn PZ-THRESH reduziert wird, könnte man einen Fehlalarm erhalten. Wenn PZ_THRESH1 reduziert wird, könnte vielleicht keine bedeutsame Änderung auf derartigen Pixel vorhanden sein, da sie nicht zu starken Rändern gehören; Bewegung könnte nicht viel Intensitätsvariation verursachen. Um zu bestimmen, ob ein besonderer Rahmen ein Kameraschwenkrahmen ist, gilt der Schwellenwert auf das Ratio (Schwenkratio) zwischen der Anzahl der Pixel, die als Bewegungsstufe klassifiziert werden und der Gesamtanzahl der Randpixel (PZ- THRESH2 = 0,9). Ein weiterer notwendiger Schritt, um sicherzustellen, dass der Ratio konstant PZ_THRESH2 über den ganzen Kameraschwenk überschreitet, ist das Ausfüllen/Beschicken der benachbarten Umgehung. Mit anderen Worten, ein Randpixel weist Bewegung auf, wenn die Intensitätsvariation irgendeines Pixeis innerhalb einer NEIGH · NEIGH größer als PZ_THRESH ist, wobei NEIGH = 5 gilt.
- Sequenzen der Rahmen, die kürzer als eine spezielle Anzahl sind, werden verworfen:
- (TOO_MANY_FRAMES_NOT_PANZOOM = 5). Nachsampling/nochmalige Durchmusterung kann angewandt werden, um die Computerüberlastung weiter zu verringern.
- Der Lösungsweg der Kameraschwenkerfassung ist eine Variation bekannter Techniken. Um einen Kameraschwenk zu erfassen, sieht man auf die Bewegungsvektoren auf die Pixelstellen des Nachsampling (SPACING = 24). Das angewandte Verfahren zur Bestimmung des Bewegungsvektors ist einfacher Block- Abgleich (BLKSIZE = 7 · 7, SEARCHSIZE = 24 · 24). Man variiert die Suchgroße unter Zugrundelegung des Kameraschwenkvektors des vorhergehenden Rahmens: Die Suchgröße wird halbiert, wenn der vorhergehende PCameraschwenkvektor kleiner ist als (SEARCHSIZE/2)-2; die Originalgröße (größer) wird wieder hergestellt, wenn der vorhergehende Kameraschwenkvektor größer ist als (SEARCH- SIZE/2)-2. Diese Variation führt zu keinem Leistungsqualitätsverlust.
- Für die Kameraschwenkerfassung ist bereits vorgestellt worden, alle Bewegungsvektoren, die parallel zum modalen (am häufigsten auftretenden) Bewegungsvektor innerhalb einer Toleranzgrenze sind, herauszufinden. Wenn die Anzahl derartiger Bewegungsvektoren größer als ein spezieller Schwellenwert ist, wird ein Kameraschwenk erfasst. Jedoch im Falle eines Kameraschwenks sind nicht nur die Bewegungsvektoren parallel verlaufend, sie haben ebenso ungefähr die gleiche Größenordnung. Deshalb wird eine kleine benachbarte Umgebung des modalen Bewegungsvektors überprüft anstatt auf sämtliche, parallelen Bawegungsvektoren zu schauen. Falls eine Verknüpfung in dem Wert eines modalen Bewegungsvektors auftritt, wird eine willkürliche Entscheidung getroffen. Die Größe der benachbarten Umgebung wird durch VARN (= 4) kontrolliert. Größere Werte bezüglich VARN würden zu einer kleineren, benachbarten Umgebung rund um den modalen Bewegungsvektor (VARN = 4 in unserem Fall impliziert eine Sx3 benachbarte Umgebung) führen. Die PANRATIO (= .5) bestimmt den Schwellenwert des Verhältnisses zwischen der Anzahl der Bewegungsvektoren innerhalb der benachbarten Umgebung und der Gesamtzahl der Bewegungsvektoren. Selbst wenn einige Rahmen in einer Sequenz von Kameraschwenk-/PAN-Rahmen unter die Schwellenwerte fallen, wird die Kontinuität des Kameraschwenkvorganges sichergestellt, wenn die Öffnung nicht größer als 3 (TOO_BIG_A_HOLE = 3) ist.
- Beim Überprüfen der alleräußersten Randzone der Bewegungsvektoren in einem Bild, das heißt der Bewegungsvektoren am Rande des Bildes, sollten die Zoomkonditionen erfasst werden. Bewegungsvektoren an den diametrisch gegenuberliegenden Stellen der Randzone sollten in die Gegenrichtungen zeigen. Der Schwellenwert (ZOOMRATIO = .7) im Verhältnis zu den Bewegungsvektoren zeigt gleichzeitig in die gegenüberliegenden Richtungen die Gesamtzahl der Bewegungsvektoren. Nur die Bewegungsvektoren an der äußeren Randzone werden verwendet, da die Mitte des Zooms irgendwo innerhalb des Bildes lokalisiert sein könnte. Folglich sind die Bewegungsvektoren an der äußeren Randzone die besten Indikatoren für das Vorhandensein eines Zooms. Hinzu kommt, dass es nicht viel Vordergrundbewegung an den Bildrändern gibt.
- In diesem Abschnitt der Offenlegung werden die früher offengelegten Verfahren um die Farbsequenzen erweitert. Zwei unterschiedliche Ausführungsbeispiele werden beschrieben. In dem ersten Ausführungsbeispiel wird ein verkettetes Histogramm verwendet, da aus einem 256-bin Y Histogramm und zwei 128-bin U und V Histogrammen besteht In dem zweiten Ausführungsbeispiel wird ein einfaches 256-bin Y Histogramm verwendet. Bezüglich einiger Experimentiersequenzen wurden keine bedeutenden Änderungen in den Ergebnissen beobachtet. In beiden Fällen wird das Aktivitätsmaß wie das in Eq. 1 definiert. Jedoch in einigen Sequenzen, bei denen ein Farbhistogramm verwendet wird, kann das Erfassen der Änderung zwischen zwei Videorahmen entscheidend sein, das heißt die Bildhelligkeit bleibt nahezu gleich, jedoch der Chromwert verändert sich.
- Ein Block-Diagramm der hierarchischen Zusammenfassung und Verfahren zum schnellen Durchsehen wird in Fig. 2 dargestellt. Das Modul für Bildauflösung, Ein-/Ausblendung, Entfernung wird in der angeführten, diesbezüglichen Applikation erläutert und ist hierin mittels Bezugsziffern enthalten und offenbart ein Bildauflösungserfassungsverfahren. Das Modul wird verwendet, um eine Bildauflösung in einen abrupten Szenenübergang durch Entfernen der Übergangsrahmen aus der Videosequenz zu konvertieren. Der Feinstabstufungs-Key-Frame-Erfassungs-Block wird in Fig. 4 erweitert, wobei wesentliche Schritte dargestellt werden. Das automatische Kameraschwenk-/Zoom- Autoprozess-Modul wird in Fig. 3 im Detail dargestellt. Es (a) erfasst automatisch und baut ein Mosaikbild (Panorama) auf, falls es einen Kameraschwenk (PAN) gibt, erfasst und bestimmt den ersten und den letzten Rahmen einer Zoomsequenz. Es schließt auch die Kameraschwenk/Zoom bezogenen Key- Frames aus den Feinstabstufungs-Key-Frames aus, so dass nur Nichtkameraschwenk- und Nichtzoomrahmen in dem hierarchischen Key-Frame-Generierungs- Prozess beteiligt sind. Diese Beseitigung und automatische Kameraschwenk- /Zoomverarbeitung ist optional und kann interaktiv nur bei gewissen Abschnitten des Videoclips durch den Anwender ermöglicht werden, falls dies gewünscht wird. Das GUI-Modul ermöglicht es dem Anwender, das schnelle Durchsehen der Videosequenz bei einer bestimmten Abstufung der Zusammenfassung (unter den durch den hierarchischen Browser generierten verschiedenen Abstufungen) zu starten. Zum Beispiel kann die gröbste Zusammenfassung zusammen mit Mosaikbildern und der Zoom-Zusammenfassung zuerst präsentiert werden. Dann kann der Anwender interaktiv Rahmen auf einer feineren Hierarchieabstufung abrufen/ab- oder rückspielen. Mit Klicken auf eine Schaltfläche kann der Anwender auf beide Vorgänger-/Nachfolgerrahmen des Key-Frame, der momentan angesehen wird, zugreifen. Das Auswählen des Vorgängerrahmens führt zu einem Ersatz von einer Gruppe von Key-Frames in der aktuellen Abstufung durch einen einzigen Key-Frame, der deren Vorgänger ist. Das Auswählen des Nachfolgerrahmens findet sämtliche Nachfolger-Key-Frames, die mit dem aktuellen Key-Frame korrespondieren. Fig. 5 veranschaulicht diesen Begriff der Vorgänger- und Nachfolger-Key-Frames. Auf der Feinstabstufung führt die nochmalige Erweiterung dazu, das heißt der Nachfolgerrahmen auf der Feinstabstufung, dass der Videoclip zwischen bestimmten Key-Frames gespielt wird. Während der Zeit, wenn das Video gespielt wird, kann die Musik/der Sound, die/der mit diesem Teil des Videoclips korrespondiert, auch synchron gespielt werden. Diese Funktion des Spielens des Videoclips kann auch auf einer gröberen Abstufung der Hierarchie zur Verfügung gestellt werden.
- Das hierin beschriebene Verfahren zum schnellen Durchsehen von Videosequenzen kann auch Anwendungen aufweisen, die darüber hinausgehen, nur einfach eine effektive Anwenderschnittstelle für Multimedia-Handhabung zur Verfügung stellen zu wollen. Es schafft ein Verständnis des temporalen Inhaltes der Videosequenz, die potentiell in zweiter Generation der Videocodiersysteme eingesetzt werden kann und ruft Erinnerungen an die zweite Generation der Bildcodiersysteme wach. Die zur Handhabung eines MPEG-2 Bitstromes entwickelten Codiereinrichtungen adaptieren blind ein IBBP oder IBBBP Format zum Beispiel. Jedoch eine Hierarchie von Key-Frames kann auch zur Entwicklung von Codiereinrichtungen verwendet werden, die intelligenterweise und was noch wichtiger ist, computertechnisch effizient, sich der Beschaffenheit des temporalen Videostromes anpassen, und so eine höhere Qualität unter Ausnutzung geringerer Ressourcen bieten. Informationsmaterial über die Ausnutzung einer Hierarchie von Videorahmen unter Verbesserung der Kompression ist als Literatur erhältlich, wobei die Multi-Skalen- Beschaffenheit einer Algorithmus-Segmentierung ausgewertet/ausgenutzt wird, um eine verlustfreie Standbildkompression zu erzielen. Ein entscheidender Unterschied zwischen den Bildcodiersystemen der zweiten Generation und den Videocodiersystemen der zweiten Generation ist, dass die früheren Systeme eine fundamentale Änderung im Codiermechanismus benötigten und folglich keine großen Auswirkungen hatten, während die letzteren innerhalb sämtlicher, bestehender Videocodierstandards integriert werden können.
- Die computertechnische Rechenleistung des Key-Frame- Generierungsverfahrens hängt stark vom schnellen Zugang zur Speicherfestplatte des verwendeten Computers ab, um das Verfahren gemäß der Erfindung anwenden zu können. In der nachfolgenden Erörterung bedeutet "Realzeitverarbeitung"/"Real Time Processing" die Fähigkeit, 30 Rahmen pro Sekunde bei einer vorgegebenen Bildauflösung zu verarbeiten. In Bezug auf eine allgemein übliche 300 Rahmenquadratmittelformat (QCLF) -Farbsequenz (176 · 144 Bildauflösung) wurde festgestellt, dass der Konstruktionsaufbau des Histogramms 11 Sekunden beanspruchte, wahrend der Rest der Verarbeitung weniger als eine Sekunde auf einem SUN® Ultra SPARC-2® System in Anspruch nahm. Folglich sollte es leicht sein, vorausgesetzt, dass die Histogramm- Errechnung in Realzeit erreicht werden kann, die hierarchische Key-Frame- Generierung in Realzeit zu erzielen. Es sollte auch beachtet werden, dass die Verarbeitung nach der Errechnung der Histogramme von der tatsächlichen Rahmenbildauflösung unabhängig ist. Folglich ist die beanspruchte Zeit, um eine 300 Rahmen QCIF-Sequenz zu verarbeiten, die gleiche wie diejenige bei der Verarbeitung einer Sequenz bei einer 1024 · 780 Bildauflösung, vorausgesetzt, dass die Histogramme eines jeden Rahmens vorausberechnet worden sind.
- Gegenwärtig kann die globale Bewegungserfassung in Realzeit ausgeführt werden. Jedoch auf Grund der großen Computerberechnungsbelastung, die mit dem Blook-Abgleich-Algorithmus verbunden ist welche für die Kameraschwen-k/Zoom-Erfassung erforderlich ist, kann die Kameraschwenk-/Zoom- Verarbeitung nicht in Realzeit in einer Softwareimplementierung ausgeführt werden.
- In der vorangehenden Erörterung wurden nur unkomprimierte bzw. dekomprimierte Bitströme in Betracht gezogen und in den Experimenten angewendet. Jedoch die meisten erhältlichen Videoströme weisen eine Formatkompression zur Kompaktspeicherung auf. Das Verfahren nach Fig. 4 kann auf einer Bitstromkompression derart erweitert werden, um so die Key-Frames unter Ausführung einem minimalen Decodieraufwandes zu extrahieren. Es wird allgemein geschätzt werden, dass ein höllisch grobes Verfahren zur Handhabung einer Videosequenzkompression einfach sein kann, um den gesamten Videostrom zu dekomprimieren, nachdem die hierin beschriebenen Techniken bezüglich unkomprimiertar Videosequenzen angewendet werden.
- Dieser Abschnitt der Offenlegung behandelt eine Variation der hierarchischen Zusammenfassung und des Verfahrens zum schnellen Durchsehen einer digitalen Videosequenz, wie sie anhand von MPEG-2 Bitströmen angewendet werden kann. Das Ganzheitsschema wird in dem vorhandenen Flussdiagramm in Fig. 7 zusammengefasst. Eine Neuheit des Errechnens von Histogrammen wird offengelegt. Histogramme der DC-Koeffizienten der 8 · 8 Blöcke werden angewendet. Der Prozess beginnt mit einem Eingangs-Bitstrom 132. Die Histogramm-Computerberechnung 134 für I-Bilder ist daher richtungsweisend durch Verfahren, die dem durchschnittlich begabten Fachmann allgemein bekannt sind. Die Histogramm- Computerberechnung bezüglich Vorhaltebilder (P und B Rahmen), ohne vollständiges Decodieren ihrer Vergleichsrahmen, wird ausgeführt, wie hierin später offengelegt wird, und führt zu einer erhöhten Genauigkeit bei den Histogrammen und folglich der Key-Frame-Auswahl 136. Die hierarchische Key-Frame-Auswahl 136 bestimmt die Identität der Key- Frames der hierarchischen Zusammenfassung, zum Beispiel das Verhältnis ihrer temporalen Anzeigereihenfolge und stellt diese zusammenfassenden Informationen einem Decodier-Manager zur Verfügung, der später hierin beschrieben wird. Erst wenn die Histogramme der DCT-Koeffizienten generiert werden, wird die hierarchische Key-Frame-Auswahl durchgeführt, wie in Verbindung mit Fig. 4 erläutert wird.
- Es sollte zur Kenntnis genommen werden, dass ein Mechanismus zum Erfassen der Bildauflösungsbereiche in der Videosequenz ein solcher ist, wie der offengelegte in meinem gleichzeitig gestellten Antrag: "Erfassen der Bildauflosungsbereiche in Videosequenzen", wie auch weiter oben aufgeführt ist. Der Mechanismus kann leicht in einen Verarbeitungsblock 134 in Fig. 7 integriert werden, welcher dann eine Histogramm-Computerberechnung und die BIT-Generierung durchführt. Demzufolge können in einem Bildauflösungsbereich enthaltene Rahmen innerhalb einer BIT gekennzeichnet und in dem aufeinanderfolgenden Key-Frame-Auswahl-Prozess übersprungen werden. Andernfalls können Rahmen innerhalb des Bildauflösungsbereiches Anlass zu fehlerhaften Key-Frames geben.
- Das Verfahren erzeugt eine Aufzeichnung des Bitstromes, die einhergeht mit der Histogramm -Computerberechnung 134 und enthält Informationen über jedes Bild, wie zum Beispiel über ihre Byte-Offset-Stelle im Datenstrom, über deren Vergleichsrahmen und die verwendete Quantisierungsmatrix bei der Quanitisierung der DCT-Blöcke. Bei der gegenwärtigen Erfindung wird eine Tabelle erzeugt, die als "Bitstromindex-Tabelle" (BIT) bezeichnet wird. Die Inhalte der HIT 138 und das Verfahren dar BIT-Generierung werden im Detail später hierin erläutert.
- Ein Zweck der BLT 138 dient dazu, die wesentlichen Parameter des Bitstromes zu erfassen, um das Decodieren der Key-Frames zum Generieren einer visuellen Zusammenfassung, ohne die Notwendigkeit eines Decodierens oder eines Analysierens des gesamten Bitstromes, zu ermöglichen. Das Analysieren macht es notwendig, dass das System auf jedes Bit in dem Videostrom schaut, ungeachtet dessen, ob der Videostrom decodiert ist oder nicht. Hinzu kommt, dass die HIT-Tabelle, oder eine abgespeckte Version der BIT, zusammen mit dem Originalbitstrom zur Verfügung gestellt wird, sowie die Identität der Zusammenfassung, wie in Fig. 8 dargestellt ist, zum effizienten, schnellen Durchsehen des Anwenders, wenn zum Beispiel der Anwender die Zusammenfassung visuell anzeigen oder das Video zwischen zwei Key-Frames abspielen möchte. Später wird hierin ein spezifisches Ausführungsbeispiel des Verfahrens beschrieben, wobei dem Anwender eine Zusammenfassung präsentiert und etwas Interaktivität zur Verfügung gestellt wird. Beachten Sie, dass in Fig. 8 der Bitstrom in einem Speicher, der an einem anderen physikalischen Platz als dem der BIT-Tabelle und der Identität der zusammenfassenden Rahmen abgespeichert sein kann. Zum Beispiel können Bitströme in einer Serverdatenbank abgespeichert sein und die Zusammenfassung sowie die BIT-Tabelle können auf einem lokal unabhängigen Gerät abgespeichert sein. Alternativ können alle drei Arten von Daten im gleichen Medium abgespeichert sein, wie zum Beispiel einer DVD-Disk oder einem sonstigen großen Speicherkapazitätsmedium. Verfahren zur weiteren Komprimierung (oder Reduzierung) der BIT werden in dem Abschnitt mit dem Titel "Generieren einer reduzierten Bitstromindex-Tabelle zur kompakten Speicherung" erläutert. Man sollte auch zu schätzen wissen, dass, nachdem die BIT generiert worden ist und entschieden wird, die Größe der BIT zu "reduzieren", eine Reihe von Techniken angewandt werden kann, um die BIT-Größe herunterzufahren. Nur ein einziges Beispiel wird hierin erwähnt. Es sollte auch zur Kenntnis genommen werden, dass es möglich ist, überhaupt keine BIT auszubilden und abzuspeichern, aber den gesamten Bitstrom zu analysieren und zu decodieren, und zwar jedes Mal, wenn ein Key-Frame decodiert werden muss.
- Nochmaliger Bezug auf Fig. 7: Während der Generierung der hierarchischen Zusammenfassung 140 wird die in der BIT enthaltene Information vom Decoder-Manager 142 benutzt, um selektiv die Key-Frames zu decodieren, welche an einen MPEG-2 Decoder 144 weitergegeben werden, und wenn die Decodierung ausgeführt ist, wird die hierarchische Zusammenfassung 140 ausgebildet. Der Decoder-Manager 142 führt während der Präsentationsstufe eine ähnliche Aufgabe durch, wie der Anwender dies wünscht, um durch die Videosequenz durch Abspielen zwischen den Key-Frames schnell durchzusehen. Die Funktionsprinzipien des Decoder-Managers (der zum Beispiel durch ein. Computerprogramm implementiert werden kann) werden nachstehend erläutert.
- Die Erfindung kann innerhalb einer Videokamera implementiert werden, welche MPEG-2 komprimierte Videos nach erfolgter Aufzeichnung speichert. In diesem Fall kann die zusammenfassende Information und die BIT-Tabelle in einem Speichersystem abgespeichert werden, oder sie werden in einem Arbeitsspeicher abgespeichert, der mit dem Videostrom in einer gut definierten Konfiguration verknüpft ist. Die hierarchische Zusammenfassung selbst, die Key-Frames enthält, oder deren nachüberprüfte Versionen durch Sub- Sampling, können ebenso in einem Speichersystem für unmittelbaren Zugang abgespeichert werden. Eine Kamera-Schnittstelle kann zur Identifizierung des in der Kamera gespeicherten Videoinhalts zur Verfügung gestellt werden, auf Band oder auf irgendeinem anderen Speichermedium unter Zugrundelegung der hierarchischen Zusammenfassung.
- Alternativ können Bitströme von einer Kamera auf einen Computer heruntergeladen werden, wobei der Zusammenfassungaprozass ausgeführt wird. In diesem Fall kann die Zusammenfassung auf das Band oder auf irgendein anderes Speichermedium, welches die Videodaten festhält, zurückkopiert werden, oder auf einen ganz anderen Arbeitsspeicher, der mit einer gut definierten Verknüpfung mit den Video-Bitstrom verknüpft ist. Zum Beispiel sind Kameras, die direkt komprimierte MPEG-Ströme aufzeichnen, derzeit erhältlich (z. B. Hitachi MP-EG1A Kamera), wobei Bitströme dann auf einen PC heruntergeladen werden können. Das System der gegenwärtigen Erfindung kann verwendet werden, um solche Bitströme auf einer PG-Plattform zu verarbeiten.
- Die nachfolgenden Probleme müssen angegangen und gelöst werden, um die hierarchische Videosequenzzusammenfassung effizient mit MPEG-2 Bitströme arbeiten zu lassen:
- 1. Generieren einer Key-Frame-Hierarchie während eines minimalen Decodierens des MPEG-2 Bitstromes.
- 2. Einrichten eines Verfahrens zum Decodieren der selektierten Key-Frames aus den MPEG-2 Bitströmen, ohne sämtliche Rahmen decodieren zu müssen.
- 3. Entwickeln einer Strategie zum Decodieren einer Rahmenstrecke zwischen zwei vorgegebenen Key-Frames.
- Dieser Lösungsansatz funktioniert bei einer Histogrammabstufung. Ein Verfahren wird offengelegt, das ein Farbhistogramm für jeden Rahmen während eines minimalen Decodieraufwands des MPEG-2 Bitstromes computertechnisch errechnet.
- Histogramm -Computerberechnung und konsequentes, aufeinanderfolgendes Verarbeiten ist unempfindlich bezüglich der Nachüberprüfung durch einen Faktor von 8 in jede Dimension. Nachdem man einen Schritt weitergegangen ist, wurde festgestellt, dass computertechnisch errechnete Histogramme unter Verwendung nur einer DC-Komponente der DCT 8 · 8 Blöcke, das heißt dem Mittelwert der 8 · 8 Blöcke, für praktische Zwecke ausreichend waren. Bezüglich Bewegung kompensierender Bilder wird vorgeschlagen, dass eine etwaige Bewegungskompensation verwendet werden könnte, um die Computerberechnung zu reduzieren, wobei man einen unbedeutenden Qualitätsverlust in der Leistung erhält. Nach dem in dem MPEG Standard verwendeten Block-Abgleich- Schema, kann sich ein 16 · 16 Makroblockbewegungsvektor überlappen, meistens in vier anderen 16 · 16 Makroblöcken zu dem Vergleichsrahmen, von dem aus die Prädiktion/der Vorhalterahmen kompensierter Bewegung ausgeführt wird. Ähnlich verhält es sich mit jeweils 8 · 8 Unterblöcken innerhalb der 16 · 16 Makroblocküberlappungen meistens bei vier anderen 8 · 8 Unterblöcken. Folglich wurde vorgeschlagen, dass jeder 8 · 8 Unterblock durch einen gewichteten Durchschnittswert den Werten der jeweils 8 · 8 Unterblöcke angenähert wird, die sich überlappen. Die zugeteilten Gewichte für jeden einzelnen Block könnten proportional zum Bereich der Überlappung erfolgen. Unter Bezug auf die Fig. 9 beträgt der Mittelwert der 8 · 8 Unterblöcke wie folgt:
- (α)(b)(m&sub1;) + (8-α)(b)(m&sub3;) + (α)(8-b)(m&sub2;) + (8-α)(8-b)(m&sub4;) + ΔDCT)/64
- wobei ΔDCT 8mal die DC Komponente der verbleibenden DCT Komponente für den Block ist (der Faktor von 8 kommt daher, weil die DC Komponente der verbleibenden DCT Komponente für den verwendeten Block in dem MPEG-2 Standard ein Achtel des Mittelwertes des abweichenden Fehlwertes des Blockes ist). Histogramme werden durch Aktualisieren des Histogrammvektors mit dem Mittelwert jedes 8 · 8 Blockes innerhalb des Bildes erzielt, das als Eq. 5 festgestellt wurde. Das vorgenannte Verfahren des Erzielens von Histogrammen birgt gewisse Probleme in sich, welche an einem möglichen Qualitätsverlust der Leistung führen. Eine der Verbesserungen des Verfahrens gemäß der Erfindung ist es, einen besseren Weg der Handhabung der Histogramm - Computerberechnung bezüglich MPEG Bitströme aufzustellen.
- MPEG Bitströme integrieren komplizierte Codierstrategien, welche Decodierinformationen aus anderen Teilen des Bitstromes notwendig machen, bevor man versankt, einen speziellen Rahmen am decodieren. Eine erfolgreiche Videostrategie des schnellen Durchsehens muss sich auch dem Problem des Decodierens speziellen Videorahmen bei einem minimalen Zeitaufwand widmen.
- Das Decodieren eines MPEG Bitstromes umfasst zwei computertechnisch intensive rechnerische Schritte:
- 1 Erzielen eines DCL Gegenstroms der 8 · 8 Blöcke
- 2. Bewegungskompensation mit 16 · 16 Makroblöcken im Falle von MPEG-2 Bitströmen; die Blöcke können kleiner sein oder nur gleiche/ungleiche Felder aufweisen.
- Zuvor wurde aufgezeigt, dass das Ersetzen eines 8 · 8 Blockes durch seinen Mittelwert keine große Auswirkung auf das Histogramm des Bildes hat. Bei dieser Praxis wird jeder 8 · 8 Block durch 8 · (DC Wert des DCT Koeffizienten) ersetzt. Aus der Formel für DCT Gegenstrom -Computerberechnung ist ersichtlich, dass dies die Mittelwerte des Blockes ergibt, genau übereinstimmend mit der Kompression bezüglich des Quantisierungsfehlwertes.
- Um den nächsten Schritt zu verstehen, wird ein kurzer Überblick über die Codierstrategie bereitgestellt, die in einem MPEG Bitstrom angewendet wird. Ein typischen MPEG Bitstrom hat drei Arten von Rahmen:
- I (intra-codierter Rahmen),
- B (bidirektionaler Vorhalterahmen), und
- P (Prädiktions-/Vorhalterahmen).
- Der I-Rahmen enthält nur DCT Daten (es wird keine Bewegungskompensation durchgeführt), Folglich deckt die Verwendung des DC Wertes des DCT Koeffizienten zur Errechnung eines Histogramms vollständig das Problem des minimalen Decodieraufwands bei T Rahmen. B und P-Rahmen weisen den zusätzlichen Schritt des Verwendens von Blockbewegungsvektoren zur Prädiktion des aktuellen Rahmens aus vorher decodierten Vergleichsrahmen auf. Somit muss die angewandte Strategie bei den Decodierung den R und P-Rahmen sorgfältig beachtet werden. In der nachfolgenden Erläuterung bezieht sich Fall (a) auf ein Bewegungskompensationsschema, das bereits existiert und in der Literatur allgemein vorkommt. Fall (b) bezieht sich auf ein neuartiges Bewegungskompensationsschema, daß hierin offengelegt wird.
- Um die Bewegungskompensation zu vereinfachen, verwenden die meisten bekannten Verfahren das im vorherstehenden Abschnitt genannte Schema, wobei jeder 8 · 8 Unterblock durch einen gewichteten Durchschnittswert der 8 · 8 Unterblöcke ersetzt wird, den überlappt. Betrachten wir zwei Szenarien: Fall (a) ersetzt den 8 · 8 Unterblock mit dem gewichteten Durchschnittswert der überlappenden Blöcke in dem teilweise decodierten Vergleichsrahmen und Fall (b) ersetzt den 8 · 8 Unterblock mit der genauen Pixelzahl aus dem teilweise decodierten Vergleichsrahmen. Im Fall (a) wird ersichtlich, dass der gesamte 8 · 8 Block in dem bewegungskompensierenden Vorhalterahmen einen einzigen Wert aufweist. Im Fall (b) kann der 8 · 8 Block möglicherweise unterschiedliche Werte aufweisen (das heißt die enthaltenen Pixel können unterschiedliche Wette aufweisen. Um dies noch weiter zu veranschaulichen, betrachten wir ein Beispiel eines 8 · 8 Blockes, das die Fälle (a) und (b) durchläuft. Fig. 10 veranschaulicht dies. Bei Fig. 10 wird angenommen, dass der Vorhalteblock aus einem I-Rahmen erhalten wird, das heißt, jeder 8 · 8 Block hat einen einzigen Wert den mit diesem in den Vorhalterahmen verbunden ist. Fall (a) führt zu einem 8 · 8 Block in dem aktuellen Rahmen, der nur einen einzigen u Wert aufweist. Fall (b) führt zu einen 8 · 8 Block in dem aktuellen Rahmen, der möglicherweise vier unterschiedliche Werte aufweist.
- Dies verursacht keine große Differenz in den wenigen, ersten bewegungskompensierten Rahmen (P oder B-Rahmen), die auf einen intra-codierten Vergleichsrahmen (bzw. I Rahmen) nachfolgen. In der Tat erscheint es auf Grund der Unempfindlichkeit der Histogramm-Computerberechnung zum Durchschnitt und zur Nachprüfung/Nachabtastung, als ob die beiden Verfahren gleich effektiv zur Histogramm Computerberechnung seien. Jedoch sollte dem Fall (a) der Vorzug gegeben werden, da hier wenig Computerberechnung und Speicherplatzverbrauch erforderlich wird. Dies ist deshalb der Fall, da in jedem vorgegebenen Rahmen- (I oder P oder B), der wie im Fall (a) bewegungskompensiert durchgeführt wird, nur ein einziger Wert für jeden 8 x 8 Block erhalten wird. Somit wird 8mal- weniger Kapazität in jede Dimension benötigt, das heißt, möglicherweise 64mal (8 · 8) weniger Arbeitsspeicher als zum Speichern der gesamten Rahmen. Jedoch könnte Fall (a) zu einem exzessiven Qualitätsverlust führen, wie nachstehend erläutert wird, und stellt somit keine durchführbare Alternative dar.
- Da sich die Anzahl der aneinandergrenzenden, bewegungskompensierten Rahmen erhöht, das heißt ohne eine Intervention des I' Rahmens, erhöht sich auch die Differenz zwischen Fall (a) und Fall (b). Zurückkommend auf Fig. 3 betrachten wir, was geschieht, wenn ein Vorhalterahmen von einem bereits bewegungskompensierten Rahmen in Versuchung gebracht wird, zum Beispiel von einem P-Rahmen zu einem B-Rahmen, oder von einem. 2 Rahmen zu einem anderen P-Rahmen zu wechseln. Wenn im Fall (a) die gewichtete Durchschnittsfunktion auf die vier Blöcke angewandt wird, überlappt der Vorhalteblock, wobei jeder einen einzigen Wert aufweist, und endet mit einem einzigen Wert für den gesamten 8 · 8 Vorhalteblock. Im Fall (b) kann der aktuelle Vorhalteblock, da jeder Block in dem Vorhalterahmen möglicherweise vier (oder mehr) verschiedene Werte aufweisen kann, eine große Anzahl verschiedener Werte haben. Nun sollte man die Hauptdifferenz bemerken, die zwischen Fall (a) und (b) entsteht, da diese Kette von Vorhalterahmen aus bereits bewegungskompensierten Rahmen groß wird. Indem man eine ausreichend lange Sequenz von bewegungskompensierten Rahmen bereitstellt, erwartet man, dass Fall (a) einen einzigen Wert für den gesamten Rahmen auswirft, vorausgesetzt, dass es ausreichend Bewegung zwischen den Rahmen gibt, wie später hierin beschrieben wird. Dies geschieht jedoch nicht im Fall (b).
- Um dieses Phänomen gründlicher zu erläutern, betrachten wir das Ersetzen eines jeden 8 · 8 Blockes in dem I-Rahmen durch seinen Mittelwert, um eine kleinere Version des Originalbildes zu produzieren. Nun, die Bewegungskompensation, wie im Fall (a) implementiert, benötigt wiederholt eine rekursive Applikation eines 2 · 2 mittelwertbildenden Filters auf diesem kleinen Bild. Mit der elementaren Fourier-Analyse kann leicht dargelegt werden, dass wiederholte Anwendung eines mittelwertbildenden Filters zu einem gleichförmigen Bild an der Abgrenzung führen würde und Randauswirkungen vernachlässigt werden.
- In der Praxis konnte beobachtet werden dass die vorgenannten Betrachtungen der Wahrheit entsprechen. In Bezug auf typische MPEG-2 Sequenzkompressionen beträgt der Abstand zwischen zwei I-Rahmen 15. Es wurde festgestellt, dass dies zu einem sehr beachtlichen Qualitätsverlust in der Leistung führt, wenn die Bewegungskompensation entsprechend Fall (a) durchgeführt wird. Das Bewegungskompensations-Schema von Fall (a) erzeugt eine stark periodische Abweichung in den Histogrammen, was zu einer falschen Key-Frame-Erfassung führt. Folglich wurde Fall (b) für die Implementierung verwendet. Die computertechnische Errechnung der Histogramme unter Verwendung eines Decodierverfahrens mit minimalem Aufwand senkt die Geschwindigkeit der Histogramm-Errechnung um die Hälfte der QCIF Sequenz, obgleich der größere Vorteil einer höheren Bildauflösung festgestellt wurde. Gegenwärtig wird ein 512-dimensionaler Histogrammvekton angewandt, und er wird ausgebildet durch Verketten eines 256 bin Grauskala-Histogramms (Y-Komponente) mit einem 128 bin U-Komponenten-Histogramm und einem 128 bin V-Komponenten- Histogramm. Es sollte beachtet werden, dass die vorgenannte Erläuterung auf die Y, U und V-Komponenten eines Rahmens individuell anwendbar ist - ungeachtet des Chromformats.
- Das Extrahieren spezieller Rahmen aus einem MPEG-2 Bitstrom in dem hierin beschriebenen Ausführungsbeispiel besteht aus einem Verfahren aus zwei Schritten. Heim ersten Schritte den gleichzeitig mit der Histogramm- Kalkulation ausgeführt wird, wird eine "Bitstromindex-Tabelle" erzeugt, welche die notwendigen Informationen zum schnellen Decodieren eines willkürlich herausgepickten Rahmens aus dem MPEG-2 Bitstrom enthält. Sobald die Key-Frame-Hierarchie generiert ist, das heißt die Identitäten in der hierarchischen Zusammenfassung der zu definierenden Key-Frames, müssen nur die Key-Frames auf der Feinstabstufung der Hierarchie decodiert werden; Rahmen auf einer Grobabstufung der Hierarchie sind eine Teilmenge der Rahmen auf der Feinstabstufung. Der zweite Schritt in dem Verfahren des Key-Frame- Extrahierens wird durch den Decoder-Manager ausgeführt, wie nachstehend erläutert wird, der die im ersten Schritt generierte Bitstromindex-Tabelle benutzt.
- Der Vorteil des vorgenannten Zwei-Schritt-Verfahrens bezüglich des direkten Decodierens relevanter Abschnitte des Bitstromes ist eine Ersparnis der Zeit, die erforderlich wäre, um den gesamten Bitstrom des Rahmens von Interesse zu überprüfen. Um Rahmennummer 1350 von einem 1400 Rahmen MPEG-2 Bitstrom ahne eine Bitstromindex-Tabelle zu decodieren, ist es notwendig, den gesamten Bitstrom bis zum Rahmen Nummer 1350 zu analysieren, obwohl er nicht vollständig decodiert sein könnte. Dies beansprucht einen beträchtlichen Zeitaufwand. Falls eine Bitstromindex-Tabelle zur Verfügung steht, kann man direkt zum relevanten Abschnitt des Bitstromes übergehen; folglich ist nur ein Minimalaufwand für das Analysieren und Decodieren erforderlich.
- Die nachfolgenden Informationen werden benötigt, um einen willkürlich herausgepickten Rahmen aus einen MPEG-2 Bitstrom zu decodieren, der hierin als aktueller Rahmen bezeichnet wird:
- 1. Aktuellster Sequenzverteilerkopf der Vergangenheit (sein Byte Offset);
- 2. Byte Offset des aktuellen Rahmens in dem Bitstrom;
- 3. Aktuellstes Quantisierungs-Matrix-Reset (falls vorhanden) der Vergangenheit. (sein Byte Offset)
- 4. Vergleichsrahmen (I-P/I-T/P-P), die mit dem aktuellen Rahmen korrespondieren, falls der aktuelle Rahmen ein B-Rahmen ist (deren Byte Offsets);
- 5. Aktuellster I-Rahmen (welcher der Vergleichsrahmen zum P-Rahmen ist), falls der aktuelle Rahmen ein P-Rahmen ist (sein Byte Offset).
- Es ist anzumerken, das im Fall von B/P-Rahmen mehrere andere Rahmen als der/die Vergleichsrahmen für das Decodieren erforderlich sein können, um den/die Vergleichsrahmen korrekt zu decodieren. Eine allgemeine Datenstruktur ist entwickelt worden, die vorgenannte Informationen beinhaltet, um den Informationsaustausch zwischen zwei Schritten zu erleichtern, das heißt (1) Generieren der Bitstromindex-Tabelle und (2) Verwenden der Bitstromindex-Tabelle des Rahmenextrahierverfahrens durch den Decoder- Manager, wie später hierin beschrieben wird. Das nachfolgende Segment des C-Codes verkörpert die unterschiedlich verwendeten Flags bei der Verfassung/Formulierung der Bitstromindex-Tabelle, obgleich verstanden werden soll, dass dies rein ein Beispiel ist und dass die BIT-Tabelle irgendeine Anzahl von unterschiedlichen Syntaxformen aufweisen kann:
- Spezifizierter Indexarchivstand (enum IndexFileState) {
- K_SEQUENCE_HEADER = 0,
- K_PICTURE_IFRAME,
- K_PICTURE_BFRAME,
- K_PICTURE_PFRAME,
- K_QUANT_MATRIX_EXTENSTON,
- K_END_OF_DATA,
- K_OFFSET
- }:
- Das K_OFFSET Flag wird addiert an irgendein Byte Offset, um es von anderen vorher definierten Flags differenzieren zu können. Somit wurde ein Byte Offset von 15 auf 15+ K_OFFSET (= 21) im Verhältnis zu unserer Darstellung übertragen. K_END_OF_DATA- wird verwendet als Delimiter/Abgrenzer zwischen unterschiedlichen Ereignissen/Vorgängen (zum Beispiel Sequenzverteilerkopf und I-Rahmen, oder I-Rahmen und B-Rahmen etc.) Um zu verstehen, wie die generierte Bitstromindex-Tabelle zustande kommt, wird hier angenommen, dass die folgende Sequenz von Ereignissen zum Codieren benötigt wird:
- 1. Sequenzverteilerkopf startet bei 0 Bytes
- 2. I Bild bei 150 Bytes
- 3. P Bild bei 3000 Bytes
- 4. B Bild bei 4200 Bytes
- 5. B Bild bei 5300 Bytes
- 6. Quant-Matrix-Reset bei 5400 Bytes
- 7. P Bild bei 620% Bytes
- Diese Sequenz wird in folgende Darstellung konvertiert:
- K_END_OF_DATA_ K SEQUENCE HEADER K_OFFSET+0 K_END_OF_DATA
- K_PICTURE_IFRAME K_OFFSET+150 K_END_OF_DATA
- K_FICTURE_PFRAME K OFFSET+3000 K_END_OF_DATA
- K_ELGTUBE_BERAME
- K_OFFSET+4200 K_END_OF_DATA K PICTURE BFRAME K_OFFSET+5300
- K_QUANT_MATRIX_EXTENSION K_OFFSET+5400 K_END_OF_DATA
- K_PICTURE_PFRAME K_OFFSET+6200 K_END_OF_DATA
- Dies wiederum wird eine Byte-Darstellung unter Verwendung der oben angegebenen C-Daten-Struktur ergeben von:
- 5 0 6 5 1 156 5 2 3006 5 3 4206 5 3 5306 4 5406 5 2 6206 5
- Die Abstände in der vorgenannten byteweisen Darstellung sind für den Decoder notwendig, um den Bitstrom analysieren zu können. Nehmen Sie zur Kenntnis, dass das K_END_OF_DATA Flag streng genommen überflüssig ist. Wie immer dieses Flag auch angewendet werden mag, um falsch erzeugte Daten auszuschneiden (auf Grund Fehler in den Bitströmen), es macht den Algorithmus fehlerresistent. Das Flag dient als ein "Synchronsignal", um falsche Daten zu entfernen; zum Beispiel ein Sequenzverteiler, dem kein Byte Offset folgt (auf Grund eines Fehlers im Bitstrom), wird ausrangiert.
- Der Decoder-Manager, der die oben erzeugte "Bitstromindex-Tabelle" benutzt, funktioniert wie folgt:
- 1. Initialisieren der letzten decodierten Rahmen-Nummer (ldf) auf -1
- 2. Für jeden zu decodierenden (ftd) Rahmen:
- Feststellen des Rahmens, bei dem das Decodieren begonnen werden soll (sdf)
- Falls "ftd" ein I-Rahmen ist, dann "sdf=ftd";
- Falls "ftd" ein P-Rahmen ist, dann sdf=jüngster I-Rahmen vor dem "ftd";
- Falls "ftd" ein B-Rahmen ist, dann sdf=jüngster I-Rahmen vor den beiden Ankerrahmen, die zu "ftd" korrespondieren;
- Falls das erhaltene, obige "sdf" weniger als ldf+1 ist, Setzen von sdf=ldf+1. Folglich, wenn sdf < ldf+1 ist, sind einige der erforderlichen Rahmen bereits decodiert.
- Für i = ldf+1 zu sdf
- Feststellen des jüngsten Sequenzverteilers (rsh);
- Feststellen des jüngsten Quant-Matrix-Reset (qmr), falls "qmr" größer als "rsh" ist (falls vorhanden).
- Decodieren rsh, qmr in der Reihenfolge, wie sie in dem Bitstrom auftreten;
- Decodieren sämtlicher I- und P-Rahmen sequentiell, angefangen von sdf bis ftd-1.
- Decodierens "ftd".
- Um eine Strecke von Rahmen zu decodieren, den ersten Rahmen (ftd) decodieren nach dem vorher erwähnten Decoder-Manager Verfahren. Die restlichen Rahmen werden sequentiell decodiert bis zum Ende der Strecke.
- Feldbilder müssen als Spezialfall angesehen werden, im Bedarfsfall. Man kann möglicherweise die Histogramme der gleichen/ungleichen Felder verwenden, was immer auch zuerst decodiert wird. Das andere Feld kann im Falle von H-Bildern nicht decodiert werden, oder es kann im Falle von P- und I- Bildern mit einer minimalen Decodierstrategie decodiert werden. Die Histogramme müssen mit einem Faktor von 2 skaliert/angesetzt werden, falls nur ein Feld decodiert wird. Es kann auch möglich sein, dass das extra decodierte Feld nicht Im der Computerberechnung der Histogramme bezüglich P/I-Rahmen verwendet werden kann. In diesem Fall müssen die Histogramme nicht skaliert werden, da sämtliche Rahmen nur ein Feld haben, das im Histogramm beteiligt ist. Um Felder von Rahmen differenzieren und angemessene Schritte unternehmen zu können, stellen die MPEG-2 Bitströme zwei Informationsteile vom Bildverteiler und von der Bildcodier-Erweiterung zur Verfügung:
- 1. Temporaler Bezugsvergleich Ein dem Bildverteiler) stellt die Rahmennummer zur Verfügung, die aktuell decodiert wird. Beachten Sie, dass der temporale Bezugsvergleich ein Reset/eine Neueinstellung zu Beginn jeder Bildgruppen-Verteilung hat.
- 2. Die Bildstruktur (in der Bildcodiererweiterung) stellt die oben/unten Feldinformationen bereit.
- Ein wichtiges Thema in implementierender Hinsicht ist die kompakte Darstellung der BIT, um Speicherplatz auf einer Festplatte, DVD oder Diskette zu sparen Auf den ersten Blick könnte das vielleicht nicht als wichtig erachtet werden, da die Bitstromindex-Tabelle nur ungefähr 8-10 Bytes an Speicherplatz für jeden Rahmen in Anspruch nimmt im Vergleich zu dem großen Speicherplatz, der durch die MPEG Videosequenz belegt wird. Der Overhead an Belastung kann durch die nachfolgenden Schritte reduziert werden:
- 1. Verwenden von inkrementellen Byte Offsets, vorzugsweise als absolute Byte Offsets. Dies führt zu einer Menge an Ersparnis in Bezug auf große Sequenzen.
- 2. Verwenden eines einfachen Textkomprimierungs-Algorithmus, wie zum Beispiel "qzip" auf Unix-Plattformen oder "pkzip" auf PCs.
- 3. Entfernen des END_OF_DATA Flag.
- 4. Ausschneiden der Bitstromindex-Tabelle, um nur eine minimale Menge an notwendiger Information zu speichern, und um die Key-Frames mit minimalem Decodiar- und Analysieraufwand des Bitstromes zu decodieren.
- Beachten Sie, dass der letzte Punkt nur den Zugang zu den Key-Frame- Positionen ermöglichen wird und dem Anwender später nicht die Positionen der Key-Frames ändern lässt. Es darf auch angemerkt werden, dass (1) und (4) nicht vollständig kompatibel sind. Wenn inkrementelle Byte Offsets angewendet werden sollen, sollte der Ausschneidealgorithmus von (4) die Byte Offsets ändern, damit die veränderte Reihenfolge der Rahmen reflektiert wird. Bei der aktuellen Implementierung wird eine Ausschnitts-Bitstrom- Index-Tabelle, wie nachstehend beschrieben, generiert. Der Decoder-Manager benutzt diese ausgeschnittene Version der Tabelle anschließend. Die Entscheidung, eine ausgeschnittene Bitstromtabelle zu benutzen, hängt von der Funktionsaufgabe des verfügbaren Speicherplatzes und der zu erzielenden Geschwindigkeit am Wenn genügend Speicherplatz verfügbar ist, gibt es keine Notwendigkeit, die Bitstromtabelle auszuschneiden, da es Platz für die ganze Tabelle gibt und der Abruf und die Bedienung viel schneller sind.
- Es wird die gleiche Struktur wie für die Bitstrom-Index-Tabelle (BIT) angewandt, jedoch mit einer unterschiedlichen Organisationssyntax, um die Ausschnitts-Bitstrom-Index-Tabelle (PBIT) zu entwickeln. Jeder Key-Frame wird als eine Einheit dargestellt (zwischen zwei K_END_OF_DATA Flags) im Gegensatz zu jedem Videorahmen, der als eine Einheit in der BIT Tabelle dargestellt wird. Die folgenden Informationen sind notwendig, um einen spezifischen (aktuellen) Key-Frame ohne Analysieren und Decodieren des gesamten Bitstromes zu decodieren:
- 1. Der Typ des aktuellen Key-Frame (I/B/P).
- 2. Der Start-Decodier-Rahmen (sdf), der mit dem aktuellen Key-Frame (Byte Offset) korrespondiert. Beachten Sie, dass der tatsächliche "sdf" im Verhältnis zum Byte Offset (nicht ldf+1, falls sdf< ldf+1) gespeichert werden muss, da der Decoder vielleicht sonst nicht sequentiell arbeiten könnte, um sämtliche Key-Frames zu decodieren, da angenommen wurde, dass dieses in der BIT Version des Decoder- Manager enthalten ist. Für den Fall, dass der Decoder sequentiell arbeitet und sdf< ldf+1 gilt, dann muss das Decodieren von ldf+1 beginnen. Diese Information ist bereits verfügbar, da ldf+1 der Videorahmen nach den vorhergehenden Key-Frame ist, dessen Offset verfügbar ist.
- 3. Byte Offset des aktuellen Key-Frame.
- 4. Das jüngste Sequenzverteiler Offset. Es besteht keine Notwendigkeit für das K_SEQUENCE_HEADER Flag, da jeden gültige MPEG-2 Bitstrom einen Sequenzverteilerkopf hat.
- 5. Falls es jemals irgendein Quantisierungs-Matrix-Reset gegeben hat, muss das Quantisierungs-Matrix-Offset mit dem K_QUANT_MATRIX_EXTENSION Flag abgespeichert werden, da vielleicht kein Quantisierunga-Matrix-Reset in einem gültigen MPEG-2 Bitstrom vorhanden ist. Beachten Sie, dass Quantisierungs-Matrix-Resets nicht gespeichert werden müssen, falls das Reset/die Neueinstellung vor dem Sequenzverteilerkopf auftritt, da das Auftreten des Sequenzverteilers automatisch die Quantisierungs-Matrix auf "Reset" einstellt.
- Dar Decoder-Manager benutzt die- sdf-Informationen, den Typ des aktuellen Key-Frame und dessen Byte Offset, wie folgt: Falls der gewünschte, aktuelle Key-Frame Typ I oder P ist, wird der Deccder-Manager bei "sdf" das Decodieren starten, den Bitstrom analysieren und nur nach I- und P-Rahmen suchen. Diese I- und P-Rahmen werden decodiert bis der aktuell gewünschte Key-Frame erreicht wird, der ebenso decodiert wird. Bei dieser Technik hat der Decoder-Manager nicht an überprüfen, um festzustellen, ob irgendein Rahmen ein B-Rahmen ist, und folglich sucht er nur nach I- und P- Rahmenköpfe. Wenn der gewünschte, aktuelle Key-Frame ein Typ B ist, wird der Decoder-Manager in Betracht ziehen, jeden Rahmen von "sdf" aus zu starten, all I- oder P-Rahmen zu decodieren und bei jedem B-Rahmen zu stoppen und zu überprüfen, ob dieser Rahmen der gewünschte Key-Frame ist.
- Falls der Key-Frame ein Type B ist, möchte man ihn vielleicht mit seinem jüngsten decodierten Bezugsvergleichsrahmen (I oder P) annähern, um die Notwendigkeit des Analysierens der B-Rahmen auszuschalten.
- Angenommen, dass ein B-Rahmen der zu decodierende Key-Frame ist, der bei 53500 Bytes Offset startete muss eine Quantisierungs-Matrix aus 43000 Bytes und ein Sequenzverteilerkopf bei 39000 Bytes gelesen werden. Der Rahmen für den Decodierstart beginnt bei 45000 Bytes. Folglich werden diese Daten kodiert:
- K_END_OF_DATA K_PICTURE BFRAME K_OFFSET+4S000
- K_OFFSET+53200 K_OFFSET+39000
- K_QUANT_MATRIX_EXTENSION K_OFFSET+43000 K_END_OF_DATA
- Es sollte klar sein, dass die PBIT zu Lasten der erhöhten Computerberechnungszeit durch das Steigern des Analyseaufwandes noch weiter geschmälert werden kann, den der Decoder-Manager durchführt Demzufolge gibt es einen Kompromiss zwischen der Komplexität des Decoder-Managers und der Größe der PBIT Tabelle. Eine entsprechende Balance kann getroffen werden, welche von den Anwendungsanforderungen abhängt. Zum Beispiel kann die PBIT die "sdf" (Startrahmen) und die Byte Offsets aller I- und P-Rahmen zwischen dem sdf und dem aktuellen Key-Frame und die Byte Offset des aktuellen Rahmens speichern, und den Bedarf in Bezug auf den Decoder-Manager ausschalten, um den Bitstrom zu analysieren. Die Konsequenz jedoch ist eine Erhöhung der Größe bezüglich der PBIT Taballe. Das andere Extrem, nur den sdf bzw. Startrahmen und das Byte Offset des Key-Frame abzuspeichern, führt zur kompaktesten Darstellung der FB-IT, aber es erfordert, dass der Decoder-Manager den Bitstrom zwischen dem Startrahmen und den Key-Frame-Positionen analysiert und die I- und. P-Rahmen decodiert.
- Um eine automatische Kameraschwenk-/Zoomerfassung/Extrahierfunktionalität zu integrieren, muss der gesamte Rahmen-Bitstrom decodiert werden.
- Infolgedessen wird ein System zur Überprüfung der Key-Frames einer digitalen Videosequenz offengelegt. Der Eingangsvideostrom kann eine konventionelle, digitale Videosequenz oder ein auf DCT basierender Kompressionsstrom sein. Obzwar ein bevorzugtes Ausführungsbeispiel gemäß der Erfindung und verschiedene Variationen hierzu offengelegt werden, sollte geschätzt werden, dass weitere Variationen und Modifikationen hierzu gemacht werden können, ohne von der Bandbreite der Erfindung abzuweichen, wie sie in den anhängenden Patentansprüchen definiert ist.
Claims (1)
1. Verfahren zum hierarchischen Zusammenfassen und schnellen Durchsehen
einer digitalen Videosequenz, welche folgende Schritte aufweist:
Eingeben eines digitalen Videosignals für eine digitale Videosequenz;
Berechnen der Histogramme (Flächenschaubilder) für die digitale
Videosequenz;
Erfassen dar Schussgrenzen innerhalb der digitalem Videosequenz;
Bestimmen der Anzahl der Key-Frames, die jedem Schuss zugeteilt
werden;
Lokalisieren den tatsächlichen Position eines jeden Key-Frame, worin
ein Rahmen ein Aktionsmaß umfasst, das sich am meisten vom Aktionsmaß des
vorhergehenden Key-Frame unterscheidet und als Key-Frame in der
Videosequenz bezeichnet wird;
Ausschneiden ausgewählter Key-Frames aus einem Schuss, worin die
ausgewählten Key-Frames diejenigen darstellen, die ein Aktionsmaß festlegen,
welches nicht vom Aktionsmaß für den vorhergehenden Key-Frame und dem
nachfolgenden Key-Frame durch eine Vorgabe abweicht; und
Generieren einer hierarchischen Key-Frame-Zusammenfassung.
2. Verfahren nach Anspruch 1, welches nach dem erwähnten Generieren das
schnelle Durchsehen der Key-Frames unter Verwendung der hierarchischen Key-
Frame-Zusammenfassung aufweist.
3. Verfahren nach Anspruch 1, welches nach den erwähnten Eingeben das
Erfassen und Entfernen der Überblendvorgänge aufweist.
4. Verfahren nach Anspruch 3, welches nach dem erwähnten Erfassen und
Entfernen der Überblendvorgänge das Erfassen vollständiger
Bewegungsvorgänge durch Erfassen der Rahmen innerhalb der digitalen Videosequenz aufweist,
die Vorgänge beinhalten, die aus einer Gruppe von Vorgängen (Ereignissen)
entnommen sind und aus Kameraschwenkvorgängen und Zooomvorgängen bestehen.
5. Verfahren nach Anspruch 4, welches das Erfassen von
Kameraschwenkvorgängen und das Aufbauen eines Bildmosaiks aufweist.
6. Verfahren nach Anspruch 4, welches das Erfassen, von Zoomvorgängen und
das Berechnen/Bewerten der Zoomstufe in dem Vorgang aufweist sowie das
Kompilieren einer Zoom-Zusammenfassung.
7. Verfahren nach Anspruch 4, welches das Ausgliedern globaler
Bewegungsvorgänge aus dem hierarchischen Zusammenfassungsprozess aufweist.
9. Verfahren nach Anspruch 1, wobei das erwähnte Generieren der
hierarchischen Key-Frame-Zusammenfassung das Unterteilen der hierarchischen Key-
Frame-Zusammenfassung in multiple Abstufungszusammenfassungen aufweist,
einschließlich einer kompaktesten komprimierten Abstufungszusammenfassung,
einer Grobabstufungszusammenfassung und einer
Feinstabstufungszusammenfassung.
9. Verfahren nach Anspruch 8, welches das schnelle Durchsehen der Key-
Frames durch einen Anwender nach dem Auswählen einer speziellen
Abstufungszusammenfassung aufweist.
10. Verfahren nach Anspruch 8, wobei die Key-Frames in der hierarchischen
Key-Frame-Zusammenfassung in Layout-Strukturen zur Abspeicherung, zum Abruf
oder zur Anzeige räumlich eingeteilt/nachüberprüft werden können.
11. Verfahren nach Anspruch 8, wobei das erwähnte Generieren einer
hierarchischen Key-Frame-Zusammenfassung das Gruppieren/Bündeln der Key-Frames
und das Generieren der Key-Frames bei einer groberen
Abstufungszusammenfassung aufweist.
12. Verfahren nach. Anspruch 11, wobei das erwähnte Gruppieren das
Erzeugen eines Komprimierungsverhältnisses nach der Anzahl der Key-Frames in der
Grobabstufung aufweist.
13. Verfahren nach Ansprucfr 11, wobei das erwähnte Gruppieren ein
paarweißes Gruppieren/Bündeln aufweist.
14. Verfahren nach Anspruch 11, wobei das erwähnte Generieren der Key-
Frames einer Grobabstufungszusammenfassung das Generieren von Key-Frames
die Verwendung vors größtmöglichen sequentiellem/konsekutiven
Unterscheidungskriterien aufweist.
15. Verfahren nach Anspruch 8, welches das Identifizieren der Key-Frames
durch Setzen von ki = 1 aufweist, wobei t&sub0; = 0 gilt und der zweite Rahmen
als Kandidat tur den ersten Key-Frame ausgewählt wird, Definieren für i = 1
bis K-1 und ti = 2 ki = ti-1, ki-1 als ersten Videosequenzrahmen für welchen
2C(ti) - C(ki) ≤ C(ki+1) gilt; und für i = K, Errechnen von t'K = 2kK - t K-1,
und solange tk > 2kK - t K-1 = t' K. Beibehalten der Ergebnisse der
vorhergehenden Iteration, Addieren eines Offsets zu sämtlichen kis, so dass tK =
t'k' gilt, und Stoppen, ansonsten Inkrementieren von ki um 1 und Übergehen
zur erwähnten Bestimmung.
16. Verfahren nach Anspruch 15, wobei das erwähnte Errechnen das
Lokalisieren des letzten Key-Frames des benachbarten Schusses zum Mittepunkt
zwischen tk-1 und tk
aufweist.
17. Verfahren nach Anspruch 15, wobei das erwähnte Identifizieren das
Auswählen eines jeden (n/K)th Rahmens als Key-Frame aufweist.
18. Verfahren nach Anspruch 15, wobei das erwähnte Identifizieren das
Erfassen uninteressanter Schüsse und das Eliminieren von deren Key-Frames aus
der hierarchischen Key-Frame-Zusammenfassung aufweist.
19. Verfahren nach Anspruch 1, wobei die digitale Videosequenz eine
digitale Videosequenzkompression darstellt und der Eingabeschritt ferner das
Generieren einer Bitstromindex-Tabelle aufweist, und wobei der
Errechnungsschritt nur teilweise die digitale Videosequenzkompression decodiert.
20. Verfahren nach Anspruch 19, wobei das erwähnte Zuteilen der Key-
Frames innerhalb eines jeden Schusses das vollständige Decodieren des Key-
Frames aufweist.
21. Verfahren nach Anspruch 20, wobei das erwähnte vollständige
Decodieren des Key-Frames das Decodieren des Key-Frames ohne Analysieren des
Videobitstromes und ohne vollständiges Decodieren des Videobitstroms unter
Verwendung einer Bitstromindex-Tabelle aufweist.
22. Verfahren nach Anspruch 19, wobei das erwähnte teilweise Decodieren
eine DCT-basierende (DCTL = direct-coupled-transistor logic)
Videosequenzkompression aufweist unter Verwendung des DC-Wertes- der DCT-Koeffizienten,
um ein Histogramm (Flächenschaubild) computertechnisch zu berechnen.
23. Verfahren nach Anspruch 19, wobei das erwähnte teilweise Decodieren
nur Key-Frames und deren diesbezügliche Rahmen aufweist.
24. Verfahren nach Anspruch 19, wobei das erwähnte Decodieren das
Decodieren durch einen Decoder-Manager aufweist.
25. Verfahren nach Anspruch 24, wobei das erwähnte Decodieren durch einen
Decoder-Manager die Verwendung einer Bitstromindex-Tabelle zum Decodieren
der Key-Frames mit einem minimalem Decodier- und Analysieraufwand des
gesamten Videosequenzbitstromes aufweist.
26. Verfahren nach Anspruch 25, wobei das erwähnte Decodieren durch einen
Decoder-Manager das Generieren einer zugeschnittenen Bitstromindex-Tabelle
und das Speichern nur dar benötigten Informationen zum Decodieren der Key-
Frames ohne Analysieren und Decodieren des gesamten Bitstromes aufweist.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/994,558 US5956026A (en) | 1997-12-19 | 1997-12-19 | Method for hierarchical summarization and browsing of digital video |
PCT/JP1998/005715 WO1999032993A1 (en) | 1997-12-19 | 1998-12-17 | Method for hierarchical summarization and browsing of digital video |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69809289D1 DE69809289D1 (de) | 2002-12-12 |
DE69809289T2 true DE69809289T2 (de) | 2003-08-28 |
Family
ID=25540798
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69809289T Expired - Lifetime DE69809289T2 (de) | 1997-12-19 | 1998-12-17 | Verfahren zum hierarchischen zusammenfassen und schnellen durchsehen einer digitalen videosequenz |
Country Status (5)
Country | Link |
---|---|
US (2) | US5956026A (de) |
EP (1) | EP1040429B1 (de) |
JP (1) | JP3719933B2 (de) |
DE (1) | DE69809289T2 (de) |
WO (1) | WO1999032993A1 (de) |
Families Citing this family (384)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5355450A (en) | 1992-04-10 | 1994-10-11 | Avid Technology, Inc. | Media composer with adjustable source material compression |
US9286294B2 (en) | 1992-12-09 | 2016-03-15 | Comcast Ip Holdings I, Llc | Video and digital multimedia aggregator content suggestion engine |
US7168084B1 (en) | 1992-12-09 | 2007-01-23 | Sedna Patent Services, Llc | Method and apparatus for targeting virtual objects |
US5760100B1 (en) | 1994-09-06 | 2000-11-14 | Ciba Vision Corp | Extended wear ophthalmic lens |
US7468398B2 (en) | 1994-09-06 | 2008-12-23 | Ciba Vision Corporation | Extended wear ophthalmic lens |
US6957350B1 (en) * | 1996-01-30 | 2005-10-18 | Dolby Laboratories Licensing Corporation | Encrypted and watermarked temporal and resolution layering in advanced television |
JP3592004B2 (ja) * | 1996-10-31 | 2004-11-24 | キヤノン株式会社 | 情報共有管理システム及び情報共有システム管理装置と方法 |
EP1042736B1 (de) * | 1996-12-30 | 2003-09-24 | Sharp Kabushiki Kaisha | Sprite-gestütztes videocodiersystem |
AU5573698A (en) * | 1997-01-30 | 1998-08-25 | Yissum Research Development Company Of The Hebrew University Of Jerusalem | Generalized panoramic mosaic |
US6466254B1 (en) * | 1997-05-08 | 2002-10-15 | Be Here Corporation | Method and apparatus for electronically distributing motion panoramic images |
US6735253B1 (en) * | 1997-05-16 | 2004-05-11 | The Trustees Of Columbia University In The City Of New York | Methods and architecture for indexing and editing compressed video over the world wide web |
US6195458B1 (en) * | 1997-07-29 | 2001-02-27 | Eastman Kodak Company | Method for content-based temporal segmentation of video |
JPH1175150A (ja) * | 1997-08-29 | 1999-03-16 | Hitachi Denshi Ltd | 動画像編集方法及び動画像編集装置並びに動画像編集動作を実行するためのプログラムを記録した記録媒体 |
JP3613543B2 (ja) * | 1997-11-11 | 2005-01-26 | 株式会社日立国際電気 | 動画像編集装置 |
EP0936813A1 (de) * | 1998-02-16 | 1999-08-18 | CANAL+ Société Anonyme | Digitale Bildverarbeitung in einem Kodierer |
US6192393B1 (en) * | 1998-04-07 | 2001-02-20 | Mgi Software Corporation | Method and system for panorama viewing |
US6393054B1 (en) * | 1998-04-20 | 2002-05-21 | Hewlett-Packard Company | System and method for automatically detecting shot boundary and key frame from a compressed video data |
US6789228B1 (en) * | 1998-05-07 | 2004-09-07 | Medical Consumer Media | Method and system for the storage and retrieval of web-based education materials |
US20020036694A1 (en) * | 1998-05-07 | 2002-03-28 | Merril Jonathan R. | Method and system for the storage and retrieval of web-based educational materials |
US7689898B2 (en) * | 1998-05-07 | 2010-03-30 | Astute Technology, Llc | Enhanced capture, management and distribution of live presentations |
US6742183B1 (en) | 1998-05-15 | 2004-05-25 | United Video Properties, Inc. | Systems and methods for advertising television networks, channels, and programs |
JP3383580B2 (ja) * | 1998-05-15 | 2003-03-04 | 株式会社東芝 | 情報記憶媒体と情報記録再生装置と方法 |
US6518978B1 (en) * | 1998-05-29 | 2003-02-11 | Hitachi, Ltd. | Image-display edit processing method, image editing apparatus and storage medium |
US6473095B1 (en) * | 1998-07-16 | 2002-10-29 | Koninklijke Philips Electronics N.V. | Histogram method for characterizing video content |
US6574370B1 (en) * | 1998-07-22 | 2003-06-03 | Mitsubishi Denki Kabushiki Kaisha | Image encoding system |
US6754905B2 (en) | 1998-07-23 | 2004-06-22 | Diva Systems Corporation | Data structure and methods for providing an interactive program guide |
BR9912385A (pt) | 1998-07-23 | 2002-01-15 | Diva Systems Corp | Interface de usuário gerada em um extremo de cabeça, guia de programa interativo, e, processos de geração e distribuição de uma interface de usuário, e de interação com um guia de programa interativo |
US9924234B2 (en) | 1998-07-23 | 2018-03-20 | Comcast Ip Holdings I, Llc | Data structure and methods for providing an interactive program |
JP4051776B2 (ja) * | 1998-08-04 | 2008-02-27 | 株式会社日立製作所 | 映像情報記録装置、及び映像情報再生装置 |
US6924832B1 (en) * | 1998-08-07 | 2005-08-02 | Be Here Corporation | Method, apparatus & computer program product for tracking objects in a warped video image |
US7143434B1 (en) | 1998-11-06 | 2006-11-28 | Seungyup Paek | Video description system and method |
WO2000033570A1 (fr) * | 1998-11-30 | 2000-06-08 | Sony Corporation | Procede et dispositif de fourniture d'informations |
US6732370B1 (en) | 1998-11-30 | 2004-05-04 | Diva Systems Corporation | Service provider side interactive program guide encoder |
US6492998B1 (en) * | 1998-12-05 | 2002-12-10 | Lg Electronics Inc. | Contents-based video story browsing system |
KR100313713B1 (ko) * | 1998-12-18 | 2002-02-28 | 이계철 | 화소샘플링을이용한시각율동생성방법 |
US6748421B1 (en) * | 1998-12-23 | 2004-06-08 | Canon Kabushiki Kaisha | Method and system for conveying video messages |
JP2001160066A (ja) * | 1998-12-25 | 2001-06-12 | Matsushita Electric Ind Co Ltd | データ処理装置、データ処理方法および記録媒体、並びに該データ処理方法をコンピュータに実行させるためのプログラム |
WO2000040011A1 (fr) * | 1998-12-28 | 2000-07-06 | Sony Corporation | Procede et dispositif permettant d'editer des informations video |
KR20040018395A (ko) * | 1999-01-29 | 2004-03-03 | 미쓰비시덴키 가부시키가이샤 | 영상 특징량 부호화 방법 및 영상 특징량 복호 방법 |
US6782049B1 (en) * | 1999-01-29 | 2004-08-24 | Hewlett-Packard Development Company, L.P. | System for selecting a keyframe to represent a video |
KR100296967B1 (ko) * | 1999-01-30 | 2001-09-26 | 구자홍 | 멀티미디어 스트림의 다단계 요약 세그먼트 정보 스킴 구성 방법 및 구성된 다단계 요약 세그먼트 정보 스킴으로 부터 요약 스트림 발생 방법과 이러한 방법에 의해 제공되는 다단계 요약 스트림의 브라우징/녹화/편집 장치 |
US6748158B1 (en) * | 1999-02-01 | 2004-06-08 | Grass Valley (U.S.) Inc. | Method for classifying and searching video databases based on 3-D camera motion |
US6597738B1 (en) * | 1999-02-01 | 2003-07-22 | Hyundai Curitel, Inc. | Motion descriptor generating apparatus by using accumulated motion histogram and a method therefor |
US7006569B1 (en) * | 1999-02-05 | 2006-02-28 | Samsung Electronics Co., Ltd. | Digital video processing method and apparatus thereof |
US6323878B1 (en) * | 1999-03-03 | 2001-11-27 | Sony Corporation | System and method for providing zooming video capture |
US6513065B1 (en) * | 1999-03-04 | 2003-01-28 | Bmc Software, Inc. | Enterprise management system and method which includes summarization having a plurality of levels of varying granularity |
KR100369370B1 (ko) * | 1999-10-11 | 2003-01-24 | 한국전자통신연구원 | 블록기반 영상 히스토그램 생성 방법 |
US6647535B1 (en) * | 1999-03-18 | 2003-11-11 | Xerox Corporation | Methods and systems for real-time storyboarding with a web page and graphical user interface for automatic video parsing and browsing |
US6331859B1 (en) * | 1999-04-06 | 2001-12-18 | Sharp Laboratories Of America, Inc. | Video skimming system utilizing the vector rank filter |
US6711741B2 (en) * | 1999-04-07 | 2004-03-23 | Intel Corporation | Random access video playback system on a network |
US6904610B1 (en) | 1999-04-15 | 2005-06-07 | Sedna Patent Services, Llc | Server-centric customized interactive program guide in an interactive television environment |
US6754271B1 (en) | 1999-04-15 | 2004-06-22 | Diva Systems Corporation | Temporal slice persistence method and apparatus for delivery of interactive program guide |
US7096487B1 (en) | 1999-10-27 | 2006-08-22 | Sedna Patent Services, Llc | Apparatus and method for combining realtime and non-realtime encoded content |
US9171545B2 (en) * | 1999-04-19 | 2015-10-27 | At&T Intellectual Property Ii, L.P. | Browsing and retrieval of full broadcast-quality video |
US7877774B1 (en) * | 1999-04-19 | 2011-01-25 | At&T Intellectual Property Ii, L.P. | Browsing and retrieval of full broadcast-quality video |
US6807306B1 (en) * | 1999-05-28 | 2004-10-19 | Xerox Corporation | Time-constrained keyframe selection method |
KR100624865B1 (ko) * | 1999-06-02 | 2006-09-18 | 엘지전자 주식회사 | 사용자 프로파일을 이용한 비디오 분할 시청 시스템 |
SE9902328A0 (sv) * | 1999-06-18 | 2000-12-19 | Ericsson Telefon Ab L M | Förfarande och system för att alstra sammanfattad video |
WO2001003429A2 (en) * | 1999-07-06 | 2001-01-11 | Koninklijke Philips Electronics N.V. | Automatic extraction method of the structure of a video sequence |
KR100741300B1 (ko) * | 1999-07-06 | 2007-07-23 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 비디오 시퀀스 구조의 자동 추출 방법 |
US7293280B1 (en) * | 1999-07-08 | 2007-11-06 | Microsoft Corporation | Skimming continuous multimedia content |
US7313808B1 (en) | 1999-07-08 | 2007-12-25 | Microsoft Corporation | Browsing continuous multimedia content |
US7092620B1 (en) | 1999-08-05 | 2006-08-15 | Hewlett-Packard Development Company, L.P. | Converting analog video data into digital form |
KR100370247B1 (ko) | 1999-08-26 | 2003-01-29 | 엘지전자 주식회사 | 등장인물 관계 기반 동영상 검색 방법 |
US7383504B1 (en) * | 1999-08-30 | 2008-06-03 | Mitsubishi Electric Research Laboratories | Method for representing and comparing multimedia content according to rank |
US7996878B1 (en) * | 1999-08-31 | 2011-08-09 | At&T Intellectual Property Ii, L.P. | System and method for generating coded video sequences from still media |
JP2001134614A (ja) * | 1999-09-16 | 2001-05-18 | Sharp Corp | 記述フレームワークを提供するために操作可能なシステム及びavコンテンツの概要をユーザに提供する方法 |
US7194687B2 (en) | 1999-09-16 | 2007-03-20 | Sharp Laboratories Of America, Inc. | Audiovisual information management system with user identification |
US6677961B1 (en) * | 1999-09-24 | 2004-01-13 | Lg Electronics, Inc. | Method and apparatus for identifying a predetermined number of representative data pieces from within a selected data segment |
KR100371813B1 (ko) * | 1999-10-11 | 2003-02-11 | 한국전자통신연구원 | 효율적인 비디오 개관 및 브라우징을 위한 요약 비디오 기술구조 및 이의 기록매체, 이를 이용한 요약 비디오 기술 데이터 생성 방법 및 생성시스템, 요약 비디오 기술 데이터의 브라우징 장치 및 브라우징 방법. |
US7181757B1 (en) | 1999-10-11 | 2007-02-20 | Electronics And Telecommunications Research Institute | Video summary description scheme and method and system of video summary description data generation for efficient overview and browsing |
AU1576801A (en) | 1999-10-27 | 2001-05-08 | Diva Systems Corporation | Picture-in-picture and multiple video streams using slice-based encoding |
AU1449801A (en) * | 1999-11-01 | 2001-05-14 | Diva Systems Corporation | Service provider side interactive program guide encoder |
KR100346263B1 (ko) * | 1999-11-05 | 2002-07-26 | 엘지전자주식회사 | 멀티미디어 스트림의 브라우징, 편집, 인덱싱을 위한 다단계 위치/구간 지정 방법 |
EP1102271B8 (de) * | 1999-11-05 | 2016-12-07 | Sony Europe Limited | Verfahren und Vorrichtung zur Erzeugung von Audio- und/oder Videosignalen |
JP3414683B2 (ja) * | 1999-11-16 | 2003-06-09 | 株式会社国際電気通信基礎技術研究所 | 対象物の表面動き測定方法および装置、ならびに当該方法を実現するようコンピュータを動作させるためのプログラムを記憶したコンピュータ読取可能な記録媒体 |
US6976032B1 (en) * | 1999-11-17 | 2005-12-13 | Ricoh Company, Ltd. | Networked peripheral for visitor greeting, identification, biographical lookup and tracking |
US7299405B1 (en) | 2000-03-08 | 2007-11-20 | Ricoh Company, Ltd. | Method and system for information management to facilitate the exchange of ideas during a collaborative effort |
US7653925B2 (en) * | 1999-11-17 | 2010-01-26 | Ricoh Company, Ltd. | Techniques for receiving information during multimedia presentations and communicating the information |
US6678408B1 (en) * | 1999-11-17 | 2004-01-13 | Infocus Corporation | Noise reduction through comparative histograms |
KR100364753B1 (ko) * | 1999-11-19 | 2002-12-16 | 엘지전자 주식회사 | 칼라 히스토그램의 빈값 양자화 방법 |
US7016540B1 (en) * | 1999-11-24 | 2006-03-21 | Nec Corporation | Method and system for segmentation, classification, and summarization of video images |
US6845487B1 (en) * | 1999-11-30 | 2005-01-18 | Sony Corporation | Method and an apparatus for implementing a key frame |
US6549643B1 (en) * | 1999-11-30 | 2003-04-15 | Siemens Corporate Research, Inc. | System and method for selecting key-frames of video data |
US7286724B2 (en) * | 1999-12-06 | 2007-10-23 | Hyundai Curitel, Inc. | Method and apparatus for searching, browsing and summarizing moving image data using fidelity for tree-structure moving image hierarchy |
KR100371513B1 (ko) * | 1999-12-06 | 2003-02-07 | 주식회사 팬택앤큐리텔 | 계층적 동영상 트리구조에서의 에지에 저장하는 키프레임의 충실도를 이용한 효율적인 동영상 요약 및 브라우징 장치 및 방법 |
BR0015959A (pt) * | 1999-12-14 | 2002-08-06 | Scientific Atlanta | Sistema e método para o processamento de vìdeo adaptativo com alocação de recursos coordenados |
US6636220B1 (en) * | 2000-01-05 | 2003-10-21 | Microsoft Corporation | Video-based rendering |
AUPQ535100A0 (en) | 2000-01-31 | 2000-02-17 | Canon Kabushiki Kaisha | Video browser data magnifier |
AUPQ535200A0 (en) * | 2000-01-31 | 2000-02-17 | Canon Kabushiki Kaisha | Extracting key frames from a video sequence |
US6868440B1 (en) * | 2000-02-04 | 2005-03-15 | Microsoft Corporation | Multi-level skimming of multimedia content using playlists |
KR20010087552A (ko) * | 2000-03-07 | 2001-09-21 | 구자홍 | 엠펙(mpeg)압축 비디오 환경에서 매크로 블록의시공간상의 분포를 이용한 디졸브/페이드 검출 방법 |
KR100512138B1 (ko) * | 2000-03-08 | 2005-09-02 | 엘지전자 주식회사 | 합성 키프레임을 이용한 비디오 브라우징 시스템 |
EP1269752B1 (de) * | 2000-03-31 | 2005-05-11 | United Video Properties, Inc. | Interaktives mediasystem und methode zur presentation von berichten während pausen |
EP1208566A2 (de) * | 2000-04-05 | 2002-05-29 | Sony Uk Ltd | Informationsidentifizierung, -aufzeichnung und -wiedergabe |
FR2807902B1 (fr) | 2000-04-17 | 2002-10-25 | Thomson Multimedia Sa | Procede de detection de changement de plan dans une succession d'images video |
US7019773B1 (en) * | 2000-05-25 | 2006-03-28 | Prc Inc. | Video mosaic |
US8028314B1 (en) | 2000-05-26 | 2011-09-27 | Sharp Laboratories Of America, Inc. | Audiovisual information management system |
US7647340B2 (en) | 2000-06-28 | 2010-01-12 | Sharp Laboratories Of America, Inc. | Metadata in JPEG 2000 file format |
US20020051077A1 (en) * | 2000-07-19 | 2002-05-02 | Shih-Ping Liou | Videoabstracts: a system for generating video summaries |
US6964021B2 (en) * | 2000-08-19 | 2005-11-08 | Lg Electronics Inc. | Method and apparatus for skimming video data |
US7200633B2 (en) * | 2000-08-25 | 2007-04-03 | Ntt Docomo, Inc. | Information delivery system and information delivery method |
US6989823B1 (en) | 2000-08-31 | 2006-01-24 | Infocus Corporation | Method and apparatus for noise reduction using captured images |
US6711587B1 (en) | 2000-09-05 | 2004-03-23 | Hewlett-Packard Development Company, L.P. | Keyframe selection to represent a video |
US8020183B2 (en) | 2000-09-14 | 2011-09-13 | Sharp Laboratories Of America, Inc. | Audiovisual management system |
KR100429371B1 (ko) * | 2000-10-24 | 2004-04-28 | 서영완 | 비디오 편집, 검색 시스템 및 그 방법 |
US6931595B2 (en) * | 2000-11-02 | 2005-08-16 | Sharp Laboratories Of America, Inc. | Method for automatic extraction of semantically significant events from video |
GB2369924A (en) * | 2000-12-07 | 2002-06-12 | Sony Uk Ltd | Selecting representative video images using image properties |
GB0029861D0 (en) * | 2000-12-07 | 2001-01-24 | Sony Uk Ltd | Replaying video information |
US6964061B2 (en) * | 2000-12-28 | 2005-11-08 | International Business Machines Corporation | Squeezable rebroadcast files |
JP2002202985A (ja) * | 2000-12-28 | 2002-07-19 | Pioneer Electronic Corp | Av情報配信装置及び配信方法、av情報検索装置及び検索方法、av情報配信検索システム並びに情報記録媒体 |
US7356250B2 (en) * | 2001-01-05 | 2008-04-08 | Genesis Microchip Inc. | Systems and methods for creating a single video frame with one or more interest points |
US7469010B2 (en) * | 2001-01-08 | 2008-12-23 | Canon Kabushiki Kaisha | Extracting key frames from a video sequence |
EP1227417A3 (de) * | 2001-01-25 | 2005-06-01 | Ensequence, Inc. | Auf ein oder mehrere Themen basiertes selektives Sichten von Videodaten |
US20020108112A1 (en) * | 2001-02-02 | 2002-08-08 | Ensequence, Inc. | System and method for thematically analyzing and annotating an audio-visual sequence |
US20030038796A1 (en) | 2001-02-15 | 2003-02-27 | Van Beek Petrus J.L. | Segmentation metadata for audio-visual content |
US8374237B2 (en) * | 2001-03-02 | 2013-02-12 | Dolby Laboratories Licensing Corporation | High precision encoding and decoding of video images |
KR20020074328A (ko) * | 2001-03-20 | 2002-09-30 | 서치캐스트 주식회사 | 키프레임을 이용한 동영상 재생방법 및 그 장치 |
US20040217984A1 (en) * | 2001-03-29 | 2004-11-04 | Borden George R | Digital imaging system |
JP3663362B2 (ja) * | 2001-03-30 | 2005-06-22 | インターナショナル・ビジネス・マシーンズ・コーポレーション | インデックス生成装置 |
US20030163815A1 (en) * | 2001-04-06 | 2003-08-28 | Lee Begeja | Method and system for personalized multimedia delivery service |
US20030088687A1 (en) * | 2001-12-28 | 2003-05-08 | Lee Begeja | Method and apparatus for automatically converting source video into electronic mail messages |
US7904814B2 (en) | 2001-04-19 | 2011-03-08 | Sharp Laboratories Of America, Inc. | System for presenting audio-video content |
US7046914B2 (en) * | 2001-05-01 | 2006-05-16 | Koninklijke Philips Electronics N.V. | Automatic content analysis and representation of multimedia presentations |
KR100411342B1 (ko) * | 2001-05-22 | 2003-12-18 | 엘지전자 주식회사 | 비디오 텍스트 합성 키프레임 생성방법 |
US20020186235A1 (en) * | 2001-05-25 | 2002-12-12 | Koninklijke Philips Electronics N.V. | Compact visual summaries using superhistograms and frame signatures |
US7499077B2 (en) | 2001-06-04 | 2009-03-03 | Sharp Laboratories Of America, Inc. | Summarization of football video content |
US7143354B2 (en) * | 2001-06-04 | 2006-11-28 | Sharp Laboratories Of America, Inc. | Summarization of baseball video content |
US6870956B2 (en) * | 2001-06-14 | 2005-03-22 | Microsoft Corporation | Method and apparatus for shot detection |
JP2005517319A (ja) * | 2001-06-30 | 2005-06-09 | ケーティー・コーポレーション | 客体形状情報を利用した要約画像の抽出装置及びその方法、並びにそれを利用した動画像の要約及び索引システム |
US7203620B2 (en) | 2001-07-03 | 2007-04-10 | Sharp Laboratories Of America, Inc. | Summarization of video content |
US8111754B1 (en) | 2001-07-11 | 2012-02-07 | Dolby Laboratories Licensing Corporation | Interpolation of video compression frames |
US7266150B2 (en) | 2001-07-11 | 2007-09-04 | Dolby Laboratories, Inc. | Interpolation of video compression frames |
US7793326B2 (en) | 2001-08-03 | 2010-09-07 | Comcast Ip Holdings I, Llc | Video and digital multimedia aggregator |
US7908628B2 (en) | 2001-08-03 | 2011-03-15 | Comcast Ip Holdings I, Llc | Video and digital multimedia aggregator content coding and formatting |
US7296231B2 (en) * | 2001-08-09 | 2007-11-13 | Eastman Kodak Company | Video structuring by probabilistic merging of video segments |
US7050500B2 (en) * | 2001-08-23 | 2006-05-23 | Sharp Laboratories Of America, Inc. | Method and apparatus for motion vector coding with global motion parameters |
KR20030026529A (ko) * | 2001-09-26 | 2003-04-03 | 엘지전자 주식회사 | 키프레임 기반 비디오 요약 시스템 |
KR100438703B1 (ko) * | 2001-09-27 | 2004-07-05 | 삼성전자주식회사 | 계층적 이미지 인덱싱 방법 및 그 장치 |
US7227896B2 (en) * | 2001-10-04 | 2007-06-05 | Sharp Laboratories Of America, Inc. | Method and apparatus for global motion estimation |
US7480864B2 (en) * | 2001-10-12 | 2009-01-20 | Canon Kabushiki Kaisha | Zoom editor |
US7474698B2 (en) | 2001-10-19 | 2009-01-06 | Sharp Laboratories Of America, Inc. | Identification of replay segments |
US7203380B2 (en) * | 2001-11-16 | 2007-04-10 | Fuji Xerox Co., Ltd. | Video production and compaction with collage picture frame user interface |
AU2002351310A1 (en) | 2001-12-06 | 2003-06-23 | The Trustees Of Columbia University In The City Of New York | System and method for extracting text captions from video and generating video summaries |
US20030120631A1 (en) * | 2001-12-21 | 2003-06-26 | Eastman Kodak Company | Method and system for hierarchical data entry |
KR100468967B1 (ko) * | 2001-12-28 | 2005-01-29 | 엘지전자 주식회사 | 썸네일 영상 생성장치 및 방법 |
US7137062B2 (en) * | 2001-12-28 | 2006-11-14 | International Business Machines Corporation | System and method for hierarchical segmentation with latent semantic indexing in scale space |
KR100464076B1 (ko) * | 2001-12-29 | 2004-12-30 | 엘지전자 주식회사 | 동영상 비디오 브라우징 방법과 장치 |
US7274857B2 (en) | 2001-12-31 | 2007-09-25 | Scientific-Atlanta, Inc. | Trick modes for compressed video streams |
US7120873B2 (en) | 2002-01-28 | 2006-10-10 | Sharp Laboratories Of America, Inc. | Summarization of sumo video content |
US7650562B2 (en) * | 2002-02-21 | 2010-01-19 | Xerox Corporation | Methods and systems for incrementally changing text representation |
US7549114B2 (en) * | 2002-02-21 | 2009-06-16 | Xerox Corporation | Methods and systems for incrementally changing text representation |
US7165024B2 (en) * | 2002-02-22 | 2007-01-16 | Nec Laboratories America, Inc. | Inferring hierarchical descriptions of a set of documents |
US8214741B2 (en) | 2002-03-19 | 2012-07-03 | Sharp Laboratories Of America, Inc. | Synchronization of video and data |
AU2003226140A1 (en) * | 2002-03-27 | 2003-10-13 | The Trustees Of Columbia University In The City Of New York | Methods for summarizing video through mosaic-based shot and scene clustering |
JP4352653B2 (ja) * | 2002-04-12 | 2009-10-28 | 三菱電機株式会社 | 映像コンテンツ管理運用システム |
KR100438302B1 (ko) * | 2002-04-30 | 2004-07-01 | 엘지전자 주식회사 | 비디오 스키밍 방법 및 장치 |
US7035435B2 (en) * | 2002-05-07 | 2006-04-25 | Hewlett-Packard Development Company, L.P. | Scalable video summarization and navigation system and method |
US7047494B2 (en) * | 2002-05-07 | 2006-05-16 | Hewlett-Packard Development Company, L.P. | Scalable video summarization |
US7120300B1 (en) | 2002-05-14 | 2006-10-10 | Sasken Communication Technologies Limited | Method for finding representative vectors in a class of vector spaces |
US20030218624A1 (en) * | 2002-05-22 | 2003-11-27 | Angelica Quintana | System and method for organizing digital images |
WO2003101097A1 (en) * | 2002-05-28 | 2003-12-04 | Yesvideo, Inc. | Summarization of a visual recording |
US7222300B2 (en) * | 2002-06-19 | 2007-05-22 | Microsoft Corporation | System and method for automatically authoring video compositions using video cliplets |
US20030237091A1 (en) * | 2002-06-19 | 2003-12-25 | Kentaro Toyama | Computer user interface for viewing video compositions generated from a video composition authoring system using video cliplets |
GB0215624D0 (en) * | 2002-07-05 | 2002-08-14 | Colthurst James R | Razor head |
US7657836B2 (en) * | 2002-07-25 | 2010-02-02 | Sharp Laboratories Of America, Inc. | Summarization of soccer video content |
US7149755B2 (en) * | 2002-07-29 | 2006-12-12 | Hewlett-Packard Development Company, Lp. | Presenting a collection of media objects |
US20040024780A1 (en) * | 2002-08-01 | 2004-02-05 | Koninklijke Philips Electronics N.V. | Method, system and program product for generating a content-based table of contents |
US7549127B2 (en) * | 2002-08-01 | 2009-06-16 | Realnetworks, Inc. | Method and apparatus for resizing video content displayed within a graphical user interface |
KR20040020185A (ko) * | 2002-08-30 | 2004-03-09 | 학교법인 한국정보통신학원 | 엑스엠엘 문서를 이용한 골프 비디오 브라우징 서비스 방법 |
US7657907B2 (en) | 2002-09-30 | 2010-02-02 | Sharp Laboratories Of America, Inc. | Automatic user profiling |
KR100487374B1 (ko) * | 2002-10-18 | 2005-05-03 | 엘지전자 주식회사 | 디지털 비디오의 썸네일 영상 생성 장치 |
KR100487330B1 (ko) * | 2002-10-18 | 2005-05-03 | 엘지전자 주식회사 | 디지털 비디오의 썸네일 영상 생성 장치 |
GB2394851A (en) * | 2002-10-30 | 2004-05-05 | Hewlett Packard Co | A camera having a user operable control for producing a saliency signal representative of a user's interest in a scene being imaged |
US7274741B2 (en) * | 2002-11-01 | 2007-09-25 | Microsoft Corporation | Systems and methods for generating a comprehensive user attention model |
US7116716B2 (en) * | 2002-11-01 | 2006-10-03 | Microsoft Corporation | Systems and methods for generating a motion attention model |
US6963378B2 (en) * | 2002-11-01 | 2005-11-08 | Motorola, Inc. | Method and apparatus for reduction of visual content |
US20040088723A1 (en) * | 2002-11-01 | 2004-05-06 | Yu-Fei Ma | Systems and methods for generating a video summary |
US7127120B2 (en) * | 2002-11-01 | 2006-10-24 | Microsoft Corporation | Systems and methods for automatically editing a video |
US7177470B2 (en) * | 2002-11-13 | 2007-02-13 | Koninklijke Philips Electronics N. V. | Method of and system for detecting uniform color segments |
US7280957B2 (en) * | 2002-12-16 | 2007-10-09 | Palo Alto Research Center, Incorporated | Method and apparatus for generating overview information for hierarchically related information |
US7131059B2 (en) * | 2002-12-31 | 2006-10-31 | Hewlett-Packard Development Company, L.P. | Scalably presenting a collection of media objects |
US7546544B1 (en) * | 2003-01-06 | 2009-06-09 | Apple Inc. | Method and apparatus for creating multimedia presentations |
US7840905B1 (en) | 2003-01-06 | 2010-11-23 | Apple Inc. | Creating a theme used by an authoring application to produce a multimedia presentation |
US7694225B1 (en) * | 2003-01-06 | 2010-04-06 | Apple Inc. | Method and apparatus for producing a packaged presentation |
US7006945B2 (en) * | 2003-01-10 | 2006-02-28 | Sharp Laboratories Of America, Inc. | Processing of video content |
US7164798B2 (en) * | 2003-02-18 | 2007-01-16 | Microsoft Corporation | Learning-based automatic commercial content detection |
US7260261B2 (en) | 2003-02-20 | 2007-08-21 | Microsoft Corporation | Systems and methods for enhanced image adaptation |
US20040181545A1 (en) * | 2003-03-10 | 2004-09-16 | Yining Deng | Generating and rendering annotated video files |
US7212666B2 (en) * | 2003-04-01 | 2007-05-01 | Microsoft Corporation | Generating visually representative video thumbnails |
US8392834B2 (en) * | 2003-04-09 | 2013-03-05 | Hewlett-Packard Development Company, L.P. | Systems and methods of authoring a multimedia file |
US7362909B2 (en) * | 2003-04-10 | 2008-04-22 | Sharp Kabushiki Kaisha | Coding device and method and decoding device and method |
US7424160B1 (en) | 2003-04-28 | 2008-09-09 | The Directv Group, Inc. | Methods and apparatus for monitoring compressed bitstreams |
US8638846B1 (en) * | 2003-06-23 | 2014-01-28 | At&T Intellectual Property Ii, L.P. | Systems and methods for encoding and decoding video streams |
US20050033758A1 (en) * | 2003-08-08 | 2005-02-10 | Baxter Brent A. | Media indexer |
JP2007503750A (ja) * | 2003-08-26 | 2007-02-22 | サムスン エレクトロニクス カンパニー リミテッド | 適応型フレーム間ウェーブレットのビデオコーディング方法、前記方法のためのコンピュータで読取り可能な記録媒体、及び装置 |
US7966642B2 (en) * | 2003-09-15 | 2011-06-21 | Nair Ajith N | Resource-adaptive management of video storage |
US7400761B2 (en) * | 2003-09-30 | 2008-07-15 | Microsoft Corporation | Contrast-based image attention analysis framework |
US7471827B2 (en) * | 2003-10-16 | 2008-12-30 | Microsoft Corporation | Automatic browsing path generation to present image areas with high attention value as a function of space and time |
US7689712B2 (en) | 2003-11-26 | 2010-03-30 | Ricoh Company, Ltd. | Techniques for integrating note-taking and multimedia information |
US20050123886A1 (en) * | 2003-11-26 | 2005-06-09 | Xian-Sheng Hua | Systems and methods for personalized karaoke |
GB0328103D0 (en) * | 2003-12-04 | 2004-01-07 | Pace Micro Tech Plc | Broadcast data system and broadcast data receiver |
US7483618B1 (en) | 2003-12-04 | 2009-01-27 | Yesvideo, Inc. | Automatic editing of a visual recording to eliminate content of unacceptably low quality and/or very little or no interest |
EP1538536A1 (de) * | 2003-12-05 | 2005-06-08 | Sony International (Europe) GmbH | Techniken für Visualisierung und Kontrolle für digitale Multimediainhalte |
EP1557837A1 (de) * | 2004-01-26 | 2005-07-27 | Sony International (Europe) GmbH | Redundanzbeseitigung in einem inhaltsbezogenen Vorschausystem |
JP4611209B2 (ja) * | 2004-01-30 | 2011-01-12 | パナソニック株式会社 | コンテンツ再生装置 |
KR100590537B1 (ko) * | 2004-02-18 | 2006-06-15 | 삼성전자주식회사 | 복수 영상의 요약 방법 및 장치 |
US8949899B2 (en) | 2005-03-04 | 2015-02-03 | Sharp Laboratories Of America, Inc. | Collaborative recommendation system |
US7594245B2 (en) | 2004-03-04 | 2009-09-22 | Sharp Laboratories Of America, Inc. | Networked video devices |
US8356317B2 (en) | 2004-03-04 | 2013-01-15 | Sharp Laboratories Of America, Inc. | Presence based technology |
JP4536402B2 (ja) * | 2004-03-05 | 2010-09-01 | ソニー株式会社 | 映像再生装置、映像再生方法及びその方法をコンピュータに実行させるためのプログラム |
US7882436B2 (en) * | 2004-03-10 | 2011-02-01 | Trevor Burke Technology Limited | Distribution of video data |
US8411902B2 (en) * | 2004-04-07 | 2013-04-02 | Hewlett-Packard Development Company, L.P. | Providing a visual indication of the content of a video by analyzing a likely user intent |
WO2005119515A1 (en) * | 2004-06-01 | 2005-12-15 | Koninklijke Philips Electronics N.V. | Updating video summary |
US7916173B2 (en) * | 2004-06-22 | 2011-03-29 | Canon Kabushiki Kaisha | Method for detecting and selecting good quality image frames from video |
TWI240579B (en) * | 2004-06-24 | 2005-09-21 | Via Tech Inc | Method and related interface system for facilitating advertisings detection through visual interface |
US7457461B2 (en) * | 2004-06-25 | 2008-11-25 | Avocent Corporation | Video compression noise immunity |
CN1965369B (zh) * | 2004-07-01 | 2012-07-04 | 汤姆森许可贸易公司 | 用于记录多媒体数据的设备和方法 |
TWI247212B (en) * | 2004-07-13 | 2006-01-11 | Avermedia Tech Inc | Method for searching image differences in recorded video data of surveillance system |
US8600217B2 (en) * | 2004-07-14 | 2013-12-03 | Arturo A. Rodriguez | System and method for improving quality of displayed picture during trick modes |
US9053754B2 (en) | 2004-07-28 | 2015-06-09 | Microsoft Technology Licensing, Llc | Thumbnail generation and presentation for recorded TV programs |
US7986372B2 (en) * | 2004-08-02 | 2011-07-26 | Microsoft Corporation | Systems and methods for smart media content thumbnail extraction |
KR20120068050A (ko) * | 2004-08-10 | 2012-06-26 | 소니 주식회사 | 정보 신호 처리 방법 및 정보 신호 처리 장치 |
US8422853B2 (en) * | 2004-08-10 | 2013-04-16 | Sony Corporation | Information signal processing method and apparatus, and computer program product |
JP2006065368A (ja) * | 2004-08-24 | 2006-03-09 | Sony Corp | 画像表示装置,画像表示方法,およびコンピュータプログラム |
US7376274B2 (en) * | 2004-08-31 | 2008-05-20 | Sonic Solutions | Method and apparatus for use in video searching |
US7617237B2 (en) * | 2004-09-30 | 2009-11-10 | Sharp Kabushiki Kaisha | Encoding device, encoding method, decoding device, decoding method, program and machine readable recording medium containing the program |
FR2876860A1 (fr) * | 2004-10-20 | 2006-04-21 | Thomson Licensing Sa | Procede de codage hierarchique d'images video |
WO2006080663A1 (en) * | 2004-10-21 | 2006-08-03 | Samsung Electronics Co., Ltd. | Method and apparatus for effectively encoding multi-layered motion vectors |
KR100703740B1 (ko) * | 2004-10-21 | 2007-04-05 | 삼성전자주식회사 | 다 계층 기반의 모션 벡터를 효율적으로 부호화하는 방법및 장치 |
JP2006163605A (ja) * | 2004-12-03 | 2006-06-22 | Hitachi Kokusai Electric Inc | 画像検索表示装置とそのプログラム |
KR100610244B1 (ko) * | 2004-12-07 | 2006-08-09 | 삼성전자주식회사 | 기록영상에 대한 선택지점번호 제공방법 및 이를 적용한영상재생장치 |
GB2421135A (en) | 2004-12-09 | 2006-06-14 | Sony Uk Ltd | User resizable video display of catalogue entries |
US7548936B2 (en) | 2005-01-12 | 2009-06-16 | Microsoft Corporation | Systems and methods to present web image search results for effective image browsing |
US8780957B2 (en) | 2005-01-14 | 2014-07-15 | Qualcomm Incorporated | Optimal weights for MMSE space-time equalizer of multicode CDMA system |
US9325781B2 (en) | 2005-01-31 | 2016-04-26 | Invention Science Fund I, Llc | Audio sharing |
US8902320B2 (en) | 2005-01-31 | 2014-12-02 | The Invention Science Fund I, Llc | Shared image device synchronization or designation |
US8606383B2 (en) | 2005-01-31 | 2013-12-10 | The Invention Science Fund I, Llc | Audio sharing |
US7920169B2 (en) | 2005-01-31 | 2011-04-05 | Invention Science Fund I, Llc | Proximity of shared image devices |
US20060174203A1 (en) | 2005-01-31 | 2006-08-03 | Searete Llc, A Limited Liability Corporation Of The State Of Delaware | Viewfinder for shared image device |
US20060170956A1 (en) * | 2005-01-31 | 2006-08-03 | Jung Edward K | Shared image devices |
US9489717B2 (en) | 2005-01-31 | 2016-11-08 | Invention Science Fund I, Llc | Shared image device |
US7876357B2 (en) | 2005-01-31 | 2011-01-25 | The Invention Science Fund I, Llc | Estimating shared image device operational capabilities or resources |
US20060221197A1 (en) * | 2005-03-30 | 2006-10-05 | Jung Edward K | Image transformation estimator of an imaging device |
US9910341B2 (en) | 2005-01-31 | 2018-03-06 | The Invention Science Fund I, Llc | Shared image device designation |
US9082456B2 (en) | 2005-01-31 | 2015-07-14 | The Invention Science Fund I Llc | Shared image device designation |
US9124729B2 (en) | 2005-01-31 | 2015-09-01 | The Invention Science Fund I, Llc | Shared image device synchronization or designation |
WO2006096612A2 (en) | 2005-03-04 | 2006-09-14 | The Trustees Of Columbia University In The City Of New York | System and method for motion estimation and mode decision for low-complexity h.264 decoder |
AR052601A1 (es) * | 2005-03-10 | 2007-03-21 | Qualcomm Inc | Clasificacion de contenido para procesamiento de multimedia |
US7526725B2 (en) * | 2005-04-08 | 2009-04-28 | Mitsubishi Electric Research Laboratories, Inc. | Context aware video conversion method and playback system |
JP2006303635A (ja) * | 2005-04-15 | 2006-11-02 | Sony Corp | 表示装置、表示制御方法および表示制御プログラム、記録再生装置、ならびに、再生装置 |
WO2006109260A2 (en) * | 2005-04-15 | 2006-10-19 | Koninklijke Philips Electronics N.V. | Method and device for searching a video movie at a variable speed using an additional file containing screen shots |
US9819490B2 (en) | 2005-05-04 | 2017-11-14 | Invention Science Fund I, Llc | Regional proximity for shared image device(s) |
US8072501B2 (en) | 2005-10-31 | 2011-12-06 | The Invention Science Fund I, Llc | Preservation and/or degradation of a video/audio data stream |
US7872675B2 (en) | 2005-06-02 | 2011-01-18 | The Invention Science Fund I, Llc | Saved-image management |
US9621749B2 (en) | 2005-06-02 | 2017-04-11 | Invention Science Fund I, Llc | Capturing selected image objects |
US9001215B2 (en) | 2005-06-02 | 2015-04-07 | The Invention Science Fund I, Llc | Estimating shared image device operational capabilities or resources |
US8681225B2 (en) | 2005-06-02 | 2014-03-25 | Royce A. Levien | Storage access technique for captured data |
US10003762B2 (en) | 2005-04-26 | 2018-06-19 | Invention Science Fund I, Llc | Shared image devices |
US20070222865A1 (en) | 2006-03-15 | 2007-09-27 | Searete Llc, A Limited Liability Corporation Of The State Of Delaware | Enhanced video/still image correlation |
US8253821B2 (en) | 2005-10-31 | 2012-08-28 | The Invention Science Fund I, Llc | Degradation/preservation management of captured data |
US8233042B2 (en) | 2005-10-31 | 2012-07-31 | The Invention Science Fund I, Llc | Preservation and/or degradation of a video/audio data stream |
US9451200B2 (en) | 2005-06-02 | 2016-09-20 | Invention Science Fund I, Llc | Storage access technique for captured data |
US9942511B2 (en) | 2005-10-31 | 2018-04-10 | Invention Science Fund I, Llc | Preservation/degradation of video/audio aspects of a data stream |
US9967424B2 (en) | 2005-06-02 | 2018-05-08 | Invention Science Fund I, Llc | Data storage usage protocol |
US7782365B2 (en) | 2005-06-02 | 2010-08-24 | Searete Llc | Enhanced video/still image correlation |
US9076208B2 (en) | 2006-02-28 | 2015-07-07 | The Invention Science Fund I, Llc | Imagery processing |
US9167195B2 (en) | 2005-10-31 | 2015-10-20 | Invention Science Fund I, Llc | Preservation/degradation of video/audio aspects of a data stream |
US8964054B2 (en) | 2006-08-18 | 2015-02-24 | The Invention Science Fund I, Llc | Capturing selected image objects |
US9093121B2 (en) | 2006-02-28 | 2015-07-28 | The Invention Science Fund I, Llc | Data management of an audio data stream |
US9191611B2 (en) * | 2005-06-02 | 2015-11-17 | Invention Science Fund I, Llc | Conditional alteration of a saved image |
US8085318B2 (en) | 2005-10-11 | 2011-12-27 | Apple Inc. | Real-time image capture and manipulation based on streaming data |
US20060284895A1 (en) * | 2005-06-15 | 2006-12-21 | Marcu Gabriel G | Dynamic gamma correction |
US7663691B2 (en) | 2005-10-11 | 2010-02-16 | Apple Inc. | Image capture using display device as light source |
US8805929B2 (en) | 2005-06-20 | 2014-08-12 | Ricoh Company, Ltd. | Event-driven annotation techniques |
US7554576B2 (en) * | 2005-06-20 | 2009-06-30 | Ricoh Company, Ltd. | Information capture and recording system for controlling capture devices |
US8799757B2 (en) * | 2005-07-01 | 2014-08-05 | Microsoft Corporation | Synchronization aspects of interactive multimedia presentation management |
US20070006062A1 (en) * | 2005-07-01 | 2007-01-04 | Microsoft Corporation | Synchronization aspects of interactive multimedia presentation management |
US20070006078A1 (en) * | 2005-07-01 | 2007-01-04 | Microsoft Corporation | Declaratively responding to state changes in an interactive multimedia environment |
US8020084B2 (en) * | 2005-07-01 | 2011-09-13 | Microsoft Corporation | Synchronization aspects of interactive multimedia presentation management |
US7941522B2 (en) * | 2005-07-01 | 2011-05-10 | Microsoft Corporation | Application security in an interactive media environment |
US20070006065A1 (en) * | 2005-07-01 | 2007-01-04 | Microsoft Corporation | Conditional event timing for interactive multimedia presentations |
US20070006238A1 (en) * | 2005-07-01 | 2007-01-04 | Microsoft Corporation | Managing application states in an interactive media environment |
US20070006079A1 (en) * | 2005-07-01 | 2007-01-04 | Microsoft Corporation | State-based timing for interactive multimedia presentations |
US8305398B2 (en) * | 2005-07-01 | 2012-11-06 | Microsoft Corporation | Rendering and compositing multiple applications in an interactive media environment |
US7545978B2 (en) * | 2005-07-01 | 2009-06-09 | International Business Machines Corporation | Methods and apparatus for filtering video packets for large-scale video stream monitoring |
US8656268B2 (en) * | 2005-07-01 | 2014-02-18 | Microsoft Corporation | Queueing events in an interactive media environment |
US20070030396A1 (en) * | 2005-08-05 | 2007-02-08 | Hui Zhou | Method and apparatus for generating a panorama from a sequence of video frames |
US9020326B2 (en) * | 2005-08-23 | 2015-04-28 | At&T Intellectual Property Ii, L.P. | System and method for content-based navigation of live and recorded TV and video programs |
US9042703B2 (en) * | 2005-10-31 | 2015-05-26 | At&T Intellectual Property Ii, L.P. | System and method for content-based navigation of live and recorded TV and video programs |
US8879635B2 (en) | 2005-09-27 | 2014-11-04 | Qualcomm Incorporated | Methods and device for data alignment with time domain boundary |
US8654848B2 (en) | 2005-10-17 | 2014-02-18 | Qualcomm Incorporated | Method and apparatus for shot detection in video streaming |
US8948260B2 (en) | 2005-10-17 | 2015-02-03 | Qualcomm Incorporated | Adaptive GOP structure in video streaming |
US20070112811A1 (en) * | 2005-10-20 | 2007-05-17 | Microsoft Corporation | Architecture for scalable video coding applications |
US20070120980A1 (en) | 2005-10-31 | 2007-05-31 | Searete Llc, A Limited Liability Corporation Of The State Of Delaware | Preservation/degradation of video/audio aspects of a data stream |
US7773813B2 (en) | 2005-10-31 | 2010-08-10 | Microsoft Corporation | Capture-intention detection for video content analysis |
US8180826B2 (en) * | 2005-10-31 | 2012-05-15 | Microsoft Corporation | Media sharing and authoring on the web |
US8196032B2 (en) * | 2005-11-01 | 2012-06-05 | Microsoft Corporation | Template-based multimedia authoring and sharing |
US7734575B1 (en) * | 2005-11-16 | 2010-06-08 | Amdocs Software Systems Limited | System, method, and computer program product for scaleable data collection and audience feedback |
US7599918B2 (en) * | 2005-12-29 | 2009-10-06 | Microsoft Corporation | Dynamic search with implicit user intention mining |
EP1830361A1 (de) * | 2006-03-02 | 2007-09-05 | Sony Corporation | Bildanzeigeverfahren und Videowiedergabevorrichtung |
US8689253B2 (en) | 2006-03-03 | 2014-04-01 | Sharp Laboratories Of America, Inc. | Method and system for configuring media-playing sets |
US9131164B2 (en) | 2006-04-04 | 2015-09-08 | Qualcomm Incorporated | Preprocessor method and apparatus |
US20070266322A1 (en) * | 2006-05-12 | 2007-11-15 | Tretter Daniel R | Video browsing user interface |
US20090235308A1 (en) * | 2006-07-04 | 2009-09-17 | Koninklijke Philips Electronics N.V. | Method of content substitution |
WO2008007279A2 (en) * | 2006-07-04 | 2008-01-17 | Koninklijke Philips Electronics N.V. | Method of content substitution |
CN101506891A (zh) * | 2006-08-25 | 2009-08-12 | 皇家飞利浦电子股份有限公司 | 自动产生多媒体内容项目的概要的方法和装置 |
KR100850791B1 (ko) * | 2006-09-20 | 2008-08-06 | 삼성전자주식회사 | 방송 프로그램 요약 생성 시스템 및 그 방법 |
CN101601070B (zh) * | 2006-10-10 | 2012-06-27 | 汤姆逊许可公司 | 用于生成画面显著度图的设备和方法 |
US8671346B2 (en) * | 2007-02-09 | 2014-03-11 | Microsoft Corporation | Smart video thumbnail |
JP2008242367A (ja) * | 2007-03-29 | 2008-10-09 | Fuji Xerox Co Ltd | 表示制御装置、表示装置、表示システム及びプログラム |
US8074241B2 (en) * | 2007-03-30 | 2011-12-06 | The Board Of Trustees Of The Leland Stanford Jr. University | Process for displaying and navigating panoramic video, and method and user interface for streaming panoramic video and images between a server and browser-based client application |
US20080269924A1 (en) * | 2007-04-30 | 2008-10-30 | Huang Chen-Hsiu | Method of summarizing sports video and apparatus thereof |
JP4375442B2 (ja) * | 2007-06-04 | 2009-12-02 | ソニー株式会社 | 画像管理装置、画像管理方法および画像管理プログラム |
US20080303949A1 (en) * | 2007-06-08 | 2008-12-11 | Apple Inc. | Manipulating video streams |
US8122378B2 (en) * | 2007-06-08 | 2012-02-21 | Apple Inc. | Image capture and manipulation |
JP4377932B2 (ja) * | 2007-07-26 | 2009-12-02 | 株式会社モルフォ | パノラマ画像生成装置およびプログラム |
US20090033791A1 (en) * | 2007-07-31 | 2009-02-05 | Scientific-Atlanta, Inc. | Video processing systems and methods |
WO2009024966A2 (en) * | 2007-08-21 | 2009-02-26 | Closevu Ltd. | Method for adapting media for viewing on small display screens |
US20090210436A1 (en) * | 2007-10-30 | 2009-08-20 | General Instrument Corporation | Encoding a hierarchical multi-layer data package |
US8219551B2 (en) | 2007-10-31 | 2012-07-10 | General Instrument Corporation | Decoding a hierarchical multi-layer data package |
US8237864B2 (en) * | 2007-11-12 | 2012-08-07 | Cyberlink Corp. | Systems and methods for associating metadata with scenes in a video |
US7489334B1 (en) * | 2007-12-12 | 2009-02-10 | International Business Machines Corporation | Method and system for reducing the cost of sampling a moving image |
US20090158157A1 (en) * | 2007-12-14 | 2009-06-18 | Microsoft Corporation | Previewing recorded programs using thumbnails |
US8199891B2 (en) * | 2008-02-06 | 2012-06-12 | Interactive Intelligence, Inc. | System and method for remote screen monitoring |
WO2009126785A2 (en) | 2008-04-10 | 2009-10-15 | The Trustees Of Columbia University In The City Of New York | Systems and methods for image archaeology |
WO2009155281A1 (en) | 2008-06-17 | 2009-12-23 | The Trustees Of Columbia University In The City Of New York | System and method for dynamically and interactively searching media data |
US8300696B2 (en) * | 2008-07-25 | 2012-10-30 | Cisco Technology, Inc. | Transcoding for systems operating under plural video coding specifications |
KR101027159B1 (ko) * | 2008-07-28 | 2011-04-05 | 뮤추얼아이피서비스(주) | 타겟 영상 검출 장치 및 그 방법 |
US9445121B2 (en) | 2008-08-04 | 2016-09-13 | Dolby Laboratories Licensing Corporation | Overlapped block disparity estimation and compensation architecture |
US8189866B1 (en) * | 2008-08-26 | 2012-05-29 | Adobe Systems Incorporated | Human-action recognition in images and videos |
US8671069B2 (en) | 2008-12-22 | 2014-03-11 | The Trustees Of Columbia University, In The City Of New York | Rapid image annotation via brain state decoding and visual pattern mining |
JP5457688B2 (ja) | 2009-02-04 | 2014-04-02 | オリンパス株式会社 | 画像処理装置、画像処理プログラムおよび画像処理方法 |
US8380866B2 (en) | 2009-03-20 | 2013-02-19 | Ricoh Company, Ltd. | Techniques for facilitating annotations |
US8184913B2 (en) * | 2009-04-01 | 2012-05-22 | Microsoft Corporation | Clustering videos by location |
US9111582B2 (en) * | 2009-08-03 | 2015-08-18 | Adobe Systems Incorporated | Methods and systems for previewing content with a dynamic tag cloud |
US8359616B2 (en) | 2009-09-30 | 2013-01-22 | United Video Properties, Inc. | Systems and methods for automatically generating advertisements using a media guidance application |
US8438484B2 (en) * | 2009-11-06 | 2013-05-07 | Sony Corporation | Video preview module to enhance online video experience |
EP2519900A1 (de) | 2009-12-28 | 2012-11-07 | Thomson Licensing | Verfahren zur auswahl einer dokumentaufnahme mit grafikpfaden und empfänger mit diesem verfahren |
JP5510012B2 (ja) | 2010-04-09 | 2014-06-04 | ソニー株式会社 | 画像処理装置および方法、並びにプログラム |
US8446490B2 (en) | 2010-05-25 | 2013-05-21 | Intellectual Ventures Fund 83 Llc | Video capture system producing a video summary |
US8605221B2 (en) | 2010-05-25 | 2013-12-10 | Intellectual Ventures Fund 83 Llc | Determining key video snippets using selection criteria to form a video summary |
US8619150B2 (en) | 2010-05-25 | 2013-12-31 | Intellectual Ventures Fund 83 Llc | Ranking key video frames using camera fixation |
US8599316B2 (en) | 2010-05-25 | 2013-12-03 | Intellectual Ventures Fund 83 Llc | Method for determining key video frames |
US8520088B2 (en) | 2010-05-25 | 2013-08-27 | Intellectual Ventures Fund 83 Llc | Storing a video summary as metadata |
US8432965B2 (en) | 2010-05-25 | 2013-04-30 | Intellectual Ventures Fund 83 Llc | Efficient method for assembling key video snippets to form a video summary |
US9171578B2 (en) * | 2010-08-06 | 2015-10-27 | Futurewei Technologies, Inc. | Video skimming methods and systems |
US9652551B2 (en) * | 2010-08-31 | 2017-05-16 | Disney Enterprises, Inc. | Automated effort judgement of user generated content |
CN102402536A (zh) * | 2010-09-13 | 2012-04-04 | 索尼公司 | 从视频中提取关键帧的方法和设备 |
US8688857B1 (en) * | 2010-09-15 | 2014-04-01 | Google Inc. | Filtering messages based on pruning profile generated from pruning profile schema |
WO2012037715A1 (en) * | 2010-09-20 | 2012-03-29 | Nokia Corporation | Identifying a key frame from a video sequence |
WO2012042097A1 (en) * | 2010-09-30 | 2012-04-05 | Nokia Corporation | Method, apparatus and computer program product for summarizing multimedia content |
US9185469B2 (en) | 2010-09-30 | 2015-11-10 | Kodak Alaris Inc. | Summarizing image collection using a social network |
US8923607B1 (en) * | 2010-12-08 | 2014-12-30 | Google Inc. | Learning sports highlights using event detection |
US8949207B2 (en) * | 2010-12-09 | 2015-02-03 | Canon Kabushiki Kaisha | Method and apparatus for decoding encoded structured data from a bit-stream |
US8665345B2 (en) | 2011-05-18 | 2014-03-04 | Intellectual Ventures Fund 83 Llc | Video summary including a feature of interest |
US8643746B2 (en) | 2011-05-18 | 2014-02-04 | Intellectual Ventures Fund 83 Llc | Video summary including a particular person |
US9154813B2 (en) | 2011-06-09 | 2015-10-06 | Comcast Cable Communications, Llc | Multiple video content in a composite video stream |
US8949901B2 (en) | 2011-06-29 | 2015-02-03 | Rovi Guides, Inc. | Methods and systems for customizing viewing environment preferences in a viewing environment control application |
JP5887764B2 (ja) * | 2011-08-29 | 2016-03-16 | 株式会社Jvcケンウッド | 動き補償フレーム生成装置及び方法 |
US8897553B2 (en) | 2011-12-13 | 2014-11-25 | The Nielsen Company (Us), Llc | Image comparison using color histograms |
US8750613B2 (en) | 2011-12-13 | 2014-06-10 | The Nielsen Company (Us), Llc | Detecting objects in images using color histograms |
US8897554B2 (en) | 2011-12-13 | 2014-11-25 | The Nielsen Company (Us), Llc | Video comparison using color histograms |
CN104203065B (zh) * | 2012-03-08 | 2017-04-12 | 奥林巴斯株式会社 | 图像处理装置和图像处理方法 |
EP2642487A1 (de) * | 2012-03-23 | 2013-09-25 | Thomson Licensing | Personalisierte Videosegmentierung mit mehrfacher Körnigkeit |
US8989503B2 (en) * | 2012-08-03 | 2015-03-24 | Kodak Alaris Inc. | Identifying scene boundaries using group sparsity analysis |
US9992490B2 (en) | 2012-09-26 | 2018-06-05 | Sony Corporation | Video parameter set (VPS) syntax re-ordering for easy access of extension parameters |
US10219006B2 (en) | 2013-01-04 | 2019-02-26 | Sony Corporation | JCTVC-L0226: VPS and VPS_extension updates |
US10419778B2 (en) | 2013-01-04 | 2019-09-17 | Sony Corporation | JCTVC-L0227: VPS_extension with updates of profile-tier-level syntax structure |
JP2014146989A (ja) * | 2013-01-29 | 2014-08-14 | Sony Corp | 撮像装置、撮像方法および撮像プログラム |
US9998750B2 (en) | 2013-03-15 | 2018-06-12 | Cisco Technology, Inc. | Systems and methods for guided conversion of video from a first to a second compression format |
US9288521B2 (en) | 2014-05-28 | 2016-03-15 | Rovi Guides, Inc. | Systems and methods for updating media asset data based on pause point in the media asset |
CN104284240B (zh) * | 2014-09-17 | 2018-02-02 | 小米科技有限责任公司 | 视频浏览方法及装置 |
US9799376B2 (en) | 2014-09-17 | 2017-10-24 | Xiaomi Inc. | Method and device for video browsing based on keyframe |
US10332564B1 (en) * | 2015-06-25 | 2019-06-25 | Amazon Technologies, Inc. | Generating tags during video upload |
KR20170098079A (ko) * | 2016-02-19 | 2017-08-29 | 삼성전자주식회사 | 전자 장치 및 전자 장치에서의 비디오 녹화 방법 |
US11915722B2 (en) * | 2017-03-30 | 2024-02-27 | Gracenote, Inc. | Generating a video presentation to accompany audio |
US11259088B2 (en) * | 2017-10-27 | 2022-02-22 | Google Llc | Previewing a video in response to computing device interaction |
KR102542788B1 (ko) | 2018-01-08 | 2023-06-14 | 삼성전자주식회사 | 전자장치, 그 제어방법 및 컴퓨터프로그램제품 |
JP7143620B2 (ja) * | 2018-04-20 | 2022-09-29 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置およびプログラム |
US10791376B2 (en) * | 2018-07-09 | 2020-09-29 | Spotify Ab | Media program having selectable content depth |
EP3968636A1 (de) | 2020-09-11 | 2022-03-16 | Axis AB | Verfahren zur bereitstellung von beschneidbarem video |
KR102758433B1 (ko) * | 2021-07-14 | 2025-01-22 | 한국전자통신연구원 | 환경 매칭 기반 물체 인식 장치 및 방법 |
JP7429016B2 (ja) | 2022-06-23 | 2024-02-07 | ダイキン工業株式会社 | 画像処理方法、コンピュータプログラム及び画像処理装置 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5099322A (en) * | 1990-02-27 | 1992-03-24 | Texas Instruments Incorporated | Scene change detection system and method |
US5513306A (en) * | 1990-08-09 | 1996-04-30 | Apple Computer, Inc. | Temporal event viewing and editing system |
FR2683415B1 (fr) * | 1991-10-30 | 1996-08-09 | Telediffusion Fse | Systeme d'analyse video du montage d'un programme televise diffuse ou enregistre et son utilisation pour les techniques de post production, notamment multilingues. |
US5283645A (en) * | 1992-02-14 | 1994-02-01 | Intel Corporation | Method and apparatus for detecting dissolve regions in digital video sequences |
JPH0778804B2 (ja) * | 1992-05-28 | 1995-08-23 | 日本アイ・ビー・エム株式会社 | シーン情報入力システムおよび方法 |
US5532833A (en) * | 1992-10-13 | 1996-07-02 | International Business Machines Corporation | Method and system for displaying selected portions of a motion video image |
JP2894113B2 (ja) * | 1992-11-04 | 1999-05-24 | 松下電器産業株式会社 | 画像クラスタリング装置 |
JP2518503B2 (ja) * | 1993-03-08 | 1996-07-24 | 日本電気株式会社 | 画面切り替え検出方法 |
US5642294A (en) * | 1993-12-17 | 1997-06-24 | Nippon Telegraph And Telephone Corporation | Method and apparatus for video cut detection |
US5550965A (en) * | 1993-12-27 | 1996-08-27 | Lucent Technologies Inc. | Method and system for operating a data processor to index primary data in real time with iconic table of contents |
US5521841A (en) * | 1994-03-31 | 1996-05-28 | Siemens Corporate Research, Inc. | Browsing contents of a given video sequence |
US5606655A (en) * | 1994-03-31 | 1997-02-25 | Siemens Corporate Research, Inc. | Method for representing contents of a single video shot using frames |
US5635982A (en) * | 1994-06-27 | 1997-06-03 | Zhang; Hong J. | System for automatic video segmentation and key frame extraction for video sequences having both sharp and gradual transitions |
US5600775A (en) * | 1994-08-26 | 1997-02-04 | Emotion, Inc. | Method and apparatus for annotating full motion video and other indexed data structures |
US5531306A (en) * | 1994-10-05 | 1996-07-02 | Mason; Ray | Spacer for worn clutch brakes |
US5485611A (en) * | 1994-12-30 | 1996-01-16 | Intel Corporation | Video database indexing and method of presenting video database index to a user |
US5821945A (en) * | 1995-02-03 | 1998-10-13 | The Trustees Of Princeton University | Method and apparatus for video browsing based on content and structure |
US5708767A (en) * | 1995-02-03 | 1998-01-13 | The Trustees Of Princeton University | Method and apparatus for video browsing based on content and structure |
US5708732A (en) * | 1996-03-06 | 1998-01-13 | Hewlett-Packard Company | Fast DCT domain downsampling and inverse motion compensation |
-
1997
- 1997-12-19 US US08/994,558 patent/US5956026A/en not_active Expired - Lifetime
-
1998
- 1998-12-17 WO PCT/JP1998/005715 patent/WO1999032993A1/en active IP Right Grant
- 1998-12-17 DE DE69809289T patent/DE69809289T2/de not_active Expired - Lifetime
- 1998-12-17 JP JP2000525829A patent/JP3719933B2/ja not_active Expired - Fee Related
- 1998-12-17 EP EP98961391A patent/EP1040429B1/de not_active Expired - Lifetime
-
1999
- 1999-05-21 US US09/316,599 patent/US5995095A/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JP2001527304A (ja) | 2001-12-25 |
US5995095A (en) | 1999-11-30 |
WO1999032993A1 (en) | 1999-07-01 |
EP1040429B1 (de) | 2002-11-06 |
EP1040429A1 (de) | 2000-10-04 |
US5956026A (en) | 1999-09-21 |
JP3719933B2 (ja) | 2005-11-24 |
DE69809289D1 (de) | 2002-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69809289T2 (de) | Verfahren zum hierarchischen zusammenfassen und schnellen durchsehen einer digitalen videosequenz | |
DE69834029T2 (de) | Bedeutsame szenenfeststellung und rahmenfilterung für ein visuelles indexierungssystem | |
DE69737824T2 (de) | Video-wiederauffinden von mpeg-komprimierten sequenzen unter verwendung von dc- und bewegungssignaturen | |
DE69622878T2 (de) | Verfahren und anlage zur anwendung von wiedergabebesonderheiten für komprimierte videodaten | |
DE60119012T2 (de) | Verfahren um Überblendung in einer MPEG-Umgebung zu detektieren | |
DE60126478T2 (de) | Trickwiedergabevorrichtung für digitales aufzeichnungsmedium | |
DE69513541T2 (de) | Verfahren zum Detektieren von durch Kamarabewegungen verursachte Szenenänderungen | |
DE69119374T2 (de) | Einrichtung zur Verwaltung von Bewegtbildsequenzen | |
DE69613949T2 (de) | Vorrichtung zum Detektieren von Schnitten in einer Videosequenz | |
DE69617072T2 (de) | Verfahren und Vorrichtung zur Erfassung von Wechselstellen in bewegten Bildern | |
US7805011B2 (en) | Method and apparatus for providing lossless data compression and editing media content | |
DE69934605T2 (de) | Verfahren und Vorrichtung zur Bearbeitung von Videosignalen durch Charakteristischen Punkten Extraktion im komprimierten Bereich. | |
DE69635528T2 (de) | Bildverarbeitungsgerät | |
DE69936264T2 (de) | Verfahren und vorrichtung zur verwaltung einer multimediadatei | |
EP2089886B1 (de) | Verfahren zur zeitlichen segmentierung eines videos in videobildfolgen und zur auswahl von keyframes für das auffinden von bildinhalten unter einbeziehung einer subshot-detektion | |
JP4942883B2 (ja) | 動き記述子およびカラー記述子を用いてビデオを要約化する方法 | |
DE3884992T2 (de) | Bildverarbeitungssystem für eine Folge kodierter Signale, die einer Prädiktionskodierung verschiedener Arten unterworfen sind. | |
JP4267327B2 (ja) | 動き記述子を用いてビデオを要約化する方法 | |
DE60130180T2 (de) | Verfahren zur kodierung und dekodierung, aufzeichnungsmedium und programm | |
DE60214721T2 (de) | Aufnahmespur für verbesserte videokompression | |
DE69636992T2 (de) | Digitaler Videokopierschutz | |
DE3010990A1 (de) | Digitales stehbildspeichersystem | |
DE602004002171T2 (de) | Verfahren zum adaptiven abspielen von videorahmen | |
DE69732089T2 (de) | Vorrichtung und verfahren zur zeitlichen und räumlichen integration und verwaltung einer vielzahl von videos sowie speichermedium zur speicherung eines programms dafür | |
DE69918533T2 (de) | Verfahren zur detektion von übergängen in abgetastenen digitalen videosequenzen |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition |