JP4683253B2 - Av信号処理装置および方法、プログラム、並びに記録媒体 - Google Patents
Av信号処理装置および方法、プログラム、並びに記録媒体 Download PDFInfo
- Publication number
- JP4683253B2 JP4683253B2 JP2001170611A JP2001170611A JP4683253B2 JP 4683253 B2 JP4683253 B2 JP 4683253B2 JP 2001170611 A JP2001170611 A JP 2001170611A JP 2001170611 A JP2001170611 A JP 2001170611A JP 4683253 B2 JP4683253 B2 JP 4683253B2
- Authority
- JP
- Japan
- Prior art keywords
- segment
- video
- similarity
- scene
- boundary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000012545 processing Methods 0.000 title claims description 133
- 238000000034 method Methods 0.000 title claims description 88
- 238000005259 measurement Methods 0.000 claims description 93
- 230000008859 change Effects 0.000 claims description 54
- 230000008569 process Effects 0.000 claims description 43
- 238000004364 calculation method Methods 0.000 claims description 28
- 230000002123 temporal effect Effects 0.000 claims description 15
- 238000004458 analytical method Methods 0.000 claims description 13
- 230000005236 sound signal Effects 0.000 claims description 8
- 238000001228 spectrum Methods 0.000 claims description 4
- 238000003672 processing method Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 description 36
- 238000001514 detection method Methods 0.000 description 28
- 230000000694 effects Effects 0.000 description 13
- 239000000284 extract Substances 0.000 description 13
- 230000003068 static effect Effects 0.000 description 11
- 230000000007 visual effect Effects 0.000 description 10
- 230000011218 segmentation Effects 0.000 description 7
- 239000013598 vector Substances 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 239000011295 pitch Substances 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000007621 cluster analysis Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012805 post-processing Methods 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 101000969688 Homo sapiens Macrophage-expressed gene 1 protein Proteins 0.000 description 2
- 102100021285 Macrophage-expressed gene 1 protein Human genes 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000033764 rhythmic process Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000005562 fading Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/14—Picture signal circuitry for video frequency region
- H04N5/147—Scene change detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7834—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7847—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
- G06F16/785—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using colour or luminescence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Library & Information Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Television Signal Processing For Recording (AREA)
- Image Analysis (AREA)
Description
【発明の属する技術分野】
本発明は、AV信号処理装置および方法、プログラム、並びに記録媒体に関し、特に、一連の映像信号の中から所望する部分を選択して再生させる場合に用いて好適なAV信号処理装置および方法、プログラム、並びに記録媒体に関する。
【0002】
【従来の技術】
例えば、ビデオデータに録画されたテレビ番組のような大量の異なる映像データにより構成される映像アプリケーションの中から、興味のある部分等の所望の部分を探して再生したい場合がある。
【0003】
このように、所望の映像内容を抽出するための一般的な技術としては、アプリケーションの主要場面を描いた一連の映像を並べて作成されたパネルであるストーリボードがある。このストーリボードは、ビデオデータをいわゆるショットに分解し、各ショットにおいて代表される映像を表示したものである。このような映像抽出技術は、そのほとんどが、例えば“G. Ahanger and T.D.C. Little, A survey of technologies for parsing and indexing digital video, J. of Visual Communication and Image Representation 7:28-4, 1996”に記載されているように、ビデオデータからショットを自動的に検出して抽出するものである。
【0004】
【発明が解決しようとする課題】
ところで、例えば代表的な30分のテレビ番組中には、数百ものショットが含まれている。そのため、上述した従来の映像抽出技術において、ユーザは、抽出された膨大な数のショットを並べたストーリボードを調べる必要があり、このようなストーリボードを理解するにはユーザに大きな負担を強いる必要があった。
【0005】
また、従来の映像抽出技術においては、例えば、話し手の変化に応じて交互に2者を撮影した会話場面におけるショットは、冗長のものが多いという問題があった。このように、ショットは、ビデオ構造を抽出する対象としては階層が低すぎて無駄な情報量が多く、このようなショットを抽出する従来の映像抽出技術は、ユーザにとって利便性のよいものではなかった。
【0006】
また、他の映像抽出技術としては、例えば“A. Merlino, D. Morey and M. Maybury, Broadcast news navigation using story segmentation, Proc. of ACM Multimedia 97, 1997”や特開平10−136297号公報に記載されているように、ニュースやフットボールゲームといった特定の内容ジャンルに関する非常に専門的な知識を用いるものがある。しかしながら、この従来の映像抽出技術は、目的のジャンルに関しては良好な結果を得ることができるが、他のジャンルには全く役に立たず、更にジャンルに限定される結果、容易に一般化することができないという問題があった。
【0007】
さらに、他の映像抽出技術としては、例えば米国特許5708767号公報に記載されているように、いわゆるストーリユニットを抽出するものがある。しかしながら、この従来の映像抽出技術は、完全に自動化されたものではなく、どのショットが同じ内容を示すものであるかを決定するために、ユーザの操作が必要であった。また、この従来の映像抽出技術は、処理に要する計算が複雑であるとともに、適用対象として映像情報のみに限定されるといった問題もあった。
【0008】
さらにまた、他の映像抽出技術としては、例えば特開平9−214879号公報に記載されているように、ショット検出と無音部分検出とを組み合わせることによりシーンを識別するものがある。しかしながら、この従来の映像抽出技術は、無音部分がショット境界に対応した場合のみに限定されたものであった。
【0009】
また、他の映像抽出技術としては、例えば“H. Aoki, S. Shimotsuji and O. Hori, A shot classification method to select effective key-frames for video browsing, IPSJ Human Interface SIG Notes, 7:43-50, 1996”や特開平9−93588号公報に記載されているように、ストーリボードにおける表示の冗長度を低減する為に、反復された類似ショットを検出するものがある。しかしながら、この従来の映像抽出技術は、映像情報のみに適用できるものであり、音声情報に適用できるものではなかった。
【0010】
さらに、これら従来技術ではセットトップボックスやディジタルビデオレコーダなどの家庭機器に実装するにあたり、複数の問題が生じている。それは、主に従来技術では後処理を行うことが前提とされていたためである。具体的には、次の3つの問題が挙げられる。
【0011】
1つ目の問題は、セグメント数は、コンテンツの長さに依存し、一定であってもその中に含まれるショットの数が一定でない。そのためシーン検出に必要なメモリ量の固定ができないので必要とするメモリ量を過剰に設定しなければならなかった。これはメモリ量の少ない家庭機器では大きな問題であった。
【0012】
2つ目の問題は、家庭機器では、決められた時間内に決められた処理を必ず終わらせなければならない実時間処理が必要とされる。しかし、セグメント数が固定できなく、また、後処理処理を行わなければならないため、常に決められた時間内に処理を終わらせるのは困難であった。このことは家庭用機器に実装されている高性能でないCPUを使用しなければならない場合、さらに実時間処理を行うことが困難であることを意味する。
【0013】
3つ目の問題は、今まで述べてきたように後処理が必要であるため、セグメントが生成される毎にシーン検出の処理結果が終わらせることができない。これは録画途中で何らかの理由で録画状態が止まった場合、それまでの途中結果を得られないことを意味する。これは録画しながら逐次処理ができないことを意味し、家庭用機器では大きな問題になる。
【0014】
また、従来技術では、シーンを決定する場合、セグメントの繰り返しのパターンやそれ以外のセグメントのグループ化などによる方法を用いていたためシーンの検出結果は一意的になっていた。故に検出された境界が実際のシーンの境界である可能性が高いか低いかを判断することは不可能であり、段階的にシーンの検出数を制御することができなかった。
【0015】
さらに、ビデオを一覧するに当たって、見易くするため得られたシーンの数をできる限り少なくすることが必要となる。そのゆえに、検出したシーンの数が限定された場合に、どのシーンを見せるとよいかという問題が生じる。そのため、得られたシーンの各々の重要性が解れば、その重要性の順番に従い、シーンを見せると一覧するためによい。ただし、従来技術では得られたシーンがどの程度重要であるかを計る尺度を提供していない。
【0016】
本発明はこのような状況に鑑みてなされたものであり、録画したビデオデータを任意のシーンから再生できるように、シーンの境界を検出することを目的とする。
【0017】
【課題を解決するための手段】
本発明のAV信号処理装置は、AV信号を構成する一連のフレームによって形成されるセグメントの特徴量を抽出する特徴量抽出手段と、基準となるセグメントと他のセグメントとの特徴量の類似性を測定するための測定基準を算出する算出手段と、測定基準を用いて、基準となるセグメントと他のセグメントとの類似性を測定する類似性測定手段と、類似性測定手段により測定された類似性を用いて、基準となるセグメントに対して、所定の時間領域内における類似セグメントを求め、類似セグメントの時間分布を解析し、過去と未来の時間帯に存在する類似セグメントの数の比率を数値化して測定値を計算する測定値計算手段と、測定値計算手段により計算された測定値の時間的パターンの変化を解析し、解析結果に基づいて基準となるセグメントがシーンの境界であるか否かを判定する境界判定手段とを含む。
【0018】
AV信号には、映像信号および音声信号のうちの少なくとも一方を含むようにすることができる。
【0019】
本発明のAV信号処理装置は、基準となるセグメントに対応する測定値の変化の程度を示す強度値を計算する強度値計算手段をさらに含むことができる。
【0021】
前記境界判定手段は、測定値の絶対値の総和に基づき、基準となるセグメントがシーンの境界であるか否かを判定させるようにすることができる。
【0022】
本発明のAV信号処理装置は、AV信号に映像信号が含まれる場合、映像セグメントの基本単位となるショットを検出して、映像セグメントを生成する映像セグメント生成手段をさらに含むことができる。
【0023】
本発明のAV信号処理装置は、AV信号に音声信号が含まれる場合、音声信号の特徴量および無音区間のうちの少なくとも一方を用いて、音声セグメントを生成する音声セグメント生成手段をさらに含むことができる。
【0024】
映像信号の特徴量には、少なくともカラーヒストグラムが含まれるようにすることができる。
【0025】
音声信号の特徴量には、音量およびスペクトラムのうちの少なくとも一方が含まれるようにすることができる。
【0026】
前記境界判定手段は、予め設定された閾値と測定値を比較することにより、基準となるセグメントがシーンの境界であるか否かを判定させるようにすることができる。
【0027】
本発明のAV信号処理方法は、AV信号を構成する一連のフレームによって形成されるセグメントの特徴量を抽出する特徴量抽出ステップと、基準となるセグメントと他のセグメントとの特徴量の類似性を測定するための測定基準を算出する算出ステップと、測定基準を用いて、基準となるセグメントと他のセグメントとの類似性を測定する類似性測定ステップと、類似性測定ステップの処理により測定された類似性を用いて、基準となるセグメントに対して、所定の時間領域内における類似セグメントを求め、類似セグメントの時間分布を解析し、過去と未来の時間帯に存在する類似セグメントの数の比率を数値化して測定値を計算する測定値計算ステップと、測定値計算ステップの処理により計算された測定値の時間的パターンの変化を解析し、解析結果に基づいて基準となるセグメントがシーンの境界であるか否かを判定する境界判定ステップとを含む。
【0028】
本発明のプログラムは、AV信号を構成する一連のフレームによって形成されるセグメントの特徴量を抽出する特徴量抽出ステップと、基準となるセグメントと他のセグメントとの特徴量の類似性を測定するための測定基準を算出する算出ステップと、測定基準を用いて、基準となるセグメントと他のセグメントとの類似性を測定する類似性測定ステップと、類似性測定ステップの処理により測定された類似性を用いて、基準となるセグメントに対して、所定の時間領域内における類似セグメントを求め、類似セグメントの時間分布を解析し、過去と未来の時間帯に存在する類似セグメントの数の比率を数値化して測定値を計算する測定値計算ステップと、測定値計算ステップの処理により計算された測定値の時間的パターンの変化を解析し、解析結果に基づいて基準となるセグメントがシーンの境界であるか否かを判定する境界判定ステップとをコンピュータに実行させる。
【0029】
本発明の記録媒体のプログラムは、AV信号を構成する一連のフレームによって形成されるセグメントの特徴量を抽出する特徴量抽出ステップと、基準となるセグメントと他のセグメントとの特徴量の類似性を測定するための測定基準を算出する算出ステップと、測定基準を用いて、基準となるセグメントと他のセグメントとの類似性を測定する類似性測定ステップと、類似性測定ステップの処理により測定された類似性を用いて、基準となるセグメントに対して、所定の時間領域内における類似セグメントを求め、類似セグメントの時間分布を解析し、過去と未来の時間帯に存在する類似セグメントの数の比率を数値化して測定値を計算する測定値計算ステップと、測定値計算ステップの処理により計算された測定値の時間的パターンの変化を解析し、解析結果に基づいて基準となるセグメントがシーンの境界であるか否かを判定する境界判定ステップとを含む。
【0030】
本発明のAV信号処理装置および方法、並びにプログラムにおいては、AV信号を構成する一連のフレームによって形成されるセグメントの特徴量が抽出され、基準となるセグメントと他のセグメントとの特徴量の類似性を測定するための測定基準が算出され、測定基準を用いて、基準となるセグメントと他のセグメントとの類似性が測定され、測定された類似性を用いて、基準となるセグメントに対して、所定の時間領域内における類似セグメントを求め、類似セグメントの時間分布が解析され、過去と未来の時間帯に存在する類似セグメントの数の比率が数値化されて測定値が計算される。また、計算された測定値の時間的パターンの変化が解析され、解析結果に基づいて基準となるセグメントがシーンの境界であるか否かが判定される。
【0031】
【発明の実施の形態】
本発明は、ビデオデータをシーンに切り分けることが目的である。この切り分けるという意味はシーンとシーンの境界を検出するということである。シーンは、1以上のセグメントによって構成される。各シーンは、それぞれに固有な特徴を持っているため、隣接するシーンの各境界のセグメントを比較した場合、それらの特徴には顕著な違いが現れる。換言すれば、そのような顕著な違いが現れるところがシーンの境界であり、それを検出することによりセグメント単位で、シーンを切り分けることが可能になる。
【0032】
この処理を行うに当たり、上述した従来技術と同ように、最初に対象となるビデオデータをセグメント単位に分割する。分割して得たセグメントは時系列を成し、各セグメントについて、次のセグメントとの間にシーン境界があるか否かを判断することが必要となる。各セグメントを基準とし、その近隣のセグメントの中に似ているセグメントが時間的に何処にあるのかを調べる。
【0033】
シーン境界があると判断された場合、過去に集中して存在していたパターンから、未来に集中して存在するパターンへと短い時間で特異な変化が現れる変化点が検出される。その変化点から次の変化点までが一つのシーンである。このようなパターンの変化が起こるところを見つけるため、シーンの境界の前後で局所的な変化を見るだけで十分な情報が得られる。
【0034】
さらにこの局所的変化の大きさの大小を測定することによりシーンの切り分けを段階的に制御することも可能である。これは視覚的な変化点がシーンの意味的な変化点と良く一致することが経験的に判明したことからである。本発明は以上のことを基本にしてシーンの境界を検出し、ビデオデータなどのシーンを切り分けるためのものである。またこのシーン境界情報をもとにビデオデータを見やすく表示することを可能とする。
【0035】
次に、本発明の概要を具体的に説明する。まず、シーンとシーンの境界が存在する場合と存在しない場合に分けて、それぞれの特徴について説明する。あるビデオデータの具体例を図2に示す。同図では、ビデオデータの単位はセグメント単位で示されており、3つのシーン1乃至シーン3によって構成されているものである。同図において時間軸は右方向に向いているものとする。境界が存在しない領域を非境界領域とし、境界が存在している領域を境界領域とし、図4に詳細に示してある。
【0036】
図4(A)の非境界領域に示してあるのはシーン2の時間内の部分であり、他のシーンとの境界が存在していないセグメント3乃至セグメント11の時間領域である。また、これと対照的に図4(B)の境界領域はシーン2とシーン3の境界領域を含むところでシーンとシーンの隣接しているセグメント8乃至セグメント15の時間領域を示している。
【0037】
まず、境界が存在しない場合を表している非境界領域の特徴について説明する。非境界領域は、類似したセグメントだけで構成されているので、非境界領域の中の基準セグメントに対して過去、未来の時間帯と分けた場合ほぼ均等に類似セグメントは存在する。そのため類似セグメントの分布パターンには特異な変化のパターンは現れない。
【0038】
境界領域は、非境界領域と異なり、2つのシーンが隣接している境界点を含む時間帯の部分を表している。ここでシーンというのは互いに高い類似性を持ったセグメントからなっているものを意味する。そのため、シーン2を構成しているセグメント8乃至セグメント11と、異なるシーン3を構成しているセグメント12乃至セグメント15とが隣り合っており、それらの境界を挟んでシーンのセグメントの特徴がそれぞれ異なる。
【0039】
シーンの境界を検出するには、まず各セグメントを時間的基準(現在)と仮定する。それぞれに対し、最も類似したセグメントの時間的分布パターン(基準から見て過去であるのか未来であるのか)の変化を調べることにより実現できる。
【0040】
これは図4(B)に示す境界領域からわかるように、セグメント8乃至セグメント11が順に時間的基準となって境界に近づくにつれ、最も類似なセグメントが未来に対して過去に存在する比率が高くなって行き、境界直近(シーンの終り)では100%になる。そして境界を越えた直後(次のシーンの先頭)では過去に対して未来に存在する比率が100%になり、セグメント12乃至セグメント15が順に時間的基準となるにつれ、その比率が低くなって行く。
【0041】
したがって、このような最も類似なセグメントの時間分布比率のパターンの変化によって、シーンの境界である可能性が高い場所を特定できる。また、この典型的なパターンはシーンの境界付近の局所的な部分に現れる確率が非常に高いので、境界近辺だけを調べればそのパターンの変化から境界を特定できる。これは言い換えれば、類似セグメントの分布パターンを調べる時間領域を必要以上に大きく取らなくても良いということになる。
【0042】
また、これらのパターンの変化を数値化すると、その値の変化の度合いがシーンの視覚的変化の度合いに連動している。そしてシーンの視覚的変化の度合いはシーンの意味的な変化の度合いに連動していることが経験上および実験的結果によってわかっている。したがってこの数値化した値を境界性測定値とすると、この値の大小によりシーンの意味的度合いの大小に対応したシーンを検出することが可能となる。
【0043】
次に、本発明の一実施の形態である映像音声処理装置について説明するが、その前に、映像音声処理装置が処理の対象とするビデオデータについて説明する。
【0044】
本発明においては、処理対象とするビデオデータを、図1に示すようにモデル化し、フレーム、セグメント、シーンの3つのレベルに階層化されたデータ構造を有するものとする。すなわち、ビデオデータは、最下位層において、一連のフレームにより構成される。また、ビデオデータは、フレームの1つ上の階層として、連続するフレームのひと続きから形成されるセグメントにより構成される。さらに、ビデオデータは、最上位層において、このセグメントを意味のある関連に基づきまとめて形成されるシーンにより構成される。
【0045】
このビデオデータは、一般に、映像および音声の両方の情報を含む。すなわち、このビデオデータにおいてフレームは、単一の静止画像である映像フレームと、数KHz乃至数十KHz」のサンプリングレートでサンプルされた音声情報を表す音声フレームが含まれる。
【0046】
また、映像セグメントは、単一のカメラにより連続的に撮影された一連の映像フレームから構成され、一般にはショットと呼ばれる。
【0047】
一方、音声セグメントについては、多くの定義が可能であり、例として次に示すようなものが考えられる。音声セグメントは、一般によく知られている方法により検出されたビデオデータ中の無音期間により境界を定められて形成されるものがある。また、音声セグメントは、“D. Kimber and L. Wilcox, Acoustic Segmentation for Audio Browsers, Xerox Parc Technical Report”に記載されているように、例えば、音声、音楽、ノイズ、無音等のように少数のカテゴリに分類された音声フレームのひと続きから形成されるものがある。さらに、音声セグメントは、“S. Pfeiffer, S. Fischer and E. Wolfgang, Automatic Audio Content Analysis, Proceeding of ACM Multimedia 96, Nov. 1996, pp21-30”に記載されているように、2枚の連続する音声フレーム間のある特徴における大きな変化を音声の変わり目として検出し、これに基づいて決定される場合もある。
【0048】
シーンは、ビデオデータの内容を意味に基づくより高いレベルのものである。シーンは、主観的なものであり、ビデオデータの内容あるいはジャンルに依存する。シーンは、その特徴が互いに類似性を示す映像セグメントまたは音声セグメントで構成されている。
【0049】
ここでは、ビデオデータ内の各セグメントについて、その近隣に存在する類似的特徴を持っているセグメントが、過去に集中して存在していたパターンから、未来に集中して存在するパターンへと特異な変化を示す変化点を検出し、その変化点から次の変化点を一つのシーンとするものである。このようなパターンがシーンの切れ目と対応するのは、各シーンに含まれているセグメントの特徴が異なるためにシーンの境界でセグメントの類似的特徴が大きく変化するからである。これはビデオデータにおける高いレベルでの意味のある構造と非常に関係があり、シーンは、このようなビデオデータにおける高いレベルでの意味を持ったまとまりを示すものである。
【0050】
次に、本発明の一実施の形態である映像音声処理装置の構成例について、図3を参照して説明する。映像音声処理装置は、上述したビデオデータにおけるセグメントの特徴量を用いてセグメント間の類似性を測定し、これらのセグメントをシーンにまとめてビデオ構造を自動的に抽出するものであり、映像セグメントおよび音声セグメントの両方に適用できるものである。
【0051】
映像音声処理装置は、図3に示すように、入力されるビデオデータのストリームを映像または音声、あるいは両方のセグメントに分割するビデオ分割部11、ビデオデータの分割情報を記憶するビデオセグメントメモリ12、各映像セグメントにおける特徴量を抽出する映像特徴量抽出部13、各音声セグメントにおける特徴量を抽出する音声特徴量抽出部14、映像セグメントおよび音声セグメントの特徴量を記憶するセグメント特徴量メモリ15、映像セグメントおよび音声セグメントをシーンにまとめるシーン検出部16、および2つのセグメント間の類似性を測定する特徴量類似性測定部17より構成される。
【0052】
ビデオ分割部11は、入力される、例えば、MPEG(Moving Picture Experts Group)1、MPEG2、またはいわゆるDV(Digital Video)などの圧縮ビデオデータフォーマットを含む種々のディジタル化されたフォーマットにおける映像データと音声データとからなるビデオデータのストリームを映像、音声またはこれらの両方のセグメントに分割するものである。
【0053】
ビデオ分割部11は、入力されるビデオデータが圧縮フォーマットであった場合、この圧縮ビデオデータを完全伸張することなく直接処理することができる。ビデオ分割部11は、入力されたビデオデータを処理し、映像セグメントと音声セグメントとに分割する。また、ビデオ分割部11は、入力したビデオデータを分割した結果である分割情報を後段のビデオセグメントメモリ12に出力する。さらに、ビデオ分割部11は、映像セグメントと音声セグメントとに応じて、分割情報を後段の映像特徴量抽出部13および音声特徴量抽出部14に出力する。
【0054】
ビデオセグメントメモリ12は、ビデオ分割部11から供給されたビデオデータの分割情報を記憶する。また、ビデオセグメントメモリ12は、後述するシーン検出部16からの問い合わせに応じて、分割情報をシーン検出部16に出力する。
【0055】
映像特徴量抽出部13は、ビデオ分割部11によりビデオデータを分割して得た各映像セグメントの特徴量を抽出する。映像特徴量抽出部13は、圧縮映像データを完全伸張することなく直接処理することができる。映像特徴量抽出部13は、抽出した各映像セグメントの特徴量を後段のセグメント特徴量メモリ15に出力する。
【0056】
音声特徴量抽出部14は、ビデオ分割部11によりビデオデータを分割して得た各音声セグメントの特徴量を抽出する。音声特徴量抽出部14は、圧縮音声データを完全伸張することなく直接処理することができる。音声特徴量抽出部14は、抽出した各音声セグメントの特徴量を後段のセグメント特徴量メモリ15に出力する。
【0057】
セグメント特徴量メモリ15は、映像特徴量抽出部13および音声特徴量抽出部14からそれぞれ供給された映像セグメントおよび音声セグメントの特徴量を記憶する。セグメント特徴量メモリ15は、後述する特徴量類似性測定部17からの問い合わせに応じて、記憶している特徴量やセグメントを特徴量類似性測定部17に出力する。
【0058】
シーン検出部16は、ビデオセグメントメモリ12に保持された分割情報と、セグメント間の類似性とを用いて、映像セグメントおよび音声セグメントがシーンの境界であるかを判断する。シーン検出部16は、各セグメントの近隣の最も類似な特徴量を持つセグメントの分布パターンが、過去に集中した状態から未来に集中した状態へ切り替わる変化点を特定することにより、シーンの境界を検出し先頭部と最後部を確定する。シーン検出部16は、セグメントが発生する毎に1セグメント分、時系列的に移動させ、近隣の最も類似しているセグメントの分布パターンを測定する。シーン検出部16は、特徴量類似性測定部17を用いて、近隣のセグメントで最も類似しているものの数を特定する。すなわち、特徴空間における特徴量の最近傍の数を求める。そしてセグメントの最近傍の類似セグメントがそのセグメントを境にして過去に存在するものと未来に存在するものとの個数の違いのパターンの変化からシーンの境界を特定する。
【0059】
特徴量類似性測定部17は、各セグメントとその近隣のセグメントとの類似性を測定する。特徴量類似性測定部17は、あるセグメントに関する特徴量を検索するようにセグメント特徴量メモリ15に問いかける。
【0060】
ビデオデータ記録部18は、ビデオストリームおよびビデオデータに関する各種のデータである、いわゆる付加情報データを記録する。ここにシーン検出部16から出力されたシーン境界情報およびシーンに対して計算された強度値が保存される。
【0061】
ビデオ表示部19は、ビデオデータ記録部18からのビデオデータを、各種付加情報データに基き、サムネイルのような表示方法やランダムアクセス方法などを実現する。これはユーザの視聴方法に自由度を増やし、利便性良くビデオデータを表示する。
【0062】
制御部20は、ドライブ21を制御して、磁気ディスク22、光ディスク23、光磁気ディスク24、または半導体メモリ25に記憶されている制御用プログラムを読み出し、読み出した制御用プログラムに基づいて、映像音声処理装置の各部を制御する。
【0063】
映像音声処理装置は、図5に概略を示すような一連の処理を行うことによって、シーンを検出する。
【0064】
まず、映像音声処理装置は、同図に示すように、ステップS1において、ビデオ分割を行う。すなわち映像音声処理装置は、ビデオ分割部11に入力されたビデオデータを映像セグメントまたは音声セグメントのいずれか、あるいは可能であればその両方に分割する。
【0065】
映像音声処理装置が適用するビデオ分割方法には、特に前提要件を設けない。例えば、映像音声処理装置は、“G. Ahanger and T.D.C. Little, A survey of technologies for parsing and indexing digital video, J. of Visual Communication and Image Representation 7:28-4, 1996”に記載されているような方法によりビデオ分割を行う。このようなビデオ分割の方法は、当該技術分野ではよく知られたものであり、映像音声処理装置は、いかなるビデオ分割方法も適用できるものとする。
【0066】
次に、映像音声処理装置は、ステップS2において、特徴量の抽出を行う。すなわち映像音声処理装置は、映像特徴量抽出部13や音声特徴量抽出部14により、そのセグメントの特徴を表す特徴量を計算する。映像音声処理装置では、例えば、各セグメントの時間長や、カラーヒストグラムやテクスチャフィーチャといった映像特徴量や、周波数解析結果、レベル、ピッチといった音声特徴量やアクティビティ測定結果等が、適用可能な特徴量として計算される。勿論、映像音声処理装置は、適用可能な特徴量としてこれらに限定されるものではない。
【0067】
続いて、映像音声処理装置は、ステップS3において、特徴量を用いたセグメントの類似性測定を行う。すなわち映像音声処理装置は、特徴量類似性測定部17により非類似性測定を行い、その測定基準により、セグメントとその近隣のセグメントがどの程度類似しているかを測定する。映像音声処理装置は、先のステップS2において抽出した特徴量を用いて、非類似性測定基準を計算する。
【0068】
そして、映像音声処理装置は、ステップS4において、セグメントがシーンの切れ目にあたるか否かを判断する。すなわち、映像音声処理装置は、先のステップS3において計算した非類似性測定基準と、先のステップS2において抽出した特徴量とを用いて、各セグメントを現在と見なし、近接の類似したセグメントが、その基準とするセグメントに対し過去か未来かどちらに存在比率が高いかを求め、その存在比の率変化のパターンを調べ、シーンの境界であるか否かの判断をする。映像音声処理装置は、このようにして最終的に各セグメントがシーンの切れ目であるか否かを出力する。
【0069】
このような一連の処理を経ることによって、映像音声処理装置は、ビデオデータからシーンを検出することができる。
【0070】
したがって、ユーザは、この結果を用いることによって、ビデオデータの内容を要約したり、ビデオデータ中の興味のあるポイントに迅速にアクセスしたりすることが可能となる。
【0071】
以下、上述した処理の各ステップをより詳細に説明する。
【0072】
ステップS1におけるビデオ分割について説明する。映像音声処理装置は、ビデオ分割部11に入力されたビデオデータを映像セグメントまたは音声セグメントのいずれか、あるいは可能であればその両方に分割するが、このビデオデータにおけるセグメントの境界を自動的に検出するための技術は多くのものがあり、映像音声処理装置において、このビデオ分割方法に特別な前提要件を設けないことは上述した通りである。
【0073】
一方、映像音声処理装置において、後の処理によるシーン検出の精度は、本質的に、基礎となるビデオ分割の精度に依存する。なお、映像音声処理装置におけるシーン検出は、ある程度ビデオ分割時のエラーを許容することができる。特に、映像音声処理装置において、ビデオ分割は、セグメント検出が不十分である場合よりも、セグメント検出を過度に行う場合の方が好ましい。映像音声処理装置は、類似したセグメントの検出が過度である結果である限り、一般に、シーン検出の際に検出過度であるセグメントを同一シーンとしてまとめることができる。
【0074】
ステップS2における特徴量抽出について説明する。特徴量とは、セグメントの特徴を表すとともに、異なるセグメント間の類似性を測定するためのデータを供給するセグメントの属性である。映像音声処理装置は、映像特徴量抽出部13や音声特徴量抽出部14において各セグメントの特徴量を計算し、セグメントの特徴を表す。
【0075】
映像音声処理装置は、いかなる特徴量の具体的詳細にも依存するものではないが、映像音声処理装置において用いて効果的であると考えられる特徴量としては、例えば以下に示す映像特徴量、音声特徴量、映像音声共通特徴量のようなものがある。映像音声処理装置において適用可能となるこれら特徴量の必要条件は、非類似性の測定が可能であることである。また映像音声処理装置は、効率化のために、特徴量抽出と上述したビデオ分割とを同時に行うことがある。以下に説明する特徴量は、このような処理を可能にするものである。
【0076】
上記特徴量としては、まず映像に関するものが挙げられる。以下では、これを映像特徴量と称することにする。映像セグメントは、連続する映像フレームにより構成されるため、映像セグメントから適切な映像フレームを抽出することによって、その映像セグメントの描写内容を、抽出した映像フレームで特徴付けることが可能である。すなわち映像セグメントの類似性は、適切に抽出された映像フレームの類似性で代替可能である。つまり映像特徴量は、映像音声処理装置で用いることができる重要な特徴量の1つである。この場合の映像特徴量は、単独では静的な情報しか表せないが、映像音声処理装置は、後述するような方法を適用することによって、この映像特徴量に基づく映像セグメントの動的な特徴を抽出する。
【0077】
映像特徴量として既知のものは多数存在するが、シーン検出のためには以下に示す色特徴量(ヒストグラム)および映像相関が、計算コストと精度との良好な兼ね合いを与えることを見出したことから、映像音声処理装置は、映像特徴として、色特徴量および映像相関を用いることにする。
【0078】
映像音声処理装置において、映像における色は、2つの映像が類似しているかを判断する際の重要な材料となる。カラーヒストグラムを用いて映像の類似性を判断することは、例えば“G. Ahanger and T.D.C. Little, A survey of technologies for parsing and indexing digital video, J. of Visual Communication and Image Representation 7:28-4, 1996”に記載されているように、よく知られている。
【0079】
ここでカラーヒストグラムとは、例えばLUVやRGB等の3次元色空間をn個の領域に分割し、映像における画素の、各領域での出現頻度の相対的割合を計算したものである。そして、得られた情報からは、n次元ベクトルが与えられる。圧縮されたビデオデータについては、例えば米国特許5708767号公報に記載されているように、カラーヒストグラムを、圧縮データから直接抽出することができる。
【0080】
映像音声処理装置では、セグメントを構成する映像(MPEG1/2,DVなど一般的に使われている方式)における元々のYUV色空間のヒストグラムベクトルを得る。
【0081】
映像音声処理装置では、セグメントを構成する映像(MPEG1/2,DVなど一般的に使われている方式)における元来のYUV色空間を、色チャンネル当たり2ビットでサンプリングして構成した、22・3=64次元のヒストグラムベクトルを得る。
【0082】
このようなヒストグラムは、映像の全体的な色調を表すが、これには時間情報が含まれていない。そこで、映像音声処理装置では、もう1つの映像特徴量として、映像相関を計算する。映像音声処理装置でのシーン検出において、複数の類似セグメントが互いに交差した構造は、それがまとまった1つのシーン構造であることの有力な指標となる。
【0083】
例えば会話場面において、カメラの位置は、2人の話し手の間を交互に移動するが、カメラは通常、同一の話し手を再度撮影するときには、ほぼ同じ位置に戻る。このような場合における構造を検出するためには、グレイスケールの縮小映像に基づく相関がセグメントの類似性の良好な指標となることを見出したことから、映像音声処理装置では、元の映像をM×Nの大きさのグレイスケール映像に間引き縮小し、これを用いて映像相関を計算する。ここで、MとNは、両方とも小さな値で十分であり、例えば8×8である。つまり、これらの縮小グレイスケール映像は、MN次元の特徴量ベクトルとして解釈される。
【0084】
さらに上述した映像特徴量とは異なる特徴量としては、音声に関するものが挙げられる。以下では、この特徴量を音声特徴量と称することにする。音声特徴量とは、音声セグメントの内容を表すことができる特徴量であり、映像音声処理装置は、この音声特徴量として、周波数解析、ピッチ、レベル等を用いることができる。これらの音声特徴量は、種々の文献により知られているものである。
【0085】
まず、映像音声処理装置は、フーリエ変換等の周波数解析を行うことによって、単一の音声フレームにおける周波数情報の分布を決定することができる。映像音声処理装置は、例えば、1つの音声セグメントにわたる周波数情報の分布を表すために、FFT(Fast Fourier Transform;高速フーリエ変換)成分、周波数ヒストグラム、パワースペクトル、ケプストラム(Cepstrum)、その他の特徴量を用いることができる。
【0086】
また、映像音声処理装置は、平均ピッチや最大ピッチなどのピッチや、平均ラウドネスや最大ラウドネスなどの音声レベルもまた、音声セグメントを表す有効な音声特徴量として用いることができる。
【0087】
さらに他の特徴量としては、映像音声共通特徴量が挙げられる。これは、特に映像特徴量でもなく音声特徴量でもないが、映像音声処理装置において、シーン内のセグメントの特徴を表すのに有用な情報を与えるものである。映像音声処理装置は、この映像音声共通特徴量として、セグメント長とアクティビティとを用いる。
【0088】
映像音声処理装置は、映像音声共通特徴量として、セグメント長を用いることができる。このセグメント長は、セグメントにおける時間長である。一般に、シーンは、そのシーンに固有のリズム特徴を有する。このリズム特徴は、シーン内のセグメント長の変化として表れる。例えば、迅速に連なった短いセグメントは、コマーシャルを表す。一方、会話シーンにおけるセグメントは、コマーシャルの場合よりも長く、また会話シーンには、相互に組み合わされたセグメントが互いに類似しているという特徴がある。映像音声処理装置は、このような特徴を有するセグメント長を映像音声共通特徴量として用いることができる。
【0089】
また、映像音声処理装置は、映像音声共通特徴量として、アクティビティを用いることができる。アクティビティとは、セグメントの内容がどの程度動的あるいは静的であるように感じられるかを表す指標である。例えば、視覚的に動的である場合、アクティビティは、カメラが対象物に沿って迅速に移動する度合い、または撮影されているオブジェクトが迅速に変化する度合いを表す。
【0090】
このアクティビティは、カラーヒストグラムのような特徴量のフレーム間非類似性の平均値を測定することにより、間接的に計算される。ここで、フレームiとフレームjとの間で測定された特徴量Fに対する非類似性測定基準をdF(i,j)と定義すると、映像アクティビティVFは、次式(1)のように定義される。
【数1】
【0091】
式(1)において、bとfはそれぞれ、1セグメントにおける最初と最後のフレームのフレーム番号である。映像音声処理装置は、具体的には、例えば上述したヒストグラムを用いて、映像アクティビティVFを計算する。
【0092】
ところで、上述した映像特徴量を始めとする特徴量は、基本的にはセグメントの静的情報を表すものであることは上述した通りであるが、セグメントの特徴を正確に表すためには、その動的情報も考慮する必要がある。そこで、映像音声処理装置は、以下に示すような特徴量のサンプリング方法により動的情報を表す。
【0093】
映像音声処理装置は、例えば図5に示すように、1セグメント内の異なる時点から1以上の静的な特徴量を抽出する。このとき、映像音声処理装置は、特徴量の抽出数を、そのセグメント表現における忠実度の最大化とデータ冗長度の最小化とのバランスをとることにより決定する。例えば、セグメント内のある1画像が当該セグメントのキーフレームとして指定可能な場合には、そのキーフレームから計算されたヒストグラムが、抽出すべきサンプリング特徴量となる。
【0094】
映像音声処理装置は、後述するサンプリング方法を用いて、対象とするセグメントにおいて、特徴として抽出可能なサンプルのうち、どのサンプルを選択するかを決定する。
【0095】
ところで、あるサンプルが常に所定の時点、例えばセグメント内の最後の時点において選択される場合を考える。この場合、黒フレームへ変化してゆく(フェードしてゆく)任意の2つのセグメントについては、サンプルが同一の黒フレームとなるため、同一の特徴量が得られる結果になる恐れがある。すなわち、これらのセグメントの映像内容がいかなるものであれ、選択した2つのフレームは、極めて類似していると判断されてしまう。このような問題は、サンプルが良好な代表値でないために発生するものである。
【0096】
そこで、映像音声処理装置は、このように固定点で特徴量を抽出するのではなく、セグメント全体における統計的な代表値を抽出することとする。ここでは、一般的な特徴量のサンプリング方法を2つの場合、すなわち、特徴量を実数のn次元ベクトルとして表すことができる第1の場合と、非類似性測定基準しか利用できない第2の場合とについて説明する。なお、第1の場合は、ヒストグラムやパワースペクトル等、最もよく知られている映像特徴量および音声特徴量が含まれる。
【0097】
第1の場合においては、サンプル数kは予め決められており、映像音声処理装置は、“L. Kaufman and P.J. Rousseeuw, Finding Groups in Data:An Introduction to Cluster Analysis, John-Wiley and sons, 1990”に記載されてよく知られているk平均値クラスタリング法(k-means-clustering method)を用いて、セグメント全体についての特徴量をk個の異なるグループに自動的に分割する。そして、映像音声処理装置は、サンプル値として、k個の各グループから、グループの重心値(centroid)またはこの重心値に近いサンプルを選択する。映像音声処理装置におけるこの処理の複雑度は、サンプル数に関して単に直線的に増加するに留まる。
【0098】
一方、第2の場合においては、映像音声処理装置は、“L. Kaufman and P.J. Rousseeuw, Finding Groups in Data:An Introduction to Cluster Analysis, John-Wiley and sons, 1990”に記載されているk−メドイドアルゴリズム法(k-medoids algorithm method)を用いて、k個のグループを形成する。そして、映像音声処理装置は、サンプル値として、k個の各グループ毎に、上述したグループのメドイド(medoid)を用いる。
【0099】
なお、映像音声処理装置においては、抽出された動的特徴を表す特徴量についての非類似性測定基準を構成する方法は、その基礎となる静的な特徴量の非類似性測定基準に基づくが、これについては後述する。
【0100】
このようにして、映像音声処理装置は、静的な特徴量を複数抽出し、これら複数の静的な特徴量を用いることで、動的特徴を表すことができる。
【0101】
以上のように、映像音声処理装置は、種々の特徴量を抽出することができる。これらの各特徴量は、一般に、単一ではセグメントの特徴を表すのに不十分であることが多い。そこで、映像音声処理装置は、これらの各種特徴量を組み合わせることで、互いに補完し合う特徴量の組を選択することができる。例えば、映像音声処理装置は、上述したカラーヒストグラムと映像相関とを組み合わせることによって、各特徴量が有する情報よりも多くの情報を得ることができる。
【0102】
次に、図5のステップS3における特徴量を用いたセグメントの類似性測定について説明する。映像音声処理装置は、2つの特徴量について、それがどの程度非類似であるかを測定する実数値を計算する関数である非類似性測定基準を用いて、特徴量類似性測定部17によりセグメントの類似性測定を行う。この非類似性測定基準は、その値が小さい場合は2つの特徴量が類似していることを示し、値が大きい場合は非類似であることを示す。ここでは、特徴量Fに関する2つのセグメントS1,S2の非類似性を計算する関数を非類似性測定基準dF(S1,S2)と定義する。なお、この関数は、以下の式(2)で与えられる関係を満足させる必要がある。
【数2】
【0103】
ところで、非類似性測定基準の中には、ある特定の特徴量にのみ適用可能なものがあるが、“G. Ahanger and T.D.C. Little, A survey of technologies for parsing and indexing digital video, J. of Visual Communication and Image Representation 7:28-4, 1996”や“L. Kaufman and P.J. Rousseeuw, Finding Groups in Data:An Introduction to Cluster Analysis, John-Wiley and sons, 1990”に記載されているように、一般には、多くの非類似性測定基準は、n次元空間における点として表される特徴量についての類似性を測定することに適用可能である。
【0104】
その具体例は、ユークリッド距離、内積、L1距離等である。ここで、特にL1距離が、ヒストグラムや映像相関などの特徴量を含む種々の特徴量に対して有効に作用することから、映像音声処理装置は、L1距離を導入する。ここで、2つのn次元ベクトルをA,Bとした場合、A,B間のL1距離dL1(A,B)は次式(3)で与えられる。
【数3】
ここでA,Bの添え字iは、n次元ベクトルA,Bそれぞれのi次元の要素を示すものである。
【0105】
また、映像音声処理装置は、上述したように、動的特徴を表す特徴量として、セグメントにおける様々な時点での静的な特徴量を抽出する。そして、映像音声処理装置は、抽出された二つの動的特徴量間の類似性を決定するために、その非類似性測定基準として、その基礎となる静的特徴量の間の非類似性測定基準を用いる。これら動的特徴量の非類似性測定基準は、多くの場合、各動的特徴量から選択された最も類似した静的特徴量の対の非類似性値を用いて決定されるのが最良である。この場合、2つの抽出された動的特徴量SF1,SF2の間の非類似性測定基準は、次式(4)のように定義される。
【数4】
【0106】
ここで、上式(4)における関数dF(F1,F2)は、その基礎となる静的特徴量Fについての非類似性測定基準を示す。なお、場合によっては、特徴量の非類似性の最小値をとる代わりに、最大値または平均値をとってもよい。
【0107】
ところで、映像音声処理装置は、セグメントの類似性を決定する上で、単一の特徴量だけでは不十分であり、同一セグメントに関する多数の特徴量からの情報を組み合わせることを必要とする場合も多い。この1つの方法として、映像音声処理装置は、種々の特徴量に基づく非類似性を、それぞれの特徴量の重み付き組み合わせとして計算する。すなわち、映像音声処理装置は、k個の特徴量F1,F2,・・・,Fkが存在する場合、次式(5)に示すような組み合わせた特徴量に関する非類似性測定基準dF(S1,S2)を用いる。
【数5】
【0108】
ここで、{wi}は、Σiwi=1となる重み係数である。
【0109】
以上のように、映像音声処理装置は、図5のステップS2において抽出された特徴量を用いて非類似性測定基準を計算し、当該セグメント間の類似性を測定することができる。
【0110】
次に図5のステップS4におけるシーンの切り分けについて説明する。映像音声処理装置は、非類似性測定基準と抽出した特徴量とを用いて、各セグメントに対する近隣の最も類似したセグメントの分布パターンの変化を検出し、シーンの切れ目か否かを判断して出力する。
【0111】
映像音声処理装置は、シーンを検出する際に、次のような4つの処理を行う。
【0112】
▲1▼の処理では、各セグメントを基準としたとき、一定の時間枠の中で最も類似したセグメントを一定数検出する。
【0113】
▲2▼の処理では、▲1▼の処理の後、基準セグメントに対し過去と未来の時間帯に存在する類似セグメントの数の比率を計算し(実際には未来に存在している類似セグメントの個数から過去に存在している類似セグメントの個数を減算するなど)、その計算結果を境界性測定値とする。
【0114】
▲3▼の処理では、▲2▼の処理で得られた境界性測定値を、各セグメントを基準としたときの時間変化を調べ、過去比率が高いものがいくつか連続し、未来比率の高いものがいくつか連続するパターンを示すセグメント位置を検出する。
【0115】
▲4▼の処理では、▲3▼の処理のとき、境界性測定値の絶対値を合計し、この合計値をシーン強度値と呼ぶことにする。このシーン強度値があらかじめ決められた閾値を超えた場合、シーンの境界とする。
【0116】
これらの処理について、図6を参照して具体的に説明する。▲1▼の処理では、例えば図6(A)のように、各セグメントに対して過去に任意のk個のセグメント、未来にもk個のセグメントの時間枠を設定し(例えばここでは5個)、類似セグメントをこの時間枠の中でN個検出する(ここでは4個)。時間は各セグメントを表す数字が大きくなるに連れて未来へと進んで行く。同図の真中の濃い網掛けのセグメント7が、ある時間の基準のセグメントであり、これに対して類似なセグメントはそれよりも薄い網掛けになっているセグメント4,6,9,10である。ここでは4個の類似セグメントを抽出しており、過去に2個、未来に2個存在する。
【0117】
▲2▼の処理では、このとき境界性測定値は、(過去の個数)を(未来の個数)で除算するか、または(未来の個数)から(過去の個数)を減算するかのいずれかの方法で計算する。ここでは、後者の方法で境界性測定値を計算する。ここで、各境界性測定値をFiと表す。iは各セグメントの位置(番号)である。いま、後者の方法で計算すると同図(A)の境界性測定値F6は0となる。
【0118】
▲3▼の処理では、▲2▼の処理での計算を時間軸に沿って行って行く。同図(B)は同図(A)から3セグメント進んだときのセグメント10に対して過去にセグメント5,8,9の3個、未来にセグメント11の1個類似セグメントが存在している。このときの境界性測定値F10=1−3=−2となる。
【0119】
また、同図(C)はさらに1セグメント進んでシーンの境界直前に到達した状態であり、セグメント11の類似セグメント6,7,9,10はすべて過去に集中している。このとき境界性測定値はF11=0−4=−4となる。
【0120】
次に、同図(D)は同図(C)から1セグメント進んだ状態であり、境界を越えて新しいシーンに入った直後であって、シーンの先頭がセグメント12である場合である。類似セグメントは13,14,15、16である。このとき類似セグメントは未来にすべて存在するパターンに変化している。F12=4−0=4となる。
【0121】
最後に、同図(E)は、さらに1セグメント進んだ状態のセグメント13の場合である。同様に、F13=3−1=2となる。この方法ではこのように過去の方に類似セグメントの比率が大きいときは負符号(マイナス符号)であり、正符号(プラス符号)は未来に比率が大きいことを示している。このときの境界性測定値Fiの変化は、
0 … (−2)→(−4)→(+4)→(+2)・・・(6)
のようなパターンを示す。
【0122】
(−4)→(+4)と変化しているところがシーンの境界に対応している。これは図6(A)のようにシーンの中間にある場合は時間枠内にある類似的セグメントは各セグメントを挟んで過去、未来にほぼ均等に存在する。しかし、シーンの境界に近づくにつれて同図(B)のように過去に存在する比率が高くなって行き、同図(C)で過去の存在比率が100%になり、同図(D)のように境界を超えた直後は未来に存在比率が100%に変わるパターンを持つことを表している。このようなパターンを検出することによりほぼ過去100%の存在比率から未来への存在比率ほぼ100%へ大きく変動する変化点がシーンの切れ目と対応付けられる。
【0123】
また、シーンの非境界領域の中であっても過去比率が高いパターンから未来比率の高い比率へ一時的に変化(1セグメント間のみ)する場合がある。しかし、それはシーンの境界ではないことが多い。なぜならば、このような一時的な変化の多くは偶発的に発生するからである。非境界領域のような類似セグメントが過去に存在比率の大きい境界性測定値が複数続いたあとに、未来に存在比率の大きい境界性測定値が複数続くパターンが検出されたときにシーンの境界の可能性が高いと判断する。そうでないときはシーンの境界ではない可能性が高いため、シーンの境界と見なさない。
【0124】
▲4▼の処理では、▲3▼の処理の後、境界性測定値を合計し、シーン境界点の「強さ」を計算する。その強さを測定するために、境界性測定値の絶対値を足すこととする。その値の変化の度合いがシーンの視覚的変化の度合いに対応しており、また、シーンの視覚的変化の度合いはシーンの意味的な変化の度合いに対応している。したがってこの値の大小によりシーンの意味的度合いの大小に対応したシーンを検出することが可能となる。
【0125】
ここではこの絶対値の合計をシーン強度値Viと定義する。その定義ではiはセグメントの番号を表す。例えば4つの境界性測定値(各セグメントにおいて過去の2つのセグメントと未来の1つのセグメントと、そのセグメントの境界性測定値の計4つのセグメントFi-2,Fi-1,Fi,Fi+1)の絶対値の合計を使っている。
【0126】
シーンの境界での境界性測定値の変化のパターンは理論的には、先に示したようにFi-1→Fiの値−4→+4のように100%過去に類似セグメントが存在した場合から100%未来に存在する変化が起こると考えられる。
【0127】
このようにシーンの境界では、1セグメント間で大きな変化が起こる。そして式(6)のパターンのように、4セグメント以上に渡って境界性測定値の絶対値が大きいままパターンの変化が起こる可能性は、シーンの境界付近でないと高くない。このパターンの変化の特性から、シーン強度値Viがある大きさ以上のものだけを実際のシーンの境界と判断することにより、希望とするシーン検出を行うことができる。
【0128】
図7は、実際の音楽番組を録音した30分程度のビデオデータを使用した結果をグラフ化したものである。縦軸にシーン強度値、横軸に各セグメントを表している。色の濃い棒のところのセグメントが実際のシーンの境界(ここではシーンの先頭セグメント)である。この結果の場合、シーン強度値が12以上をシーンの境界とすると6/7の確率で実際のシーンと一致する。
【0129】
図7のグラフが生成される過程について図8を参照して説明する。ここで説明することは映像音声処理装置で示したシーン検出部16で行われることであり、この処理はセグメントが生成される毎に以下の処理を行う。
【0130】
ステップS11では各セグメントに対し、そのセグメントを中心に±k個のセグメント範囲の中で、特徴量類似性測定部17を用いて最近傍の類似セグメントをN個検出し、それらが過去に存在する個数と未来に存在する個数を求める。
【0131】
ステップS12では、各セグメントの境界性測定値Fiとして、ステップS11の処理で求められたN個の類似セグメントのうち、未来に存在する類似セグメントの個数から、過去に存在する類似セグメント個数を減じた数を算出して保存する。
【0132】
ステップS13では、2n個のセグメントの境界性測定値Fi-n,・・・,Fi,Fi+nのパターンの変化からシーンの境界の可能性の高い場所を特定する。nは、iセグメントから過去の比率と未来の比率のパターン変化を見るために必要な境界測定値の数である。
【0133】
ここで、シーンの境界を示唆する変化パターンについての3つの条件を次のように定義する。
▲1▼境界性測定値Fi-n乃至Fi+nが一様に0ではないこと
▲2▼境界性測定値Fi-n乃至Fi-1が0以下であること
▲3▼境界性測定値Fi乃至Fi+nが0以上であること
【0134】
そして、上述した▲1▼乃至▲3▼の3条件を全て満足するか否かを判定する。3条件を全て満足すると判定された場合、シーンの境界の可能性が高いと判断し、次のステップS14に移行する。そうでない場合は処理がステップ16に進む。
【0135】
ステップS14では、さらにステップS13での境界性測定値を次式に適用して境界性測定値Fi-n,・・・,Fi,Fi+nからシーン強度Viを計算する。
Vi=|Fi-n| + … + |Fi-1| + |Fi| + … + |Fi+n|
【0136】
そして、強度値に対する閾値を越える条件が設けられた場合、その条件を満たすシーン強度値が現れたときには、求めるシーンの視覚的変化の強度であると判断し、処理しているビデオデータのシーンの境界の1つであるとして、その位置を出力する。強度値に関する条件が必要とされない場合、各セグメントについての強度値を付加情報データとしてビデオデータ記録部18に出力して記録する。
【0137】
以上の処理を繰り返して行くことによりシーンの境界を検出する。シーンはこの境界から境界に含まれるセグメント群がシーンを形成されることとなる。
【0138】
以上説明したように、本発明を適用した映像音声処理装置は、シーン構造を抽出するためのものである。上述した映像音声処理装置の一連の処理が、テレビドラマや映画など、様々な内容のビデオデータに対して、そのシーン構造を抽出可能であることは、既に実験にて検証済みである。
【0139】
なお、検出されるシーンの境界の数は、シーン強度値を任意に変更することによって調整することが可能である。そのため、このシーン強度値を調整することにより、いろいろなコンテンツにより良く適応したシーンの境界検出を行うことが可能である。
【0140】
さらに、一定時間のビデオデータの各シーンを一覧表示する場合、検出するシーンの数を制限することによって一覧表示を見易くことが考えられる。その場合、どのシーンを一覧表示に含めればビデオデータを把握し易いかという問題が生じる。そのためには、得られた各シーンの重要性の順番に従って一覧表示に用いるシーンを決定すればよい。本発明では、得られたシーンの重要性の尺度であるシーン強度値を提供することができ、さらにその尺度を変更する(シーン強度閾値を変更する)ことにより、シーンの個数を変更することが可能であり、ユーザの興味に応じて利便性の良い視聴表現を行うことができる。
【0141】
しかも、シーンの個数を変更するにあたり、再度シーン検出処理を行うことを必要とせず、シーン強度閾値を変更することのみで保存された強度値時系列を簡単に処理することが可能である。
【0142】
以上のように、本発明は、従来技術における上述した全ての問題点を解決したものである。
【0143】
まず、映像音声処理装置は、ユーザが事前にビデオデータの意味的な構造を知る必要はない。
【0144】
さらに、映像音声処理装置は、各セグメントに対し行われている処理は次の項目を含む。
▲1▼特徴量抽出すること
▲2▼一定個数の時間領域内にセグメント対の間の非類似性を測定すること
▲3▼非類似性測定結果を用い、一定個数の最も類似したセグメントを抽出すること
▲4▼類似したセグメントの存在比率より境界性測定値を計算すること
▲5▼境界性測定値を用い、シーン境界点の強度値を求めること
【0145】
いずれの処理も計算上の負荷が少ない。そのため、セットトップボックスやディジタルビデオレコーダ、ホームサーバ等の家庭用電子機器にも適用することができる。
【0146】
また、映像音声処理装置は、シーンを検出した結果、ビデオブラウジングのための新たな高レベルアクセスの基礎を与えることができる。そのため、映像音声処理装置は、セグメントではなくシーンといった高レベルのビデオ構造を用いてビデオデータの内容を視覚化することにより、内容に基づいたビデオデータへの容易なアクセスを可能とする。例えば、映像音声処理装置は、シーンを表示することにより、ユーザは、番組の要旨をすばやく知ることができ、興味のある部分を迅速に見つけることができる。
【0147】
さらに、映像音声処理装置は、シーン検出の結果、ビデオデータの概要または要約を自動的に作成するための基盤が得られる。一般に、一貫した要約を作成するには、ビデオデータからのランダムな断片を組み合わせるのではなく、ビデオデータを、再構成可能な意味を持つ成分に分解することを必要とする。映像音声処理装置により検出されたシーンは、そのような要約を作成するための基礎となる。
【0148】
なお、本発明は、上述した実施の形態に限定されるものではなく、例えば、セグメント間の類似性測定のために用いる特徴量等は、上述したもの以外でもよいことは勿論であり、その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
【0149】
またさらに、本発明はシーン強度値を任意に変更することにより、コンテンツ構造上、重要な変化点であるシーンが得られる。なぜなら、強度値がコンテンツ内容の変化の度合いに対応できるからである。すなわち、ビデオを閲覧する際に、シーン強度値閾値を調整することにより、検出シーンの個数を制御できる。しかも、目的に応じて、コンテンツを表示する個数を増やしたり減らしたりすることが可能となる。
【0150】
つまり、コンテンツのいわゆる閲覧粒度(granularity)が目的に応じて自由に制御することができる。例えば、ある一時間ビデオを見るときに、最初に強度値を高く設定し、コンテンツに対して重要であるシーンからなる短い要約を示す。次に、若し興味が増し、詳しく見てみたいと思ったなら、強度値を下げることにより、より細かいシーンによって構成されている要約を表示することができる。しかも本発明の方法を利用すれば、従来技術と異なって、強度値を調整する度に検出を再び行う必要がなく、保存された強度値時系列を簡単に処理を行うことだけ十分である。
【0151】
セットトップボックスやディジタルビデオレコーダなどの家庭機器に実装するにあたり、以下のような効果がある。
【0152】
1つ目の効果は、調べるセグメントを一定数に固定できることである。本発明のシーン検出は各セグメントに対する類似セグメントの局所的な変化を調べることで実現できるので、そのため処理に必要なメモリ量を固定化することが可能になり、メモリ量の少ないセットトップボックスやディジタルレコーダなどの家庭機器でも実装可能となる。
【0153】
2つ目の効果は、各セグメントの処理にかかる時間が一定とすることができることである。これは、これは決められた時間内に決められた処理を必ず終わらせなければならないセットトップボックスやディジタルビデオレコーダなどの家庭機器などに適している。
【0154】
3つ目の効果は、1つの処理が終わる毎に新たなセグメントの処理を行う逐次処理が可能であることである。このことは、セットトップボックスやディジタルビデオレコーダなどの家庭機器において、ビデオ信号などの記録を終了する場合、その終了時刻とほぼ同時に処理を終了することが可能である。また何らかの理由で記録状態が停止した場合でも、それまでの記録を残しておくことが可能である。
【0155】
ところで、上述した一連の処理は、ハードウェアにより実行させることもできるが、ソフトウェアにより実行させることもできる。一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、記録媒体からインストールされる。
【0156】
この記録媒体は、図3に示すように、コンピュータとは別に、ユーザにプログラムを提供するために配布される、プログラムが記録されている磁気ディスク22(フロッピディスクを含む)、光ディスク23(CD-ROM(Compact Disc-Read Only Memory)、DVD(Digital Versatile Disc)を含む)、光磁気ディスク24(MD(Mini Disc)を含む)、もしくは半導体メモリ25などよりなるパッケージメディアにより構成されるだけでなく、コンピュータに予め組み込まれた状態でユーザに提供される、プログラムが記録されているROMやハードディスクなどで構成される。
【0157】
なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、記載された順序に従って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
【0158】
また、本明細書において、システムとは、複数の装置により構成される装置全体を表すものである。
【0159】
【発明の効果】
以上のように、本発明のAV信号処理装置および方法、並びにプログラムによれば、基準となるセグメントと他のセグメントとの特徴量の類似性を測定するための測定基準を算出し、測定基準を用いて、基準となるセグメントと他のセグメントとの類似性を測定し、測定された類似性を用いて、基準となるセグメントに対して、所定の時間領域内における類似セグメントを求め、類似セグメントの時間分布を解析し、過去と未来の時間帯に存在する類似セグメントの数の比率を数値化して測定値を計算するようにしたので、シーンの境界を検出することが可能となる。
【図面の簡単な説明】
【図1】ビデオデータの階層モデルを示す図である。
【図2】シーンの境界領域と非境界領域を説明するための図である。
【図3】本発明の一実施の形態である映像音声処理装置の構成例を示すブロック図である。
【図4】シーンの境界領域を説明するための図である。
【図5】映像音声処理装置の動作を説明するフローチャートである。
【図6】類似セグメントの分布パターンの例を示す図である。
【図7】シーン検出結果を示す図である。
【図8】シーン検出部16の処理を説明するフローチャートである。
【符号の説明】
11 ビデオ分割部, 12 ビデオセグメントメモリ, 13 映像特徴量抽出部, 14 音声特徴量抽出部, 15 セグメント特徴量メモリ, 16シーン検出部, 17 特徴量類似性測定部, 18 ビデオデータ記録部,19 ビデオ表示部, 20 制御部, 21 ドライバ, 22 磁気ディスク, 23 光ディスク, 24 光磁気ディスク, 25 半導体メモリ
Claims (12)
- 供給されたAV信号の内容の意味構造を反映するパターンを検出して解析し、意味のある区切りであるシーンを検出するAV信号処理装置において、
前記AV信号を構成する一連のフレームによって形成されるセグメントの特徴量を抽出する特徴量抽出手段と、
基準となるセグメントと他のセグメントとの前記特徴量の類似性を測定するための測定基準を算出する算出手段と、
前記測定基準を用いて、前記基準となるセグメントと前記他のセグメントとの前記類似性を測定する類似性測定手段と、
前記類似性測定手段により測定された前記類似性を用いて、前記基準となるセグメントに対して、所定の時間領域内における類似セグメントを求め、前記類似セグメントの時間分布を解析し、過去と未来の時間帯に存在する前記類似セグメントの数の比率を数値化して測定値を計算する測定値計算手段と、
前記測定値計算手段により計算された前記測定値の時間的パターンの変化を解析し、解析結果に基づいて前記基準となるセグメントが前記シーンの境界であるか否かを判定する境界判定手段と
を含むAV信号処理装置。 - 前記AV信号は、映像信号および音声信号のうちの少なくとも一方を含む
請求項1に記載のAV信号処理装置。 - 前記基準となるセグメントに対応する前記測定値の変化の程度を示す強度値を計算する強度値計算手段をさらに含む
請求項2に記載のAV信号処理装置。 - 前記境界判定手段は、前記測定値の絶対値の総和に基づき、前記基準となるセグメントが前記シーンの境界であるか否かを判定する
請求項1に記載のAV信号処理装置。 - 前記AV信号に映像信号が含まれる場合、映像セグメントの基本単位となるショットを検出して、前記映像セグメントを生成する映像セグメント生成手段をさらに含む
請求項2に記載のAV信号処理装置。 - 前記AV信号に音声信号が含まれる場合、前記音声信号の前記特徴量および無音区間のうちの少なくとも一方を用いて、音声セグメントを生成する音声セグメント生成手段をさらに含む
請求項2に記載のAV信号処理装置。 - 前記映像信号の前記特徴量には、少なくともカラーヒストグラムが含まれる
請求項2に記載のAV信号処理装置。 - 前記音声信号の前記特徴量には、音量およびスペクトラムのうちの少なくとも一方が含まれる
請求項2に記載のAV信号処理装置。 - 前記境界判定手段は、予め設定された閾値と前記測定値を比較することにより、前記基準となるセグメントが前記シーンの境界であるか否かを判定する
請求項1に記載のAV信号処理装置。 - 供給されたAV信号の内容の意味構造を反映するパターンを検出して解析し、意味のある区切りであるシーンを検出するAV信号処理装置のAV信号処理方法において、
前記AV信号を構成する一連のフレームによって形成されるセグメントの特徴量を抽出する特徴量抽出ステップと、
基準となるセグメントと他のセグメントとの前記特徴量の類似性を測定するための測定基準を算出する算出ステップと、
前記測定基準を用いて、前記基準となるセグメントと前記他のセグメントとの前記類似性を測定する類似性測定ステップと、
前記類似性測定ステップの処理により測定された前記類似性を用いて、前記基準となるセグメントに対して、所定の時間領域内における類似セグメントを求め、前記類似セグメントの時間分布を解析し、過去と未来の時間帯に存在する前記類似セグメントの数の比率を数値化して測定値を計算する測定値計算ステップと、
前記測定値計算ステップの処理により計算された前記測定値の時間的パターンの変化を解析し、解析結果に基づいて前記基準となるセグメントが前記シーンの境界であるか否かを判定する境界判定ステップと
を含むAV信号処理方法。 - 供給されたAV信号の内容の意味構造を反映するパターンを検出して解析し、意味のある区切りであるシーンを検出するコンピュータに、
前記AV信号を構成する一連のフレームによって形成されるセグメントの特徴量を抽出する特徴量抽出ステップと、
基準となるセグメントと他のセグメントとの前記特徴量の類似性を測定するための測定基準を算出する算出ステップと、
前記測定基準を用いて、前記基準となるセグメントと前記他のセグメントとの前記類似性を測定する類似性測定ステップと、
前記類似性測定ステップの処理により測定された前記類似性を用いて、前記基準となるセグメントに対して、所定の時間領域内における類似セグメントを求め、前記類似セグメントの時間分布を解析し、過去と未来の時間帯に存在する前記類似セグメントの数の比率を数値化して測定値を計算する測定値計算ステップと、
前記測定値計算ステップの処理により計算された前記測定値の時間的パターンの変化を解析し、解析結果に基づいて前記基準となるセグメントが前記シーンの境界であるか否かを判定する境界判定ステップと
を実行させるプログラム。 - 供給されたAV信号の内容の意味構造を反映するパターンを検出して解析し、意味のある区切りであるシーンを検出するAV信号処理用のプログラムであって、
前記AV信号を構成する一連のフレームによって形成されるセグメントの特徴量を抽出する特徴量抽出ステップと、
基準となるセグメントと他のセグメントとの前記特徴量の類似性を測定するための測定基準を算出する算出ステップと、
前記測定基準を用いて、前記基準となるセグメントと前記他のセグメントとの前記類似性を測定する類似性測定ステップと、
前記類似性測定ステップの処理により測定された前記類似性を用いて、前記基準となるセグメントに対して、所定の時間領域内における類似セグメントを求め、前記類似セグメントの時間分布を解析し、過去と未来の時間帯に存在する前記類似セグメントの数の比率を数値化して測定値を計算する測定値計算ステップと、
前記測定値計算ステップの処理により計算された前記測定値の時間的パターンの変化を解析し、解析結果に基づいて前記基準となるセグメントが前記シーンの境界であるか否かを判定する境界判定ステップと
を含むことを特徴とするコンピュータが読み取り可能なプログラムが記録されている記録媒体。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001170611A JP4683253B2 (ja) | 2000-07-14 | 2001-06-06 | Av信号処理装置および方法、プログラム、並びに記録媒体 |
US09/905,049 US7027508B2 (en) | 2000-07-14 | 2001-07-13 | AV signal processing apparatus for detecting a boundary between scenes, method and recording medium therefore |
US11/326,203 US20060114992A1 (en) | 2000-07-14 | 2006-01-05 | AV signal processing apparatus for detecting a boundary between scenes, method, recording medium and computer program therefor |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000214238 | 2000-07-14 | ||
JP2000-214238 | 2000-07-14 | ||
JP2001170611A JP4683253B2 (ja) | 2000-07-14 | 2001-06-06 | Av信号処理装置および方法、プログラム、並びに記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002140712A JP2002140712A (ja) | 2002-05-17 |
JP4683253B2 true JP4683253B2 (ja) | 2011-05-18 |
Family
ID=26596060
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001170611A Expired - Fee Related JP4683253B2 (ja) | 2000-07-14 | 2001-06-06 | Av信号処理装置および方法、プログラム、並びに記録媒体 |
Country Status (2)
Country | Link |
---|---|
US (2) | US7027508B2 (ja) |
JP (1) | JP4683253B2 (ja) |
Families Citing this family (51)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE60045699D1 (de) * | 1999-01-29 | 2011-04-21 | Sony Corp | Daten-beschreibungs-verfahren und daten-bearbeitung-vorrichtung |
US20030041111A1 (en) * | 2001-08-27 | 2003-02-27 | Delaney Beth M.P. | System for emailing images with audio as a separate file |
US7349477B2 (en) * | 2002-07-10 | 2008-03-25 | Mitsubishi Electric Research Laboratories, Inc. | Audio-assisted video segmentation and summarization |
JP4189654B2 (ja) * | 2003-04-18 | 2008-12-03 | セイコーエプソン株式会社 | 画像処理装置 |
JP4235490B2 (ja) * | 2003-06-04 | 2009-03-11 | パイオニア株式会社 | 音楽番組内容メニュー作成装置及び方法 |
JP4529397B2 (ja) * | 2003-09-19 | 2010-08-25 | セイコーエプソン株式会社 | 複数のフレーム画像データに基づく静止画像データの生成処理 |
JP4491009B2 (ja) * | 2003-09-30 | 2010-06-30 | 株式会社東芝 | 動画像処理装置 |
US7313269B2 (en) * | 2003-12-12 | 2007-12-25 | Mitsubishi Electric Research Laboratories, Inc. | Unsupervised learning of video structures in videos using hierarchical statistical models to detect events |
JP4166707B2 (ja) * | 2004-01-20 | 2008-10-15 | パイオニア株式会社 | 映像内容認識装置、録画装置、映像内容認識方法、録画方法、映像内容認識プログラム、および録画プログラム |
JP2006025007A (ja) * | 2004-07-06 | 2006-01-26 | Fuji Photo Film Co Ltd | 画像処理装置及び画像処理プログラム |
US20080095449A1 (en) * | 2004-08-09 | 2008-04-24 | Nikon Corporation | Imaging Device |
US7783106B2 (en) * | 2004-11-12 | 2010-08-24 | Fuji Xerox Co., Ltd. | Video segmentation combining similarity analysis and classification |
JP4373961B2 (ja) * | 2005-05-17 | 2009-11-25 | 株式会社東芝 | 映像録画再生装置及び映像録画再生方法 |
FR2894692B1 (fr) * | 2005-12-08 | 2008-06-13 | Thomson Licensing Sas | Procede d'identification d'un document enregistre par affichage et selection d'images clefs, et recepteur associe. |
US8214374B1 (en) * | 2011-09-26 | 2012-07-03 | Limelight Networks, Inc. | Methods and systems for abridging video files |
US8966389B2 (en) | 2006-09-22 | 2015-02-24 | Limelight Networks, Inc. | Visual interface for identifying positions of interest within a sequentially ordered information encoding |
US8396878B2 (en) | 2006-09-22 | 2013-03-12 | Limelight Networks, Inc. | Methods and systems for generating automated tags for video files |
US9015172B2 (en) | 2006-09-22 | 2015-04-21 | Limelight Networks, Inc. | Method and subsystem for searching media content within a content-search service system |
KR100914317B1 (ko) | 2006-12-04 | 2009-08-27 | 한국전자통신연구원 | 오디오 신호를 이용한 장면 경계 검출 방법 |
US7956893B2 (en) * | 2006-12-11 | 2011-06-07 | Mavs Lab. Inc. | Method of indexing last pitching shots in a video of a baseball game |
KR100963005B1 (ko) * | 2008-07-09 | 2010-06-10 | 한국전자통신연구원 | 자유시점 av 서비스에 따른 파일 생성 방법 |
EP2538839B1 (en) * | 2010-02-23 | 2015-07-08 | Loma Linda University | Method of analyzing a medical image |
EP2408190A1 (en) | 2010-07-12 | 2012-01-18 | Mitsubishi Electric R&D Centre Europe B.V. | Detection of semantic video boundaries |
JP5658285B2 (ja) * | 2011-01-05 | 2015-01-21 | パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America | 興味区間抽出装置、興味区間抽出方法 |
US9064538B2 (en) * | 2011-04-07 | 2015-06-23 | Infosys Technologies, Ltd. | Method and system for generating at least one of: comic strips and storyboards from videos |
JP2012227645A (ja) * | 2011-04-18 | 2012-11-15 | Nikon Corp | 画像処理プログラム、画像処理方法、画像処理装置、撮像装置 |
CN102509338B (zh) * | 2011-09-20 | 2014-05-07 | 北京航空航天大学 | 一种基于轮廓骨架图的视频场景行为生成方法 |
US9110562B1 (en) * | 2012-07-26 | 2015-08-18 | Google Inc. | Snapping a pointing-indicator to a scene boundary of a video |
CN103577488B (zh) * | 2012-08-08 | 2018-09-18 | 莱内尔系统国际有限公司 | 用于增强的视觉内容数据库检索的方法和系统 |
US20140181668A1 (en) | 2012-12-20 | 2014-06-26 | International Business Machines Corporation | Visual summarization of video for quick understanding |
CN105900447B (zh) * | 2014-01-17 | 2019-10-25 | 瑞典爱立信有限公司 | 处理具有场景变化媒体内容的方法及设备 |
CN104320670A (zh) * | 2014-11-17 | 2015-01-28 | 东方网力科技股份有限公司 | 一种网络视频的摘要信息提取方法及系统 |
JP2016109620A (ja) * | 2014-12-09 | 2016-06-20 | 日本放送協会 | 音量監視装置及びプログラム |
KR102306538B1 (ko) | 2015-01-20 | 2021-09-29 | 삼성전자주식회사 | 콘텐트 편집 장치 및 방법 |
KR101650153B1 (ko) * | 2015-03-19 | 2016-08-23 | 네이버 주식회사 | 만화 데이터 편집 방법 및 만화 데이터 편집 장치 |
US10074015B1 (en) * | 2015-04-13 | 2018-09-11 | Google Llc | Methods, systems, and media for generating a summarized video with video thumbnails |
JP6574974B2 (ja) * | 2015-09-29 | 2019-09-18 | Run.Edge株式会社 | 動画像再生装置、動画像配信サーバ、動画像再生方法、動画像配信方法、動画像再生プログラム、及び動画像配信プログラム |
KR102235386B1 (ko) * | 2017-07-07 | 2021-04-01 | 삼성에스디에스 주식회사 | 장면전환 검출 장치 및 방법 |
US11200536B2 (en) * | 2018-09-07 | 2021-12-14 | Texas Tech University System | Systems and methods for predictively managing collections of items |
US11150923B2 (en) | 2019-09-16 | 2021-10-19 | Samsung Electronics Co., Ltd. | Electronic apparatus and method for providing manual thereof |
US11455731B2 (en) | 2020-09-10 | 2022-09-27 | Adobe Inc. | Video segmentation based on detected video features using a graphical model |
US11631434B2 (en) | 2020-09-10 | 2023-04-18 | Adobe Inc. | Selecting and performing operations on hierarchical clusters of video segments |
US11887371B2 (en) | 2020-09-10 | 2024-01-30 | Adobe Inc. | Thumbnail video segmentation identifying thumbnail locations for a video |
US12033669B2 (en) | 2020-09-10 | 2024-07-09 | Adobe Inc. | Snap point video segmentation identifying selection snap points for a video |
US11450112B2 (en) | 2020-09-10 | 2022-09-20 | Adobe Inc. | Segmentation and hierarchical clustering of video |
US11630562B2 (en) | 2020-09-10 | 2023-04-18 | Adobe Inc. | Interacting with hierarchical clusters of video segments using a video timeline |
US11810358B2 (en) | 2020-09-10 | 2023-11-07 | Adobe Inc. | Video search segmentation |
US11880408B2 (en) | 2020-09-10 | 2024-01-23 | Adobe Inc. | Interacting with hierarchical clusters of video segments using a metadata search |
US11887629B2 (en) | 2020-09-10 | 2024-01-30 | Adobe Inc. | Interacting with semantic video segments through interactive tiles |
US11995894B2 (en) | 2020-09-10 | 2024-05-28 | Adobe Inc. | Interacting with hierarchical clusters of video segments using a metadata panel |
CN114049898A (zh) * | 2021-11-10 | 2022-02-15 | 北京声智科技有限公司 | 一种音频提取方法、装置、设备和存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5708767A (en) * | 1995-02-03 | 1998-01-13 | The Trustees Of Princeton University | Method and apparatus for video browsing based on content and structure |
JP3823333B2 (ja) * | 1995-02-21 | 2006-09-20 | 株式会社日立製作所 | 動画像の変化点検出方法、動画像の変化点検出装置、動画像の変化点検出システム |
JP3780623B2 (ja) * | 1997-05-16 | 2006-05-31 | 株式会社日立製作所 | 動画像の記述方法 |
JPH11103441A (ja) * | 1997-09-26 | 1999-04-13 | Matsushita Electric Ind Co Ltd | クリップ表示方法とその表示装置 |
US6493042B1 (en) * | 1999-03-18 | 2002-12-10 | Xerox Corporation | Feature based hierarchical video segmentation |
-
2001
- 2001-06-06 JP JP2001170611A patent/JP4683253B2/ja not_active Expired - Fee Related
- 2001-07-13 US US09/905,049 patent/US7027508B2/en not_active Expired - Fee Related
-
2006
- 2006-01-05 US US11/326,203 patent/US20060114992A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
JP2002140712A (ja) | 2002-05-17 |
US20020061136A1 (en) | 2002-05-23 |
US7027508B2 (en) | 2006-04-11 |
US20060114992A1 (en) | 2006-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4683253B2 (ja) | Av信号処理装置および方法、プログラム、並びに記録媒体 | |
US6928233B1 (en) | Signal processing method and video signal processor for detecting and analyzing a pattern reflecting the semantics of the content of a signal | |
US6744922B1 (en) | Signal processing method and video/voice processing device | |
US8442384B2 (en) | Method and apparatus for video digest generation | |
US9734407B2 (en) | Videolens media engine | |
US8938393B2 (en) | Extended videolens media engine for audio recognition | |
KR100737176B1 (ko) | 신호 처리 방법 및 영상 음성 처리 장치 | |
JP4332988B2 (ja) | 信号処理装置及び方法 | |
US7769761B2 (en) | Information processing apparatus, method, and program product | |
US20070201817A1 (en) | Method and system for playing back videos at speeds adapted to content | |
EP1067786B1 (en) | Data describing method and data processor | |
JP2008022103A (ja) | テレビ番組動画像ハイライト抽出装置及び方法 | |
JP2003141540A (ja) | 類似性判定装置及び類似性判定方法並びにプログラム | |
JP2012010265A (ja) | 要約映像生成装置及び要約映像生成プログラム | |
JP2000285243A (ja) | 信号処理方法及び映像音声処理装置 | |
JP2000285242A (ja) | 信号処理方法及び映像音声処理装置 | |
JPH10187182A (ja) | 映像分類方法および装置 | |
JP4702577B2 (ja) | コンテンツ再生順序決定システムと、その方法及びプログラム | |
KR100863122B1 (ko) | 오디오 신호 특성을 이용한 멀티미디어 동영상 색인 방법 | |
US8234278B2 (en) | Information processing device, information processing method, and program therefor | |
JP4032122B2 (ja) | 映像編集装置、映像編集プログラム、記録媒体、および映像編集方法 | |
JP3408800B2 (ja) | 信号検出方法、装置及びそのプログラム、記録媒体 | |
JP3951707B2 (ja) | 類似性判定方法および装置 | |
JP2010081531A (ja) | 映像処理装置及びその方法 | |
JP4507351B2 (ja) | 信号処理装置及び方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080311 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100924 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100930 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101122 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110113 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110126 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140218 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140218 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |