JP4348970B2 - 情報検出装置及び方法、並びにプログラム - Google Patents
情報検出装置及び方法、並びにプログラム Download PDFInfo
- Publication number
- JP4348970B2 JP4348970B2 JP2003060382A JP2003060382A JP4348970B2 JP 4348970 B2 JP4348970 B2 JP 4348970B2 JP 2003060382 A JP2003060382 A JP 2003060382A JP 2003060382 A JP2003060382 A JP 2003060382A JP 4348970 B2 JP4348970 B2 JP 4348970B2
- Authority
- JP
- Japan
- Prior art keywords
- identification
- type
- voice
- information
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/046—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for differentiation between music and non-music signals, based on the identification of musical parameters, e.g. based on tempo detection
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Description
【発明の属する技術分野】
本発明は、音声、音楽、音響を含む音声信号、又はその音声信号を含む情報源から特徴量を抽出することにより、音声や音楽などの同一種別の連続区間を検出する情報検出装置及びその方法、並びにプログラムに関する。
【0002】
【従来の技術】
放送システムやマルチメディアシステム等において、映像や音声の大量のコンテンツを効率よく管理、分類し、容易に検索可能とすることは重要であるが、これにはコンテンツ中のどの部分がどのような情報をもっているかを知ることが不可欠である。
【0003】
ここで、多くのマルチメディアコンテンツ、放送コンテンツは、映像信号と共に音声信号を含んでおり、これはコンテンツの分類やシーンの検出において、非常に有用な情報である。特に、情報に含まれる音声信号の音声部分と音楽部分とを識別して検出することで、効率的な情報検索や情報管理が行える。
【0004】
ところで、音声と音楽とを識別するための技術は、従来から数多く研究されており、零交差数、パワーの変動、スペクトルの変動などを特徴量として用いて識別する手法が提案されている。
【0005】
例えば、下記の非特許文献1では、零交差数を用いて音声・音楽の識別を行っている。
【0006】
また、下記の非特許文献2では、4Hz変調エネルギー、低エネルギーフレーム率、スペクトルロールオフ点、スペクトルセントロイド、スペクトル変動(Flux)、零交差率などを含めた13個の特徴量を用いて音声・音楽を識別し、それぞれの性能を比較評価している。
【0007】
さらに、下記の非特許文献3では、ケプストラム係数、デルタケプストラム係数、振幅、デルタ振幅、ピッチ、デルタピッチ、零交差数、デルタゼロ交差数を特徴量とし、それぞれの特徴量に混合正規分布モデルを用いることで、音声・音楽を識別している。
【0008】
この他、音楽のスペクトルピークが特定周波数に安定したまま時間方向に持続するという特徴に基づいた検出手法も研究されている。ここで、スペクトルピークの安定性は、スペクトログラムにおける時間方向の直線成分の有無としても表現される。スペクトログラムとは、縦軸を周波数、横軸を時間とし、スペクトルを時間方向に並べて画像情報として表現したものである。この特徴を用いた発明としては、例えば下記の非特許文献4及び特許文献1が挙げられる。
【0009】
このような所定の時間毎に音声や音楽などの種別を識別分類する技術を応用することで、音声データ中において同一種別の連続区間の開始・終了位置を検出することが可能である。
【0010】
【非特許文献1】
J.サウンダース(J.Saunders),「放送された音声/音楽のリアルタイム識別(Real-time discrimination of broadcast speech/music)」,(米国),電気電子技術者学会報、音響・音声・信号処理に関する国際会議(Proc.IEEE Int.Conf. on Acoustics, Speech, Signal Processing),1996年,p.993−996
【非特許文献2】
E.シェイアー(E.Scheire)及びM.スラニー(M.Slaney),「ロバストな多特性音声/音楽識別器の作製及び評価(Construction and evaluation of a robust multifeature speech/music discriminator)」,(米国),電気電子技術者学会報、音響・音声・信号処理に関する国際会議(Proc.IEEE Int.Conf. on Acoustics, Speech, Signal Processing),1997年,p.1331−1334
【非特許文献3】
M.J.ケア(M.J.Care)、E.S.パリス(E.S.Parris)及びH.ロイド・トーマス(H.Lloyd-Thomas),「音声,音楽を識別するための特徴比較(A comparison of features for speech,music discrimination)」,(米国),電気電子技術者学会報、音響・音声・信号処理に関する国際会議(Proc.IEEE Int.Conf. on Acoustics, Speech, Signal Processing),1999年3月,p.149−152
【非特許文献4】
南、阿久津、浜田及び外村,「音情報を用いた映像インデクシングとその応用」,電子情報通信学会論文誌D−II,1998年,第J81−D−II巻,第3号,p.529−537
【特許文献1】
特開平10−187182号公報
【0011】
【発明が解決しようとする課題】
しかしながら、上述した音声や音楽などの種別を識別分類する技術を直接用いて同一種別の連続区間を検出するには、次のような問題がある。
【0012】
例えば音楽(楽曲)は、多くの楽器、歌唱音声、効果音、打楽器によるリズムなどから構成されることが多い。したがって、音声データを短時間毎に識別した場合、連続した楽曲区間中であっても、必ずしも音楽と識別し得るような部分ばかりではなく、短期的にみれば音声と判定されるべき部分、或いは他の種別に分類されるべき部分がしばしば含まれる。会話音声の連続区間を検出する場合も同様であり、連続した会話区間中であっても、短期的にみれば無音部分や、音楽などの雑音が一瞬入ることもしばしば起こり得る。また、明らかな音楽や音声の部分であっても、識別誤りによって誤った種別に識別されてしまうこともある。音声、音楽以外の種別の場合も同様である。
【0013】
したがって、短時間毎の音声・音楽などの種別識別結果を直接用いて連続区間を検出する方法では、長期的に見れば連続区間と見なされるべき部分が途中で分断されたり、逆に長期的には連続区間と見なせない一時的な雑音部分を連続区間と見なしてしまう問題が発生する。
【0014】
一方、このような問題を避けるために識別のための分析時間を長くとれば、識別の時間分解能が低下し、頻繁に音楽・音声などが切り替わる場合に検出率が低下するという問題が発生する。
【0015】
本発明は、このような従来の実情に鑑みて提案されたものであり、音声データ中の音楽や音声などの連続区間を検出する際に、長期的にみて同一種別と見なされるべき連続区間を正しく検出する情報検出装置及びその方法、並びにそのような情報検出処理をコンピュータに実行させるプログラムを提供することを目的とする。
【0016】
【課題を解決するための手段】
上述した目的を達成するために、本発明に係る情報検出装置及びその方法では、情報源に含まれる音声信号の特徴量を分析して、該音声信号の種別を所定の時間単位毎に分類識別し、分類識別された識別情報を識別情報蓄積手段に記録する。そして、上記識別情報蓄積手段から上記識別情報を読み込み、上記音声信号の種別毎に上記時間単位よりも長い所定の時間区間毎の識別頻度を計算し、この識別頻度を用いて同一種別の連続区間を検出するものであり、上記音声種別識別の際には、上記時間単位毎に上記音声信号の種別を分類識別すると共に、その識別の確からしさを求め、上記識別頻度は、任意の種別の上記時間単位毎の識別の確からしさを上記時間区間で平均したものである。
【0017】
この情報検出装置及びその方法では、例えば、任意の種別の上記識別頻度が第1の閾値以上となり、且つ該第1の閾値以上である状態が第1の時間以上連続した場合に該種別の開始を検出し、上記識別頻度が第2の閾値以下となり、且つ該第2の閾値以下である状態が第2の時間以上連続した場合に該種別の終了を検出する。
【0018】
ここで、上記識別頻度としては、任意の種別の上記時間単位毎の識別の確からしさを上記時間区間で平均したもの、或いは任意の種別の上記時間区間における識別回数を用いることができる。
【0019】
また、本発明に係るプログラムは、上述した情報検出処理をコンピュータに実行させるものである。
【0020】
【発明の実施の形態】
以下、本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。この実施の形態は、本発明を、所定の時間単位毎に音声データを会話音声や音楽等の幾つかの種別に識別分類し、同一種別のデータが連続する連続区間の開始位置、終了位置等の区間情報を記憶装置又は記録媒体に記録する情報検出装置に適用したものである。
【0021】
なお、音声データを幾つかの種別に分類識別する手法は、従来から多数研究されているが、本発明では識別する種別及びその識別手法は特定しない。以下では、一例として音声データを音声又は音楽に識別し、音声連続区間や音楽連続区間を検出するものとして説明するが、音声区間や音楽区間のみならず、歓声区間や無音区間を検出するようにしても構わない。また、音楽のジャンルを識別分類し、それぞれの連続区間を検出するようにしても構わない。
【0022】
先ず、本実施の形態における情報検出装置の概略構成を図1に示す。図1に示すように、本実施の形態における情報検出装置1は、所定フォーマットの音声データを所定の時間単位毎にブロックデータD10として読み込む音声入力部10と、所定の時間単位毎にブロックデータD10の種別を識別して識別情報D11を生成する音声種別識別部11と、識別情報D11を所定のフォーマットに変換し、変換後の識別情報D12を記憶装置・記録媒体13に記録する識別情報出力部12と、記憶装置・記録媒体13に記録された識別情報D13を読み込む識別情報入力部14と、読み込んだ識別情報D14を用いて各種別(音声・音楽など)の識別頻度D15を計算する識別頻度計算部15と、識別頻度D15を評価して同一種別の連続区間の開始位置及び終了位置などを検出し、区間情報D16とする区間開始終了判定部16と、区間情報D16を所定のフォーマットに変換し、インデックス情報D17として記憶装置・記録媒体18に記録する区間情報出力部17とから構成されている。
【0023】
ここで、記憶装置・記録媒体13,18としては、メモリや磁気ディスクなどの記憶装置、半導体メモリ(メモリカード等)などの記憶媒体、或いはCD−ROMなどの記録媒体などを用いることができる。
【0024】
以上のような構成を有する情報検出装置1において、音声入力部10は、音声データを所定の時間単位毎のブロックデータD10として読み込み、そのブロックデータD10を音声種別識別部11に供給する。
【0025】
音声種別識別部11は、音声の特徴量を分析することで所定の時間単位毎にブロックデータD10の種別を識別分類し、識別情報D11を識別情報出力部12に供給する。ここでは一例として、ブロックデータD10を音声又は音楽に識別分類するものとする。なお、識別する時間単位は1秒乃至数秒程度が好ましい。
【0026】
識別情報出力部12は、音声種別識別部11から供給された識別情報D11を所定のフォーマットに変換し、変換後の識別情報D12を記憶装置・記憶媒体13に記録する。ここで、識別情報D12の記録フォーマットの一例を図2に示す。図2のフォーマット例では、音声データ中における位置を示す「時刻」と、その時刻位置における種別を示す「種別コード」と、その識別の確からしさを示す「確からしさ」とが記録されている。「確からしさ」とは、その識別結果の確実さを表す値であり、例えば事後確率最大化法などの識別手法で得られる尤度や、ベクトル量子化の手法によって得られるベクトル量子化歪の逆数などを用いることができる。
【0027】
識別情報入力部14は、記憶装置・記録媒体13に記録された識別情報D13を読み込み、読み込んだ識別情報D14を識別頻度計算部15に供給する。なお、読み込むタイミングとしては、識別情報出力部12が記憶装置・記録媒体13に識別情報D12を記録する際にリアルタイムで読み込んでもよく、識別情報D12の記録が終了した後に読み込んでもよい。
【0028】
識別頻度計算部15は、識別情報入力部14から供給された識別情報D14を用いて、所定の時間単位毎に所定の時間区間における種別毎の識別頻度を計算し、識別頻度情報D15を区間開始終了判定部16に供給する。識別頻度を計算する時間区間の一例を図3に示す。この図3は、音声データが音楽(M)であるか音声(S)であるかを数秒毎に識別し、時刻t0における音声の識別頻度Ps(t0)及び音楽の識別頻度Pm(t0)を、図中Lenで表される時間区間における音声(S)と音楽(M)の識別情報(識別回数及びその確からしさ)から求める例を示したものである。なお、時間区間Lenの長さは、例えば数秒乃至数十秒程度が好ましい。
【0029】
ここで、種別毎の識別頻度を計算する具体例を説明する。識別頻度は、例えばその種別に識別された時刻における確からしさを所定の時間区間で平均することで求めることができる。例えば、時刻tにおける音声の識別頻度Ps(t)は、以下の式(1)のように求められる。ここで、式(1)において、p(t−k)は時刻(t−k)における識別の確からしさを示す。
【0030】
【数1】
【0031】
また、式(1)において確からしさが全て1であると仮定すれば、以下の式(2)のように、単純に識別回数のみを用いて識別頻度Ps(t)を計算することができる。
【0032】
【数2】
【0033】
音楽やその他の種別についても、全く同様にして識別頻度を計算することができる。
【0034】
区間開始終了判定部16は、識別頻度計算部15から供給された識別頻度情報D15を用いて、同一種別の連続区間の開始位置・終了位置等を検出し、区間情報D16として区間情報出力部17に供給する。
【0035】
区間情報出力部17は、区間開始終了判定部16から供給された区間情報D16を所定のフォーマットに変換し、インデックス情報D17として記憶装置・記録媒体18に記録する。ここで、インデックス情報D17の記録フォーマットの一例を図4に示す。図4のフォーマット例では、連続区間の番号又は識別子を示す「区間番号」と、その連続区間の種別を示す「種別コード」と、その連続区間の開始時刻、終了時刻を示す「開始位置」、「終了位置」が記録されている。
【0036】
ここで、連続区間の開始位置・終了位置の検出方法について、図5、図6を用いてさらに詳細に説明する。
【0037】
図5は、音楽の識別頻度を閾値と比較して、音楽連続区間の開始を検出する様子を説明した図である。図の上部に各時刻における識別種別をM(音楽),S(音声)で記してある。縦軸は時刻tにおける音楽の識別頻度Pm(t)である。なお、識別頻度Pm(t)は図3で説明したような時間区間Lenにおいて計算し、図5ではLen=5とする。また、開始判定のための識別頻度Pm(t)の閾値P0を3/5とし、識別回数の閾値H0を6とする。
【0038】
所定の時間単位毎に識別頻度Pm(t)を計算していくと、図中のA点において時間区間Lenにおける識別頻度Pm(t)が3/5となり、初めて閾値P0以上となる。その後も連続して識別頻度Pm(t)は閾値P0以上に保持されており、連続H0回(秒)だけ閾値P0以上の状態が保持された図中B点において初めて、音楽の開始を検出する。
【0039】
音楽の実際の開始位置は、図5からも分かるように、識別頻度Pm(t)が初めて閾値P0以上となったA点よりも少し手前である。識別頻度Pm(t)が閾値P0以上となるまでに連続増加したことを仮定すると、図中X点が開始位置と推測できる。すなわち、識別頻度Pm(t)の閾値P0をP0=J/Lenとすると、初めて閾値P0以上となったA点からJだけ戻ったX点を推定開始位置として検出する。図5の例ではJ=3であるため、A点よりも3だけ戻った位置を音楽開始位置として検出する。
【0040】
図6は、音楽の識別頻度を閾値と比較して音楽連続区間の終了を検出する様子を説明した図である。図5と同様に、Mは音楽に識別されたことを示し、Sは音声に識別されたことを示す。また、縦軸は時刻tにおける音楽の識別頻度Pm(t)である。なお、識別頻度は図3で説明したような時間区間Lenにおいて計算し、図6ではLen=5とする。また、終了判定のための識別頻度Pm(t)の閾値P1を2/5とし、識別回数の閾値H1を6とする。なお、終了検出の閾値P1は、開始検出の閾値P0と同じであってもよい。
【0041】
所定の時間単位毎に識別頻度を計算していくと、図中のC点において時間区間Lenにおける識別頻度Pm(t)が2/5となり、初めて閾値P1以下となる。その後も連続して識別頻度Pm(t)は閾値P1以下に保持されており、連続H1回(秒)だけ閾値P1以下の状態が保持された図中D点において初めて、音楽の終了を検出する。
【0042】
音楽の実際の終了位置は、図6からも分かるように、識別頻度Pm(t)が始めて閾値P1以下となったC点よりも少し手前である。識別頻度Pm(t)が閾値P1以下となるまでに連続減少したことを仮定すると、図中Y点が終了位置と推測できる。すなわち、識別頻度Pm(t)の閾値P1をP1=K/Lenとすると、初めて閾値P1以下となったC点からLen−Kだけ戻ったY点を推定終了位置として検出する。図6の例ではK=2であるため、C点よりも3だけ戻った位置を音楽終了位置として検出する。
【0043】
以上示した連続区間検出処理を図7のフローチャートに示す。先ずステップS1において初期処理を行う。具体的には、現在時刻tを0とし、ある種別の連続区間中であることを示す区間中フラグをFALSE、すなわち連続区間中ではないとする。また、識別頻度P(t)が閾値以上又は閾値以下の状態が保持された回数を数えるカウンタの値を0とする。
【0044】
次にステップS2において、時刻tにおける種別を識別する。なお、既に識別してある場合には、時刻tにおける識別情報を読み込む。
【0045】
続いてステップS3において、識別し、又は読み込んだ結果からデータ末尾に到達したか否かを判別し、データ末尾に到達した場合(Yes)には処理を終了する。一方、データ末尾でない場合(No)にはステップS4に進む。
【0046】
ステップS4では、連続区間を検出したい種別(例えば音楽)の時刻tにおける識別頻度P(t)を計算する。
【0047】
ステップS5では、区間中フラグがTRUE、すなわち連続区間中であるか否かを判別し、TRUEである場合(Yes)にはステップS13に進み、そうでない場合(No)、すなわちFALSEである場合にはステップS6に進む。
【0048】
以下のステップS6乃至ステップS12では、連続区間の開始検出処理が行われる。先ずステップS6において、識別頻度P(t)が開始検出の閾値P0以上であるか否かを判別する。ここで、識別頻度P(t)が閾値P0未満である場合(No)にはステップS20でカウンタの値を0にリセットし、ステップS21で時刻tを1増やしてステップS2に戻る。一方、識別頻度P(t)が閾値P0未満である場合(Yes)にはステップS7に進む。
【0049】
次にステップS7において、カウンタの値が0であるか否かを判別し、0である場合(Yes)にはステップS8で開始候補時刻としてXを記憶し、ステップS9に進んでカウンタの値を1増やす。ここで、Xは例えば図5で説明したような位置である。一方、カウンタの値が0でない場合(No)にはステップS9に進み、カウンタの値を1増やす。
【0050】
続いてステップS10において、カウンタの値が閾値H0に達したか否かを判別し、閾値H0に達していない場合(No)にはステップS21に進み、時刻tを1増やしてステップS2に戻る。一方、閾値H0に達した場合(Yes)にはステップS11に進む。
【0051】
ステップS11では、記憶している開始候補時刻Xを開始時刻として確定し、ステップS12でカウンタの値を0にリセットすると共に区間中フラグをTRUEに変え、ステップS21で時刻tを1増やしてステップS2に戻る。
【0052】
以上、連続区間の開始を検出するまで、すなわちステップS5で区間中フラグがTRUEと判別されるまで、上記の処理を繰り返す。
【0053】
連続区間の開始が検出されると、以下のステップS13乃至ステップS19では、連続区間の終了検出処理が行われる。先ずステップS13において、識別頻度P(t)が終了検出の閾値P1以下であるか否かを判別する。ここで、識別頻度P(t)が閾値P1よりも大きい場合(No)にはステップS20でカウンタの値を0にリセットし、ステップS21で時刻tを1増やしてステップS2に戻る。一方、識別頻度P(t)が閾値P1以下である場合(Yes)にはステップS14に進む。
【0054】
次にステップS14において、カウンタの値が0であるか否かを判別し、0である場合(Yes)にはステップS15で終了候補時刻としてYを記憶し、ステップS16に進んでカウンタの値を1増やす。ここで、Yは例えば図6で説明したような位置である。一方、カウンタの値が0でない場合(No)にはステップS16に進み、カウンタの値を1増やす。
【0055】
続いてステップS17において、カウンタの値が閾値H1に達したか否かを判別し、閾値H1に達していない場合(No)にはステップS21に進み、時刻tを1増やしてステップS2に戻る。一方、閾値H1に達した場合(Yes)にはステップS18に進む。
【0056】
ステップS18では、記憶している終了候補時刻Yを終了時刻として確定し、ステップS19でカウンタの値を0にリセットすると共に区間中フラグをFALSEに変え、ステップS21で時刻tを1増やしてステップS2に戻る。
【0057】
以上、連続区間の終了を検出するまで、すなわちステップS5で区間中フラグがFALSEと判別されるまで、上記の処理を繰り返す。
【0058】
以上のように、本実施の形態における情報検出装置1によれば、情報源における音声信号を所定の時間単位毎に各種別(カテゴリ)に識別し、その種別の識別頻度を評価して同一種別の連続区間を検出する際に、ある種別の識別頻度が初めて所定の閾値以上となり、且つその閾値以上である状態が所定の時間だけ連続した場合にその種別の連続区間の開始を検出し、識別頻度が初めて所定の閾値以下となり、且つその閾値以下である状態が所定の時間だけ連続した場合にその種別の連続区間の終了を検出することにより、連続区間中に雑音などの一時的な音の混入があり、或いは識別誤りが多少ある場合であっても、連続区間の開始位置及び終了位置を正確に検出することができる。
【0059】
なお、本発明は上述した実施の形態のみに限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能であることは勿論である。
【0060】
例えば、上述の実施の形態では、ハードウェアの構成として説明したが、これに限定されるものではなく、任意の処理を、CPU(Central Processing Unit)にコンピュータプログラムを実行させることにより実現することも可能である。この場合、コンピュータプログラムは、記憶媒体・記録媒体に記録して提供することも可能であり、また、インターネットその他の伝送媒体を介して伝送することにより提供することも可能である。
【0061】
【発明の効果】
以上詳細に説明したように本発明に係る情報検出装置及びその方法では、情報源に含まれる音声信号の特徴量を分析して、該音声信号の種別を所定の時間単位毎に分類識別し、分類識別された識別情報を識別情報蓄積手段に記録する。そして、上記識別情報蓄積手段から上記識別情報を読み込み、上記音声信号の種別毎に上記時間単位よりも長い所定の時間区間毎の識別頻度を計算し、この識別頻度を用いて同一種別の連続区間を検出する。
【0062】
この情報検出装置及びその方法では、例えば、任意の種別の上記識別頻度が第1の閾値以上となり、且つ該第1の閾値以上である状態が第1の時間以上連続した場合に該種別の開始を検出し、上記識別頻度が第2の閾値以下となり、且つ該第2の閾値以下である状態が第2の時間以上連続した場合に該種別の終了を検出する。
【0063】
ここで、上記識別頻度としては、任意の種別の上記時間単位毎の識別の確からしさを上記時間区間で平均したもの、或いは任意の種別の上記時間区間における識別回数を用いることができる。
【0064】
このような情報検出装置及びその方法によれば、情報源に含まれる音声信号を所定の時間単位毎に音楽や音声などの種別(カテゴリ)に識別分類し、その種別の識別頻度を評価して同一種別の連続区間を検出する際に、ある種別の識別頻度が初めて所定の閾値以上となり、且つその閾値以上である状態が所定の時間だけ連続した場合にその種別の連続区間の開始を検出し、識別頻度が初めて所定の閾値以下となり、且つその閾値以下である状態が所定の時間だけ連続した場合にその種別の連続区間の終了を検出することにより、連続区間中に雑音などの一時的な音の混入があり、或いは識別誤りが多少ある場合であっても、連続区間の開始位置及び終了位置を正確に検出することができる。
【0065】
また、本発明に係るプログラムは、上述した情報検出処理をコンピュータに実行させるものである。このようなプログラムによれば、上述した情報識別処理をソフトウェアにより実現することができる。
【図面の簡単な説明】
【図1】本実施の形態における情報検出装置の概略構成を示す図である。
【図2】識別情報の記録フォーマットの一例を示す図である。
【図3】識別頻度を計算する時間区間の一例を示す図である。
【図4】インデックス情報の記録フォーマットの一例を示す図である。
【図5】音楽連続区間の開始を検出する様子を説明するための図である。
【図6】音楽連続区間の終了を検出する様子を説明するための図である。
【図7】同情報検出装置における連続区間検出処理を示すフローチャートである。
【符号の説明】
1 情報検出装置、10 音声入力部、11 音声種別識別部、12 識別情報出力部、13 記憶装置・記録媒体、14 識別情報入力部、15 識別頻度計算部、16 区間開始終了判定部、17 区間情報出力部、18 記憶装置・記録媒体
Claims (5)
- 情報源に含まれる音声信号の特徴量を分析し、該音声信号の種別を所定の時間単位毎に分類識別する音声種別識別手段と、
上記音声種別識別手段によって分類識別された識別情報を記録する識別情報蓄積手段と、
上記識別情報蓄積手段から上記識別情報を読み込み、上記音声信号の種別毎に、上記時間単位よりも長い所定の時間区間毎の識別頻度を計算する識別頻度計算手段と、
上記識別頻度を用いて、同一種別の連続区間を検出する連続区間検出手段と
を備え、
上記音声種別識別手段は、上記時間単位毎に上記音声信号の種別を分類識別すると共に、その識別の確からしさを求め、
上記識別頻度は、任意の種別の上記時間単位毎の識別の確からしさを上記時間区間で平均したものである
情報検出装置。 - 上記連続区間検出手段によって検出された上記連続区間の区間情報をインデックスとして蓄積する区間情報蓄積手段をさらに備える請求項1記載の情報検出装置。
- 上記連続区間検出手段は、任意の種別の上記識別頻度が第1の閾値以上となり、且つ該第1の閾値以上である状態が第1の時間以上連続した場合に該種別の開始を検出し、上記識別頻度が第2の閾値以下となり、且つ該第2の閾値以下である状態が第2の時間以上連続した場合に該種別の終了を検出する請求項1記載の情報検出装置。
- 情報源に含まれる音声信号の特徴量を分析し、該音声信号の種別を所定の時間単位毎に分類識別する音声種別識別工程と、
上記音声種別識別工程にて分類識別された識別情報を識別情報蓄積手段に記録する記録工程と、
上記識別情報蓄積手段から上記識別情報を読み込み、上記音声信号の種別毎に、上記時間単位よりも長い所定の時間区間毎の識別頻度を計算する識別頻度計算工程と、
上記識別頻度を用いて、同一種別の連続区間を検出する連続区間検出工程と
を有し、
上記音声種別識別工程では、上記時間単位毎に上記音声信号の種別を分類識別すると共に、その識別の確からしさを求め、
上記識別頻度は、任意の種別の上記時間単位毎の識別の確からしさを上記時間区間で平均したものである
情報検出方法。 - 所定の処理をコンピュータに実行させるプログラムにおいて、
情報源に含まれる音声信号の特徴量を分析し、該音声信号の種別を所定の時間単位毎に分類識別する音声種別識別工程と、
上記音声種別識別工程にて分類識別された識別情報を識別情報蓄積手段に記録する記録工程と、
上記識別情報蓄積手段から上記識別情報を読み込み、上記音声信号の種別毎に、上記時間単位よりも長い所定の時間区間毎の識別頻度を計算する識別頻度計算工程と、
上記識別頻度を用いて、同一種別の連続区間を検出する連続区間検出工程と
をコンピュータに実行させるためのプログラムであり、
上記音声種別識別工程では、上記時間単位毎に上記音声信号の種別を分類識別すると共に、その識別の確からしさを求め、
上記識別頻度は、任意の種別の上記時間単位毎の識別の確からしさを上記時間区間で平均したものである
プログラム。
Priority Applications (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003060382A JP4348970B2 (ja) | 2003-03-06 | 2003-03-06 | 情報検出装置及び方法、並びにプログラム |
US10/513,549 US8195451B2 (en) | 2003-03-06 | 2004-02-10 | Apparatus and method for detecting speech and music portions of an audio signal |
PCT/JP2004/001397 WO2004079718A1 (ja) | 2003-03-06 | 2004-02-10 | 情報検出装置及び方法、並びにプログラム |
EP04709697A EP1600943B1 (en) | 2003-03-06 | 2004-02-10 | Information detection device, method, and program |
CNB200480000194XA CN100530354C (zh) | 2003-03-06 | 2004-02-10 | 信息检测装置、方法和程序 |
KR1020047017765A KR101022342B1 (ko) | 2003-03-06 | 2004-02-10 | 정보 검출 장치 및 정보 검출 방법 |
DE602004023180T DE602004023180D1 (de) | 2003-03-06 | 2004-02-10 | Informationsdetektionseinrichtung, -verfahren und -programm |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003060382A JP4348970B2 (ja) | 2003-03-06 | 2003-03-06 | 情報検出装置及び方法、並びにプログラム |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2004271736A JP2004271736A (ja) | 2004-09-30 |
JP2004271736A5 JP2004271736A5 (ja) | 2006-04-06 |
JP4348970B2 true JP4348970B2 (ja) | 2009-10-21 |
Family
ID=32958879
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003060382A Expired - Fee Related JP4348970B2 (ja) | 2003-03-06 | 2003-03-06 | 情報検出装置及び方法、並びにプログラム |
Country Status (7)
Country | Link |
---|---|
US (1) | US8195451B2 (ja) |
EP (1) | EP1600943B1 (ja) |
JP (1) | JP4348970B2 (ja) |
KR (1) | KR101022342B1 (ja) |
CN (1) | CN100530354C (ja) |
DE (1) | DE602004023180D1 (ja) |
WO (1) | WO2004079718A1 (ja) |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3913772B2 (ja) * | 2005-08-24 | 2007-05-09 | 松下電器産業株式会社 | 音識別装置 |
CA2620200A1 (en) * | 2005-09-07 | 2007-03-15 | Biloop Tecnologic, S.L. | Signal recognition method using a low-cost microcontroller |
WO2008108239A1 (ja) * | 2007-02-27 | 2008-09-12 | Nec Corporation | 音声認識システム、方法およびプログラム |
JP4572218B2 (ja) * | 2007-06-27 | 2010-11-04 | 日本電信電話株式会社 | 音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体 |
JP2009192725A (ja) * | 2008-02-13 | 2009-08-27 | Sanyo Electric Co Ltd | 楽曲記録装置 |
CN102089803B (zh) * | 2008-07-11 | 2013-02-27 | 弗劳恩霍夫应用研究促进协会 | 用以将信号的不同段分类的方法与鉴别器 |
US9037474B2 (en) * | 2008-09-06 | 2015-05-19 | Huawei Technologies Co., Ltd. | Method for classifying audio signal into fast signal or slow signal |
US8340964B2 (en) * | 2009-07-02 | 2012-12-25 | Alon Konchitsky | Speech and music discriminator for multi-media application |
US8606569B2 (en) * | 2009-07-02 | 2013-12-10 | Alon Konchitsky | Automatic determination of multimedia and voice signals |
US8712771B2 (en) * | 2009-07-02 | 2014-04-29 | Alon Konchitsky | Automated difference recognition between speaking sounds and music |
DE112009005215T8 (de) * | 2009-08-04 | 2013-01-03 | Nokia Corp. | Verfahren und Vorrichtung zur Audiosignalklassifizierung |
US20110040981A1 (en) * | 2009-08-14 | 2011-02-17 | Apple Inc. | Synchronization of Buffered Audio Data With Live Broadcast |
CN102044246B (zh) * | 2009-10-15 | 2012-05-23 | 华为技术有限公司 | 一种音频信号检测方法和装置 |
CN102044244B (zh) * | 2009-10-15 | 2011-11-16 | 华为技术有限公司 | 信号分类方法和装置 |
JP4837123B1 (ja) * | 2010-07-28 | 2011-12-14 | 株式会社東芝 | 音質制御装置及び音質制御方法 |
US9293131B2 (en) * | 2010-08-10 | 2016-03-22 | Nec Corporation | Voice activity segmentation device, voice activity segmentation method, and voice activity segmentation program |
US9160837B2 (en) | 2011-06-29 | 2015-10-13 | Gracenote, Inc. | Interactive streaming content apparatus, systems and methods |
US20130090926A1 (en) * | 2011-09-16 | 2013-04-11 | Qualcomm Incorporated | Mobile device context information using speech detection |
CN103092854B (zh) * | 2011-10-31 | 2017-02-08 | 深圳光启高等理工研究院 | 一种音乐数据分类方法 |
US20130317821A1 (en) * | 2012-05-24 | 2013-11-28 | Qualcomm Incorporated | Sparse signal detection with mismatched models |
JP6171708B2 (ja) * | 2013-08-08 | 2017-08-02 | 富士通株式会社 | 仮想マシン管理方法、仮想マシン管理プログラム及び仮想マシン管理装置 |
US9817379B2 (en) * | 2014-07-03 | 2017-11-14 | David Krinkel | Musical energy use display |
KR102435933B1 (ko) * | 2020-10-16 | 2022-08-24 | 주식회사 엘지유플러스 | 영상 컨텐츠에서의 음악 구간 검출 방법 및 장치 |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3102385A1 (de) * | 1981-01-24 | 1982-09-02 | Blaupunkt-Werke Gmbh, 3200 Hildesheim | Schaltungsanordnung zur selbstaetigen aenderung der einstellung von tonwiedergabegeraeten, insbesondere rundfunkempfaengern |
JP2551050B2 (ja) * | 1987-11-13 | 1996-11-06 | ソニー株式会社 | 有音無音判定回路 |
KR940001861B1 (ko) | 1991-04-12 | 1994-03-09 | 삼성전자 주식회사 | 오디오 대역신호의 음성/음악 판별장치 |
DE69214882T2 (de) * | 1991-06-06 | 1997-03-20 | Matsushita Electric Ind Co Ltd | Gerät zur Unterscheidung von Musik und Sprache |
JP2910417B2 (ja) * | 1992-06-17 | 1999-06-23 | 松下電器産業株式会社 | 音声音楽判別装置 |
JPH06332492A (ja) * | 1993-05-19 | 1994-12-02 | Matsushita Electric Ind Co Ltd | 音声検出方法および検出装置 |
BE1007355A3 (nl) | 1993-07-26 | 1995-05-23 | Philips Electronics Nv | Spraaksignaaldiscriminatieschakeling alsmede een audio-inrichting voorzien van een dergelijke schakeling. |
DE4422545A1 (de) * | 1994-06-28 | 1996-01-04 | Sel Alcatel Ag | Start-/Endpunkt-Detektion zur Worterkennung |
JPH08335091A (ja) * | 1995-06-09 | 1996-12-17 | Sony Corp | 音声認識装置、および音声合成装置、並びに音声認識合成装置 |
US5712953A (en) * | 1995-06-28 | 1998-01-27 | Electronic Data Systems Corporation | System and method for classification of audio or audio/video signals based on musical content |
US6570991B1 (en) * | 1996-12-18 | 2003-05-27 | Interval Research Corporation | Multi-feature speech/music discrimination system |
JP3475317B2 (ja) * | 1996-12-20 | 2003-12-08 | 日本電信電話株式会社 | 映像分類方法および装置 |
US6711536B2 (en) * | 1998-10-20 | 2004-03-23 | Canon Kabushiki Kaisha | Speech processing apparatus and method |
US6185527B1 (en) * | 1999-01-19 | 2001-02-06 | International Business Machines Corporation | System and method for automatic audio content analysis for word spotting, indexing, classification and retrieval |
US6490556B2 (en) * | 1999-05-28 | 2002-12-03 | Intel Corporation | Audio classifier for half duplex communication |
US6349278B1 (en) * | 1999-08-04 | 2002-02-19 | Ericsson Inc. | Soft decision signal estimation |
JP4438144B2 (ja) * | 1999-11-11 | 2010-03-24 | ソニー株式会社 | 信号分類方法及び装置、記述子生成方法及び装置、信号検索方法及び装置 |
US6901362B1 (en) * | 2000-04-19 | 2005-05-31 | Microsoft Corporation | Audio segmentation and classification |
US6640208B1 (en) * | 2000-09-12 | 2003-10-28 | Motorola, Inc. | Voiced/unvoiced speech classifier |
US6694293B2 (en) * | 2001-02-13 | 2004-02-17 | Mindspeed Technologies, Inc. | Speech coding system with a music classifier |
US6785645B2 (en) * | 2001-11-29 | 2004-08-31 | Microsoft Corporation | Real-time speech and music classifier |
JP3826032B2 (ja) * | 2001-12-28 | 2006-09-27 | 株式会社東芝 | 音声認識装置、音声認識方法及び音声認識プログラム |
FR2842014B1 (fr) * | 2002-07-08 | 2006-05-05 | Lyon Ecole Centrale | Procede et appareil pour affecter une classe sonore a un signal sonore |
-
2003
- 2003-03-06 JP JP2003060382A patent/JP4348970B2/ja not_active Expired - Fee Related
-
2004
- 2004-02-10 US US10/513,549 patent/US8195451B2/en not_active Expired - Fee Related
- 2004-02-10 WO PCT/JP2004/001397 patent/WO2004079718A1/ja active Application Filing
- 2004-02-10 DE DE602004023180T patent/DE602004023180D1/de not_active Expired - Lifetime
- 2004-02-10 EP EP04709697A patent/EP1600943B1/en not_active Expired - Lifetime
- 2004-02-10 CN CNB200480000194XA patent/CN100530354C/zh not_active Expired - Fee Related
- 2004-02-10 KR KR1020047017765A patent/KR101022342B1/ko not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
EP1600943A1 (en) | 2005-11-30 |
WO2004079718A1 (ja) | 2004-09-16 |
JP2004271736A (ja) | 2004-09-30 |
US20050177362A1 (en) | 2005-08-11 |
KR101022342B1 (ko) | 2011-03-22 |
US8195451B2 (en) | 2012-06-05 |
CN100530354C (zh) | 2009-08-19 |
KR20050109403A (ko) | 2005-11-21 |
EP1600943A4 (en) | 2006-12-06 |
EP1600943B1 (en) | 2009-09-16 |
DE602004023180D1 (de) | 2009-10-29 |
CN1698095A (zh) | 2005-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4348970B2 (ja) | 情報検出装置及び方法、並びにプログラム | |
JP4442081B2 (ja) | 音声抄録選択方法 | |
US7263485B2 (en) | Robust detection and classification of objects in audio using limited training data | |
EP2560167B1 (en) | Method and apparatus for performing song detection in audio signal | |
US9336794B2 (en) | Content identification system | |
Gouyon et al. | On the use of zero-crossing rate for an application of classification of percussive sounds | |
Lu et al. | Content-based audio classification and segmentation by using support vector machines | |
Panagiotakis et al. | A speech/music discriminator based on RMS and zero-crossings | |
US7386357B2 (en) | System and method for generating an audio thumbnail of an audio track | |
Kos et al. | Acoustic classification and segmentation using modified spectral roll-off and variance-based features | |
US8838452B2 (en) | Effective audio segmentation and classification | |
KR20030070179A (ko) | 오디오 스트림 구분화 방법 | |
US20060058998A1 (en) | Indexing apparatus and indexing method | |
JP2005522074A (ja) | 話者識別に基づくビデオのインデックスシステムおよび方法 | |
Wu et al. | Multiple change-point audio segmentation and classification using an MDL-based Gaussian model | |
JP3475317B2 (ja) | 映像分類方法および装置 | |
JP4099576B2 (ja) | 情報識別装置及び方法、並びにプログラム及び記録媒体 | |
Krishnamoorthy et al. | Hierarchical audio content classification system using an optimal feature selection algorithm | |
US20250069618A1 (en) | Method and System for Identifying Similarity Between Two Audio Tracks | |
AU2005252714B2 (en) | Effective audio segmentation and classification | |
Pikrakis et al. | An overview of speech/music discrimination techniques in the context of audio recordings | |
De Santo et al. | A neural multi-expert classification system for MPEG audio segmentation | |
Xu et al. | Support vector machine learning for music discrimination | |
Alfeo | PROYECTO FIN DE CARRERA | |
Rho et al. | Content-based scene segmentation scheme for efficient multimedia information retrieval |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060220 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060220 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090310 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090511 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090630 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090713 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120731 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120731 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130731 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |