JP4885812B2

JP4885812B2 - 音楽検出装置

Info

Publication number: JP4885812B2
Application number: JP2007237194A
Authority: JP
Inventors: 修藤井
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2007-09-12
Filing date: 2007-09-12
Publication date: 2012-02-29
Anticipated expiration: 2027-09-12
Also published as: JP2009069425A

Description

本発明は、テレビ受信装置などに設けられ、放送中の番組のシーンについて、音楽を含むシーンであるか、音声を含むシーンであるかを判定する音楽検出装置、音声検出装置、および音場制御装置に関するものである。

オーディオ再生技術の進歩に伴い、専用のリスニングルームにおけるＨｉＦｉ（High Fidelity:高忠実度）オーディオによる大音量での音楽再生や、マルチチャンネルのホームシアターシステムによるサラウンド再生などにより、ユーザは、自宅に居ながらにして、コンサートホールや映画館と同様の自然な残響音や臨場感を楽しむことができる。

一方、通常、テレビ放送などのコンテンツを視聴する場合、視聴者はリビングや台所などにおいて、小さい音量で視聴することが多い。そして、このような小さい音量でテレビを視聴する場合などにおいても、臨場感や音声の聞き取り易さなどが要求されるようになっている。

そこで、放送中あるいは再生中のコンテンツについて音場制御を行う必要があるが、現在テレビジョン放送の主流になりつつあるデジタル放送の場合、放送波と共に伝送されるＳＩ（Service Information）情報、あるいは、ＳＩ情報をもとに生成されるＥＰＧ（Electronic Program Guide；電子番組表）情報などを用いて、番組のジャンルに応じた音場制御（すなわち、番組単位に共通の音場制御）を行うことが考えられる。

しかしながら、１つの番組は、音声のみのシーン、音楽のみのシーン、あるいは、音声と音楽との両方を含むシーンなど複数のシーンから構成されているため、ＳＩ情報やＥＰＧ情報のみに基づく番組のジャンルに応じた音場制御では、一部のシーンにおいては適切な音場制御がなされるものの、他のシーンにおいては適切な音場制御がなされない。

したがって、番組を通じて適切な音場制御を行うためには、番組単位の音場制御ではなく、シーン毎の音場制御を行う必要がある。例えば、音楽シーンの場合、低域と高域の周波数帯域における音圧を強調する音場制御を行うことにより臨場感が増す。また、音声シーンの場合、中域の周波数帯域における音圧を強調するように音場制御を行うことにより音声（人の声）が聞き取り易くなる。

そのため、現在のシーンが音楽を含むシーンなのか、あるいは、音声を含むシーンなのか等を判別する必要がある。

音楽シーン、あるいは、音声シーンを検出する技術としては、例えば、特許文献１に記載のオーディオ帯域信号の音声／音楽判別装置、特許文献２に記載の音声音楽判別装置、特許文献３に記載の音楽検出装置、音楽検出方法及び録音再生装置、特許文献４に記載のオーディオ情報分類装置などが提案されている。

特許文献１には、低域および高域の音圧を検出し、検出された音圧が強いときに音楽と判定する構成や、受信信号がモノラルの場合には音声であると判定する構成の音声／音楽判別装置が開示されている。

特許文献２に開示されている音声音楽判別装置では、フレームごとに音響パワーを算出し、算出されたパワー値をもとに各フレームが有音か無音かを判定し、複数フレームごとに有音フレームの数が予め定められた閾値よりも大きいときには音楽と判定する。

特許文献３に開示されている音楽検出装置では、２チャンネル音声の各チャンネルのパワーの合計と、各チャンネルのパワーの差とを算出し、各チャンネルのパワーの合計と各チャンネルのパワーの差との比を算出し、その比と所定の閾値との比較結果に基づいて音楽区間を判定する。

特許文献４に開示されているオーディオ情報分類装置では、単位時間毎の周波数データを用いて、有音区間のみを抽出し、抽出した有音区間に対して、１秒毎のエネルギー変化率を算出し、そのエネルギー変化率の大きさによって音声区間を抽出し、さらに、単位時間毎の周波数データから平均バンドエネルギ比を求め、該平均バンドエネルギ比から音楽区間を抽出する。特許文献１〜４に開示されている技術は、いずれも周波数スペクトルのパワーやエネルギーの情報に基づいて音楽、あるいは、音声を判別するものである。

音楽シーンを検出する技術として、他に、特許文献５に記載の音楽検出回路及び該回路を用いた音声信号入力装置、特許文献６に記載の映像分類方法及び装置がある。これらの技術は、周波数スペクトルの調波構造に着目して音楽シーンを検出するものである。

特許文献５に開示されている音楽検出回路は、入力信号を複数のバンドパスフィルタによって濾波し、各バンドパスフィルタからの出力信号毎に、当該出力信号が周期性をもって繰り返されているか否かを判定し、周期性をもって繰り返されているときに、入出力信号が音楽であると判定する。

特許文献６に開示されている映像分類装置は、入力された映像情報に含まれる音情報を周波数解析し、得られたスペクトルを時間方向に並べたスペクトログラムの一定周波数における時間方向のエッジの強さから音楽を検出する音楽検出部を備えている。

また、音声シーンを検出する技術として、他に、特許文献７に開示されている音響区間検出方法及び装置がある。特許文献７に記載の音響区間検出方法では、フレーム毎に周波数変換し、同一フレーム内または隣接するフレーム間の所定周波数帯域間での相関値を算出し、最大値をとる周波数帯域の識別子と最小値をとる周波数帯域の識別子との差を示す帯域番号を算出し、帯域番号の分散に基づいて前記帯域番号を補正し、補正された補正帯域番号の最大値である重み付きの帯域番号を算出して、前記相関値に、前記重み付きの帯域番号を乗じることにより、音響特徴量を算出する。そして、算出した音響特徴量の同一フレームの相関値または異なるフレーム間における相関値に基づいて音声区間を決定する。
特開平５−８８６９５（１９９３年４月９日公開）特開平６−４０８８（１９９４年１月１４日公開）特開２００６−３０１１３４（２００６年１１月２日公開）特開平１０−２４７０９３（１９９８年９月１４日公開）特開平５−２８９６９３（１９９３年１１月５日公開）特開平１０−１８７１８２（１９９８年７月１４日公開）国際公開公報ＷＯ２００４／１１１９９６（２００４年１２月２３日国際公開）

しかしながら、特許文献１〜４に記載の構成、すなわち、周波数スペクトルのパワーやエネルギーの情報のみに基づいて判別する構成では、精度よく音楽シーンや音声シーンを判別することは難しい。

また、特許文献５に記載の構成では、周期性のあるノイズについても音楽であると誤判定してしまう場合がある。また、特許文献６に記載の構成の場合、上記のエッジの強さは音声の発音開始と類似しているため、音声の発音開始を音楽と誤判定してしまうことになり、音楽検出の精度は低い。

本発明は、上記の問題点に鑑みてなされたものであり、その目的は、音楽シーン、音声シーンなどを、各種の音の特性に基づいて精度よく判別するための音楽検出装置、音声検出装置、および音場制御装置を提供することにある。

本発明に係る音楽検出装置は、上記の課題を解決するために、音響信号から、該音響信号の所定時間を表すフレームごとに、周波数スペクトルを算出するスペクトル算出手段と、上記周波数スペクトルの自己相関値を算出する自己相関値算出手段と、連続する複数フレームにおける上記自己相関値の最大値のばらつきの大きさを数値化する数値化手段と、上記ばらつきの大きさが予め定められた閾値よりも小さい場合、上記音響信号を音楽と判定する音楽判定手段と、を備えていることを特徴としている。

上記の構成によれば、本発明に係る音楽検出装置では、スペクトル算出手段は、音響信号から、該音響信号の所定時間を表すフレームごとに、周波数スペクトルを算出する。ここで、スペクトル算出手段は、リニアな周波数軸における周波数スペクトル、すなわち、一定の周波数間隔ごとに周波数スペクトルを算出してもよいし、音階（例えば、平均律や純音律など）ごとに周波数スペクトルを算出してもよく、特に限定はされない。

また、上記構成によれば、自己相関値算出手段は、上記フレームごとに、上記スペクトルの自己相関値を算出する。ここで、自己相関値は、上記スペクトルの自己相関を表す値であって、例えば、上記スペクトルを表すＮ個のデータをｓｐ（ｉ）（ｉ＝０，１，・・・，Ｎ−１）とすれば、数１に示すＲ１（ｘ）（ｘ＝１，２，・・・，Ｍ）によって表される。数１に示す例では、Ｍ個の自己相関値が算出される。

自己相関値としては、数１に示す自己相関関数を正規化した値や定数を乗じた値を用いてもよく、自己相関を評価できる値であれば特に限定はされない。

ここで、Ｌは数１を用いて自己相関値を算出する場合の積和演算の数であり、例えば、スペクトルデータの個数を１３６（すなわち、Ｎ＝１３６）とすると、Ｌは６８程度で十分である。そして、ｘの上限（すなわち、Ｍ）もまた６８とすれば、全てのｘにおいて、Ｒ１（ｘ）を算出するための積和演算の数を平等にすることができる。

自己相関値は、例えば、数１の自己相関関数のように、上記スペクトルのデータ列ｓｐ（ｉ）と、そのデータ列ｓｐ（ｉ）をｘずらしたスペクトルのデータ列ｓｐ（ｉ＋ｘ）とを掛け合わせたものを足し込んだ値によって表される。そして、データ列ｓｐ（ｉ）のスペクトルのピーク値に周期性がある場合、ｘを１周期（すなわち、ピーク値をとる周波数の間隔）としたときに、掛け合わされるデータ列の値は互いにピーク値同士となるため、数１に示す自己相関関数Ｒ１（ｘ）の値は大きくなる。

ところで、上記音響信号が倍音を含む音（例えば、バイオリンの音など）を表す信号の場合、音響信号の周波数スペクトルは、基音の周波数の整数倍の周波数においてピーク値を示す。

そのため、例えば、スペクトル算出手段において、一定の周波数間隔ごとに（すなわち、リニアな周波数軸において）スペクトルデータを算出した場合、そのデータ列ｓｐ（ｉ）では、一定のデータ間隔においてピーク値のデータとなる。

したがって、この場合、上記音響信号が倍音を含む音（例えば、バイオリンの音など）を表す信号の場合、上記自己相関関数値Ｒ１（ｘ）は、ｘがピーク値のデータ間隔となるときに最大値となる。

また、スペクトル算出手段において、音階（例えば、平均律や純音律など）ごとに周波数スペクトルを算出した場合も同様に、そのデータ列ｓｐ（ｉ）では、一定のデータ間隔においてピーク値のデータとなる。

したがって、この場合にも、上記音響信号が倍音を含む音（例えば、バイオリンの音など）を表す信号の場合、上記自己相関関数値Ｒ１（ｘ）は、ｘがピーク値のデータ間隔となるときに最大値となる。

また、上記の構成によれば、数値化手段は、連続する複数フレームにおける上記自己相関値の最大値のばらつきの大きさを数値化する。ばらつきの大きさを数値化した値としては、例えば、分散や標準偏差、あるいは、最大値と最小値との差などがあり、特に限定はされない。

そして、上記の構成によれば、音楽判定手段は、上記ばらつきの大きさが予め定められた閾値よりも小さい場合、上記音響信号を音楽と判定する。倍音成分が含まれている楽器の音の場合、一定時間、倍音成分を含む音が継続する。つまり、一定時間（すなわち、複数フレームにおいて）、倍音成分においてピーク値を示すスペクトル波形は継続する。その場合、スペクトルの自己相関値の最大値も複数フレームにおいて一定幅の値となる。

したがって、上記自己相関値の最大値のばらつきが十分小さければ、楽器の倍音成分が継続していることになる。そのため、上記音楽判定手段は、上記自己相関値の最大値のばらつきを、予め定められた閾値と比較することによって、ばらつきが十分小さいか否かを判定している。

これにより、本発明に係る音楽検出装置は、倍音成分を含む楽器の音、すなわち、バイオリンなどの弦楽器やトランペットなどの管楽器の楽音を検出することが可能となる。

本発明に係る音楽検出装置では、上記スペクトル算出手段は、音階に対応する各周波数のスペクトルを算出することが好ましい。

上記の構成によれば、スペクトル算出手段は、平均律や純音律などの音階律に対応する各周波数のスペクトルを算出する。例えば、スペクトル算出手段は、音響信号から、該音響信号の所定時間を表すフレームごとに、平均律音階の各周波数のスペクトルを算出する。ここで、平均律音階とは、１オクターブを等比数列によって配分して得られる音階である。例えば、１２平均律音階の場合、周波数が２倍となる間隔である１オクターブを等比数列により１２分割することになり、隣り合う音の周波数の比は２の１２乗根となる。すなわち、１２平均律音階を構成する音の各周波数ｆｎは、基音の周波数をｆ_０とすれば、ｆｎ＝ｆ_０×２^ｎ／１２によって表される。なお、上記平均律音階は、１２平均律音階には限定はされない。また、基音の周波数は任意であってよく、特に限定はされない。そして、スペクトル算出手段は、上記平均律音階の各周波数に対応するスペクトルを算出する。そのため、算出されるスペクトルの数はオクターブごとに同数である。例えば、１２平均律音階の場合、１オクターブごとに１２のスペクトルが算出される。

そして、本発明に係る音楽検出装置では、上述したとおり、自己相関値算出手段は、上記フレームごとに、上記スペクトルの自己相関値を算出する。上述したとおり、自己相関値は、上記スペクトルの自己相関を表す値であって、例えば、平均律音階に対応する各周波数のスペクトルを表すＮ個のデータをｓｐ（ｉ）（ｉ＝０，１，・・・，Ｎ−１）とすれば、数１に示すＲ１（ｘ）（ｘ＝１，２，・・・，Ｍ）によって表される。数１に示す例では、Ｍ個の自己相関値が算出される。
ここで、Ｌは数１を用いて自己相関値を算出する場合の積和演算の数であり、例えば、スペクトルデータの個数を１３６（すなわち、Ｎ＝１３６）とすると、Ｌは６８程度で十分である。そして、ｘの上限（すなわち、Ｍ）もまた６８とすれば、全てのｘにおいて、Ｒ１（ｘ）を算出するための積和演算の数を平等にすることができる。

ところで、上述したとおり、上記音響信号が倍音を含む音（例えば、バイオリンの音など）を表す信号の場合、音響信号の周波数スペクトルは、基音の周波数の整数倍の周波数においてピーク値を示す。さらに、その場合、音響信号の周波数スペクトルは、基音の周波数からオクターブ間隔においてピーク値を示すことにもなる。

また、平均律音階は、オクターブごとに同じ数の周波数によって配分されているため、上述したスペクトルのデータ列ｓｐ（ｉ）では、一定の間隔ごとにオクターブ離れた周波数のスペクトルのデータとなる。例えば、１２平均律音階の場合には、ｓｐ（０）、ｓｐ（１２）、ｓｐ（２４），・・・のように１２のデータ間隔で１オクターブ離れた周波数のスペクトルのデータとなる。そして、倍音が含まれる音響信号の周波数スペクトルは、基音の周波数からオクターブ間隔においてピーク値を示すため、スペクトルのデータ列ｓｐ（ｉ）においても、オクターブ間隔、すなわち、一定のデータ間隔（１２平均律音階の場合には１２のデータ間隔）においてピーク値のデータとなる。

したがって、上記音響信号が倍音を含む音（例えば、バイオリンの音など）を表す信号の場合、上記自己相関関数値Ｒ１（ｘ）は、ｘがオクターブ間隔（あるいは、その整数倍の間隔）となるときに最大値となる。

これにより、自己相関関数値Ｒ１（ｘ）の算出に用いるスペクトルのデータ列ｓｐ（ｉ）のデータ数が少なくなるため、演算量を低減できる。したがって、倍音成分を含む楽器の音、すなわち、バイオリンなどの弦楽器やトランペットなどの管楽器の楽音を高速に検出できるようになる。

本発明に係る音楽検出装置では、上記自己相関値算出手段は、上記スペクトルを表すＮ個のデータであるｓｐ（ｉ）（ｉ＝０，１，・・・，Ｎ−１）を用いて、Ｍ個の上記自己相関値を、上記の自己相関関数Ｒ１（ｘ）（ｘ＝１，２，・・・，Ｍ）の各値として算出することが好ましい。

本発明に係る音楽検出装置では、上記数値化手段は、上記最大値の分散を算出して、上記ばらつきを数値化することが好ましい。

本発明の参考に係る音楽検出装置では、上記の課題を解決するために、音響信号から、該音響信号の所定時間を表すフレームごとに、音階に対応する各周波数のスペクトルパワーを算出するスペクトルパワー算出手段と、上記音階の各周波数に該各周波数を識別する音階識別番号が割り当てられており、上記フレームごとに、上記音階識別番号のうち上記スペクトルパワーが最大となる最大音階識別番号を検出する最大音階識別番号検出手段と、連続する複数フレームにおける上記最大音階識別番号のばらつきの大きさを数値化する数値化手段と、上記ばらつきの大きさが予め定められた閾値よりも大きい場合、上記音響信号を音楽と判定する音楽判定手段と、を備えていることを特徴としている。

上記の構成によれば、本発明の参考に係る音楽検出装置では、スペクトルパワー算出手段は、音響信号から、該音響信号の所定時間を表すフレームごとに、平均律や純音律などの音階に対応する各周波数スペクトルパワーを算出する。例えば、スペクトルパワー算出手段は、平均律音階の各周波数スペクトルパワーを算出する。ここで、平均律音階とは、１オクターブを等比数列によって配分して得られる音階である。平均律音階は、１２平均律音階には限定はされない。また、基音の周波数は任意であってよく、特に限定はされない。そして、この場合、スペクトル算出手段は、上記平均律音階の各周波数に対応するスペクトルパワーを算出する。そのため、算出されるスペクトルの数はオクターブごとに同数である。例えば、１２平均律音階の場合、１オクターブごとに１２のスペクトルパワーが算出される。

また、上記構成によれば、上記音階に対応する各周波数に該各周波数を識別する音階識別番号が割り当てられており、最大音階識別番号検出手段は、上記フレームごとに、上記音階識別番号のうち上記スペクトルパワーが最大となる最大音階識別番号を検出する。ここで、音階識別番号は、音階に対応する各周波数の昇順、または、降順に割り当てられた連続的な番号であり、隣り合う番号の間隔は等しい。つまり、音階識別番号は、平均律音階における各音の高さ（あるいは、低さ）の順番を表す番号になる。また、スペクトルパワーの最大値となる周波数の音は、１つのフレームに含まれる音のうち、最も強い音である。すなわち、最大音階識別番号は、１つのフレームに含まれる音のうち、最も強い音を表す識別番号である。

また、上記構成によれば、数値化手段は、連続する複数フレームにおける上記最大音階識別番号のばらつきの大きさを数値化する。ばらつきの大きさを数値化した値としては、例えば、分散や標準偏差、あるいは、最大値と最小値との差などがあり、特に限定はされない。

そして、上記の構成によれば、音楽判定手段は、上記ばらつきの大きさが予め定められた閾値よりも大きい場合、上記音響信号を音楽と判定する。音楽は、音の高低、強弱、長短、音色などを組み合わせて表現されるものである。そして、音の高低が変化するということは、１つのフレームに含まれる最も強い音が、複数のフレームにおいて変化するということである。つまり、上記の最大値音階識別番号は複数のフレームにおいてばらつくことになる。

したがって、上記最大値音階識別番号のばらつきが十分大きければ、音響信号は、音楽を表していることになる。そのため、上記音楽判定手段は、上記最大値音階識別番号のばらつきを、予め定められた閾値と比較することによって、ばらつきが十分大きいか否かを判定している。

これにより、本発明の参考に係る音楽検出装置は、音符の有無、すなわち、音の高低が変化する音楽を検出することが可能となる。

本発明の参考に係る音楽検出装置では、上記数値化手段は、上記最大値の分散を算出して、上記ばらつきを数値化することを特徴とすることが好ましい。

本発明の参考に係る音楽検出装置では、上記の課題を解決するために、音響信号から、フレームごとに予め定められた第１の閾値以下の周波数または第１の閾値未満の周波数のスペクトルパワーを加算して低域スペクトルパワーを算出する低域スペクトルパワー算出手段と、予め定められた数の連続する複数フレームにおける上記低域スペクトルパワーの自己相関値が最大となるフレーム間隔を検出するフレーム間隔検出手段と、上記音響信号から、上記フレームごとに、第１の閾値以上の周波数または第１の閾値より大きい周波数のスペクトルパワーを加算して高域スペクトルパワーを算出する高域スペクトルパワー算出手段と、上記高域スペクトルパワーに対する上記低域スペクトルパワーの比率が予め定められた第２の閾値以上であり、かつ、上記フレーム間隔が予め定められた範囲内にある場合に、上記音響信号を音楽と判定する音楽判定手段と、を備えていることを特徴としている。

上記の構成によれば、本発明の参考に係る音楽検出装置では、低域スペクトルパワー算出手段は、音響信号から、フレームごとに予め定められた第１の閾値以下の周波数または第１の閾値未満の周波数のスペクトルパワーを加算して低域スペクトルパワーを算出する。

また、上記の構成によれば、本発明の参考に係る音楽検出装置では、フレーム間隔検出手段は、予め定められた数の連続する複数フレームにおける上記低域スペクトルパワーの自己相関値が最大となるフレーム間隔を検出する。ここで、自己相関値は、予め定められた数の連続する複数フレームにおける上記スペクトルパワーの自己相関を表す値であって、例えば、Ｎフレームの各スペクトルパワーを表すデータをｓｐｐ（ｉ）（ｉ＝０，１，・・・，Ｎ−１）とすれば、数２に示すＲ２（ｘ）（ｘ＝１，２，・・・，Ｍ）によって表される。数２に示す例では、Ｍ個の自己相関値が算出される。

自己相関値としては、数２に示す自己相関関数を正規化した値や定数を乗じた値を用いてもよく、自己相関を評価できる値であれば特に限定はされない。

ここで、Ｌは数２を用いて自己相関値を算出する場合の積和演算の数であり、例えば、スペクトルパワーを表すデータの個数を１２８（すなわち、Ｎ＝１２８）とすると、Ｌは６４程度で十分である。そして、ｘの上限（すなわち、Ｍ）もまた６４とすれば、全てのｘにおいて、Ｒ２（ｘ）を算出するための積和演算の数を平等にすることができる。

自己相関値は、例えば、数２の自己相関関数のように、複数フレームのスペクトルパワーのデータ列ｓｐｐ（ｉ）と、そのデータ列ｓｐｐ（ｉ）をｘずらしたスペクトルパワーのデータ列ｓｐｐ（ｉ＋ｘ）とを掛け合わせたものを足し込んだ値によって表される。そして、データ列ｓｐｐ（ｉ）によって表される複数フレームのスペクトルパワーの変動に周期性がある場合、ｘを１周期（すなわち、ピーク値をとるフレーム間隔、または、時間間隔）としたときに、掛け合わされるデータ列の値は互いにピーク値同士となるため、数１に示す自己相関関数Ｒ２（ｘ）の値は大きくなる。

ところで、上記音響信号が低域においてリズムを有する音（例えば、ドラムや太鼓の音など）を表す信号の場合、音響信号の低域スペクトルパワーの時間変化は、周期性を有し、一定のフレーム（時間）間隔においてピーク値を示す。

したがって、上記音響信号が低域においてリズムを有する音を表す信号の場合、上記自己相関関数値Ｒ２（ｘ）は、ｘが低域スペクトルパワーの時間変化の周期に等しいフレーム間隔となるときに最大値となる。

また、上記の構成によれば、本発明の参考に係る音楽検出装置では、高域スペクトルパワー算出手段は、上記音響信号から、上記フレームごとに、第１の閾値以上の周波数または第１の閾値より大きい周波数のスペクトルパワーを加算して高域スペクトルパワーを算出する。

そして、上記の構成によれば、本発明の参考に係る音楽検出装置では、音楽判定手段は、上記高域スペクトルパワーに対する上記低域スペクトルパワーの比率が予め定められた第２の閾値以上であり、かつ、上記フレーム間隔が予め定められた範囲内にある場合に、上記音響信号を音楽と判定する。

低域においてリズムを有する楽器の音の場合、低域スペクトルパワーの時間変化の周期は、一定の時間の範囲内となる。例えば、ドラムや太鼓であれば、その周期は、０．２秒から１．５秒の間でリズムを形成する場合が多い。

また、低域においてリズムを有する音であっても、人の声の場合には、低域のスペクトルはほとんど含まれず、低域のスペクトルパワーは非常に小さい。一方、ドラムなどの音の場合は、低域のスペクトルパワーが大きい。そのため、低域においてリズムを有する楽器（例えばドラムなど）の音は、人の声に比べて、低域のスペクトルパワーは相対的に大きくなる。つまり、低域においてリズムを有する楽器の音の場合、高域のスペクトルパワーに対する低域スペクトルパワーの比率は大きくなる。換言すれば、全帯域のスペクトルパワーの合計に対する低域スペクトルパワーの割合は大きくなる。

したがって、上記高域スペクトルパワーに対する上記低域スペクトルパワーの比率が予め定められた閾値と比較して大きく、かつ、上記フレーム間隔が予め定められた範囲内にある場合、すなわち、低域スペクトルパワーの時間変化の周期は、一定の時間の範囲内である場合、上記音響信号を音楽と判定できる。

これにより、本発明の参考に係る音楽検出装置は、低周波数領域の音において周期、すなわち、リズムを有する音楽を検出することが可能となる。

本発明の参考に係る音楽検出装置では、上記フレーム間隔検出手段は、上記低域スペクトルパワーを表すＮ個のデータであるｓｐｐ（ｉ）（ｉ＝０，１，・・・，Ｎ−１）を用いて、Ｍ個の上記自己相関値を、上記の自己相関関数Ｒ２（ｘ）（ｘ＝１，２，・・・，Ｍ）の各値として算出することが好ましい。

本発明の参考に係る音声検出装置では、上記の課題を解決するために、音響信号から、フレームごとに基本周波数を抽出する基本周波数抽出手段と、予め定められた数の連続する複数フレームにおける上記基本周波数の変化を検出する基本周波数変化検出手段と、上記基本周波数変化検出手段によって、上記基本周波数が単調に変化しているか、または、単調変化から一定周波数へ変化しているか、または、一定周波数から単調変化へ変化していることが検出され、かつ、上記基本周波数が予め定められた周波数の範囲内において変化しており、かつ、上記基本周波数の変化の幅が予め定められた周波数の幅より小さいとき、上記音響信号を音声と判定する音声判定手段と、を備えていることを特徴としている。

上記の構成によれば、基本周波数抽出手段は、音響信号から、フレームごとに基本周波数を抽出する。基本周波数を抽出する方法としては、例えば、ケプストラム法や瞬時周波数法などがあり、特に限定はされない。

そして、上記の構成によれば、音声判定手段は、上記基本周波数が、単調に変化（すなわち、単調増加、または、単調増加）しているか、または、単調変化から一定周波数へ変化（すなわち、単調増加から一定周波数、または、単調減少から一定周波数へ変化）しているか、または、一定周波数から単調変化へ変化（すなわち、一定周波数から単調増加、または、一定周波数から単調減少へ変化）していることが検出され、かつ、上記基本周波数が予め定められた周波数の範囲内において変化しており、かつ、上記基本周波数の変化の幅が予め定められた周波数の幅より小さいとき、上記音響信号を音声と判定する。

上記基本周波数の変化が単調に変化している場合、人の声のフレーズ成分を表している可能性がある。また、上記基本周波数の変化が単調変化から一定周波数へ変化している場合、あるいは、上記基本周波数の変化が一定周波数から単調変化へ変化している場合、人の声のアクセント成分を表している可能性がある。

人の声の基本周波数の帯域は、一般的に、約１００Ｈｚ〜４００Ｈｚの間である。より詳細には、男性の声の基本周波数の帯域は、約１５０Ｈｚ±５０Ｈｚであり、女性の声の基本周波数の帯域は、約２５０Ｈｚ±５０Ｈｚである。また、子供の基本周波数の帯域は、女性よりも５０Ｈｚさらに高く、約３００Ｈｚ±５０Ｈｚである。さらに、人の声のフレーズ成分、あるいは、アクセント成分の場合、基本周波数の変化の幅は、約１２０Ｈｚである。

つまり、上記基本周波数が単調に変化しているか、または、単調変化から一定周波数へ変化しているか、または、一定周波数から単調変化へ変化している場合、基本周波数の最大値と最小値とが所定の範囲内にない場合、音声ではないと判定できる。また、上記基本周波数が単調に変化しているか、または、単調変化から一定周波数へ変化しているか、または、一定周波数から単調変化へ変化している場合、基本周波数の最大値と最小値との差が所定の値よりも大きい場合にも、音声ではないと判定できる。

したがって、上記基本周波数が単調に変化しているか、または、単調変化から一定周波数へ変化しているか、または、一定周波数から単調変化へ変化しているときに、基本周波数の変化が予め定められた周波数の範囲内における変化の場合、すなわち、基本周波数の最大値と最小値とが所定の範囲内にある場合であって、かつ、基本周波数の変化の幅が予め定められた周波数の幅より小さい場合、すなわち、基本周波数の最大値と最小値との差が所定の値よりも小さい場合、音声判定手段は、フレーズ成分、あるいは、アクセント成分であると判定できる。しかも、上記の予め定められた周波数の範囲を男性の声、女性の声、子供の声に応じて設定すれば、男性の声、女性の声、子供の声を区別することもできる。

これにより、本発明の参考に係る音声検出装置は、精度よく人の声を検出することができ、しかも、男性の声、女性の声の両方を検出することが可能であると共に、女性の声か子供の声かもある程度検出することが可能となる。

本発明の参考に係る音声検出装置では、上記音声判定手段は、上記周波数の変化が略１００Ｈｚから略４００Ｈｚの範囲内における変化であり、かつ、上記周波数の変化の幅が略１２０Ｈｚより小さい場合に、上記音響信号を音声と判定することが好ましい。

本発明の参考に係る音場制御装置は、上記音楽検出装置によって予め定められた期間内に上記音響信号が音楽と判定された回数と、上記音声検出装置によって上記予め定められた期間内に上記音響信号が音声と判定された回数とに応じて、音場制御の状態を切り替えることを特徴としている。

上記の構成によれば、本発明の参考に係る音場制御装置は、上記音楽検出装置によって、判定された判定結果と、上記音声検出装置によって、判定された判定結果の誤判定に起因する音場制御の変更を防止することができる。ここで、音場制御の状態としては、例えば、音楽シーン用の音場制御や音声シーン用の音場制御や音楽と音声の両方を含むシーン用の音場制御の状態などがある。これにより、音場制御の状態の切り替えを適切な回数にすることができるため、聴取者が１つのシーンと認識する主観的な時間区切りにおいてのみ、音場制御の状態の切り替えを行う構成を実現できる。

本発明の参考に係る音場制御装置では、上記音場制御を切り替える条件を、制御されている状態に応じて変更することを特徴としている。

上記の構成によれば、本発明の参考に係る音場制御装置は、現在の音場制御の状態に優位性を持たせるような判定条件を設定することができ、頻繁にシーンが変化するようなコンテンツにおいても、過度なシーン切り替えを防止することができる。

本発明に係る音楽検出装置は、音響信号から、該音響信号の所定時間を表すフレームごとに、周波数スペクトルを算出するスペクトル算出手段と、上記周波数スペクトルの自己相関値を算出する自己相関値算出手段と、連続する複数フレームにおける上記自己相関値の最大値のばらつきの大きさを数値化する数値化手段と、上記ばらつきの大きさが予め定められた閾値よりも小さい場合、上記音響信号を音楽と判定する音楽判定手段と、を備えている。

それゆえ、本発明に係る音楽検出装置は、倍音成分を含む楽器の音、すなわち、バイオリンなどの弦楽器やトランペットなどの管楽器の楽音を検出することが可能となる。

本発明の参考に係る音楽検出装置では、音響信号から、該音響信号の所定時間を表すフレームごとに、音階に対応する各周波数のスペクトルパワーを算出するスペクトルパワー算出手段と、上記音階の各周波数に該各周波数を識別する音階識別番号が割り当てられており、上記フレームごとに、上記音階識別番号のうち上記スペクトルパワーが最大となる最大音階識別番号を検出する最大音階識別番号検出手段と、連続する複数フレームにおける上記最大音階識別番号のばらつきの大きさを数値化する数値化手段と、上記ばらつきの大きさが予め定められた閾値よりも大きい場合、上記音響信号を音楽と判定する音楽判定手段と、を備えている。

それゆえ、本発明の参考に係る音楽検出装置は、音符の有無、すなわち、音の高低が変化する音楽を検出することが可能となる。

本発明の参考に係る音楽検出装置では、音響信号から、フレームごとに予め定められた第１の閾値以下の周波数または第１の閾値未満の周波数のスペクトルパワーを加算して低域スペクトルパワーを算出する低域スペクトルパワー算出手段と、予め定められた数の連続する複数フレームにおける上記低域スペクトルパワーの自己相関値が最大となるフレーム間隔を検出するフレーム間隔検出手段と、上記音響信号から、上記フレームごとに、第１の閾値以上の周波数または第１の閾値より大きい周波数のスペクトルパワーを加算して高域スペクトルパワーを算出する高域スペクトルパワー算出手段と、上記高域スペクトルパワーに対する上記低域スペクトルパワーの比率が予め定められた第２の閾値以上であり、かつ、上記フレーム間隔が予め定められた範囲内にある場合に、上記音響信号を音楽と判定する音楽判定手段と、を備えている。

それゆえ、本発明の参考に係る音楽検出装置は、低周波数領域の音において周期、すなわち、リズムを有する音楽を検出することが可能となる。

本発明の参考に係る音声検出装置では、音響信号から、フレームごとに基本周波数を抽出する基本周波数抽出手段と、予め定められた数の連続する複数フレームにおける上記基本周波数の変化を検出する基本周波数変化検出手段と、上記基本周波数変化検出手段によって、上記基本周波数が単調に変化しているか、または、単調変化から一定周波数へ変化しているか、または、一定周波数から単調変化へ変化していることが検出され、かつ、上記基本周波数が予め定められた周波数の範囲内において変化しており、かつ、上記基本周波数の変化の幅が予め定められた周波数の幅より小さいとき、上記音響信号を音声と判定する音声判定手段と、を備えていることを特徴としている。

それゆえ、本発明の参考に係る音声検出装置は、精度よく人の声を検出することができ、しかも、男性の声、女性の声の両方と子供の声も検出することが可能となる。

（音楽検出装置１）
本発明に係る音楽検出装置１の一実施形態について、図１ないし図４に基づいて説明すると以下の通りである。

図１は、本発明に係る音楽検出装置１の構成を示すブロック図である。本発明に係る音楽検出装置１は、フレーム分割部５と窓掛け部６とスペクトル変換部７と音楽検出部１０とを含んで構成される。

音楽検出部１０は、音階スペクトル算出部（スペクトル算出手段）１１と自己相関係数算出部（自己相関値算出手段）１２と係数最大値検出部１３と係数最大値保存部１４と係数最大値比較部１５と分散算出部（数値化手段）１６と音楽／非音楽判定部（音楽判定手段）１７とを備えている。

音楽検出装置１は、テレビ受信装置などに実装され、放送信号に含まれる音響信号をもとに、放送中の番組に含まれる音楽シーンを検出する。ここで、音楽シーンとは、音楽が含まれるシーンのことであり、音楽番組などにおける音楽のみからなるシーンのほか、音声（人の話し声など）のバックグラウンドにおいて音楽が流れているようなシーンも含まれる。なお、音楽検出装置１は、録画された番組を録画再生装置などによって再生する場合などにおいても、音響信号をもとに再生中の番組に含まれる音楽シーンを検出することができ、特に限定はされない。本実施の形態では、音楽検出装置１には、ＰＣＭ（Pulse Code Modulation）によってデジタル符号化された音響信号が入力される。

以下に、図１に示す音楽検出装置１における音楽検出の処理について説明する。

フレーム分割部５は、入力された音響信号をフレーム分割し、窓かけ部６に出力する。本実施の形態では、フレーム分割部５は、１フレームあたり１０２４サンプルに分割する。音響信号のサンプリング周波数が４４．１ｋＨｚの場合、１フレームあたりの時間は、２３ｍｓ（＝（１÷４４１００）×１０２４）となる。

窓掛け部６は、フレーム分割された音響信号に対しハニング窓などの窓関数を掛けて、スペクトル変換部７に出力する。窓掛け部６において窓関数を適用することにより、フレーム分割された音響信号についての周波数解析の誤差を低減できる。

スペクトル変換部７は、窓掛け部６から出力された音響信号に対してＦＦＴ（Fast Fourier Transform）を行い、時間領域の音響信号を周波数領域のデータ、すなわち、スペクトルに変換して、音階スペクトル算出部１１に出力する。スペクトル変換部７では、フレーム単位にＦＦＴが行われることになる。本実施の形態においては、上述したとおり、１フレームには１０２４サンプルが含まれており、スペクトル変換部７は、１０２４ポイントのＦＦＴを行う。

音階スペクトル算出部１１は、スペクトル変換部７から出力されるスペクトルに基づいて、１２平均律音階の各周波数に対応するスペクトル（以下では、音階スペクトルと呼ぶ）を算出する。

ここで、平均律音階とは、１オクターブを等比数列によって配分して得られる音階であり、１２平均律音階とは、特に、１オクターブを等比数列によって１２分割して得られる音階である。オクターブとは、ある音と、その音の２倍の高さとなる音との間隔を表す。すなわち、ある音に対して、１オクターブ離れた音の周波数は２倍になる。したがって、１２平均律音階では、周波数が２倍となる１オクターブを等比数列により１２分割することになるため、隣り合う音の周波数の比は２の１２乗根となる。つまり、１２平均律音階を構成する音の各周波数ｆｎは、基音の周波数をｆ_０とすれば、ｆｎ＝ｆ_０×２^ｎ／１２によって表される。

本実施の形態では、音階スペクトル算出部１１は、音階スペクトルとして、１２平均律音階の各周波数のスペクトルを算出する。図２は、１２平均律音階と周波数の関係を示す図である。図２に示す例では、オクターブ４のラ（Ａ）の音を基準として、その周波数を４４０ｋＨｚとした場合の１２平均律音階の各周波数を示す表である。図２の１２平均音階率の各周波数には、周波数の小さい順に、０〜１２６の音階番号が付与されている。この音階番号によって、１２平均律音階の各周波数を識別することができる。また、「Ｃ,Ｃ＃,Ｄ,Ｄ＃,Ｅ,Ｆ,Ｆ＃,Ｇ,Ｇ＃,Ａ,Ａ＃,Ｂ」は、１オクターブ内の１２の音を区別するコードであり、図２には、各周波数に対応するコードが示されている。

音階スペクトル算出部１１の処理について、より具体的に説明する。音階スペクトル算出部１１は、図２に示す各周波数に対応するスペクトルの絶対値を算出する。つまり、スペクトル変換部７から出力される一定の周波数間隔ごとのスペクトルの絶対値を用いた線形補間によって、図２に示す各周波数に対応するスペクトルの絶対値を算出する。例えば、図２によれば音階番号９に対応する周波数は１３．７５Ｈｚであるが、スペクトル変換部７からのスペクトルに１３．７５Ｈｚのスペクトルが含まれていない場合、音階スペクトル算出部１１は、スペクトル変換部７からのスペクトルのうち、１３．７５Ｈｚに近い周波数の２つのスペクトルの絶対値から線形補間によって１３．７５Ｈｚに対応するスペクトルの絶対値を算出する。このようにして、音階スペクトル算出部１１は、音階番号０〜１３６の全ての周波数に対応する音階スペクトルを算出する。そして、音階スペクトル算出部１１は、算出した音階スペクトルを自己相関係数算出部１２に出力する。

自己相関係数算出部１２は、音階スペクトル算出部１１から出力された音階スペクトルの自己相関係数Ｒ１（ｘ）を算出する。つまり、自己相関係数算出部１２はフレームごとに音階スペクトルの自己相関係数Ｒ１（ｘ）を算出する。

上述したとおり、本実施の形態では、音階スペクトル算出部１１は、図２に示す各周波数に対応するスペクトル、すなわち、音階番号０〜１３６に対応する音階スペクトルを算出する。そして、上記の自己相関係数Ｒ１（ｘ）を算出する式において、ｓｐ（ｉ）（ｉは音階番号に対応）は、音階スペクトルを表している。ここで、本実施の形態においては、数３において、Ｌ＝６８とし、ｉを０〜６７まで変化させる。また、ｘは自己相関係数を算出する音階の間隔を表しており、ｘを１〜６８まで変化させて、各ｘに対する自己相関係数Ｒ１（ｘ）を算出する。そして、自己相関係数算出部１２は、自己相関係数Ｒ１（ｘ）を、係数最大値検出部１３に出力する。

係数最大値検出部１３は、自己相関係数算出部１２から出力される自己相関係数Ｒ１（１）〜Ｒ１（６８）の中から最大値を検出する。すなわち、係数最大値検出部１３は、各フレームにおける音階スペクトルの自己相関係数の最大値（以下では、最大自己相関係数と呼ぶ）を検出する。そして、係数最大値検出部１３は、最大自己相関係数を、係数最大値保存部１４と係数最大値比較部１５とに出力する。

係数最大値保存部１４は、係数最大値検出部１３から出力される各フレームにおける最大自己相関係数を記憶する。つまり、係数最大値保存部１４は、全てのフレームについて音階スペクトルの自己相関係数の最大値を履歴データとして記憶している。

係数最大値比較部１５は、係数最大値検出部１３から出力された最大自己相関係数、すなわち、現在のフレームの最大自己相関係数について、微小信号であるか否か判定する。より具体的には、係数最大値比較部１５は、現在フレームの最大自己相関係数について、あらかじめ設定された閾値と比較する。そして、現在フレームの最大自己相関係数が閾値よりも大きい場合には、係数最大値比較部１５は、微小信号ではないと判定し、分散算出部１６に、現在フレームの最大自己相関係数を出力する。

一方、現在フレームの最大自己相関係数が微小信号であると判定された場合、分散算出部１６に、現在フレームの最大自己相関係数を出力しない。この場合、現在フレームについて音楽シーンであるか否かの判定は行われない。

また、係数最大値比較部１５は、係数最大値保存部１４から、過去フレームについての最大自己相関係数を取り出し、現在フレームと同様に、取り出した過去フレームの最大自己相関係数が微小信号であるか否かの判定を行い、微小信号ではない場合、判定対象の過去フレームの最大自己相関係数を、分散算出部１６に出力する。一方、取り出した過去フレームの最大自己相関係数が微小信号の場合には、判定対象の過去フレームの最大自己相関係数を、分散算出部１６に出力しない。

本実施の形態では、係数最大値比較部１５は、係数最大値保存部１４から、時間的に現在フレームに近い順に、順次、過去フレームのパワー最大値を取り出して微小信号か否かを判定し、判定結果に基づいて判定対象の過去フレームの最大自己相関係数を分散算出部１６に出力する処理を繰り返す。この処理は、４つの過去フレームの最大自己相関係数が分散算出部１６に出力されるまで繰り返される。最終的に、分散出力部１６には、現在フレームと４つの過去フレームとの合計５つのフレームについて、最大自己相関係数を分散算出部１６に出力する。

分散算出部１６は、係数最大値比較部１５から出力された５つのフレームの最大自己相関係数について、数４に示す式を用いて分散を算出し、音楽／非音楽判定部１７に出力する。

ここで、Ｒｘ_ｉ（ｉ＝１〜５）は５つのフレームの各最大自己相関係数であり、＜Ｒｘ＞は５つのフレームの最大自己相関係数の平均である。また、ｎ＝５である。

音楽／非音楽判定部１７は、分散算出部１６から出力された分散が予め設定された閾値よりも小さい場合、音楽シーン（音響信号に音楽が含まれているシーン）と判定する。すなわち、音楽を検出する。

なお、係数最大値比較部１５において、最大自己相関係数が微小信号であるか否かを判定し、微小信号ではない最大自己相関係数のみを分散算出部１６に出力する構成とすることにより、分散算出部１６において算出される分散は、最大自己相関係数のばらつきを表す指標としての信頼性が高くなる。しかしながら、必ずしも、係数最大値比較部１５における微小信号の判定によって、微小信号ではない最大自己相関係数のみを分散算出部１６に出力する構成とする必要はなく、特に限定はされない。

図３は、トランペットの周波数スペクトルを示す図であり、（ａ）はある時刻の周波数スペクトルを示す図であり、（ｂ）は（ａ）の周波数スペクトルを示す時刻の２３ｍｓ後の周波数スペクトルを示す図である。図３（ａ）は、トランペットで８８０Ｈｚの音を吹いたときの周波数スペクトルの例を示しており、吹かれた音の整数倍の周波数（すなわち、倍音）近辺においてスペクトルはピークを示している。また、図３（ｂ）に示すとおり、図３（ａ）の周波数スペクトルを示す時刻から２３ｍｓ後においても、倍音は継続している。

図４は、鉄琴の周波数スペクトルを示す図であり、（ａ）はある時刻の周波数スペクトルを示す図であり、（ｂ）は（ａ）の周波数スペクトルを示す時刻の２３ｍｓ後の周波数スペクトルを示す図である。図４（ａ）は、鉄琴のある音を鳴らしたときの周波数スペクトルの例を示しており、鳴らされた音の整数倍の周波数（すなわち、倍音）近辺においてスペクトルはピークを示している。また、図４（ｂ）に示すとおり、図４（ａ）の周波数スペクトルを示す時刻から２３ｍｓ後においても、倍音は継続している。

図３や図４に示すとおり、トランペットや鉄琴の音には、それぞれ固有の倍音成分が含まれており、倍音成分が含まれた音は一定時間、継続する。図３や図４に示すトランペットや鉄琴以外にも、バイオリンなど、弦楽器の楽音には倍音成分は含まれる。

本発明に係る音楽検出装置１では、自己相関係数算出部１２において周波数スペクトルの自己相関係数（自己相関値）を算出し、係数最大値検出部１３において、各フレームにおける自己相関係数の最大値を算出し、分散算出部１６において複数フレーム間での前記最大値の分散（ばらつきの大きさ）が算出され、その分散が予め定められた閾値よりも小さければ音楽と判定している。

楽音の周波数スペクトルは、上述したとおり倍音成分においてピークを示すため、元の周波数スペクトルのデータ列を倍音成分が現れる周波数間隔だけずらしたときに自己相関係数が最大値となる。

また、楽器の音であれば、一定時間、同じ周波数スペクトルが継続する。そのため、楽音の場合、周波数スペクトルの自己相関係数の最大値は、数フレームにわたって、ほぼ一定値を示すことになる。すなわち、連続するフレーム間での周波数スペクトルの自己相関係数の最大値のばらつきは小さい。

本発明に係る音楽検出装置１では、音階スペクトル算出部１１において、１２平均律音階の各周波数に対応する音階スペクトルを算出し、自己相関係数算出部１２では、音階スペクトルの自己相関係数を算出する。倍音成分が含まれる音であれば、音階スペクトルにおいても、一定の間隔において倍音成分を示すピーク値が現れる。

そのため、楽音の場合、音階スペクトルの自己相関係数の最大値は、数フレームにわたって、ほぼ一定値を示し、ばらつきは小さい。したがって、複数フレーム間での音階スペクトルの自己相関係数の最大値の分散が予め定められた閾値よりも小さい場合、音楽であると判定できる。

なお、本実施の形態では、音階スペクトル算出部１１において算出された音階スペクトルに基づいて、すなわち、音階スペクトルの自己相関係数の最大値についての複数フレームでの分散を用いて、音楽であるか否かの判定を行っているが、スペクトル変換部７から出力される周波数スペクトルに基づいて算出する構成であってもよい。すなわち、スペクトル変換部７から出力される周波数スペクトルの自己相関係数の最大値についての複数フレームでの分散を算出し、その分散が予め定められた閾値よりも小さい場合、音楽と判定する構成であってもよく、特に限定はされない。

また、本実施の形態においては、５フレーム分の音階スペクトルの自己相関係数の最大値の分散に基づいて音楽シーンであるか否かの判定を行っているが、分散を算出するために用いるフレームの数は５フレーム以上であってもよく、特に限定はされない。

（音楽検出装置２）
本発明の参考に係る音楽検出装置２の一実施形態について、図５ないし図６に基づいて説明すると以下の通りである。

図５は、本発明の参考に係る音楽検出装置２の構成を示すブロック図である。本発明の参考に係る音楽検出装置２は、フレーム分割部５と窓掛け部６とスペクトル変換部７と音楽検出部２０とを含んで構成される。

音楽検出部２０は、音階スペクトル算出部２１とスペクトルパワー算出部（スペクトルパワー算出手段）２２とパワー最大値検出部（最大音階識別番号検出手段）２３とパワー最大値保存部２４とパワー最大値比較部２５と分散算出部（数値化手段）２６と音楽／非音楽判定部（音楽判定手段）２７とを備えている。

音楽検出装置２は、音楽検出装置１と同様に、テレビ受信装置などに実装され、放送信号に含まれる音響信号をもとに、放送中の番組に含まれる音楽シーンを検出する。本実施の形態では、音楽検出装置２には、音楽検出装置１と同様に、ＰＣＭ（Pulse Code Modulation）によってデジタル符号化された音響信号が入力される。

以下に、図５に示す音楽検出装置２における音楽検出の処理について説明する。

音楽検出装置２におけるフレーム分割部５、窓掛け部６、および、スペクトル変換部７の処理内容は、音楽検出装置１と同様であり、説明は省略する。

音階スペクトル算出部２１は、スペクトル変換部７から受け取るフレームごとのスペクトル（以下では、入力スペクトルと呼ぶ）に基づいて、図２に示す１２平均律音階の各周波数に対応するスペクトル（音階スペクトルと呼ぶ）を表すデータを生成する。音階スペクトル算出部２１は、音楽検出装置１における音階スペクトル算出部１１と同様の処理を行うため、詳細な説明は省略する。

スペクトルパワー算出部２２は、音階スペクトルから音階ごとのスペクトルパワー（すなわち、スペクトルの２乗の値；以下では、音階スペクトルパワーと呼ぶ）を算出し、パワー最大値検出部２３に出力する。

パワー最大値検出部２３は、音階スペクトルパワーの最大値を検出する。そして、パワー最大値検出部２３は、音階スペクトルパワーの最大値（以下では、パワー最大値と呼ぶ）とパワー最大値に対応する音階番号（以下では、最大値音階番号と呼ぶ）とをパワー最大値保存部２４とパワー最大値比較部２５とに出力する。なお、音階番号は、図２に示す音階番号である。また、音階番号は、特許請求の範囲における音階識別番号に対応する。

パワー最大値保存部２４は、パワー最大値検出部２３から出力される各フレームのパワー最大値と最大値音階番号とを記憶する。つまり、パワー最大値保存部２４は、全てのフレームについてパワー最大値と最大値音階番号とを履歴データとして記憶している。

パワー最大値比較部２５は、パワー最大値検出部２３から出力されたパワー最大値、すなわち、現在フレームのパワー最大値について、微小信号であるか否か判定する。より具体的には、パワー最大値比較部２５は、現在フレームのパワー最大値について、あらかじめ設定された閾値と比較する。そして、現在フレームのパワー最大値が閾値よりも大きい場合には、パワー最大値比較部２５は、微小信号ではないと判定し、分散算出部２６に、現在フレームの最大値音階番号を出力する。

一方、現在フレームのパワー最大値が微小信号であると判定された場合、分散算出部１６に、現在フレームの最大値音階番号を出力しない。この場合、現在フレームについて音楽シーンであるか否かの判定は行われない。

また、パワー最大値比較部２５は、パワー最大値保存部２４から、過去フレームについてパワー最大値とパワー最大音階を取り出し、現在フレームと同様に、取り出した過去フレームのパワー最大値が微小信号であるか否かの判定を行い、微小信号ではない場合、判定対象の過去フレームのパワー最大音階を、分散算出部２６に出力する。一方、取り出した過去フレームのパワー最大値が微小信号の場合には、判定対象の過去フレームのパワー最大音階を、分散算出部２６に出力しない。

本実施の形態では、パワー最大値比較部２５は、パワー最大値保存部２４から、時間的に現在フレームに近い順に、順次、過去フレームのパワー最大値を取り出して微小信号か否かを判定し、判定結果に基づいて判定対象の過去フレームのパワー最大音階を分散算出部２６に出力する処理を繰り返す。この処理は、４つの過去フレームのパワー最大音階が分散算出部２６に出力されるまで繰り返される。最終的に、分散算出部２６には、現在フレームと４つの過去フレームとの合計５つのフレームについて、最大値音階番号を分散算出部２６に出力する。

分散算出部２６は、パワー最大値比較部２６から出力された５つのフレームの最大値音階番号について、数５に示す式を用いて分散を算出し、音楽／非音楽判定部２７に出力する。

ここで、ｘ_ｉ（ｉ＝１〜５）は５つのフレームの各最大値音階番号であり、＜ｘ＞は５つのフレームの最大値音階番号の平均である。また、ｎ＝５である。

音楽／非音楽判定部２７は、分散算出部２６から出力された分散が予め設定された閾値よりも大きい場合、音楽シーンと判定する。

図６は、フレームとパワー最大音階の関係の一例を示す図である。図６は、「ケツメイシ」というアーティストの「ドライブ」という楽曲についてのフレームごとの最大値音階番号を示すグラフである。図６に示すとおり、最大値音階番号は４０付近を中心にしてばらついている。図６に示す例のように、通常、音楽は様々な音によって構成されるため、音階にばらつきがある。音楽検出装置２では、音楽／非音楽判定部２７は、分散算出部２６において算出される分散を用いて、音階のばらつきを定量的に評価することができる。したがって、音階のばらつきの指標としての分散が予め定められた閾値よりも大きい場合、音楽であると判定することができる。

本実施の形態においては、５フレーム分のパワー最大音階の分散に基づいて音楽シーンであるか否かの判定を行っているが、分散を算出するために用いるフレームの数は５フレーム以上であってもよく、特に限定はされない。

なお、本実施の形態では、音階スペクトル算出部２１は、図２に示す１２平均律音階の各周波数に対応するスペクトルを算出する構成であるが、音階スペクトル算出部２１において、１２平均律以外の平均律や純音律の音階に対応するスペクトルを音階スペクトルとして算出する構成であってもよく、特に限定はされない。

（音楽検出装置３）
本発明の参考に係る音楽検出装置３の一実施形態について、図７ないし図９に基づいて説明すると以下の通りである。

図７は、本発明の参考に係る音楽検出装置３の構成を示すブロック図である。本発明の参考に係る音楽検出装置３は、フレーム分割部５と窓掛け部６とスペクトル変換部７と音楽検出部３０とを含んで構成される。

音楽検出部３０は、超低域スペクトルパワー算出部（低域スペクトルパワー算出手段）３１と超低域スペクトルパワー保存部３２と超低域スペクトルパワー自己相関係数算出部３３と係数最大値判定部（フレーム間隔検出手段）３４と高域スペクトルパワー算出部（高域スペクトルパワー算出手段）３５と超低域／高域パワー比算出部３６と音楽／非音楽判定部（音楽判定手段）３７とを備えている。

音楽検出装置３は、音楽検出装置１と同様に、テレビ受信装置などに実装され、放送信号に含まれる音響信号をもとに、放送中の番組に含まれる音楽シーンを検出する。本実施の形態では、音楽検出装置３には、音楽検出装置１と同様に、ＰＣＭ（Pulse Code Modulation）によってデジタル符号化された音響信号が入力される。

以下に、図７に示す音楽検出装置３における音楽検出の処理について説明する。

音楽検出装置３におけるフレーム分割部５、窓掛け部６、および、スペクトル変換部７の処理内容は、音楽検出装置１と同様であり、説明は省略する。

超低域スペクトルパワー算出部３１は、スペクトル変換部７から受け取るフレームごとのスペクトル（以下では、入力スペクトルと呼ぶ）をもとに、１００Ｈｚ（予め定められた第１の閾値）以下のスペクトルパワーの和を算出し、超低域スペクトルパワー保存部３２と高域スペクトルパワー算出部３３とに出力する。つまり、超低域スペクトルパワー算出部３１は、入力スペクトルのうち、１００Ｈｚ以下のスペクトルを抽出し、抽出したスペクトルを２乗した値の総和（以下では、超低域スペクトルパワー合計と呼ぶ）を算出する。すなわち、超低域スペクトルパワー合計は、フレームごとの１００Ｈｚ以下の超低域スペクトルについてのスペクトルパワーの合計である。なお、本実施の形態では、超低域スペクトルパワー合計を１００Ｈｚ以下のスペクトルパワーの合計として算出したが、１００Ｈｚ未満のスペクトルパワーの合計であってもよい。また、閾値は１００Ｈｚには限定されない。

超低域スペクトルパワー保存部３２は、超低域スペクトルパワー算出部３１から出力される上記１００Ｈｚ以下の超低域スペクトルパワー合計を記憶する。つまり、超低域スペクトルパワー保存部３２は、全てのフレームについて超低域スペクトルパワー合計を履歴データとして記憶している。

また、超低域スペクトルパワー自己相関係数算出部３３は、超低域スペクトルパワー算出部３１から出力された超低域スペクトルパワー合計、すなわち、現在フレームの超低域スペクトルパワー合計と、超低域スペクトルパワー保存部３２から取り出した過去フレームの超低域スペクトルパワー合計とを用いて、連続するフレーム間における低域スペクトルパワーの自己相関係数を算出する。本実施の形態においては、現在フレームと過去の１２７フレームとの合計１２８フレームについて、数６に示す自己相関係数Ｒ２（ｘ）を算出する。

上記の自己相関係数Ｒ２（ｘ）を算出する式において、ｓｐｐ（ｉ）は各フレームの超低域スペクトルパワー合計を表している。ここで、ｉはフレームを識別する番号（以下では、フレーム識別番号と呼ぶ）を示しており、１〜１２８の整数である。フレーム識別番号は、１〜１２８の順番に各フレームに対して時系列に割り当てられている。つまり、ｓｐｐ（１）は最も過去のフレームのスペクトルパワーであり、ｓｐｐ（１２８）は現在のフレームのスペクトルパワーである。本実施の形態においては、数６において、Ｌ＝６４とし、ｉを０〜６３まで変化させる。また、ｘは自己相関係数を算出するフレームの間隔を表しており、ｘを１〜６４まで変化させて、各ｘに対する自己相関係数Ｒ２（ｘ）を算出する。そして、超低域スペクトルパワー自己相関係数算出部３３は、算出した６４個の自己相関係数Ｒ２（ｘ）（ｘは１〜６４の整数）を係数最大値検出部３４に出力する。

係数最大値検出部３４は、超低域スペクトルパワー自己相関係数算出部３３から出力されたＲ２（１）〜Ｒ２（６４）の最大値を検出し、自己相関係数Ｒ２（ｘ）が最大値を示すフレーム間隔ｘ（以下では、最大値フレーム間隔と呼ぶ）を高域スペクトルパワー算出部３５に出力する。

高域スペクトルパワー算出部３５は、係数最大値検出部３４から、最大値フレーム間隔とあわせて、フレームごとの入力スペクトルを受け取る。つまり、本実施の形態においては、スペクトル変換部７から出力された入力スペクトルは、超低域スペクトルパワー算出部３１と超低域スペクトルパワー自己相関係数算出部３３と係数最大値判定部３４とを通じて、高域スペクトル算出部３５に入力される。

そして、高域スペクトルパワー算出部３５は、係数最大値検出部３４から受け取るフレームごとのスペクトル、すなわち、入力スペクトルをもとに、１００（予め定められた第１の閾値）Ｈｚ以上のスペクトルパワーの和を算出し、超低域／高域パワー比算出部３６に出力する。つまり、高域スペクトルパワー算出部３５は、入力スペクトルのうち、１００Ｈｚ以上のスペクトルを抽出し、抽出したスペクトルを２乗した値の総和（以下では、高域スペクトルパワー合計と呼ぶ）を算出する。すなわち、高域スペクトルパワー合計は、フレームごとの１００Ｈｚ以上の高域スペクトルについてのスペクトルパワーの合計である。なお、本実施の形態では、高域スペクトルパワー合計を１００Ｈｚ以上のスペクトルパワーの合計として算出したが、１００Ｈｚより大きいスペクトルパワーの合計であってもよい。また、閾値は１００Ｈｚには限定されない。

なお、本実施の形態では、高域スペクトルパワー算出部３５は、超低域／高域パワー比算出部３６に対して、高域スペクトルパワー合計と併せて、超低域スペクトルパワー合計を出力する。つまり、本実施の形態においては、超低域スペクトルパワー算出部３１において算出された超低域スペクトルパワー合計は、超低域スペクトルパワー自己相関係数算出部３３と係数最大値判定部３４と高域スペクトル算出部３５とを通じて、超低域／高域パワー比算出部３６に入力される。また、高域スペクトルパワー算出部３５は、上記の最大値フレーム間隔も超低域／高域パワー比算出部３６に出力する。

超低域／高域パワー比算出部３６は、高域スペクトルパワー算出部３５から受け取った高域スペクトルパワー合計と超低域スペクトルパワー合計との比（以下では、超低域／高域パワー比と呼ぶ）を算出し、音楽／非音楽判定部３７に出力する。より具体的には、超低域／高域パワー比は、超低域スペクトルパワー合計÷高域スペクトルパワー合計の演算によって算出される。なお、超低域／高域パワー比として、超低域スペクトルパワー合計÷（超低域スペクトルパワー合計＋高域スペクトルパワー合計）を算出してもよく、特に限定はされない。また、超低域／高域パワー比算出部３６は、上記の最大値フレーム間隔も音楽／非音楽判定部３７に出力する。

音楽／非音楽判定部３７は、超低域／高域パワー比算出部３６から出力された超低域／高域パワー比が予め定められた閾値値（例えば、０．０００３）以上であるか否かを判定する。また、音楽／非音楽判定部３７は、最大値フレーム間隔について、１０フレーム以上、６４フレーム以下（すなわち、０．２３ｓ〜１．５ｓ）であるか否かを判定する。

そして、音楽／非音楽判定部３７は、上記２つの判定の結果、最大値フレーム間隔が１０フレーム以上６４フレーム以下であって、かつ、超低域／高域パワー比が０．０００３以上の場合、音楽シーンと判定する。

図８は、太鼓の周波数スペクトルを示す図である。図８に示す太鼓の周波数スペクトルは、図３に示すトランペットの周波数スペクトルや図４に示す鉄琴の周波数スペクトルとは異なり、倍音成分が含まれていない。したがって、ドラムなどの倍音成分を含まない、すなわち、楽音ではない楽器の音楽シーンについては、音楽検出装置１によって検出できない場合がある。

図９は、ドラムの１００Ｈｚ以下のスペクトルパワー合計の時間遷移を示す図である。縦軸は、１６ビットＰＣＭの最下位ビットを１とした時の、１００Ｈｚ以下のスペクトルパワーの合計を示している。横軸は、ある時刻をフレームＮｏ.１とした時のフレームＮｏを示している。図９に示すとおり、ドラムの１００Ｈｚ以下のスペクトルパワーの時間遷移は、周期性を有している。すなわち、一定の周期において１００Ｈｚ以下のスペクトルパワーのピークが繰り返し現れる。音楽検出装置３では、超低域スペクトルパワー自己相関係数算出部３３において複数フレーム間での１００Ｈｚ以下のスペクトルパワーの自己相関係数を算出し、係数最大値判定部３４において、自己相関係数が最大となるフレーム間隔（すなわち、最大値フレーム間隔）を検出している。ここで、図９において、複数フレーム間での１００Ｈｚ以下のスペクトルパワーは、上述したとおり一定の周期においてピークを示すため、元の１００Ｈｚ以下のスペクトルパワーのデータ列を、上記ピークが現れる一定の周期分のフレーム間隔だけずらしたときに自己相関係数が最大値となる。つまり、係数最大値判定部３４において検出される、自己相関係数が最大値となる最大値フレーム間隔は、１００Ｈｚ以下のスペクトルパワーのピークが現れる周期である。また、図９に示されるような上述のピークの周期は、ドラムなどの楽器であれば、一定の時間範囲内にある。したがって、この周期（すなわち、最大値フレーム間隔）が所定の範囲内（例えば、１０フレーム以上６４フレーム以下であり、特許請求の範囲における予め定められた範囲内に対応）にあるか否かを判定し、所定の範囲内になければ音楽ではないと判定することができる。

ところで、人間の話声には、１００Ｈｚ以下の成分はほとんど含まれないが、僅かに含まれる１００Ｈｚ以下の成分には、スペクトルパワーの周期性が見られる。そのため、人間の話声をドラムなどの音楽と誤判定しないようにさらなる判定条件が必要となる。ここで、ドラムなどの音に含まれている成分は、人の話声と異なり、低域にかたよっているため、１００Ｈｚ以下の超低域成分の含まれている割合が非常に小さい場合には、音楽ではないと判定できる。したがって、超低域／高域パワー比算出部３６において算出される超低域／高域パワー比が予め定められた閾値（例えば、０．０００３であり、特許請求の範囲における第２の閾値に対応）以上であるか否かを判定し、予め定められた閾値以下であれば、すなわち、超低域成分の含まれている割合が非常に小さい場合には、音楽ではないと判定できる。

これにより、音楽／非音楽判定部３７は、超低域／高域パワー比算出部３６から出力された超低域／高域パワー比が予め定められた閾値値（例えば、０．０００３）以上であり、かつ、最大値フレーム間隔が予め定められた範囲内（例えば、１０フレーム以上６４フレーム以下）にある場合に、音楽であると判定することができる。

（音声検出装置４）
本発明の参考に係る音声検出装置４の一実施の形態について、図１０ないし図１３に基づいて説明すると次のとおりである。

図１０は、本発明の参考に係る音声検出装置４の構成を示すブロック図である。本発明の参考に係る音声検出装置４は、フレーム分割部５と窓掛け部６とスペクトル変換部７と音声検出部４０とを含んで構成される。

音声検出部４０は、対数スペクトル算出部４１とケプストラム算出部４２と基本周波数抽出部（基本周波数抽出手段）４３と基本周波数保存部４４とローパスフィルタ部４５とフレーズ成分解析部４６（基本周波数変化検出手段）とアクセント成分解析部４７（基本周波数変化検出手段）と音楽／非音楽判定部（音声判定手段）４８とを備えている。

音声検出装置４は、音楽検出装置１と同様に、テレビ受信装置などに実装され、放送信号に含まれる音響信号をもとに、放送中の番組に含まれる音楽シーンを検出する。本実施の形態では、音声検出装置４には、音楽検出装置１と同様に、ＰＣＭ（Pulse Code Modulation）によってデジタル符号化された音響信号が入力される。

以下に、図１０に示す音声検出装置４における音声検出の処理について説明する。

音声検出装置４におけるフレーム分割部５、窓掛け部６、および、スペクトル変換部７の処理内容は、音楽検出装置１と同様であり、説明は省略する。

対数スペクトル算出部４１は、スペクトル変換部７から受け取るフレームごとのスペクトル（以下では、入力スペクトルと呼ぶ）を基底１０の対数に変換する。つまり、対数スペクトル算出部４１は、入力スペクトルをｓｐとするとｌｏｇ_１０｜ｓｐ｜を算出する。以下では、ｌｏｇ_１０｜ｓｐ｜を対数スペクトルと呼ぶ。そして、対数スペクトル算出部４１は、対数スペクトルをケプストラム算出部４２に出力する。

ケプストラム算出部４２は、対数スペクトル算出部４１から出力される対数スペクトルに対して１０２４ポイントのＩＦＦＴ（Inverse Fast Fourier Transform）を施し、時間領域のデータであるケプストラムに変換する。そして、ケプストラム算出部４２は、算出したケプストラムを、基本周波数抽出部４３に出力する。

基本周波数抽出部４３は、ケプストラム算出部４２から出力されるケプストラムの高次側（約ｆｓ／８００以上）の最大ケプストラムを抽出し、最大ケプストラムとなるケフレンシーの逆数を基本周波数（Ｆ０）として算出する。基本周波数抽出部４３は、基本周波数（Ｆ０）を基本周波数保存部４４とローパスフィルタ部４５とに出力する。

基本周波数保存部４４は、基本周波数抽出部４３から出力される基本周波数（Ｆ０）を記憶する。つまり、基本周波数保存部４４は、全てのフレームについて基本周波数（Ｆ０）を履歴データとして記憶している。

ローパスフィルタ部４５は、基本周波数抽出部４３から出力された基本周波数（Ｆ０）、すなわち、現在フレームの基本周波数（Ｆ０）を低域濾過して、フレーズ成分解析部４６に出力する。また、ローパスフィルタ部４４は、基本周波数保存部４４から、過去フレームについて基本周波数（Ｆ０）を取り出し、現在フレームの基本周波数（Ｆ０）と同様に、低域濾過して、フレーズ成分解析部４６に出力する。ローパスフィルタ部４４において低域の基本周波数（Ｆ０）、すなわち、ノイズとなるような基本周波数（Ｆ０）の情報についてはフレーズ成分解析部４６やアクセント成分解析部４７に出力されずに、除去される。ローパスフィルタ部４４における低域濾過の結果、現在フレームの基本周波数（Ｆ０）が出力されない場合、現在フレームについて音声シーンであるか否かの判定は行われない。

本実施の形態では、ローパスフィルタ部４５は、基本周波数保存部４４から、時間的に現在フレームに近い順に、順次、過去フレームの基本周波数（Ｆ０）を取り出して低域濾過して出力する処理を繰り返す。この処理は、４つの基本周波数（Ｆ０）がフレーズ成分解析部４６に出力されるまで繰り返される。最終的に、ローパスフィルタ部４５は、現在フレームと４つの過去フレームとの合計５つのフレームについて、基本周波数（Ｆ０）をフレーズ成分解析部４６に出力する。

フレーズ成分解析部４６は、ローパスフィルタ部４５から出力された５つのフレームの基本周波数（Ｆ０）について、基本周波数（Ｆ０）が単調減少、または、単調増加しているか（すなわち、単調に変化しているか）を解析する。そして、フレーズ成分解析部４６は、上記の５つのフレーム間における基本周波数（Ｆ０）の単調減少、または、単調増加が、所定の周波数の範囲内（例えば、１００Ｈｚ〜４００Ｈｚの間）にあるか否かを判定する。さらに、フレーズ成分解析部４６は、上記の５つのフレーム間における基本周波数（Ｆ０）の単調減少、または、単調増加（すなわち、単調に変化していること）を検出した場合、その単調減少、または、単調増加における基本周波数（Ｆ０）の変化の幅が所定の範囲内（例えば、１２０Ｈｚ以内）にあるか否かを判定する。

フレーズ成分解析部４６は、上記の５つのフレーム間における基本周波数（Ｆ０）の単調減少、または、単調増加が、所定の周波数の範囲内（例えば、１００Ｈｚ〜４００Ｈｚの間であり、特許請求の範囲における予め定められた周波数の範囲内）にあり、かつ、その単調減少、または、単調増加の変化の幅が所定の範囲内（例えば、１２０Ｈｚ以内であり、特許請求の範囲における予め定められた周波数の幅）にあった場合、その単調減少、または、単調増加を、人の声によるフレーズを表すフレーズ成分であると判定する。そして、フレーズ成分解析部４６は、フレーズ成分が含まれているか否かを表すフレーズ解析結果情報をアクセント成分解析部４７に出力する。また、本実施の形態においては、フレーズ成分解析部４６は、ローパスフィルタ部４５からの５つのフレームの基本周波数（Ｆ０）を、フレーズ解析結果情報とともにアクセント解析部４７に出力する。

アクセント成分解析部４７は、フレーズ成分解析部４６から出力された５つのフレームの基本周波数（Ｆ０）について、基本周波数（Ｆ０）が単調増加からフラットへの遷移（変化なし）または、単調減少からフラットへの遷移（変化なし）であるか（すなわち、単調変化から一定周波数へ変化）を解析する。また、アクセント成分解析部４７は、フラット（変化なし）から単調減少への遷移、または、フラット（変化なし）から単調増加への遷移であるか（すなわち、一定周波数から単調変化へ変化）を解析する。そして、アクセント成分解析部４７は、上記の５つのフレーム間における基本周波数（Ｆ０）の単調増加からフラットへの遷移、単調減少からフラットへの遷移、フラットから単調減少への遷移、または、フラットから単調増加への遷移が、所定の周波数の範囲内（例えば、１００Ｈｚ〜４００Ｈｚの間であり、特許請求の範囲における予め定められた周波数の範囲内）にあるか否かを判定する。さらに、アクセント成分解析部４７は、上記の５つのフレーム間における基本周波数（Ｆ０）の単調増加からフラットへの遷移、単調減少からフラットへの遷移、フラットから単調減少への遷移、または、フラットから単調増加への遷移を検出した場合、その基本周波数（Ｆ０）の変化の幅が所定の範囲内（例えば、１２０Ｈｚ以内であり、特許請求の範囲における予め定められた周波数の幅）にあるか否かを判定する。

アクセント成分解析部４７は、上記の５つのフレーム間における基本周波数（Ｆ０）の単調増加からフラットへの遷移、単調減少からフラットへの遷移、フラットから単調減少への遷移、または、フラットから単調増加への遷移が、所定の周波数の範囲内（例えば、１００Ｈｚ〜４００Ｈｚの間）にあり、かつ、その変化の幅が所定の範囲内（例えば、１２０Ｈｚ以内）にあった場合、人の声によるアクセントを表すアクセント成分であると判定する。そして、アクセント成分解析部４７は、アクセント成分が含まれているか否かを表すアクセント解析結果情報を音声／非音声判定部４８に出力する。また、本実施の形態においては、アクセント成分解析部４７は、フレーズ成分解析部４６からのフレーズ解析結果情報を、アクセント解析結果情報とともに音声／非音声判定部４８に出力する。

音声／非音声判定部３７は、アクセント解析結果情報とフレーズ解析情報とに基づいて、アクセント成分、または、フレーズ成分のいずれかが含まれているか否かを判定し、アクセント成分、または、フレーズ成分のいずれかが含まれている場合には、音声シーン（音響信号に音声が含まれているシーン）と判定する。すなわち、音声を検出する。一方、アクセント成分、および、フレーズ成分のいずれも含まれていない場合には、非音声シーンであると判定する。

図１１は、音声の特性を示す図であり、（ａ）は男性による日本語でのスピーチにおける時間波形を示す図であり、（ｂ）は（ａ）の時間波形から求められた基本周波数（Ｆ０）の時間変化を示す図である。図１２は、音声の特性を示す図であり、（ａ）は女性による日本語でのスピーチにおける時間波形を示す図であり、（ｂ）は（ａ）の時間波形から求められた基本周波数（Ｆ０）の時間変化を示す図である。図１３は、音楽の特性を示す図であり、（ａ）は時間波形を示すであり、（ｂ）は（ａ）の時間波形から求められた基本周波数（Ｆ０）の時間変化を示す図である。

図１１（ｂ）および図１２（ｂ）に示すとおり、人間の音声の場合には、フレーズ成分やアクセント成分が含まれており、いずれも、周波数が１００Ｈｚ〜４００Ｈｚの範囲内にある。また、フレーズ成分、および、アクセント成分の変化量は、いずれも、約１００Ｈｚ以内となっている。一方、図１３（ｂ）に示すとおり、音楽の場合には、フレーズ成分、および、アクセント成分は、全く含まれていない。

したがって、上記の５つのフレーム間における基本周波数（Ｆ０）の単調減少、または、単調増加が、所定の周波数の範囲内（例えば、１００Ｈｚ〜４００Ｈｚの間）にあり、かつ、その単調減少、または、単調増加の変化の幅が所定の範囲内（例えば、１２０Ｈｚ以内）にあった場合、人の声におけるフレーズを表すフレーズ成分が含まれていることがわかるため、人の声が含まれていると判定できる。また、上記の５つのフレーム間における基本周波数（Ｆ０）の単調増加からフラットへの遷移、単調減少からフラットへの遷移、フラットから単調減少への遷移、または、フラットから単調増加への遷移が、所定の周波数の範囲内（例えば、１００Ｈｚ〜４００Ｈｚの間）にあり、かつ、その変化の幅が所定の範囲内（例えば、１２０Ｈｚ）にあった場合、人の声におけるアクセントを表すアクセント成分が含まれていることがわかるため、人の声が含まれていると判定できる。

なお、上記音楽検出装置１、２、３、および、上記音声検出装置４を備えた音楽音声検出装置において、音響信号に対して、上記音声検出装置１、２、３による音楽検出処理、および、上記音声検出装置４による音声検出処理を全て実行した場合、短時間（最短０．１秒）で検出でき、正解率は音声について８７％、音楽について９４％となり、誤検出を低減することができる。

（音場制御装置５０）
本発明の参考に係る音場制御装置５０の一実施の形態について、図１４に基づいて説明すると次のとおりである。図１４は、本実施の形態に係る音場制御装置５０の構成を示すブロック図である。音場制御装置５０は、音楽シーンや音声シーンなどに応じて音響信号を補正して、音場を制御する。音場制御装置５０は、音楽判定部５１とメモリ５２と音場制御判定部５３と音場制御処理部５４とを備えている。本実施の形態では、音楽判定部５１は、音場制御装置５０に含まれているが、音場制御装置５０とは独立して設けられた構成であってもよく、特に限定はされない。音場制御装置５０には、上記音楽検出装置１、２、および、３による音楽検出処理の結果と、上記音声検出装置４による音声検出処理の結果とが入力される。

音場制御装置５０では、音楽判定部５１が、入力された音楽検出処理の結果から、音響信号に音楽が含まれているか否かを判定する。より具体的には、音楽検出装置１、２、または、３からの音楽検出処理の結果のうち、少なくともいずれか１つが音楽を検出したことを表している場合（つまり、少なくともいずれか１つの装置において音楽が検出された場合）、音楽判定部５１は音響信号に音楽が含まれていると判定する。そして、音楽判定部５１は、判定結果をメモリ５２に出力する。メモリ５２は、音楽判定部５１からの判定結果（以下では、音楽検出情報と呼ぶ）を記憶する。また、メモリ５２は、音声検出装置４からの音声検出処理の結果（以下では、音声検出情報と呼ぶ）を記憶する。

なお、本実施の形態では、音楽検出装置１、２、３、および、音声検出装置４は、音楽音声検出装置５５に備えられており、音声検出装置５５に入力された音響信号は、音楽検出装置１、２、３、および、音声検出装置４のそれぞれによって、音楽検出処理、または、音声検出処理が行われる。

そして、音場制御装置５０では、メモリ５２に蓄えられた複数の音楽検出情報、および、音声検出情報に基づいて、音場制御判定部５３が音場制御の内容を決定する。音場制御の種類としては、「音楽シーン用の音場制御」と「音声シーン用の音場制御」と「音楽と音声との両方が含まれるシーン用の音場制御」とがある。音場制御の状態としては、上記の（Ａ）「音楽シーン用の音場制御」がなされている状態と（Ｂ）「音声シーン用の音場制御」がなされている状態と（Ｃ）「音楽と音声との両方が含まれるシーン用の音場制御」がなされている状態のほか、（Ｄ）音場制御されていない状態（以下ではニュートラルの状態と呼ぶ）の４種類の状態がある。

図１５は、音場制御装置５０における音場制御の状態遷移を示す図である。図１５には、上記（Ａ）〜（Ｄ）の４つの状態が示されている。また、図１５に示すとおり、状態遷移のパターンは、（１）〜（１６）の１６通りである。

図１６は、各状態遷移の条件を示す図である。図１６には、図１５の（１）〜（１６）に対応して各状態遷移の条件が示されている。例えば、上記（Ｄ）の状態（すなわちニュートラルの状態）においては、図１５に示すとおり、（１）、（２）、（３）、（１３）の４つの状態遷移が発生し得る。そして、音場制御装置５０では、音場制御判定部５３は、メモリ５２に蓄えられた音楽検出情報、および、音声検出情報に基づいて、図１６に示す条件に応じて、音場制御を行う。

本実施の形態では、音楽検出装置１、２、３、および、音声検出装置４に入力される音響信号はＰＣＭによってデジタル符号化され、１フレームあたり１０２４サンプルに分割される。音響信号のサンプリング周波数が４４．１ｋＨｚの場合、１フレームあたりの時間は、２３ｍｓ（＝（１÷４４１００）×１０２４）となる。音楽検出装置１〜３や音声検出装置４では、連続する複数のフレーム（概ね５フレーム程度）を用いて音楽検出処理、あるいは、音声検出処理が行われるため、メモリ５２には、上述の音楽検出情報、および、音声検出情報が約０．１０５秒（＝２３ｍｓ×５フレーム）ごとに蓄えられる。そして、音場制御判定部５３は、メモリ５２に蓄積された最新の連続する１０回分（約１．０５秒）の音楽検出情報、および、音声検出情報を分析し、音場制御の内容を決定する。

より詳細に説明すれば、音場制御判定部５３は、１０回分の音楽検出情報と音声検出情報とから、音楽が検出された回数（以下では、音楽検出回数と呼ぶ）と音声が検出された回数（以下では、音声検出回数と呼ぶ）とをカウントし、音声検出回数、および、音楽検出回数に応じて、上記（Ａ）〜（Ｄ）の音場制御の状態を切り替える。

図１７は、音場制御判定部５３における処理内容を示すフローチャートである。図１７を用いて、音場制御判定部５３による処理を説明すれば次のとおりである。

まず、音場制御判定部５３は、Ｓ１７１において、現在の音場制御状態がニュートラル（上記（Ｄ）の状態）であるか否かを判定する。そして、音場制御状態がニュートラルの場合、Ｓ１７２において、図１６に示す状態遷移の条件（１）「音楽検出回数＜２、かつ、音声検出回数＞３」を満たしているか否かを判定する。

Ｓ１７２において、条件（１）を満たしていると判定した場合、音声シーンの音場制御を行う（Ｓ１７３）。すなわち、図１５に示す（Ｂ）の状態に遷移する。一方、Ｓ１７２において条件（１）を満たしていないと判定した場合、Ｓ１７４において、図１６に示す状態遷移の条件（２）「音楽検出回数＞３、かつ、音声検出回数＜２」を満たしているか否かを判定する。

Ｓ１７４において、条件（２）を満たしていると判定した場合、音楽シーンの音場制御を行う（Ｓ１７５）。すなわち、図１５に示す（Ａ）の状態に遷移する。一方、Ｓ１７４において条件（２）を満たしていないと判定した場合、Ｓ１７６において、図１６に示す状態遷移の条件（３）「音楽検出回数＞２、かつ、音声検出回数＞２」の条件を満たしているか否かを判定する。

Ｓ１７６において、条件（３）を満たしていると判定した場合、音楽および音声が含まれるシーン用の音場制御を行う（Ｓ１７７）。すなわち、図１５に示す（Ｃ）の状態に遷移する。一方、Ｓ１７６において条件（３）を満たしていないと判定した場合、ニュートラルの状態における音場制御を継続する（Ｓ１７８）。

なお、本実施の形態では、図１６に示す条件は、あらかじめメモリ５２に記憶されているが、条件を変更して再度設定することも可能であり、特に限定はされない。

また、すでに（Ａ）〜（Ｃ）のいずれかの音場制御が行われている状態においても、音場制御判定部５３は、同様に、図１７に示すフローチャートに従ってＳ１７９〜Ｓ２０１に示す処理を行う。この場合も、音場制御判定部５３は、図１６に示す状態遷移の条件に基づいて遷移する状態を判定する。以下にＳ１７９〜Ｓ２０１の処理フローに従って、上記（Ａ）〜（Ｃ）のいずれかの音場制御が行われている場合の状態遷移について説明する。

上述のとおり、音場制御判定部５３は、Ｓ１７１において、現在の音場制御状態がニュートラル（上記（Ｄ）の状態）であるか否かを判定するが、Ｓ１７１においてニュートラルな状態でないと判定された場合、Ｓ１７９において、音場制御状態が音楽シーン用の制御状態（上記（Ａ）の状態）であるか否かを判定する。そして、音場制御状態が音楽シーン用の制御状態の場合、Ｓ１８０において、図１６に示す状態遷移の条件（７）「音楽検出回数＜２、かつ、音声検出回数＞５（＝３＋２）」（判定条件（１）の音声検出回数に＋２のオフセット）を満たしているか否かを判定する。

Ｓ１８０において、条件（７）を満たしていると判定した場合、音声シーンの音場制御を行う（Ｓ１８１）。すなわち、図１５に示す（Ｂ）の状態に遷移する。一方、Ｓ１８０において、条件（７）を満たしていないと判定した場合、Ｓ１８２において、図１６に示す状態遷移の条件（１０）「音楽検出回数＞４（＝２＋２）、かつ、音声検出回数＞４（＝２＋２）」を満たしているか否かを判定する。

Ｓ１８２において、条件（１０）を満たしていると判定した場合、音楽および音声を含んでいるシーンの音場制御を行う（Ｓ１８３）。すなわち、図１５に示す（Ｃ）の状態に遷移する。一方、Ｓ１８２において条件（１０）を満たしていないと判定した場合、Ｓ１８４において、図１６に示す状態遷移の条件（５）「音楽検出回数＜２」の条件を満たしているか否かを判定する。

Ｓ１８４において、条件（５）を満たしていると判定した場合、ニュートラルの音場制御を行う（Ｓ１８５）。すなわち、図１５に示す（Ｄ）の状態に遷移する。一方、Ｓ１８４において、条件（５）を満たしていないと判定した場合、音楽シーンの音場制御を継続する（Ｓ１８６）。

また、上述のとおり、音場制御判定部５３は、Ｓ１７９において、音場制御状態は音楽シーン用の制御状態（上記（Ａ）の状態）であるか否かを判定するが、Ｓ１７９において音楽シーン用の制御状態でないと判定された場合、Ｓ１８７において、音場制御状態が音声シーン用の制御状態（上記（Ｂ）の状態）であるか否かを判定する。そして、音場制御状態が音声シーン用の制御状態の場合、Ｓ１８８において、図１６に示す状態遷移の条件（８）「音楽検出回数＞５（＝３＋２）、かつ、音声検出回数＜２」（判定条件（２）の音楽検出回数に＋２のオフセット）を満たしているか否かを判定する。

Ｓ１８８において、条件（８）を満たしていると判定した場合、音楽シーンの音場制御を行う（Ｓ１８９）。すなわち、図１５に示す（Ａ）の状態に遷移する。一方、Ｓ１８８において、条件（８）を満たしていないと判定した場合、Ｓ１９０において、図１６に示す状態遷移の条件（１２）「音楽検出回数＞４（＝２＋２）、かつ、音声検出回数＞４（＝２＋２）」（判定条件（３）の音楽検出回数、および音声検出回数にそれぞれ＋２のオフセット）を満たしているか否かを判定する。

Ｓ１９０において、条件（１２）を満たしていると判定した場合、音楽および音声を含んでいるシーンの音場制御を行う（Ｓ１９１）。すなわち、図１５に示す（Ｃ）の状態に遷移する。一方、Ｓ１９０において条件（１２）を満たしていないと判定した場合、Ｓ１９２において、図１６に示す状態遷移の条件（４）「音声検出回数＜２」の条件を満たしているか否かを判定する。

Ｓ１９２において、条件（４）を満たしていると判定した場合、ニュートラルの音場制御を行う（Ｓ１９３）。すなわち、図１５に示す（Ｄ）の状態に遷移する。一方、Ｓ１９２において、条件（４）を満たしていないと判定した場合、音声シーンの音場制御を継続する（Ｓ１９４）。

また、上述のとおり、音場制御判定部５３は、Ｓ１８７において、音場制御状態は音楽シーン用の制御状態（上記（Ｂ）の状態）であるか否かを判定するが、Ｓ１８７において音声シーン用の制御状態でないと判定された場合、音場制御状態は、音楽と音声の両方を含むシーン用の制御状態（上記（Ｃ）の状態）ということになる。そして、音場制御状態が音楽と音声の両方を含むシーン用の制御状態の場合、Ｓ１９５において、図１６に示す状態遷移の条件（９）「音楽検出回数＞５（＝３＋２）、かつ、音声検出回数２」（判定条件（２）の音楽検出回数に＋２のオフセット）を満たしているか否かを判定する。

Ｓ１９５において、条件（９）を満たしていると判定した場合、音楽シーンの音場制御を行う（Ｓ１９６）。すなわち、図１５に示す（Ａ）の状態に遷移する。一方、Ｓ１９５において、条件（９）を満たしていないと判定した場合、Ｓ１９７において、図１６に示す状態遷移の条件（１１）「音楽検出回数＜２、かつ、音声検出回数＞５（＝３＋２）」（判定条件（１）の音声検出回数に＋２のオフセット）を満たしているか否かを判定する。

Ｓ１９７において、条件（１１）を満たしていると判定した場合、音声シーンの音場制御を行う（Ｓ１９８）。すなわち、図１５に示す（Ｂ）の状態に遷移する。一方、Ｓ１９７において条件（１１）を満たしていないと判定した場合、Ｓ１９９において、図１６に示す状態遷移の条件（６）「音楽検出回数＜２、かつ、音声検出回数＜２」の条件を満たしているか否かを判定する。

Ｓ１９９において、条件（６）を満たしていると判定した場合、ニュートラルの音場制御を行う（Ｓ２００）。すなわち、図１５に示す（Ｄ）の状態に遷移する。一方、Ｓ１９９において、条件（６）を満たしていないと判定した場合、音楽と音声の両方を含むシーンの音場制御を継続する（Ｓ２０１）。

以上に説明したとおり、音場制御判定部５３は、図１６に示す状態遷移条件に基づいて判定を行い、判定結果に応じて音場制御の状態を切り替える。すなわち、音場制御の状態が遷移する。そして、音場制御処理部５４は、入力されている音響信号に、音場制御判定部５３による判定結果に応じた信号処理を施して補正し、図示しないＤＡコンバータ、アンプ、スピーカなどの再生装置を介して、出力ＰＣＭの再生を行う。

これにより、例えば、ニュートラルな状態において、上述した１０回分の音楽検出情報、および、音声検出情報を分析した結果、音楽検出回数が８回、音声検出回数が１回、音声および音楽のいずれも検出されなかった回数が１回であった場合、図１７のＳ１７４において状態遷移の条件（２）「音楽検出回数＞３、かつ、音声検出回数＜２」を満たしていると判定される。この場合、音場制御判定部５３は、音楽シーンの音場制御を開始する判定を行う。

ここで、条件（２）は、音楽検出処理、音声検出処理の正解率は約９０％程度、すなわち、１割は誤判定があることを考慮して設定されている。そのため、音声検出回数が１回あるものの、音楽シーンの音場制御を行う判定がなされる。

さらに、音楽シーンの音場制御がなされている場合において、次の１０回分の音楽検出情報、および、音声検出情報を分析した結果、音楽検出回数が７回、音楽検出回数が３回、音声および音楽のいずれも検出されなかった回数が３回であった場合（この場合、音声と音楽との両方が同時に検出された回数が３回）、図１７のＳ１８４において状態遷移の条件（５）「条件（７）、（１０）を満たさず、かつ、音楽検出回数＜２」を満たしていないと判定される。この場合、音場制御判定部５３は、音楽シーンの音場制御を継続する判定を行う。

この例から、ニュートラルな状態の場合、音楽検出回数が７回、音声検出回数は３回の場合、Ｓ１７６において状態遷移の条件（３）を満たしていると判定されて、音楽と音声の両方を含むシーンの音場制御の判定が行われるのに対し、音楽シーンの制御状態においては、音楽検出回数が７回、音声検出回数は３回の場合、音楽と音声の両方を含むシーンの音場制御の判定が行われないことがわかる。つまり、現在の状態が何らかの音場制御を行っている状態（すなわち、ニュートラルでない状態）においては、現在の音場制御の状態に優位性を持たせた状態遷移の条件が設定されている。このような条件設定が成されている理由は以下のとおりである。

上述したとおり、音楽検出処理、音声検出処理の正解率は約９０％であり、１０％程度は誤判定されるため、音場制御の状態の切り替えが適切に行われない場合がある。また、１つの会話のシーンにおいて息継ぎの無声部分があったり、効果音だけで数秒だけ音楽が混入されたりする場合もある。そのため、この数秒（または数百ｍｓ）単位のオーダーでのシーンチェンジ（すなわち、音場制御の状態の切り替え）を追従しても、必ずしも、視聴者にとって快適な切り替えがなされるとは言えず、むしろ視聴者を疲れさせてしまうことになる。そこで、既に音場制御が行われている場合には、ニュートラルな状態からの音場制御に比べて、現在のシーン、すなわち、現在の音場制御の状態に優位性を持たせるようにして状態遷移の条件が設定されている。これにより、音場制御の状態の切り替えを適切な回数にすることができる。つまり、聴取者が１つのシーンと認識する主観的な時間区切りにおいてのみ、音場制御の状態の切り替えを行う構成を実現できる。

なお、本発明を、以下のように表現することも可能である。

（第１の構成）
入力音声音響信号を所定時間で区切られたフレームに分割する手段と、前記フレーム毎に周波数に変換する手段と、前記周波数に変換したスペクトルの横軸を対数変換する手段と、前記対数変換したスペクトルの自己相関値を算出する手段と、前記算出された自己相関値の過去のフレームとの相関値を算出する手段と、前記相関値が所定フレームの間で、所定値以内かを比較する手段と、所定値以内の場合に音楽シーンと判定する判定手段を備えることを特徴とする第１の構成。

（第２の構成）
入力音声音響信号を所定時間で区切られたフレームに分割する手段と、前記フレーム毎に周波数に変換する手段と、前記周波数に変換したスペクトルの横軸を対数変換する手段と、前記対数変換したスペクトルのパワーの最大値を検出する手段と、前記検出した最大値を有する周波数を検出する手段と、前記検出された最大周波数と過去の所定フレームの最大周波数を比較する手段と、前記比較した周波数帯域が所定の音階幅以上か比較する手段と、所定の音階以上の場合に音楽シーンと判定する判定手段を備えることを特徴とする第２の構成。

（第３の構成）
入力音声音響信号を所定時間で区切られたフレームに分割する手段と、前記フレーム毎に周波数に変換する手段と、前記周波数に変換したスペクトルの所定周波数以下のパワーと以上のパワーを算出する手段と、前記算出した低域パワーと高域パワーを過去のフレームと累積加算する手段と、前記累積加算した低域パワーと高域パワーの比を算出する手段と、前記累積加算した低域パワーの自己相関値を算出する手段と、前記低域パワーの累積加算値と高域パワーの累積加算値の比を算出する手段と、前記算出した比が所定値以上であって、かつ前記低域パワーの自己相関値の最大値が所定値（略0.2秒）以上でありかつ所定値（略1.5秒）以下の場合に音楽シーンと判定する判定手段を備えることを特徴とする第３の構成。

（第４の構成）
入力音声音響信号を所定時間で区切られたフレームに分割し、前記フレーム毎にケプストラム法や瞬時周波数法等により基本周波数を抽出する装置において、前記抽出した基本周波数と複数の過去フレームの検出した基本周波数を、各々所定範囲（略100Hzから略400Hz）と比較する手段と、前記所定範囲を満たす場合に、基本周波数の変化量を検出する手段と、検出した変化量が所定範囲（略120Hz）以内であり、かつ単調増加または単調減少する場合に音声シーンと判定する判定手段を備えることを特徴とする第４の構成。

本発明は上述した実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能である。すなわち、請求項に示した範囲で適宜変更した技術的手段を組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。

最後に、音楽検出装置１、２、３、および、音声検出装置４の各ブロックは、ハードウェアロジックによって構成してもよいし、次のようにＣＰＵを用いてソフトウェアによって実現してもよい。

すなわち、音楽検出部１０、２０、３０、および、音声検出部４０は、各機能を実現する制御プログラムの命令を実行するＣＰＵ（central processing unit）、上記プログラムを格納したＲＯＭ（read only memory）、上記プログラムを展開するＲＡＭ（random access memory）、上記プログラムおよび各種データを格納するメモリ等の記憶装置（記録媒体）などを備えている。そして、本発明の目的は、上述した機能を実現するソフトウェアである音楽検出部１０、２０、３０、および、音声検出部４０の制御プログラムのプログラムコード（実行形式プログラム、中間コードプログラム、ソースプログラム）をコンピュータで読み取り可能に記録した記録媒体を、音楽検出装置１、２、３、および、音声検出装置４に供給し、そのコンピュータ（またはＣＰＵやＭＰＵ）が記録媒体に記録されているプログラムコードを読み出し実行することによっても、達成可能である。

上記記録媒体としては、例えば、磁気テープやカセットテープ等のテープ系、フロッピー（登録商標）ディスク／ハードディスク等の磁気ディスクやＣＤ−ＲＯＭ／ＭＯ／ＭＤ／ＤＶＤ／ＣＤ−Ｒ等の光ディスクを含むディスク系、ＩＣカード（メモリカードを含む）／光カード等のカード系、あるいはマスクＲＯＭ／ＥＰＲＯＭ／ＥＥＰＲＯＭ／フラッシュＲＯＭ等の半導体メモリ系などを用いることができる。

また、音楽検出装置１、２、３、および、音声検出装置４を通信ネットワークと接続可能に構成し、通信ネットワークを介して上記プログラムコードを供給してもよい。この通信ネットワークとしては、特に限定されず、例えば、インターネット、イントラネット、エキストラネット、ＬＡＮ、ＩＳＤＮ、ＶＡＮ、ＣＡＴＶ通信網、仮想専用網（virtual private network）、電話回線網、移動体通信網、衛星通信網等が利用可能である。また、通信ネットワークを構成する伝送媒体としては、特に限定されず、例えば、ＩＥＥＥ１３９４、ＵＳＢ、電力線搬送、ケーブルＴＶ回線、電話線、ＡＤＳＬ回線等の有線でも、ＩｒＤＡやリモコンのような赤外線、Ｂｌｕｅｔｏｏｔｈ（登録商標）、８０２．１１無線、ＨＤＲ、携帯電話網、衛星回線、地上波デジタル網等の無線でも利用可能である。なお、本発明は、上記プログラムコードが電子的な伝送で具現化された、搬送波に埋め込まれたコンピュータデータ信号の形態でも実現され得る。

本発明に係る音楽検出装置、および、音声検出装置は、放送中や再生中の番組について音楽シーン、音声シーンを検出することができるため、シーンに応じて最適な音場制御を行うテレビ受像装置などにおいて好適に利用できる。

本発明に係る音楽検出装置の構成を示すブロック図である。１２平均律音階と周波数の関係を示す図である。トランペットの周波数スペクトルを示す図であり、（ａ）はある時刻の周波数スペクトルを示す図であり、（ｂ）は（ａ）の周波数スペクトルを示す時刻の２３ｍｓ後の周波数スペクトルを示す図である。鉄琴の周波数スペクトルを示す図であり、（ａ）はある時刻の周波数スペクトルを示す図であり、（ｂ）は（ａ）の周波数スペクトルを示す時刻の２３ｍｓ後の周波数スペクトルを示す図である。本発明の参考に係る音楽検出装置の構成を示すブロック図である。フレームとパワー最大音階の関係の一例を示す図である。本発明の参考に係る音楽検出装置の構成を示すブロック図である。太鼓の周波数スペクトルを示す図である。ドラムの１００Ｈｚ以下のスペクトルパワー合計の時間遷移を示す図である。本発明の参考に係る音声検出装置の構成を示すブロック図である。音声の特性を示す図であり、（ａ）は男性による日本語でのスピーチにおける時間波形を示す図であり、（ｂ）は（ａ）の時間波形から求められた基本周波数（Ｆ０）の時間変化を示す図である。音声の特性を示す図であり、（ａ）は女性による日本語でのスピーチにおける時間波形を示す図であり、（ｂ）は（ａ）の時間波形から求められた基本周波数（Ｆ０）の時間変化を示す図である。音楽の特性を示す図であり、（ａ）は時間波形を示すであり、（ｂ）は（ａ）の時間波形から求められた基本周波数（Ｆ０）の時間変化を示す図である。本発明の参考に係る音場制御装置の構成を示すブロック図である。音場制御装置における音場制御の状態遷移を示す図である。音場制御の各状態遷移の条件を示す図である。音場制御判定部における処理内容を示すフローチャートである。

１音楽検出装置
２音楽検出装置
３音楽検出装置
４音声検出装置
５フレーム分割部
６窓掛け部
７スペクトル変換部
１０音楽検出部
１１音階スペクトル算出部（スペクトル算出手段）
１２自己相関係数算出部（自己相関値算出手段）
１３係数最大値検出部
１４係数最大値保存部
１５係数最大値比較部
１６分散算出部（数値化手段）
１７音楽／非音楽判定部（音楽判定手段）
２０音楽検出部
２１音階スペクトル算出部
２２スペクトルパワー算出部（スペクトルパワー算出手段）
２３パワー最大値検出部（最大音階識別番号検出手段）
２４パワー最大値保存部
２５パワー最大値比較部
２６分散算出部（数値化手段）
２７音楽／非音楽判定部（音楽判定手段）
３０音楽検出部
３１超低域スペクトルパワー算出部（低域スペクトルパワー算出手段）
３２超低域スペクトルパワー保存部
３３超低域スペクトルパワー自己相関係数算出部
３４係数最大値判定部（フレーム間隔検出手段）
３５高域スペクトルパワー算出部（高域スペクトルパワー算出手段）
３６超低域／高域パワー比算出部
３７音楽／非音楽判定部（音楽判定手段）
４０音声検出部
４１対数スペクトル算出部
４２ケプストラム算出部
４３基本周波数算出部（基本周波数抽出手段）
４４基本周波数保存部
４５ローパスフィルタ部
４６フレーズ成分解析部（基本周波数変化検出手段）
４７アクセント成分解析部（基本周波数変化検出手段）
４８音声／非音声判定部（音声判定手段）
５０音場制御装置
５１音楽判定部（音楽判定装置）
５２メモリ
５３音場制御判定部
５４音場制御処理部
５５音楽音声検出装置

Claims

音響信号から、該音響信号の所定時間を表すフレームごとに、周波数スペクトルを算出するスペクトル算出手段と、
上記周波数スペクトルの自己相関値を算出する自己相関値算出手段と、
連続する複数フレームにおける上記自己相関値の最大値のばらつきの大きさを数値化する数値化手段と、
上記ばらつきの大きさが予め定められた閾値よりも小さい場合、上記音響信号を音楽と判定する音楽判定手段と、を備えていることを特徴とする音楽検出装置。
上記スペクトル算出手段は、
音階に対応する各周波数のスペクトルを算出することを特徴とする請求項１に記載の音楽検出装置。
上記自己相関値算出手段は、
上記スペクトルを表すＮ個のデータであるｓｐ（ｉ）（ｉ＝０，１，・・・，Ｎ−１）を用いて、Ｍ個の上記自己相関値を、下記の自己相関関数Ｒ１（ｘ）（ｘ＝１，２，・・・Ｍ）の各値として算出することを特徴とする請求項２に記載の音楽検出装置。
上記数値化手段は、
上記最大値の分散を算出して、上記ばらつきを数値化することを特徴とする請求項２または３に記載の音楽検出装置。
上記自己相関値算出手段から出力される自己相関値の中から、上記最大値を検出する係数最大値検出手段と、
上記係数最大値検出手段から出力される現在フレームの最大値を、あらかじめ設定された閾値と比較し、現在フレームの最大値が、上記閾値よりも大きい場合に、上記数値化手段に、現在フレームの最大値を出力する係数最大値比較手段とをさらに備え、
上記数値化手段は、係数最大値比較手段によって上記閾値よりも大きいと判定された最大値のばらつきの大きさを数値化し、上記音楽判定手段へ出力することを特徴とする請求項１から４のいずれか１項に記載の音楽検出装置。