しかしながら、特許文献1〜4に記載の構成、すなわち、周波数スペクトルのパワーやエネルギーの情報のみに基づいて判別する構成では、精度よく音楽シーンや音声シーンを判別することは難しい。
また、特許文献5に記載の構成では、周期性のあるノイズについても音楽であると誤判定してしまう場合がある。また、特許文献6に記載の構成の場合、上記のエッジの強さは音声の発音開始と類似しているため、音声の発音開始を音楽と誤判定してしまうことになり、音楽検出の精度は低い。
本発明は、上記の問題点に鑑みてなされたものであり、その目的は、音楽シーン、音声シーンなどを、各種の音の特性に基づいて精度よく判別するための音楽検出装置、音声検出装置、および音場制御装置を提供することにある。
本発明に係る音楽検出装置は、上記の課題を解決するために、音響信号から、該音響信号の所定時間を表すフレームごとに、周波数スペクトルを算出するスペクトル算出手段と、上記周波数スペクトルの自己相関値を算出する自己相関値算出手段と、連続する複数フレームにおける上記自己相関値の最大値のばらつきの大きさを数値化する数値化手段と、上記ばらつきの大きさが予め定められた閾値よりも小さい場合、上記音響信号を音楽と判定する音楽判定手段と、を備えていることを特徴としている。
上記の構成によれば、本発明に係る音楽検出装置では、スペクトル算出手段は、音響信号から、該音響信号の所定時間を表すフレームごとに、周波数スペクトルを算出する。ここで、スペクトル算出手段は、リニアな周波数軸における周波数スペクトル、すなわち、一定の周波数間隔ごとに周波数スペクトルを算出してもよいし、音階(例えば、平均律や純音律など)ごとに周波数スペクトルを算出してもよく、特に限定はされない。
また、上記構成によれば、自己相関値算出手段は、上記フレームごとに、上記スペクトルの自己相関値を算出する。ここで、自己相関値は、上記スペクトルの自己相関を表す値であって、例えば、上記スペクトルを表すN個のデータをsp(i)(i=0,1,・・・,N−1)とすれば、数1に示すR1(x)(x=1,2,・・・,M)によって表される。数1に示す例では、M個の自己相関値が算出される。
自己相関値としては、数1に示す自己相関関数を正規化した値や定数を乗じた値を用いてもよく、自己相関を評価できる値であれば特に限定はされない。
ここで、Lは数1を用いて自己相関値を算出する場合の積和演算の数であり、例えば、スペクトルデータの個数を136(すなわち、N=136)とすると、Lは68程度で十分である。そして、xの上限(すなわち、M)もまた68とすれば、全てのxにおいて、R1(x)を算出するための積和演算の数を平等にすることができる。
自己相関値は、例えば、数1の自己相関関数のように、上記スペクトルのデータ列sp(i)と、そのデータ列sp(i)をxずらしたスペクトルのデータ列sp(i+x)とを掛け合わせたものを足し込んだ値によって表される。そして、データ列sp(i)のスペクトルのピーク値に周期性がある場合、xを1周期(すなわち、ピーク値をとる周波数の間隔)としたときに、掛け合わされるデータ列の値は互いにピーク値同士となるため、数1に示す自己相関関数R1(x)の値は大きくなる。
ところで、上記音響信号が倍音を含む音(例えば、バイオリンの音など)を表す信号の場合、音響信号の周波数スペクトルは、基音の周波数の整数倍の周波数においてピーク値を示す。
そのため、例えば、スペクトル算出手段において、一定の周波数間隔ごとに(すなわち、リニアな周波数軸において)スペクトルデータを算出した場合、そのデータ列sp(i)では、一定のデータ間隔においてピーク値のデータとなる。
したがって、この場合、上記音響信号が倍音を含む音(例えば、バイオリンの音など)を表す信号の場合、上記自己相関関数値R1(x)は、xがピーク値のデータ間隔となるときに最大値となる。
また、スペクトル算出手段において、音階(例えば、平均律や純音律など)ごとに周波数スペクトルを算出した場合も同様に、そのデータ列sp(i)では、一定のデータ間隔においてピーク値のデータとなる。
したがって、この場合にも、上記音響信号が倍音を含む音(例えば、バイオリンの音など)を表す信号の場合、上記自己相関関数値R1(x)は、xがピーク値のデータ間隔となるときに最大値となる。
また、上記の構成によれば、数値化手段は、連続する複数フレームにおける上記自己相関値の最大値のばらつきの大きさを数値化する。ばらつきの大きさを数値化した値としては、例えば、分散や標準偏差、あるいは、最大値と最小値との差などがあり、特に限定はされない。
そして、上記の構成によれば、音楽判定手段は、上記ばらつきの大きさが予め定められた閾値よりも小さい場合、上記音響信号を音楽と判定する。倍音成分が含まれている楽器の音の場合、一定時間、倍音成分を含む音が継続する。つまり、一定時間(すなわち、複数フレームにおいて)、倍音成分においてピーク値を示すスペクトル波形は継続する。その場合、スペクトルの自己相関値の最大値も複数フレームにおいて一定幅の値となる。
したがって、上記自己相関値の最大値のばらつきが十分小さければ、楽器の倍音成分が継続していることになる。そのため、上記音楽判定手段は、上記自己相関値の最大値のばらつきを、予め定められた閾値と比較することによって、ばらつきが十分小さいか否かを判定している。
これにより、本発明に係る音楽検出装置は、倍音成分を含む楽器の音、すなわち、バイオリンなどの弦楽器やトランペットなどの管楽器の楽音を検出することが可能となる。
本発明に係る音楽検出装置では、上記スペクトル算出手段は、音階に対応する各周波数のスペクトルを算出することが好ましい。
上記の構成によれば、スペクトル算出手段は、平均律や純音律などの音階律に対応する各周波数のスペクトルを算出する。例えば、スペクトル算出手段は、音響信号から、該音響信号の所定時間を表すフレームごとに、平均律音階の各周波数のスペクトルを算出する。ここで、平均律音階とは、1オクターブを等比数列によって配分して得られる音階である。例えば、12平均律音階の場合、周波数が2倍となる間隔である1オクターブを等比数列により12分割することになり、隣り合う音の周波数の比は2の12乗根となる。すなわち、12平均律音階を構成する音の各周波数fnは、基音の周波数をf0とすれば、fn=f0×2n/12によって表される。なお、上記平均律音階は、12平均律音階には限定はされない。また、基音の周波数は任意であってよく、特に限定はされない。そして、スペクトル算出手段は、上記平均律音階の各周波数に対応するスペクトルを算出する。そのため、算出されるスペクトルの数はオクターブごとに同数である。例えば、12平均律音階の場合、1オクターブごとに12のスペクトルが算出される。
そして、本発明に係る音楽検出装置では、上述したとおり、自己相関値算出手段は、上記フレームごとに、上記スペクトルの自己相関値を算出する。上述したとおり、自己相関値は、上記スペクトルの自己相関を表す値であって、例えば、平均律音階に対応する各周波数のスペクトルを表すN個のデータをsp(i)(i=0,1,・・・,N−1)とすれば、数1に示すR1(x)(x=1,2,・・・,M)によって表される。数1に示す例では、M個の自己相関値が算出される。
ここで、Lは数1を用いて自己相関値を算出する場合の積和演算の数であり、例えば、スペクトルデータの個数を136(すなわち、N=136)とすると、Lは68程度で十分である。そして、xの上限(すなわち、M)もまた68とすれば、全てのxにおいて、R1(x)を算出するための積和演算の数を平等にすることができる。
ところで、上述したとおり、上記音響信号が倍音を含む音(例えば、バイオリンの音など)を表す信号の場合、音響信号の周波数スペクトルは、基音の周波数の整数倍の周波数においてピーク値を示す。さらに、その場合、音響信号の周波数スペクトルは、基音の周波数からオクターブ間隔においてピーク値を示すことにもなる。
また、平均律音階は、オクターブごとに同じ数の周波数によって配分されているため、上述したスペクトルのデータ列sp(i)では、一定の間隔ごとにオクターブ離れた周波数のスペクトルのデータとなる。例えば、12平均律音階の場合には、sp(0)、sp(12)、sp(24),・・・のように12のデータ間隔で1オクターブ離れた周波数のスペクトルのデータとなる。そして、倍音が含まれる音響信号の周波数スペクトルは、基音の周波数からオクターブ間隔においてピーク値を示すため、スペクトルのデータ列sp(i)においても、オクターブ間隔、すなわち、一定のデータ間隔(12平均律音階の場合には12のデータ間隔)においてピーク値のデータとなる。
したがって、上記音響信号が倍音を含む音(例えば、バイオリンの音など)を表す信号の場合、上記自己相関関数値R1(x)は、xがオクターブ間隔(あるいは、その整数倍の間隔)となるときに最大値となる。
これにより、自己相関関数値R1(x)の算出に用いるスペクトルのデータ列sp(i)のデータ数が少なくなるため、演算量を低減できる。したがって、倍音成分を含む楽器の音、すなわち、バイオリンなどの弦楽器やトランペットなどの管楽器の楽音を高速に検出できるようになる。
本発明に係る音楽検出装置では、上記自己相関値算出手段は、上記スペクトルを表すN個のデータであるsp(i)(i=0,1,・・・,N−1)を用いて、M個の上記自己相関値を、上記の自己相関関数R1(x)(x=1,2,・・・,M)の各値として算出することが好ましい。
本発明に係る音楽検出装置では、上記数値化手段は、上記最大値の分散を算出して、上記ばらつきを数値化することが好ましい。
本発明の参考に係る音楽検出装置では、上記の課題を解決するために、音響信号から、該音響信号の所定時間を表すフレームごとに、音階に対応する各周波数のスペクトルパワーを算出するスペクトルパワー算出手段と、上記音階の各周波数に該各周波数を識別する音階識別番号が割り当てられており、上記フレームごとに、上記音階識別番号のうち上記スペクトルパワーが最大となる最大音階識別番号を検出する最大音階識別番号検出手段と、連続する複数フレームにおける上記最大音階識別番号のばらつきの大きさを数値化する数値化手段と、上記ばらつきの大きさが予め定められた閾値よりも大きい場合、上記音響信号を音楽と判定する音楽判定手段と、を備えていることを特徴としている。
上記の構成によれば、本発明の参考に係る音楽検出装置では、スペクトルパワー算出手段は、音響信号から、該音響信号の所定時間を表すフレームごとに、平均律や純音律などの音階に対応する各周波数スペクトルパワーを算出する。例えば、スペクトルパワー算出手段は、平均律音階の各周波数スペクトルパワーを算出する。ここで、平均律音階とは、1オクターブを等比数列によって配分して得られる音階である。平均律音階は、12平均律音階には限定はされない。また、基音の周波数は任意であってよく、特に限定はされない。そして、この場合、スペクトル算出手段は、上記平均律音階の各周波数に対応するスペクトルパワーを算出する。そのため、算出されるスペクトルの数はオクターブごとに同数である。例えば、12平均律音階の場合、1オクターブごとに12のスペクトルパワーが算出される。
また、上記構成によれば、上記音階に対応する各周波数に該各周波数を識別する音階識別番号が割り当てられており、最大音階識別番号検出手段は、上記フレームごとに、上記音階識別番号のうち上記スペクトルパワーが最大となる最大音階識別番号を検出する。ここで、音階識別番号は、音階に対応する各周波数の昇順、または、降順に割り当てられた連続的な番号であり、隣り合う番号の間隔は等しい。つまり、音階識別番号は、平均律音階における各音の高さ(あるいは、低さ)の順番を表す番号になる。また、スペクトルパワーの最大値となる周波数の音は、1つのフレームに含まれる音のうち、最も強い音である。すなわち、最大音階識別番号は、1つのフレームに含まれる音のうち、最も強い音を表す識別番号である。
また、上記構成によれば、数値化手段は、連続する複数フレームにおける上記最大音階識別番号のばらつきの大きさを数値化する。ばらつきの大きさを数値化した値としては、例えば、分散や標準偏差、あるいは、最大値と最小値との差などがあり、特に限定はされない。
そして、上記の構成によれば、音楽判定手段は、上記ばらつきの大きさが予め定められた閾値よりも大きい場合、上記音響信号を音楽と判定する。音楽は、音の高低、強弱、長短、音色などを組み合わせて表現されるものである。そして、音の高低が変化するということは、1つのフレームに含まれる最も強い音が、複数のフレームにおいて変化するということである。つまり、上記の最大値音階識別番号は複数のフレームにおいてばらつくことになる。
したがって、上記最大値音階識別番号のばらつきが十分大きければ、音響信号は、音楽を表していることになる。そのため、上記音楽判定手段は、上記最大値音階識別番号のばらつきを、予め定められた閾値と比較することによって、ばらつきが十分大きいか否かを判定している。
これにより、本発明の参考に係る音楽検出装置は、音符の有無、すなわち、音の高低が変化する音楽を検出することが可能となる。
本発明の参考に係る音楽検出装置では、上記数値化手段は、上記最大値の分散を算出して、上記ばらつきを数値化することを特徴とすることが好ましい。
本発明の参考に係る音楽検出装置では、上記の課題を解決するために、音響信号から、フレームごとに予め定められた第1の閾値以下の周波数または第1の閾値未満の周波数のスペクトルパワーを加算して低域スペクトルパワーを算出する低域スペクトルパワー算出手段と、予め定められた数の連続する複数フレームにおける上記低域スペクトルパワーの自己相関値が最大となるフレーム間隔を検出するフレーム間隔検出手段と、上記音響信号から、上記フレームごとに、第1の閾値以上の周波数または第1の閾値より大きい周波数のスペクトルパワーを加算して高域スペクトルパワーを算出する高域スペクトルパワー算出手段と、上記高域スペクトルパワーに対する上記低域スペクトルパワーの比率が予め定められた第2の閾値以上であり、かつ、上記フレーム間隔が予め定められた範囲内にある場合に、上記音響信号を音楽と判定する音楽判定手段と、を備えていることを特徴としている。
上記の構成によれば、本発明の参考に係る音楽検出装置では、低域スペクトルパワー算出手段は、音響信号から、フレームごとに予め定められた第1の閾値以下の周波数または第1の閾値未満の周波数のスペクトルパワーを加算して低域スペクトルパワーを算出する。
また、上記の構成によれば、本発明の参考に係る音楽検出装置では、フレーム間隔検出手段は、予め定められた数の連続する複数フレームにおける上記低域スペクトルパワーの自己相関値が最大となるフレーム間隔を検出する。ここで、自己相関値は、予め定められた数の連続する複数フレームにおける上記スペクトルパワーの自己相関を表す値であって、例えば、Nフレームの各スペクトルパワーを表すデータをspp(i)(i=0,1,・・・,N−1)とすれば、数2に示すR2(x)(x=1,2,・・・,M)によって表される。数2に示す例では、M個の自己相関値が算出される。
自己相関値としては、数2に示す自己相関関数を正規化した値や定数を乗じた値を用いてもよく、自己相関を評価できる値であれば特に限定はされない。
ここで、Lは数2を用いて自己相関値を算出する場合の積和演算の数であり、例えば、スペクトルパワーを表すデータの個数を128(すなわち、N=128)とすると、Lは64程度で十分である。そして、xの上限(すなわち、M)もまた64とすれば、全てのxにおいて、R2(x)を算出するための積和演算の数を平等にすることができる。
自己相関値は、例えば、数2の自己相関関数のように、複数フレームのスペクトルパワーのデータ列spp(i)と、そのデータ列spp(i)をxずらしたスペクトルパワーのデータ列spp(i+x)とを掛け合わせたものを足し込んだ値によって表される。そして、データ列spp(i)によって表される複数フレームのスペクトルパワーの変動に周期性がある場合、xを1周期(すなわち、ピーク値をとるフレーム間隔、または、時間間隔)としたときに、掛け合わされるデータ列の値は互いにピーク値同士となるため、数1に示す自己相関関数R2(x)の値は大きくなる。
ところで、上記音響信号が低域においてリズムを有する音(例えば、ドラムや太鼓の音など)を表す信号の場合、音響信号の低域スペクトルパワーの時間変化は、周期性を有し、一定のフレーム(時間)間隔においてピーク値を示す。
したがって、上記音響信号が低域においてリズムを有する音を表す信号の場合、上記自己相関関数値R2(x)は、xが低域スペクトルパワーの時間変化の周期に等しいフレーム間隔となるときに最大値となる。
また、上記の構成によれば、本発明の参考に係る音楽検出装置では、高域スペクトルパワー算出手段は、上記音響信号から、上記フレームごとに、第1の閾値以上の周波数または第1の閾値より大きい周波数のスペクトルパワーを加算して高域スペクトルパワーを算出する。
そして、上記の構成によれば、本発明の参考に係る音楽検出装置では、音楽判定手段は、上記高域スペクトルパワーに対する上記低域スペクトルパワーの比率が予め定められた第2の閾値以上であり、かつ、上記フレーム間隔が予め定められた範囲内にある場合に、上記音響信号を音楽と判定する。
低域においてリズムを有する楽器の音の場合、低域スペクトルパワーの時間変化の周期は、一定の時間の範囲内となる。例えば、ドラムや太鼓であれば、その周期は、0.2秒から1.5秒の間でリズムを形成する場合が多い。
また、低域においてリズムを有する音であっても、人の声の場合には、低域のスペクトルはほとんど含まれず、低域のスペクトルパワーは非常に小さい。一方、ドラムなどの音の場合は、低域のスペクトルパワーが大きい。そのため、低域においてリズムを有する楽器(例えばドラムなど)の音は、人の声に比べて、低域のスペクトルパワーは相対的に大きくなる。つまり、低域においてリズムを有する楽器の音の場合、高域のスペクトルパワーに対する低域スペクトルパワーの比率は大きくなる。換言すれば、全帯域のスペクトルパワーの合計に対する低域スペクトルパワーの割合は大きくなる。
したがって、上記高域スペクトルパワーに対する上記低域スペクトルパワーの比率が予め定められた閾値と比較して大きく、かつ、上記フレーム間隔が予め定められた範囲内にある場合、すなわち、低域スペクトルパワーの時間変化の周期は、一定の時間の範囲内である場合、上記音響信号を音楽と判定できる。
これにより、本発明の参考に係る音楽検出装置は、低周波数領域の音において周期、すなわち、リズムを有する音楽を検出することが可能となる。
本発明の参考に係る音楽検出装置では、上記フレーム間隔検出手段は、上記低域スペクトルパワーを表すN個のデータであるspp(i)(i=0,1,・・・,N−1)を用いて、M個の上記自己相関値を、上記の自己相関関数R2(x)(x=1,2,・・・,M)の各値として算出することが好ましい。
本発明の参考に係る音声検出装置では、上記の課題を解決するために、音響信号から、フレームごとに基本周波数を抽出する基本周波数抽出手段と、予め定められた数の連続する複数フレームにおける上記基本周波数の変化を検出する基本周波数変化検出手段と、上記基本周波数変化検出手段によって、上記基本周波数が単調に変化しているか、または、単調変化から一定周波数へ変化しているか、または、一定周波数から単調変化へ変化していることが検出され、かつ、上記基本周波数が予め定められた周波数の範囲内において変化しており、かつ、上記基本周波数の変化の幅が予め定められた周波数の幅より小さいとき、上記音響信号を音声と判定する音声判定手段と、を備えていることを特徴としている。
上記の構成によれば、基本周波数抽出手段は、音響信号から、フレームごとに基本周波数を抽出する。基本周波数を抽出する方法としては、例えば、ケプストラム法や瞬時周波数法などがあり、特に限定はされない。
そして、上記の構成によれば、音声判定手段は、上記基本周波数が、単調に変化(すなわち、単調増加、または、単調増加)しているか、または、単調変化から一定周波数へ変化(すなわち、単調増加から一定周波数、または、単調減少から一定周波数へ変化)しているか、または、一定周波数から単調変化へ変化(すなわち、一定周波数から単調増加、または、一定周波数から単調減少へ変化)していることが検出され、かつ、上記基本周波数が予め定められた周波数の範囲内において変化しており、かつ、上記基本周波数の変化の幅が予め定められた周波数の幅より小さいとき、上記音響信号を音声と判定する。
上記基本周波数の変化が単調に変化している場合、人の声のフレーズ成分を表している可能性がある。また、上記基本周波数の変化が単調変化から一定周波数へ変化している場合、あるいは、上記基本周波数の変化が一定周波数から単調変化へ変化している場合、人の声のアクセント成分を表している可能性がある。
人の声の基本周波数の帯域は、一般的に、約100Hz〜400Hzの間である。より詳細には、男性の声の基本周波数の帯域は、約150Hz±50Hzであり、女性の声の基本周波数の帯域は、約250Hz±50Hzである。また、子供の基本周波数の帯域は、女性よりも50Hzさらに高く、約300Hz±50Hzである。さらに、人の声のフレーズ成分、あるいは、アクセント成分の場合、基本周波数の変化の幅は、約120Hzである。
つまり、上記基本周波数が単調に変化しているか、または、単調変化から一定周波数へ変化しているか、または、一定周波数から単調変化へ変化している場合、基本周波数の最大値と最小値とが所定の範囲内にない場合、音声ではないと判定できる。また、上記基本周波数が単調に変化しているか、または、単調変化から一定周波数へ変化しているか、または、一定周波数から単調変化へ変化している場合、基本周波数の最大値と最小値との差が所定の値よりも大きい場合にも、音声ではないと判定できる。
したがって、上記基本周波数が単調に変化しているか、または、単調変化から一定周波数へ変化しているか、または、一定周波数から単調変化へ変化しているときに、基本周波数の変化が予め定められた周波数の範囲内における変化の場合、すなわち、基本周波数の最大値と最小値とが所定の範囲内にある場合であって、かつ、基本周波数の変化の幅が予め定められた周波数の幅より小さい場合、すなわち、基本周波数の最大値と最小値との差が所定の値よりも小さい場合、音声判定手段は、フレーズ成分、あるいは、アクセント成分であると判定できる。しかも、上記の予め定められた周波数の範囲を男性の声、女性の声、子供の声に応じて設定すれば、男性の声、女性の声、子供の声を区別することもできる。
これにより、本発明の参考に係る音声検出装置は、精度よく人の声を検出することができ、しかも、男性の声、女性の声の両方を検出することが可能であると共に、女性の声か子供の声かもある程度検出することが可能となる。
本発明の参考に係る音声検出装置では、上記音声判定手段は、上記周波数の変化が略100Hzから略400Hzの範囲内における変化であり、かつ、上記周波数の変化の幅が略120Hzより小さい場合に、上記音響信号を音声と判定することが好ましい。
本発明の参考に係る音場制御装置は、上記音楽検出装置によって予め定められた期間内に上記音響信号が音楽と判定された回数と、上記音声検出装置によって上記予め定められた期間内に上記音響信号が音声と判定された回数とに応じて、音場制御の状態を切り替えることを特徴としている。
上記の構成によれば、本発明の参考に係る音場制御装置は、上記音楽検出装置によって、判定された判定結果と、上記音声検出装置によって、判定された判定結果の誤判定に起因する音場制御の変更を防止することができる。ここで、音場制御の状態としては、例えば、音楽シーン用の音場制御や音声シーン用の音場制御や音楽と音声の両方を含むシーン用の音場制御の状態などがある。これにより、音場制御の状態の切り替えを適切な回数にすることができるため、聴取者が1つのシーンと認識する主観的な時間区切りにおいてのみ、音場制御の状態の切り替えを行う構成を実現できる。
本発明の参考に係る音場制御装置では、上記音場制御を切り替える条件を、制御されている状態に応じて変更することを特徴としている。
上記の構成によれば、本発明の参考に係る音場制御装置は、現在の音場制御の状態に優位性を持たせるような判定条件を設定することができ、頻繁にシーンが変化するようなコンテンツにおいても、過度なシーン切り替えを防止することができる。
本発明に係る音楽検出装置は、音響信号から、該音響信号の所定時間を表すフレームごとに、周波数スペクトルを算出するスペクトル算出手段と、上記周波数スペクトルの自己相関値を算出する自己相関値算出手段と、連続する複数フレームにおける上記自己相関値の最大値のばらつきの大きさを数値化する数値化手段と、上記ばらつきの大きさが予め定められた閾値よりも小さい場合、上記音響信号を音楽と判定する音楽判定手段と、を備えている。
それゆえ、本発明に係る音楽検出装置は、倍音成分を含む楽器の音、すなわち、バイオリンなどの弦楽器やトランペットなどの管楽器の楽音を検出することが可能となる。
本発明の参考に係る音楽検出装置では、音響信号から、該音響信号の所定時間を表すフレームごとに、音階に対応する各周波数のスペクトルパワーを算出するスペクトルパワー算出手段と、上記音階の各周波数に該各周波数を識別する音階識別番号が割り当てられており、上記フレームごとに、上記音階識別番号のうち上記スペクトルパワーが最大となる最大音階識別番号を検出する最大音階識別番号検出手段と、連続する複数フレームにおける上記最大音階識別番号のばらつきの大きさを数値化する数値化手段と、上記ばらつきの大きさが予め定められた閾値よりも大きい場合、上記音響信号を音楽と判定する音楽判定手段と、を備えている。
それゆえ、本発明の参考に係る音楽検出装置は、音符の有無、すなわち、音の高低が変化する音楽を検出することが可能となる。
本発明の参考に係る音楽検出装置では、音響信号から、フレームごとに予め定められた第1の閾値以下の周波数または第1の閾値未満の周波数のスペクトルパワーを加算して低域スペクトルパワーを算出する低域スペクトルパワー算出手段と、予め定められた数の連続する複数フレームにおける上記低域スペクトルパワーの自己相関値が最大となるフレーム間隔を検出するフレーム間隔検出手段と、上記音響信号から、上記フレームごとに、第1の閾値以上の周波数または第1の閾値より大きい周波数のスペクトルパワーを加算して高域スペクトルパワーを算出する高域スペクトルパワー算出手段と、上記高域スペクトルパワーに対する上記低域スペクトルパワーの比率が予め定められた第2の閾値以上であり、かつ、上記フレーム間隔が予め定められた範囲内にある場合に、上記音響信号を音楽と判定する音楽判定手段と、を備えている。
それゆえ、本発明の参考に係る音楽検出装置は、低周波数領域の音において周期、すなわち、リズムを有する音楽を検出することが可能となる。
本発明の参考に係る音声検出装置では、音響信号から、フレームごとに基本周波数を抽出する基本周波数抽出手段と、予め定められた数の連続する複数フレームにおける上記基本周波数の変化を検出する基本周波数変化検出手段と、上記基本周波数変化検出手段によって、上記基本周波数が単調に変化しているか、または、単調変化から一定周波数へ変化しているか、または、一定周波数から単調変化へ変化していることが検出され、かつ、上記基本周波数が予め定められた周波数の範囲内において変化しており、かつ、上記基本周波数の変化の幅が予め定められた周波数の幅より小さいとき、上記音響信号を音声と判定する音声判定手段と、を備えていることを特徴としている。
それゆえ、本発明の参考に係る音声検出装置は、精度よく人の声を検出することができ、しかも、男性の声、女性の声の両方と子供の声も検出することが可能となる。
(音楽検出装置1)
本発明に係る音楽検出装置1の一実施形態について、図1ないし図4に基づいて説明すると以下の通りである。
図1は、本発明に係る音楽検出装置1の構成を示すブロック図である。本発明に係る音楽検出装置1は、フレーム分割部5と窓掛け部6とスペクトル変換部7と音楽検出部10とを含んで構成される。
音楽検出部10は、音階スペクトル算出部(スペクトル算出手段)11と自己相関係数算出部(自己相関値算出手段)12と係数最大値検出部13と係数最大値保存部14と係数最大値比較部15と分散算出部(数値化手段)16と音楽/非音楽判定部(音楽判定手段)17とを備えている。
音楽検出装置1は、テレビ受信装置などに実装され、放送信号に含まれる音響信号をもとに、放送中の番組に含まれる音楽シーンを検出する。ここで、音楽シーンとは、音楽が含まれるシーンのことであり、音楽番組などにおける音楽のみからなるシーンのほか、音声(人の話し声など)のバックグラウンドにおいて音楽が流れているようなシーンも含まれる。なお、音楽検出装置1は、録画された番組を録画再生装置などによって再生する場合などにおいても、音響信号をもとに再生中の番組に含まれる音楽シーンを検出することができ、特に限定はされない。本実施の形態では、音楽検出装置1には、PCM(Pulse Code Modulation)によってデジタル符号化された音響信号が入力される。
以下に、図1に示す音楽検出装置1における音楽検出の処理について説明する。
フレーム分割部5は、入力された音響信号をフレーム分割し、窓かけ部6に出力する。本実施の形態では、フレーム分割部5は、1フレームあたり1024サンプルに分割する。音響信号のサンプリング周波数が44.1kHzの場合、1フレームあたりの時間は、23ms(=(1÷44100)×1024)となる。
窓掛け部6は、フレーム分割された音響信号に対しハニング窓などの窓関数を掛けて、スペクトル変換部7に出力する。窓掛け部6において窓関数を適用することにより、フレーム分割された音響信号についての周波数解析の誤差を低減できる。
スペクトル変換部7は、窓掛け部6から出力された音響信号に対してFFT(Fast Fourier Transform)を行い、時間領域の音響信号を周波数領域のデータ、すなわち、スペクトルに変換して、音階スペクトル算出部11に出力する。スペクトル変換部7では、フレーム単位にFFTが行われることになる。本実施の形態においては、上述したとおり、1フレームには1024サンプルが含まれており、スペクトル変換部7は、1024ポイントのFFTを行う。
音階スペクトル算出部11は、スペクトル変換部7から出力されるスペクトルに基づいて、12平均律音階の各周波数に対応するスペクトル(以下では、音階スペクトルと呼ぶ)を算出する。
ここで、平均律音階とは、1オクターブを等比数列によって配分して得られる音階であり、12平均律音階とは、特に、1オクターブを等比数列によって12分割して得られる音階である。オクターブとは、ある音と、その音の2倍の高さとなる音との間隔を表す。すなわち、ある音に対して、1オクターブ離れた音の周波数は2倍になる。したがって、12平均律音階では、周波数が2倍となる1オクターブを等比数列により12分割することになるため、隣り合う音の周波数の比は2の12乗根となる。つまり、12平均律音階を構成する音の各周波数fnは、基音の周波数をf0とすれば、fn=f0×2n/12によって表される。
本実施の形態では、音階スペクトル算出部11は、音階スペクトルとして、12平均律音階の各周波数のスペクトルを算出する。図2は、12平均律音階と周波数の関係を示す図である。図2に示す例では、オクターブ4のラ(A)の音を基準として、その周波数を440kHzとした場合の12平均律音階の各周波数を示す表である。図2の12平均音階率の各周波数には、周波数の小さい順に、0〜126の音階番号が付与されている。この音階番号によって、12平均律音階の各周波数を識別することができる。また、「C,C#,D,D#,E,F,F#,G,G#,A,A#,B」は、1オクターブ内の12の音を区別するコードであり、図2には、各周波数に対応するコードが示されている。
音階スペクトル算出部11の処理について、より具体的に説明する。音階スペクトル算出部11は、図2に示す各周波数に対応するスペクトルの絶対値を算出する。つまり、スペクトル変換部7から出力される一定の周波数間隔ごとのスペクトルの絶対値を用いた線形補間によって、図2に示す各周波数に対応するスペクトルの絶対値を算出する。例えば、図2によれば音階番号9に対応する周波数は13.75Hzであるが、スペクトル変換部7からのスペクトルに13.75Hzのスペクトルが含まれていない場合、音階スペクトル算出部11は、スペクトル変換部7からのスペクトルのうち、13.75Hzに近い周波数の2つのスペクトルの絶対値から線形補間によって13.75Hzに対応するスペクトルの絶対値を算出する。このようにして、音階スペクトル算出部11は、音階番号0〜136の全ての周波数に対応する音階スペクトルを算出する。そして、音階スペクトル算出部11は、算出した音階スペクトルを自己相関係数算出部12に出力する。
自己相関係数算出部12は、音階スペクトル算出部11から出力された音階スペクトルの自己相関係数R1(x)を算出する。つまり、自己相関係数算出部12はフレームごとに音階スペクトルの自己相関係数R1(x)を算出する。
上述したとおり、本実施の形態では、音階スペクトル算出部11は、図2に示す各周波数に対応するスペクトル、すなわち、音階番号0〜136に対応する音階スペクトルを算出する。そして、上記の自己相関係数R1(x)を算出する式において、sp(i)(iは音階番号に対応)は、音階スペクトルを表している。ここで、本実施の形態においては、数3において、L=68とし、iを0〜67まで変化させる。また、xは自己相関係数を算出する音階の間隔を表しており、xを1〜68まで変化させて、各xに対する自己相関係数R1(x)を算出する。そして、自己相関係数算出部12は、自己相関係数R1(x)を、係数最大値検出部13に出力する。
係数最大値検出部13は、自己相関係数算出部12から出力される自己相関係数R1(1)〜R1(68)の中から最大値を検出する。すなわち、係数最大値検出部13は、各フレームにおける音階スペクトルの自己相関係数の最大値(以下では、最大自己相関係数と呼ぶ)を検出する。そして、係数最大値検出部13は、最大自己相関係数を、係数最大値保存部14と係数最大値比較部15とに出力する。
係数最大値保存部14は、係数最大値検出部13から出力される各フレームにおける最大自己相関係数を記憶する。つまり、係数最大値保存部14は、全てのフレームについて音階スペクトルの自己相関係数の最大値を履歴データとして記憶している。
係数最大値比較部15は、係数最大値検出部13から出力された最大自己相関係数、すなわち、現在のフレームの最大自己相関係数について、微小信号であるか否か判定する。より具体的には、係数最大値比較部15は、現在フレームの最大自己相関係数について、あらかじめ設定された閾値と比較する。そして、現在フレームの最大自己相関係数が閾値よりも大きい場合には、係数最大値比較部15は、微小信号ではないと判定し、分散算出部16に、現在フレームの最大自己相関係数を出力する。
一方、現在フレームの最大自己相関係数が微小信号であると判定された場合、分散算出部16に、現在フレームの最大自己相関係数を出力しない。この場合、現在フレームについて音楽シーンであるか否かの判定は行われない。
また、係数最大値比較部15は、係数最大値保存部14から、過去フレームについての最大自己相関係数を取り出し、現在フレームと同様に、取り出した過去フレームの最大自己相関係数が微小信号であるか否かの判定を行い、微小信号ではない場合、判定対象の過去フレームの最大自己相関係数を、分散算出部16に出力する。一方、取り出した過去フレームの最大自己相関係数が微小信号の場合には、判定対象の過去フレームの最大自己相関係数を、分散算出部16に出力しない。
本実施の形態では、係数最大値比較部15は、係数最大値保存部14から、時間的に現在フレームに近い順に、順次、過去フレームのパワー最大値を取り出して微小信号か否かを判定し、判定結果に基づいて判定対象の過去フレームの最大自己相関係数を分散算出部16に出力する処理を繰り返す。この処理は、4つの過去フレームの最大自己相関係数が分散算出部16に出力されるまで繰り返される。最終的に、分散出力部16には、現在フレームと4つの過去フレームとの合計5つのフレームについて、最大自己相関係数を分散算出部16に出力する。
分散算出部16は、係数最大値比較部15から出力された5つのフレームの最大自己相関係数について、数4に示す式を用いて分散を算出し、音楽/非音楽判定部17に出力する。
ここで、Rxi(i=1〜5)は5つのフレームの各最大自己相関係数であり、<Rx>は5つのフレームの最大自己相関係数の平均である。また、n=5である。
音楽/非音楽判定部17は、分散算出部16から出力された分散が予め設定された閾値よりも小さい場合、音楽シーン(音響信号に音楽が含まれているシーン)と判定する。すなわち、音楽を検出する。
なお、係数最大値比較部15において、最大自己相関係数が微小信号であるか否かを判定し、微小信号ではない最大自己相関係数のみを分散算出部16に出力する構成とすることにより、分散算出部16において算出される分散は、最大自己相関係数のばらつきを表す指標としての信頼性が高くなる。しかしながら、必ずしも、係数最大値比較部15における微小信号の判定によって、微小信号ではない最大自己相関係数のみを分散算出部16に出力する構成とする必要はなく、特に限定はされない。
図3は、トランペットの周波数スペクトルを示す図であり、(a)はある時刻の周波数スペクトルを示す図であり、(b)は(a)の周波数スペクトルを示す時刻の23ms後の周波数スペクトルを示す図である。図3(a)は、トランペットで880Hzの音を吹いたときの周波数スペクトルの例を示しており、吹かれた音の整数倍の周波数(すなわち、倍音)近辺においてスペクトルはピークを示している。また、図3(b)に示すとおり、図3(a)の周波数スペクトルを示す時刻から23ms後においても、倍音は継続している。
図4は、鉄琴の周波数スペクトルを示す図であり、(a)はある時刻の周波数スペクトルを示す図であり、(b)は(a)の周波数スペクトルを示す時刻の23ms後の周波数スペクトルを示す図である。図4(a)は、鉄琴のある音を鳴らしたときの周波数スペクトルの例を示しており、鳴らされた音の整数倍の周波数(すなわち、倍音)近辺においてスペクトルはピークを示している。また、図4(b)に示すとおり、図4(a)の周波数スペクトルを示す時刻から23ms後においても、倍音は継続している。
図3や図4に示すとおり、トランペットや鉄琴の音には、それぞれ固有の倍音成分が含まれており、倍音成分が含まれた音は一定時間、継続する。図3や図4に示すトランペットや鉄琴以外にも、バイオリンなど、弦楽器の楽音には倍音成分は含まれる。
本発明に係る音楽検出装置1では、自己相関係数算出部12において周波数スペクトルの自己相関係数(自己相関値)を算出し、係数最大値検出部13において、各フレームにおける自己相関係数の最大値を算出し、分散算出部16において複数フレーム間での前記最大値の分散(ばらつきの大きさ)が算出され、その分散が予め定められた閾値よりも小さければ音楽と判定している。
楽音の周波数スペクトルは、上述したとおり倍音成分においてピークを示すため、元の周波数スペクトルのデータ列を倍音成分が現れる周波数間隔だけずらしたときに自己相関係数が最大値となる。
また、楽器の音であれば、一定時間、同じ周波数スペクトルが継続する。そのため、楽音の場合、周波数スペクトルの自己相関係数の最大値は、数フレームにわたって、ほぼ一定値を示すことになる。すなわち、連続するフレーム間での周波数スペクトルの自己相関係数の最大値のばらつきは小さい。
本発明に係る音楽検出装置1では、音階スペクトル算出部11において、12平均律音階の各周波数に対応する音階スペクトルを算出し、自己相関係数算出部12では、音階スペクトルの自己相関係数を算出する。倍音成分が含まれる音であれば、音階スペクトルにおいても、一定の間隔において倍音成分を示すピーク値が現れる。
そのため、楽音の場合、音階スペクトルの自己相関係数の最大値は、数フレームにわたって、ほぼ一定値を示し、ばらつきは小さい。したがって、複数フレーム間での音階スペクトルの自己相関係数の最大値の分散が予め定められた閾値よりも小さい場合、音楽であると判定できる。
なお、本実施の形態では、音階スペクトル算出部11において算出された音階スペクトルに基づいて、すなわち、音階スペクトルの自己相関係数の最大値についての複数フレームでの分散を用いて、音楽であるか否かの判定を行っているが、スペクトル変換部7から出力される周波数スペクトルに基づいて算出する構成であってもよい。すなわち、スペクトル変換部7から出力される周波数スペクトルの自己相関係数の最大値についての複数フレームでの分散を算出し、その分散が予め定められた閾値よりも小さい場合、音楽と判定する構成であってもよく、特に限定はされない。
また、本実施の形態においては、5フレーム分の音階スペクトルの自己相関係数の最大値の分散に基づいて音楽シーンであるか否かの判定を行っているが、分散を算出するために用いるフレームの数は5フレーム以上であってもよく、特に限定はされない。
(音楽検出装置2)
本発明の参考に係る音楽検出装置2の一実施形態について、図5ないし図6に基づいて説明すると以下の通りである。
図5は、本発明の参考に係る音楽検出装置2の構成を示すブロック図である。本発明の参考に係る音楽検出装置2は、フレーム分割部5と窓掛け部6とスペクトル変換部7と音楽検出部20とを含んで構成される。
音楽検出部20は、音階スペクトル算出部21とスペクトルパワー算出部(スペクトルパワー算出手段)22とパワー最大値検出部(最大音階識別番号検出手段)23とパワー最大値保存部24とパワー最大値比較部25と分散算出部(数値化手段)26と音楽/非音楽判定部(音楽判定手段)27とを備えている。
音楽検出装置2は、音楽検出装置1と同様に、テレビ受信装置などに実装され、放送信号に含まれる音響信号をもとに、放送中の番組に含まれる音楽シーンを検出する。本実施の形態では、音楽検出装置2には、音楽検出装置1と同様に、PCM(Pulse Code Modulation)によってデジタル符号化された音響信号が入力される。
以下に、図5に示す音楽検出装置2における音楽検出の処理について説明する。
音楽検出装置2におけるフレーム分割部5、窓掛け部6、および、スペクトル変換部7の処理内容は、音楽検出装置1と同様であり、説明は省略する。
音階スペクトル算出部21は、スペクトル変換部7から受け取るフレームごとのスペクトル(以下では、入力スペクトルと呼ぶ)に基づいて、図2に示す12平均律音階の各周波数に対応するスペクトル(音階スペクトルと呼ぶ)を表すデータを生成する。音階スペクトル算出部21は、音楽検出装置1における音階スペクトル算出部11と同様の処理を行うため、詳細な説明は省略する。
スペクトルパワー算出部22は、音階スペクトルから音階ごとのスペクトルパワー(すなわち、スペクトルの2乗の値;以下では、音階スペクトルパワーと呼ぶ)を算出し、パワー最大値検出部23に出力する。
パワー最大値検出部23は、音階スペクトルパワーの最大値を検出する。そして、パワー最大値検出部23は、音階スペクトルパワーの最大値(以下では、パワー最大値と呼ぶ)とパワー最大値に対応する音階番号(以下では、最大値音階番号と呼ぶ)とをパワー最大値保存部24とパワー最大値比較部25とに出力する。なお、音階番号は、図2に示す音階番号である。また、音階番号は、特許請求の範囲における音階識別番号に対応する。
パワー最大値保存部24は、パワー最大値検出部23から出力される各フレームのパワー最大値と最大値音階番号とを記憶する。つまり、パワー最大値保存部24は、全てのフレームについてパワー最大値と最大値音階番号とを履歴データとして記憶している。
パワー最大値比較部25は、パワー最大値検出部23から出力されたパワー最大値、すなわち、現在フレームのパワー最大値について、微小信号であるか否か判定する。より具体的には、パワー最大値比較部25は、現在フレームのパワー最大値について、あらかじめ設定された閾値と比較する。そして、現在フレームのパワー最大値が閾値よりも大きい場合には、パワー最大値比較部25は、微小信号ではないと判定し、分散算出部26に、現在フレームの最大値音階番号を出力する。
一方、現在フレームのパワー最大値が微小信号であると判定された場合、分散算出部16に、現在フレームの最大値音階番号を出力しない。この場合、現在フレームについて音楽シーンであるか否かの判定は行われない。
また、パワー最大値比較部25は、パワー最大値保存部24から、過去フレームについてパワー最大値とパワー最大音階を取り出し、現在フレームと同様に、取り出した過去フレームのパワー最大値が微小信号であるか否かの判定を行い、微小信号ではない場合、判定対象の過去フレームのパワー最大音階を、分散算出部26に出力する。一方、取り出した過去フレームのパワー最大値が微小信号の場合には、判定対象の過去フレームのパワー最大音階を、分散算出部26に出力しない。
本実施の形態では、パワー最大値比較部25は、パワー最大値保存部24から、時間的に現在フレームに近い順に、順次、過去フレームのパワー最大値を取り出して微小信号か否かを判定し、判定結果に基づいて判定対象の過去フレームのパワー最大音階を分散算出部26に出力する処理を繰り返す。この処理は、4つの過去フレームのパワー最大音階が分散算出部26に出力されるまで繰り返される。最終的に、分散算出部26には、現在フレームと4つの過去フレームとの合計5つのフレームについて、最大値音階番号を分散算出部26に出力する。
分散算出部26は、パワー最大値比較部26から出力された5つのフレームの最大値音階番号について、数5に示す式を用いて分散を算出し、音楽/非音楽判定部27に出力する。
ここで、xi(i=1〜5)は5つのフレームの各最大値音階番号であり、<x>は5つのフレームの最大値音階番号の平均である。また、n=5である。
音楽/非音楽判定部27は、分散算出部26から出力された分散が予め設定された閾値よりも大きい場合、音楽シーンと判定する。
図6は、フレームとパワー最大音階の関係の一例を示す図である。図6は、「ケツメイシ」というアーティストの「ドライブ」という楽曲についてのフレームごとの最大値音階番号を示すグラフである。図6に示すとおり、最大値音階番号は40付近を中心にしてばらついている。図6に示す例のように、通常、音楽は様々な音によって構成されるため、音階にばらつきがある。音楽検出装置2では、音楽/非音楽判定部27は、分散算出部26において算出される分散を用いて、音階のばらつきを定量的に評価することができる。したがって、音階のばらつきの指標としての分散が予め定められた閾値よりも大きい場合、音楽であると判定することができる。
本実施の形態においては、5フレーム分のパワー最大音階の分散に基づいて音楽シーンであるか否かの判定を行っているが、分散を算出するために用いるフレームの数は5フレーム以上であってもよく、特に限定はされない。
なお、本実施の形態では、音階スペクトル算出部21は、図2に示す12平均律音階の各周波数に対応するスペクトルを算出する構成であるが、音階スペクトル算出部21において、12平均律以外の平均律や純音律の音階に対応するスペクトルを音階スペクトルとして算出する構成であってもよく、特に限定はされない。
(音楽検出装置3)
本発明の参考に係る音楽検出装置3の一実施形態について、図7ないし図9に基づいて説明すると以下の通りである。
図7は、本発明の参考に係る音楽検出装置3の構成を示すブロック図である。本発明の参考に係る音楽検出装置3は、フレーム分割部5と窓掛け部6とスペクトル変換部7と音楽検出部30とを含んで構成される。
音楽検出部30は、超低域スペクトルパワー算出部(低域スペクトルパワー算出手段)31と超低域スペクトルパワー保存部32と超低域スペクトルパワー自己相関係数算出部33と係数最大値判定部(フレーム間隔検出手段)34と高域スペクトルパワー算出部(高域スペクトルパワー算出手段)35と超低域/高域パワー比算出部36と音楽/非音楽判定部(音楽判定手段)37とを備えている。
音楽検出装置3は、音楽検出装置1と同様に、テレビ受信装置などに実装され、放送信号に含まれる音響信号をもとに、放送中の番組に含まれる音楽シーンを検出する。本実施の形態では、音楽検出装置3には、音楽検出装置1と同様に、PCM(Pulse Code Modulation)によってデジタル符号化された音響信号が入力される。
以下に、図7に示す音楽検出装置3における音楽検出の処理について説明する。
音楽検出装置3におけるフレーム分割部5、窓掛け部6、および、スペクトル変換部7の処理内容は、音楽検出装置1と同様であり、説明は省略する。
超低域スペクトルパワー算出部31は、スペクトル変換部7から受け取るフレームごとのスペクトル(以下では、入力スペクトルと呼ぶ)をもとに、100Hz(予め定められた第1の閾値)以下のスペクトルパワーの和を算出し、超低域スペクトルパワー保存部32と高域スペクトルパワー算出部33とに出力する。つまり、超低域スペクトルパワー算出部31は、入力スペクトルのうち、100Hz以下のスペクトルを抽出し、抽出したスペクトルを2乗した値の総和(以下では、超低域スペクトルパワー合計と呼ぶ)を算出する。すなわち、超低域スペクトルパワー合計は、フレームごとの100Hz以下の超低域スペクトルについてのスペクトルパワーの合計である。なお、本実施の形態では、超低域スペクトルパワー合計を100Hz以下のスペクトルパワーの合計として算出したが、100Hz未満のスペクトルパワーの合計であってもよい。また、閾値は100Hzには限定されない。
超低域スペクトルパワー保存部32は、超低域スペクトルパワー算出部31から出力される上記100Hz以下の超低域スペクトルパワー合計を記憶する。つまり、超低域スペクトルパワー保存部32は、全てのフレームについて超低域スペクトルパワー合計を履歴データとして記憶している。
また、超低域スペクトルパワー自己相関係数算出部33は、超低域スペクトルパワー算出部31から出力された超低域スペクトルパワー合計、すなわち、現在フレームの超低域スペクトルパワー合計と、超低域スペクトルパワー保存部32から取り出した過去フレームの超低域スペクトルパワー合計とを用いて、連続するフレーム間における低域スペクトルパワーの自己相関係数を算出する。本実施の形態においては、現在フレームと過去の127フレームとの合計128フレームについて、数6に示す自己相関係数R2(x)を算出する。
上記の自己相関係数R2(x)を算出する式において、spp(i)は各フレームの超低域スペクトルパワー合計を表している。ここで、iはフレームを識別する番号(以下では、フレーム識別番号と呼ぶ)を示しており、1〜128の整数である。フレーム識別番号は、1〜128の順番に各フレームに対して時系列に割り当てられている。つまり、spp(1)は最も過去のフレームのスペクトルパワーであり、spp(128)は現在のフレームのスペクトルパワーである。本実施の形態においては、数6において、L=64とし、iを0〜63まで変化させる。また、xは自己相関係数を算出するフレームの間隔を表しており、xを1〜64まで変化させて、各xに対する自己相関係数R2(x)を算出する。そして、超低域スペクトルパワー自己相関係数算出部33は、算出した64個の自己相関係数R2(x)(xは1〜64の整数)を係数最大値検出部34に出力する。
係数最大値検出部34は、超低域スペクトルパワー自己相関係数算出部33から出力されたR2(1)〜R2(64)の最大値を検出し、自己相関係数R2(x)が最大値を示すフレーム間隔x(以下では、最大値フレーム間隔と呼ぶ)を高域スペクトルパワー算出部35に出力する。
高域スペクトルパワー算出部35は、係数最大値検出部34から、最大値フレーム間隔とあわせて、フレームごとの入力スペクトルを受け取る。つまり、本実施の形態においては、スペクトル変換部7から出力された入力スペクトルは、超低域スペクトルパワー算出部31と超低域スペクトルパワー自己相関係数算出部33と係数最大値判定部34とを通じて、高域スペクトル算出部35に入力される。
そして、高域スペクトルパワー算出部35は、係数最大値検出部34から受け取るフレームごとのスペクトル、すなわち、入力スペクトルをもとに、100(予め定められた第1の閾値)Hz以上のスペクトルパワーの和を算出し、超低域/高域パワー比算出部36に出力する。つまり、高域スペクトルパワー算出部35は、入力スペクトルのうち、100Hz以上のスペクトルを抽出し、抽出したスペクトルを2乗した値の総和(以下では、高域スペクトルパワー合計と呼ぶ)を算出する。すなわち、高域スペクトルパワー合計は、フレームごとの100Hz以上の高域スペクトルについてのスペクトルパワーの合計である。なお、本実施の形態では、高域スペクトルパワー合計を100Hz以上のスペクトルパワーの合計として算出したが、100Hzより大きいスペクトルパワーの合計であってもよい。また、閾値は100Hzには限定されない。
なお、本実施の形態では、高域スペクトルパワー算出部35は、超低域/高域パワー比算出部36に対して、高域スペクトルパワー合計と併せて、超低域スペクトルパワー合計を出力する。つまり、本実施の形態においては、超低域スペクトルパワー算出部31において算出された超低域スペクトルパワー合計は、超低域スペクトルパワー自己相関係数算出部33と係数最大値判定部34と高域スペクトル算出部35とを通じて、超低域/高域パワー比算出部36に入力される。また、高域スペクトルパワー算出部35は、上記の最大値フレーム間隔も超低域/高域パワー比算出部36に出力する。
超低域/高域パワー比算出部36は、高域スペクトルパワー算出部35から受け取った高域スペクトルパワー合計と超低域スペクトルパワー合計との比(以下では、超低域/高域パワー比と呼ぶ)を算出し、音楽/非音楽判定部37に出力する。より具体的には、超低域/高域パワー比は、超低域スペクトルパワー合計÷高域スペクトルパワー合計の演算によって算出される。なお、超低域/高域パワー比として、超低域スペクトルパワー合計÷(超低域スペクトルパワー合計+高域スペクトルパワー合計)を算出してもよく、特に限定はされない。また、超低域/高域パワー比算出部36は、上記の最大値フレーム間隔も音楽/非音楽判定部37に出力する。
音楽/非音楽判定部37は、超低域/高域パワー比算出部36から出力された超低域/高域パワー比が予め定められた閾値値(例えば、0.0003)以上であるか否かを判定する。また、音楽/非音楽判定部37は、最大値フレーム間隔について、10フレーム以上、64フレーム以下(すなわち、0.23s〜1.5s)であるか否かを判定する。
そして、音楽/非音楽判定部37は、上記2つの判定の結果、最大値フレーム間隔が10フレーム以上64フレーム以下であって、かつ、超低域/高域パワー比が0.0003以上の場合、音楽シーンと判定する。
図8は、太鼓の周波数スペクトルを示す図である。図8に示す太鼓の周波数スペクトルは、図3に示すトランペットの周波数スペクトルや図4に示す鉄琴の周波数スペクトルとは異なり、倍音成分が含まれていない。したがって、ドラムなどの倍音成分を含まない、すなわち、楽音ではない楽器の音楽シーンについては、音楽検出装置1によって検出できない場合がある。
図9は、ドラムの100Hz以下のスペクトルパワー合計の時間遷移を示す図である。縦軸は、16ビットPCMの最下位ビットを1とした時の、100Hz以下のスペクトルパワーの合計を示している。横軸は、ある時刻をフレームNo.1とした時のフレームNoを示している。図9に示すとおり、ドラムの100Hz以下のスペクトルパワーの時間遷移は、周期性を有している。すなわち、一定の周期において100Hz以下のスペクトルパワーのピークが繰り返し現れる。音楽検出装置3では、超低域スペクトルパワー自己相関係数算出部33において複数フレーム間での100Hz以下のスペクトルパワーの自己相関係数を算出し、係数最大値判定部34において、自己相関係数が最大となるフレーム間隔(すなわち、最大値フレーム間隔)を検出している。ここで、図9において、複数フレーム間での100Hz以下のスペクトルパワーは、上述したとおり一定の周期においてピークを示すため、元の100Hz以下のスペクトルパワーのデータ列を、上記ピークが現れる一定の周期分のフレーム間隔だけずらしたときに自己相関係数が最大値となる。つまり、係数最大値判定部34において検出される、自己相関係数が最大値となる最大値フレーム間隔は、100Hz以下のスペクトルパワーのピークが現れる周期である。また、図9に示されるような上述のピークの周期は、ドラムなどの楽器であれば、一定の時間範囲内にある。したがって、この周期(すなわち、最大値フレーム間隔)が所定の範囲内(例えば、10フレーム以上64フレーム以下であり、特許請求の範囲における予め定められた範囲内に対応)にあるか否かを判定し、所定の範囲内になければ音楽ではないと判定することができる。
ところで、人間の話声には、100Hz以下の成分はほとんど含まれないが、僅かに含まれる100Hz以下の成分には、スペクトルパワーの周期性が見られる。そのため、人間の話声をドラムなどの音楽と誤判定しないようにさらなる判定条件が必要となる。ここで、ドラムなどの音に含まれている成分は、人の話声と異なり、低域にかたよっているため、100Hz以下の超低域成分の含まれている割合が非常に小さい場合には、音楽ではないと判定できる。したがって、超低域/高域パワー比算出部36において算出される超低域/高域パワー比が予め定められた閾値(例えば、0.0003であり、特許請求の範囲における第2の閾値に対応)以上であるか否かを判定し、予め定められた閾値以下であれば、すなわち、超低域成分の含まれている割合が非常に小さい場合には、音楽ではないと判定できる。
これにより、音楽/非音楽判定部37は、超低域/高域パワー比算出部36から出力された超低域/高域パワー比が予め定められた閾値値(例えば、0.0003)以上であり、かつ、最大値フレーム間隔が予め定められた範囲内(例えば、10フレーム以上64フレーム以下)にある場合に、音楽であると判定することができる。
(音声検出装置4)
本発明の参考に係る音声検出装置4の一実施の形態について、図10ないし図13に基づいて説明すると次のとおりである。
図10は、本発明の参考に係る音声検出装置4の構成を示すブロック図である。本発明の参考に係る音声検出装置4は、フレーム分割部5と窓掛け部6とスペクトル変換部7と音声検出部40とを含んで構成される。
音声検出部40は、対数スペクトル算出部41とケプストラム算出部42と基本周波数抽出部(基本周波数抽出手段)43と基本周波数保存部44とローパスフィルタ部45とフレーズ成分解析部46(基本周波数変化検出手段)とアクセント成分解析部47(基本周波数変化検出手段)と音楽/非音楽判定部(音声判定手段)48とを備えている。
音声検出装置4は、音楽検出装置1と同様に、テレビ受信装置などに実装され、放送信号に含まれる音響信号をもとに、放送中の番組に含まれる音楽シーンを検出する。本実施の形態では、音声検出装置4には、音楽検出装置1と同様に、PCM(Pulse Code Modulation)によってデジタル符号化された音響信号が入力される。
以下に、図10に示す音声検出装置4における音声検出の処理について説明する。
音声検出装置4におけるフレーム分割部5、窓掛け部6、および、スペクトル変換部7の処理内容は、音楽検出装置1と同様であり、説明は省略する。
対数スペクトル算出部41は、スペクトル変換部7から受け取るフレームごとのスペクトル(以下では、入力スペクトルと呼ぶ)を基底10の対数に変換する。つまり、対数スペクトル算出部41は、入力スペクトルをspとするとlog10|sp|を算出する。以下では、log10|sp|を対数スペクトルと呼ぶ。そして、対数スペクトル算出部41は、対数スペクトルをケプストラム算出部42に出力する。
ケプストラム算出部42は、対数スペクトル算出部41から出力される対数スペクトルに対して1024ポイントのIFFT(Inverse Fast Fourier Transform)を施し、時間領域のデータであるケプストラムに変換する。そして、ケプストラム算出部42は、算出したケプストラムを、基本周波数抽出部43に出力する。
基本周波数抽出部43は、ケプストラム算出部42から出力されるケプストラムの高次側(約fs/800以上)の最大ケプストラムを抽出し、最大ケプストラムとなるケフレンシーの逆数を基本周波数(F0)として算出する。基本周波数抽出部43は、基本周波数(F0)を基本周波数保存部44とローパスフィルタ部45とに出力する。
基本周波数保存部44は、基本周波数抽出部43から出力される基本周波数(F0)を記憶する。つまり、基本周波数保存部44は、全てのフレームについて基本周波数(F0)を履歴データとして記憶している。
ローパスフィルタ部45は、基本周波数抽出部43から出力された基本周波数(F0)、すなわち、現在フレームの基本周波数(F0)を低域濾過して、フレーズ成分解析部46に出力する。また、ローパスフィルタ部44は、基本周波数保存部44から、過去フレームについて基本周波数(F0)を取り出し、現在フレームの基本周波数(F0)と同様に、低域濾過して、フレーズ成分解析部46に出力する。ローパスフィルタ部44において低域の基本周波数(F0)、すなわち、ノイズとなるような基本周波数(F0)の情報についてはフレーズ成分解析部46やアクセント成分解析部47に出力されずに、除去される。ローパスフィルタ部44における低域濾過の結果、現在フレームの基本周波数(F0)が出力されない場合、現在フレームについて音声シーンであるか否かの判定は行われない。
本実施の形態では、ローパスフィルタ部45は、基本周波数保存部44から、時間的に現在フレームに近い順に、順次、過去フレームの基本周波数(F0)を取り出して低域濾過して出力する処理を繰り返す。この処理は、4つの基本周波数(F0)がフレーズ成分解析部46に出力されるまで繰り返される。最終的に、ローパスフィルタ部45は、現在フレームと4つの過去フレームとの合計5つのフレームについて、基本周波数(F0)をフレーズ成分解析部46に出力する。
フレーズ成分解析部46は、ローパスフィルタ部45から出力された5つのフレームの基本周波数(F0)について、基本周波数(F0)が単調減少、または、単調増加しているか(すなわち、単調に変化しているか)を解析する。そして、フレーズ成分解析部46は、上記の5つのフレーム間における基本周波数(F0)の単調減少、または、単調増加が、所定の周波数の範囲内(例えば、100Hz〜400Hzの間)にあるか否かを判定する。さらに、フレーズ成分解析部46は、上記の5つのフレーム間における基本周波数(F0)の単調減少、または、単調増加(すなわち、単調に変化していること)を検出した場合、その単調減少、または、単調増加における基本周波数(F0)の変化の幅が所定の範囲内(例えば、120Hz以内)にあるか否かを判定する。
フレーズ成分解析部46は、上記の5つのフレーム間における基本周波数(F0)の単調減少、または、単調増加が、所定の周波数の範囲内(例えば、100Hz〜400Hzの間であり、特許請求の範囲における予め定められた周波数の範囲内)にあり、かつ、その単調減少、または、単調増加の変化の幅が所定の範囲内(例えば、120Hz以内であり、特許請求の範囲における予め定められた周波数の幅)にあった場合、その単調減少、または、単調増加を、人の声によるフレーズを表すフレーズ成分であると判定する。そして、フレーズ成分解析部46は、フレーズ成分が含まれているか否かを表すフレーズ解析結果情報をアクセント成分解析部47に出力する。また、本実施の形態においては、フレーズ成分解析部46は、ローパスフィルタ部45からの5つのフレームの基本周波数(F0)を、フレーズ解析結果情報とともにアクセント解析部47に出力する。
アクセント成分解析部47は、フレーズ成分解析部46から出力された5つのフレームの基本周波数(F0)について、基本周波数(F0)が単調増加からフラットへの遷移(変化なし)または、単調減少からフラットへの遷移(変化なし)であるか(すなわち、単調変化から一定周波数へ変化)を解析する。また、アクセント成分解析部47は、フラット(変化なし)から単調減少への遷移、または、フラット(変化なし)から単調増加への遷移であるか(すなわち、一定周波数から単調変化へ変化)を解析する。そして、アクセント成分解析部47は、上記の5つのフレーム間における基本周波数(F0)の単調増加からフラットへの遷移、単調減少からフラットへの遷移、フラットから単調減少への遷移、または、フラットから単調増加への遷移が、所定の周波数の範囲内(例えば、100Hz〜400Hzの間であり、特許請求の範囲における予め定められた周波数の範囲内)にあるか否かを判定する。さらに、アクセント成分解析部47は、上記の5つのフレーム間における基本周波数(F0)の単調増加からフラットへの遷移、単調減少からフラットへの遷移、フラットから単調減少への遷移、または、フラットから単調増加への遷移を検出した場合、その基本周波数(F0)の変化の幅が所定の範囲内(例えば、120Hz以内であり、特許請求の範囲における予め定められた周波数の幅)にあるか否かを判定する。
アクセント成分解析部47は、上記の5つのフレーム間における基本周波数(F0)の単調増加からフラットへの遷移、単調減少からフラットへの遷移、フラットから単調減少への遷移、または、フラットから単調増加への遷移が、所定の周波数の範囲内(例えば、100Hz〜400Hzの間)にあり、かつ、その変化の幅が所定の範囲内(例えば、120Hz以内)にあった場合、人の声によるアクセントを表すアクセント成分であると判定する。そして、アクセント成分解析部47は、アクセント成分が含まれているか否かを表すアクセント解析結果情報を音声/非音声判定部48に出力する。また、本実施の形態においては、アクセント成分解析部47は、フレーズ成分解析部46からのフレーズ解析結果情報を、アクセント解析結果情報とともに音声/非音声判定部48に出力する。
音声/非音声判定部37は、アクセント解析結果情報とフレーズ解析情報とに基づいて、アクセント成分、または、フレーズ成分のいずれかが含まれているか否かを判定し、アクセント成分、または、フレーズ成分のいずれかが含まれている場合には、音声シーン(音響信号に音声が含まれているシーン)と判定する。すなわち、音声を検出する。一方、アクセント成分、および、フレーズ成分のいずれも含まれていない場合には、非音声シーンであると判定する。
図11は、音声の特性を示す図であり、(a)は男性による日本語でのスピーチにおける時間波形を示す図であり、(b)は(a)の時間波形から求められた基本周波数(F0)の時間変化を示す図である。図12は、音声の特性を示す図であり、(a)は女性による日本語でのスピーチにおける時間波形を示す図であり、(b)は(a)の時間波形から求められた基本周波数(F0)の時間変化を示す図である。図13は、音楽の特性を示す図であり、(a)は時間波形を示すであり、(b)は(a)の時間波形から求められた基本周波数(F0)の時間変化を示す図である。
図11(b)および図12(b)に示すとおり、人間の音声の場合には、フレーズ成分やアクセント成分が含まれており、いずれも、周波数が100Hz〜400Hzの範囲内にある。また、フレーズ成分、および、アクセント成分の変化量は、いずれも、約100Hz以内となっている。一方、図13(b)に示すとおり、音楽の場合には、フレーズ成分、および、アクセント成分は、全く含まれていない。
したがって、上記の5つのフレーム間における基本周波数(F0)の単調減少、または、単調増加が、所定の周波数の範囲内(例えば、100Hz〜400Hzの間)にあり、かつ、その単調減少、または、単調増加の変化の幅が所定の範囲内(例えば、120Hz以内)にあった場合、人の声におけるフレーズを表すフレーズ成分が含まれていることがわかるため、人の声が含まれていると判定できる。また、上記の5つのフレーム間における基本周波数(F0)の単調増加からフラットへの遷移、単調減少からフラットへの遷移、フラットから単調減少への遷移、または、フラットから単調増加への遷移が、所定の周波数の範囲内(例えば、100Hz〜400Hzの間)にあり、かつ、その変化の幅が所定の範囲内(例えば、120Hz)にあった場合、人の声におけるアクセントを表すアクセント成分が含まれていることがわかるため、人の声が含まれていると判定できる。
なお、上記音楽検出装置1、2、3、および、上記音声検出装置4を備えた音楽音声検出装置において、音響信号に対して、上記音声検出装置1、2、3による音楽検出処理、および、上記音声検出装置4による音声検出処理を全て実行した場合、短時間(最短0.1秒)で検出でき、正解率は音声について87%、音楽について94%となり、誤検出を低減することができる。
(音場制御装置50)
本発明の参考に係る音場制御装置50の一実施の形態について、図14に基づいて説明すると次のとおりである。図14は、本実施の形態に係る音場制御装置50の構成を示すブロック図である。音場制御装置50は、音楽シーンや音声シーンなどに応じて音響信号を補正して、音場を制御する。音場制御装置50は、音楽判定部51とメモリ52と音場制御判定部53と音場制御処理部54とを備えている。本実施の形態では、音楽判定部51は、音場制御装置50に含まれているが、音場制御装置50とは独立して設けられた構成であってもよく、特に限定はされない。音場制御装置50には、上記音楽検出装置1、2、および、3による音楽検出処理の結果と、上記音声検出装置4による音声検出処理の結果とが入力される。
音場制御装置50では、音楽判定部51が、入力された音楽検出処理の結果から、音響信号に音楽が含まれているか否かを判定する。より具体的には、音楽検出装置1、2、または、3からの音楽検出処理の結果のうち、少なくともいずれか1つが音楽を検出したことを表している場合(つまり、少なくともいずれか1つの装置において音楽が検出された場合)、音楽判定部51は音響信号に音楽が含まれていると判定する。そして、音楽判定部51は、判定結果をメモリ52に出力する。メモリ52は、音楽判定部51からの判定結果(以下では、音楽検出情報と呼ぶ)を記憶する。また、メモリ52は、音声検出装置4からの音声検出処理の結果(以下では、音声検出情報と呼ぶ)を記憶する。
なお、本実施の形態では、音楽検出装置1、2、3、および、音声検出装置4は、音楽音声検出装置55に備えられており、音声検出装置55に入力された音響信号は、音楽検出装置1、2、3、および、音声検出装置4のそれぞれによって、音楽検出処理、または、音声検出処理が行われる。
そして、音場制御装置50では、メモリ52に蓄えられた複数の音楽検出情報、および、音声検出情報に基づいて、音場制御判定部53が音場制御の内容を決定する。音場制御の種類としては、「音楽シーン用の音場制御」と「音声シーン用の音場制御」と「音楽と音声との両方が含まれるシーン用の音場制御」とがある。音場制御の状態としては、上記の(A)「音楽シーン用の音場制御」がなされている状態と(B)「音声シーン用の音場制御」がなされている状態と(C)「音楽と音声との両方が含まれるシーン用の音場制御」がなされている状態のほか、(D)音場制御されていない状態(以下ではニュートラルの状態と呼ぶ)の4種類の状態がある。
図15は、音場制御装置50における音場制御の状態遷移を示す図である。図15には、上記(A)〜(D)の4つの状態が示されている。また、図15に示すとおり、状態遷移のパターンは、(1)〜(16)の16通りである。
図16は、各状態遷移の条件を示す図である。図16には、図15の(1)〜(16)に対応して各状態遷移の条件が示されている。例えば、上記(D)の状態(すなわちニュートラルの状態)においては、図15に示すとおり、(1)、(2)、(3)、(13)の4つの状態遷移が発生し得る。そして、音場制御装置50では、音場制御判定部53は、メモリ52に蓄えられた音楽検出情報、および、音声検出情報に基づいて、図16に示す条件に応じて、音場制御を行う。
本実施の形態では、音楽検出装置1、2、3、および、音声検出装置4に入力される音響信号はPCMによってデジタル符号化され、1フレームあたり1024サンプルに分割される。音響信号のサンプリング周波数が44.1kHzの場合、1フレームあたりの時間は、23ms(=(1÷44100)×1024)となる。音楽検出装置1〜3や音声検出装置4では、連続する複数のフレーム(概ね5フレーム程度)を用いて音楽検出処理、あるいは、音声検出処理が行われるため、メモリ52には、上述の音楽検出情報、および、音声検出情報が約0.105秒(=23ms×5フレーム)ごとに蓄えられる。そして、音場制御判定部53は、メモリ52に蓄積された最新の連続する10回分(約1.05秒)の音楽検出情報、および、音声検出情報を分析し、音場制御の内容を決定する。
より詳細に説明すれば、音場制御判定部53は、10回分の音楽検出情報と音声検出情報とから、音楽が検出された回数(以下では、音楽検出回数と呼ぶ)と音声が検出された回数(以下では、音声検出回数と呼ぶ)とをカウントし、音声検出回数、および、音楽検出回数に応じて、上記(A)〜(D)の音場制御の状態を切り替える。
図17は、音場制御判定部53における処理内容を示すフローチャートである。図17を用いて、音場制御判定部53による処理を説明すれば次のとおりである。
まず、音場制御判定部53は、S171において、現在の音場制御状態がニュートラル(上記(D)の状態)であるか否かを判定する。そして、音場制御状態がニュートラルの場合、S172において、図16に示す状態遷移の条件(1)「音楽検出回数<2、かつ、音声検出回数>3」を満たしているか否かを判定する。
S172において、条件(1)を満たしていると判定した場合、音声シーンの音場制御を行う(S173)。すなわち、図15に示す(B)の状態に遷移する。一方、S172において条件(1)を満たしていないと判定した場合、S174において、図16に示す状態遷移の条件(2)「音楽検出回数>3、かつ、音声検出回数<2」を満たしているか否かを判定する。
S174において、条件(2)を満たしていると判定した場合、音楽シーンの音場制御を行う(S175)。すなわち、図15に示す(A)の状態に遷移する。一方、S174において条件(2)を満たしていないと判定した場合、S176において、図16に示す状態遷移の条件(3)「音楽検出回数>2、かつ、音声検出回数>2」の条件を満たしているか否かを判定する。
S176において、条件(3)を満たしていると判定した場合、音楽および音声が含まれるシーン用の音場制御を行う(S177)。すなわち、図15に示す(C)の状態に遷移する。一方、S176において条件(3)を満たしていないと判定した場合、ニュートラルの状態における音場制御を継続する(S178)。
なお、本実施の形態では、図16に示す条件は、あらかじめメモリ52に記憶されているが、条件を変更して再度設定することも可能であり、特に限定はされない。
また、すでに(A)〜(C)のいずれかの音場制御が行われている状態においても、音場制御判定部53は、同様に、図17に示すフローチャートに従ってS179〜S201に示す処理を行う。この場合も、音場制御判定部53は、図16に示す状態遷移の条件に基づいて遷移する状態を判定する。以下にS179〜S201の処理フローに従って、上記(A)〜(C)のいずれかの音場制御が行われている場合の状態遷移について説明する。
上述のとおり、音場制御判定部53は、S171において、現在の音場制御状態がニュートラル(上記(D)の状態)であるか否かを判定するが、S171においてニュートラルな状態でないと判定された場合、S179において、音場制御状態が音楽シーン用の制御状態(上記(A)の状態)であるか否かを判定する。そして、音場制御状態が音楽シーン用の制御状態の場合、S180において、図16に示す状態遷移の条件(7)「音楽検出回数<2、かつ、音声検出回数>5(=3+2)」(判定条件(1)の音声検出回数に+2のオフセット)を満たしているか否かを判定する。
S180において、条件(7)を満たしていると判定した場合、音声シーンの音場制御を行う(S181)。すなわち、図15に示す(B)の状態に遷移する。一方、S180において、条件(7)を満たしていないと判定した場合、S182において、図16に示す状態遷移の条件(10)「音楽検出回数>4(=2+2)、かつ、音声検出回数>4(=2+2)」を満たしているか否かを判定する。
S182において、条件(10)を満たしていると判定した場合、音楽および音声を含んでいるシーンの音場制御を行う(S183)。すなわち、図15に示す(C)の状態に遷移する。一方、S182において条件(10)を満たしていないと判定した場合、S184において、図16に示す状態遷移の条件(5)「音楽検出回数<2」の条件を満たしているか否かを判定する。
S184において、条件(5)を満たしていると判定した場合、ニュートラルの音場制御を行う(S185)。すなわち、図15に示す(D)の状態に遷移する。一方、S184において、条件(5)を満たしていないと判定した場合、音楽シーンの音場制御を継続する(S186)。
また、上述のとおり、音場制御判定部53は、S179において、音場制御状態は音楽シーン用の制御状態(上記(A)の状態)であるか否かを判定するが、S179において音楽シーン用の制御状態でないと判定された場合、S187において、音場制御状態が音声シーン用の制御状態(上記(B)の状態)であるか否かを判定する。そして、音場制御状態が音声シーン用の制御状態の場合、S188において、図16に示す状態遷移の条件(8)「音楽検出回数>5(=3+2)、かつ、音声検出回数<2」(判定条件(2)の音楽検出回数に+2のオフセット)を満たしているか否かを判定する。
S188において、条件(8)を満たしていると判定した場合、音楽シーンの音場制御を行う(S189)。すなわち、図15に示す(A)の状態に遷移する。一方、S188において、条件(8)を満たしていないと判定した場合、S190において、図16に示す状態遷移の条件(12)「音楽検出回数>4(=2+2)、かつ、音声検出回数>4(=2+2)」(判定条件(3)の音楽検出回数、および音声検出回数にそれぞれ+2のオフセット)を満たしているか否かを判定する。
S190において、条件(12)を満たしていると判定した場合、音楽および音声を含んでいるシーンの音場制御を行う(S191)。すなわち、図15に示す(C)の状態に遷移する。一方、S190において条件(12)を満たしていないと判定した場合、S192において、図16に示す状態遷移の条件(4)「音声検出回数<2」の条件を満たしているか否かを判定する。
S192において、条件(4)を満たしていると判定した場合、ニュートラルの音場制御を行う(S193)。すなわち、図15に示す(D)の状態に遷移する。一方、S192において、条件(4)を満たしていないと判定した場合、音声シーンの音場制御を継続する(S194)。
また、上述のとおり、音場制御判定部53は、S187において、音場制御状態は音楽シーン用の制御状態(上記(B)の状態)であるか否かを判定するが、S187において音声シーン用の制御状態でないと判定された場合、音場制御状態は、音楽と音声の両方を含むシーン用の制御状態(上記(C)の状態)ということになる。そして、音場制御状態が音楽と音声の両方を含むシーン用の制御状態の場合、S195において、図16に示す状態遷移の条件(9)「音楽検出回数>5(=3+2)、かつ、音声検出回数2」(判定条件(2)の音楽検出回数に+2のオフセット)を満たしているか否かを判定する。
S195において、条件(9)を満たしていると判定した場合、音楽シーンの音場制御を行う(S196)。すなわち、図15に示す(A)の状態に遷移する。一方、S195において、条件(9)を満たしていないと判定した場合、S197において、図16に示す状態遷移の条件(11)「音楽検出回数<2、かつ、音声検出回数>5(=3+2)」(判定条件(1)の音声検出回数に+2のオフセット)を満たしているか否かを判定する。
S197において、条件(11)を満たしていると判定した場合、音声シーンの音場制御を行う(S198)。すなわち、図15に示す(B)の状態に遷移する。一方、S197において条件(11)を満たしていないと判定した場合、S199において、図16に示す状態遷移の条件(6)「音楽検出回数<2、かつ、音声検出回数<2」の条件を満たしているか否かを判定する。
S199において、条件(6)を満たしていると判定した場合、ニュートラルの音場制御を行う(S200)。すなわち、図15に示す(D)の状態に遷移する。一方、S199において、条件(6)を満たしていないと判定した場合、音楽と音声の両方を含むシーンの音場制御を継続する(S201)。
以上に説明したとおり、音場制御判定部53は、図16に示す状態遷移条件に基づいて判定を行い、判定結果に応じて音場制御の状態を切り替える。すなわち、音場制御の状態が遷移する。そして、音場制御処理部54は、入力されている音響信号に、音場制御判定部53による判定結果に応じた信号処理を施して補正し、図示しないDAコンバータ、アンプ、スピーカなどの再生装置を介して、出力PCMの再生を行う。
これにより、例えば、ニュートラルな状態において、上述した10回分の音楽検出情報、および、音声検出情報を分析した結果、音楽検出回数が8回、音声検出回数が1回、音声および音楽のいずれも検出されなかった回数が1回であった場合、図17のS174において状態遷移の条件(2)「音楽検出回数>3、かつ、音声検出回数<2」を満たしていると判定される。この場合、音場制御判定部53は、音楽シーンの音場制御を開始する判定を行う。
ここで、条件(2)は、音楽検出処理、音声検出処理の正解率は約90%程度、すなわち、1割は誤判定があることを考慮して設定されている。そのため、音声検出回数が1回あるものの、音楽シーンの音場制御を行う判定がなされる。
さらに、音楽シーンの音場制御がなされている場合において、次の10回分の音楽検出情報、および、音声検出情報を分析した結果、音楽検出回数が7回、音楽検出回数が3回、音声および音楽のいずれも検出されなかった回数が3回であった場合(この場合、音声と音楽との両方が同時に検出された回数が3回)、図17のS184において状態遷移の条件(5)「条件(7)、(10)を満たさず、かつ、音楽検出回数<2」を満たしていないと判定される。この場合、音場制御判定部53は、音楽シーンの音場制御を継続する判定を行う。
この例から、ニュートラルな状態の場合、音楽検出回数が7回、音声検出回数は3回の場合、S176において状態遷移の条件(3)を満たしていると判定されて、音楽と音声の両方を含むシーンの音場制御の判定が行われるのに対し、音楽シーンの制御状態においては、音楽検出回数が7回、音声検出回数は3回の場合、音楽と音声の両方を含むシーンの音場制御の判定が行われないことがわかる。つまり、現在の状態が何らかの音場制御を行っている状態(すなわち、ニュートラルでない状態)においては、現在の音場制御の状態に優位性を持たせた状態遷移の条件が設定されている。このような条件設定が成されている理由は以下のとおりである。
上述したとおり、音楽検出処理、音声検出処理の正解率は約90%であり、10%程度は誤判定されるため、音場制御の状態の切り替えが適切に行われない場合がある。また、1つの会話のシーンにおいて息継ぎの無声部分があったり、効果音だけで数秒だけ音楽が混入されたりする場合もある。そのため、この数秒(または数百ms)単位のオーダーでのシーンチェンジ(すなわち、音場制御の状態の切り替え)を追従しても、必ずしも、視聴者にとって快適な切り替えがなされるとは言えず、むしろ視聴者を疲れさせてしまうことになる。そこで、既に音場制御が行われている場合には、ニュートラルな状態からの音場制御に比べて、現在のシーン、すなわち、現在の音場制御の状態に優位性を持たせるようにして状態遷移の条件が設定されている。これにより、音場制御の状態の切り替えを適切な回数にすることができる。つまり、聴取者が1つのシーンと認識する主観的な時間区切りにおいてのみ、音場制御の状態の切り替えを行う構成を実現できる。
なお、本発明を、以下のように表現することも可能である。
(第1の構成)
入力音声音響信号を所定時間で区切られたフレームに分割する手段と、前記フレーム毎に周波数に変換する手段と、前記周波数に変換したスペクトルの横軸を対数変換する手段と、前記対数変換したスペクトルの自己相関値を算出する手段と、前記算出された自己相関値の過去のフレームとの相関値を算出する手段と、前記相関値が所定フレームの間で、所定値以内かを比較する手段と、所定値以内の場合に音楽シーンと判定する判定手段を備えることを特徴とする第1の構成。
(第2の構成)
入力音声音響信号を所定時間で区切られたフレームに分割する手段と、前記フレーム毎に周波数に変換する手段と、前記周波数に変換したスペクトルの横軸を対数変換する手段と、前記対数変換したスペクトルのパワーの最大値を検出する手段と、前記検出した最大値を有する周波数を検出する手段と、前記検出された最大周波数と過去の所定フレームの最大周波数を比較する手段と、前記比較した周波数帯域が所定の音階幅以上か比較する手段と、所定の音階以上の場合に音楽シーンと判定する判定手段を備えることを特徴とする第2の構成。
(第3の構成)
入力音声音響信号を所定時間で区切られたフレームに分割する手段と、前記フレーム毎に周波数に変換する手段と、前記周波数に変換したスペクトルの所定周波数以下のパワーと以上のパワーを算出する手段と、前記算出した低域パワーと高域パワーを過去のフレームと累積加算する手段と、前記累積加算した低域パワーと高域パワーの比を算出する手段と、前記累積加算した低域パワーの自己相関値を算出する手段と、前記低域パワーの累積加算値と高域パワーの累積加算値の比を算出する手段と、前記算出した比が所定値以上であって、かつ前記低域パワーの自己相関値の最大値が所定値(略0.2秒)以上でありかつ所定値(略1.5秒)以下の場合に音楽シーンと判定する判定手段を備えることを特徴とする第3の構成。
(第4の構成)
入力音声音響信号を所定時間で区切られたフレームに分割し、前記フレーム毎にケプストラム法や瞬時周波数法等により基本周波数を抽出する装置において、前記抽出した基本周波数と複数の過去フレームの検出した基本周波数を、各々所定範囲(略100Hzから略400Hz)と比較する手段と、前記所定範囲を満たす場合に、基本周波数の変化量を検出する手段と、検出した変化量が所定範囲(略120Hz)以内であり、かつ単調増加または単調減少する場合に音声シーンと判定する判定手段を備えることを特徴とする第4の構成。
本発明は上述した実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能である。すなわち、請求項に示した範囲で適宜変更した技術的手段を組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
最後に、音楽検出装置1、2、3、および、音声検出装置4の各ブロックは、ハードウェアロジックによって構成してもよいし、次のようにCPUを用いてソフトウェアによって実現してもよい。
すなわち、音楽検出部10、20、30、および、音声検出部40は、各機能を実現する制御プログラムの命令を実行するCPU(central processing unit)、上記プログラムを格納したROM(read only memory)、上記プログラムを展開するRAM(random access memory)、上記プログラムおよび各種データを格納するメモリ等の記憶装置(記録媒体)などを備えている。そして、本発明の目的は、上述した機能を実現するソフトウェアである音楽検出部10、20、30、および、音声検出部40の制御プログラムのプログラムコード(実行形式プログラム、中間コードプログラム、ソースプログラム)をコンピュータで読み取り可能に記録した記録媒体を、音楽検出装置1、2、3、および、音声検出装置4に供給し、そのコンピュータ(またはCPUやMPU)が記録媒体に記録されているプログラムコードを読み出し実行することによっても、達成可能である。
上記記録媒体としては、例えば、磁気テープやカセットテープ等のテープ系、フロッピー(登録商標)ディスク/ハードディスク等の磁気ディスクやCD−ROM/MO/MD/DVD/CD−R等の光ディスクを含むディスク系、ICカード(メモリカードを含む)/光カード等のカード系、あるいはマスクROM/EPROM/EEPROM/フラッシュROM等の半導体メモリ系などを用いることができる。
また、音楽検出装置1、2、3、および、音声検出装置4を通信ネットワークと接続可能に構成し、通信ネットワークを介して上記プログラムコードを供給してもよい。この通信ネットワークとしては、特に限定されず、例えば、インターネット、イントラネット、エキストラネット、LAN、ISDN、VAN、CATV通信網、仮想専用網(virtual private network)、電話回線網、移動体通信網、衛星通信網等が利用可能である。また、通信ネットワークを構成する伝送媒体としては、特に限定されず、例えば、IEEE1394、USB、電力線搬送、ケーブルTV回線、電話線、ADSL回線等の有線でも、IrDAやリモコンのような赤外線、Bluetooth(登録商標)、802.11無線、HDR、携帯電話網、衛星回線、地上波デジタル網等の無線でも利用可能である。なお、本発明は、上記プログラムコードが電子的な伝送で具現化された、搬送波に埋め込まれたコンピュータデータ信号の形態でも実現され得る。