[go: up one dir, main page]

JP3892379B2 - 調波構造区間推定方法及び装置、調波構造区間推定プログラム及びそのプログラムを記録した記録媒体、調波構造区間推定の閾値決定方法及び装置、調波構造区間推定の閾値決定プログラム及びそのプログラムを記録した記録媒体 - Google Patents

調波構造区間推定方法及び装置、調波構造区間推定プログラム及びそのプログラムを記録した記録媒体、調波構造区間推定の閾値決定方法及び装置、調波構造区間推定の閾値決定プログラム及びそのプログラムを記録した記録媒体 Download PDF

Info

Publication number
JP3892379B2
JP3892379B2 JP2002274525A JP2002274525A JP3892379B2 JP 3892379 B2 JP3892379 B2 JP 3892379B2 JP 2002274525 A JP2002274525 A JP 2002274525A JP 2002274525 A JP2002274525 A JP 2002274525A JP 3892379 B2 JP3892379 B2 JP 3892379B2
Authority
JP
Japan
Prior art keywords
occupancy
harmonic structure
value
estimating
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2002274525A
Other languages
English (en)
Other versions
JP2004109742A (ja
Inventor
智広 中谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2002274525A priority Critical patent/JP3892379B2/ja
Publication of JP2004109742A publication Critical patent/JP2004109742A/ja
Application granted granted Critical
Publication of JP3892379B2 publication Critical patent/JP3892379B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
この発明は、複数の音や雑音下の音響信号から、目的音の調波構造(音声の場合は有声音)が含まれている区間(有声音区間)を推定する調波構造区間推定法に関する。
調波構造区間の推定は、音声合成、音声認識、音声符号化等の信号処理の前処理として利用されている。したがって、雑音下での高精度な調波構造区間の推定は、後処理として実施される信号処理装置の性能を向上させることに寄与する。このような信号処理装置には、以下のようなものが含まれる。
1.調波構造区間の情報をもとに複数音源の混合音から各構成音を分離する音源分離装置。
2.有声音区間の情報をもとに音声を符号化する音声符号化・復号化装置。
3.騒がしい環境で人が鼻歌で歌った音の有声音区間からメロディを推定して、楽曲を検索する音楽検索装置。
4.音楽演奏の音響信号を受け取って調波構造区間を推定し、楽譜もしくは楽譜相当の音楽情報を推定するための自動採譜装置。
5.人が発した声の有声音区間における基本周波数の高さで機械にコマンドをわたす機械制御インターフェース、および機械との対話装置。
【0002】
【従来の技術】
図5に従来の調波構造区間推定装置の構成を示す。
図5を参照して従来の調波構造区間推定装置と調波構造区間推定方法を説明する。
調波構造区間推定装置は、入力された音響信号のケプストラムピークを抽出するケプストラムピーク抽出部と、入力された音響信号のパワーを抽出する信号パワー抽出部と、単位時間当たりのゼロクロス点の数を抽出するzero crossing比抽出部と、抽出された各信号と予め設定された閾値とを比較する各閾値処理部と、閾値処理部の比較結果に基づき調波構造区間を判定する統合部とから構成される。
この従来例では、調波構造区間の判定は入力音響信号の以下の特徴を利用する。
(1)ケプストラム係数のピーク値が大きくなる。
(2)パワー値が大きくなる。
(3)zero crossing比が小さくなる。
上記3つの値毎に閾値を決定し、(1),(2)の値が閾値を超えて、(3)の値が閾値以下の場合のみ、当該入力区間を調波構造区間と判定する。(例えば、非特許文献1 参照。)
【0003】
【非特許文献1】
Ahmadi,S.,and Spanias,A.S.,"Cepstrum-based pitch detection using a new statistical V/UV classification algorithm",Speech and Audio Processing, IEEE Transaction on,Volume:7 Issue:3 ,May 1999 Page(s):333-338.
【0004】
【発明が解決しようとする課題】
上述した従来の調波構造区間推定装置及び方法では、入力された音響信号の状態に応じて、閾値を変更する必要があった。例えば、入力音響信号のレベルが大きくなると、音響信号のケプストラム係数やパワー値が調波構造区間であるかないかに関わらず大きくなるため、閾値を変更しない場合は、調波構造区間ではない区間を調波構造区間であると誤判定してしまう場合が多くなってしまう。また、背景雑音が大きくなる場合にも、調波構造区間以外のケプストラム係数やパワー値が上昇するため、誤判定を減少させるためには、同様に閾値を上げる必要があった。zero crossing比自体は、入力レベルとは関係のない値であるが、調波構造区間を推定するためには信頼性の低い尺度であるため、他の二つの特徴と組み合わせて用いるのが通常であり、単独では用いることが出来なかった。
また、状況に応じて適切な閾値を決定することは容易ではなく、専門家による調整が必要であった。しかも、入力音や背景雑音のレベルは、一般に、一つの録音環境でも一定ではないため、推定精度を上げるためには、その都度調整をしなおす等の必要があった。
【0005】
【課題を解決するための手段】
上記課題を解決するために、本発明では、入力音響信号の各周波数成分が雑音の影響を受けていない度合いを表す占有度を利用し、占有度を利用した調波構造区間推定方法及び装置、調波構造区間推定の閾値決定方法及び装置を構成する。占有度による方法では、雑音下で占有的なパワーを持つ調波成分を特定し、その特徴量のみを用いて特徴抽出を行うことで、入力音の状況によらず安定した調波構造区間推定方法、調波構造区間推定の閾値決定方法を構成する。
【0006】
占有度は、瞬時周波数に関する次の性質に基づき定義されている。瞬時周波数φ'とは、短時間フーリエ変換の各周波数binを等間隔にならんだ狭帯域通過フィルタ群とみなした場合の、その各出力波の位相φの時間微分のことである。ある時刻のある帯域に強いパワーを持った占有的な周波数成分があると、短時間フーリエ変換(以下、STFTという)におけるその周波数近傍のbinでは、瞬時周波数がほぼ一定値になることが知られている。このため、雑音が少ない入力音響信号中の調波構造を持った音の瞬時周波数を縦軸に、STFTの周波数binを横軸にとってプロットすると、図6(a)の細実線で示したような階段状になる。この階段の水平部分と各周波数binの中心周波数ωcが一致する点(φ'=ωc、以下、不動点と呼ぶ)が、各高調波成分の周波数とみなすことができる。一方、強い雑音がある入力信号中では、瞬時周波数は明確な階段状にならず、図6(b)の細実線(600[Hz]以上)で示したように、なだらかな右上がりの線になる。
【0007】
上述の瞬時周波数の性質を用いて、調波構造が周波数binの出力をどの程度占めているかを評価するために、占有度(degree of dominance)D0(ωc)は以下で定義される。
D0(ωc)=10log10(1/B(ωc2) (1)
【数1】
Figure 0003892379
B(ωc)2は、中心周波数ωcを持つ周波数binの近傍(ωc−Δω/2<ω<ωc+Δω/2)のbinにおいて、φ'(ω)とωcの差分をパワースペクトルS(ω)2で重み付き和をとったものである。占有的な周波数成分に対応する不動点近傍では、φ'(ω)とωcはほぼ同じ値をとるため、B(ωc)2は極小値をとると期待される。その逆数(の対数)をとって、同じ点で極大値をとるようにしたものがD0c)である。
占有度は、パワースペクトルS(ω)2で正規化した値でもあるため、非調波成分に対する調波成分の相対的な強度のみを評価するものである。信号の絶対的なパワーに依存せず、ほぼ同じ範囲の値をとる(約−40〜0dB)。
【0008】
図7に、幼児音声の有声音/無声音区間の占有度を各周波数binごとにプロットした結果を示す。図(a)より、有声音区間では、占有度は各調波成分に相当する規則的な鋭いピークを持ち、瞬時周波数の不動点(=瞬時周波数と各FFT binの中心周波数が一致する点)とも一致していることがわかる。また、対数スペクトル上では背景雑音に由来する調波成分以外のピークが表れているが、占有度においてはこれらのピークは消失している。一方、図(b)より無声音区間ではピークの位置は不規則かつ不明確であり不動点の位置とも一致しない。占有度のこれらの性質は、入力信号中で占有的な調波成分の構造を抽出するのに極めて有効である。
【0009】
占有度による方法では調波構造に対応する占有度のピーク値の和をとり、その大小で有声音/無声音区間(V/UV)を判定する。各フレーム(例えば、1[msec]シフト)ごとに以下の調波構造占有度を求め、メジアンフィルタ(例えば、61サンプルポイント)で時間方向の平滑化処理を行った後に閾値処理する。
【数2】
Figure 0003892379
ここで、lは高調波の次数、f0は基本周波数F0の推定値、D0,F(l・2πf0)はl次高調波の近傍の不動点における占有度(不動点がない場合はE(D0c)))を返す関数である。なお、E(D0c))は占有度のバイアスを除去する項で占有度の周波数方向の平均値を返す関数である。
【0010】
前述したように、有声音区間では各高調波に相当する周波数と不動点および占有度のピークが一致するため、無声音区間に比べてDt0(f0)は大きな値をとることになる。しかも、入力音声のパワーによらず、占有的な調波成分の占有度はほぼ近い値をとるため、有声音区間においてDt0(f0)はある一定の大きな値の範囲におさまる。これに対し、無声音区間の占有度は小さな値で一定の範囲におさまる。この有声音/無声音区間のそれぞれの占有度がとりうる範囲の境界に閾値を設定することでV/UV判定を行うことが出来る。
【0011】
【発明の実施の形態】
(調波構造区間の推定方法、装置)
図1に本発明の調波構造区間推定装置の構成例を示す。
図1を用いて、調波構造区間推定装置の構成及び調波構造区間推定方法を説明する。
調波構造区間推定装置は、基本周波数推定部と、窓切り出し手段と瞬時周波数推定手段からなる瞬時周波数推定部と、信号パワー推定手段と占有度計算手段からなる占有度計算部と、不動点推定部と、調波構造占有度推定部と閾値処理部と、から構成される。
本実施例では、まず、基本周波数推定部は、入力された音響信号から有声音/無声音区間の区別なく基本周波数を推定する。基本周波数の推定には、特願2002-62513号に示されている方法などが利用できる。その他、既存の様々な基本周波数推定法が利用可能である。
【0012】
次に、この基本周波数推定値f0を用いて有声音区間の判定を行う。
まず、窓切り出し手段は、入力音響音声を短時間単位で分析するために、窓切り出し処理を行う。後段の処理で行う瞬時周波数推定を精度よく行うためには、入力音響信号の推定基本周波数f0に応じて窓の切り出し幅を変えることが有効であることが知られている(詳しくは文献[1]阿竹 他,“瞬時周波数に基づく雑音環境下でのピッチ推定”,電子情報通信学会論文誌,Vol.J79-D-II,No.11,pp.1771-1781,1996参照)。例えば、ある時刻の推定基本周波数をf0[Hz]としたとき、3.5/f0[sec]程度の長さのハニング窓を利用すればよい。ハニング窓以外にもハミング窓やブラックマン窓など、様々な既存の窓関数を利用することが出来る。さらに、瞬時周波数推定精度は下がるが可変長時間窓ではなく固定長時間窓(例えば、42[msec]ハニング窓など)を用いても、同様に以降の分析を進めることが出来る。
【0013】
次に、占有度を求めるのに必要な量である、信号のパワースペクトルS(ω)2と瞬時周波数φ'(ωc)を求める。
信号パワー推定手段において、音響信号のパワースペクトルは、まず、切り出した各短時間入力音響信号に対して、短時間フーリエ変換を施して周波数領域の信号に変換すると、各周波数帯域(以後、中心周波数をωcと表す)ごとの特徴を表す複素信号が得られる。この複素信号の平方を計算することで、各周波数ωcごとの信号パワーS(ωc)2を求めることが出来る。周波数領域への変換は、ウォーブレット変換、余弦変換など他の手法を用いてもよい。
瞬時周波数推定手段において、瞬時周波数は、上記のようにして求められる周波数領域の複素信号に対して、各周波数ごとに位相を時間微分することで求めることが出来る。このためには、例えば、例えば、可変長窓切り出し処理で切り出すディジタル信号波形を切り出す位置を1サンプルずらして求められる二つの信号波形から得られる周波数領域の複素信号の位相φ(t1),φ(t2)に対して、各位相の差を1サンプル間の時間差△t=t2−t1で割ってやることで、近似的に微分を行うことが出来る。
【数3】
Figure 0003892379
もしくは、文献[2](阿部 他“調波成分の瞬時周波数を用いた基本周波数推定方法”,電子情報通信学会論文誌,Vol.J83-D-II,No.11,pp.2077-2086,2000)に示されている方法などを用いて、ひとつの時間窓で切り出したディジタル信号波形から直接計算する方法も知られている。
【0014】
占有度計算手段における占有度の推定は、上記のようにして周波数変換の各中心周波数ωcごとに得られる信号パワーS(ωc)2、瞬時周波数φ'(ωc)に基づき、式(1),(2)を用いて行う。まず、各周波数帯の中心周波数ごとに、中心周波数ωcと、その近傍の周波数の瞬時周波数φ'(ω)との2乗誤差(φ'(ω)−ωc)2を計算し、それに信号パワーS(ω)2を乗じた値を、その近傍の周波数全体で総和をとるとともに、同じ近傍周波数で信号パワーS(ω)2のみの総和をとった値で割ることで、各中心周波数ωcに対する占有度を推定できる。総和をとる近傍の周波数の範囲△ωは、基本周波数f0[Hz]を用いてより適切に決定することが出来、例えばf0[Hz]に0.9程度の値を乗じて得られる範囲などを用いればよい。
【0015】
一方、不動点推定部において、不動点は各中心周波数ωcとその点での瞬時周波数φ'(ωc)から求めることが出来る。二つのとなりあった中心周波数ωc1c2およびその瞬時周波数φ'(ωc1),φ'(ωc2)の間に式(6)の不等式が成立する場合、ωc1c2の間に不動点が存在し、不動点の周波数φ'は、式(5)で与えられる。
【数4】
Figure 0003892379
Where φ'1>ωc1 and φ'2<ωc2 (6)
ただし、φ'はφ'(ωc1),φ'(ωc2)の間の値をとるため、以後のディジタル信号処理では、φ'(ωc1),φ'(ωc2)のうちφ'に近い方を不動点として扱うようにする。
【0016】
次に、調波構造占有度推定部は、調波構造占有度の推定を式(3)に基づいて行う。さらに、各時刻の調波構造占有度に対し、時間方向の平滑化処理としてメジアンフィルターを用いることは有効である。メジアンフィルターは、各時刻を中心にして、前後一定数のサンプルを切り出すとともに、切り出したサンプルの値をその時刻の値とするフィルターである。すべての時刻に対して同じ処理を行うことで、平滑化を行える。前後一定数のサンプルの長さとしては、例えば30[msec](前後合わせて60[msec])程度の長さが有効である。
最後に、閾値処理部は、時間平滑化処理を行った調波構造占有度に対し、その値が予め決められた閾値より大きな値をとる時刻を調波構造区間とすることで、調波構造区間を推定することが出来る。
【0017】
(調波構造区間の閾値推定法)
図2に調波構造区間の閾値決定装置の構成例を示す。
多くの音響信号から構成されるデータベースを用いて、調波構造区間を推定するための閾値の決定方法及び装置を説明する。
まず、データベースに含まれる各音響信号に対し、前節で示される方法に基づき、各時間窓ごとに調波構造占有度を求める。すなわち、図1に示された基本周波数推定部、窓切り出し手段と瞬時周波数推定手段からなる瞬時周波数推定部と、信号パワー推定手段と占有度計算手段からなる占有度計算部と、不動点推定部と、調波構造占有度推定部を用いて調波構造占有度を求める。
次にヒストグラム計算部では、占有度-10〜180[dB]を細かいいくつかの区間に分け、得られた各調波構造占有度がどの区間に含まれるかを判定することで、各区間に含まれる値を調波構造占有度がとる総数を計算する。このようにして得られた各区間ごとの回数を、横軸に調波構造占有度の値をとってプロットすると、左右二つの分布の山をもつヒストグラムを生成する(図3 参照)。
分布境界抽出部では、この二つの山の境界の低くなっているところ(例えば、最小値を検出して)を閾値とすることで、調波構造区間推定の閾値を得ることができる。
なお、調波構造占有度の値は、入力音響信号の状態にあまり依存しないため、このようにして求められた閾値は、異なる環境で録音された音響信号に対しても利用することができる。
【0018】
本発明の音響信号の調波構造区間推定装置及び調波構造区間の閾値決定装置はCPUやメモリ等を有するコンピュータと、ユーザが利用する端末と、記録媒体とから構成される。記録媒体は、CD−ROM、磁気ディスク装置、半導体メモリ等の機械読み取り可能な記録媒体であり、ここに記録された調波構造区間推定プログラム及び調波構造区間の閾値決定プログラムはコンピュータに読み取られ、コンピュータの動作を制御し、コンピュータ上に前述した各構成要素を実現する。
【0019】
【発明の効果】
図3(a)に、幼児音声データからランダムに選んだ1749データから、また図3(b)に雑音を含まない成人の音声(28人×30発話)と女性の音声から抽出した調波構造占有度のヒストグラムを示す。各図では、横軸上34[dB]付近をはさんで左右に一つづつ分布の山が出来ている。左が無声音区間、右が有声音区間に相当する分布である。成人でも幼児でも同様な性質を持つ分布が得られ、しかも有声音/無声音の各分布の境界がほぼ同じ程度の値になる。これはV/UV判定の尺度として有効であるといえる。以上の考察により、音声の有声音/無声音の判定の閾値は、34[dB]付近に設定すればよいことがわかる。
最後に発明の構成例を用いて、幼児音声の分析を行った結果の例を図4に示す。図の実線で示すように、ほぼ正しく基本周波数f0および有声音/無声音区間(V/UV)を推定出来ていることがわかる。
【図面の簡単な説明】
【図1】本発明の調波構造区間推定装置の構成例を示す図。
【図2】本発明の調波構造区間の閾値決定装置の構成例を示す図。
【図3】(a)雑音下の幼児音声データの調波構造占有度のヒストグラムと(b)非雑音下の成人男性と女性音声データの調波構造占有度のヒストグラム。
【図4】幼児音声のスペクトルグラムと基本周波数推定及び有声音/無声音区間の判定結果を示す図。
【図5】従来の調波構造区間推定装置の構成を示す図。
【図6】(a)非雑音下における有声音の瞬時周波数と対数パワースペクトルと占有度を示す図、及び(b)白色雑音下における有声音の瞬時周波数と対数パワースペクトルと占有度を示す図。
【図7】(a)幼児音声有声音区間の占有度と対数パワースペクトルと不動点を示す図、及び(b)幼児音声無声音区間の占有度と対数パワースペクトルと不動点を示す図。

Claims (8)

  1. 基本周波数推定手段が、連続的に入力される音響信号に対し、各時刻ごとの基本周波数を推定するステップと、
    瞬時周波数推定手段が、前記音響信号中の瞬時周波数を推定するステップと、
    不動点推定手段が、前記瞬時周波数に基づき不動点を推定するステップと、
    占有度計算手段が、占有度を計算するステップと、
    調波構造占有度推定手段が、基本周波数の整数倍の近傍の不動点における占有度の和をとる調波構造占有度を計算するステップと、
    閾値処理手段が、時間平滑化処理を行った前記調波構造占有度に対し、各時刻毎に、その値が予め決められた閾値より大きな値をとる時刻を調波構造区間とすることで、調波構造区間を推定するステップと、を備えたことを特徴とする調波構造区間推定方法。
  2. 基本周波数推定手段が、データベース中に含まれる音響信号それぞれに対し、各時刻ごとの基本周波数を推定するステップと、ここで、データベースとは、予め多くの音響信号が記憶されているものであり、
    瞬時周波数推定手段が、前記音響信号中の瞬時周波数を推定するステップと、
    不動点推定手段が、前記瞬時周波数に基づき不動点を推定するステップと、
    占有度計算手段が、占有度を計算するステップと、
    調波構造占有度推定手段が、基本周波数の整数倍の近傍の不動点における占有度の和をとる調波構造占有度を計算するステップと、
    ヒストグラム計算手段が、前記占有度の値をいくつかの区間に分け、得られた各前記調波構造占有度がどの前記区間に含まれるかを判定し、各前記区間に含まれた値を調波構造占有度の総数として計算し、前記総数と前記調波構造占有度の値をとってプロットすることで、二つの分布の山をもつヒストグラムを生成するステップと、
    分布境界抽出手段が、前記二つの分布の山の間の極小値における値を閾値として抽出するステップと、を備えたことを特徴とする調波構造区間の閾値決定方法
  3. 連続的に入力される音響信号に対し、各時刻ごとの基本周波数を推定する基本周波数推定部と、
    前記音響信号中の瞬時周波数を推定する瞬時周波数推定部と、
    瞬時周波数に基づき不動点を推定する不動点推定部と、
    占有度を計算する占有度計算部と、
    基本周波数の整数倍の近傍の不動点における占有度の和をとる調波構造占有度を計算する調波構造占有度推定部と、
    時間平滑化処理を行った前記調波構造占有度に対し、各時刻毎に、その値が予め決められた閾値より大きな値をとる時刻を調波構造区間とすることで、調波構造区間を推定する閾値処理部と、を備えたことを特徴とする調波構造区間推定装置。
  4. 予め多くの音響信号が記憶されているデータベースと、
    前記音響信号に対し、各時刻ごとの基本周波数を推定する基本周波数推定部と、
    前記音響信号中の瞬時周波数を推定する瞬時周波数推定部と、
    瞬時周波数に基づき不動点を推定する不動点推定部と、
    占有度を計算する占有度計算部と、
    基本周波数の整数倍の近傍の不動点における占有度の和をとる調波構造占有度を計算する調波構造占有度推定部と、
    前記占有度の値をいくつかの区間に分け、得られた各前記調波構造占有度がどの前記区間に含まれるかを判定し、各前記区間に含まれた値を調波構造占有度の総数として計算し、前記総数と前記調波構造占有度の値をとってプロットすることで、二つの分布の山をもつヒストグラムを生成するヒストグラム計算部と、
    前記二つの分布の山の間の極小値における値を閾値として抽出する分布境界抽出部と、を備えたことを特徴とする調波構造区間の閾値決定装置。
  5. 連続的に入力される音響信号に対し、各時刻ごとの基本周波数を推定する処理と、
    前記音響信号中の瞬時周波数を推定する処理と、
    瞬時周波数に基づき不動点を推定する処理と、
    占有度を計算する処理と、
    基本周波数の整数倍の近傍の不動点における占有度の和をとる調波構造占有度を計算する処理と、
    時間平滑化処理を行った前記調波構造占有度に対し、各時刻毎に、その値が予め決められた閾値より大きな値をとる時刻を調波構造区間とすることで、調波構造区間を推定する処理と、をコンピュータに実行させるため調波構造区間推定プログラム。
  6. データベース中に含まれる音響信号それぞれに対し、各時刻ごとの基本周波数を推定する処理と、ここで、データベースとは、予め多くの音響信号が記憶されているものであり、
    前記音響信号中の瞬時周波数を推定する処理と、
    瞬時周波数に基づき不動点を推定する処理と、
    占有度を計算する処理と、
    基本周波数の整数倍の近傍の不動点における占有度の和をとる調波構造占有度を計算する処理と、
    前記占有度の値をいくつかの区間に分け、得られた各前記調波構造占有度がどの前記区間に含まれるかを判定し、各前記区間に含まれた値を調波構造占有度の総数として計算し、前記総数と前記調波構造占有度の値をとってプロットすることで、二つの分布の山をもつヒストグラムを生成する処理と、
    前記二つの分布の山の間の極小値における値を閾値として抽出する処理と、をコンピュータに実行させるための調波構造区間の閾値決定プログラム。
  7. 連続的に入力される音響信号に対し、各時刻ごとの基本周波数を推定する処理と、
    前記音響信号中の瞬時周波数を推定する処理と、
    瞬時周波数に基づき不動点を推定する処理と、
    占有度を計算する処理と、
    基本周波数の整数倍の近傍の不動点における占有度の和をとる調波構造占有度を計算する処理と、
    時間平滑化処理を行った前記調波構造占有度に対し、各時刻毎に、その値が予め決められた閾値より大きな値をとる時刻を調波構造区間とすることで、調波構造区間を推定する処理と、をコンピュータに実行させるための調波構造区間推定プログラムを記録した記録媒体。
  8. データベース中に含まれる音響信号それぞれに対し、各時刻ごとの基本周波数を推定する処理と、
    ここで、データベースとは、予め多くの音響信号が記憶されているものであり、
    前記音響信号中の瞬時周波数を推定する処理と、
    瞬時周波数に基づき不動点を推定する処理と、
    占有度を計算する処理と、
    基本周波数の整数倍の近傍の不動点における占有度の和をとる調波構造占有度を計算する処理と、
    前記占有度の値をいくつかの区間に分け、得られた各前記調波構造占有度がどの前記区間に含まれるかを判定し、各前記区間に含まれた値を調波構造占有度の総数として計算し、前記総数と前記調波構造占有度の値をとってプロットすることで、二つの分布の山をもつヒストグラムを生成する処理と、
    前記二つの分布の山の間の極小値における値を閾値として抽出する処理と、をコンピュータに実行させるための調波構造区間の閾値決定プログラムを記録した記録媒体。
JP2002274525A 2002-09-20 2002-09-20 調波構造区間推定方法及び装置、調波構造区間推定プログラム及びそのプログラムを記録した記録媒体、調波構造区間推定の閾値決定方法及び装置、調波構造区間推定の閾値決定プログラム及びそのプログラムを記録した記録媒体 Expired - Lifetime JP3892379B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002274525A JP3892379B2 (ja) 2002-09-20 2002-09-20 調波構造区間推定方法及び装置、調波構造区間推定プログラム及びそのプログラムを記録した記録媒体、調波構造区間推定の閾値決定方法及び装置、調波構造区間推定の閾値決定プログラム及びそのプログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002274525A JP3892379B2 (ja) 2002-09-20 2002-09-20 調波構造区間推定方法及び装置、調波構造区間推定プログラム及びそのプログラムを記録した記録媒体、調波構造区間推定の閾値決定方法及び装置、調波構造区間推定の閾値決定プログラム及びそのプログラムを記録した記録媒体

Publications (2)

Publication Number Publication Date
JP2004109742A JP2004109742A (ja) 2004-04-08
JP3892379B2 true JP3892379B2 (ja) 2007-03-14

Family

ID=32270970

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002274525A Expired - Lifetime JP3892379B2 (ja) 2002-09-20 2002-09-20 調波構造区間推定方法及び装置、調波構造区間推定プログラム及びそのプログラムを記録した記録媒体、調波構造区間推定の閾値決定方法及び装置、調波構造区間推定の閾値決定プログラム及びそのプログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP3892379B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102009058415B4 (de) 2009-12-16 2012-12-06 Siemens Medical Instruments Pte. Ltd. Verfahren zur Frequenztransposition bei einem Hörhilfegerät sowie Hörhilfegerät
JP5696828B2 (ja) * 2010-01-12 2015-04-08 ヤマハ株式会社 信号処理装置
JP6152690B2 (ja) * 2013-05-02 2017-06-28 ヤマハ株式会社 音響解析装置

Also Published As

Publication number Publication date
JP2004109742A (ja) 2004-04-08

Similar Documents

Publication Publication Date Title
Gonzalez et al. PEFAC-A pitch estimation algorithm robust to high levels of noise
US7035742B2 (en) Apparatus and method for characterizing an information signal
US8440901B2 (en) Musical score position estimating apparatus, musical score position estimating method, and musical score position estimating program
Deshmukh et al. Use of temporal information: Detection of periodicity, aperiodicity, and pitch in speech
Dhananjaya et al. Voiced/nonvoiced detection based on robustness of voiced epochs
US9093056B2 (en) Audio separation system and method
US7660718B2 (en) Pitch detection of speech signals
US7567900B2 (en) Harmonic structure based acoustic speech interval detection method and device
KR101266894B1 (ko) 특성 추출을 사용하여 음성 향상을 위한 오디오 신호를 프로세싱하기 위한 장치 및 방법
US7756700B2 (en) Perceptual harmonic cepstral coefficients as the front-end for speech recognition
Sukhostat et al. A comparative analysis of pitch detection methods under the influence of different noise conditions
CN103854662A (zh) 基于多域联合估计的自适应语音检测方法
CN111128213A (zh) 一种分频段进行处理的噪声抑制方法及其系统
Rossignol et al. Feature extraction and temporal segmentation of acoustic signals
US8193436B2 (en) Segmenting a humming signal into musical notes
Katmeoka et al. Separation of harmonic structures based on tied Gaussian mixture model and information criterion for concurrent sounds
US5809453A (en) Methods and apparatus for detecting harmonic structure in a waveform
Magre et al. A comparative study on feature extraction techniques in speech recognition
Nongpiur et al. Impulse-noise suppression in speech using the stationary wavelet transform
Markel Application of a digital inverse filter for automatic formant and F o analysis
CN104036785A (zh) 语音信号的处理方法和装置、以及语音信号的分析系统
JP3892379B2 (ja) 調波構造区間推定方法及び装置、調波構造区間推定プログラム及びそのプログラムを記録した記録媒体、調波構造区間推定の閾値決定方法及び装置、調波構造区間推定の閾値決定プログラム及びそのプログラムを記録した記録媒体
JP5924968B2 (ja) 楽譜位置推定装置、及び楽譜位置推定方法
Zhao et al. A processing method for pitch smoothing based on autocorrelation and cepstral F0 detection approaches
Elton et al. A novel voice activity detection algorithm using modified global thresholding

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040727

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060714

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060725

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060920

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20060920

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061017

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061101

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20061128

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20061206

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 3892379

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101215

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101215

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111215

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111215

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121215

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121215

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131215

Year of fee payment: 7

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term