JP3840684B2 - ピッチ抽出装置及びピッチ抽出方法 - Google Patents
ピッチ抽出装置及びピッチ抽出方法 Download PDFInfo
- Publication number
- JP3840684B2 JP3840684B2 JP01643396A JP1643396A JP3840684B2 JP 3840684 B2 JP3840684 B2 JP 3840684B2 JP 01643396 A JP01643396 A JP 01643396A JP 1643396 A JP1643396 A JP 1643396A JP 3840684 B2 JP3840684 B2 JP 3840684B2
- Authority
- JP
- Japan
- Prior art keywords
- pitch
- audio signal
- autocorrelation
- pass filter
- calculating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000605 extraction Methods 0.000 title claims description 32
- 230000005236 sound signal Effects 0.000 claims description 76
- 238000004364 calculation method Methods 0.000 claims description 53
- 238000011156 evaluation Methods 0.000 claims description 40
- 238000000034 method Methods 0.000 claims description 39
- 238000001914 filtration Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 description 28
- 239000013598 vector Substances 0.000 description 18
- 238000004458 analytical method Methods 0.000 description 15
- 238000013139 quantization Methods 0.000 description 13
- 238000001228 spectrum Methods 0.000 description 12
- 238000006243 chemical reaction Methods 0.000 description 9
- 238000001514 detection method Methods 0.000 description 8
- 230000015572 biosynthetic process Effects 0.000 description 6
- 238000003786 synthesis reaction Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 210000001260 vocal cord Anatomy 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000001308 synthesis method Methods 0.000 description 2
- 238000002940 Newton-Raphson method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F16—ENGINEERING ELEMENTS AND UNITS; GENERAL MEASURES FOR PRODUCING AND MAINTAINING EFFECTIVE FUNCTIONING OF MACHINES OR INSTALLATIONS; THERMAL INSULATION IN GENERAL
- F16H—GEARING
- F16H48/00—Differential gearings
- F16H48/20—Arrangements for suppressing or influencing the differential action, e.g. locking devices
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/06—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- General Engineering & Computer Science (AREA)
- Mechanical Engineering (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
- Electrophonic Musical Instruments (AREA)
Description
【発明の属する技術分野】
本発明は、入力音声信号からピッチを抽出するピッチ抽出装置及びピッチ抽出方法に関する。
【0002】
【従来の技術】
音声は、音の性質として、有声音と無声音とに区別される。有声音は、声帯振動を伴う音声で、周期的な振動として観測される。無声音は、声帯振動を伴わない音声で、非周期的な雑音として観測される。通常の音声では大部分が有声音であり、無声音は無声子音と呼ばれる特殊な子音のみである。有声音の周期は、声帯振動の周期で決まり、これをピッチ周期、その逆数をピッチ周波数という。これらピッチ周期及びピッチ周波数は、声の高低やイントネーションを決める需要な要因となる。従って、原音声波形から正確にピッチ周期を抽出(以下、ピッチ抽出という)することは、音声を分析し合成する音声合成の課程の中でも重要となる。
【0003】
上記ピッチ抽出の方法(以下、ピッチ抽出方法)として、相関処理が波形の位相歪みに強いことを利用した相関処理法があり、この相関処理法の一方法としては、自己相関法がある。この自己相関法では、一般的には、入力音声信号を所定の周波数帯域に制限した後に、所定のサンプル数の入力音声信号の自己相関を求めてピッチ抽出を行い、ピッチを得る。入力音声信号を帯域制限する際には、一般的に、ローパスフィルタ(以下、LPFという)が用いられる。
【0004】
【発明が解決しようとする課題】
ところで、上述の自己相関法において、例えば、低周波数成分にインパルス状のピッチが含まれている音声信号を用いるときには、この音声信号をLPFに通すことによって、インパルス状の成分が除去されてしまう。よって、このLPFを通した音声信号のピッチ抽出を行って、低周波数成分にインパルス状のピッチが含まれている音声信号の正しいピッチを得ることは困難である。
【0005】
逆に、低周波数成分のインパルス状の成分を除去しないために、低周波数成分にインパルス状のピッチが含まれている音声信号をハイパスフィルタ(以下、HPFという)のみに通すこととすると、この音声信号波形がノイズ成分の多い波形である場合には、ピッチ成分とノイズ成分との区別がつかなくなり、やはり、正しいピッチを得ることは困難となる。
【0006】
そこで、本発明は上述の実情に鑑み、様々な特性を持つ音声信号のピッチを正確に抽出することができるピッチ抽出装置及びピッチ抽出方法を提供するものである。
【0007】
【課題を解決するための手段】
本発明に係るピッチ抽出装置は、上述した課題を解決するために、入力音声信号を複数の異なる周波数帯域に制限するフィルタ手段と、上記フィルタ手段からの各周波数帯域の音声信号毎に、所定単位の自己相関データを算出する自己相関算出手段と、上記自己相関算出手段からの自己相関データからピークを検出して、ピッチ強度を求め、ピッチ周期を算出するピッチ周期算出手段と、上記自己相関算出手段からの自己相関データのピークの値を大きい順に並べ換えた関数を順次r(0)、r(1)、r(2)、・・・とし、r(1)、r(2)、・・・をr(0)で除算することにより正規化した関数をr'(1)、r'(2)、・・・とするとき、r'(1)とr'(2)との比を求めることにより、ピッチ強度の信頼度を示す評価パラメータを算出する評価パラメータ算出手段と、上記ピッチ周期算出手段からのピッチ周期及び上記評価パラメータ算出手段からの評価パラメータに基づいて、上記複数の異なる周波数帯域の音声信号の内の1つの周波数帯域の音声信号のピッチを選択する選択手段とを備えて成ることを特徴とする。
また、本発明に係るピッチ抽出方法は、上述した課題を解決するために、入力音声信号を複数の異なる周波数帯域に制限するフィルタ工程と、上記各周波数帯域の音声信号毎に、所定単位の自己相関データを算出する自己相関算出工程と、上記自己相関データからピークを検出して、ピッチ強度を求め、ピッチ周期を算出するピッチ周期算出工程と、上記自己相関データのピークの値を大きい順に並べ換えた関数を順次r(0)、r(1)、r(2)、・・・とし、r(1)、r(2)、・・・をr(0)で除算することにより正規化した関数をr'(1)、r'(2)、・・・とするとき、r'(1)とr'(2)との比を求めることにより、ピッチ強度の信頼度を示す評価パラメータを算出する評価パラメータ算出工程と、上記ピッチ周期及び上記評価パラメータに基づいて、上記複数の異なる周波数帯域の音声信号の内の1つの周波数帯域の音声信号のピッチを選択する選択工程とを有して成ることを特徴とする。
【0008】
【発明の実施の形態】
以下、本発明の実施の形態について、図面を参照しながら説明する。
【0009】
図1には、本発明に係るピッチ抽出装置を用いたピッチサーチ装置の実施の形態の概略的な構成を示し、図2には、本発明に係るピッチ抽出装置の概略的な構成を示す。
【0010】
この図2に示すピッチ抽出装置は、入力音声信号を複数の異なる周波数帯域に制限するフィルタ手段であるHPF12、LPF16と、上記HPF12、LPF16からの各周波数帯域の音声信号毎に、所定単位の自己相関データを算出する自己相関算出手段である自己相関算出部13、17と、上記自己相関算出部13、17からの自己相関データからピークを検出して、ピッチ強度を求め、ピッチ周期を算出するピッチ周期算出手段であるピッチ強度/ピッチラグ算出部14、18と、上記ピッチ強度/ピッチラグ算出部14、18からのピッチ強度を用いて、ピッチ強度の信頼度を示す評価パラメータを算出する評価パラメータ算出手段である評価パラメータ算出部15、19と、上記ピッチ強度/ピッチラグ算出部14、18からのピッチ周期及び上記評価パラメータ算出部15、19からの評価パラメータに基づいて、上記複数の異なる周波数帯域の音声信号の内の1つの周波数帯域の音声信号のピッチを選択する選択手段である選択部20とを備えて成る。
【0011】
先ず、図1のピッチサーチ装置について説明する。
【0012】
図1の入力端子1からの入力音声信号は、フレーム区分部2に送られる。このフレーム区分部2は、入力音声信号を所定のサンプル数のフレーム単位で区分する。
【0013】
現フレームピッチ算出部3及び他フレームピッチ算出部4は、所定のフレームのピッチを算出して出力するものであり、図2に示すピッチ抽出装置の構成から成る。具体的には後述するように、現フレームピッチ算出部3は、上記フレーム区分部2で区分された現フレームのピッチを算出し、他フレームピッチ算出部4は、上記フレーム区分部2で区分された現フレーム以外のフレームのピッチを算出する。
【0014】
本実施の形態では、入力音声信号波形を上記フレーム区分部2により、例えば現フレーム、過去フレーム、及び未来フレームに区分している。そして、確定している過去フレームのピッチを基に、現フレームを決定し、さらに過去フレームのピッチ及び未来フレームのピッチを基に、上記決定された現フレームのピッチを確定する方法である。このように、過去フレーム、現フレーム、及び未来フレームから現フレームのピッチを正確に出そうという考え方を、Delayed decision(ディレイドディシジョン)という。
【0015】
比較検出部5は、上記現フレームピッチ算出部3で検出されたピークが、上記他フレームピッチ算出部4で算出されたピッチに対して、所定の関係を満たすピッチ範囲内にあるか否かを比較し、この範囲内にあるときにピークを検出する。
【0016】
ピッチ決定部6は、上記比較検出部5で比較検出されたピークから現フレームのピッチを決定する。
【0017】
次に、現フレームピッチ算出部3及び他フレームピッチ算出部4を構成する図2のピッチ抽出装置におけるピッチ抽出の処理について、具体的に説明する。
【0018】
入力端子11からのフレーム単位の入力音声信号は、2つの周波数帯域に制限するために、HPF12及びLPF16にそれぞれ送られる。
【0019】
具体的には、例えば、サンプリング周波数fsが8kHzの入力音声信号を、256サンプル毎のフレームに分割したときには、このフレーム毎の入力音声信号の帯域制限を行うためのHPF12のカットオフ周波数fcHは1kHz、LPF16のカットオフ周波数fcLは3.2kHzに定める。このとき、HPF12からの出力をxH、LPF16からの出力をxLとすると、出力xHは3.2〜4.0kHz、出力xLは0〜1.0kHzにそれぞれ帯域制限されている。但し、入力音声信号が予め帯域制限されている場合には、この限りではない。
【0020】
自己相関算出部13、17では、FFT(高速フーリエ変換)によってそれぞれ自己相関データを求め、それらのピークをそれぞれ取り出す。
【0021】
ピッチ強度/ピッチラグ算出部14、18では、これらのピークの値を大きい順に並べ換え、即ちソーティングした関数をそれぞれrH(n)、rL(n)とする。このとき、自己相関算出部13で求められた自己相関データのピークの総数をNH、自己相関算出部17で求められた自己相関データのピークの総数をNLとすると、rH(n)、rL(n)は、それぞれ(1)、(2)式で表される。
【0022】
rH(0)、rH(1)、・・・、rH(NH−1) ・・・(1)
rL(0)、rL(1)、・・・、rL(NL−1) ・・・(2)
また、rH(n)、rL(n)に対応するピッチラグをそれぞれ算出し、lagH(n)、lagL(n)とする。このピッチラグとは、ピッチ周期毎のサンプル数である。
【0023】
さらに、rH(n)の各ピーク値をrH(0)で、rL(n)の各ピーク値をrL(0)でそれぞれ除算し、正規化した関数を、r'H(n)及びr'L(n)とすると、r'H(n)、r'L(n)は、それぞれ(3)、(4)式で表される。
【0024】
ここで、上記並べ換えたr'H(n)、r'L(n)の中で一番大きい値(ピーク)は、r'H(0)、r'L(0)である。
【0025】
評価パラメータ算出部15、19では、HPF12で帯域制限された入力音声信号のピッチ信頼度probH、LPF16で帯域制限された入力音声信号のピッチ信頼度をprobLを算出する。このピッチ信頼度probH、probLは、それぞれ(5)、(6)式で算出する。
【0026】
probH =r'H(1)/r'H(2) ・・・(5)
probL =r'L(1)/r'L(2) ・・・(6)
選択部20では、上記ピッチ強度/ピッチラグ算出部14、18で算出された各ピッチラグ、及び上記評価パラメータ算出部15、19で算出されたピッチ信頼度に基づいて、HPF12で帯域制限された入力音声信号によって得られたパラメータ、あるいは、LPF16で帯域制限された入力音声信号によって得られたパラメータの内のいずれか一方のパラメータを、上記入力端子11からの入力音声信号のピッチサーチに用いるのかを判別して選択する。このとき、以下の表1に示す判別処理を行う。
【0027】
〔表1〕
if lagH x 0.96 < lagL < lagH x 1.04 then LPFによるパラメータを用いる
else if NH > 40 then LPFによるパラメータを用いる
else if probH/probL > 1.2 then HPFによるパラメータを用いる
else LPFによるパラメータを用いる
この判別処理では、LPF16で帯域制限された入力音声信号から求められたピッチのほうが信頼度が高くなるように処理を行っている。
【0028】
先ず、LPF16で帯域制限された入力音声信号のピッチラグlagLと、HPF12で帯域制限された入力音声信号のピッチラグlagHとを比較して、lagHとlagLとの差が小さいときには、LPF16で帯域制限された入力音声信号によって得られたパラメータを選択する。具体的には、LPF16によるピッチラグlagLの値が、HPF12によるピッチラグlagHの0.96倍の値より大きく、また、ピッチラグlagHの1.04倍の値より小さいならば、LPF16で帯域制限された入力音声信号のパラメータを用いる。
【0029】
次に、HPF12によるピークの総数NHを所定数と比較し、NHが所定数より多いときにはピッチが出ていないと判別して、LPF16によるパラメータを選択する。具体的には、NHが40以上であるならば、LPF16で帯域制限された入力音声信号のパラメータを用いる。
【0030】
次に、評価パラメータ算出部15からのprobHと評価パラメータ算出部19からのprobLとを比較し、判別を行う。具体的には、probHをprobLで除算した値が1.2以上であるならば、HPF12で帯域制限された入力音声信号のパラメータを用いる。
【0031】
最後に、上述の3段階の判別処理で判別できないときには、LPF16で帯域制限された入力音声信号のパラメータを用いる。
【0032】
この選択部20で選択されたパラメータは、出力端子21から出力される。
【0033】
次に、上記ピッチ抽出装置を用いたピッチサーチ装置におけるピッチサーチ方法の手順について、図3及び図4のフローチャートを用いて説明する。
【0034】
先ず、図3のステップS1で、所定数の音声信号をフレーム区分して、このフレーム単位の入力音声信号を、ステップS2で、LPFに通して帯域制限を行うとともに、ステップS3で、HPFに通して帯域制限を行う。
【0035】
次に、ステップS4で、ステップS2の帯域制限された入力音声信号の自己相関データが算出される。一方、ステップS5で、ステップS3の帯域制限された入力音声信号の自己相関データが算出される。
【0036】
ステップS4で求められた自己相関データを用いて、ステップS6で、複数あるいは全てのピークが検出される。また、それらのピーク値のソーティングが行われて、rH(n)及びrH(n)に対応するlagH(n)を求める。また、rH(n)を正規化した関数r'H(0)を得る。一方、ステップS5で求められた自己相関データを用いて、ステップS7で、複数あるいは全てのピークが検出される。また、それらのピーク値のソーティングが行われて、rL(n)及びrL(n)に対応するlagL(n)を求める。また、rL(n)を正規化した関数r'L(0)を得る。
【0037】
ステップS8で、ステップS6で得られたr'H(n)の内のr'H(1)、r'H(1)を用いてピッチ信頼度を求める。一方、ステップS9で、ステップS7で得られたr'L(n)の内のr'L(1)、r'L(1)を用いてピッチ信頼度を求める。
【0038】
この後、入力音声信号のピッチ抽出のためのパラメータとして、LPFによるパラメータを用いるか、あるいはHPFによるパラメータを用いるかの判別処理を行う。
【0039】
先ず、ステップS10で、LPF16によるピッチラグlagLの値が、HPF12によるピッチラグlagHの0.96倍の値より大きく、また、ピッチラグlagHの1.04倍の値より小さいか否かを判別する。ここでYESが判別されると、ステップS13に進み、LPFで帯域制限された入力音声信号の自己相関データを基に得られたパラメータを使用する。一方、NOが判別されると、ステップS11に進む。
【0040】
ステップS11では、HPFによるピークの総数NHが40以上であるか否かを判別する。ここで、YESが判別されるならば、ステップS13に進み、LPFによるパラメータを使用する。一方、NOが判別されると、ステップS12に進む。
【0041】
ステップS12では、ピッチ信頼度であるprobHをprobLで除算した値が1.2以下であるか否かを判別する。ここで、YESが判別されるならば、ステップS13に進み、LPFによるパラメータを使用する。一方、NOが判別されるならば、ステップS14に進み、HPFで帯域制限された入力音声信号の自己相関データを基に得られたパラメータを使用する。
【0042】
このようにして選択されたパラメータを用いて、以下のピッチサーチを行う。尚、以下の説明では、選択されたパラメータである、自己相関データをr(n)、この自己相関データの正規化関数をr'(n)、この正規化関数を並べ換えたものをr's(n)として説明する。
【0043】
図4のフローチャートのステップS15で、上記並べ換えたピークの中で最大ピークr's(0)がk=0.4より大きいか否かを判別する。ここで、YES(最大ピークr's(0)が0.4より大きい)が判別されると、ステップS16に進む。一方、NO(最大ピークr's(0)が0.4より小さい)が判別されると、ステップS17に進む。
【0044】
ステップS16では、上記ステップS15でYESが判別された結果、P(0)を現フレームのピッチP0とする。また、このときのP(0)を典型的なピッチPtとする。
【0045】
ステップS17では、前フレームにおいて、ピッチP-1が無いのか否かを判別する。ここで、YES(ピッチが無かった)が判別されると、ステップS18に進む。一方、NO(ピッチがあった)が判別されると、ステップS21に進む。
【0046】
ステップS18では、最大ピーク値r's(0)がk=0.25より大きいか否かを判別する。ここで、YES(最大ピーク値r's(0)がkより大きい)が判別されると、ステップS19に進む。一方、NO(最大ピーク値r's(0)がkより小さい)が判別されると、ステップS20に進む。
【0047】
ステップS19では、上記ステップS18でYESが判別されたとき、即ち、最大ピーク値r's(0)がk=0.25より大きいとき、P(0)を現フレームのピッチP0とする。
【0048】
ステップS20では、上記ステップS18でNOが判別されたとき、即ち、最大ピーク値r's(0)がk=0.25より小さいとき、現フレームにはピッチが無い(P0=P(0))とする。
【0049】
ステップS21では、上記ステップS17で過去フレームのピッチP-1が0でなかった、即ち、ピッチがあることを受けて、この過去のピッチP-1でのピーク値が0.2より大きいか否かを判別する。ここで、YES(過去のピッチP-1が0.2より大きい)が判別されると、ステップS22に進む。一方、NO(過去のピッチP-1が0.2より小さい)が判別されると、ステップS25に進む。
【0050】
ステップS22では、上記ステップS21でのYESの判別を受けて、過去フレームのピッチP-1の80%〜120%の範囲で、最大ピーク値r's(P-1)を探す。つまり、既に求められている過去のピッチP-1に対して、0≦n<jの範囲でr's(n)を検索する。
【0051】
ステップS23では、上記ステップS22によって探された現フレームのピッチの候補が、所定値0.3より大きいか否かを判別する。ここで、YESが判別されると、ステップS24に進み、NOが判別されると、ステップS28に進む。
【0052】
ステップS24では、上記ステップS23でのYESの判別結果を受けて、上記現フレームのピッチの候補を現フレームのピッチP0とする。
【0053】
ステップS25では、上記ステップS21で、過去のピッチP-1でのピーク値r'(P-1)が0.2より小さいという判別結果を受けて、このときの最大ピーク値r's(0)が0.35より大きいか否かを判別する。ここで、YES(最大ピーク値r's(0)が0.35より大きい)が判別されると、ステップS26に進む。一方、NO(最大ピーク値r's(0)が0.35より)が判別されると、ステップS27に進む。
【0054】
ステップS26では、上記ステップS25でYESが判別されたとき、即ち、最大ピーク値r's(0)が0.35より大きいとき、P(0)を現フレームのピッチP0とする。
【0055】
ステップS27では、上記ステップS25でNOが判別されたとき、即ち、最大ピーク値r's(0)が0.35より小さいとき、現フレームにはピッチが無いとする。
【0056】
ステップS28では、上記ステップS23でNOが判別された結果を受けて、典型的なピッチPtの80%〜120%の範囲で、最大ピーク値r's(Pt)を探す。つまり、既に求められている典型的なピッチPtに対して、0≦n<jの範囲でr's(n)を検索する。
【0057】
ステップS29は、上記ステップS28で探し出されたピッチを現フレームのピッチP0とする。
【0058】
このように、フレーム単位で、帯域制限された周波数帯域毎に、過去のフレームで算出されたピッチを基に現フレームのピッチを決定して、評価パラメータを算出し、この評価パラメータに基づいて基となるピッチを決定した後に、この過去から決定された現フレームのピッチを、過去フレームのピッチ、現フレームのピッチ、及び未来フレームのピッチを基に決定することにより、現フレームのピッチを正確なものとする。
【0059】
また、図1及び図2で示したピッチサーチ装置の他の実施の形態を図5に示す。図5のピッチサーチ装置では、現フレームピッチ算出部60において、現フレームの周波数帯域制限を行った後にフレーム区分を行った、このフレーム単位の入力音声信号のパラメータを求めると共に、他フレームピッチ算出部61において、他フレームの周波数帯域制限を行った後にフレーム区分を行った、このフレーム単位の入力音声信号のパラメータを求め、これらのパラメータを比較して、現フレームのピッチを求める。
【0060】
尚、自己相関算出部42、47、52、57は、図2の自己相関算出部13、17と同様の処理を行い、ピッチ強度/ピッチラグ算出部43、48、53、58は、図2のピッチ強度/ピッチラグ算出部14、18と同様の処理を行い、評価パラメータ算出部44、49、54、59は、図2の評価パラメータ算出部15、19と同様の処理を行い、選択部33、34は、図2の選択部20と同様の処理を行い、比較検出部35は、図1の比較検出部5と同様の処理を行い、ピッチ決定部36は、図1のピッチ決定部6と同様の処理を行う。
【0061】
先ず、入力端子31から入力される現フレームの音声信号は、HPF40及びLPF45でそれぞれ周波数帯域を制限し、フレーム区分部41、46でフレーム単位に区分して、フレーム単位の入力音声信号として出力する。そして、自己相関算出部42、47でそれぞれ自己相関データを算出し、ピッチ強度/ピッチラグ算出部43、48でそれぞれピッチ強度及びピッチラグを算出し、評価パラメータ算出部44、49でそれぞれ評価パラメータであるピッチ強度の比較値を算出する。さらに、選択部33で、ピッチラグや評価パラメータ等を用いて、HPF40で周波数帯域制限された入力音声信号のパラメータ及びLPF45で周波数帯域制限された入力音声信号のパラメータの内のいずれか一方のパラメータを選択する。
【0062】
同様にして、入力端子32から入力される他フレームの音声信号は、HPF50及びLPF55でそれぞれ周波数帯域を制限し、フレーム区分部51、56でフレーム単位に区分して、フレーム単位の入力音声信号として出力する。そして、自己相関算出部52、57でそれぞれ自己相関データを算出し、ピッチ強度/ピッチラグ算出部53、58でそれぞれピッチ強度及びピッチラグを算出し、評価パラメータ算出部54、59でそれぞれ評価パラメータであるピッチ強度の比較値を算出する。さらに、選択部34で、ピッチラグや評価パラメータ等を用いて、HPF50で周波数帯域制限された入力音声信号のパラメータ及びLPF55で周波数帯域制限された入力音声信号のパラメータの内のいずれか一方のパラメータを選択する。
【0063】
上記比較検出部35では、上記現フレームピッチ算出部60で検出されたピークが、上記他フレームピッチ算出部61で算出されたピッチに対して、所定の関係を満たすピッチ範囲内にあるか否かを比較し、この範囲内にあるときにピークを検出する。上記ピッチ決定部36では、上記比較検出部35で比較検出されたピークから現フレームのピッチを決定する。
【0064】
尚、上記フレーム単位の音声信号に対してLPC(Linear Predictive Coding: 線形予測符号化)を行い、得られる短期予測残差、即ちLPC(線形予測符号化)残差を用いてピッチを算出することにより、より正確なピッチ抽出を行うことができる。
【0065】
また、表1に示す判別処理及び判別処理に用いる定数は一例であり、より正確なパラメータを選択するために、表1に示す判別処理以外の判別処理を用いたり、定数として他の値を用いたりしてもよい。
【0066】
また、上述のピッチ抽出装置では、フレーム単位の音声信号の周波数帯域を、HPF及びLPFを用いて2つの周波数帯域に制限して、最適なピッチを選択しているが、音声信号の周波数帯域の制限は2つに限られることはなく、3つ以上の異なる周波数帯域に制限し、各周波数帯域の音声信号のピッチをそれぞれ算出して、最適なピッチを選択するようにしてもよい。このとき、表1に示す判別処理の代わりに、3つ以上の異なる周波数帯域の入力音声信号のパラメータを選択するための他の判別処理を用いる。
【0067】
次に、上述のピッチサーチ装置を音声信号符号化装置に適用した実施の形態について、図面を用いて説明する。
【0068】
図6に示す音声信号符号化装置は、入力音声信号の短期予測残差、例えばLPC(線形予測符号化)残差を求めて、サイン波分析(sinusoidal analysis)符号化、例えばハーモニックコーディング(harmonic coding)を行い、入力音声信号に対して位相伝送を行う波形符号化により符号化し、入力信号の有声音(V:Voiced)の部分及び無声音(UV:Unvoiced)の部分をそれぞれ符号化するものである。
【0069】
この図6に示された音声信号符号化装置において、入力端子101に供給された音声信号は、ハイパスフィルタ(HPF)109にて不要な帯域の信号を除去するフィルタ処理が施された後、LPC(線形予測符号化)分析・量子化部113のLPC分析回路132と、LPC逆フィルタ回路111とに送られる。
【0070】
LPC分析・量子化部113のLPC分析回路132は、入力信号波形の256サンプル程度の長さを1ブロックとしてハミング窓をかけて、自己相関法により線形予測係数、いわゆるαパラメータを求める。データ出力の単位となるフレーミングの間隔は、160サンプル程度とする。サンプリング周波数fsが例えば8kHzのとき、1フレーム間隔は160サンプルで20msec となる。
【0071】
LPC分析回路132からのαパラメータは、α→LSP変換回路133に送られて、線スペクトル対(LSP)パラメータに変換される。これは、直接型のフィルタ係数として求まったαパラメータを、例えば10個、すなわち5対のLSPパラメータに変換する。変換は例えばニュートン−ラプソン法等を用いて行う。このLSPパラメータに変換するのは、αパラメータよりも補間特性に優れているからである。
【0072】
α→LSP変換回路133からのLSPパラメータは、LSP量子化器134によりマトリクスあるいはベクトル量子化される。このとき、フレーム間差分をとってからベクトル量子化してもよく、複数フレーム分をまとめてマトリクス量子化してもよい。ここでは、20msec を1フレームとし、20msec 毎に算出されるLSPパラメータを2フレーム分まとめて、マトリクス量子化及びベクトル量子化している。
【0073】
このLSP量子化器134からの量子化出力、すなわちLSP量子化のインデクスは、端子102を介して取り出され、また量子化済みのLSPベクトルは、LSP補間回路136に送られる。
【0074】
LSP補間回路136は、上記20msec あるいは40msec 毎に量子化されたLSPのベクトルを補間し、8倍のレートにする。すなわち、2.5msec 毎にLSPベクトルが更新されるようにする。これは、残差波形をハーモニック符号化復号化方法により分析合成すると、その合成波形のエンベロープは非常になだらかでスムーズな波形になるため、LPC係数が20msec 毎に急激に変化すると異音を発生することがあるからである。すなわち、2.5msec 毎にLPC係数が徐々に変化してゆくようにすれば、このような異音の発生を防ぐことができる。
【0075】
このような補間が行われた2.5msec 毎のLSPベクトルを用いて入力音声の逆フィルタリングを実行するために、LSP→α変換回路137により、LSPパラメータを例えば10次程度の直接型フィルタの係数であるαパラメータに変換する。このLSP→α変換回路137からの出力は、上記LPC逆フィルタ回路111に送られ、このLPC逆フィルタ111では、2.5msec 毎に更新されるαパラメータにより逆フィルタリング処理を行って、滑らかな出力を得るようにしている。このLPC逆フィルタ111からの出力は、サイン波分析符号化部114、具体的には例えばハーモニック符号化回路、の直交変換回路145、例えばDFT(離散フーリエ変換)回路に送られる。
【0076】
LPC分析・量子化部113のLPC分析回路132からのαパラメータは、聴覚重み付けフィルタ算出回路139に送られて聴覚重み付けのためのデータが求められ、この重み付けデータが後述する聴覚重み付きのベクトル量子化器116と、第2の符号化部120の聴覚重み付けフィルタ125及び聴覚重み付きの合成フィルタ122とに送られる。
【0077】
ハーモニック符号化回路等のサイン波分析符号化部114では、LPC逆フィルタ111からの出力を、ハーモニック符号化の方法で分析する。すなわち、ピッチ検出、各ハーモニクスの振幅Amの算出、有声音(V)/無声音(UV)の判別を行い、ピッチによって変化するハーモニクスのエンベロープあるいは振幅Amの個数を次元変換して一定数にしている。
【0078】
図6に示すサイン波分析符号化部114の具体例においては、一般のハーモニック符号化を想定しているが、特に、MBE(Multiband Excitation: マルチバンド励起)符号化の場合には、同時刻(同じブロックあるいはフレーム内)の周波数軸領域いわゆるバンド毎に有声音(Voiced)部分と無声音(Unvoiced)部分とが存在するという仮定でモデル化することになる。それ以外のハーモニック符号化では、1ブロックあるいはフレーム内の音声が有声音か無声音かの択一的な判定がなされることになる。なお、以下の説明中のフレーム毎のV/UVとは、MBE符号化に適用した場合には全バンドがUVのときを当該フレームのUVとしている。
【0079】
図6のサイン波分析符号化部114のオープンループピッチサーチ部141には、上記入力端子101からの入力音声信号が、またゼロクロスカウンタ142には、上記HPF(ハイパスフィルタ)109からの信号がそれぞれ供給されている。サイン波分析符号化部114の直交変換回路145には、LPC逆フィルタ111からのLPC残差あるいは線形予測残差が供給されている。このオープンループピッチサーチ部141は、上述の本発明に係るピッチサーチ装置の実施の形態を用いたものであり、このオープンループピッチサーチ部141では、入力信号のLPC残差をとってオープンループによる比較的ラフなピッチのサーチが行われ、抽出された粗ピッチデータは高精度ピッチサーチ146に送られて、後述するようなクローズドループによる高精度のピッチサーチ(ピッチのファインサーチ)が行われる。また、オープンループピッチサーチ部141からは、上記粗ピッチデータと共にLPC残差の自己相関の最大値をパワーで正規化した正規化自己相関最大値r(p) が取り出され、V/UV(有声音/無声音)判定部115に送られている。
【0080】
直交変換回路145では例えばDFT(離散フーリエ変換)等の直交変換処理が施されて、時間軸上のLPC残差が周波数軸上のスペクトル振幅データに変換される。この直交変換回路145からの出力は、高精度ピッチサーチ部146及びスペクトル振幅あるいはエンベロープを評価するためのスペクトル評価部148に送られる。
【0081】
高精度(ファイン)ピッチサーチ部146には、オープンループピッチサーチ部141で抽出された比較的ラフな粗ピッチデータと、直交変換部145により例えばDFTされた周波数軸上のデータとが供給されている。この高精度ピッチサーチ部146では、上記粗ピッチデータ値を中心に、0.2〜0.5きざみで±数サンプルずつ振って、最適な小数点付き(フローティング)のファインピッチデータの値へ追い込む。このときのファインサーチの手法として、いわゆる合成による分析 (Analysis by Synthesis)法を用い、合成されたパワースペクトルが原音のパワースペクトルに最も近くなるようにピッチを選んでいる。このようなクローズドループによる高精度のピッチサーチ部146からのピッチデータについては、スイッチ118を介して出力端子104に送っている。
【0082】
スペクトル評価部148では、LPC残差の直交変換出力としてのスペクトル振幅及びピッチに基づいて各ハーモニクスの大きさ及びその集合であるスペクトルエンベロープが評価され、高精度ピッチサーチ部146、V/UV(有声音/無声音)判定部115及び聴覚重み付きのベクトル量子化器116に送られる。
【0083】
V/UV(有声音/無声音)判定部115は、直交変換回路145からの出力と、高精度ピッチサーチ部146からの最適ピッチと、スペクトル評価部148からのスペクトル振幅データと、オープンループピッチサーチ部141からの正規化自己相関最大値r(p) と、ゼロクロスカウンタ412からのゼロクロスカウント値とに基づいて、当該フレームのV/UV判定が行われる。さらに、MBEの場合の各バンド毎のV/UV判定結果の境界位置も当該フレームのV/UV判定の一条件としてもよい。このV/UV判定部115からの判定出力は、出力端子105を介して取り出される。
【0084】
ところで、スペクトル評価部148の出力部あるいはベクトル量子化器116の入力部には、データ数変換(一種のサンプリングレート変換)部が設けられている。このデータ数変換部は、上記ピッチに応じて周波数軸上での分割帯域数が異なり、データ数が異なることを考慮して、エンベロープの振幅データ|Am| を一定の個数にするためのものである。すなわち、例えば有効帯域を3400kHzまでとすると、この有効帯域が上記ピッチに応じて、8バンド〜63バンドに分割されることになり、これらの各バンド毎に得られる上記振幅データ|Am| の個数mMX+1も8〜63と変化することになる。このためデータ数変換部119では、この可変個数mMX+1の振幅データを一定個数M個、例えば44個、のデータに変換している。
【0085】
このスペクトル評価部148の出力部あるいはベクトル量子化器116の入力部に設けられたデータ数変換部からの上記一定個数M個(例えば44個)の振幅データあるいはエンベロープデータが、ベクトル量子化器116により、所定個数、例えば44個のデータ毎にまとめられてベクトルとされ、重み付きベクトル量子化が施される。この重みは、聴覚重み付けフィルタ算出回路139からの出力により与えられる。ベクトル量子化器116からの上記エンベロープのインデクスは、スイッチ117を介して出力端子103より取り出される。なお、上記重み付きベクトル量子化に先だって、所定個数のデータから成るベクトルについて適当なリーク係数を用いたフレーム間差分をとっておくようにしてもよい。
【0086】
次に、第2の符号化部120について説明する。第2の符号化部120は、いわゆるCELP(符号励起線形予測)符号化構成を有しており、特に、入力音声信号の無声音部分の符号化のために用いられている。この無声音部分用のCELP符号化構成において、雑音符号帳、いわゆるストキャスティック・コードブック(stochastic code book)121からの代表値出力である無声音のLPC残差に相当するノイズ出力を、ゲイン回路126を介して、聴覚重み付きの合成フィルタ122に送っている。重み付きの合成フィルタ122では、入力されたノイズをLPC合成処理し、得られた重み付き無声音の信号を減算器123に送っている。減算器123には、上記入力端子101からHPF(ハイパスフィルタ)109を介して供給された音声信号を聴覚重み付けフィルタ125で聴覚重み付けした信号が入力されており、合成フィルタ122からの信号との差分あるいは誤差を取り出している。この誤差を距離計算回路124に送って距離計算を行い、誤差が最小となるような代表値ベクトルを雑音符号帳121でサーチする。このような合成による分析(Analysis by Synthesis )法を用いたクローズドループサーチを用いた時間軸波形のベクトル量子化を行っている。
【0087】
このCELP符号化構成を用いた第2の符号化部120からのUV(無声音)部分用のデータとしては、雑音符号帳121からのコードブックのシェイプインデクスと、ゲイン回路126からのコードブックのゲインインデクスとが取り出される。雑音符号帳121からのUVデータであるシェイプインデクスは、スイッチ127sを介して出力端子107sに送られ、ゲイン回路126のUVデータであるゲインインデクスは、スイッチ127gを介して出力端子107gに送られている。
【0088】
ここで、これらのスイッチ127s、127g及び上記スイッチ117、118は、上記V/UV判定部115からのV/UV判定結果によりオン/オフ制御され、スイッチ117、118は、現在伝送しようとするフレームの音声信号のV/UV判定結果が有声音(V)のときオンとなり、スイッチ127s、127gは、現在伝送しようとするフレームの音声信号が無声音(UV)のときオンとなる。
【0089】
【発明の効果】
以上の説明からも明かなように、本発明に係るピッチ抽出装置及びピッチ抽出方法は、入力音声信号を複数の異なる周波数帯域に制限し、上記各周波数帯域の音声信号毎の、所定単位の自己相関データからピークを検出してピッチ強度を求め、ピッチ周期を算出し、また、上記ピッチ強度を用いて、ピッチ強度の信頼度を示す評価パラメータを算出し、上記ピッチ周期及び上記評価パラメータに基づいて、上記複数の異なる周波数帯域の音声信号の内の1つの周波数帯域の音声信号のピッチを選択することにより、様々な特性を持つ音声信号のピッチを正確に抽出して、高精度なピッチサーチを行うことができる。
【図面の簡単な説明】
【図1】本発明に係るピッチ抽出装置を用いたピッチサーチ装置の実施の形態の概略的な構成図である。
【図2】本発明に係るピッチ抽出装置の概略的な構成図である。
【図3】ピッチサーチ処理を説明するためのフローチャートである。
【図4】図3のピッチサーチ処理に続くピッチサーチ処理のフローチャートである。
【図5】他のピッチサーチ装置の概略的な構成図である。
【図6】本発明に係るピッチサーチ装置を適用した音声信号符号化装置の概略的な構成図である。
【符号の説明】
2 フレーム区分部、 3 現フレームピッチ算出部、 4 他フレームピッチ算出部、 5 比較検出部、 6 ピッチ決定部、 12 HPF、 16 LPF、 13,17 自己相関算出部、 14,18 ピッチ強度/ピッチラグ算出部、 15,19 評価パラメータ算出部、 20 選択部
Claims (12)
- 入力音声信号を複数の異なる周波数帯域に制限するフィルタ手段と、
上記フィルタ手段からの各周波数帯域の音声信号毎に、所定単位の自己相関データを算出する自己相関算出手段と、
上記自己相関算出手段からの自己相関データからピークを検出して、ピッチ強度を求め、ピッチ周期を算出するピッチ周期算出手段と、
上記自己相関算出手段からの自己相関データのピークの値を大きい順に並べ換えた関数を順次r(0)、r(1)、r(2)、・・・とし、r(1)、r(2)、・・・をr(0)で除算することにより正規化した関数をr ' (1)、r ' (2)、・・・とするとき、r ' (1)とr ' (2)との比を求めることにより、ピッチ強度の信頼度を示す評価パラメータを算出する評価パラメータ算出手段と、
上記ピッチ周期算出手段からのピッチ周期及び上記評価パラメータ算出手段からの評価パラメータに基づいて、上記複数の異なる周波数帯域の音声信号の内の1つの周波数帯域の音声信号のピッチを選択する選択手段と
を備えて成ることを特徴とするピッチ抽出装置。 - 上記フィルタ手段では、ハイパスフィルタ及びローパスフィルタを用い、2つの周波数帯域に制限された音声信号を出力することを特徴とする請求項1記載のピッチ抽出装置。
- 上記フィルタ手段には、フレーム単位の音声信号を入力することを特徴とする請求項1記載のピッチ抽出装置。
- 上記フィルタ手段では、ハイパスフィルタ及びローパスフィルタを用い、2つの周波数帯域に制限された音声信号を出力することを特徴とする請求項3記載のピッチ抽出装置。
- 上記フィルタ手段で、複数の周波数帯域に制限された音声信号を、フレーム単位で出力することを特徴とする請求項1記載のピッチ抽出装置。
- 上記フィルタ手段では、ハイパスフィルタ及びローパスフィルタを用い、2つの周波数帯域に制限された音声信号を、フレーム単位で出力することを特徴とする請求項5記載のピッチ抽出装置。
- 上記フィルタ手段では、少なくとも1つのローパスフィルタを用いることを特徴とする請求項1記載のピッチ抽出装置。
- 上記フィルタ手段では、上記ローパスフィルタで高域が除去された信号と上記入力音声信号とを出力することを特徴とする請求項7記載のピッチ抽出装置。
- 入力音声信号を複数の異なる周波数帯域に制限するフィルタ工程と、
上記各周波数帯域の音声信号毎に、所定単位の自己相関データを算出する自己相関算出工程と、
上記自己相関データからピークを検出して、ピッチ強度を求め、ピッチ周期を算出するピッチ周期算出工程と、
上記自己相関データのピークの値を大きい順に並べ換えた関数を順次r(0)、r(1)、r(2)、・・・とし、r(1)、r(2)、・・・をr(0)で除算することにより正規化した関数をr ' (1)、r ' (2)、・・・とするとき、r ' (1)とr ' (2)との比を求めることにより、ピッチ強度の信頼度を示す評価パラメータを算出する評価パラメータ算出工程と、
上記ピッチ周期及び上記評価パラメータに基づいて、上記複数の異なる周波数帯域の音声信号の内の1つの周波数帯域の音声信号のピッチを選択する選択工程と
を有して成ることを特徴とするピッチ抽出方法。 - 上記フィルタ工程では、ハイパスフィルタ及びローパスフィルタを用い、2つの周波数帯域に制限された音声信号を出力することを特徴とする請求項9記載のピッチ抽出方法。
- 上記フィルタ工程では、少なくとも1つのローパスフィルタを用いることを特徴とする請求項9記載のピッチ抽出方法。
- 上記フィルタ工程では、上記ローパスフィルタで高域が除去された信号と上記入力音声信号とを出力することを特徴とする請求項11記載のピッチ抽出方法。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP01643396A JP3840684B2 (ja) | 1996-02-01 | 1996-02-01 | ピッチ抽出装置及びピッチ抽出方法 |
US08/788,194 US5930747A (en) | 1996-02-01 | 1997-01-24 | Pitch extraction method and device utilizing autocorrelation of a plurality of frequency bands |
MYPI97000322A MY120918A (en) | 1996-02-01 | 1997-01-28 | Pitch extraction method and device utilizing autocorrelation of a plurality of frequency bands. |
KR1019970002641A KR100421817B1 (ko) | 1996-02-01 | 1997-01-29 | 음성의피치추출방법및장치 |
CNB971031762A CN1146862C (zh) | 1996-02-01 | 1997-02-01 | 音调提取方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP01643396A JP3840684B2 (ja) | 1996-02-01 | 1996-02-01 | ピッチ抽出装置及びピッチ抽出方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH09212194A JPH09212194A (ja) | 1997-08-15 |
JP3840684B2 true JP3840684B2 (ja) | 2006-11-01 |
Family
ID=11916109
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP01643396A Expired - Fee Related JP3840684B2 (ja) | 1996-02-01 | 1996-02-01 | ピッチ抽出装置及びピッチ抽出方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US5930747A (ja) |
JP (1) | JP3840684B2 (ja) |
KR (1) | KR100421817B1 (ja) |
CN (1) | CN1146862C (ja) |
MY (1) | MY120918A (ja) |
Families Citing this family (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1999038156A1 (fr) * | 1998-01-26 | 1999-07-29 | Matsushita Electric Industrial Co., Ltd. | Methode et dispositif d'accentuation de registre |
GB9811019D0 (en) * | 1998-05-21 | 1998-07-22 | Univ Surrey | Speech coders |
US6415252B1 (en) * | 1998-05-28 | 2002-07-02 | Motorola, Inc. | Method and apparatus for coding and decoding speech |
US7072832B1 (en) * | 1998-08-24 | 2006-07-04 | Mindspeed Technologies, Inc. | System for speech encoding having an adaptive encoding arrangement |
US6418407B1 (en) * | 1999-09-30 | 2002-07-09 | Motorola, Inc. | Method and apparatus for pitch determination of a low bit rate digital voice message |
WO2001078061A1 (en) * | 2000-04-06 | 2001-10-18 | Telefonaktiebolaget Lm Ericsson (Publ) | Pitch estimation in a speech signal |
US6640208B1 (en) * | 2000-09-12 | 2003-10-28 | Motorola, Inc. | Voiced/unvoiced speech classifier |
DE10123366C1 (de) * | 2001-05-14 | 2002-08-08 | Fraunhofer Ges Forschung | Vorrichtung zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen |
KR100393899B1 (ko) | 2001-07-27 | 2003-08-09 | 어뮤즈텍(주) | 2-단계 피치 판단 방법 및 장치 |
DE60234195D1 (de) * | 2001-08-31 | 2009-12-10 | Kenwood Corp | Vorrichtung und verfahren zum erzeugen eines tonhöhen-kurvenformsignals und vorrichtung und verfahren zum komprimieren, dekomprimieren und synthetisieren eines sprachsignals damit |
KR100463417B1 (ko) * | 2002-10-10 | 2004-12-23 | 한국전자통신연구원 | 상관함수의 최대값과 그의 후보값의 비를 이용한 피치검출 방법 및 그 장치 |
US6988064B2 (en) * | 2003-03-31 | 2006-01-17 | Motorola, Inc. | System and method for combined frequency-domain and time-domain pitch extraction for speech signals |
KR100590561B1 (ko) * | 2004-10-12 | 2006-06-19 | 삼성전자주식회사 | 신호의 피치를 평가하는 방법 및 장치 |
ATE480851T1 (de) * | 2004-10-28 | 2010-09-15 | Panasonic Corp | Skalierbare codierungsvorrichtung, skalierbare decodierungsvorrichtung und verfahren dafür |
CN1848240B (zh) * | 2005-04-12 | 2011-12-21 | 佳能株式会社 | 基于离散对数傅立叶变换的基音检测方法、设备和介质 |
KR100634572B1 (ko) * | 2005-04-25 | 2006-10-13 | (주)가온다 | 오디오 데이터 자동 생성 방법 및 이를 이용한 사용자단말기 및 기록매체 |
CA2611259C (en) * | 2005-06-09 | 2016-03-22 | A.G.I. Inc. | Speech analyzer detecting pitch frequency, speech analyzing method, and speech analyzing program |
JP4738260B2 (ja) * | 2005-12-20 | 2011-08-03 | 日本電信電話株式会社 | 予測遅延探索方法、その方法を用いた装置、プログラム、および記録媒体 |
KR100724736B1 (ko) | 2006-01-26 | 2007-06-04 | 삼성전자주식회사 | 스펙트럴 자기상관치를 이용한 피치 검출 방법 및 피치검출 장치 |
JP4632136B2 (ja) * | 2006-03-31 | 2011-02-16 | 富士フイルム株式会社 | 楽曲テンポ抽出方法、装置及びプログラム |
KR100735343B1 (ko) * | 2006-04-11 | 2007-07-04 | 삼성전자주식회사 | 음성신호의 피치 정보 추출장치 및 방법 |
DE602006015328D1 (de) * | 2006-11-03 | 2010-08-19 | Psytechnics Ltd | Abtastfehlerkompensation |
JP5040313B2 (ja) * | 2007-01-05 | 2012-10-03 | 株式会社Jvcケンウッド | 音声信号処理装置、音声信号処理方法、および、音声信号処理プログラム |
US20110301946A1 (en) * | 2009-02-27 | 2011-12-08 | Panasonic Corporation | Tone determination device and tone determination method |
US8620646B2 (en) * | 2011-08-08 | 2013-12-31 | The Intellisis Corporation | System and method for tracking sound pitch across an audio signal using harmonic envelope |
CN103165133A (zh) * | 2011-12-13 | 2013-06-19 | 联芯科技有限公司 | 一种最大相关系数的优化方法及其装置 |
US8645128B1 (en) * | 2012-10-02 | 2014-02-04 | Google Inc. | Determining pitch dynamics of an audio signal |
EP3306609A1 (en) * | 2016-10-04 | 2018-04-11 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for determining a pitch information |
CN109448749B (zh) * | 2018-12-19 | 2022-02-15 | 中国科学院自动化研究所 | 基于有监督学习听觉注意的语音提取方法、系统、装置 |
CN110379438B (zh) * | 2019-07-24 | 2020-05-12 | 山东省计算中心(国家超级计算济南中心) | 一种语音信号基频检测与提取方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3617636A (en) * | 1968-09-24 | 1971-11-02 | Nippon Electric Co | Pitch detection apparatus |
-
1996
- 1996-02-01 JP JP01643396A patent/JP3840684B2/ja not_active Expired - Fee Related
-
1997
- 1997-01-24 US US08/788,194 patent/US5930747A/en not_active Expired - Lifetime
- 1997-01-28 MY MYPI97000322A patent/MY120918A/en unknown
- 1997-01-29 KR KR1019970002641A patent/KR100421817B1/ko not_active IP Right Cessation
- 1997-02-01 CN CNB971031762A patent/CN1146862C/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN1165365A (zh) | 1997-11-19 |
KR100421817B1 (ko) | 2004-08-09 |
MY120918A (en) | 2005-12-30 |
KR970061590A (ko) | 1997-09-12 |
CN1146862C (zh) | 2004-04-21 |
JPH09212194A (ja) | 1997-08-15 |
US5930747A (en) | 1999-07-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3840684B2 (ja) | ピッチ抽出装置及びピッチ抽出方法 | |
JP3277398B2 (ja) | 有声音判別方法 | |
EP1738355B1 (en) | Signal encoding | |
JP3557662B2 (ja) | 音声符号化方法及び音声復号化方法、並びに音声符号化装置及び音声復号化装置 | |
JP2002023800A (ja) | マルチモード音声符号化装置及び復号化装置 | |
JP3687181B2 (ja) | 有声音/無声音判定方法及び装置、並びに音声符号化方法 | |
US6243672B1 (en) | Speech encoding/decoding method and apparatus using a pitch reliability measure | |
KR100526829B1 (ko) | 음성부호화방법및장치음성복호화방법및장치 | |
JPH10124094A (ja) | 音声分析方法、音声符号化方法および装置 | |
US6012023A (en) | Pitch detection method and apparatus uses voiced/unvoiced decision in a frame other than the current frame of a speech signal | |
JP2779325B2 (ja) | ボコーダーにおける前処理の相関関係式を用いたピッチ検索時間短縮方法 | |
JPH0792998A (ja) | 音声信号の符号化方法及び復号化方法 | |
JP3398968B2 (ja) | 音声分析合成方法 | |
JP3321933B2 (ja) | ピッチ検出方法 | |
JP3271193B2 (ja) | 音声符号化方法 | |
JP3223564B2 (ja) | ピッチ抽出方法 | |
JPH0650440B2 (ja) | Lsp型パタンマツチングボコ−ダ | |
JP3221050B2 (ja) | 有声音判別方法 | |
JP3571448B2 (ja) | 音声信号のピッチ検出方法および装置 | |
JPH05265489A (ja) | ピッチ抽出方法 | |
KR100757366B1 (ko) | Zinc 함수를 이용한 음성 부호화기 및 그의 표준파형추출 방법 | |
JPH07104793A (ja) | 音声信号の符号化装置及び復号化装置 | |
Zhang et al. | A 2400 bps improved MBELP vocoder | |
JPH07104777A (ja) | ピッチ検出方法及び音声分析合成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20041029 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20041124 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050124 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050712 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050908 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060718 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060731 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100818 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110818 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110818 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120818 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120818 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130818 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |