JPS6068000A - ピッチ抽出装置 - Google Patents
ピッチ抽出装置Info
- Publication number
- JPS6068000A JPS6068000A JP58175454A JP17545483A JPS6068000A JP S6068000 A JPS6068000 A JP S6068000A JP 58175454 A JP58175454 A JP 58175454A JP 17545483 A JP17545483 A JP 17545483A JP S6068000 A JPS6068000 A JP S6068000A
- Authority
- JP
- Japan
- Prior art keywords
- pitch
- pitch period
- period
- voiced
- waveform
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 claims description 21
- 230000008859 change Effects 0.000 claims description 15
- 238000000034 method Methods 0.000 claims description 14
- 230000002123 temporal effect Effects 0.000 claims description 7
- 239000011295 pitch Substances 0.000 description 142
- 238000001514 detection method Methods 0.000 description 9
- 230000001052 transient effect Effects 0.000 description 9
- 230000005540 biological transmission Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 8
- 239000000523 sample Substances 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 230000001788 irregular Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 241001120493 Arene Species 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 150000004945 aromatic hydrocarbons Chemical class 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Landscapes
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Working-Up Tar And Pitch (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
本発明は音声のピッチ周期を抽出するだめのピッチ抽出
装置に関し、殊に可変長フレーム型ボコーダ等に必要な
実時間ピッチ抽出を可能としたピッチ抽出装置に係る。
装置に関し、殊に可変長フレーム型ボコーダ等に必要な
実時間ピッチ抽出を可能としたピッチ抽出装置に係る。
音声波形における有声音部分は周期的な繰シ返し波形を
持ちその周期(ピッチ周期)の変化特性は音声の分析合
成、認識等における重要なパラメータであることが知ら
れている。例えば、音声の分析合成系においては分析部
で抽出されるピッチ抽出結果が合成部において合成され
る合成音の品質に大きな影響を及ぼす。
持ちその周期(ピッチ周期)の変化特性は音声の分析合
成、認識等における重要なパラメータであることが知ら
れている。例えば、音声の分析合成系においては分析部
で抽出されるピッチ抽出結果が合成部において合成され
る合成音の品質に大きな影響を及ぼす。
音声波形のピッチ周期の抽出方法としては、従来、ピッ
チ周期程度の時間長を持つフレーム毎に自己相関係数を
算出し抽出する方法等、種々の分析パラメータを用りる
方法が知られている。
チ周期程度の時間長を持つフレーム毎に自己相関係数を
算出し抽出する方法等、種々の分析パラメータを用りる
方法が知られている。
自己相関係数に基づくピッチ抽出法は、自己相関係数が
時間領域内の処理でめ得る点と、被分析波形とフレーム
との位相の影響が比較的に小さい点とから広く用いられ
る。しかしながら自己相関係数に基づくピッチ抽出法は
、後述するようにピッチ周期の整数倍、又はピッチ周期
のN 1 /N 2倍の周期をピッチ周期として誤って
検出することが多いという欠点を有している。(但しN
l、N2は整数であシ、Nl<N2である)。前記欠点
の発生する被分析波形を、その波形形状から分類すると
、いわゆる有声音定常部と語頭等の有声音過渡部とに大
別される。
時間領域内の処理でめ得る点と、被分析波形とフレーム
との位相の影響が比較的に小さい点とから広く用いられ
る。しかしながら自己相関係数に基づくピッチ抽出法は
、後述するようにピッチ周期の整数倍、又はピッチ周期
のN 1 /N 2倍の周期をピッチ周期として誤って
検出することが多いという欠点を有している。(但しN
l、N2は整数であシ、Nl<N2である)。前記欠点
の発生する被分析波形を、その波形形状から分類すると
、いわゆる有声音定常部と語頭等の有声音過渡部とに大
別される。
有声音定常部に前記欠点が発生ずる一つの原因は被分析
波形の定常性が著しく強いことである。
波形の定常性が著しく強いことである。
なぜならば、いわゆる有声音定常部は、例えば数百m8
Bc程度の比較的に長時間について観察するならば、そ
のピッチ周期を一単位とする波形素片は、ピッチ周期、
波形素片共に、除々に変化していることが認められてい
る。しかし、有声音定常部の種々のセグメントについて
、フレーム周期毎に切出される波形の時間長(例えば3
0m5EC)程度の比較的に短時間に限定して観察する
と、その波形は、はぼ完全な定常性、すなわち周期性を
示すことがしばしばある。例えば正弦波の自己相関係数
波形が前記正弦波と同一周期を有する余弦波となる等、
よく知られている様に1定常性、すなわち周期性を有す
る波形の自己相関係数波形は周期性を有する。従ってフ
レーム周期毎に例えば30m5Ec程度の時間長で切シ
出される波形がほぼ完全な定常性すなわち周期性を示す
場合には、その自己相関係数波形は、はぼ完全な周期性
を示す。故に例えば第1図に示す様にピッチ周期におけ
る良己相関係数の極大値101と倍ピツチ周期における
極大値102とがほとんど等しくなり、演算精度や、わ
ずかな外乱等の影響でピッチ周期における極大値101
よシも倍ピツチ周期における極大値102が大きくなる
ことが頻繁に発生するからである。
Bc程度の比較的に長時間について観察するならば、そ
のピッチ周期を一単位とする波形素片は、ピッチ周期、
波形素片共に、除々に変化していることが認められてい
る。しかし、有声音定常部の種々のセグメントについて
、フレーム周期毎に切出される波形の時間長(例えば3
0m5EC)程度の比較的に短時間に限定して観察する
と、その波形は、はぼ完全な定常性、すなわち周期性を
示すことがしばしばある。例えば正弦波の自己相関係数
波形が前記正弦波と同一周期を有する余弦波となる等、
よく知られている様に1定常性、すなわち周期性を有す
る波形の自己相関係数波形は周期性を有する。従ってフ
レーム周期毎に例えば30m5Ec程度の時間長で切シ
出される波形がほぼ完全な定常性すなわち周期性を示す
場合には、その自己相関係数波形は、はぼ完全な周期性
を示す。故に例えば第1図に示す様にピッチ周期におけ
る良己相関係数の極大値101と倍ピツチ周期における
極大値102とがほとんど等しくなり、演算精度や、わ
ずかな外乱等の影響でピッチ周期における極大値101
よシも倍ピツチ周期における極大値102が大きくなる
ことが頻繁に発生するからである。
有声音定常部に前記欠点が発生する他の原因は被分析波
形の発声者において、例えば第1ポルマントの帯域中が
狭く、更に第1ホルマントの中心周波数がピッチ周波数
(ピッチ周期の逆数)の2倍等の整数倍の場合に、ピッ
チ周波数の例えば第2高調波が第1ホルマントと共撮し
、ピッチ周波数の2倍の周波数成券が極端に強調され被
分析波形の基本周波数が、あたかもピッチ周波数の2倍
となることに起因する。ピッチ周波数の2倍の周波数成
分が極端に強調された被分析波形の見かけ上の周期、す
なわち見かけ上の基本周波数の逆数が本来のピッチ周期
の1/2になると、被分析波形の自己相関係数波形は本
来のピッチ周期の1/2の周強で周期性を示す。故に例
えば第2図に示す様に、ホルマントとピッチとの共4辰
にょシ出現する自己相関係数の極大値201と本来のピ
ッチ周期における極太値202とがほとんど等しくなり
ピッチ周期の誤検出の原因となる。
形の発声者において、例えば第1ポルマントの帯域中が
狭く、更に第1ホルマントの中心周波数がピッチ周波数
(ピッチ周期の逆数)の2倍等の整数倍の場合に、ピッ
チ周波数の例えば第2高調波が第1ホルマントと共撮し
、ピッチ周波数の2倍の周波数成券が極端に強調され被
分析波形の基本周波数が、あたかもピッチ周波数の2倍
となることに起因する。ピッチ周波数の2倍の周波数成
分が極端に強調された被分析波形の見かけ上の周期、す
なわち見かけ上の基本周波数の逆数が本来のピッチ周期
の1/2になると、被分析波形の自己相関係数波形は本
来のピッチ周期の1/2の周強で周期性を示す。故に例
えば第2図に示す様に、ホルマントとピッチとの共4辰
にょシ出現する自己相関係数の極大値201と本来のピ
ッチ周期における極太値202とがほとんど等しくなり
ピッチ周期の誤検出の原因となる。
有声音過渡部に前記欠点が発生する原因は、有声音過渡
部はピッチ周期及び音声波形の形状の変化が大きく、か
つ比較的に不規則なことに起因する。ピッチ周期及び音
声波形の形状の変化が大きく、かつ比較的に不規則な被
分析波形の自己相関周期の整数倍の周期における自己相
関係数の極大値が比較的に不揃いとな9、しばしばピッ
チ周期における自己相関係数の極大値がピッチ周期の整
数倍周期における極大値よシ小さくなシ、いわゆる整数
倍ピッチ周期エラーが多く起る。
部はピッチ周期及び音声波形の形状の変化が大きく、か
つ比較的に不規則なことに起因する。ピッチ周期及び音
声波形の形状の変化が大きく、かつ比較的に不規則な被
分析波形の自己相関周期の整数倍の周期における自己相
関係数の極大値が比較的に不揃いとな9、しばしばピッ
チ周期における自己相関係数の極大値がピッチ周期の整
数倍周期における極大値よシ小さくなシ、いわゆる整数
倍ピッチ周期エラーが多く起る。
なお、有声音過渡部は7般に−2ツテ周彼数の変化が大
きく、ピッチ周波数の高調波とホルマント周波数との共
振による音声波形への影響は、有声音定常部における影
響と比較すると小さく、有声音過渡部におけるいわゆる
ホルマントピッチエラも −の発生頻度は有声音定常部における発光頻度よシ小さ
い。
きく、ピッチ周波数の高調波とホルマント周波数との共
振による音声波形への影響は、有声音定常部における影
響と比較すると小さく、有声音過渡部におけるいわゆる
ホルマントピッチエラも −の発生頻度は有声音定常部における発光頻度よシ小さ
い。
ピッチ検出工2−の影響が音声分析合成系における合成
音の品質に与える影響は、聴覚的には、有声音定常部に
おけるエラーが大きく、有声音過渡部における工2−の
影響は比較台に軽微である。
音の品質に与える影響は、聴覚的には、有声音定常部に
おけるエラーが大きく、有声音過渡部における工2−の
影響は比較台に軽微である。
従来、特に合成音の品質に大きな影響を与える有声音定
常部におけるピッチ検出エラーを軽減ないし除去するた
めに、種々の方法が試みられている。しかしながら従来
の方法は有声音の定常部と語頭等の過渡部とを一率に扱
っていたために、例えば語頭において、たまたまピッチ
検出誤りが発生すると、前記ピッチ検出MCが将来のピ
ッチ検出特性に悪影響を及ぼすという欠点を有している
。
常部におけるピッチ検出エラーを軽減ないし除去するた
めに、種々の方法が試みられている。しかしながら従来
の方法は有声音の定常部と語頭等の過渡部とを一率に扱
っていたために、例えば語頭において、たまたまピッチ
検出誤りが発生すると、前記ピッチ検出MCが将来のピ
ッチ検出特性に悪影響を及ぼすという欠点を有している
。
従来の方法として、例えば音声のピッチ周期の変化が比
較的にゆるやかであることを利用して相隣るフレームに
おけるピッチ周期の差分を、あらかじめ定められた範囲
内に限定してピッチ周期の抽出を行なうことによりピッ
チ周期の検出誤りを防ぐ方法が知られている。しかしな
がら、この様に検索範囲内に制限する方法、例えば第3
図に示すように基本ピッチ周期の曲1301上から1ゐ
出誤り等のだめ一度例えば2倍のピッチ周期を持つ倍ピ
ツチ周期曲線302上のいわゆる倍ピツチ周期を検出し
てしまうと、再び正しい基本ピッチ周期を検出すること
が困難となる欠点な持っている持にいわゆる語頭等の無
音部から有声音部に移行する場合、あるいは無声音部か
ら有声音部に移行する場合、には前記倍ピツチ周期をf
iって検出する危険性が大きい。
較的にゆるやかであることを利用して相隣るフレームに
おけるピッチ周期の差分を、あらかじめ定められた範囲
内に限定してピッチ周期の抽出を行なうことによりピッ
チ周期の検出誤りを防ぐ方法が知られている。しかしな
がら、この様に検索範囲内に制限する方法、例えば第3
図に示すように基本ピッチ周期の曲1301上から1ゐ
出誤り等のだめ一度例えば2倍のピッチ周期を持つ倍ピ
ツチ周期曲線302上のいわゆる倍ピツチ周期を検出し
てしまうと、再び正しい基本ピッチ周期を検出すること
が困難となる欠点な持っている持にいわゆる語頭等の無
音部から有声音部に移行する場合、あるいは無声音部か
ら有声音部に移行する場合、には前記倍ピツチ周期をf
iって検出する危険性が大きい。
前記欠点を緩和するために、過去数フレームで検出され
たピッチ周期からピッチの検索範囲を決定する場合には
、いわゆる語頭におけるピッチの検索範囲の決定が困難
であるていう欠点を有していた。
たピッチ周期からピッチの検索範囲を決定する場合には
、いわゆる語頭におけるピッチの検索範囲の決定が困難
であるていう欠点を有していた。
本発明の目的は自己相関係数等に基づいピッチ抽出を行
なうピッチ抽出装置において、ピッチ周期の検出誤りを
防止し、より確実に正しいピッチの検出を可能とするピ
ッチ抽出装置を提給することにある。
なうピッチ抽出装置において、ピッチ周期の検出誤りを
防止し、より確実に正しいピッチの検出を可能とするピ
ッチ抽出装置を提給することにある。
本発明のピッチ抽出装置は一定時間長のピッチ決定区間
を用い、且つ時間的過去に隣接するピッチ決だ区間に於
ける最も時間的に新しいピッチ周期を唯一の始点とし、
虹にピッチ周期の連続性をピッチ周期の変化率を拘束す
る目的でピッチ周期の変化率に対応する傾斜制限を有す
る動的計画法によυ評価する手段と、最適なピッチ周期
列をピッチ決定区間の終端における複数のピッチ周期列
候補から唯一度決定する手段から構成されている。
を用い、且つ時間的過去に隣接するピッチ決だ区間に於
ける最も時間的に新しいピッチ周期を唯一の始点とし、
虹にピッチ周期の連続性をピッチ周期の変化率を拘束す
る目的でピッチ周期の変化率に対応する傾斜制限を有す
る動的計画法によυ評価する手段と、最適なピッチ周期
列をピッチ決定区間の終端における複数のピッチ周期列
候補から唯一度決定する手段から構成されている。
次に図面を参照して本発明の詳細な説明する。
第4図は本発明の実施例を示すブロック図であシ、一点
鎖+%14013で曲まれだ部分は本発明の構成範囲を
示す。
鎖+%14013で曲まれだ部分は本発明の構成範囲を
示す。
波形入力端子4001を介して被分析音声波形がA/D
変換器4002へ供給される。A/D変換器4002け
前記音声減産を例えば3.4Khに帯域制限した後にB
Kllzで標本化し、更に各標本を12 bi、tsで
線形触子化する。A/D変換器4002は前記量子化音
声信号をウィンド処理器4003へ出力する。ウィンド
処理器4o O3は実施例に於いては240サンプル)
を一括して自己相関係数算出器4004と有声無声判別
器4005とへ出力する。なおウィンドウ処理器400
3よりの出力繰返し周期はピッチ抽出処理に於けるフレ
ーム周期と一致するものであり、その値q例えば10
m5Ecである。自己相関係数算出!4004は入力さ
れた240サンプルの音声信号から下記但しx (i)
は量子化音声サンプル、jは基準音声サプル数(本実施
例に於いては120)である。算出された自己相関係数
列は極大値検索器4006へ供給される極大値検索器4
006は前記係数列の極大値を検索し、更に極大匝及び
極大値に対応する遅延時間を検索結果として伝送路40
07を人1 ノT% T3 M+IIIJl 明I A
A O9…十、−hr T)l)加郁器4008は後
述の伝送路4009を介して供給される時間的過去に隣
接するピッチ決定区間に於ける最も時間的に新しいピッ
チ周期を唯一の始点とし、極大値検索器4006よシ伝
送器4007を介して供給される前記極太値及び極太値
に対応する遅延時間の最適なパルスをピッチ周期の変化
率に対応する傾斜制限を有する動的計画法を用いて、ピ
ッチ決定区間(本実施例では20アレーン、: 200
m5EC)について選択する。DP処処理媒4008更
に選択されたパス(即ち本実施例では20ケのピッチ周
期データ)をピッチ出力端子4010を介して出力する
。又DP処理器4008は前記パスを構成する最も時間
的に新しい、云い換えればパスの終端に於けるピッチ周
期データを伝送路4009を介してピッチメモリ401
1へ出力する。ピッチメモリ4011は前記ピッチ周期
データを一時的に記憶し、時間的未来に隣接するピッチ
決定区間におけるピッチ始点データとして伝送路400
9を介してDP処処理媒4008返却する。
変換器4002へ供給される。A/D変換器4002け
前記音声減産を例えば3.4Khに帯域制限した後にB
Kllzで標本化し、更に各標本を12 bi、tsで
線形触子化する。A/D変換器4002は前記量子化音
声信号をウィンド処理器4003へ出力する。ウィンド
処理器4o O3は実施例に於いては240サンプル)
を一括して自己相関係数算出器4004と有声無声判別
器4005とへ出力する。なおウィンドウ処理器400
3よりの出力繰返し周期はピッチ抽出処理に於けるフレ
ーム周期と一致するものであり、その値q例えば10
m5Ecである。自己相関係数算出!4004は入力さ
れた240サンプルの音声信号から下記但しx (i)
は量子化音声サンプル、jは基準音声サプル数(本実施
例に於いては120)である。算出された自己相関係数
列は極大値検索器4006へ供給される極大値検索器4
006は前記係数列の極大値を検索し、更に極大匝及び
極大値に対応する遅延時間を検索結果として伝送路40
07を人1 ノT% T3 M+IIIJl 明I A
A O9…十、−hr T)l)加郁器4008は後
述の伝送路4009を介して供給される時間的過去に隣
接するピッチ決定区間に於ける最も時間的に新しいピッ
チ周期を唯一の始点とし、極大値検索器4006よシ伝
送器4007を介して供給される前記極太値及び極太値
に対応する遅延時間の最適なパルスをピッチ周期の変化
率に対応する傾斜制限を有する動的計画法を用いて、ピ
ッチ決定区間(本実施例では20アレーン、: 200
m5EC)について選択する。DP処処理媒4008更
に選択されたパス(即ち本実施例では20ケのピッチ周
期データ)をピッチ出力端子4010を介して出力する
。又DP処理器4008は前記パスを構成する最も時間
的に新しい、云い換えればパスの終端に於けるピッチ周
期データを伝送路4009を介してピッチメモリ401
1へ出力する。ピッチメモリ4011は前記ピッチ周期
データを一時的に記憶し、時間的未来に隣接するピッチ
決定区間におけるピッチ始点データとして伝送路400
9を介してDP処処理媒4008返却する。
以上の説明はピッチ決定区間内に無声(無音を含む)フ
レームが存在しない場合の本発明の動作を述べたもので
ある。ピッチ決定区間内に無声フレームが存在する場合
には本発明の動作は以下の通シとなる。
レームが存在しない場合の本発明の動作を述べたもので
ある。ピッチ決定区間内に無声フレームが存在する場合
には本発明の動作は以下の通シとなる。
有声無声判別器4005はウィンド処理器枡よシ供給さ
れる3 0m5Ec分の音声信号に対し、有声無声の刺
状を線形判別式等を用いて例えば判別パラメータとして
声道断面積比関数を利用する手法によシ実施する。なお
前記手法は例えば公開特許公報、昭5’4−15130
3 ″有声無声判別装置4”に記載されている手法であ
る。有声無声判別器4005は判別結果を有声無声信号
として伝送路4012を介し−(Dr処理器4008へ
出力する。
れる3 0m5Ec分の音声信号に対し、有声無声の刺
状を線形判別式等を用いて例えば判別パラメータとして
声道断面積比関数を利用する手法によシ実施する。なお
前記手法は例えば公開特許公報、昭5’4−15130
3 ″有声無声判別装置4”に記載されている手法であ
る。有声無声判別器4005は判別結果を有声無声信号
として伝送路4012を介し−(Dr処理器4008へ
出力する。
前記有声無声信号の場合にはDP処処理媒4008対応
するフレームのピッチデータを例えばO1′としピッチ
の存在しないことを表現する。又、前記有声無声信号が
有声から無声に変化するフレームについてはDP処処理
媒4008最終の有声)V−ムにおいて複数のピッチ周
期列候補から最適なピッチ周期列を選択する。又、前記
有声無声信号が無声から有声に変化するフレームについ
てはDP処処理媒4008最初の有声フレームを始端と
し、更に始端に於ける複数のピッチ周期候補を各々、始
点とする。
するフレームのピッチデータを例えばO1′としピッチ
の存在しないことを表現する。又、前記有声無声信号が
有声から無声に変化するフレームについてはDP処処理
媒4008最終の有声)V−ムにおいて複数のピッチ周
期列候補から最適なピッチ周期列を選択する。又、前記
有声無声信号が無声から有声に変化するフレームについ
てはDP処処理媒4008最初の有声フレームを始端と
し、更に始端に於ける複数のピッチ周期候補を各々、始
点とする。
゛ 以上の処理によシ無声区間が複数のピッチ決定区間
に渡って存在しても本発明はなんら制約を受けないこと
は自明である。
に渡って存在しても本発明はなんら制約を受けないこと
は自明である。
又、有声無声判別器4005の判別結果を有声、無声の
二値に限定せず、連続量として出力するこけ容易であり
、下記の処理が可能となる。ピッチ周期の時間的変化特
性は以下の性質を持つ、即ち有声度が高い場合、例えば
音声のエネルギーが大きく、又、音韻の変化速度がゆる
やかな有声音定常部では、前記変化特性はゆるやかでお
り、有声度が低い場合、例えば音声のエネルギーが変化
し、又、音韻の変化速度のはやい有声音過渡部では前記
変化特性は激しいことが経験的に知られている1又、有
声無声判別器4005に使麻される判別パラメータとし
ては例えば、音声のエネルギーや、音韻に対応するスペ
クトル包絡パラメータが用いられている。従ってDP処
処理媒4008於いて音声の有声度によシ傾斜制限の設
定値を適応的に変更し、よシ安定なピッチ抽出を可能に
し得る。
二値に限定せず、連続量として出力するこけ容易であり
、下記の処理が可能となる。ピッチ周期の時間的変化特
性は以下の性質を持つ、即ち有声度が高い場合、例えば
音声のエネルギーが大きく、又、音韻の変化速度がゆる
やかな有声音定常部では、前記変化特性はゆるやかでお
り、有声度が低い場合、例えば音声のエネルギーが変化
し、又、音韻の変化速度のはやい有声音過渡部では前記
変化特性は激しいことが経験的に知られている1又、有
声無声判別器4005に使麻される判別パラメータとし
ては例えば、音声のエネルギーや、音韻に対応するスペ
クトル包絡パラメータが用いられている。従ってDP処
処理媒4008於いて音声の有声度によシ傾斜制限の設
定値を適応的に変更し、よシ安定なピッチ抽出を可能に
し得る。
次に波形図を用いてDP処処理媒4008動作を詳細に
説明する。第5図はDP処処理媒4008動作を説明す
るだめの波形図である。点5100はピッチ決定区間1
に時間的過去に隣接するピップ決定区間に於ける最も時
間的に新しいピッチ周期を表わす。点5201,520
2.5203はピッチ決定区間1に含まれる第1番目の
フレームに於ける自己相関係数の極大値に対応する遅れ
時間である。又、線分5101.5102は傾斜制限を
示す。点5100と点5201とを結ぶ点線5211は
傾斜制限外にある。従って点5201に連るピッチ列候
補5001と5002とは候補から除外される。同様に
点5100と5203とを結ぶ点線5213も又、傾斜
制限外にある。従って点5203に連るピッチ周期列候
補5005も又、候補から除外される。点5100と点
5100点5202とを結ぶ実線5212は傾斜制限内
にある。従って点5202に連るピッチ周期列候補50
03と5004とが、第1番目のフレームに於いては候
補として存在している。ピッチ決定区間1に於いて、第
2番目のフレームから第20番目のフレームの全てにつ
いてピッチ周期列候補5003と5004とに含まれる
点は各々の前フレームよシの傾斜制限内にある。従って
最適々ピッチ周期列は第20番目のフレームで以下の式
(2)但し胛参参番皓、自盃樫μm4はそれぞれピッチ
周5oo3 期候補5003と5004とに含まれるピッチ周期にお
ける自己相関係数値である。今、仮に最適なピッチ周期
列として5003が決定されたものとする。ピッチ決定
区間2の第1番目〜第9番目のフレームに含まれるピッ
チ周期列候補5006゜5007と5008のうち、点
5120を基準とする傾斜制限内に始点を有する候補は
5007のみで4j5.5007が最適なピッチ周期列
とじて決定される。熱論、点5120を基線とする傾斜
制限内に始点を有する他の候補5009が存在する場合
には第9番目のフレニムに於いて、前述のピッチ決定区
間1の第20番目のフレームで実施した式(2)による
ピッチ周期列の形定を行なえばよい。
説明する。第5図はDP処処理媒4008動作を説明す
るだめの波形図である。点5100はピッチ決定区間1
に時間的過去に隣接するピップ決定区間に於ける最も時
間的に新しいピッチ周期を表わす。点5201,520
2.5203はピッチ決定区間1に含まれる第1番目の
フレームに於ける自己相関係数の極大値に対応する遅れ
時間である。又、線分5101.5102は傾斜制限を
示す。点5100と点5201とを結ぶ点線5211は
傾斜制限外にある。従って点5201に連るピッチ列候
補5001と5002とは候補から除外される。同様に
点5100と5203とを結ぶ点線5213も又、傾斜
制限外にある。従って点5203に連るピッチ周期列候
補5005も又、候補から除外される。点5100と点
5100点5202とを結ぶ実線5212は傾斜制限内
にある。従って点5202に連るピッチ周期列候補50
03と5004とが、第1番目のフレームに於いては候
補として存在している。ピッチ決定区間1に於いて、第
2番目のフレームから第20番目のフレームの全てにつ
いてピッチ周期列候補5003と5004とに含まれる
点は各々の前フレームよシの傾斜制限内にある。従って
最適々ピッチ周期列は第20番目のフレームで以下の式
(2)但し胛参参番皓、自盃樫μm4はそれぞれピッチ
周5oo3 期候補5003と5004とに含まれるピッチ周期にお
ける自己相関係数値である。今、仮に最適なピッチ周期
列として5003が決定されたものとする。ピッチ決定
区間2の第1番目〜第9番目のフレームに含まれるピッ
チ周期列候補5006゜5007と5008のうち、点
5120を基準とする傾斜制限内に始点を有する候補は
5007のみで4j5.5007が最適なピッチ周期列
とじて決定される。熱論、点5120を基線とする傾斜
制限内に始点を有する他の候補5009が存在する場合
には第9番目のフレニムに於いて、前述のピッチ決定区
間1の第20番目のフレームで実施した式(2)による
ピッチ周期列の形定を行なえばよい。
第10番目〜第12番目のフレームについては無声7レ
一ム区間であるためピッチ周期を決定する必要がない。
一ム区間であるためピッチ周期を決定する必要がない。
第13番目のフレームを始点とするピッチ周期列候補5
010.5011と5012は第20番目のフレームで
式(2見等価な式により評価され最適なピッチ周期列が
決定される。
010.5011と5012は第20番目のフレームで
式(2見等価な式により評価され最適なピッチ周期列が
決定される。
なお、無声フレーム区間付近の有声フレームは有声度が
低く、且つピッチ周期の変化が激しい特徴を有する。故
に有声度によシ傾斜制限を可変とすることはピッチ周期
を安定に検出する上で有効である。
低く、且つピッチ周期の変化が激しい特徴を有する。故
に有声度によシ傾斜制限を可変とすることはピッチ周期
を安定に検出する上で有効である。
以上説明した様に本発明はピッチ周期の変化率に対応す
る領置制限を有する動的計画法を用いて最適なピッチ周
期列を評価、選択することによシ、ピッチ周期の連続性
を有するピッチ周期列候補中、最も尤もらしいピッチ周
期列を容易に決定すると七を可能とし、且つわずかな処
理遅延でのピッチ抽出処流を可能としだ。即ち、本発明
は、従来方法ではピッチ抽出誤りの多く発生する有声音
定常、部と有声音過渡部とについて、以下のピッチ抽出
誤シ軽減効果がある。まず、有声音過渡部では有声音過
渡部の時間的過去又は時間的未来に連接して存在し、又
、定常部のピッチ周期に関連して過渡部のピッチ周、期
が決定されるため、少なくとも有声音定常部にピッチ抽
出誤シが存在しなければ有声音過渡部にもピッチ抽出I
llが殆んど存在しない。次に有声音定常部では一連の
ピッチ周期列候補中から前記(2)式を用いた総合的評
価により最適なピッチ周期列を決定することによシ、倍
ピッチ周期誤シ等が除去される。なぜならば、通常、自
己相関係数値の最大体検索をフレーム毎に実施した場合
に後ピッチ周期誤りが発生するフレームの割合は0〜3
0%程度であり、ピッチ周期列と、後ピッチ周期列との
各々の自己相関係数の総和を比較するとほぼ確実にピッ
チ周期列の前記総和が大きいことが経験的に知られてい
るからである。
る領置制限を有する動的計画法を用いて最適なピッチ周
期列を評価、選択することによシ、ピッチ周期の連続性
を有するピッチ周期列候補中、最も尤もらしいピッチ周
期列を容易に決定すると七を可能とし、且つわずかな処
理遅延でのピッチ抽出処流を可能としだ。即ち、本発明
は、従来方法ではピッチ抽出誤りの多く発生する有声音
定常、部と有声音過渡部とについて、以下のピッチ抽出
誤シ軽減効果がある。まず、有声音過渡部では有声音過
渡部の時間的過去又は時間的未来に連接して存在し、又
、定常部のピッチ周期に関連して過渡部のピッチ周、期
が決定されるため、少なくとも有声音定常部にピッチ抽
出誤シが存在しなければ有声音過渡部にもピッチ抽出I
llが殆んど存在しない。次に有声音定常部では一連の
ピッチ周期列候補中から前記(2)式を用いた総合的評
価により最適なピッチ周期列を決定することによシ、倍
ピッチ周期誤シ等が除去される。なぜならば、通常、自
己相関係数値の最大体検索をフレーム毎に実施した場合
に後ピッチ周期誤りが発生するフレームの割合は0〜3
0%程度であり、ピッチ周期列と、後ピッチ周期列との
各々の自己相関係数の総和を比較するとほぼ確実にピッ
チ周期列の前記総和が大きいことが経験的に知られてい
るからである。
又、本発明の処理遅延時間は例えば高々200m8Ec
であシ、可変長フレーム型ボコーダに於けるスペクトル
包絡情報分析に要する処理遅延時間とほぼ等しく、従っ
て本発明は、安定なピッチ抽出を実時間処理で可能とす
る。
であシ、可変長フレーム型ボコーダに於けるスペクトル
包絡情報分析に要する処理遅延時間とほぼ等しく、従っ
て本発明は、安定なピッチ抽出を実時間処理で可能とす
る。
なお、本発明はピッチ抽出用のパラメータとしは必づし
も自己相関係数に限定されない。本発明ば、ケプストラ
ム、波形差分絶対値ボ等を用いて容易に実施し得ること
は明らかである。
も自己相関係数に限定されない。本発明ば、ケプストラ
ム、波形差分絶対値ボ等を用いて容易に実施し得ること
は明らかである。
第1同相ピッチ周期を説明するだめの波形図、第2図は
第1ホルマントの影響によるピッチ検出誤シを説明する
ための波形図、第3図はピッチ倹素範囲を制限するピッ
チ抽出法の欠点を説明するだめの波形図、第4図は本発
明の詳細な説明するためのブロック1、第5図はDP処
理器4008の動作を説報するための波形図である。 4001・・・・・・波形入力端子、4002・・・・
・・Nつ変換器、4003・・・・・・ウィンドウ処理
器、4oo4・・・・・・自己相関係数算出器、400
5・・・・・・有声無声判別器、4006・・・・・・
極大値検索器、4007・・・・・・伝送路、4008
・・・・・・DP処理器、40o9・・・・・・伝送路
、4010・・・・・・ピッチ出力端子、4011・・
・・・・ピッチメモリ、4012・山・・伝送路、40
13・・・・・・本発明の構成範囲。
第1ホルマントの影響によるピッチ検出誤シを説明する
ための波形図、第3図はピッチ倹素範囲を制限するピッ
チ抽出法の欠点を説明するだめの波形図、第4図は本発
明の詳細な説明するためのブロック1、第5図はDP処
理器4008の動作を説報するための波形図である。 4001・・・・・・波形入力端子、4002・・・・
・・Nつ変換器、4003・・・・・・ウィンドウ処理
器、4oo4・・・・・・自己相関係数算出器、400
5・・・・・・有声無声判別器、4006・・・・・・
極大値検索器、4007・・・・・・伝送路、4008
・・・・・・DP処理器、40o9・・・・・・伝送路
、4010・・・・・・ピッチ出力端子、4011・・
・・・・ピッチメモリ、4012・山・・伝送路、40
13・・・・・・本発明の構成範囲。
Claims (1)
- 【特許請求の範囲】 (1) 音声のピッチ周期の抽出するためのピッチ抽出
装置に於いて、一定時間長のピッチ決定区間を用い、且
つ時間的過去に隣接するピッチ決定区間に於ける最も時
間的に新しいピッチ周期を唯一の始点とし、更にピッチ
周期の連続性をピッチ周期の変化率を拘束する目的でピ
ッチ周期の変化率に対応する傾斜制限を有する動的計画
法によシ評価する手段と、最適なピッチ周期列をピッチ
決定区間の終端における複数のピッチ周期列候補から唯
一度決定する手段とを有する於いて、音声の有声度によ
シ前記傾斜制限の設定値が変更可能であることを特徴と
するピッチ抽出装置。 (3)特許請求の範囲第(1)項記載のピッチ抽出装置
に於いて、前記ピッチ決定区間内に無声区間を有する場
合に、無声区間に時間的過去に隣接する有声部分を終端
として、ピッチ周期列を決定し、又、前記無声区間に時
間的未来に隣接する有声部分を新だに始端とし、更に始
端に於ける複数のピッチ周期候補を各々始点とする特徴
とするピッチ抽出装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP58175454A JPS6068000A (ja) | 1983-09-22 | 1983-09-22 | ピッチ抽出装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP58175454A JPS6068000A (ja) | 1983-09-22 | 1983-09-22 | ピッチ抽出装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS6068000A true JPS6068000A (ja) | 1985-04-18 |
JPH0377998B2 JPH0377998B2 (ja) | 1991-12-12 |
Family
ID=15996350
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP58175454A Granted JPS6068000A (ja) | 1983-09-22 | 1983-09-22 | ピッチ抽出装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS6068000A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6254296A (ja) * | 1985-05-28 | 1987-03-09 | 日本電気株式会社 | ピツチ抽出装置 |
JPH0820878B2 (ja) * | 1985-08-28 | 1996-03-04 | エイ・ティ・アンド・ティ・コーポレーション | 並列処理型ピッチ検出器 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4108317B2 (ja) * | 2001-11-13 | 2008-06-25 | 日本電気株式会社 | 符号変換方法及び装置とプログラム並びに記憶媒体 |
-
1983
- 1983-09-22 JP JP58175454A patent/JPS6068000A/ja active Granted
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6254296A (ja) * | 1985-05-28 | 1987-03-09 | 日本電気株式会社 | ピツチ抽出装置 |
JPH0820878B2 (ja) * | 1985-08-28 | 1996-03-04 | エイ・ティ・アンド・ティ・コーポレーション | 並列処理型ピッチ検出器 |
Also Published As
Publication number | Publication date |
---|---|
JPH0377998B2 (ja) | 1991-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Talkin et al. | A robust algorithm for pitch tracking (RAPT) | |
WO2002086860A2 (en) | Processing speech signals | |
US8942977B2 (en) | System and method for speech recognition using pitch-synchronous spectral parameters | |
Hasija et al. | Recognition of children Punjabi speech using tonal non-tonal classifier | |
Kadiri et al. | Estimation of Fundamental Frequency from Singing Voice Using Harmonics of Impulse-like Excitation Source. | |
US8086449B2 (en) | Vocal fry detecting apparatus | |
Zhao et al. | A processing method for pitch smoothing based on autocorrelation and cepstral F0 detection approaches | |
WO2001029822A1 (en) | Method and apparatus for determining pitch synchronous frames | |
Yadav et al. | Epoch detection from emotional speech signal using zero time windowing | |
JPS6068000A (ja) | ピッチ抽出装置 | |
Samad et al. | Pitch detection of speech signals using the cross-correlation technique | |
Geckinli et al. | Algorithm for pitch extraction using zero-crossing interval sequence | |
Reddy et al. | Predominant melody extraction from vocal polyphonic music signal by combined spectro-temporal method | |
JPS6214839B2 (ja) | ||
Bachhav et al. | A novel filtering based approach for epoch extraction | |
JPS6151320B2 (ja) | ||
JP2001083978A (ja) | 音声認識装置 | |
JP4890792B2 (ja) | 音声認識方法 | |
Funada | A method for the extraction of spectral peaks and its application to fundamental frequency estimation of speech signals | |
KR100212453B1 (ko) | 양자화 오차를 이용한 음성 신호의 피치 검출 방법 | |
JP2003150191A (ja) | 音声スペクトル推定方法、その装置、そのプログラムおよびその記録媒体 | |
Cherif | Pitch and formants extraction algorithm for speech processing | |
KR100322704B1 (ko) | 음성신호의지속시간변경방법 | |
JPS59149400A (ja) | 音声入力装置 | |
Hosom | F0 estimation for adult and children's speech. |