JPS58143394A

JPS58143394A - 音声区間の検出・分類方式

Info

Publication number: JPS58143394A
Application number: JP57024388A
Authority: JP
Inventors: 中田　和男; 宮本　宜則
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1982-02-19
Filing date: 1982-02-19
Publication date: 1983-08-25
Also published as: US4720862A; JPH0376472B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】本発明は音声の分析における音声区間の検出と検出され
た区間が有声音か無声音かの判定分類を行う方式に係り
、特に入力音声のレベルに依存しない上記検出と分類の
確実な実行に好適な方式に関する。

音声の合成または認識のための分析において、もつとも
基本的な処理として、音声区間の検出と検出された区間
が有声区間か、無声区間かの判定（分類）がある。これ
が正確かつ確実に行われないと、合成音声の音質が劣化
したり、音声認識の誤シ率が増加したりする。

一般に、これらの検出、分類には入力音声の強度（分析
フレーム別の平均エネルギー）が重要な決定因子となる
。しかし入力音声の強度の絶対値を使うことは、結果が
入力条件に依存することとなり望壕しくない。従来のオ
フラインでの分析（たとえば合成のための分析）では、
ある長時間区間（たとえば−個の単語の全発声区間）に
おけるフレーム別平均エネルギーの最大値で正規化した
強度を用いることでこの対策としているが、実時間音声
分析合成や認識ではこうした対策がとれないという欠点
があった。

本発明は、上記問題点を解決するためになされたもので
、実時間分析においても確実に機能し、かつ入力音声の
強度の相対的な変動に依存しない音声区間の検出と検出
された区間での有声、無声の判定分類方式を提供するこ
とを目的とする。

この目的を達成するため本発明においては、入力音声信
号の相対レベル変動に依存しない３種のパラメータを入
力音声信号より抽出し、これらパラメータのもっている
物理的意味にもとづき、音声区間の検出とその区間での
有声、無声の判定分類をおこなう点に特徴がある。

音声の分析は通常２０〜３０ミリ秒間のデータを１ブロ
ツクとし、１０〜２０ミリ秒間隔で行われる。１ブロツ
クのデータから抽出される正規化主要パラメータの中で
、とくに本発明に関連して重要なパラメータは次の３つ
である。

１）　　ｋ１＝ｌ’、／γ０；正規化１次偏自己相関係
数（γＯ＋　ｒｔは０次および１次の自己相関係数）２）　　Ｅｗ＝ｕ　（１−に？）；正規化残差パワー（
ｐは分ｔ、１析次数）３）φ；正規化残差相関のピーク値これらの諸量はいずれも正規化されており、原理的ＶＣ
は入力音声信号の相対レベル変動には依存しない。これ
らのパラメータの値が実際にどのような慎をとるかの１
例を、第１図（男声の場合）と第２図（女声の場合）に
示す。

これら多数の分析結果およびその各パラメータがもって
いる物理的な意味から、第３図のような検出分類アルゴ
リズムが考えられる。

こ＼でＶは有声音、Ｕは無声音、Ｓは無音を示す。

第３図でαｌとα２はパラメータＥＮに関し、またβｌ
とβ２はパラメータｋｌに関してあらかじめ設定してお
く判定いき値であり、たとえば、次のような値とする。

α１−α２　　　、　α、＝０．６ β１＝０．４　　　　、　　β２”０．２この処理をフ
ローの形で第４図に示す。

以下、実施例にもとづき本発明の詳細な説明する。

第５図は本発明の方式を用いた音声合成装置の一実施例
のブロック構成図である。

ｌブロン２分の音声波形１が、２つの分析回路２と３に
与えられる。２は偏自己相関係数による偏自己相関係数
Ｊ＋１（２＋・・・Ｉｋｌｌおよび正規化残差パワーｐ
ｏを求める分析回路であり、その処理内容についＣは公
知である。

（中田和男二「音声」　（コロナ社）、１９７７、第３
章、　３．２．５および３．２．６または、安居院。

中高；「コンピュータ音声処理」　（産報出版）。

１９８０、第２章参照）その出力４として、ｋｌおよびｐｏが判定回路６に入力
される。

一方３は音源分析回路であシ、正規化残差相関φを求め
る。その処理内容についても公知である（上記２文献参
照）。その出力５としてφが判定回路６に入力される。

判定回路６においては第３図の論理、すなわち第４図の
フローにしたがって所定のいき値１ｏ。

１１．１２にもとづき検出分類を行う。これらの処理は
、たとえばマイクロプロセッサを使って容易に実現でき
る。判定回路６の出力はＶ（有声音）、Ｕ（無声音）ま
たばＳ（無音）に応じてそれぞれ端子７，８．９から得
られる。

１ブロツクのデータの処理が終れば次のブロックの処理
が開始され、以下これがくりかえされる。

第６図は本発明の方法に従って時間軸ｔにたいして実時
間で入力音声の音声区間（Ｓ＝Ｕ、Ｖ又はＳ）の検出と
、検出された各区間（Ｓ）における音声の判定分類（Ｕ
又はＶ）をおこなった実験の結果であり、第７図は別の
音声についての同様の結果を要因別の変化とそれにもと
づく総合分類結果として示したものであるが、この結果
によれば上記検出と判定分類が正しくおこなわれており
本発明の方法が有効なことがわかる。

以上説明したごとく、本発明によれば、音声区間の検出
、その有声音、無声音での分類が、その信号の入力レベ
ルの変動に関係なく、かつそのフレームだけで正確かつ
確実に行われるので、実時間分析の必要な音声の分析合
成伝送系や、音声認識において音質を改善し、誤シを減
少させる効果がある。

【図面の簡単な説明】

第１図と第２図は本発明の基本となる正規化パラメータ
（ｋ　Ｉ　ＨＩ！ＩＮ　１　φ）の分析抽出結果の一例
を示す図、第３図は本発明にもとづく検出、分類の原理
を示す図、第４図は第３図の原理に従って検出、分類を
おこなう処理のフローを示す図、第５図は本発明の一実
施例のブロック構成図、第６゜７図は本発明による検出
と分類の実験結果の一例を示す図である。第　３　　図Ａｗ。第　　４　　図

Claims

【特許請求の範囲】１、音声波形を含むことを検出された入力信号を所定間
隔ごとにブロック化し、各ブロックにおける信号から該
信号のレベル変動に依存しないパラメータを抽出し、該
パラメータにもとづき上記信号区間が音声区間であるか
否かを検出し、該検出された音声区間における音声の分
類をおこなうことを特徴とする音声区間の検出・分類方
式。２、上記パラメータは正規化１次偏自己相関係数、正規
化残差パワーおよび正規化残差相関係数のピーク値であ
ることを特徴とする特許請求の範囲第１項の音声区間の
検出・分類方式。