JP3032215B2

JP3032215B2 - 有音検出装置及びその方法

Info

Publication number: JP3032215B2
Application number: JP1183684A
Authority: JP
Inventors: 仁樹佐藤; 恒雄新田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1989-07-18
Filing date: 1989-07-18
Publication date: 2000-04-10
Anticipated expiration: 2015-04-10
Also published as: JPH0348900A

Description

【発明の詳細な説明】［発明の目的］（産業上の利用分野）本発明は、ATM（Asynchronous Transfer Mode）通
信、DSI（Digital Speech Interplation）、パケット
通信、音声認識の分野に適用され、音声信号中の有音区
間を精度良く検出する有音検出装置に関する。

（従来の技術）第６図は従来の有音検出装置の一構成を示している。

入力端子100に入力された音声信号中から電力、零交
差数、自己相関関数、スペクトルなどの特徴パラメータ
がフレーム単位で特徴パラメータ計算器101によって計
算される。

計算された特徴パラメータは、マッチング器102へ出
力され、予め設定された有音標準パターン103及び雑音
標準パターン104と比較し、それぞれの距離が算出され
る。

もし、特徴パラメータと有音標準パターン103の距離
が特徴パラメータと雑音パターン104との距離よりも小
さければ、入力フレームは有音に属し、反対であれば雑
音に属すると判定され、その判定結果が出力端子105か
ら出力される。

（発明が解決しようとする課題）しかしながら、有音であっても子音の電力は母音と異
なり背景雑音の電力を下回ることが多い。このため、背
景雑音が大きい環境下では、子音区間の特徴パラメータ
に背景雑音の特徴が大きく出てしまう。

上記従来の有音検出装置によれば、背景雑音の影響を
受けた特徴パラメータをそのまま判定に用いていたの
で、背景雑音が大きい場合には、子音の検出誤りが多く
なっていた。

このことによって、通信の分野では音質の劣化の要因
となり、また、音声認識の分野で認識率の低下を招いて
いた。

本発明は上記事情に鑑みてなされたものであり、その
目的は、背景雑音が大きい場合にあっても有音の検出精
度を向上することができる音声検出装置を提供すること
にある。

［発明の構成］（課題を解決するための手段）上記課題を解決するために、本発明は、ある長さごと
に区切ったフレームを単位として入力された入力音声信
号の特徴パラメータを求める特徴パラメータ生成手段
と、この特徴パラメータ生成手段で求められた前記特徴
パラメータに基づいて、前記入力音声信号が雑音である
か否かをフレーム毎に仮に判定する雑音判定手段と、こ
の雑音判定手段により雑音であると仮に判定されたフレ
ームの前記特徴パラメータ生成手段により求められた特
徴パラメータを複数フレーム分蓄積する蓄積手段と、こ
の蓄積手段に蓄積された前記複数フレーム分の特徴パラ
メータを用いて、前記入力音声信号のフレームの特徴パ
ラメータを変換パラメータに変換する変換手段と、この
変換手段により変換された前記変換パラメータに基づい
て、前記入力音声信号のフレームが音声に属するか雑音
に属するかを判定する有音判定手段とからなることを特
徴とする。

（作用）以上の構成において、本発明ではフレーム単位で求め
られた全ての特徴パラメータあるいは雑音区間の特徴パ
ラメータに基づいて変換パラメータを生成し、この変換
パラメータを用いることにより音声信号の有音区間と雑
音区間を判別することができる。とくに、雑音区間の特
徴パラメータを基にして変換パラメータを生成した場合
には雑音の影響を回避した有音判別が可能となる。

（実施例）第１図は本発明に係る有音検出装置の概略的構成を示
すブロック図であり、この装置は、特徴パラメータ計算
器１と、特徴パラメータ変換器２と、有音判定器３と、
雑音検出器４と、スイッチ５と、バッファ６とから構成
される。

なお、以下の実施例では、音声信号をフレーム単位に
分析し有無・音声の判定を行なっていく。例えば、音声
信号を8KHzでサンプリングし、160サンプルづつまとめ
て１フレームとする。ただし、フレーム長は、常に一定
長である必要はない。

特徴パラメータ計算器１では、フレーム単位にDurbin
法などを用いて線形予測係数を計算する。ここで、線形
予測係数からPARCOR係数、LPCケプストラム、メルケプ
ストラム等を計算し、特徴パラメータとしてもよい。ま
た、電力、自己相関関数、零交差数、等も計算してもよ
い。

現在有音か無音かを判定しようとしているフレームを
以下では入力フレームという。また、特徴パラメータ計
算器１で得られた入力フレームの特徴パラメータをとする。ｎはフレームのシーケンシャルな番号である。
特徴パラメータはｐ次元のベクトルで、次の（１）の式
で書き表わされる。

雑音検出器４では、フレーム単位に次の（３）式で平
均電力Powを測定する。フレーム内の音声信号のサンプ
ルをａ（ｉ）（ｉ＝0,1,…,s−１）、１フレームのサン
プル数をｓとすると、そして、入力信号の中から、確実に雑音であるという区
間を検出するためにあらかじめ与えられているしきい値
Ｔと平均電力Powとを比較する。

もし、Pow≧Ｔならば雑音でないと判定し“0"をSW5に
出力する。

そうでなければ雑音と判定し“1"をSW5に出力する。

SW5は、雑音検出器の出力が“1"ならば、バッファ６
にそのフレームの特徴パラメータを記憶させる。

バッファ６では、第２図に示されているように、特徴
パラメータがバッファ６に蓄積される時間の順序関係を
保存するために、特徴パラメータがバッファに入力され
た順番で、バッファのヘッドからテイルに向かって蓄積
する。すなわち、一番新しい特徴パラメータ（現在判定
すべきフレームの特徴パラメータ）をバッファのヘッド
に、一番過去の特徴パラメータをテイルに蓄積する。

この実施例では雑音検出器４で雑音と判定されたフレ
ームの特徴パラメータのみをバッファに蓄積しているが
雑音判定を行わずに全ての特徴パラメータをバッファに
蓄積しても良い。

バッファ６に蓄積された特徴パラメータのうち、入力
フレームのＳフレーム前（バッファのヘッドからＳフレ
ームめ）からバッファのテイルに向かってＮフレーム分
の特徴パラメータ集合Ωを取り出し、第２図に示すよう
に、とする。

なお、前記Ｓフレーム、Ｎフレームは任意の数フレー
ムを取り得るが、数フレームから20フレーム程度が好適
である。

特徴パラメータ変換器２では、音声と雑音の違いを強
調するために特徴パラメータを変換する。ここで変換さ
れた特徴パラメータを、以下では変換パラメータと呼び、変換パラメータはｐ次元のベクトルである。

ここでは、変換パラメータは、Ωの平均ベクトルと入力フレームの特徴パラメータとの差を取り距離ベクトルを計算して、Ωの標準偏差で
正規化したものである。次の（３）〜（７）式で各成分
は表され、第３図には特徴パラメータ特徴パラメータ集合Ω、変換パラメータ Ωの平均ベクトルの関係が図示されている。

とすると、 y_i（ｎ）＝（x_i（ｎ）−m_i）／σ_ｉ …（５）ここで、ｉ＝1,2,…,p、である。

有音判定器３では、特徴パラメータ変換器２から得ら
れた変換パラメータを基に有音区間を判定する。この有
音判定器３は第４図に示すように、マッチング器７と、
Ｍ個の標準パターン８とから構成されている。

標準パターン８は以下のように定義できる。標準パタ
ーン８はの平均値ベクトルμおよび、の共分散行列Σである。なお、以下（８）〜（10）式で
は標準パターンのクラスを示すｉを簡易のため省略す
る。

クラスωに属するＬ個のｐ次元変換パラメータをとして、μとΣの各要素をμ_ｋ、Σ_klとすると、と表される。

マッチング器７では、標準パターンω_ｉと変換パラメ
ータの距離を測定し、音声に属する標準パターンω_ｉにマッ
チングされた場合音声、そうでない場合無音と判定す
る。

まず、次式より各標準パターンω_ｉ（ｉ＝1,…,M）と
変換パラメータとの距離を測定する。

このを用いて、クラスｉを計算すると、となる。これによって、はクラスｉのω_ｉに属していることになる。もしω_ｉが
音声を表すパターンであれば、そのフレームは有音、ω
_ｉが雑音をあらわすパターンであれば、そのフレームは
雑音であると判定する。

以上の各実施例の効果を具体的な測定結果を基に説明
する。

母音と異なり、子音の電力は背景音電力を下回ること
が多い。そのため、背景雑音が大きな環境では、子音区
間でも特徴パラメータに雑音の特徴が大きく出てしま
う。従来の方式では、背景雑音の影響を受けた特徴パラ
メータをそのまま判定に用いていたため、背景雑音が大
きな場合には、子音の検出誤りが多くなっていた。

本発明の各実施例では、雑音と音声の特徴を強調する
ため、S/N比が20dBから14dBほどの、背景雑音の大きな
環境でも検出率が良好な検出率が得られた。以下に、特
徴パラメータ・特徴パラメータ変換法を変えたときの語
頭子音の検出結果を示す。音声データに付けられたラベ
ルが子音を示しているフレームが子音のクラスのうちい
ずれかであると判定された場合、正しく検出されたもの
であるとする。

第５図に示した検出率は子音検出率と雑音検出率の平
均値である。子音検出率は、次式で定義される。

また、雑音データのフレームが、雑音クラスのうちい
ずれかであると判定された場合、正しく検出されたもの
とする。これが雑音検出率であり、次式で定義される。

第５図において、縦軸は検出率である。また、横軸は
特徴パラメータの種類を示しており、LPCはLPCケプスト
ラム、Ｐはフレーム内平均電力、Ｐ＋LPCはＰとLPCの併
用である。

なお、以下ではLPCケプストラム分析次元は12次、変
換パラメータ次元は特徴パラメータがLPCのとき４次、
Ｐ＋LPCのとき５次とした。特徴パラメータ変換法は、
プロットを変えて示した。

ｃは、特徴パラメータ変換を行わない従来の方法であ
る。

ｎは、第１図に示した実施例であり、雑音判定をして
いるものである。

ｖは、第１図に示した実施例で、雑音判定をしていな
いものである。

［発明の効果］以上説明したように本発明によれば、特徴パラメータ
変換により特徴パラメータから雑音の影響を除去できる
ので、背景雑音が大きい環境下にあっても精確に有音区
間を判別することができる。

【図面の簡単な説明】

第１図は本発明に係る有音検出装置の概略構成を示すブ
ロック図、第２図は同実施例で使用されるバッファの構
成図、第３図は同実施例の変換パラメータの説明図、第
４図は有音判定器の構成例を示すブロック図、第５図は
各実施例における特徴パラメータと検出率との関係を示
す特性図、第６図は従来の有音検出装置の構成例を示す
ブロック図である。１……特徴パラメータ計算器２……特徴パラメータ変換器３……有音判定器４……雑音検出器５……スイッチ６……バッファ７……マッチング器８……標準パターン

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開平２−266400（ＪＰ，Ａ) 特開昭60−200300（ＪＰ，Ａ) 特開平１−302298（ＪＰ，Ａ) 特開平４−58297（ＪＰ，Ａ) 特開昭61−48898（ＪＰ，Ａ) 特開平２−282798（ＪＰ，Ａ) 特開平２−26640（ＪＰ，Ａ) 特開平３−48900（ＪＰ，Ａ) 特公平５−56512（ＪＰ，Ｂ２) 1989年電子情報通信学会春季全国大会講演論文集第３分冊ｐ．３−78「Ｂ− 372 ＡＴＭ通信のための音声セル化方式」（1989／３／28) 古井「ディジタル音声処理」（1985− ９−25）東海大学出版会ｐ．44−48 斎藤・中田「音声情報処理の基礎」（昭56−11−30）オーム社ｐ．99− 103 電子情報通信学会技術研究報告［通信］Ｖｏｌ．89，Ｎｏ．132，ＣＳ89−33, 「音声パケット通信のための有音検出方式」ｐ．61−66（1989年７月19日発行) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 11/02 G10L 15/04 H04B 14/04 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】ある長さごとに区切ったフレームを単位と
して入力された入力音声信号の特徴パラメータを求める
特徴パラメータ生成手段と、この特徴パラメータ生成手段で求められた前記特徴パラ
メータに基づいて、前記入力音声信号が雑音であるか否
かをフレーム毎に仮に判定する雑音判定手段と、この雑音判定手段により雑音であると仮に判定されたフ
レームの前記特徴パラメータ生成手段により求められた
特徴パラメータを複数フレーム分蓄積する蓄積手段と、この蓄積手段に蓄積された前記複数フレーム分の特徴パ
ラメータを用いて、前記入力音声信号のフレームの特徴
パラメータを変換パラメータに変換する変換手段と、この変換手段により変換された前記変換パラメータに基
づいて、前記入力音声信号のフレームが音声に属するか
雑音に属するかを判定する有音判定手段とからなることを特徴とする有音検出装置。
【請求項２】前記変換手段は、前記入力音声信号のフレ
ームの特徴パラメータと前記蓄積手段に蓄積された前記
複数フレーム分の特徴パラメータとの距離ベクトルを求
めることによって、前記入力音声信号のフレームの特徴
パラメータを前記変換パラメータに変換することを特徴
とする請求項１に記載の有音検出装置。
【請求項３】ある長さごとに区切ったフレームを単位と
して入力された入力音声信号の特徴パラメータを求める
特徴パラメータ生成ステップと、この特徴パラメータ生成ステップで求められた前記特徴
パラメータに基づいて、前記入力音声信号が雑音である
か否かをフレーム毎に仮に判定する雑音判定ステップ
と、この雑音判定ステップにより雑音であると仮に判定され
たフレームの前記特徴パラメータ生成ステップにより求
められた特徴パラメータを複数フレーム分蓄積する蓄積
ステップと、この蓄積ステップに蓄積された前記複数フレーム分の特
徴パラメータを用いて、前記入力音声信号のフレームの
特徴パラメータを変換パラメータに変換する変換ステッ
プと、この変換ステップにより変換された前記変換パラメータ
に基づいて、前記入力音声信号のフレームが音声に属す
るか雑音に属するかを判定する有音判定ステップとからなることを特徴とする有音検出方法。