[go: up one dir, main page]

JP3032215B2 - 有音検出装置及びその方法 - Google Patents

有音検出装置及びその方法

Info

Publication number
JP3032215B2
JP3032215B2 JP1183684A JP18368489A JP3032215B2 JP 3032215 B2 JP3032215 B2 JP 3032215B2 JP 1183684 A JP1183684 A JP 1183684A JP 18368489 A JP18368489 A JP 18368489A JP 3032215 B2 JP3032215 B2 JP 3032215B2
Authority
JP
Japan
Prior art keywords
noise
frame
feature parameter
input
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP1183684A
Other languages
English (en)
Other versions
JPH0348900A (ja
Inventor
仁樹 佐藤
恒雄 新田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP1183684A priority Critical patent/JP3032215B2/ja
Publication of JPH0348900A publication Critical patent/JPH0348900A/ja
Application granted granted Critical
Publication of JP3032215B2 publication Critical patent/JP3032215B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Time-Division Multiplex Systems (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

【発明の詳細な説明】 [発明の目的] (産業上の利用分野) 本発明は、ATM(Asynchronous Transfer Mode)通
信、DSI(Digital Speech Interplation)、パケット
通信、音声認識の分野に適用され、音声信号中の有音区
間を精度良く検出する有音検出装置に関する。
(従来の技術) 第6図は従来の有音検出装置の一構成を示している。
入力端子100に入力された音声信号中から電力、零交
差数、自己相関関数、スペクトルなどの特徴パラメータ
がフレーム単位で特徴パラメータ計算器101によって計
算される。
計算された特徴パラメータは、マッチング器102へ出
力され、予め設定された有音標準パターン103及び雑音
標準パターン104と比較し、それぞれの距離が算出され
る。
もし、特徴パラメータと有音標準パターン103の距離
が特徴パラメータと雑音パターン104との距離よりも小
さければ、入力フレームは有音に属し、反対であれば雑
音に属すると判定され、その判定結果が出力端子105か
ら出力される。
(発明が解決しようとする課題) しかしながら、有音であっても子音の電力は母音と異
なり背景雑音の電力を下回ることが多い。このため、背
景雑音が大きい環境下では、子音区間の特徴パラメータ
に背景雑音の特徴が大きく出てしまう。
上記従来の有音検出装置によれば、背景雑音の影響を
受けた特徴パラメータをそのまま判定に用いていたの
で、背景雑音が大きい場合には、子音の検出誤りが多く
なっていた。
このことによって、通信の分野では音質の劣化の要因
となり、また、音声認識の分野で認識率の低下を招いて
いた。
本発明は上記事情に鑑みてなされたものであり、その
目的は、背景雑音が大きい場合にあっても有音の検出精
度を向上することができる音声検出装置を提供すること
にある。
[発明の構成] (課題を解決するための手段) 上記課題を解決するために、本発明は、ある長さごと
に区切ったフレームを単位として入力された入力音声信
号の特徴パラメータを求める特徴パラメータ生成手段
と、この特徴パラメータ生成手段で求められた前記特徴
パラメータに基づいて、前記入力音声信号が雑音である
か否かをフレーム毎に仮に判定する雑音判定手段と、こ
の雑音判定手段により雑音であると仮に判定されたフレ
ームの前記特徴パラメータ生成手段により求められた特
徴パラメータを複数フレーム分蓄積する蓄積手段と、こ
の蓄積手段に蓄積された前記複数フレーム分の特徴パラ
メータを用いて、前記入力音声信号のフレームの特徴パ
ラメータを変換パラメータに変換する変換手段と、この
変換手段により変換された前記変換パラメータに基づい
て、前記入力音声信号のフレームが音声に属するか雑音
に属するかを判定する有音判定手段とからなることを特
徴とする。
(作用) 以上の構成において、本発明ではフレーム単位で求め
られた全ての特徴パラメータあるいは雑音区間の特徴パ
ラメータに基づいて変換パラメータを生成し、この変換
パラメータを用いることにより音声信号の有音区間と雑
音区間を判別することができる。とくに、雑音区間の特
徴パラメータを基にして変換パラメータを生成した場合
には雑音の影響を回避した有音判別が可能となる。
(実施例) 第1図は本発明に係る有音検出装置の概略的構成を示
すブロック図であり、この装置は、特徴パラメータ計算
器1と、特徴パラメータ変換器2と、有音判定器3と、
雑音検出器4と、スイッチ5と、バッファ6とから構成
される。
なお、以下の実施例では、音声信号をフレーム単位に
分析し有無・音声の判定を行なっていく。例えば、音声
信号を8KHzでサンプリングし、160サンプルづつまとめ
て1フレームとする。ただし、フレーム長は、常に一定
長である必要はない。
特徴パラメータ計算器1では、フレーム単位にDurbin
法などを用いて線形予測係数を計算する。ここで、線形
予測係数からPARCOR係数、LPCケプストラム、メルケプ
ストラム等を計算し、特徴パラメータとしてもよい。ま
た、電力、自己相関関数、零交差数、等も計算してもよ
い。
現在有音か無音かを判定しようとしているフレームを
以下では入力フレームという。また、特徴パラメータ計
算器1で得られた入力フレームの特徴パラメータを とする。nはフレームのシーケンシャルな番号である。
特徴パラメータはp次元のベクトルで、次の(1)の式
で書き表わされる。
雑音検出器4では、フレーム単位に次の(3)式で平
均電力Powを測定する。フレーム内の音声信号のサンプ
ルをa(i)(i=0,1,…,s−1)、1フレームのサン
プル数をsとすると、 そして、入力信号の中から、確実に雑音であるという区
間を検出するためにあらかじめ与えられているしきい値
Tと平均電力Powとを比較する。
もし、Pow≧Tならば雑音でないと判定し“0"をSW5に
出力する。
そうでなければ雑音と判定し“1"をSW5に出力する。
SW5は、雑音検出器の出力が“1"ならば、バッファ6
にそのフレームの特徴パラメータを記憶させる。
バッファ6では、第2図に示されているように、特徴
パラメータがバッファ6に蓄積される時間の順序関係を
保存するために、特徴パラメータがバッファに入力され
た順番で、バッファのヘッドからテイルに向かって蓄積
する。すなわち、一番新しい特徴パラメータ(現在判定
すべきフレームの特徴パラメータ)をバッファのヘッド
に、一番過去の特徴パラメータをテイルに蓄積する。
この実施例では雑音検出器4で雑音と判定されたフレ
ームの特徴パラメータのみをバッファに蓄積しているが
雑音判定を行わずに全ての特徴パラメータをバッファに
蓄積しても良い。
バッファ6に蓄積された特徴パラメータのうち、入力
フレームのSフレーム前(バッファのヘッドからSフレ
ームめ)からバッファのテイルに向かってNフレーム分
の特徴パラメータ集合Ωを取り出し、第2図に示すよう
に、 とする。
なお、前記Sフレーム、Nフレームは任意の数フレー
ムを取り得るが、数フレームから20フレーム程度が好適
である。
特徴パラメータ変換器2では、音声と雑音の違いを強
調するために特徴パラメータを変換する。ここで変換さ
れた特徴パラメータを、以下では変換パラメータ と呼び、変換パラメータ はp次元のベクトルである。
ここでは、変換パラメータ は、Ωの平均ベクトル と入力フレームの特徴パラメータ との差を取り距離ベクトルを計算して、Ωの標準偏差で
正規化したものである。次の(3)〜(7)式で各成分
は表され、第3図には特徴パラメータ 特徴パラメータ集合Ω、変換パラメータ Ωの平均ベクトル の関係が図示されている。
とすると、 yi(n)=(xi(n)−mi)/σ …(5) ここで、i=1,2,…,p、である。
有音判定器3では、特徴パラメータ変換器2から得ら
れた変換パラメータを基に有音区間を判定する。この有
音判定器3は第4図に示すように、マッチング器7と、
M個の標準パターン8とから構成されている。
標準パターン8は以下のように定義できる。標準パタ
ーン8は の平均値ベクトルμおよび、 の共分散行列Σである。なお、以下(8)〜(10)式で
は標準パターンのクラスを示すiを簡易のため省略す
る。
クラスωに属するL個のp次元変換パラメータを として、μとΣの各要素をμ、Σklとすると、 と表される。
マッチング器7では、標準パターンωと変換パラメ
ータ の距離を測定し、音声に属する標準パターンωにマッ
チングされた場合音声、そうでない場合無音と判定す
る。
まず、次式より各標準パターンω(i=1,…,M)と
変換パラメータ との距離 を測定する。
この を用いて、クラスiを計算すると、 となる。これによって、 はクラスiのωに属していることになる。もしω
音声を表すパターンであれば、そのフレームは有音、ω
が雑音をあらわすパターンであれば、そのフレームは
雑音であると判定する。
以上の各実施例の効果を具体的な測定結果を基に説明
する。
母音と異なり、子音の電力は背景音電力を下回ること
が多い。そのため、背景雑音が大きな環境では、子音区
間でも特徴パラメータに雑音の特徴が大きく出てしま
う。従来の方式では、背景雑音の影響を受けた特徴パラ
メータをそのまま判定に用いていたため、背景雑音が大
きな場合には、子音の検出誤りが多くなっていた。
本発明の各実施例では、雑音と音声の特徴を強調する
ため、S/N比が20dBから14dBほどの、背景雑音の大きな
環境でも検出率が良好な検出率が得られた。以下に、特
徴パラメータ・特徴パラメータ変換法を変えたときの語
頭子音の検出結果を示す。音声データに付けられたラベ
ルが子音を示しているフレームが子音のクラスのうちい
ずれかであると判定された場合、正しく検出されたもの
であるとする。
第5図に示した検出率は子音検出率と雑音検出率の平
均値である。子音検出率は、次式で定義される。
また、雑音データのフレームが、雑音クラスのうちい
ずれかであると判定された場合、正しく検出されたもの
とする。これが雑音検出率であり、次式で定義される。
第5図において、縦軸は検出率である。また、横軸は
特徴パラメータの種類を示しており、LPCはLPCケプスト
ラム、Pはフレーム内平均電力、P+LPCはPとLPCの併
用である。
なお、以下ではLPCケプストラム分析次元は12次、変
換パラメータ次元は特徴パラメータがLPCのとき4次、
P+LPCのとき5次とした。特徴パラメータ変換法は、
プロットを変えて示した。
cは、特徴パラメータ変換を行わない従来の方法であ
る。
nは、第1図に示した実施例であり、雑音判定をして
いるものである。
vは、第1図に示した実施例で、雑音判定をしていな
いものである。
[発明の効果] 以上説明したように本発明によれば、特徴パラメータ
変換により特徴パラメータから雑音の影響を除去できる
ので、背景雑音が大きい環境下にあっても精確に有音区
間を判別することができる。
【図面の簡単な説明】
第1図は本発明に係る有音検出装置の概略構成を示すブ
ロック図、第2図は同実施例で使用されるバッファの構
成図、第3図は同実施例の変換パラメータの説明図、第
4図は有音判定器の構成例を示すブロック図、第5図は
各実施例における特徴パラメータと検出率との関係を示
す特性図、第6図は従来の有音検出装置の構成例を示す
ブロック図である。 1……特徴パラメータ計算器 2……特徴パラメータ変換器 3……有音判定器 4……雑音検出器 5……スイッチ 6……バッファ 7……マッチング器 8……標準パターン
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平2−266400(JP,A) 特開 昭60−200300(JP,A) 特開 平1−302298(JP,A) 特開 平4−58297(JP,A) 特開 昭61−48898(JP,A) 特開 平2−282798(JP,A) 特開 平2−26640(JP,A) 特開 平3−48900(JP,A) 特公 平5−56512(JP,B2) 1989年電子情報通信学会春季全国大会 講演論文集 第3分冊p.3−78「B− 372 ATM通信のための音声セル化方 式」(1989/3/28) 古井「ディジタル音声処理」(1985− 9−25)東海大学出版会 p.44−48 斎藤・中田「音声情報処理の基礎」 (昭56−11−30)オーム社 p.99− 103 電子情報通信学会技術研究報告[通信 ]Vol.89,No.132,CS89−33, 「音声パケット通信のための有音検出方 式」p.61−66(1989年7月19日発行) (58)調査した分野(Int.Cl.7,DB名) G10L 11/02 G10L 15/04 H04B 14/04 JICSTファイル(JOIS)

Claims (3)

    (57)【特許請求の範囲】
  1. 【請求項1】ある長さごとに区切ったフレームを単位と
    して入力された入力音声信号の特徴パラメータを求める
    特徴パラメータ生成手段と、 この特徴パラメータ生成手段で求められた前記特徴パラ
    メータに基づいて、前記入力音声信号が雑音であるか否
    かをフレーム毎に仮に判定する雑音判定手段と、 この雑音判定手段により雑音であると仮に判定されたフ
    レームの前記特徴パラメータ生成手段により求められた
    特徴パラメータを複数フレーム分蓄積する蓄積手段と、 この蓄積手段に蓄積された前記複数フレーム分の特徴パ
    ラメータを用いて、前記入力音声信号のフレームの特徴
    パラメータを変換パラメータに変換する変換手段と、 この変換手段により変換された前記変換パラメータに基
    づいて、前記入力音声信号のフレームが音声に属するか
    雑音に属するかを判定する有音判定手段と からなることを特徴とする有音検出装置。
  2. 【請求項2】前記変換手段は、前記入力音声信号のフレ
    ームの特徴パラメータと前記蓄積手段に蓄積された前記
    複数フレーム分の特徴パラメータとの距離ベクトルを求
    めることによって、前記入力音声信号のフレームの特徴
    パラメータを前記変換パラメータに変換することを特徴
    とする請求項1に記載の有音検出装置。
  3. 【請求項3】ある長さごとに区切ったフレームを単位と
    して入力された入力音声信号の特徴パラメータを求める
    特徴パラメータ生成ステップと、 この特徴パラメータ生成ステップで求められた前記特徴
    パラメータに基づいて、前記入力音声信号が雑音である
    か否かをフレーム毎に仮に判定する雑音判定ステップ
    と、 この雑音判定ステップにより雑音であると仮に判定され
    たフレームの前記特徴パラメータ生成ステップにより求
    められた特徴パラメータを複数フレーム分蓄積する蓄積
    ステップと、 この蓄積ステップに蓄積された前記複数フレーム分の特
    徴パラメータを用いて、前記入力音声信号のフレームの
    特徴パラメータを変換パラメータに変換する変換ステッ
    プと、 この変換ステップにより変換された前記変換パラメータ
    に基づいて、前記入力音声信号のフレームが音声に属す
    るか雑音に属するかを判定する有音判定ステップと からなることを特徴とする有音検出方法。
JP1183684A 1989-07-18 1989-07-18 有音検出装置及びその方法 Expired - Fee Related JP3032215B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1183684A JP3032215B2 (ja) 1989-07-18 1989-07-18 有音検出装置及びその方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1183684A JP3032215B2 (ja) 1989-07-18 1989-07-18 有音検出装置及びその方法

Publications (2)

Publication Number Publication Date
JPH0348900A JPH0348900A (ja) 1991-03-01
JP3032215B2 true JP3032215B2 (ja) 2000-04-10

Family

ID=16140121

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1183684A Expired - Fee Related JP3032215B2 (ja) 1989-07-18 1989-07-18 有音検出装置及びその方法

Country Status (1)

Country Link
JP (1) JP3032215B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111755029B (zh) * 2020-05-27 2023-08-25 北京大米科技有限公司 语音处理方法、装置、存储介质以及电子设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
1989年電子情報通信学会春季全国大会講演論文集 第3分冊p.3−78「B−372 ATM通信のための音声セル化方式」(1989/3/28)
古井「ディジタル音声処理」(1985−9−25)東海大学出版会 p.44−48
斎藤・中田「音声情報処理の基礎」(昭56−11−30)オーム社 p.99−103
電子情報通信学会技術研究報告[通信]Vol.89,No.132,CS89−33,「音声パケット通信のための有音検出方式」p.61−66(1989年7月19日発行)

Also Published As

Publication number Publication date
JPH0348900A (ja) 1991-03-01

Similar Documents

Publication Publication Date Title
US5692104A (en) Method and apparatus for detecting end points of speech activity
EP1083542B1 (en) A method and apparatus for speech detection
US5596680A (en) Method and apparatus for detecting speech activity using cepstrum vectors
EP2083417B1 (en) Sound processing device and program
US4937870A (en) Speech recognition arrangement
JP2002366192A (ja) 音声認識方法及び音声認識装置
JP3032215B2 (ja) 有音検出装置及びその方法
JPS6138479B2 (ja)
JP3354252B2 (ja) 音声認識装置
JPH0797279B2 (ja) 音声認識装置
JP2002189487A (ja) 音声認識装置および音声認識方法
KR0136608B1 (ko) 음성신호 검색용 음성인식 장치
JP3034279B2 (ja) 有音検出装置および有音検出方法
CN113611314A (zh) 一种说话人识别方法及系统
JP2580768B2 (ja) 音声認識装置
JP2001083978A (ja) 音声認識装置
JPH02205897A (ja) 有音検出装置
JPH034918B2 (ja)
KR100345402B1 (ko) 피치 정보를 이용한 실시간 음성 검출 장치 및 그 방법
JP3008404B2 (ja) 音声認識装置
JP3049711B2 (ja) 音声処理装置
JPH0398098A (ja) 音声認識装置
JPH0546558B2 (ja)
JPS60198596A (ja) 音声入力装置
JPS6227798A (ja) 音声認識装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees