JPS58143394A - 音声区間の検出・分類方式 - Google Patents
音声区間の検出・分類方式Info
- Publication number
- JPS58143394A JPS58143394A JP57024388A JP2438882A JPS58143394A JP S58143394 A JPS58143394 A JP S58143394A JP 57024388 A JP57024388 A JP 57024388A JP 2438882 A JP2438882 A JP 2438882A JP S58143394 A JPS58143394 A JP S58143394A
- Authority
- JP
- Japan
- Prior art keywords
- detection
- parameters
- voice section
- voice
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims description 11
- 238000000034 method Methods 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 3
- 238000010606 normalization Methods 0.000 description 2
- 238000010223 real-time analysis Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
本発明は音声の分析における音声区間の検出と検出され
た区間が有声音か無声音かの判定分類を行う方式に係り
、特に入力音声のレベルに依存しない上記検出と分類の
確実な実行に好適な方式に関する。
た区間が有声音か無声音かの判定分類を行う方式に係り
、特に入力音声のレベルに依存しない上記検出と分類の
確実な実行に好適な方式に関する。
音声の合成または認識のための分析において、もつとも
基本的な処理として、音声区間の検出と検出された区間
が有声区間か、無声区間かの判定(分類)がある。これ
が正確かつ確実に行われないと、合成音声の音質が劣化
したり、音声認識の誤シ率が増加したりする。
基本的な処理として、音声区間の検出と検出された区間
が有声区間か、無声区間かの判定(分類)がある。これ
が正確かつ確実に行われないと、合成音声の音質が劣化
したり、音声認識の誤シ率が増加したりする。
一般に、これらの検出、分類には入力音声の強度(分析
フレーム別の平均エネルギー)が重要な決定因子となる
。しかし入力音声の強度の絶対値を使うことは、結果が
入力条件に依存することとなり望壕しくない。従来のオ
フラインでの分析(たとえば合成のための分析)では、
ある長時間区間(たとえば−個の単語の全発声区間)に
おけるフレーム別平均エネルギーの最大値で正規化した
強度を用いることでこの対策としているが、実時間音声
分析合成や認識ではこうした対策がとれないという欠点
があった。
フレーム別の平均エネルギー)が重要な決定因子となる
。しかし入力音声の強度の絶対値を使うことは、結果が
入力条件に依存することとなり望壕しくない。従来のオ
フラインでの分析(たとえば合成のための分析)では、
ある長時間区間(たとえば−個の単語の全発声区間)に
おけるフレーム別平均エネルギーの最大値で正規化した
強度を用いることでこの対策としているが、実時間音声
分析合成や認識ではこうした対策がとれないという欠点
があった。
本発明は、上記問題点を解決するためになされたもので
、実時間分析においても確実に機能し、かつ入力音声の
強度の相対的な変動に依存しない音声区間の検出と検出
された区間での有声、無声の判定分類方式を提供するこ
とを目的とする。
、実時間分析においても確実に機能し、かつ入力音声の
強度の相対的な変動に依存しない音声区間の検出と検出
された区間での有声、無声の判定分類方式を提供するこ
とを目的とする。
この目的を達成するため本発明においては、入力音声信
号の相対レベル変動に依存しない3種のパラメータを入
力音声信号より抽出し、これらパラメータのもっている
物理的意味にもとづき、音声区間の検出とその区間での
有声、無声の判定分類をおこなう点に特徴がある。
号の相対レベル変動に依存しない3種のパラメータを入
力音声信号より抽出し、これらパラメータのもっている
物理的意味にもとづき、音声区間の検出とその区間での
有声、無声の判定分類をおこなう点に特徴がある。
音声の分析は通常20〜30ミリ秒間のデータを1ブロ
ツクとし、10〜20ミリ秒間隔で行われる。1ブロツ
クのデータから抽出される正規化主要パラメータの中で
、とくに本発明に関連して重要なパラメータは次の3つ
である。
ツクとし、10〜20ミリ秒間隔で行われる。1ブロツ
クのデータから抽出される正規化主要パラメータの中で
、とくに本発明に関連して重要なパラメータは次の3つ
である。
1) k1=l’、/γ0;正規化1次偏自己相関係
数(γO+ rtは0次および1 次の自己相関係数) 2) Ew=u (1−に?);正規化残差パワー(
pは分t、1 析次数) 3)φ;正規化残差相関のピーク値 これらの諸量はいずれも正規化されており、原理的VC
は入力音声信号の相対レベル変動には依存しない。これ
らのパラメータの値が実際にどのような慎をとるかの1
例を、第1図(男声の場合)と第2図(女声の場合)に
示す。
数(γO+ rtは0次および1 次の自己相関係数) 2) Ew=u (1−に?);正規化残差パワー(
pは分t、1 析次数) 3)φ;正規化残差相関のピーク値 これらの諸量はいずれも正規化されており、原理的VC
は入力音声信号の相対レベル変動には依存しない。これ
らのパラメータの値が実際にどのような慎をとるかの1
例を、第1図(男声の場合)と第2図(女声の場合)に
示す。
これら多数の分析結果およびその各パラメータがもって
いる物理的な意味から、第3図のような検出分類アルゴ
リズムが考えられる。
いる物理的な意味から、第3図のような検出分類アルゴ
リズムが考えられる。
こ\でVは有声音、Uは無声音、Sは無音を示す。
第3図でαlとα2はパラメータENに関し、またβl
とβ2はパラメータklに関してあらかじめ設定してお
く判定いき値であり、たとえば、次のような値とする。
とβ2はパラメータklに関してあらかじめ設定してお
く判定いき値であり、たとえば、次のような値とする。
α1−α2 、 α、=0.6
β1=0.4 、 β2”0.2この処理をフ
ローの形で第4図に示す。
ローの形で第4図に示す。
以下、実施例にもとづき本発明の詳細な説明する。
第5図は本発明の方式を用いた音声合成装置の一実施例
のブロック構成図である。
のブロック構成図である。
lブロン2分の音声波形1が、2つの分析回路2と3に
与えられる。2は偏自己相関係数による偏自己相関係数
J+1(2+・・・Ikllおよび正規化残差パワーp
oを求める分析回路であり、その処理内容についCは公
知である。
与えられる。2は偏自己相関係数による偏自己相関係数
J+1(2+・・・Ikllおよび正規化残差パワーp
oを求める分析回路であり、その処理内容についCは公
知である。
(中田和男二「音声」 (コロナ社)、1977、第3
章、 3.2.5および3.2.6または、安居院。
章、 3.2.5および3.2.6または、安居院。
中高;「コンピュータ音声処理」 (産報出版)。
1980、第2章参照)
その出力4として、klおよびpoが判定回路6に入力
される。
される。
一方3は音源分析回路であシ、正規化残差相関φを求め
る。その処理内容についても公知である(上記2文献参
照)。その出力5としてφが判定回路6に入力される。
る。その処理内容についても公知である(上記2文献参
照)。その出力5としてφが判定回路6に入力される。
判定回路6においては第3図の論理、すなわち第4図の
フローにしたがって所定のいき値1o。
フローにしたがって所定のいき値1o。
11.12にもとづき検出分類を行う。これらの処理は
、たとえばマイクロプロセッサを使って容易に実現でき
る。判定回路6の出力はV(有声音)、U(無声音)ま
たばS(無音)に応じてそれぞれ端子7,8.9から得
られる。
、たとえばマイクロプロセッサを使って容易に実現でき
る。判定回路6の出力はV(有声音)、U(無声音)ま
たばS(無音)に応じてそれぞれ端子7,8.9から得
られる。
1ブロツクのデータの処理が終れば次のブロックの処理
が開始され、以下これがくりかえされる。
が開始され、以下これがくりかえされる。
第6図は本発明の方法に従って時間軸tにたいして実時
間で入力音声の音声区間(S=U、V又はS)の検出と
、検出された各区間(S)における音声の判定分類(U
又はV)をおこなった実験の結果であり、第7図は別の
音声についての同様の結果を要因別の変化とそれにもと
づく総合分類結果として示したものであるが、この結果
によれば上記検出と判定分類が正しくおこなわれており
本発明の方法が有効なことがわかる。
間で入力音声の音声区間(S=U、V又はS)の検出と
、検出された各区間(S)における音声の判定分類(U
又はV)をおこなった実験の結果であり、第7図は別の
音声についての同様の結果を要因別の変化とそれにもと
づく総合分類結果として示したものであるが、この結果
によれば上記検出と判定分類が正しくおこなわれており
本発明の方法が有効なことがわかる。
以上説明したごとく、本発明によれば、音声区間の検出
、その有声音、無声音での分類が、その信号の入力レベ
ルの変動に関係なく、かつそのフレームだけで正確かつ
確実に行われるので、実時間分析の必要な音声の分析合
成伝送系や、音声認識において音質を改善し、誤シを減
少させる効果がある。
、その有声音、無声音での分類が、その信号の入力レベ
ルの変動に関係なく、かつそのフレームだけで正確かつ
確実に行われるので、実時間分析の必要な音声の分析合
成伝送系や、音声認識において音質を改善し、誤シを減
少させる効果がある。
第1図と第2図は本発明の基本となる正規化パラメータ
(k I HI!IN 1 φ)の分析抽出結果の一例
を示す図、第3図は本発明にもとづく検出、分類の原理
を示す図、第4図は第3図の原理に従って検出、分類を
おこなう処理のフローを示す図、第5図は本発明の一実
施例のブロック構成図、第6゜7図は本発明による検出
と分類の実験結果の一例を示す図である。 第 3 図 Aw。 第 4 図
(k I HI!IN 1 φ)の分析抽出結果の一例
を示す図、第3図は本発明にもとづく検出、分類の原理
を示す図、第4図は第3図の原理に従って検出、分類を
おこなう処理のフローを示す図、第5図は本発明の一実
施例のブロック構成図、第6゜7図は本発明による検出
と分類の実験結果の一例を示す図である。 第 3 図 Aw。 第 4 図
Claims (1)
- 【特許請求の範囲】 1、音声波形を含むことを検出された入力信号を所定間
隔ごとにブロック化し、各ブロックにおける信号から該
信号のレベル変動に依存しないパラメータを抽出し、該
パラメータにもとづき上記信号区間が音声区間であるか
否かを検出し、該検出された音声区間における音声の分
類をおこなうことを特徴とする音声区間の検出・分類方
式。 2、上記パラメータは正規化1次偏自己相関係数、正規
化残差パワーおよび正規化残差相関係数のピーク値であ
ることを特徴とする特許請求の範囲第1項の音声区間の
検出・分類方式。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP57024388A JPS58143394A (ja) | 1982-02-19 | 1982-02-19 | 音声区間の検出・分類方式 |
US06/462,015 US4720862A (en) | 1982-02-19 | 1983-01-28 | Method and apparatus for speech signal detection and classification of the detected signal into a voiced sound, an unvoiced sound and silence |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP57024388A JPS58143394A (ja) | 1982-02-19 | 1982-02-19 | 音声区間の検出・分類方式 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS58143394A true JPS58143394A (ja) | 1983-08-25 |
JPH0376472B2 JPH0376472B2 (ja) | 1991-12-05 |
Family
ID=12136776
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP57024388A Granted JPS58143394A (ja) | 1982-02-19 | 1982-02-19 | 音声区間の検出・分類方式 |
Country Status (2)
Country | Link |
---|---|
US (1) | US4720862A (ja) |
JP (1) | JPS58143394A (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01286643A (ja) * | 1988-05-13 | 1989-11-17 | Fujitsu Ltd | 音声検出装置 |
JPH02267599A (ja) * | 1989-04-10 | 1990-11-01 | Fujitsu Ltd | 音声検出装置 |
JPH03259197A (ja) * | 1990-03-08 | 1991-11-19 | Nec Corp | 音声合成器 |
JPH0467200A (ja) * | 1990-07-09 | 1992-03-03 | Matsushita Electric Ind Co Ltd | 有音区間判定方法 |
JPH04223497A (ja) * | 1990-12-25 | 1992-08-13 | Oki Electric Ind Co Ltd | 有音区間の検出方法 |
JP2002261553A (ja) * | 2001-03-02 | 2002-09-13 | Ricoh Co Ltd | 音声自動利得制御装置、音声自動利得制御方法、音声自動利得制御用のアルゴリズムを持つコンピュータプログラムを格納する記憶媒体及び音声自動利得制御用のアルゴリズムを持つコンピュータプログラム |
US6952670B2 (en) | 2000-07-18 | 2005-10-04 | Matsushita Electric Industrial Co., Ltd. | Noise segment/speech segment determination apparatus |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4920568A (en) * | 1985-07-16 | 1990-04-24 | Sharp Kabushiki Kaisha | Method of distinguishing voice from noise |
JP2707564B2 (ja) * | 1987-12-14 | 1998-01-28 | 株式会社日立製作所 | 音声符号化方式 |
EP0381507A3 (en) * | 1989-02-02 | 1991-04-24 | Kabushiki Kaisha Toshiba | Silence/non-silence discrimination apparatus |
US5146502A (en) * | 1990-02-26 | 1992-09-08 | Davis, Van Nortwick & Company | Speech pattern correction device for deaf and voice-impaired |
JP2746033B2 (ja) * | 1992-12-24 | 1998-04-28 | 日本電気株式会社 | 音声復号化装置 |
BE1007355A3 (nl) * | 1993-07-26 | 1995-05-23 | Philips Electronics Nv | Spraaksignaaldiscriminatieschakeling alsmede een audio-inrichting voorzien van een dergelijke schakeling. |
US6708146B1 (en) | 1997-01-03 | 2004-03-16 | Telecommunications Research Laboratories | Voiceband signal classifier |
US6574321B1 (en) | 1997-05-08 | 2003-06-03 | Sentry Telecom Systems Inc. | Apparatus and method for management of policies on the usage of telecommunications services |
US5949864A (en) * | 1997-05-08 | 1999-09-07 | Cox; Neil B. | Fraud prevention apparatus and method for performing policing functions for telephone services |
US6134524A (en) * | 1997-10-24 | 2000-10-17 | Nortel Networks Corporation | Method and apparatus to detect and delimit foreground speech |
US6424938B1 (en) * | 1998-11-23 | 2002-07-23 | Telefonaktiebolaget L M Ericsson | Complex signal activity detection for improved speech/noise classification of an audio signal |
US6795807B1 (en) * | 1999-08-17 | 2004-09-21 | David R. Baraff | Method and means for creating prosody in speech regeneration for laryngectomees |
US6535843B1 (en) * | 1999-08-18 | 2003-03-18 | At&T Corp. | Automatic detection of non-stationarity in speech signals |
JP4201470B2 (ja) * | 2000-09-12 | 2008-12-24 | パイオニア株式会社 | 音声認識システム |
US7472059B2 (en) * | 2000-12-08 | 2008-12-30 | Qualcomm Incorporated | Method and apparatus for robust speech classification |
US7295976B2 (en) | 2002-01-25 | 2007-11-13 | Acoustic Technologies, Inc. | Voice activity detector for telephone |
US6847930B2 (en) * | 2002-01-25 | 2005-01-25 | Acoustic Technologies, Inc. | Analog voice activity detector for telephone |
US6754337B2 (en) | 2002-01-25 | 2004-06-22 | Acoustic Technologies, Inc. | Telephone having four VAD circuits |
FI118704B (fi) * | 2003-10-07 | 2008-02-15 | Nokia Corp | Menetelmä ja laite lähdekoodauksen tekemiseksi |
CN101197130B (zh) * | 2006-12-07 | 2011-05-18 | 华为技术有限公司 | 声音活动检测方法和声音活动检测器 |
CN101256772B (zh) * | 2007-03-02 | 2012-02-15 | 华为技术有限公司 | 确定非噪声音频信号归属类别的方法和装置 |
TWI403304B (zh) | 2010-08-27 | 2013-08-01 | Ind Tech Res Inst | 隨身語能偵知方法及其裝置 |
US9454976B2 (en) | 2013-10-14 | 2016-09-27 | Zanavox | Efficient discrimination of voiced and unvoiced sounds |
CN110838296B (zh) * | 2019-11-18 | 2022-04-29 | 锐迪科微电子科技(上海)有限公司 | 录音过程的控制方法、系统、电子设备和存储介质 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3979557A (en) * | 1974-07-03 | 1976-09-07 | International Telephone And Telegraph Corporation | Speech processor system for pitch period extraction using prediction filters |
US4074069A (en) * | 1975-06-18 | 1978-02-14 | Nippon Telegraph & Telephone Public Corporation | Method and apparatus for judging voiced and unvoiced conditions of speech signal |
JPS6051720B2 (ja) * | 1975-08-22 | 1985-11-15 | 日本電信電話株式会社 | 音声の基本周期抽出装置 |
US4301329A (en) * | 1978-01-09 | 1981-11-17 | Nippon Electric Co., Ltd. | Speech analysis and synthesis apparatus |
CA1123955A (en) * | 1978-03-30 | 1982-05-18 | Tetsu Taguchi | Speech analysis and synthesis apparatus |
CH635695A5 (de) * | 1978-08-31 | 1983-04-15 | Landis & Gyr Ag | Detektor zur feststellung der anwesenheit mindestens eines elektrischen signals mit einer vorbestimmten charakteristik. |
JPS5648688A (en) * | 1979-09-28 | 1981-05-01 | Hitachi Ltd | Sound analyser |
JPS56104399A (en) * | 1980-01-23 | 1981-08-20 | Hitachi Ltd | Voice interval detection system |
-
1982
- 1982-02-19 JP JP57024388A patent/JPS58143394A/ja active Granted
-
1983
- 1983-01-28 US US06/462,015 patent/US4720862A/en not_active Expired - Lifetime
Non-Patent Citations (1)
Title |
---|
IEEE TRANSACTIONS ON ACOUSTICS SPEECH AND SIGNAL PROCESSING=1976 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01286643A (ja) * | 1988-05-13 | 1989-11-17 | Fujitsu Ltd | 音声検出装置 |
JPH02267599A (ja) * | 1989-04-10 | 1990-11-01 | Fujitsu Ltd | 音声検出装置 |
JPH03259197A (ja) * | 1990-03-08 | 1991-11-19 | Nec Corp | 音声合成器 |
JPH0467200A (ja) * | 1990-07-09 | 1992-03-03 | Matsushita Electric Ind Co Ltd | 有音区間判定方法 |
JPH04223497A (ja) * | 1990-12-25 | 1992-08-13 | Oki Electric Ind Co Ltd | 有音区間の検出方法 |
US6952670B2 (en) | 2000-07-18 | 2005-10-04 | Matsushita Electric Industrial Co., Ltd. | Noise segment/speech segment determination apparatus |
JP2002261553A (ja) * | 2001-03-02 | 2002-09-13 | Ricoh Co Ltd | 音声自動利得制御装置、音声自動利得制御方法、音声自動利得制御用のアルゴリズムを持つコンピュータプログラムを格納する記憶媒体及び音声自動利得制御用のアルゴリズムを持つコンピュータプログラム |
JP4548953B2 (ja) * | 2001-03-02 | 2010-09-22 | 株式会社リコー | 音声自動利得制御装置、音声自動利得制御方法、音声自動利得制御用のアルゴリズムを持つコンピュータプログラムを格納する記憶媒体及び音声自動利得制御用のアルゴリズムを持つコンピュータプログラム |
Also Published As
Publication number | Publication date |
---|---|
US4720862A (en) | 1988-01-19 |
JPH0376472B2 (ja) | 1991-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPS58143394A (ja) | 音声区間の検出・分類方式 | |
JPS5876899A (ja) | 音声区間検出装置 | |
JPH0352640B2 (ja) | ||
Bandela et al. | Emotion recognition of stressed speech using teager energy and linear prediction features | |
Weintraub | A computational model for separating two simultaneous talkers | |
Adiga et al. | Detection of glottal activity using different attributes of source information | |
Poorna et al. | Emotion recognition using multi-parameter speech feature classification | |
Seppänen et al. | Prosody-based classification of emotions in spoken finnish. | |
Sharma et al. | Automatic identification of silence, unvoiced and voiced chunks in speech | |
Sakaguchi et al. | The effect of polarity inversion of speech on human perception and data hiding as an application | |
Song et al. | Feature extraction and classification for audio information in news video | |
JP3031081B2 (ja) | 音声認識装置 | |
Niederjohn et al. | Computer recognition of the continuant phonemes in connected English speech | |
Sun et al. | Unsupervised speaker segmentation framework based on sparse correlation feature | |
Gulzar et al. | An improved endpoint detection algorithm using bit wise approach for isolated, spoken paired and Hindi hybrid paired words | |
Zhang et al. | Speech endpoint detection in noisy environments using EMD and teager energy operator | |
Mahgoub et al. | Voicing-state classification of co-channel speech using nonlinear state-space reconstruction | |
Kim et al. | Histogram equalization using centroids of fuzzy C-means of background speakers’ utterances for speaker identification | |
Yusof et al. | Speech recognition application based on malaysian spoken vowels using autoregressive model of the vocal tract | |
Fujisaki et al. | Automatic recognition of voiced stop consonants in CV and VCV utterances | |
Väyrynen et al. | An experiment in emotional content classification of spoken Finnish using prosodic features | |
JPS62194299A (ja) | 有声無声判定方式 | |
Prathosh | Temporal processing for event-based speech analysis with focus on stop consonants | |
JPS62183500A (ja) | 音声のピツチ抽出装置 | |
Li et al. | Discrimination of Speech and Ship-radiated Noise Based on Frequency Spectrum Similarity |