JPS61203497A - 音声認識方式 - Google Patents
音声認識方式Info
- Publication number
- JPS61203497A JPS61203497A JP60042571A JP4257185A JPS61203497A JP S61203497 A JPS61203497 A JP S61203497A JP 60042571 A JP60042571 A JP 60042571A JP 4257185 A JP4257185 A JP 4257185A JP S61203497 A JPS61203497 A JP S61203497A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- voice
- section
- interval
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 claims description 26
- 238000004364 calculation method Methods 0.000 claims description 23
- 238000006243 chemical reaction Methods 0.000 claims description 19
- 238000000034 method Methods 0.000 claims description 18
- 238000001228 spectrum Methods 0.000 claims description 10
- 238000012952 Resampling Methods 0.000 claims description 8
- 238000009499 grossing Methods 0.000 claims description 8
- 230000005236 sound signal Effects 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 17
- 238000001514 detection method Methods 0.000 description 16
- 230000000903 blocking effect Effects 0.000 description 6
- 230000003595 spectral effect Effects 0.000 description 6
- 230000004927 fusion Effects 0.000 description 4
- 238000005070 sampling Methods 0.000 description 3
- 241000862969 Stella Species 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- FGUUSXIOTUKUDN-IBGZPJMESA-N C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 Chemical compound C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 FGUUSXIOTUKUDN-IBGZPJMESA-N 0.000 description 1
- 235000010005 Catalpa ovata Nutrition 0.000 description 1
- 240000004528 Catalpa ovata Species 0.000 description 1
- 101000603402 Homo sapiens Protein NPAT Proteins 0.000 description 1
- 101100516913 Mus musculus Npat gene Proteins 0.000 description 1
- 101000860173 Myxococcus xanthus C-factor Proteins 0.000 description 1
- 102100038870 Protein NPAT Human genes 0.000 description 1
- 241000219492 Quercus Species 0.000 description 1
- 101100516914 Xenopus laevis npat gene Proteins 0.000 description 1
- 230000003930 cognitive ability Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
(産業上の利用分野)
本発明は、音声認識方式に関し、特に精度良く音声区間
の検出を行う音声区間検出に関するものである。
の検出を行う音声区間検出に関するものである。
(従来の技術)
従来の音声認識装置のブロック図を第7図に示す。同図
において、1は信号入力端子、2は周波数分析部、3は
音声取込制御部、4は取込開始信号、5は音声区間検出
部、6は取込終了信号、7は始端・終端情報、8は認識
部、9は出力端子の如く構成されておシ、以下各部の説
明をする。
において、1は信号入力端子、2は周波数分析部、3は
音声取込制御部、4は取込開始信号、5は音声区間検出
部、6は取込終了信号、7は始端・終端情報、8は認識
部、9は出力端子の如く構成されておシ、以下各部の説
明をする。
周波数分析部2は、第8図に示す如く構成されておシ、
入力音声信号11は前置増幅器12によ・シ適当なレベ
ルに増幅され、約200 Hzから6000Hzまでを
対数尺度で等間隔に分割されたN個のバンドパスフィル
タ群13、全波整流器群14、およびローパスフィルタ
群15により分析され、さらに、あらかじめ定められた
時間周期(以後サンプル周期と記す)毎にマルチプレク
サ16を順次切り換えながらAD変換器17によって量
子化され、サンプル周期毎にN個の分析結果18を出力
する。
入力音声信号11は前置増幅器12によ・シ適当なレベ
ルに増幅され、約200 Hzから6000Hzまでを
対数尺度で等間隔に分割されたN個のバンドパスフィル
タ群13、全波整流器群14、およびローパスフィルタ
群15により分析され、さらに、あらかじめ定められた
時間周期(以後サンプル周期と記す)毎にマルチプレク
サ16を順次切り換えながらAD変換器17によって量
子化され、サンプル周期毎にN個の分析結果18を出力
する。
音声取込制御部3は、取込開始信号4を受信したのち、
周波数分析部2の分析結果18を音声区間検出部5およ
び認識部8へ一定時間、または確かに音声の入力が終了
したと判断するまで出力する。音声の入力終了の判断法
としては、たとえば、各サンプル周期毎のN個のデータ
の平均値(以後フレームパワーと記す)を利用して、フ
レームパワーがあらかじめ設定された閾値を越えるもの
が、ある一定数存在したのち、閾値を越えないものが連
続一定数続いたとき音声の入力が終了したと判断する方
法がある。
周波数分析部2の分析結果18を音声区間検出部5およ
び認識部8へ一定時間、または確かに音声の入力が終了
したと判断するまで出力する。音声の入力終了の判断法
としては、たとえば、各サンプル周期毎のN個のデータ
の平均値(以後フレームパワーと記す)を利用して、フ
レームパワーがあらかじめ設定された閾値を越えるもの
が、ある一定数存在したのち、閾値を越えないものが連
続一定数続いたとき音声の入力が終了したと判断する方
法がある。
音声区間検出部5におけるブロック図を第9図に示す。
同図において、18は分析結果、21はパラメータ演算
部、6は取込終了信号、22はブロック化部、23は音
声区間判定部、7は始端終端情報の如く構成され、以下
詳細に説明する。
部、6は取込終了信号、22はブロック化部、23は音
声区間判定部、7は始端終端情報の如く構成され、以下
詳細に説明する。
ノクラメータ演算部21は、分析結果18から音声区間
検出に使用する(1)式で定義されるノ4ラメータを求
める部分である。
検出に使用する(1)式で定義されるノ4ラメータを求
める部分である。
Pj=aj8xje僧−1+(1)
ただしaj;第j番目の分析結果のスペクトル傾斜
マツ;第j番目の分析結果の平均値
また、スペクトル傾斜Jすなわち最小2乗近似直線の傾
きは、第j番目のN個の分析結果をX i jとすると
(i;N分割されたバンドパスフィルタ。
きは、第j番目のN個の分析結果をX i jとすると
(i;N分割されたバンドパスフィルタ。
群の周波数の低いものから順に付けられた番号)。
ajは(2)式によって求められる。
置き換えることができ、(2)式は(3)式に変形され
る。
る。
ことができる。
また、Xjは、ΣXijをNで除すことによって得ら1
≠1 れる。第10図は、Pjを演算するブロック図であシ、
以下同図に従って説明する。
≠1 れる。第10図は、Pjを演算するブロック図であシ、
以下同図に従って説明する。
第j番目のN個の分析結果x ij(1=112 g
=・N )が順番に出力されるものとすると、加算器1
01およびレジスタ102によってX・・の累積Σxi
j1コ 1=1 をレジスタ102にセットすることができ、その結果を
乗算器103と除算器106に出力される。
=・N )が順番に出力されるものとすると、加算器1
01およびレジスタ102によってX・・の累積Σxi
j1コ 1=1 をレジスタ102にセットすることができ、その結果を
乗算器103と除算器106に出力される。
値を求め、加算器105の一方に入力される。また、−
Xijのデータ出力と同期して働くカウンタ107の出
力と、xijとの積1−xljを乗算器108によって
求め、乗算器108の出力に接続されている加算器10
9と、さらにそれに接続されている′シフタ11°によ
・て、E、! ’ Xijを求めることができる。レジ
スタ110の出力Σt”xijは乗算i=1 器111の一方の入力に接続されており、乗算器111
の他方の入力にはNがセットされていて、乗算器111
ではN・Σ1”Xijが演算され、加算器1厘1 105のもう一方に入力される。加算器105で112
に接続されている。除算器112では、第j番目のサン
プルデータのスペクトル傾斜ajを求められ、その結果
は乗算器113の一方の入力と′6・また除算器106
7は・ 、E、X i jを8で除すことによって杓が
求められ、その結果は乗算器113の他方の入力となシ
、乗算器113によってP・(=aj−″x j)を求
めることができる。以上の演算をサンプル周期毎に行な
って、各サンプル時のPjO値を全て演算することがで
きる。
Xijのデータ出力と同期して働くカウンタ107の出
力と、xijとの積1−xljを乗算器108によって
求め、乗算器108の出力に接続されている加算器10
9と、さらにそれに接続されている′シフタ11°によ
・て、E、! ’ Xijを求めることができる。レジ
スタ110の出力Σt”xijは乗算i=1 器111の一方の入力に接続されており、乗算器111
の他方の入力にはNがセットされていて、乗算器111
ではN・Σ1”Xijが演算され、加算器1厘1 105のもう一方に入力される。加算器105で112
に接続されている。除算器112では、第j番目のサン
プルデータのスペクトル傾斜ajを求められ、その結果
は乗算器113の一方の入力と′6・また除算器106
7は・ 、E、X i jを8で除すことによって杓が
求められ、その結果は乗算器113の他方の入力となシ
、乗算器113によってP・(=aj−″x j)を求
めることができる。以上の演算をサンプル周期毎に行な
って、各サンプル時のPjO値を全て演算することがで
きる。
ブロック化部22は、パラメータ演算部21の結果Pj
を取込終了信号6を検出するまで受は取り、取込終了信
号6を検出後、音声のブロック化(音声であると思われ
る部分のかだまりの検出)を行なう部分で、第11図に
ブロック図を示し、同図に従って説明する。
を取込終了信号6を検出するまで受は取り、取込終了信
号6を検出後、音声のブロック化(音声であると思われ
る部分のかだまりの検出)を行なう部分で、第11図に
ブロック図を示し、同図に従って説明する。
ノクラメータ演算部21の各サンプル周期毎のPjは、
順次Pjやラメータメモリ200に格納されているので
、それを順番に読取し絶対値回路201によって絶対値
化され、IFjIを比較器202の一方に入力する。比
較器202の他方の入力には、IPjIの閾値PTHが
セットされている。比較器202では、IPjl≧PT
Hのときにはα出力に、IpjI <PTI(のときに
はβ出力にそれぞれ有意信号を出力する。
順次Pjやラメータメモリ200に格納されているので
、それを順番に読取し絶対値回路201によって絶対値
化され、IFjIを比較器202の一方に入力する。比
較器202の他方の入力には、IPjIの閾値PTHが
セットされている。比較器202では、IPjl≧PT
Hのときにはα出力に、IpjI <PTI(のときに
はβ出力にそれぞれ有意信号を出力する。
カウンタ203は、IPjl≧PTHのときカウントア
ツプし、1Pj1<PTaのときクリアされるようにな
っておシ、1pjI≧PTHとなる連続量をカウントす
る。また、カウンタ203の出力は、常にレジスタ20
4にセットされている。レジスタ204にセットされて
いる値(IPjI≧PTHである連続数)は、比較器2
05に入力され、比較器205の他方の入力にはKがセ
ットされておシ、1pjI≧PTHである連続量(以下
ブロック長と記す)かに以上のとき、比較器205の出
力Cに有意信号が出力される。
ツプし、1Pj1<PTaのときクリアされるようにな
っておシ、1pjI≧PTHとなる連続量をカウントす
る。また、カウンタ203の出力は、常にレジスタ20
4にセットされている。レジスタ204にセットされて
いる値(IPjI≧PTHである連続数)は、比較器2
05に入力され、比較器205の他方の入力にはKがセ
ットされておシ、1pjI≧PTHである連続量(以下
ブロック長と記す)かに以上のとき、比較器205の出
力Cに有意信号が出力される。
ブロック長がK(K≧2の自然数)以上(C信号出力時
)で、かつ、比較器202のβ出力(1Pjl <PT
H)が表われたタイミングをAND回路206によって
捕える。カウンタ207は、AND回路206の出力か
ら出力までのPjを読み出した量を数えるもので、減算
器208によってカウンタ207の出力からレジスタ2
04の結果(ブロック長)を差し引くことにより、ブロ
ック間の距離(時間)を求めることができる。またカウ
ンタ209は、Pjの読出しと同期してカウントしてお
シ、減算器210によってカウンタ209の結果からレ
ジスタ204の出力(ブロック長)を引くことによって
、当該ブロックの先頭を求められる。
)で、かつ、比較器202のβ出力(1Pjl <PT
H)が表われたタイミングをAND回路206によって
捕える。カウンタ207は、AND回路206の出力か
ら出力までのPjを読み出した量を数えるもので、減算
器208によってカウンタ207の出力からレジスタ2
04の結果(ブロック長)を差し引くことにより、ブロ
ック間の距離(時間)を求めることができる。またカウ
ンタ209は、Pjの読出しと同期してカウントしてお
シ、減算器210によってカウンタ209の結果からレ
ジスタ204の出力(ブロック長)を引くことによって
、当該ブロックの先頭を求められる。
加算器211とレジスタ212によりIPjl≧PTH
の部分の累積を求め、ブロックの大きさを表わすSRな
るものを求め、AND回路206の信号を検出したとき
、レジスタ213にセットすると同時に、レジスタ21
3・の出力(以下ブロック量と記す)、減算器210の
出力(ブロック先頭情報)、レジスタ204の出力(ブ
ロック長)、および減算器208の出力(ブロック間距
離)をブロックテーブル214に登録する。このように
して取込んだ量全てについてブロック化が行なうことが
できる。
の部分の累積を求め、ブロックの大きさを表わすSRな
るものを求め、AND回路206の信号を検出したとき
、レジスタ213にセットすると同時に、レジスタ21
3・の出力(以下ブロック量と記す)、減算器210の
出力(ブロック先頭情報)、レジスタ204の出力(ブ
ロック長)、および減算器208の出力(ブロック間距
離)をブロックテーブル214に登録する。このように
して取込んだ量全てについてブロック化が行なうことが
できる。
音゛声区間判定部23は、ブロック化部22で得られた
ブロックテーブル214から、次のようにして音声区間
の判定を行なっていた。すなわち、ブロック量の最大値
となるブロックを検出し、それを音声区間の中心として
前後のブロックについて、ブロック間距離が一定値以下
であれば当該プログクも音声区間に含めるという方法で
、音声区間の判定を行なっていた。
ブロックテーブル214から、次のようにして音声区間
の判定を行なっていた。すなわち、ブロック量の最大値
となるブロックを検出し、それを音声区間の中心として
前後のブロックについて、ブロック間距離が一定値以下
であれば当該プログクも音声区間に含めるという方法で
、音声区間の判定を行なっていた。
認識部8は、音声取込制御部3に取込開始信号を送ると
ともに、音声取込制御部3からの分析結果を格納してお
き、さらに音声区間検出部5からの始端終端情報7を受
けると、あらかじめ用意されている内容既知の標準パタ
ーンとの類似度演算を行ない、最も類似度の高い標準パ
ターンと同一内容の音声が入力されたと判断し、その結
果を出力する。
ともに、音声取込制御部3からの分析結果を格納してお
き、さらに音声区間検出部5からの始端終端情報7を受
けると、あらかじめ用意されている内容既知の標準パタ
ーンとの類似度演算を行ない、最も類似度の高い標準パ
ターンと同一内容の音声が入力されたと判断し、その結
果を出力する。
(発明が解決しようとする問題点)
しかしながら、上記従来の技術における音声区間検出で
は、次のような問題点があった。
は、次のような問題点があった。
入力音声の強弱によりスベクトル傾斜&jが変化するた
め、不安定碌ノ9ラメータすなわち、Pjが不安定なi
J?ラメータである。また、スペクトル傾斜ajは、音
韻、話者による変化とともにマイクの特性等によって往
々にして、音声部においても0に近い値を取り、結果と
してPjもOに近い値となシ。
め、不安定碌ノ9ラメータすなわち、Pjが不安定なi
J?ラメータである。また、スペクトル傾斜ajは、音
韻、話者による変化とともにマイクの特性等によって往
々にして、音声部においても0に近い値を取り、結果と
してPjもOに近い値となシ。
ブロック化を誤まる。更に、ノイズが大きい場合、ノイ
ズとの区別(特に子音)がっけにくい。
ズとの区別(特に子音)がっけにくい。
具体例を第12図(、)乃至(c)に示す。同図におい
て、THL 1は従来の音声区間検出レベルであシ、T
HL 2はTHL 1よりもレベルを下げた時の閾値レ
ベルである。単語の中には発声のしかた(例えば声が小
さい、息に近い)は無声化を起こしやすいものがある。
て、THL 1は従来の音声区間検出レベルであシ、T
HL 2はTHL 1よりもレベルを下げた時の閾値レ
ベルである。単語の中には発声のしかた(例えば声が小
さい、息に近い)は無声化を起こしやすいものがある。
例えば、第12図(、)の「イチ」などは特に「イ」の
部分が無声化を起こし易く、ブロック化を誤まり、閾値
レベルがTHL 1の区間判定では「チ」の部しか検出
されない場合が多い。そこで「イ」のようにレベルが低
いために脱落してしまうカテゴリに対して第12図(b
)に示すように全体のTHL 2 マで閾値を下げるこ
とによって、区間判定を正確に行えるが、逆に下げた改
とにより、第12図(、)に示すようにこれまで通シの
閾値で問題なく区間検出が行われていた「ゴ」のような
カテゴリが、本来検出されるべき位置よりも余分なノイ
ズの部分をも音声区間として検出してしまうという欠点
があった。
部分が無声化を起こし易く、ブロック化を誤まり、閾値
レベルがTHL 1の区間判定では「チ」の部しか検出
されない場合が多い。そこで「イ」のようにレベルが低
いために脱落してしまうカテゴリに対して第12図(b
)に示すように全体のTHL 2 マで閾値を下げるこ
とによって、区間判定を正確に行えるが、逆に下げた改
とにより、第12図(、)に示すようにこれまで通シの
閾値で問題なく区間検出が行われていた「ゴ」のような
カテゴリが、本来検出されるべき位置よりも余分なノイ
ズの部分をも音声区間として検出してしまうという欠点
があった。
本発明は以上の問題に対して改良を図ることにより、音
声区間をより精度よく行ない誤認識をなくして認識率の
向上をはかることのできる音声認識方式を提供すること
を目的とする。
声区間をより精度よく行ない誤認識をなくして認識率の
向上をはかることのできる音声認識方式を提供すること
を目的とする。
(問題点を解決するための手段)
本発明は前記問題点を解決するために、入力音声信号を
周波数分析する周波数分析手段と、該手段の分析結果を
対数変換する対数変換手段と、該手段に接続されるスペ
クトル変換手段及び音声区間決定手段と、前記スペクト
ル変換手段に接続され前記音声区間決定手段から与えら
れる始端及び終端の間で一定のデータ長に再サングルし
て入カバターンを作成する再サンプル手段と、該手段か
らの入力・ぐターンと予め設定された標準パターンとの
距離演算を行なう距離演算手段と、該手段の演算結果か
ら距離最小の認識カテカリを判定する判定手段とを有す
る音声認識、方式において、エラーを起こす確率の高い
特定のカテゴリの組合わせを設定するコンフユージヨン
テーブルを設ケ、前記判定手段は距離最小の認識カテゴ
リと前記コンフユージヨンテーブルの特定のカテゴリと
を比較して、該当するカテゴリがある場合は前記音声区
間決定手段に閾値レベルを基準レベルより低くして再度
音声区間の決定を行なうように指示し、音声区間決定手
段は低レベルで音声区間を決定するものである。
周波数分析する周波数分析手段と、該手段の分析結果を
対数変換する対数変換手段と、該手段に接続されるスペ
クトル変換手段及び音声区間決定手段と、前記スペクト
ル変換手段に接続され前記音声区間決定手段から与えら
れる始端及び終端の間で一定のデータ長に再サングルし
て入カバターンを作成する再サンプル手段と、該手段か
らの入力・ぐターンと予め設定された標準パターンとの
距離演算を行なう距離演算手段と、該手段の演算結果か
ら距離最小の認識カテカリを判定する判定手段とを有す
る音声認識、方式において、エラーを起こす確率の高い
特定のカテゴリの組合わせを設定するコンフユージヨン
テーブルを設ケ、前記判定手段は距離最小の認識カテゴ
リと前記コンフユージヨンテーブルの特定のカテゴリと
を比較して、該当するカテゴリがある場合は前記音声区
間決定手段に閾値レベルを基準レベルより低くして再度
音声区間の決定を行なうように指示し、音声区間決定手
段は低レベルで音声区間を決定するものである。
好ましくは、前記音声区間決定手段は、前記対数変換手
段の出力データから得られるノクワー情報の音声区間を
記憶する音声区間記憶手段と、該手段の音声区間内で音
声ツクターンからノイズノ4 ターンを差し引いたパワ
ーを演算する演算手段と、該手段からのノ平ワー情報と
第2の閾値とを比較するコトにヨシ音声区間フラッグを
求めてスムージングを行なうスムージング手段と、該手
段からの音・声区間フラッグと第3の閾値を比較するこ
とにより音声ブロック候補を求める手段と、該手段から
の音声ブロック候補を用いて最大ブ四ツクテーブルを参
照しながら音声区間を決定する音声区間決定手段とから
構成されるものである。
段の出力データから得られるノクワー情報の音声区間を
記憶する音声区間記憶手段と、該手段の音声区間内で音
声ツクターンからノイズノ4 ターンを差し引いたパワ
ーを演算する演算手段と、該手段からのノ平ワー情報と
第2の閾値とを比較するコトにヨシ音声区間フラッグを
求めてスムージングを行なうスムージング手段と、該手
段からの音・声区間フラッグと第3の閾値を比較するこ
とにより音声ブロック候補を求める手段と、該手段から
の音声ブロック候補を用いて最大ブ四ツクテーブルを参
照しながら音声区間を決定する音声区間決定手段とから
構成されるものである。
(作用)
周波数分析手段は入力音声信号を周波数分析するように
働き、対数変換手段は分析結果を対数変換するように働
く。スペクトル変換手段は対数変換データを正規化する
ように働き、音声区間決定部は対数変換データから音声
の始端及び終端を決定するように働く。再サンプル手段
は始端から終端までの正規化データを再サンプル(時間
軸の正規化)を行って入力Aターンを作成するように働
く。
働き、対数変換手段は分析結果を対数変換するように働
く。スペクトル変換手段は対数変換データを正規化する
ように働き、音声区間決定部は対数変換データから音声
の始端及び終端を決定するように働く。再サンプル手段
は始端から終端までの正規化データを再サンプル(時間
軸の正規化)を行って入力Aターンを作成するように働
く。
距離演算手段は入カッ9ターンと標準ノ4?ターンとの
距離演算を行うように働く。判定手段は演算結果から距
離最小の認識力テコ°りを判定するように働く。また、
判定手段は認識カテゴリがコンフユージヨンテーブルに
設定された特定のカテゴリに該当するか否かを判定し、
次のように働く。該当しない場合は認識カテゴリを認識
結果として出力する。該当する場合は一度″目の基準レ
ベルより低くして再度音声区間を決定するように音声区
間決定手段に指示する。音声区間決定手段は低レベルで
音声区間の決定を再度行なう。
距離演算を行うように働く。判定手段は演算結果から距
離最小の認識力テコ°りを判定するように働く。また、
判定手段は認識カテゴリがコンフユージヨンテーブルに
設定された特定のカテゴリに該当するか否かを判定し、
次のように働く。該当しない場合は認識カテゴリを認識
結果として出力する。該当する場合は一度″目の基準レ
ベルより低くして再度音声区間を決定するように音声区
間決定手段に指示する。音声区間決定手段は低レベルで
音声区間の決定を再度行なう。
従って、前記従来技術の問題点が解決できるの゛である
。
。
(ニジT−倉自)
(実施例)
第1図は本発明の実施例を示すブロック図である。同図
において、100は入力端子、200は周波数分析部、
300は対数変換部、400は音声区間予備決定部、5
00は音声区間メモリ部、600は音声区間決定部、7
00はスペクトル変換部、800は再サンプル部、90
0は距離演算部、1000は標準パターンメモリ、11
00は判定部、1200は出力端子、1300はコンフ
ユージヨンテーブル、1400は再切シ出し信号である
。
において、100は入力端子、200は周波数分析部、
300は対数変換部、400は音声区間予備決定部、5
00は音声区間メモリ部、600は音声区間決定部、7
00はスペクトル変換部、800は再サンプル部、90
0は距離演算部、1000は標準パターンメモリ、11
00は判定部、1200は出力端子、1300はコンフ
ユージヨンテーブル、1400は再切シ出し信号である
。
このような構成において、入力端子100から入力され
る入力音声信号は、周波数分析部200に入力され、複
数の周波数帯域に対応した量子化信号U(i、j)とし
て、周波数分析され、対数変換部300に送られる。
る入力音声信号は、周波数分析部200に入力され、複
数の周波数帯域に対応した量子化信号U(i、j)とし
て、周波数分析され、対数変換部300に送られる。
対数変換部300では、第(4)式の計算が行なわれる
。周波数分析データをU(i、j)とする。
。周波数分析データをU(i、j)とする。
U(i、j) i = 1〜19.j=1〜ω0≦U
(i、j)≦2047 対数変換データをV(i、j)とする。
(i、j)≦2047 対数変換データをV(i、j)とする。
v(i、j) i=l〜19.J=l〜aQここでi
は周波数(1〜19 ah )を示し、jは時間(1〜
ωフレーム)を示す。また、前処理部からの入力データ
をU(i、j)とする。
は周波数(1〜19 ah )を示し、jは時間(1〜
ωフレーム)を示す。また、前処理部からの入力データ
をU(i、j)とする。
U(i、j) i = 1〜19.j=1〜の0≦U
(i、j)≦2047 対数変換ピット数をNBとする。ここではNu;8であ
る。
(i、j)≦2047 対数変換ピット数をNBとする。ここではNu;8であ
る。
対数変換部300で対数変換されたデータV(i、j)
は音声区間予備決定部400及びスペクトル変換部70
0に送られる。
は音声区間予備決定部400及びスペクトル変換部70
0に送られる。
音声区間予備決定部400では第2図に示すフローチャ
ートの手順、で処理を行なう。入力・母ターンノハワー
POw(j)及ヒ入カッ母ターンの10フレームの・ぐ
ワーPOWIO(ト)を、それぞれ第(5)式及び第(
6)式で計算する(ステップの、■)。
ートの手順、で処理を行なう。入力・母ターンノハワー
POw(j)及ヒ入カッ母ターンの10フレームの・ぐ
ワーPOWIO(ト)を、それぞれ第(5)式及び第(
6)式で計算する(ステップの、■)。
に=(j−1)/10+1
但し、j=(k−1)傘10+1とする。
ノイズレベルは第(7)式で決定する(ステップ■)ノ
イズ/ペル測定区間をに=に1〜に2とした時、但し、
k2=に、+2とする ここで切シ出しスライスレベルL1を Ll == NLEVEL+LO とする(ステップ■)。はじめてPOWIO(k、)が
Llよりも大きくP□10 (k、+ 1 )がLlよ
りも大きい点に3から40フレーム逆のほったフレーム
j、をjl = (ks−1)中10+1−40とする
(ステップ■、■)。仮の音声始端フレーム5TFR1
を 5TFR1= MAX (j 、 1 )とする(ステ
ップの)0 終端検出はに4かに2+1よりも大きく、かつPOWI
O(k4)がLlよりも小さいか等しくなった時に、仮
の音声終端フレームEDFR1をEDFR1=(k4−
1)傘10−1+9とする(ステップ■、■、 co)
。
イズ/ペル測定区間をに=に1〜に2とした時、但し、
k2=に、+2とする ここで切シ出しスライスレベルL1を Ll == NLEVEL+LO とする(ステップ■)。はじめてPOWIO(k、)が
Llよりも大きくP□10 (k、+ 1 )がLlよ
りも大きい点に3から40フレーム逆のほったフレーム
j、をjl = (ks−1)中10+1−40とする
(ステップ■、■)。仮の音声始端フレーム5TFR1
を 5TFR1= MAX (j 、 1 )とする(ステ
ップの)0 終端検出はに4かに2+1よりも大きく、かつPOWI
O(k4)がLlよりも小さいか等しくなった時に、仮
の音声終端フレームEDFR1をEDFR1=(k4−
1)傘10−1+9とする(ステップ■、■、 co)
。
このようにして求められた仮の音声始端フレーム5TF
R1及び仮の音声終端フレームEDFR1は一端、音声
区間メモリ部500に格納され、続いて音声区間決定部
600へ送られる。
R1及び仮の音声終端フレームEDFR1は一端、音声
区間メモリ部500に格納され、続いて音声区間決定部
600へ送られる。
音声区間決定部600では第3図に示すフローチャート
の手順で音声区間を決定する。
の手順で音声区間を決定する。
対数変換部300より計算された対数変換データV(i
、j)より、ノイズae p −y NPAT(i)を
計算する(ステプf(D)。但し、ノイズレベル測定区
間をに=に、〜に2とした時、jl及びj3の値を第(
8)式において計算する。
、j)より、ノイズae p −y NPAT(i)を
計算する(ステプf(D)。但し、ノイズレベル測定区
間をに=に、〜に2とした時、jl及びj3の値を第(
8)式において計算する。
ノイズパターン%FAT(i)を求める式を第(9)式
に示す。
に示す。
j = 5TFR1〜EDFR1
次に、第(9)式より求まったNpAT(i)を用い、
ノイズパターンを差し引いたパワーの計算を第61式に
より行なう(ステラfΦ)。
ノイズパターンを差し引いたパワーの計算を第61式に
より行なう(ステラfΦ)。
第61式より求まったP (j)はP/ぐラメータメモ
リに格納する(ステップ0)。格納されたP (j)は
次の第a傘式の比較を行なう。
リに格納する(ステップ0)。格納されたP (j)は
次の第a傘式の比較を行なう。
第a力式において、スライスレベルL2がP (j)よ
りも大きい場合は、FLAG(j) = 0とする。ま
たL2がP (j)よりも等しいか小さい場合はFLA
G(j)=1とする(ステプ7°@l)。第(ロ)式に
おいて決定されたFLAG(j)の値は、F’LAGへ
格納され、FLAG(j)の値に応じて、スムージング
1又はスムージング2へ逆;5れる(ステップ0)。
りも大きい場合は、FLAG(j) = 0とする。ま
たL2がP (j)よりも等しいか小さい場合はFLA
G(j)=1とする(ステプ7°@l)。第(ロ)式に
おいて決定されたFLAG(j)の値は、F’LAGへ
格納され、FLAG(j)の値に応じて、スムージング
1又はスムージング2へ逆;5れる(ステップ0)。
スムージング1ではFLAG(j)= Oの場合の操作
を行ないpLAc(j−1)=Oであシ、FLAG (
j+1 ) = 0である時はFLAG(j) = O
とする(ステラf[株])。またスムージング2では、
FLAG(j)= 1の場合の操作を行ないFLAG
(j−1) = 1であシ、FLAG (j+1 )
= 1である時は、FLAc(j) = 1とする(
ステップO)。
を行ないpLAc(j−1)=Oであシ、FLAG (
j+1 ) = 0である時はFLAG(j) = O
とする(ステラf[株])。またスムージング2では、
FLAG(j)= 1の場合の操作を行ないFLAG
(j−1) = 1であシ、FLAG (j+1 )
= 1である時は、FLAc(j) = 1とする(
ステップO)。
次に、FLAG(j)= 1が4フレ一ム以上連続し、
そのPOWI(イ)がスライスレベルL3よりも、大き
いか等しい場合のものをブロックとする(ステップ釦。
そのPOWI(イ)がスライスレベルL3よりも、大き
いか等しい場合のものをブロックとする(ステップ釦。
ブロック数をBLKSとし、ブロックtの先頭フレーム
をS(イ)、ブロックtの最終フレームをE(イ)とす
る。ブロックtのノイズノやターンを差し引いたノぐワ
ー゛P(j)の加算値は、第(2)式により求められる
。
をS(イ)、ブロックtの最終フレームをE(イ)とす
る。ブロックtのノイズノやターンを差し引いたノぐワ
ー゛P(j)の加算値は、第(2)式により求められる
。
ブロックtのフレーム数は第(至)式にょシ求められる
。
。
F R1(A= E(4−5(t)+ 1
・・・・・・α埠また、前ブロック(t−1)と
の間隔は第00式により求められる。
・・・・・・α埠また、前ブロック(t−1)と
の間隔は第00式により求められる。
FR2(4)= 5C1)−E(t−1)
・・・・・・α→ここでLlを音声先頭ブロック、t2
を音声最終ブロックとして、音声先頭ブロックL1につ
いては、第00式の条件を満たしている限りり、==:
t、−1とする。
・・・・・・α→ここでLlを音声先頭ブロック、t2
を音声最終ブロックとして、音声先頭ブロックL1につ
いては、第00式の条件を満たしている限りり、==:
t、−1とする。
FR2(tl)≦MIN(POWI (tl−1)/s
c1+sc2,5C3) ・・・α→また音声最終ブ
ロックt2については、第69式の条件を満たしている
限p t2=t2+1とする。
c1+sc2,5C3) ・・・α→また音声最終ブ
ロックt2については、第69式の条件を満たしている
限p t2=t2+1とする。
F’R(t2+1 )≦MIN(POWI(t2+1)
/SC1+SC2,5C3) −αQここでSC1〜S
C3は実験的に決められた定数であり、5C1=16
、5C2=8 、8C3=30である。
/SC1+SC2,5C3) −αQここでSC1〜S
C3は実験的に決められた定数であり、5C1=16
、5C2=8 、8C3=30である。
以上の式より、最大ブロックを中心に前後のブロックを
音声区間のブロックとして取シ込むかどうかの判定を行
ない、音声区間として採用する。
音声区間のブロックとして取シ込むかどうかの判定を行
ない、音声区間として採用する。
次に、このようにして決定された音声区間ブロック候補
(音声先頭ブロックt1、音声最終ブロックt2 )を
用い、最大ブロック(MAXBLX )テーブルを参照
して音声区間の決定を行なう(ステップe)。
(音声先頭ブロックt1、音声最終ブロックt2 )を
用い、最大ブロック(MAXBLX )テーブルを参照
して音声区間の決定を行なう(ステップe)。
音声区間決定に用いる認識語の最大ブロック数のテーブ
ルMAXBLKテーブルを説明する。
ルMAXBLKテーブルを説明する。
最大ブロック数MAXBLKO例を第4図に示す。左側
がカテコゝす(16語)を示し、右側は、予め発声デー
タから求めた各カテゴリの最大ブロック数を示す。これ
らの認識語セットの中で最大のMAXBLKを選ぶ。例
えば認識語の中に「モーイチド」を含むならMAXBL
K = 3とする。
がカテコゝす(16語)を示し、右側は、予め発声デー
タから求めた各カテゴリの最大ブロック数を示す。これ
らの認識語セットの中で最大のMAXBLKを選ぶ。例
えば認識語の中に「モーイチド」を含むならMAXBL
K = 3とする。
BLKS≦MAXBLK
とする時、すなわちブロック数BLKSが最大ブロック
数MAXBLKよりも小さいか等しい場合であればすべ
てのブロックを音声区間とする。逆にBLKS ) M
AXBLK とする時、すなわちブロック数BLKが最大ブロック数
MAXBLKよりも大きい場合の例を第5図に示す。
数MAXBLKよりも小さいか等しい場合であればすべ
てのブロックを音声区間とする。逆にBLKS ) M
AXBLK とする時、すなわちブロック数BLKが最大ブロック数
MAXBLKよりも大きい場合の例を第5図に示す。
同図は音声区間のブロックの組み合わせを示す図であっ
て、ブロック数BLKS = 3である。対象とするカ
テゴリの最大ブロック数MAXBLK = 2であれば
■又は■の組み合わせが考えられる。■及び■のブロッ
クの組み合わせの各々のノクワーPP(イ)を求めた後
PPの比較を行ない、ブロックのパワーpp(z)が最
大となるブロックの組合せを音声区間とする。
て、ブロック数BLKS = 3である。対象とするカ
テゴリの最大ブロック数MAXBLK = 2であれば
■又は■の組み合わせが考えられる。■及び■のブロッ
クの組み合わせの各々のノクワーPP(イ)を求めた後
PPの比較を行ない、ブロックのパワーpp(z)が最
大となるブロックの組合せを音声区間とする。
ブロックの・ぐワーpp(4は第α乃式により求められ
る。
る。
t=1〜BLKS−MAXBLK+ 1第αり式より求
められた5(tl)は音声先頭ブロックであり、E(t
2)は音声最終ブロックとなり、音声始端フレーム5T
FRは 5TFR= S CL、) また音声終端フレームEDFRは EDFR= E(t2) となる。また、入カッ9ターンフレーム数IFRは次の
第C111式で表わされる。
められた5(tl)は音声先頭ブロックであり、E(t
2)は音声最終ブロックとなり、音声始端フレーム5T
FRは 5TFR= S CL、) また音声終端フレームEDFRは EDFR= E(t2) となる。また、入カッ9ターンフレーム数IFRは次の
第C111式で表わされる。
IFR= EDFR−5TFR+ 1 ・
・・・・・α梓処理終了の判定は、音声最終ブロックt
2が以下の第(至)式の条件を全て満たした時、処理を
終了とする。
・・・・・α梓処理終了の判定は、音声最終ブロックt
2が以下の第(至)式の条件を全て満たした時、処理を
終了とする。
すなわち、Llかに4 + k4 + 1 r k4
+ 2 + k4 + 3 +に4+4.のいずれに対
しても大きいか等しい場合は、処理終了となる。
+ 2 + k4 + 3 +に4+4.のいずれに対
しても大きいか等しい場合は、処理終了となる。
また第(至)式の条件が満たされなかった場合は、認識
を打ち切り POWlo(k4)≦L1 すなわちLlが大きいか等しくなる次のに4の値を求め
る。
を打ち切り POWlo(k4)≦L1 すなわちLlが大きいか等しくなる次のに4の値を求め
る。
このように決定された音声区間5TFR及び、EDFR
は、スペクトル変換部700から送られるW(i 、
j )と同時に再サンプル部800に送られる。再サン
グル部800では、音声の時間軸の正規化が行われる。
は、スペクトル変換部700から送られるW(i 、
j )と同時に再サンプル部800に送られる。再サン
グル部800では、音声の時間軸の正規化が行われる。
時間軸正規化の方法は、従来公知の技術であり、IJ
ニアマツチング方法では、音声区間を認識装置の条件に
よって定められた一定数に時間的に等間隔に分割、再サ
ンプルする方法である。そして、距離演算部900にお
いて、同様に作成された標準・やターンメモリ1000
の出力との距離演算を行ないその結果を判定部1100
に送る。
ニアマツチング方法では、音声区間を認識装置の条件に
よって定められた一定数に時間的に等間隔に分割、再サ
ンプルする方法である。そして、距離演算部900にお
いて、同様に作成された標準・やターンメモリ1000
の出力との距離演算を行ないその結果を判定部1100
に送る。
さて、16語のカテゴリの中には、認識を行なうと、エ
ラーの起こる確率の高い入力・ぐターンと標準/lター
ンの組み合わせが見られる。この原因としてはスペクト
ルノJ?ターンが明らかに似ているということも考えら
れるが、音声区間メモリ部によるエラーが多くを占めて
いる。例えば入力A?ターンが「イチ」の場合、「二」
にエラーを起こし易い。これは「イチ」の「イ」が無声
化をしたか、あるいは声が小さいので従来の音声区間決
定方式では、「イチ」の「チ」の部分しか検出されない
。
ラーの起こる確率の高い入力・ぐターンと標準/lター
ンの組み合わせが見られる。この原因としてはスペクト
ルノJ?ターンが明らかに似ているということも考えら
れるが、音声区間メモリ部によるエラーが多くを占めて
いる。例えば入力A?ターンが「イチ」の場合、「二」
にエラーを起こし易い。これは「イチ」の「イ」が無声
化をしたか、あるいは声が小さいので従来の音声区間決
定方式では、「イチ」の「チ」の部分しか検出されない
。
要するに「イチ」と発声すれば本来ブロック数は2つ検
出されるが1つしか検出されずK「イチ」が「二」に誤
まるような場合が多いのである。
出されるが1つしか検出されずK「イチ」が「二」に誤
まるような場合が多いのである。
第6図に示すコンフユージヨンテーブルには、前述した
例に上げたようなエラーを起こす確率の高い組み合わせ
を持っている。
例に上げたようなエラーを起こす確率の高い組み合わせ
を持っている。
判定部1100に送られた距離演算結果は、コンフユー
ジヨンテーブル1300との比較を行ない、テーブル内
の組み合わせに該当したものがなければ、そのまま出力
端子1200に出力する。
ジヨンテーブル1300との比較を行ない、テーブル内
の組み合わせに該当したものがなければ、そのまま出力
端子1200に出力する。
そして、判定部1100に送られた結果がコンフユージ
ヨンテーブル1300との比較を行ない、該ツク検出さ
れず、レベルを下げることによって、検出される可能性
もあるので、再び切シ出し信号1400が音声区間メモ
リ部500へ戻る。
ヨンテーブル1300との比較を行ない、該ツク検出さ
れず、レベルを下げることによって、検出される可能性
もあるので、再び切シ出し信号1400が音声区間メモ
リ部500へ戻る。
音声区間メモリ部500には、音声区間予備決定部40
0で既に検出部の従来の音声区間決定レベルで検出され
た音声区間が格納されている。判定部1100から音声
区間メモリ部500に戻った結果は音声区間メモリ部5
00に格納されている従来の音声区間検出レベルを基準
として、それより閾値レベル(スライスレベル)を下げ
て再度音声区間決定を行なう。そして、低レベルの閾値
で検出された結果をもって第3図に示す一連の処理を音
声区間決定部600において行なう。第3図; の詳細説明は前述したので、ここでは省略する。
0で既に検出部の従来の音声区間決定レベルで検出され
た音声区間が格納されている。判定部1100から音声
区間メモリ部500に戻った結果は音声区間メモリ部5
00に格納されている従来の音声区間検出レベルを基準
として、それより閾値レベル(スライスレベル)を下げ
て再度音声区間決定を行なう。そして、低レベルの閾値
で検出された結果をもって第3図に示す一連の処理を音
声区間決定部600において行なう。第3図; の詳細説明は前述したので、ここでは省略する。
そして、音声区間決定部600において、ブロック数B
LKSの検出された数が一度目に検出した際の数と異な
った場合は、スペクトル変換部700でスペクトル変換
、そして再サンプル部800で再サンプルを行なった後
、距離演算部900において、コンフユージヨンテーブ
ル上で該当している組み合わせのカテゴリのみと再度距
離演算を行ない、その結果を判定部1100に送シ最終
結果として出力端子1200へ出力する。
LKSの検出された数が一度目に検出した際の数と異な
った場合は、スペクトル変換部700でスペクトル変換
、そして再サンプル部800で再サンプルを行なった後
、距離演算部900において、コンフユージヨンテーブ
ル上で該当している組み合わせのカテゴリのみと再度距
離演算を行ない、その結果を判定部1100に送シ最終
結果として出力端子1200へ出力する。
(発明の効果)
以上、詳細に説明したように、本発明によれば音声区間
検出の際、無声化等による原因で音声区間検出誤りが特
に多いカテゴリに対して、閾値の設定を2段階以上のレ
ベルで行うととKより、音声区間検出をより精度よく行
うことが出来、音声認識装置の認識性能を向上するのに
効果がある。
検出の際、無声化等による原因で音声区間検出誤りが特
に多いカテゴリに対して、閾値の設定を2段階以上のレ
ベルで行うととKより、音声区間検出をより精度よく行
うことが出来、音声認識装置の認識性能を向上するのに
効果がある。
第1図は本発明の一実施例を示すブロック図、第2図は
音声区間予備決定部の処理手順を示すフローチャート、
第3図は音声区間決定部の処理手順を示すフローチャー
ト、第4図は音声区間のブロックの最大ブロック数を示
す図、第5図は音声区間のブロックの組合せを示す図、
第6図はコンフユージヨンテーブルの内容を示す図、第
7図は従来の音声認識装置のブロック図、第8図は第7
図の周波数分析部の詳細ブロック図、第9図は第7図の
音声区間検出部のブロック図、第10図は第9図のA?
ラメータ演算部の詳細ブロック図、第11図は第9図の
ブロック化部の詳細図、第12図は音声区間判定の説明
図である。 1・・・入力端子、2・・・周波数分析部、3・・・音
声取込制御部、4・・・取込開始信号、5・・・音声区
間検出部、6・・・取込終了信号、7・・・始端、終端
情報、8・・・認識部、9・・・出力端子、11・・・
入力音声信号、12・・・前置増幅器、13・・・パン
ドックスフィルタ群、14・・・全波整流器群、15・
・・ローA’スフィルタ群、16・・・マルチプレクサ
、17・・・AD変換器、18・・・分析結果、21・
・・A’ラメータ演算部、22・・・プロック化部、2
3・・・音声区間判定部、101゜105,109・・
・加算器、102.110・・・レジスタ、103,1
08,111,113・・・乗算器、104・・・補数
器、106,112・・・除算器、107・・・カウン
タ、200・・・p A?ラメータメモリ、201・・
・絶対値回路、202,205・・・比較器、203゜
207.209・・・カウンタ、214,212゜21
3・・・レジスタ、206・・・AND回路、208゜
210・・・減算器、211・・・加算器、214・・
・ブロックテーブル、100・・・入力端子、200・
・・周波数分析部、300・・・対数変換部、400・
・・音声区間予備決定部、500・・・音声区間メモリ
部、600・・・音声区間決定部、700・・・スイク
トル変換部、SOO・・・再サンプル部、900・・・
距離演算部、1000・・・標準パターンメモリ、11
00・・・判定部、1200・・・出力端子、1300
・・・コンフユージ1ノテーブル、1400・・・再切
シ出し信号。 特許出願人 沖電気工業株式会社 特許出願代理人 弁理士山本恵− 芥2凹 奉3コ 本4図 嶌5凹 ココ一■−−− 箪、7図 #ε回 本q凹
音声区間予備決定部の処理手順を示すフローチャート、
第3図は音声区間決定部の処理手順を示すフローチャー
ト、第4図は音声区間のブロックの最大ブロック数を示
す図、第5図は音声区間のブロックの組合せを示す図、
第6図はコンフユージヨンテーブルの内容を示す図、第
7図は従来の音声認識装置のブロック図、第8図は第7
図の周波数分析部の詳細ブロック図、第9図は第7図の
音声区間検出部のブロック図、第10図は第9図のA?
ラメータ演算部の詳細ブロック図、第11図は第9図の
ブロック化部の詳細図、第12図は音声区間判定の説明
図である。 1・・・入力端子、2・・・周波数分析部、3・・・音
声取込制御部、4・・・取込開始信号、5・・・音声区
間検出部、6・・・取込終了信号、7・・・始端、終端
情報、8・・・認識部、9・・・出力端子、11・・・
入力音声信号、12・・・前置増幅器、13・・・パン
ドックスフィルタ群、14・・・全波整流器群、15・
・・ローA’スフィルタ群、16・・・マルチプレクサ
、17・・・AD変換器、18・・・分析結果、21・
・・A’ラメータ演算部、22・・・プロック化部、2
3・・・音声区間判定部、101゜105,109・・
・加算器、102.110・・・レジスタ、103,1
08,111,113・・・乗算器、104・・・補数
器、106,112・・・除算器、107・・・カウン
タ、200・・・p A?ラメータメモリ、201・・
・絶対値回路、202,205・・・比較器、203゜
207.209・・・カウンタ、214,212゜21
3・・・レジスタ、206・・・AND回路、208゜
210・・・減算器、211・・・加算器、214・・
・ブロックテーブル、100・・・入力端子、200・
・・周波数分析部、300・・・対数変換部、400・
・・音声区間予備決定部、500・・・音声区間メモリ
部、600・・・音声区間決定部、700・・・スイク
トル変換部、SOO・・・再サンプル部、900・・・
距離演算部、1000・・・標準パターンメモリ、11
00・・・判定部、1200・・・出力端子、1300
・・・コンフユージ1ノテーブル、1400・・・再切
シ出し信号。 特許出願人 沖電気工業株式会社 特許出願代理人 弁理士山本恵− 芥2凹 奉3コ 本4図 嶌5凹 ココ一■−−− 箪、7図 #ε回 本q凹
Claims (2)
- (1)入力音声信号を周波数分析する周波数分析手段と
、該手段の分析結果を対数変換する対数変換手段と、該
手段に接続されるスペクトル変換手段及び音声区間決定
手段と、前記スペクトル変換手段に接続され前記音声区
間決定手段から与えられる始端及び終端の間で一定のデ
ータ長に再サンプルして入力パターンを作成する再サン
プル手段と、該手段からの入力パターンと予め設定され
た標準パターンとの距離演算を行なう距離演算手段と、
該手段の演算結果から距離最小の認識カテゴリを判定す
る判定手段とを有する音声認識方式において、エラーを
起こす確率の高い特定のカテゴリの組合わせを設定する
コンフュージョンテーブルを設け、前記判定手段は距離
最小の認識カテゴリと前記コンフュージョンテーブルの
特定のカテゴリとを比較して、該当するカテゴリがある
場合は前記音声区間決定手段に閾値レベルを基準レベル
より低くして再度音声区間の決定を行なうように指示し
、音声区間決定手段は低レベルで音声区間を決定するこ
とを特徴とする音声認識方式。 - (2)前記音声区間決定手段は、前記対数変換手段の出
力データから得られるパワー情報と第1の閾値とを比較
することにより音声区間の予備決定を行う音声区間予備
決定手段と、該手段からの音声区間を記憶する音声区間
記憶手段と、該手段の音声区間内で音声パターンからノ
イズパターンを差し引いたパワーを演算する演算手段と
、該手段からのパワー情報と第2の閾値とを比較するこ
とにより音声区間フラッグを求めてスムージングを行な
うスムージング手段と、該手段からの音声区間フラッグ
と第3の閾値を比較することにより音声ブロック候補を
求める手段と、該手段からの音声ブロック候補を用いて
最大ブロックテーブルを参照しながら音声区間を決定す
る音声区間決定手段とから構成されることを特徴とする
特許請求の範囲第1項記載の音声認識方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP60042571A JPS61203497A (ja) | 1985-03-06 | 1985-03-06 | 音声認識方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP60042571A JPS61203497A (ja) | 1985-03-06 | 1985-03-06 | 音声認識方式 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPS61203497A true JPS61203497A (ja) | 1986-09-09 |
Family
ID=12639748
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP60042571A Pending JPS61203497A (ja) | 1985-03-06 | 1985-03-06 | 音声認識方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS61203497A (ja) |
-
1985
- 1985-03-06 JP JP60042571A patent/JPS61203497A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105989836B (zh) | 一种语音采集方法、装置及终端设备 | |
AU2002252143B2 (en) | Segmenting audio signals into auditory events | |
AU2002252143A1 (en) | Segmenting audio signals into auditory events | |
JPS59121100A (ja) | 連続音声認識装置 | |
JPS61203497A (ja) | 音声認識方式 | |
EP1489597B1 (en) | Vowel recognition device | |
EP0283743B1 (en) | Pattern recognition apparatus | |
JPS60254100A (ja) | 音声認識方式 | |
JPS61256399A (ja) | 音声認識方式 | |
JP4537821B2 (ja) | オーディオ信号分析方法、その方法を用いたオーディオ信号認識方法、オーディオ信号区間検出方法、それらの装置、プログラムおよびその記録媒体 | |
JPS6131880B2 (ja) | ||
JPH0585917B2 (ja) | ||
JPS63213899A (ja) | 話者照合方式 | |
JP2744622B2 (ja) | 破裂子音識別方式 | |
JP2664136B2 (ja) | 音声認識装置 | |
JPS62113197A (ja) | 音声認識装置 | |
JPS60166993A (ja) | 単語音声認識装置 | |
JPH0451840B2 (ja) | ||
JP2577891B2 (ja) | 単語音声予備選択装置 | |
JPS6255798B2 (ja) | ||
JPH0298000A (ja) | 男女声の識別方法 | |
JPS6389900A (ja) | 音声認識装置 | |
JPH0221598B2 (ja) | ||
JPS5872198A (ja) | 音声識別装置 | |
JPS61275799A (ja) | 音声認識装置 |