JPS62159195A - 音声パタン作成方法 - Google Patents
音声パタン作成方法Info
- Publication number
- JPS62159195A JPS62159195A JP61000451A JP45186A JPS62159195A JP S62159195 A JPS62159195 A JP S62159195A JP 61000451 A JP61000451 A JP 61000451A JP 45186 A JP45186 A JP 45186A JP S62159195 A JPS62159195 A JP S62159195A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- vector
- speech
- audio
- pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims description 115
- 239000013598 vector Substances 0.000 claims description 114
- 238000004364 calculation method Methods 0.000 claims description 40
- 238000001228 spectrum Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 description 35
- 230000015654 memory Effects 0.000 description 26
- 238000001514 detection method Methods 0.000 description 21
- 230000003936 working memory Effects 0.000 description 14
- 238000004458 analytical method Methods 0.000 description 13
- 230000008602 contraction Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000012827 research and development Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000002250 progressing effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000011410 subtraction method Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
(産業上の利用分野)
この発明は音声特徴を効率良く表現し、認識装置の認識
性能を向上させる音声パタンの作成方法に関する。
性能を向上させる音声パタンの作成方法に関する。
(従来の技術)
従来より、情報及び通信機器の入力の効率化、システム
機能の向上等を図る目的のため、音声認識に関しての研
究開発が進められている。この音声認識を行う一般的な
方法に音声のスペクトルの形状を表わすパタンを用いて
認識を行うパタンマツチング法がある。
機能の向上等を図る目的のため、音声認識に関しての研
究開発が進められている。この音声認識を行う一般的な
方法に音声のスペクトルの形状を表わすパタンを用いて
認識を行うパタンマツチング法がある。
先ず、この発明の説明に先立ち、第8図を参照して従来
のパタンマツチング法につき説明する。
のパタンマツチング法につき説明する。
第8図において、lOは音声入力端子、11は音声分析
部、12は区間検出部、13は入力メモリ部、14は比
較パタンメモリ部、15は類似度計算部、16は判定部
、17は出力端子である。
部、12は区間検出部、13は入力メモリ部、14は比
較パタンメモリ部、15は類似度計算部、16は判定部
、17は出力端子である。
この従来の認識方式においては、音声入力端子10に入
力した入力音声を音声分析部11において特徴を表わす
ベクトルの時系列パタン(以下、音声パタンと称する)
に変換する。この音声パタンは、一般に、中心周波数の
異る2個のバンドパスフィルタ群によって抽出された帯
域内周波数成分を時間間隔T、(例えば8ミリ秒)毎に
標本化(以下、サンプリングと称する)することによっ
て得ている。従ってこの音声パタンは音声のスペクトル
形状そのものを表わしている。一方、この音声分析部1
1において、音声パタンに対応する時間点における音声
パワーを算出する。この音声分析部11において算出さ
れた音声パタンを人力メモリ部13に逐次格納すると共
に、音声パワーを区間検出部12へ出力する。
力した入力音声を音声分析部11において特徴を表わす
ベクトルの時系列パタン(以下、音声パタンと称する)
に変換する。この音声パタンは、一般に、中心周波数の
異る2個のバンドパスフィルタ群によって抽出された帯
域内周波数成分を時間間隔T、(例えば8ミリ秒)毎に
標本化(以下、サンプリングと称する)することによっ
て得ている。従ってこの音声パタンは音声のスペクトル
形状そのものを表わしている。一方、この音声分析部1
1において、音声パタンに対応する時間点における音声
パワーを算出する。この音声分析部11において算出さ
れた音声パタンを人力メモリ部13に逐次格納すると共
に、音声パワーを区間検出部12へ出力する。
区間検出部12では、音声分析部11からの音声パワー
に基づき、音声区間すなわち音声の始端及び終端を決定
する。この音声パワーによる音声の始端及び終端の決定
アルゴリズムについては、特願昭59−108668号
に開示されているような複雑なアルゴリズム、音声パワ
ーが閾値以上となった時点を音声の始端、閾値未満とな
った時点を音声の終端と考える簡易なアルゴリズムその
他のアルゴリズム等があり、いずれかの適切なアルゴリ
ズムで区間検出を行っている。この区間検出部12で決
定された始端及び終端間の音声パタンを入力メモリ部か
ら読出して類似度計算部15へ送る。一方、この類似度
計算部15には比較パタンメモリ部14から比較パタン
を別途入力させている。
に基づき、音声区間すなわち音声の始端及び終端を決定
する。この音声パワーによる音声の始端及び終端の決定
アルゴリズムについては、特願昭59−108668号
に開示されているような複雑なアルゴリズム、音声パワ
ーが閾値以上となった時点を音声の始端、閾値未満とな
った時点を音声の終端と考える簡易なアルゴリズムその
他のアルゴリズム等があり、いずれかの適切なアルゴリ
ズムで区間検出を行っている。この区間検出部12で決
定された始端及び終端間の音声パタンを入力メモリ部か
ら読出して類似度計算部15へ送る。一方、この類似度
計算部15には比較パタンメモリ部14から比較パタン
を別途入力させている。
この比較パタンは認識対象となる単語(以後カテゴリと
称する)に対し音声パタンと同一な音声分析処理を施し
たベクトルの時系列パタンであり、予め比較パタンメモ
リ部14に格納しておく。
称する)に対し音声パタンと同一な音声分析処理を施し
たベクトルの時系列パタンであり、予め比較パタンメモ
リ部14に格納しておく。
この格納に当り、比較パタンを作成するが、その作成は
認識目的によって異る。例えば、話者を限定した認識方
式の場合には、限定された話者が発声した音声を周波数
分析部11を用いて又はこれと同等な音声分析処理を施
して得られた音声パタンを比較パタンとして比較パタン
メモリ部14に格納する。
認識目的によって異る。例えば、話者を限定した認識方
式の場合には、限定された話者が発声した音声を周波数
分析部11を用いて又はこれと同等な音声分析処理を施
して得られた音声パタンを比較パタンとして比較パタン
メモリ部14に格納する。
類似度計算部15では、音声パタンと比較パタンとの間
の類似度計算を行う。この類似度計算には、例えば、文
献: 「沖電気研究開発118号」49 (3)に記載
の論文「不特定話者単語音声認識の研究」に開示されて
いる重み付は線形マツチング法、特公昭50−2394
1号に開示されているいわゆるDPマツチングと呼ばれ
ている方法すなわち発声速度の変動等による時間軸方向
の歪を最適化する方法又はその他の適切な方法を用いて
いる。
の類似度計算を行う。この類似度計算には、例えば、文
献: 「沖電気研究開発118号」49 (3)に記載
の論文「不特定話者単語音声認識の研究」に開示されて
いる重み付は線形マツチング法、特公昭50−2394
1号に開示されているいわゆるDPマツチングと呼ばれ
ている方法すなわち発声速度の変動等による時間軸方向
の歪を最適化する方法又はその他の適切な方法を用いて
いる。
この類似度計算部15から出力されるカテゴリ毎の類似
度を用いて、判定部16では、その最大類似度を与える
比較パタンに与えられたカテゴリ名を認識結果として出
力する。
度を用いて、判定部16では、その最大類似度を与える
比較パタンに与えられたカテゴリ名を認識結果として出
力する。
以上が従来のパタンマツチング法による音声認識方式の
概略である。
概略である。
(発明が解決しようとする問題点)
上述した従来の認識方式は、音声のスペクトルの形状を
与える音声パタンと、予め同一分析処理によって算出さ
れた比較パタンとの相違を類似度という尺度から評価し
、最大の類似度を与える比較パタンのカテゴリ名を認識
結果とする方法であった。従って、音声パタンのカテゴ
リと比較パタンのカテゴリとが同じ場合はその類似度は
大きく、異なる場合にはその類似度は小さくなるもので
あった。
与える音声パタンと、予め同一分析処理によって算出さ
れた比較パタンとの相違を類似度という尺度から評価し
、最大の類似度を与える比較パタンのカテゴリ名を認識
結果とする方法であった。従って、音声パタンのカテゴ
リと比較パタンのカテゴリとが同じ場合はその類似度は
大きく、異なる場合にはその類似度は小さくなるもので
あった。
しかしながら、音声のスペクトルの形状が音声以外の要
因例えば外部の雑音により歪んだ場合にはたとえ同一カ
テゴリといえどもその両者の類似度が大きくなるとはい
えなくなる。
因例えば外部の雑音により歪んだ場合にはたとえ同一カ
テゴリといえどもその両者の類似度が大きくなるとはい
えなくなる。
また、従来の認識方式では、比較パタン及び認識パタン
との記憶容量が相違するので、領域管理が複雑となると
いう問題点があった。
との記憶容量が相違するので、領域管理が複雑となると
いう問題点があった。
この発明の目的はこのような従来の問題点に鑑み、静寂
環境下はもとより雑音環境下における音声を用いても認
識性能を低下させない音声パタン作成方法を提供するこ
とにある。
環境下はもとより雑音環境下における音声を用いても認
識性能を低下させない音声パタン作成方法を提供するこ
とにある。
(問題点を解決するための手段)
上述した目的の達成を図るため、この発明の音声パタン
作成方法においては人力音声から類似度判定用の基準デ
ータを形成する登録処理と、認識音声から類似度判定用
の認識データを形成する認識処理とを行うに当り、次の
ような手段を採る。
作成方法においては人力音声から類似度判定用の基準デ
ータを形成する登録処理と、認識音声から類似度判定用
の認識データを形成する認識処理とを行うに当り、次の
ような手段を採る。
(a)先ず、音声のスペクトルの形状を一定時間間隔T
0 (音声フレーム周期と称する)毎に表わすベクトル
(音声特徴ベクトルと称する)を入力させる。
0 (音声フレーム周期と称する)毎に表わすベクトル
(音声特徴ベクトルと称する)を入力させる。
(b)また、任意の音声フレームにおける音声特徴ベク
トルと、次の音声フレームにおける音声特徴ベクトルと
を内分して音声特徴内分ベクトルを算出する。
トルと、次の音声フレームにおける音声特徴ベクトルと
を内分して音声特徴内分ベクトルを算出する。
(c)前述の音声特徴内分ベクトルから最小二乗近似直
線を算出し、この最小二乗近似直線を基準にして周波数
軸方向で極大かつ正となるチャネルに対応する成分を1
にしその他の成分を0にして得られるローカルピークベ
クトルを算出する。
線を算出し、この最小二乗近似直線を基準にして周波数
軸方向で極大かつ正となるチャネルに対応する成分を1
にしその他の成分を0にして得られるローカルピークベ
クトルを算出する。
そして、この場合、登録処理で得られたローカルピーク
ベクトルを基準データとし、認識処理で得られたローカ
ルピークベクトルを認識データとする。
ベクトルを基準データとし、認識処理で得られたローカ
ルピークベクトルを認識データとする。
これら処理によってそれぞれ得られたローカルピークベ
クトルはスペクトルの形状を与えるベクトルでなく音声
のスペクトルのピークの位置のみを与えるベクトルであ
る。
クトルはスペクトルの形状を与えるベクトルでなく音声
のスペクトルのピークの位置のみを与えるベクトルであ
る。
音声のピークの位置は雑音が入力されていてもさほど変
化するものでないため認識処理内の類似度に対する雑音
の影響が軽減される。
化するものでないため認識処理内の類似度に対する雑音
の影響が軽減される。
(作用)
次に、この発明の作用につき説明する。
この発明のの声パタン作成方法を達成するための機能は
第1図に示される処理ブロックによって構成される。
第1図に示される処理ブロックによって構成される。
第1図において21は音声のスペクトルの形状を表わす
音声特徴ベクトルが入力される入力端子、22は音声フ
レーム電力を算出し音声の始端、終端を検出する音声区
間検出部、23は音声特徴内分ベクトルを算出する音声
特徴内分ベクトル算出部、24はローカルピークベクト
ルを算出するローカルビーク算出部、25はローカルピ
ークベクトルの出力端子である。
音声特徴ベクトルが入力される入力端子、22は音声フ
レーム電力を算出し音声の始端、終端を検出する音声区
間検出部、23は音声特徴内分ベクトルを算出する音声
特徴内分ベクトル算出部、24はローカルピークベクト
ルを算出するローカルビーク算出部、25はローカルピ
ークベクトルの出力端子である。
作用の詳細な処理の説明に入る前にこの発明の入力であ
る音声特徴ベクトルについて考える。
る音声特徴ベクトルについて考える。
前にも述べたように音声特徴ベクトルは音声のスペクト
ルの形状を音声フレーム周期ごとに与えるベクトルであ
り、どのような分析手段によって得られたベクトルであ
るかはこの発明では本質ではない。
ルの形状を音声フレーム周期ごとに与えるベクトルであ
り、どのような分析手段によって得られたベクトルであ
るかはこの発明では本質ではない。
たとえば第2図に示されるような中心周波数の異なるバ
ンドパスフィルタ群によって周波数成分を抽出し、その
出力を絶対値化し、ローパスフィルタによって抽出した
ベクトルとしてもよい(文献=「沖電気研究開発122
号」iユ、(1)「不特定話者簡易音声認識方式の研究
」)。
ンドパスフィルタ群によって周波数成分を抽出し、その
出力を絶対値化し、ローパスフィルタによって抽出した
ベクトルとしてもよい(文献=「沖電気研究開発122
号」iユ、(1)「不特定話者簡易音声認識方式の研究
」)。
また、たとえばFFT 、 DFT処理によって得られ
た値もしくはそれらの値をログ周波数帯域に分割、平均
化して得られるベクトルとしてもよい。
た値もしくはそれらの値をログ周波数帯域に分割、平均
化して得られるベクトルとしてもよい。
さらには予め同一音声分析処理により音声が入力されて
いない環境雑音のみの分析を行い雑音パタンを算出し、
音声の入力されたときのスペクトルのパタンからこの雑
音パタンを減じ(スペクトラムサブトラクション法と呼
ばれている)た結果のベクトルとしてもよい。
いない環境雑音のみの分析を行い雑音パタンを算出し、
音声の入力されたときのスペクトルのパタンからこの雑
音パタンを減じ(スペクトラムサブトラクション法と呼
ばれている)た結果のベクトルとしてもよい。
尚、このような雑音パタンを減じる処理は雑音環境下で
の認識方式では必要な処理である。
の認識方式では必要な処理である。
今、i番目の音声フレームにおける音声特徴ベクトルを
alとしその成分を81、次元数をKとすると、 a=(a(、脣、・・・、a!、・・・、aK−1■ と表現することができる。
alとしその成分を81、次元数をKとすると、 a=(a(、脣、・・・、a!、・・・、aK−1■ と表現することができる。
[a:音声区間検出処理コ
音声フレームごとに入力端子21により入力される音声
特徴ベクトルa、を用いて当該音声フレームにおける音
声フレーム電力P1を算出する。
特徴ベクトルa、を用いて当該音声フレームにおける音
声フレーム電力P1を算出する。
音声区間検出部12ではフレーム電力P、を用いて音声
の区間検出を行う。
の区間検出を行う。
音声区間検出のアルゴリズムについては各方式が提案さ
れているが、この発明は音声区間検出のアルゴリズムが
重要なのではなく音声区間検出によって得られる始端と
終端の値が重要であるため、このアルゴリズムについて
は詳しくは述べない。
れているが、この発明は音声区間検出のアルゴリズムが
重要なのではなく音声区間検出によって得られる始端と
終端の値が重要であるため、このアルゴリズムについて
は詳しくは述べない。
音声区間検出部12によって検出された音声の始端をS
及び、終端をEとする。
及び、終端をEとする。
[b=音声特徴内分ベクトル算出処理]音声区間検出部
22によって検出され斥始端S及び終端Eを用いて入力
端子からの音声特徴ベクトルを一定音声フレーム長に時
間軸線形伸縮する。
22によって検出され斥始端S及び終端Eを用いて入力
端子からの音声特徴ベクトルを一定音声フレーム長に時
間軸線形伸縮する。
このブロック22における線形伸縮処理は認識処理、特
に線形マツチング処理を行い易くするために行う処理で
あり、さらにはこの発明により得られた音声パタンを格
納するためのメモリ内の領域管理を容易にするために行
う処理でもある。
に線形マツチング処理を行い易くするために行う処理で
あり、さらにはこの発明により得られた音声パタンを格
納するためのメモリ内の領域管理を容易にするために行
う処理でもある。
次に、この時間軸線形伸縮の方法について第3図を参照
して説明する。
して説明する。
第3図は時間軸線形伸縮方法を説明するための図で、横
軸に伸縮後のフレーム番号j及び縦軸に1音声フレーム
の時間経Jiをそれぞれ取って示しである。ここで、線
形伸縮処理によって得られたベクトルを音声特徴内分ベ
クトルと称する。
軸に伸縮後のフレーム番号j及び縦軸に1音声フレーム
の時間経Jiをそれぞれ取って示しである。ここで、線
形伸縮処理によって得られたベクトルを音声特徴内分ベ
クトルと称する。
また、線形伸縮後の音声フレーム数を説明の便宜のため
一例として32音声フレームとして説明するが、これに
限定されるものではない。
一例として32音声フレームとして説明するが、これに
限定されるものではない。
今、線形伸縮後のj番目(j=1〜32)の音声フレー
ムの音声特徴内分ベクトルをIb Jとし次式によって
算出する。j′をjに対応する実際の入力フレームの番
号とすると、 ただし[]はガウス記号を表わす。
ムの音声特徴内分ベクトルをIb Jとし次式によって
算出する。j′をjに対応する実際の入力フレームの番
号とすると、 ただし[]はガウス記号を表わす。
先ず、(2)式により、1フレームの始QSから終端E
までを31分したとき、伸縮後のj番目のフレームが1
フレームの時間軸i上で取る位置j′を求め、次いで(
3)式によりj′の両近傍特徴ベクトルを内分しrf声
特徴内分ベクトルlb jを算出している。
までを31分したとき、伸縮後のj番目のフレームが1
フレームの時間軸i上で取る位置j′を求め、次いで(
3)式によりj′の両近傍特徴ベクトルを内分しrf声
特徴内分ベクトルlb jを算出している。
[C:ローカルピークベクトル算出部I!l!]この処
理をローカルビーク算出部24で行う。
理をローカルビーク算出部24で行う。
音声特徴内分ベクトル算出部23から送出される音声特
徴内分ベクトルlb 、をローカルピークベクトル算出
部24においてローカルピークベクトルf1に変換する
。
徴内分ベクトルlb 、をローカルピークベクトル算出
部24においてローカルピークベクトルf1に変換する
。
この変換処理につき第4図(A)〜(c)を参照して説
明する。
明する。
音声特徴内分ベクトルlb 、の各成分す、は次式によ
り対数変換される。
り対数変換される。
第4図(八)にこの音声特徴内分ベクトル成分の対数変
換により得られた対数成分X+(k)の例を示し、横軸
にチャネル番号kを及び縦軸に対数成分x + (k)
をそれぞれプロットして示す。この図により、i番目の
音声フレームにおける音声の対数スペクトルの形状が表
わされている。
換により得られた対数成分X+(k)の例を示し、横軸
にチャネル番号kを及び縦軸に対数成分x + (k)
をそれぞれプロットして示す。この図により、i番目の
音声フレームにおける音声の対数スペクトルの形状が表
わされている。
次に、次式によって与えられる最小二乗近似直線
を用いて正規化を行う。
z(k) = x((k) −71(k)= x、(k
) −ui(k) ・k −v4(k)この正規化され
た音声特徴内分ベクトル成分(正規化成分と称する)Z
i(k)の例を第4図(B)に示す。第4図(B)にお
いて横軸にチャネル番号を及び縦軸に正規化成分Z I
(k)をそれぞれプロットして示す。
) −ui(k) ・k −v4(k)この正規化され
た音声特徴内分ベクトル成分(正規化成分と称する)Z
i(k)の例を第4図(B)に示す。第4図(B)にお
いて横軸にチャネル番号を及び縦軸に正規化成分Z I
(k)をそれぞれプロットして示す。
次に、次式(7)のような判断に基づいて、この正規化
成分z 1 (k)を用いてローカルピークベクトルr
1を算出する。
成分z 1 (k)を用いてローカルピークベクトルr
1を算出する。
この(7)式の判断条件を満たすkに対してはrI=l
、満たさないkに対してはr、=Oなる値を成分として
有するベクトルr。
、満たさないkに対してはr、=Oなる値を成分として
有するベクトルr。
を算出する。このベクトルrlをローカルピークベクト
ルと称する。このローカルピークベクトルf1の例を第
4図(c)に示す。
ルと称する。このローカルピークベクトルf1の例を第
4図(c)に示す。
上述した説明においては、音声特徴内分ベクトルの算出
を、始端の音声フレームから終端の音声フレームまでを
一定の音声フレーム長に線形伸縮することによって行う
方法につき説明したが、この発明では、必ずしも始端か
ら終端までを一様に線形伸縮する方法を与えるものでな
く、音声特徴内分ベクトル列の一部を時間的に隣接する
2つの音声特徴ベクトルの内分処理によって算出してロ
ーカルピークベクトルを算出する方法も適用できる。例
えば、音声定常部のみを伸縮して音声パタンを作成する
方法も適応できる。
を、始端の音声フレームから終端の音声フレームまでを
一定の音声フレーム長に線形伸縮することによって行う
方法につき説明したが、この発明では、必ずしも始端か
ら終端までを一様に線形伸縮する方法を与えるものでな
く、音声特徴内分ベクトル列の一部を時間的に隣接する
2つの音声特徴ベクトルの内分処理によって算出してロ
ーカルピークベクトルを算出する方法も適用できる。例
えば、音声定常部のみを伸縮して音声パタンを作成する
方法も適応できる。
(実施例)
以下、この発明の実施例につき第5図〜第7図を参照し
て説明する。
て説明する。
第5図はこの発明の音声パタン作成方法の一実施例を実
施するための具体的な回路構成を示すブロック図である
。
施するための具体的な回路構成を示すブロック図である
。
第5図において、41はマイクロフォン、42は音声信
号を増幅するための増幅器、43はローパスフィルタ、
44は音声をディジタル信号に変換するA/D変換器、
45は特徴ベクトルを算出する信号処理プロセッサ、4
6はプロセッサ、47はプロセッサのプログラムが格納
されているプログラムメモリ、48は比較パタンを格納
するための比較パタンメモリ、49は作業メモリ、5o
は雑音パタンを格納するための雑音パタンメモリ、51
は認識結果を外部に出力するためのインタフェースであ
る。ただし、それぞれの構成要素間には厳密な意味では
インタフェース回路が必要であるが、ここではこれを省
略する。
号を増幅するための増幅器、43はローパスフィルタ、
44は音声をディジタル信号に変換するA/D変換器、
45は特徴ベクトルを算出する信号処理プロセッサ、4
6はプロセッサ、47はプロセッサのプログラムが格納
されているプログラムメモリ、48は比較パタンを格納
するための比較パタンメモリ、49は作業メモリ、5o
は雑音パタンを格納するための雑音パタンメモリ、51
は認識結果を外部に出力するためのインタフェースであ
る。ただし、それぞれの構成要素間には厳密な意味では
インタフェース回路が必要であるが、ここではこれを省
略する。
立“パタン−の ダ
次に、この第5図を参照してこの発明の音声認識方式の
一例を説明する。
一例を説明する。
マイクロフォン41からの人力音声を増幅器42で増幅
した後、ローパスフィルタ(LPF)43においてその
高周波数成分を除去する。
した後、ローパスフィルタ(LPF)43においてその
高周波数成分を除去する。
次に、高周波成分が除去された人力音声をA/D変換器
44によって例えば12kHzのサンプリング周波数で
12ビツトにサンプリングする。前述のローパスフィル
タ43での処理はこのサンプリングのために必要な処理
で、従フて、このフィルタとしては例えば5kHzの遮
断周波数をもつ減衰48 d B / o c tのロ
ーパスフィルタを用いる。
44によって例えば12kHzのサンプリング周波数で
12ビツトにサンプリングする。前述のローパスフィル
タ43での処理はこのサンプリングのために必要な処理
で、従フて、このフィルタとしては例えば5kHzの遮
断周波数をもつ減衰48 d B / o c tのロ
ーパスフィルタを用いる。
A/D変換器44によってサンプリングされた音声のデ
ィジタルデータを信号処理プロセッサ45によって、周
波数分析される。この信号処理プロセッサ45によって
算出されるベクトルを特に特徴ベクトルに変換する。こ
の信号処理プロセッサ45として例えばTI社製の32
010DSPプロセツサを用いることが出来る。
ィジタルデータを信号処理プロセッサ45によって、周
波数分析される。この信号処理プロセッサ45によって
算出されるベクトルを特に特徴ベクトルに変換する。こ
の信号処理プロセッサ45として例えばTI社製の32
010DSPプロセツサを用いることが出来る。
プロセッサ46は音声フレーム周期毎に信号処理プロセ
ッサ45から出力される特徴ベクトルを用いて処理を行
うが、その処理の内容は ■ 登録処理 ■ 認識処理 とに分けられる。以下、これらの処理についてそれぞれ
説明をする。
ッサ45から出力される特徴ベクトルを用いて処理を行
うが、その処理の内容は ■ 登録処理 ■ 認識処理 とに分けられる。以下、これらの処理についてそれぞれ
説明をする。
[登録処理]
この処理は次の処理に分けられる。
雑音パタンの算出処理
音声特徴ベクトルの算出処理
音声区間検出処理
音声特徴内分ベクトル算出処理
ローカルピークベクトル算出処理
以下、これらの各処理につき第6図の登録処理の流れ図
を参照して説明する。尚、各ステップをSで表わす。
を参照して説明する。尚、各ステップをSで表わす。
登録処理を開始しくSl)、以下の処理を行う。
(雑音パタン算出処理)(S2)
登録処理のため、例えば、10音声フレームを雑音区間
と定める。このとき、話者は発声しないで、まわりの雑
音のみをマイクロフォン41から入力するようにする。
と定める。このとき、話者は発声しないで、まわりの雑
音のみをマイクロフォン41から入力するようにする。
この雑音入力を信号経路(42,43,44)を経て信
号処理プロセッサ45に送り、これより雑音ベクトルを
生じさせ、この雑音ベクトルを作業メモリ49に逐次格
納する。このメモリ49に10音声フレーム分の雑音ベ
クトルが格納されると、これら雑音ベクトルを平均化し
てその平均値を雑音パタンメモリ50に格納する。
号処理プロセッサ45に送り、これより雑音ベクトルを
生じさせ、この雑音ベクトルを作業メモリ49に逐次格
納する。このメモリ49に10音声フレーム分の雑音ベ
クトルが格納されると、これら雑音ベクトルを平均化し
てその平均値を雑音パタンメモリ50に格納する。
(音声特徴ベクトル算出処理)(S3)雑音区間終了後
、信号処理プロセッサ45から人力される特徴ベクトル
から雑音パタンメモリ50中の雑音パタンを減じること
によって、音声特徴ベクトルを算出し、これを作業メモ
リ49内に格納する。
、信号処理プロセッサ45から人力される特徴ベクトル
から雑音パタンメモリ50中の雑音パタンを減じること
によって、音声特徴ベクトルを算出し、これを作業メモ
リ49内に格納する。
この処理は音声フレーム周期毎に行われるが、音声区間
検出処理によって始端が検出されるまでの音声特徴ベク
トルは不必要であり、従って、作業メモリ49を効果的
に使用するためには適当に捨てていく。
検出処理によって始端が検出されるまでの音声特徴ベク
トルは不必要であり、従って、作業メモリ49を効果的
に使用するためには適当に捨てていく。
(音声区間検出処理)(S4)
次に、第1図に示した音声区間検出部22における前述
した処理を行う。
した処理を行う。
先ず、作業メモリ49に格納されている音声特徴ベクト
ル哀1からフレーム電力P1を算出する。
ル哀1からフレーム電力P1を算出する。
次に、この算出されたフレーム電力P1と、予め設定さ
れている区間検出周間値との間で、大小の比較を行って
音声の始端S及び終端Eをそれぞれ決定する。この場合
、音声の始端検出の簡単なアルゴリズムとしては、例え
ば、フレーム電力P1が、連続して3音声フレ一ム以上
、閾値以北となる先頭の音声フレームを始端Sとするア
ルゴリズムを用いることができるが、他のアルゴリズム
であってもよい。
れている区間検出周間値との間で、大小の比較を行って
音声の始端S及び終端Eをそれぞれ決定する。この場合
、音声の始端検出の簡単なアルゴリズムとしては、例え
ば、フレーム電力P1が、連続して3音声フレ一ム以上
、閾値以北となる先頭の音声フレームを始端Sとするア
ルゴリズムを用いることができるが、他のアルゴリズム
であってもよい。
また、音声の終端Eの検出の簡単なアルゴリズムとして
、例えば、フレーム電力P、が、連続して30音声フレ
一ム以上、閾値未満となる先頭の音声フレームから1つ
前の音声フレームを終端Eとするアルゴリズムを用いる
ことができるが、これに限定されるものではない。
、例えば、フレーム電力P、が、連続して30音声フレ
一ム以上、閾値未満となる先頭の音声フレームから1つ
前の音声フレームを終端Eとするアルゴリズムを用いる
ことができるが、これに限定されるものではない。
この音声区間の終端Eを検出しなかった場合には(SS
)、再び音声特徴ベクトルa1の算出処理(S3)を行
った後、音声区間の検出処理(S4)を繰り返し行い、
最終的に終端Eを検出する(S5)。
)、再び音声特徴ベクトルa1の算出処理(S3)を行
った後、音声区間の検出処理(S4)を繰り返し行い、
最終的に終端Eを検出する(S5)。
(音声特徴内分ベクトル算出処理’)(S6)音声直間
の終端検出後、作業メモリ49に格納されている音声特
徴ベクトル玉、と、音声区間の始端S及び終端Eとを用
いて、第1図の音声特徴内分ベクトル算出部23におけ
る前述した処理を行って、得られた音声特徴内分ベクト
ルTojを作業メモリ49に格納する(S6)。この場
合、線形伸縮の音声フレーム数を例えば32音声フレー
ムとする。
の終端検出後、作業メモリ49に格納されている音声特
徴ベクトル玉、と、音声区間の始端S及び終端Eとを用
いて、第1図の音声特徴内分ベクトル算出部23におけ
る前述した処理を行って、得られた音声特徴内分ベクト
ルTojを作業メモリ49に格納する(S6)。この場
合、線形伸縮の音声フレーム数を例えば32音声フレー
ムとする。
(ローカルピークベクトル算出処理)(S7)次に、作
業メモリ49に格納された音声特徴内分ベクトルわ、を
、第1図のローカルピークベクトル算出部24において
前述した処理を行ってローカルピークベクトルr1を得
、得られたローカルピークベクトルr1を比較パタンメ
モリ48に格納する。
業メモリ49に格納された音声特徴内分ベクトルわ、を
、第1図のローカルピークベクトル算出部24において
前述した処理を行ってローカルピークベクトルr1を得
、得られたローカルピークベクトルr1を比較パタンメ
モリ48に格納する。
z>3時の音声に対するローカルピークベクトルr1を
比較ローカルピークベクトルと称し、、、SJで表現す
る。また32個の比較ローカルピークベクトル、BSJ
によって表現される音声のパタンを比較パタンと称し5
ffiで表わす。
比較ローカルピークベクトルと称し、、、SJで表現す
る。また32個の比較ローカルピークベクトル、BSJ
によって表現される音声のパタンを比較パタンと称し5
ffiで表わす。
この比較パタンは各カテゴリ毎に1つあるいは複数ある
ものとし、この比較パタンの総数をMとする。
ものとし、この比較パタンの総数をMとする。
また比較パタンS。に対するカテゴリ名をインタフェー
ス51から出力する必要がある場合には、そのカテゴリ
名C1を比較パタンメモリ50に格納しておく。
ス51から出力する必要がある場合には、そのカテゴリ
名C1を比較パタンメモリ50に格納しておく。
以上の各処理により登録処理を終了する。
[認識処理]
この処理はさらに次の処理に分けられる。
雑音パタンの算出処理
認識音声の特徴ベクトルの算出処理
認識音声の音声区間検出処理
認識音声の音声特徴内分ベクトル算出処理認識音声のロ
ーカルピークベクトルの算出処理 パタン類似度算出処理 認識判定処理 以下、これらの各処理について第7図の認識処理の流れ
図を参照して説明する。
ーカルピークベクトルの算出処理 パタン類似度算出処理 認識判定処理 以下、これらの各処理について第7図の認識処理の流れ
図を参照して説明する。
認識処理を開始しく5IO)、次の処理を行う。
(雑音パタンの算出処理)(Sll)
登録時と認定時とでは雑音の状況か変化していることも
考えられるため、雑音パタンの算出を再度行う。
考えられるため、雑音パタンの算出を再度行う。
この雑音パタンの算出に関しては単語入力の前毎に行う
のが良いが、単語の入力速度が遅くなったり或いは雑音
測定中に発声し易いなどの点から、特に特別な雑音区間
を適宜設けてその区間で雑音パタンを測定する方が現実
的であろう。
のが良いが、単語の入力速度が遅くなったり或いは雑音
測定中に発声し易いなどの点から、特に特別な雑音区間
を適宜設けてその区間で雑音パタンを測定する方が現実
的であろう。
登録時と同様に、ある10音声フレームを雑音区間と定
め、このとき話者は発声しないようにする。この状態で
、まわりからの雑音のみをマイクロフォン41から入力
させて、前述と同様に信号処理プロセッサ45に送り、
これより生ずる雑音ベクトルを作業メモリ49に逐次格
納する。10音声フレーム分の雑音ベクトルを格納した
とき、これら雑音ベクトルの平均を取って、この平均雑
音ベクトルを雑音パタンメモリ50に格納する。
め、このとき話者は発声しないようにする。この状態で
、まわりからの雑音のみをマイクロフォン41から入力
させて、前述と同様に信号処理プロセッサ45に送り、
これより生ずる雑音ベクトルを作業メモリ49に逐次格
納する。10音声フレーム分の雑音ベクトルを格納した
とき、これら雑音ベクトルの平均を取って、この平均雑
音ベクトルを雑音パタンメモリ50に格納する。
(音声特徴ベクトル抽出処理)(S12)雑音区間終了
後から音声特徴ベクトルの算出は新しい雑音パタンを用
いて行われる。
後から音声特徴ベクトルの算出は新しい雑音パタンを用
いて行われる。
信号処理プロセッサ45から入力される特徴ベクトル直
1から雑音パタンメモリ50に格納されている雑音パタ
ンを減じることによって音声特徴ベクトルaJを算出し
、これを作業メモリ49に格納する。この処理は音声フ
レーム周期毎に行われる。
1から雑音パタンメモリ50に格納されている雑音パタ
ンを減じることによって音声特徴ベクトルaJを算出し
、これを作業メモリ49に格納する。この処理は音声フ
レーム周期毎に行われる。
また、後述する始端検出以前の音声特徴ベクトルは不必
要であるため適宜捨てていく。
要であるため適宜捨てていく。
(音声区間検出処理)(S13)
認識音声に対して′frJi図の音声区間検出部22に
おける前述した処理を行う。区間検出のアルゴリズムは
前述した[登録処理]における(音声区間検出処理)の
場合のアルゴリズムと同様である。
おける前述した処理を行う。区間検出のアルゴリズムは
前述した[登録処理]における(音声区間検出処理)の
場合のアルゴリズムと同様である。
区間終端Eを検出しなかった場合には(S14)、これ
を検出するまで繰り返し処理を行う。
を検出するまで繰り返し処理を行う。
(音声特徴内分ベクトル算出処理)(S15)区間終端
検出後、認識音声に対して第1図の音声特徴内分ベクト
ル算出部23における処理を行い、得られた音声特徴内
分ベクトルlb 、を作業メモリ49に格納する。この
場合、線形伸縮の音声フレーム数を例えば32音声フレ
ーム長とする。
検出後、認識音声に対して第1図の音声特徴内分ベクト
ル算出部23における処理を行い、得られた音声特徴内
分ベクトルlb 、を作業メモリ49に格納する。この
場合、線形伸縮の音声フレーム数を例えば32音声フレ
ーム長とする。
(認識ローカルピークベクトル算出処理) (516)
認識音声に対して第1図のローカルピークベクトル算出
部24における前述した処理を行い、得られたローカル
ピークベクトル(認識ローカルピークベクトル)を作業
メモリ49に格納する。この認識ローカルピークベクト
ルをr、で表現する。
認識音声に対して第1図のローカルピークベクトル算出
部24における前述した処理を行い、得られたローカル
ピークベクトル(認識ローカルピークベクトル)を作業
メモリ49に格納する。この認識ローカルピークベクト
ルをr、で表現する。
また32個の認識ローカルピークベクトルによって表現
される認識音声のパタンを認識パタンと称し、これをR
で表現する。
される認識音声のパタンを認識パタンと称し、これをR
で表現する。
(パタン類似度算出処理) (s、+7)認識パタン
Rとm番目の比較パタン5.6との間のパタン類似度D
1を で定義する。ここで右上添字tはベクトルの転置を表わ
す。
Rとm番目の比較パタン5.6との間のパタン類似度D
1を で定義する。ここで右上添字tはベクトルの転置を表わ
す。
通常この(8)式で表現されるパタン類似度の算出方法
は線形マツチング法と呼ばれており、各種方式が提案さ
れている。
は線形マツチング法と呼ばれており、各種方式が提案さ
れている。
作業メモリ49内の認識パタンRと比較パタンメモリ4
8内の比較パタンS1の間のパタン類似度り、が算出さ
れ作業メモリ49内に格納される。
8内の比較パタンS1の間のパタン類似度り、が算出さ
れ作業メモリ49内に格納される。
このパタン類似度の算出処理を全比較パタンについて行
い(S+8)、全比較パタンについてこの処理が未完了
のときは再度パタン類似度算出処理(S+7)を繰り返
し行って、全比較パタンについて完了する。
い(S+8)、全比較パタンについてこの処理が未完了
のときは再度パタン類似度算出処理(S+7)を繰り返
し行って、全比較パタンについて完了する。
(認識判定処理)(519)
各カテゴリ毎に求まるパタン類似度り、のうち最大を与
えるパタン番号m、□を で求め、このパタン番号m 、、Xに対応するカテゴリ
名Cm□8を比較パタンメモリ内から読み出すか又はパ
タン番号mmawの値自体をインタフェース51を通し
て外部に出力する。
えるパタン番号m、□を で求め、このパタン番号m 、、Xに対応するカテゴリ
名Cm□8を比較パタンメモリ内から読み出すか又はパ
タン番号mmawの値自体をインタフェース51を通し
て外部に出力する。
以トの処理によりこの発明の第一の実施例の処理が完了
する( S 20)。
する( S 20)。
上述した実施では登録動作を行う特定話者認識方式に適
応したが、Pめ不特定多数の人の比較パタンを作成して
おけば話者を限定しない不特定話者認識方式にも適応可
能となる。この場合ローカルピークベクトルを用いるこ
とにより、パタンか多くなっても比較パタンメモリを少
なくでき、従って比較パタンメモリの削減効果は大きい
。
応したが、Pめ不特定多数の人の比較パタンを作成して
おけば話者を限定しない不特定話者認識方式にも適応可
能となる。この場合ローカルピークベクトルを用いるこ
とにより、パタンか多くなっても比較パタンメモリを少
なくでき、従って比較パタンメモリの削減効果は大きい
。
(発明の効果)
以上説明したようにこの発明によれば次の効果が生じる
。
。
(1)音声スペクトルのピーク位置を取り出しているた
め、近傍の雑音位置によってピーク位置がずれることが
なく、従って、認識性能の低下がない。
め、近傍の雑音位置によってピーク位置がずれることが
なく、従って、認識性能の低下がない。
(2)ローカルピークベクトルをパタン類似度演算に用
いているため演算処理がきわめて簡易である。
いているため演算処理がきわめて簡易である。
(3)また音声特徴内分ベクトルを音声の始端から終端
までを一定音声フレームになるように線形伸縮すること
により算出するか又は線形、非線形を問わず一定音声フ
レーム長になるように処理した場合には、比較パタン又
は認識パタンの記憶容量は等しく領域管理が容易に行え
るものである。
までを一定音声フレームになるように線形伸縮すること
により算出するか又は線形、非線形を問わず一定音声フ
レーム長になるように処理した場合には、比較パタン又
は認識パタンの記憶容量は等しく領域管理が容易に行え
るものである。
第1図はこの発明の音声パタン作成方法におけるローカ
ルピークベクトル算出処理を説明するためのブロック図
、 第2図は音声分析処理に用いるバンドパスフィルタの特
性を示す図、 第3図は音声特徴内分ベクトルの算出のための時間軸線
形伸縮方法の説明図、 第4図はローカルピークベクトル算出を説明するための
説明図、 第5図はこの発明の実施例を示すブロック図、第6図及
び第7図はこの発明の登録処理及び認識処理の流れ図、 第8図は従来の音声パタン作成方法を説明するためのブ
ロック図である。 21・・・入力端子、 22−・・音声区間検出
部23・・・音声特徴内分ベクトル算出部24・・・ロ
ーカルピークベクトル算出部41−・・マイクロフォン
、 42・−増幅器43−・・ローパスフィルタ、44
−A/D変換器45−・・信号処理プロセッサ 46・・・プロセッサ、 47・−プログラムメモ
リ48・・・比較パタンメモリ、49・・一作業メモリ
50−・・雑音パタンメモリ 51−・・インタフェース。 特許出願人 沖電気工業株式会社f 2
j Jf j2伸m機のフし一4番8j 時間軸線形伸縮方法の説明図 第3図 キマキル蚤号 k (c) r’、 0001000001000010
00口−カルヒー7ベクトIレヘ分 ロー刀Jしこ゛−7ベクトル算出説明圓第4図 堂俳灯理の流れ出 第6図 認識幻理の流れ国 第7図
ルピークベクトル算出処理を説明するためのブロック図
、 第2図は音声分析処理に用いるバンドパスフィルタの特
性を示す図、 第3図は音声特徴内分ベクトルの算出のための時間軸線
形伸縮方法の説明図、 第4図はローカルピークベクトル算出を説明するための
説明図、 第5図はこの発明の実施例を示すブロック図、第6図及
び第7図はこの発明の登録処理及び認識処理の流れ図、 第8図は従来の音声パタン作成方法を説明するためのブ
ロック図である。 21・・・入力端子、 22−・・音声区間検出
部23・・・音声特徴内分ベクトル算出部24・・・ロ
ーカルピークベクトル算出部41−・・マイクロフォン
、 42・−増幅器43−・・ローパスフィルタ、44
−A/D変換器45−・・信号処理プロセッサ 46・・・プロセッサ、 47・−プログラムメモ
リ48・・・比較パタンメモリ、49・・一作業メモリ
50−・・雑音パタンメモリ 51−・・インタフェース。 特許出願人 沖電気工業株式会社f 2
j Jf j2伸m機のフし一4番8j 時間軸線形伸縮方法の説明図 第3図 キマキル蚤号 k (c) r’、 0001000001000010
00口−カルヒー7ベクトIレヘ分 ロー刀Jしこ゛−7ベクトル算出説明圓第4図 堂俳灯理の流れ出 第6図 認識幻理の流れ国 第7図
Claims (2)
- (1)入力音声から類似度判定用の基準データを形成す
る登録処理と、認識音声から類似度判定用の認識データ
を形成する認識処理とを含む音声パタン作成方法におい
て、 該登録処理及び認識処理は、 (a)音声フレーム周期毎に算出され音声のスペクトル
の形状を与える音声特徴ベクトルを入力させること、 (b)任意の前記音声フレームにおける音声特徴ベクト
ルと、次の前記音声フレームにおける音声特徴ベクトル
とをそれぞれ内分して音声特徴内分ベクトルを算出する
こと、 (c)該音声特徴内分ベクトルから最小二乗近似直線を
算出し、該音声特徴内分ベクトルの各成分を該最小二乗
近似直線を基準する値に変換し、これら成分間で正でか
つ極大となる位置を1にしその他の成分を0としてロー
カルピークベクトルを算出することを含み、 前記登録処理及び認識処理で得られたローカルピークベ
クトルを前記基準データ及び認識データとそれぞれなし
たことを特徴とする音声パタン作成方法。 - (2)音声特徴内分ベクトルの算出は、音声の始端に対
応する音声フレームから音声の終端に対応する音声フレ
ームまでの音声特徴ベクトルを用いて、一定音声フレー
ム長に線形伸縮することによって、行うことを特徴とす
る特許請求の範囲第1項記載の音声パタン作成方法。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP61000451A JPS62159195A (ja) | 1986-01-06 | 1986-01-06 | 音声パタン作成方法 |
US06/909,957 US4852181A (en) | 1985-09-26 | 1986-09-22 | Speech recognition for recognizing the catagory of an input speech pattern |
DE8686113175T DE3683343D1 (de) | 1985-09-26 | 1986-09-25 | Verfahren und einrichtung zur spracherkennung. |
EP86113175A EP0219712B1 (en) | 1985-09-26 | 1986-09-25 | Method of and system for speech recognition |
US07/295,194 US4918735A (en) | 1985-09-26 | 1989-01-09 | Speech recognition apparatus for recognizing the category of an input speech pattern |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP61000451A JPS62159195A (ja) | 1986-01-06 | 1986-01-06 | 音声パタン作成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPS62159195A true JPS62159195A (ja) | 1987-07-15 |
Family
ID=11474152
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP61000451A Pending JPS62159195A (ja) | 1985-09-26 | 1986-01-06 | 音声パタン作成方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS62159195A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004505328A (ja) * | 2000-07-31 | 2004-02-19 | シャザム エンターテインメント リミテッド | 高い雑音、歪み環境下でサウンド・楽音信号を認識するシステムおよび方法 |
JP2016512610A (ja) * | 2013-02-04 | 2016-04-28 | テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド | オーディオ認識のための方法およびデバイス |
US10354307B2 (en) | 2014-05-29 | 2019-07-16 | Tencent Technology (Shenzhen) Company Limited | Method, device, and system for obtaining information based on audio input |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61228500A (ja) * | 1985-04-03 | 1986-10-11 | 沖電気工業株式会社 | 音声認識方法 |
JPS61230199A (ja) * | 1985-04-04 | 1986-10-14 | 沖電気工業株式会社 | 音声認識方法 |
-
1986
- 1986-01-06 JP JP61000451A patent/JPS62159195A/ja active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61228500A (ja) * | 1985-04-03 | 1986-10-11 | 沖電気工業株式会社 | 音声認識方法 |
JPS61230199A (ja) * | 1985-04-04 | 1986-10-14 | 沖電気工業株式会社 | 音声認識方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004505328A (ja) * | 2000-07-31 | 2004-02-19 | シャザム エンターテインメント リミテッド | 高い雑音、歪み環境下でサウンド・楽音信号を認識するシステムおよび方法 |
JP2016512610A (ja) * | 2013-02-04 | 2016-04-28 | テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド | オーディオ認識のための方法およびデバイス |
US10354307B2 (en) | 2014-05-29 | 2019-07-16 | Tencent Technology (Shenzhen) Company Limited | Method, device, and system for obtaining information based on audio input |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0219712B1 (en) | Method of and system for speech recognition | |
JPS634200B2 (ja) | ||
JPS62159195A (ja) | 音声パタン作成方法 | |
JPH04184400A (ja) | 雑音除去装置 | |
JP3118023B2 (ja) | 音声区間検出方式及び音声認識装置 | |
JPS6273299A (ja) | 音声認識方式 | |
JPS6229799B2 (ja) | ||
JPS6273298A (ja) | 音声認識方式 | |
JPH04324499A (ja) | 音声認識装置 | |
JP3102553B2 (ja) | 音声信号処理装置 | |
JPH0556520B2 (ja) | ||
CN115938382B (zh) | 降噪控制方法、装置、设备及存储介质 | |
JP3023135B2 (ja) | 音声認識装置 | |
JPH09198079A (ja) | 音声認識装置 | |
JPS62262897A (ja) | 音声認識方式 | |
JPS625298A (ja) | 音声認識装置 | |
JP2668877B2 (ja) | 音源正規化方法 | |
JPH05313695A (ja) | 音声分析装置 | |
JP2001265368A (ja) | 音声認識装置および認識対象検出方法 | |
JPS59204895A (ja) | 音声認識装置 | |
JPH02232699A (ja) | 音声認識装置 | |
JPH0316038B2 (ja) | ||
JPS62113199A (ja) | 音声スペクトル抽出方法 | |
JPS6069696A (ja) | 音声認識装置 | |
JPH0448400B2 (ja) |