JPH05188991A - Speech recognition device - Google Patents
Speech recognition deviceInfo
- Publication number
- JPH05188991A JPH05188991A JP4005435A JP543592A JPH05188991A JP H05188991 A JPH05188991 A JP H05188991A JP 4005435 A JP4005435 A JP 4005435A JP 543592 A JP543592 A JP 543592A JP H05188991 A JPH05188991 A JP H05188991A
- Authority
- JP
- Japan
- Prior art keywords
- word
- likelihood
- feature information
- candidate
- series
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
Description
【0001】[0001]
【産業上の利用分野】この発明は、特に確率モデルを用
いて、類似した単語の識別能力を向上させ得る音声認識
装置に関するものである。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a voice recognition apparatus which can improve the ability to identify similar words by using a probabilistic model.
【0002】[0002]
【従来の技術】近年、音声認識装置の研究開発が行われ
ている。この音声認識装置においては、一般にパターン
マッチングによる方法が用いられる。例えば、文献1:
沖電気研究開発、Vol.53、No.2、pp61〜
66、昭和61年4月にこの種の例が示されている。2. Description of the Related Art In recent years, research and development of voice recognition devices have been conducted. In this voice recognition device, a method based on pattern matching is generally used. For example, Document 1:
Oki Electric Research and Development, Vol. 53, No. 2, pp61
66, April 1987, an example of this type is given.
【0003】このパターンマッチング方法は、予め辞書
に登録された標準パターンと入力パターンとの類似度
(又は距離)を計算し、最大類似度(又は最小距離)を
与え得る標準パターンのカテゴリを前記入力パターンの
認識結果として同定するものである。ここで、上記文献
1に記載があるように、標準パターンと入力パターン間
のような、不等長なパターン間の類似度(又は距離)の
算出にはDP(Dynamic Programmin
g)マッチング法が一般に用いられている。ただし、D
Pマッチングを用いた方法は、時系列パターンの時間構
造の変動、変形には極めて強力であるという性質がある
が、スペクトルの変動に対しては弱いという性質があ
る。This pattern matching method calculates the degree of similarity (or distance) between a standard pattern registered in a dictionary in advance and an input pattern, and inputs the category of the standard pattern that can give the maximum degree of similarity (or minimum distance). It is identified as the recognition result of the pattern. Here, as described in Document 1 above, DP (Dynamic Programming) is used to calculate the similarity (or distance) between patterns of unequal length, such as between a standard pattern and an input pattern.
g) The matching method is generally used. However, D
The method using P matching has the property that it is extremely strong in the fluctuation and deformation of the time structure of the time series pattern, but it is weak in the fluctuation of the spectrum.
【0004】この様な問題に対して、単語を状態の遷移
で表し、各状態での生起確率と、状態間の遷移確率を与
えて、入力音声をこのモデルに当てはめて認識する、い
わゆるHidden Markov Model(隠れ
マルコフモデル)(以下、略してHMMと記す。)に基
づく方法がある。例えば、文献2の中川聖一、鹿野清
宏、東倉洋一共著「音声・聴覚と神経回路網モデル」1
990年8月25日、オーム社、pp.45〜pp.5
0にこのモデルの説明が記載されている。To solve such a problem, so-called Hidden Markov, in which a word is represented by a state transition, an occurrence probability in each state and a transition probability between states are given, and an input speech is applied to this model to be recognized. There is a method based on Model (Hidden Markov Model) (hereinafter, abbreviated as HMM). For example, “Voice / Hearing and Neural Network Model” by Seiichi Nakagawa, Kiyohiro Kano, and Yoichi Higashikura in Reference 2 1
August 25, 990, Ohmsha, pp. 45-pp. 5
0 describes the model.
【0005】このHMMによる方法は、発声のスペクト
ル的な揺らぎと時間的な揺らぎを、多数の学習サンプル
によって統計的にモデル化するもののであり、音声認識
の強力な一つの方法とされている。The HMM method statistically models spectral fluctuations and temporal fluctuations of utterance by a large number of learning samples, and is considered as a powerful method of speech recognition.
【0006】そして、このHMMを用いた音声認識方法
は、入力パターンの同定に、最大尤度を与えるHMMモ
デルのカテゴリを認識結果として得る方法を採ってい
る。The speech recognition method using the HMM employs a method of obtaining the category of the HMM model which gives the maximum likelihood as a recognition result for the identification of the input pattern.
【0007】[0007]
【発明が解決しようとする課題】これら従来の最大類似
度(又は最小距離)、又はHMMの最大尤度を用いた音
声認識方法は、入力パターンの局所的な雑音に余り影響
されず、比較的安定して音声認識を行えるという利点を
有している。しかしながら、入力音声パターンの全体的
な類似性が主に評価されるため、部分的な類似部分を含
む単語においては誤認識しやすいという問題点があっ
た。The conventional speech recognition method using the maximum similarity (or the minimum distance) or the maximum likelihood of the HMM is relatively unaffected by the local noise of the input pattern, and is relatively small. It has an advantage that stable voice recognition can be performed. However, since the overall similarity of the input voice pattern is mainly evaluated, there is a problem that a word including a partially similar portion is likely to be erroneously recognized.
【0008】例えば、入力音声が地名の『びさい(尾
西)』であるにもかかわらず、音声認識では、『ひさい
(久居)』と認識したり、数詞の『いち(1)』を、
『ひち(7)』と誤認識するとい問題があり、この様な
誤認識を改善する音声認識装置の実現が望まれていた。For example, even though the input voice is the place name "Bisai (Onishi)", the voice recognition recognizes it as "Hisai (Hisui)" or the number "ichi (1)".
There is a problem of erroneously recognizing "Hichi (7)", and it has been desired to realize a voice recognition device that improves such erroneous recognition.
【0009】この発明は、以上の課題に鑑み為されたも
のであり、その目的とするところは、類似単語音声間の
識別能力を向上させ得る音声認識装置を提供することで
ある。The present invention has been made in view of the above problems, and an object thereof is to provide a voice recognition device capable of improving the discrimination ability between similar word voices.
【0010】[0010]
【課題を解決するための手段】この発明は、以上の目的
を達成するために、入力音声信号に対応して隠れマルコ
フモデル法を用いて、入力音声信号に対応する複数の候
補単語と、その尤度を求めて音声認識を行う音声認識装
置において、以下の特徴的な各手段を備えて改良した。In order to achieve the above object, the present invention uses a hidden Markov model method corresponding to an input speech signal and uses a plurality of candidate words corresponding to the input speech signal, and A speech recognition apparatus for performing speech recognition by obtaining likelihood is improved by including the following characteristic means.
【0011】つまり、予め類似単語をグループ化して格
納している類似単語格納手段と、予めスペクトル包絡の
標準特徴情報を認識可能単語に対応して少なくとも1種
類以上格納している標準特徴情報格納手段と、入力音声
信号のスペクトル包絡の特徴情報を上記標準特徴情報と
同じ種類抽出して、上記特徴情報を系列化して出力する
特徴情報系列抽出手段と、上記候補単語とその尤度とか
ら上記類似単語格納手段を検索し、この検索結果に応じ
てバックトレース処理して最適識別有効区間を抽出する
抽出手段とを備えて、上記最適識別有効区間の上記特徴
情報系列と、上記標準特徴情報とを用いて、上記尤度を
最適に変更して最適単語識別結果を生成出力することを
特徴とする。That is, similar word storage means for preliminarily grouping and storing similar words, and standard feature information storage means for preliminarily storing at least one kind of standard feature information of spectrum envelope corresponding to recognizable words. And a feature information series extraction unit that extracts the same type of feature information of the spectrum envelope of the input speech signal as the standard feature information and outputs the feature information in a series, and the similarity from the candidate word and its likelihood. The word storage means is searched for, and a back trace process is performed according to the search result to extract an optimum discrimination effective section, and the characteristic information series of the optimum discrimination effective section and the standard characteristic information are provided. It is characterized in that the above likelihood is optimally changed to generate and output the optimal word identification result.
【0012】[0012]
【作用】この発明によれば、上記特徴情報系列抽出手段
によって、入力音声信号の特徴情報、例えば、音声スペ
クトルの低域成分と高域成分のエネルギーの差や、スペ
クトルの傾きや、音声信号のゼロクロス(零交差)回数
などの情報などを抽出したスペクトル包絡の特徴情報
と、予め認識可能単語に対応して格納している標準特徴
情報とを用いて、上記候補単語の尤度を最適に変更して
類似度の高さなどの差に基づき、上記最適識別有効区間
の系列中の上記最適単語識別結果を出力できる様にした
ので、類似単語間の音韻特徴の相違を正確に識別するこ
とが容易になる。According to the present invention, the characteristic information series extraction means allows the characteristic information of the input speech signal, for example, the energy difference between the low-frequency component and the high-frequency component of the speech spectrum, the inclination of the spectrum, and the speech signal. The likelihood of the candidate word is optimally changed by using the feature information of the spectrum envelope, which is obtained by extracting information such as the number of zero crosses (zero crossings), and the standard feature information stored in advance corresponding to the recognizable word. Since the optimum word identification result in the series of the optimum identification effective section can be output based on the difference in the degree of similarity, it is possible to accurately identify the difference in phonological features between similar words. It will be easier.
【0013】従って、認識対象入力音声中に類似した音
韻系列の単語が存在する場合においても正確に識別する
ことができる。Therefore, even if a word of a similar phoneme sequence exists in the input speech to be recognized, it can be accurately identified.
【0014】[0014]
【実施例】次にこの発明に係る音声認識装置の好適な一
実施例を図面を用いて説明する。この一実施例の目的
は、認識対象音声中に類似した音韻系列の単語が存在す
る場合においても正確に認識判定結果を出力でき、類似
単語音声の識別能力をより向上させた音声認識装置を実
現することである。DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENT A preferred embodiment of a voice recognition apparatus according to the present invention will be described with reference to the drawings. The purpose of this embodiment is to realize a speech recognition apparatus capable of accurately outputting a recognition determination result even when a word of a similar phoneme sequence exists in a speech to be recognized, and further improving the discrimination ability of similar word speech. It is to be.
【0015】この目的を実現するために、この一実施例
においては、音韻HMMの連結モデルによって少なくと
も一つ以上の単語候補(i)の列を算出し、当該候補列
が予め格納されている類似単語テーブル内に記載されて
いるものであれば、当該候補の、音韻HMMの連結モデ
ルによる最適状態遷移系列を求め、特徴時系列を区分化
し、特徴の相違部分に相当する識別有効区間を自動的に
抽出し、当該候補の識別有効区間の補助特徴(音声スペ
クトルの低域成分と高域成分のエネルギーの差や、スペ
クトルの傾きや、音声信号のゼロクロス(零交差)回数
などの情報)を認識に用いる様にして、音韻HMMの尤
度とパターンマッチング法を相補的に用いて、上記尤度
を最適に変更して最適単語認識(識別)結果情報Iを出
力できる様にした。In order to achieve this purpose, this embodiment is
In, at least,
Also calculates a column of one or more word candidates (i) and
Is written in the similar word table that is stored in advance.
If it is, the phoneme HMM connection mode of the candidate
The optimal time transition sequence by
Then, the effective area for identification corresponding to the difference in features is automatically
Auxiliary features (speech space
The energy difference between the low and high frequencies of the cutout,
The tilt of the cuttle and the number of zero crossings of the audio signal
(Information such as) is used for recognition, and the likelihood of phonological HMM
And the pattern matching method are used complementarily,
To the optimum word recognition (identification) result information I
I was able to do my best.
【0016】図1は、この一実施例に係る音声認識装置
の機能ブロック図である。FIG. 1 is a functional block diagram of a voice recognition device according to this embodiment.
【0017】この図1において、この一実施例の音声認
識装置は、フィルタ1と、A/D変換器2と、音響特徴
抽出部3と、補助特徴抽出部4と、最適コードベクトル
選択部5と、尤度算出部6と、判定部7と、近類似度テ
ーブル8と、バックトレース部9と、部分類似度算出部
10と、補助特徴標準パターン部11と、総合判定部1
2とで構成されている。In FIG. 1, the speech recognition apparatus according to this embodiment has a filter 1, an A / D converter 2, an acoustic feature extraction unit 3, an auxiliary feature extraction unit 4, and an optimum code vector selection unit 5. , Likelihood calculation unit 6, determination unit 7, near similarity table 8, back trace unit 9, partial similarity calculation unit 10, auxiliary feature standard pattern unit 11, comprehensive determination unit 1
2 and.
【0018】そして、図2は上記最適コードベクトル選
択部5の機能ブロックを示している。FIG. 2 shows functional blocks of the optimum code vector selection unit 5.
【0019】この図2において、上記最適コードベクト
ル選択部5は、コードベクトル部分52と、コードベク
トル選択部分51とで構成されている。In FIG. 2, the optimum code vector selecting section 5 is composed of a code vector section 52 and a code vector selecting section 51.
【0020】そして、図3は上記尤度算出部6の機能ブ
ロックを示している。FIG. 3 shows functional blocks of the likelihood calculating section 6.
【0021】この図3において、上記尤度算出部6は、
音韻HMM部分61と、単語辞書部分62と、単語連結
モデル部分63と、ビタビ比較照合部分64とで構成さ
れている。In FIG. 3, the likelihood calculating section 6 is
It is composed of a phonological HMM part 61, a word dictionary part 62, a word concatenation model part 63, and a Viterbi comparison and verification part 64.
【0022】図1において、フィルタ1は、入力音声信
号Sの高域成分を制限して、得られた信号をA/D変換
器2に供給する。A/D変換器2は、高域制限された音
声信号を所望のビット数に量子化して、この量子化信号
を音響特徴抽出部3と、補助特徴抽出部4に供給する。
音響特徴抽出部3は、必要な音声区間検出を行って、音
響特徴として、例えば低次のLPCケプストラムを求め
る。次数としては例えば15次程度を想定する。このL
PCケプストラムの算出方法は、例えば文献3:『デジ
タル音声処理』、東海大学出版会、1985年9月25
日、著者:古井貞煕、pp.47〜pp.48などに示
されている。この算出によって得られるLPCケプスト
ラムの時系列を音響特徴系列Vと呼ぶ。この音響特徴系
列Vは、最適コードベクトル選択部5に供給される。In FIG. 1, the filter 1 limits the high frequency component of the input audio signal S and supplies the obtained signal to the A / D converter 2. The A / D converter 2 quantizes the high-frequency-limited audio signal into a desired number of bits, and supplies the quantized signal to the acoustic feature extraction unit 3 and the auxiliary feature extraction unit 4.
The acoustic feature extraction unit 3 performs necessary speech section detection to obtain, for example, a low-order LPC cepstrum as an acoustic feature. As the order, for example, the order of 15 is assumed. This L
The calculation method of the PC cepstrum is described in, for example, Reference 3: “Digital Audio Processing”, Tokai University Press, September 25, 1985.
Sun, author: Sadahiro Furui, pp. 47-pp. 48 and the like. The time series of the LPC cepstrum obtained by this calculation is called an acoustic feature series V. The acoustic feature series V is supplied to the optimum code vector selection unit 5.
【0023】補助特徴抽出部4は、量子化音声信号から
補助特徴を抽出して補助特徴系列Bを出力する。この補
助特徴の抽出種類は、後述の補助特徴標準パターン部1
1に格納している種類と同じであることが望ましい。こ
の補助特徴系列Bは、例えば、ある時間間隔(例えば、
10msecなど)毎に、BPF(Band Pass
Filter)バンク分析やFFT(Fast Fo
urie Transform)分析などで得られるス
ペクトルの高域成分(例えば、3kHz〜5kHzな
ど)と、低域成分(例えば、100Hz〜900Hz)
との間のエネルギー差(エネルギー偏差なども含む。)
や、スペクトルを直線近似した場合のスペクトルの傾き
や、音声信号のゼロクロス回数を計数し、そのゼロクロ
ス(零交差)回数などの情報を系列化したものである。
例えば、一般にゼロクロス回数は、信号の周波数成分が
高くなるほど多くなり、また、信号の周波数成分が低く
なるほど少なくなるので、このゼロクロス回数を抽出す
ることによってスペクトルの分布を知ることができる。The auxiliary feature extraction unit 4 extracts an auxiliary feature from the quantized speech signal and outputs an auxiliary feature sequence B. The extraction type of this auxiliary feature is the auxiliary feature standard pattern section 1 described later.
It is desirable that the type is the same as the type stored in 1. This auxiliary feature series B is, for example, at a certain time interval (for example,
BPF (Band Pass) every 10 msec.
Filter) Bank analysis and FFT (Fast Fo)
high frequency components (for example, 3 kHz to 5 kHz) and low frequency components (for example, 100 Hz to 900 Hz) of the spectrum obtained by urie Transform analysis or the like.
Energy difference between and (including energy deviation)
Alternatively, the information is a series of information such as the slope of the spectrum when the spectrum is linearly approximated, the number of zero crossings of the audio signal, and the number of zero crosses (zero crossings).
For example, in general, the number of zero-crosses increases as the frequency component of the signal increases, and decreases as the frequency component of the signal decreases. Therefore, the spectrum distribution can be known by extracting the number of zero-crossings.
【0024】この補助特徴系列Bは、後述の部分類似度
算出部10における、近類似度テーブル内の単語表記グ
ループ間の識別に有効な特徴を抽出するものとして利用
される。しかもこの補助特徴系列Bは、パターンマッチ
ングに用いるために、識別に有効な特徴であることが望
ましい。しかしながら、処理量の削減やハードウエア量
の削減を行いたい場合などにおいては、音響特徴系列V
と同一の系列を用いても良い。そして、この補助特徴系
列Bは部分類似度算出部10に供給する。This auxiliary feature sequence B is used as a feature which is effective in identifying between word notation groups in the near similarity table in the partial similarity calculation unit 10 which will be described later. Moreover, since the auxiliary feature series B is used for pattern matching, it is desirable that it is a feature effective for identification. However, when it is desired to reduce the processing amount or the hardware amount, the acoustic feature sequence V
The same sequence may be used. Then, the auxiliary feature sequence B is supplied to the partial similarity calculation unit 10.
【0025】最適コードベクトル選択部5は、音響特徴
系列Vを供給されると処理して最適コードベクトルを出
力して、これを尤度算出部6に供給する。そして、内部
のコードベクトル部分52は、予め多数の訓練サンプル
の音響系列から、最も良くこれらのサンプルを代表する
ベクトルを選ぶことによって求める。このコードベクト
ルの選び方は、クラスタリングの手法などで行うことが
できる。このクラスタリングの手法については、例えば
文献4:IEEE Transactionon co
mmunication、Vol.com−28、N
o.1、January、1980、pp.84〜p
p.95、Linde、Buzo、andGray、”
An Algorithm for Vector Q
uantizer Design”、などに示されてい
る、このLindeらのアルゴリズム(これを、LBG
アリゴリスムと呼ぶ。)を使用して求めることができ
る。コードベクトル選択部分51は、音響特徴系列Vか
ら上記コードベクトル部分52の検索を上記クラスタリ
ング手法などを使用して、最も近いコードベクトルを選
択して最適コードベクトル系列Aとして尤度算出部6に
供給する。尤度算出部6は、供給された最適コードベク
トル系列Aから候補列(i)と、これに対応する尤度を
算出して判定部7に供給する。つまり、尤度算出部6に
おいては、音韻HMM部分61と、辞書部分62とを用
いて単語連結モデル部分63は少なくとも1以上の候補
列(i)を算出する。尚この単語モデルの連結方法につ
いては、後述する図5及び図6の説明で明らかにする。The optimal code vector selection unit 5 processes the acoustic feature sequence V, outputs an optimal code vector, and supplies it to the likelihood calculation unit 6. Then, the internal code vector portion 52 is obtained by selecting a vector that best represents these samples from the acoustic sequence of a large number of training samples in advance. The code vector can be selected by a clustering method or the like. This clustering method is described in, for example, Document 4: IEEE Transactionon co.
mmunication, Vol. com-28, N
o. 1, January, 1980, pp. 84-p
p. 95, Linde, Buzo, andGray, "
An Algorithm for Vector Q
The algorithm of Linde et al. (referred to as LBG
It is called an algorithm. ) Can be used to find out. The code vector selection portion 51 searches the acoustic feature sequence V for the code vector portion 52 by using the clustering method or the like, selects the closest code vector, and supplies it to the likelihood calculation unit 6 as the optimum code vector sequence A. To do. The likelihood calculating unit 6 calculates a candidate sequence (i) from the supplied optimal code vector sequence A and the likelihood corresponding to the candidate sequence (i), and supplies the likelihood to the determining unit 7. That is, in the likelihood calculation unit 6, the word concatenation model portion 63 calculates at least one or more candidate strings (i) using the phoneme HMM portion 61 and the dictionary portion 62. The method of connecting the word models will be clarified in the description of FIGS. 5 and 6 described later.
【0026】ビタビ比較照合部分64は得られた単語モ
デルに対して、例えば上述の文献2に示されている様な
Viterbiアルゴリズムによって、上記単語モデル
の尤度を求める。そして、最上位からの尤度LA(i)
と、その尤度を与える単語番号(i)を候補として出力
する。この候補列をi1、i2、・・・と表し、この候
補列に対応する尤度をLA(i1)、LA(i2)、・
・・と表わすものとする。以上の候補列i1、i2、・
・・と、この候補列に対応する尤度をLA(i1)、L
A(i2)、・・・とを判定部7に供給する。The Viterbi comparing and collating unit 64 obtains the likelihood of the obtained word model by the Viterbi algorithm as shown in the above-mentioned reference 2, for example. Then, the likelihood LA (i) from the highest rank
And the word number (i) that gives the likelihood is output as a candidate. This candidate sequence is represented as i 1 , i 2 , ... And the likelihoods corresponding to this candidate sequence are LA (i 1 ), LA (i 2 ) ,.
・ ・ ・The above candidate sequences i 1 , i 2 , ...
And ..., the likelihood corresponding to the candidate column LA (i 1), L
And A (i 2 ), ... Are supplied to the determination unit 7.
【0027】次に判定部7は、入力されるリジェクトし
きい値R0を参照して、供給される尤度と比較してリジ
ェクト処理を行う。即ち上記リジェクトしきい値R0未
満の尤度である場合は、いずれの単語にも類似していな
い(該当しない)と判定してリジェクトする。しかしな
がら、しきい値R0以上の場合は、当該候補が近類似度
テーブル8に記載があるか否かを判定する。尚上記尤度
は、計算上のアンダーフローがなければ必ず正の値を取
るので、リジェクトしきい値R0=0とすると、上記リ
ジェクト処理を行わないことと同じことに相当する。Next, the decision section 7 refers to the reject threshold value R0 that is input and compares it with the supplied likelihood to perform reject processing. That is, when the likelihood is less than the reject threshold R0, it is determined that the word is not similar to any word (does not correspond) and rejected. However, if it is equal to or greater than the threshold value R0, it is determined whether or not the candidate is described in the near similarity table 8. Note that the above-mentioned likelihood always takes a positive value unless there is an underflow in the calculation, so setting a reject threshold R0 = 0 is equivalent to not performing the reject process.
【0028】そして、上記近類似度テーブル8は、類似
度の近い、即ち類似している単語名がグループ化されて
記載されている。例えば、地名であるならば、『びさい
(尾西)』と『ひさい(久居)』のグループとか、『そ
うか(草加)』と『もおか(真岡)』のグループとか、
数詞であるならば、『いち(1)』と『しち(7)』の
グループなどが、単語表記で予め登録されている。In the near-similarity table 8, word names having a similar similarity, that is, similar word names are grouped and described. For example, if it is a place name, the group of "Bisai (Onishi)" and "Hisai (Hisui)" or the group of "Soka (Soka)" and "Moka (Moka)",
If it is a numeral, a group such as "ichi (1)" and "shichi (7)" is registered in advance in word notation.
【0029】図4は上記近類似度テーブル8の一例の具
体的なテーブル構成を示している。この図4において、
この近類似度テーブル8は例えば、メモリなどに格納さ
れ、その構成は1番目のグループからGN0番目のグル
ープとで構成され、テーブルの先頭にはグループの総数
GN0が設定されている。そして、各グループは、例え
ばi番目のグループ内の総数GM(i)と、1番目の単
語表記HYO(i,1)と、2番目の単語表記HYO
(i,2)と、・・・と、GM(i)番目の単語表記H
YO(i,GM(i))と、識別開始割合WSTART
(i)、識別終了割合WEND(i)とで構成されてい
る。FIG. 4 shows a specific table configuration of an example of the near similarity table 8. In this FIG.
The near-similarity table 8 is stored in, for example, a memory or the like, and its configuration is composed of a first group to a GN0th group, and the total number GN0 of groups is set at the head of the table. Then, each group has, for example, the total number GM (i) in the i-th group, the first word notation HYO (i, 1), and the second word notation HYO.
(I, 2), ..., GM (i) th word notation H
YO (i, GM (i)) and identification start ratio WSTART
(I) and the identification end ratio WEND (i).
【0030】そして、上記判定部7において、m位の候
補までが上記近類似度テーブル8内に記載されているか
否かを判定する。ここで、近類似度テーブル8に、例え
ばm=2、GM(i)=2、HYO(i,1)=ヒサ
イ、HYO(i,2)=ビサイと記載されている場合
に、尤度算出部6の算出結果の1位と2位として、上記
『ヒサイ』と『ビサイ』の対が供給されたならば上記テ
ーブル内に記載有りと判定して出力する。Then, the judging section 7 judges whether or not the candidates up to the m-th place are listed in the near similarity table 8. Here, if the near similarity table 8 describes, for example, m = 2, GM (i) = 2, HYO (i, 1) = hisai, HYO (i, 2) = Visai, the likelihood calculation If the pair of "Hisai" and "Visai" is supplied as the 1st and 2nd place of the calculation result of the unit 6, it is determined that there is a description in the table and is output.
【0031】しかも、上記判定部7での処理において、
上記近類似度テーブル8に記載が無ければ、最大の尤度
LA(i1)を与える第1位の候補i1を単語認識判定
結果情報Iとして出力する。即ちI=i1として出力す
る。一方、近類似度テーブル8に記載があれば、これを
バックトレース部9に供給する。Moreover, in the processing in the judging section 7,
If there is no description in the near similarity table 8, the first candidate i 1 that gives the maximum likelihood LA (i 1 ) is output as the word recognition determination result information I. That is, I = i 1 is output. On the other hand, if there is a description in the near similarity table 8, this is supplied to the back trace unit 9.
【0032】バックトレース部9は、尤度算出部6のビ
タビ比較照合部分64から供給される候補列i1、
i2、・・・と仮定した場合の、音韻HMM部分61の
モデルで連結した単語連結モデル部分63の最適状態遷
移系列をバックトレース処理で求め、この特徴時系列を
HMM状態系列に対応して区分化を行う。このバックト
レース処理の具体的な例は後述の図7及び図8を用いて
説明する。The back trace unit 9 supplies the candidate sequence i 1 supplied from the Viterbi comparing and collating unit 64 of the likelihood calculating unit 6,
The optimal state transition sequence of the word concatenation model part 63 concatenated with the model of the phoneme HMM part 61 is obtained by backtrace processing, assuming that i 2 , ... Perform segmentation. A specific example of this backtrace processing will be described with reference to FIGS. 7 and 8 described later.
【0033】具体的には、各音韻HMMは同じ状態数の
モデルを用いているので、バックトレース処理によって
最適状態系列が求まれば、音韻HMMの接続部分に相当
する『時間変化点』(対応するフレーム番号)を求める
ことができる。この時間変化点は、通常複数LL個ある
と考えられ、それぞれtime(1)、time
(2)、・・・と表す。Specifically, since each phoneme HMM uses a model with the same number of states, if the optimum state sequence is obtained by backtrace processing, a "time change point" (corresponding to the connected portion of the phoneme HMM) (corresponding to Frame number) to be used. It is considered that there are usually a plurality of LL time change points, and time (1) and time (1) respectively.
(2), ...
【0034】近類似度テーブル8中の、識別開始割合W
START(i)と識別終了割合WEND(i)と、入
力フレーム数Tから、類似単語の識別に有効な区間[S
T,ED]を以下の様にして求める。Identification start ratio W in the near similarity table 8
From START (i), the identification end ratio WEND (i), and the number of input frames T, an effective section [S
T, ED] is obtained as follows.
【0035】区間[WSTART(i)*T(識別開始
フレーム)、WEND(i)*T(識別終了フレー
ム)]において、 ST=minimum time(L) forL=1
〜LL ED=maximum time(L) for1=1
〜LL この[ST,ED]区間を求めることによって、候補列
i1、i2、・・・を仮定したときの特徴の相違部分を
自動的に抽出することができる。従って、上記STとE
Dは[WSTART(i)*T(識別開始フレーム)、
WEND(i)*T(識別終了フレーム)]以内のti
me(L)の最小値と最大値とを表している。上記S
T、EDの具体的な算出処理方法例は後述の図9に示
す。In the section [WSTART (i) * T (identification start frame), WEND (i) * T (identification end frame)], ST = minimum time (L) forL = 1
~ LL ED = maximum time (L) for1 = 1
~ LL By obtaining this [ST, ED] section, it is possible to automatically extract the different portion of the features when the candidate sequences i 1 , i 2 , ... Are assumed. Therefore, ST and E above
D is [WSTART (i) * T (identification start frame),
WEND (i) * T (identification end frame)]
It represents the minimum value and the maximum value of me (L). Above S
A specific example of the calculation processing method of T and ED is shown in FIG. 9 described later.
【0036】このバックトレース部9のバックトレース
結果と上記補助特徴系列Bとが、部分類似度算出部10
に供給される。The back trace result of the back trace unit 9 and the auxiliary feature series B are obtained by the partial similarity calculating unit 10.
Is supplied to.
【0037】部分類似度算出部10は、このバックトレ
ース部9のバックトレース結果と補助特徴系列Bとを用
いて、当該候補の識別に有効な前記区間[ST,ED]
の、補助特徴系列Bとの間の類似度(以下、部分類似度
と呼ぶ。)LB(i1)、LB(i2)…を算出する。
この算出には補助特徴標準パターン部11に予め格納さ
れている補助特徴パターンの標準パターンREF(i、
j、k)を使用する。そして、この格納標準パターンの
数RNOは、認識単語の数に対応する。The partial similarity calculation unit 10 uses the backtrace result of the backtrace unit 9 and the auxiliary feature sequence B to obtain the section [ST, ED] effective for identifying the candidate.
Of the auxiliary feature series B (hereinafter, referred to as partial similarity) LB (i 1 ), LB (i 2 ), ...
For this calculation, the standard pattern REF (i, of the auxiliary feature pattern previously stored in the auxiliary feature standard pattern section 11 is used.
j, k) are used. The number RNO of stored standard patterns corresponds to the number of recognized words.
【0038】そして、上記部分類似度の定義には、種々
の方法が考えられるが、ここでは、互いのベクトル間の
角度を部分類似度の一例として用いる。Various methods can be considered for the definition of the partial similarity, but here, the angle between the vectors is used as an example of the partial similarity.
【0039】即ち、入力フレーム長Tを時間長VLEN
に時間正規化した補助特徴系列BをSPEC(i,
j)、(i=1〜DNO、j=1〜VLEN、DNO:
補助特徴次元数(補助特徴種類数)、VLEN:固定の
フレーム数)とし、補助特徴標準パターン部11の標準
パターンをREF(i,j,k),(i=1〜DNO,
j=1〜VLEN,k=1〜RNO)とすると、第jフ
レームの補助特徴系列と、第jフレーム、第kカテゴリ
ーの補助特徴標準パターンとのベクトルの角度r(j、
k)は、次の数1式で表す。That is, the input frame length T is set to the time length VLEN.
The auxiliary feature sequence B time-normalized to SPEC (i,
j), (i = 1 to DNO, j = 1 to VLEN, DNO:
With the number of auxiliary feature dimensions (the number of auxiliary feature types), VLEN: fixed number of frames, the standard pattern of the auxiliary feature standard pattern unit 11 is REF (i, j, k), (i = 1 to DNO,
j = 1 to VLEN, k = 1 to RNO), the angle r (j, j of the vector of the auxiliary feature series of the jth frame and the auxiliary feature standard pattern of the jth frame, kth category
k) is expressed by the following equation 1.
【0040】[0040]
【数1】 そして更に上記数1式によって、上記部分類似度は次の
数2式で表すことができる。[Equation 1] Further, the above-mentioned partial similarity can be expressed by the following mathematical formula 2 by the mathematical formula 1.
【0041】[0041]
【数2】 この様にして得られた部分類似度は、総合判定部12に
供給される。[Equation 2] The partial similarity thus obtained is supplied to the comprehensive determination unit 12.
【0042】総合判定部12は、尤度算出部6における
算出結果(ビタビ演算での尤度)と部分類似度算出部1
0における算出結果(補助特徴の部分類似度)とを用い
て、総合的に判定され単語認識判定結果Iを出力する。The comprehensive judgment unit 12 calculates the calculation result in the likelihood calculation unit 6 (likelihood in Viterbi calculation) and the partial similarity calculation unit 1.
A word recognition determination result I that is comprehensively determined is output using the calculation result of 0 (partial similarity of auxiliary features).
【0043】この単語認識判定結果Iを出力するため
に、まず、算出された候補列i1、i2、…に対する、
ビタビ演算での尤度LA(i1)、LA(i2)…と、
補助特徴の部分類似度LB(i1)、LB(i2)、…
とを用いて、総合判定用類似度L(i)を求める。この
総合判定用類似度L(i)は次の数3式で定義する。In order to output this word recognition determination result I, first, for the calculated candidate strings i 1 , i 2 , ...
Likelihood LA (i 1 ), LA (i 2 ) ... in the Viterbi operation,
Auxiliary feature partial similarity LB (i 1 ), LB (i 2 ), ...
And are used to obtain the overall determination similarity L (i). This comprehensive determination similarity L (i) is defined by the following equation (3).
【数3】 尚、上記w1、w2は正定数の重み付け係数である。[Equation 3] The w1 and w2 are positive constant weighting coefficients.
【0044】そして、最終的に単語認識(識別)判定結
果Iは、次の数4式で表す。Finally, the word recognition (identification) determination result I is expressed by the following equation (4).
【0045】[0045]
【数4】 この数4式によって得られる、上記L(ik)の内の最
大値を与えるiを単語認識判定結果Iとして出力する。
そして、この単語認識判定結果Iを、例えばテーブルな
どに供給することによって所望の単語名を出力すること
ができる。例えば、このテーブルには、Iの値に対応し
て予め複数の単語名(あるいはカテゴリー名など)を格
納しておき、任意の上記Iが供給されることによって、
このIの値に応じて任意の単語名を出力させることがで
きる。[Equation 4] The word recognition determination result I is output as i which gives the maximum value of the above L (i k ) obtained by the equation (4).
Then, a desired word name can be output by supplying the word recognition determination result I to, for example, a table. For example, in this table, a plurality of word names (or category names, etc.) are stored in advance corresponding to the value of I, and by supplying any of the above I,
An arbitrary word name can be output according to the value of I.
【0046】ここで、上記数4式のKKは近類似度テー
ブル中のグループ内の単語表記候補の数であり、KK=
2又は3の値に設定することが実用的である。また、上
記w1、w2の重み付け係数は、部分類似度をより重視
しる観点から、w2>w1の関係に設定することが望ま
しい。Here, KK in the above equation 4 is the number of word notation candidates in the group in the near similarity table, and KK =
It is practical to set the value to 2 or 3. In addition, it is desirable that the weighting coefficients of w1 and w2 be set to the relationship of w2> w1 from the viewpoint of placing more importance on the partial similarity.
【0047】上記総合判定部12における総合判定処理
により、音韻HMMの尤度と、パターンマッチングとの
間の類似度という異なった手法を、相補的に用いている
ことによって類似単語認識に対する識別改善作用をもた
らしている。By the comprehensive judgment processing in the comprehensive judgment unit 12, different methods of the similarity between the phoneme HMM and the pattern matching are used complementarily, so that the discrimination improving effect for the similar word recognition is obtained. Is brought.
【0048】次に上述の図3における音韻HMM部分6
1と単語辞書部分62と単語連結モデル部分63とによ
る単語連結方法の一例について、図5及び図6を用いて
説明する。Next, the phonological HMM part 6 in FIG. 3 described above.
An example of a word connection method using 1 and the word dictionary portion 62 and the word connection model portion 63 will be described with reference to FIGS. 5 and 6.
【0049】図5は、音韻HMM部分61の音韻HMM
の構成の一例である。図5(a)は、4状態3ループの
音韻HMMモデルを表している。図5(b)は、2状態
1ループの音韻HMMモデルを表している。これらは、
予め学習サンプルから、例えば上記文献(2)に示され
ている『Baum−Welchのパラメータ推定法』に
よって、状態遷移確率確及び出力確率を求めてモデルを
推定して格納しておく。FIG. 5 shows the phoneme HMM of the phoneme HMM part 61.
It is an example of a configuration of. FIG. 5A shows a phoneme HMM model with four states and three loops. FIG. 5B shows a phonological HMM model with two states and one loop. They are,
The state transition probability and the output probability are obtained from the learning sample in advance by, for example, the “Baum-Welch parameter estimation method” shown in the above-mentioned document (2), and the model is estimated and stored.
【0050】図6は、認識単語のHMMを構成する方法
を示したものであり、上記音韻HMM部分61と、単語
辞書部分62とを用いて音韻HMMを連結する。ここで
は、音韻HMMの例として、上記図5(a)の4状態3
ループのモデルを例にしている。単語辞書部分62に
は、正書法(音韻記号表記)にて、認識対象単語名が記
述されている。単語辞書部分中の音韻記号に対応した音
韻HMMを選び、直前の音韻HMMの最終状態(図6
(b))と、直後の音韻HMMの初期状態(図6
(a))とを単に接続して、単語の連結モデルを得るこ
とができる。尚、上記図5の2状態1ループのモデルを
用いた場合の連結方法も同様な方法で実現することがで
きる。FIG. 6 shows a method of constructing an HMM of a recognized word. The phoneme HMM is connected using the phoneme HMM part 61 and the word dictionary part 62. Here, as an example of the phoneme HMM, the four states 3 in FIG.
The loop model is used as an example. In the word dictionary portion 62, the recognition target word name is described in the orthography (phonetic symbol notation). The phoneme HMM corresponding to the phoneme symbol in the word dictionary part is selected, and the final state of the immediately preceding phoneme HMM (see FIG. 6).
(B)) and the initial state of the phonological HMM immediately after (FIG. 6).
(A)) can be simply connected to obtain a concatenation model of words. The connection method using the two-state one-loop model in FIG. 5 can be realized by the same method.
【0051】図7は各音韻が1状態で表せる場合の左か
ら右への形の(Left−to−right)HMMを
用いた単語モデルの説明図である。FIG. 7 is an explanatory diagram of a word model using a left-to-right (Left-to-right) HMM when each phoneme can be represented by one state.
【0052】この図7において、図7(a)は『bis
ai』(尾西:びさい)に対する状態S1〜S5間の状
態遷移確率(a11、a12、・・・・)と、コード出
力確率(b11k、b12k、・・・)とを表してい
る。また、図7(b)は『hisai』(久居:ひさ
い)に対する状態S1*〜S5*間の状態遷移確率(a
1 1 *、a12 *、・・・)と、コード出力確率(b
11k *、b12k *、・・・)とを表している。尚上
記(a)、(b)図は、(ai、i)+
(ai、i+ 1)=1の場合の例を示している。In FIG. 7, FIG. 7A shows "bis
ai ”(Onishi: Bisai), state transition probabilities (a 11 , a 12 , ...) Between states S1 to S5 and code output probabilities (b 11k , b 12k , ...). .. Further, FIG. 7B shows a state transition probability (a) between states S1 * to S5 * for “hisai” (Hirai: Hisai).
1 1 * , a 12 * , ...) And the code output probability (b
11k * , b 12k * , ...). The above figures (a) and (b) are (a i, i ) +
An example of the case of (a i, i + 1 ) = 1 is shown.
【0053】図8は上記図7の例の音韻における各構成
部の信号の具体的な状態例を表している。FIG. 8 shows an example of a concrete state of the signal of each component in the phoneme of the example of FIG.
【0054】この図8において、各音韻が1状態で表
せ、上記図7(a)(b)の様に『bisai』と『h
isai』の単語モデルが単語連結モデル部分63(図
3に図示した。)の要素として予め与えられているもの
とする。そして、このときに入力音声が図8の(a)に
示す様に『Xisai』であったとする。この『X』は
不確定を意味するものとする。このときの入力音声エネ
ルギーを図8(b)に示し、この音声区間を図8(e)
に示す。そして尤度算出部6の算出結果の、1位と2位
の候補単語が『久居』、『尾西』と出力され、しかもこ
れらの候補単語が上記近類似度テーブル8(図1に図示
した。)に記載されているものとする。このときに『尾
西』の単語モデル(図7(a)に図示した。)に対する
上記ビタビ比較照合部分64(図3に図示した。)によ
って図8(f)に示す様な状態Sと入力フレームTとの
対応付けを行うことができる。この状態をバックトレー
ス部9(図1に図示した。)で処理することによって、
図8(i)に示す様な最適状態遷移系列(但しフレーム
方向は間引いている。)を得ることができる。この図8
(i)の最適状態系列から図8(g)の『尾西』に対す
る時間変化点time(1)〜time(5)を求める
ことができる。In FIG. 8, each phoneme can be represented by one state, and as shown in FIGS. 7 (a) and 7 (b), "bisai" and "h" are displayed.
It is assumed that the word model “isai” is given in advance as an element of the word concatenation model part 63 (illustrated in FIG. 3). Then, at this time, it is assumed that the input voice is "Xisai" as shown in FIG. This "X" means indeterminacy. The input voice energy at this time is shown in FIG. 8B, and this voice section is shown in FIG.
Shown in. Then, the first and second candidate words of the calculation result of the likelihood calculating unit 6 are output as "Hirai" and "Onishi", and these candidate words are shown in the near similarity table 8 (illustrated in FIG. 1). ). At this time, the Viterbi comparison and collation part 64 (shown in FIG. 3) with respect to the word model of “Onishi” (shown in FIG. 7A) is processed by the state S and the input frame as shown in FIG. 8F. Correlation with T can be performed. By processing this state by the back trace unit 9 (shown in FIG. 1),
It is possible to obtain an optimum state transition sequence (however, the frame direction is thinned out) as shown in FIG. 8 (i). This Figure 8
The time change points time (1) to time (5) for "Onishi" in FIG. 8 (g) can be obtained from the optimum state series of (i).
【0055】同様にして上記『久居』の単語モデルに対
するバックトレース処理を行い、その最適状態遷移系列
を図8(j)に示す様に得ることができる。この図8
(j)の最適状態遷移系列から図8(h)の『久居』に
対する時間変化点time(6)〜time(10)を
求めることができる。In the same manner, backtrace processing is performed on the word model of "Hisui", and the optimum state transition sequence can be obtained as shown in FIG. 8 (j). This Figure 8
The time change points time (6) to time (10) for "Hisui" in FIG. 8 (h) can be obtained from the optimum state transition sequence in (j).
【0056】以上の時間変化点time(L)、L=1
〜10と、上記近類似度テーブル8(図1に図示し
た。)の値とを用いて、上述の様にしてST(識別開始
フレーム)と、ED(識別終了フレーム)を決定するこ
とができる。The above time change points time (L), L = 1
-10 and the value of the near similarity table 8 (shown in FIG. 1), ST (identification start frame) and ED (identification end frame) can be determined as described above. ..
【0057】図9は上記ST(有効な識別開始フレー
ム)、ED(有効な識別終了フレーム)の一例の具体的
な算出処理フローチャートを表している。FIG. 9 shows a specific calculation process flowchart of an example of ST (valid identification start frame) and ED (valid identification end frame).
【0058】この図9において、まずWSTART
(i)*T=s(識別開始フレーム)を求め、WEND
(i)*T=e(識別終了フレーム)を算出する(S9
1)。WSTART(i)は識別開始割合で、Tは入力
フレーム数又は入力フレーム長を表す。次に上記TをS
*とし、e*をe*=1と設定する(S92)。次にL
=1に設定する(S93)。次に上記s≦time
(L)を満たすか否かを判定する(S94)。この条件
を満たすならば次に上記eがe≧time(L)を満た
すか否かを判定する(S95)。この条件を満たすなら
ば次に上記s*がs*≧time(L)を満たすか否か
を判定する(S96)。この条件を満たすならば次に上
記s*をs*=time(L)にする(S97)。次に
上記e*がe*≦time(L)を満たすか否かを判定
する(S98)。この条件を満たすならば次にe*をe
*=time(L)とする(S99)。次にLをL+1
に更新する(S100)。次にこの更新されたLがL>
LLを満たすか否かを判定する(S101)。この条件
を満たすならば上記s*の値を上記ST(有効な識別開
始フレーム)とし、そして上記e*の値を上記ED(有
効な識別終了フレーム)として出力する(S102)。In FIG. 9, first, WSTART
(I) * T = s (identification start frame) is calculated, and WEND
(I) * T = e (identification end frame) is calculated (S9)
1). WSTART (i) is the identification start rate, and T is the number of input frames or the input frame length. Next, let T be S
*, And e * is set to e * = 1 (S92). Then L
= 1 is set (S93). Next, the above s ≦ time
It is determined whether (L) is satisfied (S94). If this condition is satisfied, then it is determined whether or not the above e satisfies e ≧ time (L) (S95). If this condition is satisfied then determines whether the s * satisfies s * ≧ time (L) ( S96). If this condition is satisfied, then s * is set to s * = time (L) (S97). Next, it is determined whether or not the above e * satisfies e * ≤time (L) (S98). If this condition is satisfied, then e * is changed to e
* = Time (L) is set (S99). Then L to L + 1
(S100). Next, this updated L is L>
It is determined whether LL is satisfied (S101). If this condition is satisfied, the value of s * is output as ST (valid identification start frame), and the value of e * is output as ED (valid identification end frame) (S102).
【0059】そして、上記S94、S95、S98で条
件を満たさないと判断されると上記S100の処理を行
う。また、更に上記S96で条件を満たさないと判断さ
れると、次に上記S98の処理を行う。そして、上記S
94〜S100の処理を上記S101の条件を満たさな
い間、継続して処理する。If it is determined in S94, S95, and S98 that the conditions are not satisfied, the process of S100 is performed. If it is determined that the condition is not satisfied in S96, the process of S98 is performed next. And the above S
The processes of 94 to S100 are continuously processed while the condition of S101 is not satisfied.
【0060】以上の一実施例によれば、音韻HMMの連
結モデルによって少なくとも一つ以上の単語候補(i)
の列を算出し、当該候補列が近類似度テーブル8内に記
載されているものであれば、当該候補の、音韻HMMの
連結モデルによる最適状態遷移系列を求め、特徴時系列
を区分化し、特徴の相違部分に相当する上記識別有効区
間[ST、ED]を自動的に抽出し、当該候補の前記識
別有効区間の補助特徴を認識に用いる様にしたので、音
韻HMMとパターンマッチング法を相補的に用いて、最
適尤度に変更して認識対象音声中に類似した音韻系列の
単語が存在する場合においても正確な認識判定結果を出
力でき、類似単語音声の識別能力をより向上させた音声
認識装置を実現することができる。According to the above embodiment, at least one or more word candidates (i) are selected by the phoneme HMM concatenation model.
Is calculated, and if the candidate column is described in the close similarity table 8, an optimal state transition sequence of the candidate by the concatenation model of phonological HMM is obtained, and the feature time series is segmented, Since the identification effective section [ST, ED] corresponding to the different part of the feature is automatically extracted and the auxiliary feature of the identification effective section of the candidate is used for the recognition, the phoneme HMM and the pattern matching method are complemented. It is possible to output the accurate recognition judgment result even when there is a similar phoneme sequence word in the speech to be recognized by changing to the optimal likelihood, and to improve the recognition ability of the similar word speech. A recognition device can be realized.
【0061】以上の実施例の図1の音響特徴抽出部3に
おいては、例えば上記文献3に示したLPCケプストラ
ムを例に説明しが、これに限るものではない。In the acoustic feature extraction unit 3 of FIG. 1 of the above embodiment, the LPC cepstrum shown in the above-mentioned reference 3 is taken as an example, but the present invention is not limited to this.
【0062】また、以上の実施例において、図2の最適
コードベクトル選択部5においては、上記文献4に示さ
れているクラスタリング手法を例に説明したが、この手
法に限るものではない。Further, in the above embodiment, the optimal code vector selecting section 5 in FIG. 2 has been described by taking the clustering method shown in the above-mentioned document 4 as an example, but the present invention is not limited to this method.
【0063】また、以上の実施例においては、近類似度
テーブル8の構成を図4に示す様に構成したが、この構
成に限るものではない。Further, in the above embodiment, the configuration of the near similarity table 8 is configured as shown in FIG. 4, but it is not limited to this configuration.
【0064】また、以上の実施例の図6において、音韻
HMMの連結モデルの例を説明したが、連結方法は以上
の例に限るものではない。Although the example of the phoneme HMM connection model has been described with reference to FIG. 6 of the above embodiment, the connection method is not limited to the above example.
【0065】また、以上の実施例の図1において、総合
判定部12は判定結果として、単語認識判定結果の番号
Iを出力する様にしているが、代わりにこの第I番目の
カテゴリー名を最終認識判定結果として出力してもよ
い。Further, in FIG. 1 of the above-mentioned embodiment, the comprehensive judgment unit 12 outputs the word recognition judgment result number I as the judgment result, but instead of this, the I-th category name is the final one. You may output as a recognition determination result.
【0066】また、以上の実施例の図9において、上記
ST(有効な識別開始フレーム)、ED(有効な識別終
了フレーム)の算出処理方法を説明したが、この処理手
順に限るものではない。Further, although the calculation processing method of ST (effective identification start frame) and ED (effective identification end frame) has been described with reference to FIG. 9 of the above embodiment, the present invention is not limited to this processing procedure.
【0067】[0067]
【発明の効果】以上詳細に述べたようにこの発明によれ
ば、上記特徴情報系列抽出手段と、上記類似単語格納手
段と、上記標準特徴情報格納手段と、上記抽出手段とを
備えて、上記最適識別有効区間の上記特徴情報系列と、
上記標準特徴情報とを用いて、上記尤度を最適に変更し
て最適単語識別結果を生成出力しているので、認識対象
音声信号中に類似した音韻系列の単語が存在する場合に
おいても正確に認識でき、類似単語音声の識別能力をよ
り向上させた音声認識装置を実現することができる。As described in detail above, according to the present invention, the feature information sequence extracting means, the similar word storing means, the standard feature information storing means, and the extracting means are provided, and The characteristic information series of the optimal identification effective section,
Using the standard feature information, the likelihood is optimally changed and the optimum word identification result is generated and output. Therefore, even if a word of a similar phonological sequence exists in the recognition target speech signal, the word is accurately output. It is possible to realize a voice recognition device which can be recognized and whose recognition ability of similar word voice is further improved.
【図1】この一実施例に係る音声認識装置の機能ブロッ
ク図である。FIG. 1 is a functional block diagram of a voice recognition device according to an embodiment.
【図2】この一実施例に係る音声認識装置の最適コード
ベクトル選択部の機能ブロック図である。FIG. 2 is a functional block diagram of an optimum code vector selection unit of the voice recognition device according to the embodiment.
【図3】この一実施例に係る音声認識装置の尤度算出部
の機能ブロック図である。FIG. 3 is a functional block diagram of a likelihood calculation unit of the voice recognition device according to the embodiment.
【図4】この一実施例に係る音声認識装置の近類似度テ
ーブルの構成図である。FIG. 4 is a configuration diagram of a near similarity table of the voice recognition device according to the embodiment.
【図5】この一実施例に係る音声認識装置の音韻HMM
の説明図である。FIG. 5 is a phoneme HMM of the voice recognition device according to the embodiment.
FIG.
【図6】この一実施例に係る音声認識装置の音韻HMM
の連結モデル図である。FIG. 6 is a phoneme HMM of the voice recognition device according to the embodiment.
It is a connection model figure of.
【図7】この一実施例に係る音声認識装置の左から右へ
の形のHMMを用いた単語モデルの説明図である。FIG. 7 is an explanatory diagram of a word model using a left-to-right HMM of the voice recognition device according to the embodiment.
【図8】この一実施例に係る音声認識装置の各部の信号
の状態例図である。FIG. 8 is an example of a signal state of each unit of the voice recognition device according to the embodiment.
【図9】この一実施例に係る音声認識装置のST、ED
算出処理フローチャートである。FIG. 9: ST and ED of the voice recognition device according to this embodiment
It is a calculation processing flowchart.
3…音響特徴抽出部、4…補助特徴抽出部、5…最適コ
ードベクトル選択部、6…尤度算出部、7…判定部、8
…近類似度テーブル、9…バックトレース部、10…部
分類似度算出部、11…補助特徴標準パターン部、12
…総合判定部、51…コードベクトル選択部分51、5
2…コードベクトル部分、61…音韻HMM部分、62
…単語辞書部分、63…単語連結モデル部分、64…ビ
タビ比較照合部分。3 ... Acoustic feature extraction unit, 4 ... Auxiliary feature extraction unit, 5 ... Optimal code vector selection unit, 6 ... Likelihood calculation unit, 7 ... Judgment unit, 8
... near similarity table, 9 ... back trace part, 10 ... partial similarity calculation part, 11 ... auxiliary feature standard pattern part, 12
... Comprehensive judgment part, 51 ... Code vector selection parts 51,
2 ... Code vector part, 61 ... Phonological HMM part, 62
... word dictionary part, 63 ... word connection model part, 64 ... Viterbi comparison and collation part.
Claims (1)
デル法を用いて、入力音声信号に対応する複数の候補単
語と、その尤度を求めて音声認識を行う音声認識装置に
おいて、 予め類似単語をグループ化して格納している類似単語格
納手段と、 予めスペクトル包絡の標準特徴情報を認識可能単語に対
応して少なくとも1種類以上格納している標準特徴情報
格納手段と、 入力音声信号のスペクトル包絡の特徴情報を上記標準特
徴情報と同じ種類抽出して、上記特徴情報を系列化して
出力する特徴情報系列抽出手段と、 上記候補単語とその尤度とから上記類似単語格納手段を
検索し、この検索結果に応じてバックトレース処理して
最適識別有効区間を抽出する抽出手段とを備えて、 上記最適識別有効区間の上記特徴情報系列と、上記標準
特徴情報とを用いて、上記尤度を最適に変更して最適単
語識別結果を生成出力することを特徴とする音声認識装
置。1. A speech recognition apparatus which performs a speech recognition by obtaining a likelihood of a plurality of candidate words corresponding to an input speech signal by using a hidden Markov model method corresponding to an input speech signal, and a similar word is previously prepared. A similar word storage means for storing the grouped groups, and a standard feature information storage means for storing at least one type of standard feature information of the spectrum envelope corresponding to the recognizable words in advance, and a spectrum envelope of the input speech signal. The same type of feature information as the standard feature information is extracted, the feature information sequence extraction means for serializing and outputting the feature information, and the similar word storage means is searched from the candidate word and its likelihood, and An extraction unit that performs backtrace processing according to the search result to extract the optimum identification effective section, and the feature information series of the optimum identification effective section and the standard feature information. DOO using speech recognition apparatus characterized by generating and outputting an estimated word identification result optimally changes the likelihood.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4005435A JPH05188991A (en) | 1992-01-16 | 1992-01-16 | Speech recognition device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4005435A JPH05188991A (en) | 1992-01-16 | 1992-01-16 | Speech recognition device |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH05188991A true JPH05188991A (en) | 1993-07-30 |
Family
ID=11611122
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP4005435A Pending JPH05188991A (en) | 1992-01-16 | 1992-01-16 | Speech recognition device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH05188991A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100476337B1 (en) * | 1997-12-31 | 2005-06-13 | 엘지전자 주식회사 | Method of Simi1ar Word Recognition for Speech Recognition Apparatus |
JP2008077099A (en) * | 2001-03-28 | 2008-04-03 | Qualcomm Inc | Voice recognition system using implicit speaker adaption |
-
1992
- 1992-01-16 JP JP4005435A patent/JPH05188991A/en active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100476337B1 (en) * | 1997-12-31 | 2005-06-13 | 엘지전자 주식회사 | Method of Simi1ar Word Recognition for Speech Recognition Apparatus |
JP2008077099A (en) * | 2001-03-28 | 2008-04-03 | Qualcomm Inc | Voice recognition system using implicit speaker adaption |
JP2008203876A (en) * | 2001-03-28 | 2008-09-04 | Qualcomm Inc | Voice recognition system using implicit speaker adaption |
JP4546512B2 (en) * | 2001-03-28 | 2010-09-15 | クゥアルコム・インコーポレイテッド | Speech recognition system using technology that implicitly adapts to the speaker |
JP4546555B2 (en) * | 2001-03-28 | 2010-09-15 | クゥアルコム・インコーポレイテッド | Speech recognition system using technology that implicitly adapts to the speaker |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5862519A (en) | Blind clustering of data with application to speech processing systems | |
EP1269464B1 (en) | Discriminative training of hidden markov models for continuous speech recognition | |
US4783804A (en) | Hidden Markov model speech recognition arrangement | |
US8532991B2 (en) | Speech models generated using competitive training, asymmetric training, and data boosting | |
JP3672595B2 (en) | Minimum false positive rate training of combined string models | |
KR100612840B1 (en) | Model Variation Based Speaker Clustering Method, Speaker Adaptation Method, and Speech Recognition Apparatus Using Them | |
KR100925479B1 (en) | Speech recognition method and device | |
US8271283B2 (en) | Method and apparatus for recognizing speech by measuring confidence levels of respective frames | |
US6567776B1 (en) | Speech recognition method using speaker cluster models | |
US7318032B1 (en) | Speaker recognition method based on structured speaker modeling and a “Pickmax” scoring technique | |
US20030009333A1 (en) | Voice print system and method | |
JPH09127972A (en) | Vocalization discrimination and verification for recognitionof linked numeral | |
US6230129B1 (en) | Segment-based similarity method for low complexity speech recognizer | |
Pandit et al. | Feature selection for a DTW-based speaker verification system | |
JP2955297B2 (en) | Speech recognition system | |
JP3004023B2 (en) | Voice recognition device | |
JP3444108B2 (en) | Voice recognition device | |
Tabibian et al. | An evolutionary based discriminative system for keyword spotting | |
WO2002029785A1 (en) | Method, apparatus, and system for speaker verification based on orthogonal gaussian mixture model (gmm) | |
JP3403838B2 (en) | Phrase boundary probability calculator and phrase boundary probability continuous speech recognizer | |
JPH05188991A (en) | Speech recognition device | |
Pandey et al. | Multilingual speaker recognition using ANFIS | |
JP3216565B2 (en) | Speaker model adaptation method for speech model, speech recognition method using the method, and recording medium recording the method | |
KR20020045960A (en) | Method for performance improvement of keyword detection in speech recognition | |
Phoophuangpairoj et al. | Two-Stage Gender Identification Using Pitch Frequencies, MFCCs and HMMs |