JPH0431116B2 - - Google Patents
Info
- Publication number
- JPH0431116B2 JPH0431116B2 JP59003590A JP359084A JPH0431116B2 JP H0431116 B2 JPH0431116 B2 JP H0431116B2 JP 59003590 A JP59003590 A JP 59003590A JP 359084 A JP359084 A JP 359084A JP H0431116 B2 JPH0431116 B2 JP H0431116B2
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- word
- dictionary
- probability density
- segmented
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
Description
【発明の詳細な説明】
(産業上の利用分野)
本発明は、入力音声と、音素表記された単語辞
書を照合して単語を認識する単語音声認識方法に
関するものである。DETAILED DESCRIPTION OF THE INVENTION (Field of Industrial Application) The present invention relates to a word speech recognition method for recognizing words by comparing input speech with a word dictionary in which phonemes are expressed.
(従来例の構成とその問題点)
第1図は従来の単語音声認識方法の一例及び本
発明の単語音声認識方法の実施例等を実行するた
めの装置の機能ブロツク図である。従来例を第1
図〜第3図とともに説明する。第1図において、
1は入力音声からパラメータの時系列を作成する
パラメータ抽出部、2は音素標準パタンを照合し
て、音素の確率密度を算出する確率密度計算部、
3は音素毎のセグメンテーシヨン、尤度計算、単
語類似度計算等を行なう単語認識部である。ま
た、4は予め予備実験等により作成された、各音
素毎の各種パラメータにおける分布を各音素毎の
平均値(〓i)、及び各種パラメータ間の共分散行
列(〓i)の形で表わした音素標準パタンを記憶
する音素標準パタン部、5は認識すべき全単語を
音素単位の記号列で表記した単語辞書が記憶され
ている単語辞書部である。その単語辞書は、例え
ば単語「サツポロ」、「アサヒカワ」、「アキタ」、
「シマ」、「シサ」等は、それぞれ「SAQPORO」、
「ASAHIKAWA」、「AKITA」、「SIMA」、
「SISA」等と表記されている。(Constitution of Conventional Example and Problems thereof) FIG. 1 is a functional block diagram of an apparatus for executing an example of a conventional word speech recognition method and an embodiment of the word speech recognition method of the present invention. Conventional example first
This will be explained with reference to FIGS. In Figure 1,
1 is a parameter extraction unit that creates a time series of parameters from input speech; 2 is a probability density calculation unit that calculates the probability density of a phoneme by comparing a phoneme standard pattern;
3 is a word recognition unit that performs segmentation for each phoneme, likelihood calculation, word similarity calculation, etc. In addition, 4 represents the distribution of various parameters for each phoneme created in advance through preliminary experiments etc. in the form of the average value for each phoneme (〓 i ) and the covariance matrix among the various parameters (〓 i ). A phoneme standard pattern section 5 stores phoneme standard patterns, and a word dictionary section 5 stores a word dictionary in which all words to be recognized are expressed in symbol strings in phoneme units. The word dictionary includes, for example, the words "Satsuporo", "Asahikawa", "Akita",
"Sima", "Sisa", etc. are respectively "SAQPORO",
"ASAHIKAWA", "AKITA", "SIMA",
It is written as "SISA" etc.
次に上記従来例の動作について説明する。入力
音素をパラメータ抽出部1により10msのフレー
ム毎に分析しパラメータを抽出して、パラメータ
時系列を作成する。確率密度計算部2はフレーム
毎に得られたパラメータと音素標準パタンを照合
し、そのパラメータの値から生成される音素の確
率密度を算出する。次に単語認識部3において、
上記のパラメータと得られた確率密度値を用いて
各辞書項目毎に、その辞書項目を構成する辞書音
素系列に従つて1音素毎に音素のセグメンテーシ
ヨンを行ない、下記式に従いその音素の種類
と、その音素に対応してセグメンテーシヨンされ
た区間の尤度lを計算し、その辞書項目におけ
る、各音素の尤度の平均として類似度を求める。
ここで、その音素をXとし、Xに対応してセグメ
ンテーシヨンされた区間の始端と終端にフレーム
番号をNs,Neとし、第nフレームにおける各パ
ラメータの値をCoとすると、音素Xの尤度lxは下
式で定義される。 Next, the operation of the above conventional example will be explained. The input phoneme is analyzed by the parameter extraction unit 1 every 10 ms frame, parameters are extracted, and a parameter time series is created. The probability density calculation unit 2 compares the parameters obtained for each frame with the phoneme standard pattern, and calculates the probability density of the phoneme generated from the parameter values. Next, in the word recognition unit 3,
Using the above parameters and the obtained probability density value, for each dictionary item, segmentation is performed for each phoneme according to the dictionary phoneme sequence that makes up the dictionary item, and the type of phoneme is determined according to the following formula. Then, the likelihood l of the segmented interval corresponding to that phoneme is calculated, and the degree of similarity is determined as the average of the likelihoods of each phoneme in the dictionary entry.
Here, if the phoneme is X, the frame numbers are N s and Ne at the start and end of the segmented section corresponding to X, and the value of each parameter in the nth frame is Co , then The likelihood l x of X is defined by the following formula.
φi(Coはある音素iの確率密度を表わし、式
のように定義される。 φ i (C o represents the probability density of a certain phoneme i and is defined as in the equation.
φi(Co)=1/(2π)1/2|〓i|1/2exp
〔−1/2(Co−〓i)T -1
〓
i(Co−〓i)〕 ……
C:1つのフレームにおけるj個のパラメータ
(ベクトル)
〓i:ある音素iのパラメータの平均値(ベク
トル)
〓i:共分散行列
式において、確率密度の割り算における分母の
サメンシヨンiの範囲は、音素Xが何であるかに
よつて異なり、例えばXが音素A(ア)の時はiの範
囲は5母音、A,E,I,O,Uとしている。 φ i (C o )=1/(2π) 1/2 |〓 i | 1/2 exp [−1/2(C o −〓 i ) T -1 〓 i (C o −〓 i )] …… C: j parameters (vector) in one frame 〓 i : Average value of parameters of a certain phoneme i (vector) 〓 i : In the covariance determinant, the range of submension i of the denominator in dividing the probability density is the phoneme It depends on what X is. For example, when X is the phoneme A, the range of i is five vowels, A, E, I, O, and U.
以上により得られる単語類似度LMを式に従
つて各辞書項目毎に求め、LMが最大となる辞書
項目をもつて、認識単語としていた。 The word similarity L M obtained above was determined for each dictionary item according to the formula, and the dictionary item with the maximum L M was selected as a recognized word.
LM=NP
〓i=1
li/NP ……
LM:辞書中のM番目の単語の類似度
li:辞書音素系列中の音素iの尤度
NP:辞書音素数
上記従来例においては、音素の確率密度の値を
用いて辞書項目中の1音素毎についてセグメンテ
ーシヨン及び尤度計算を行なつている。第2図
は/SiMA/(島)と発声した時の各音素の確率
密度の時時変化を示している。この場合のセグメ
ンテーシヨン及び尤度計算は、各音素/S/,/
i/,/M/,/A/の確率密度の値φs,φi,
φM,φAの時間変化に従つて行ない、語頭の/
S/のセグメンテーシヨンはφsが低くなり、φiが
高くなるフレーム、aを/S/の後端とし、セグ
メンテーシヨンされた区間(SF−a)に対して
φsを用いて尤度計算を行なう。語頭の/S/に後
続する第2番目の音素/i/についても同様にφi
が低くなりφMが高くなるフレームbを/M/の
後端とし、セグメンテーシヨンされた区間(a〜
b)に対してφiを用いて尤度計算を行なつてい
た。 L M = NP 〓 i=1 l i /NP …… L M : Similarity of the Mth word in the dictionary l i : Likelihood of phoneme i in the dictionary phoneme sequence NP: Number of dictionary phonemes In the above conventional example, , segmentation and likelihood calculation are performed for each phoneme in a dictionary entry using the probability density value of the phoneme. Figure 2 shows the temporal changes in the probability density of each phoneme when uttering /SiMA/ (island). In this case, segmentation and likelihood calculation are performed for each phoneme /S/, /
The probability density values of i/, /M/, /A/ φ s , φ i ,
This is done according to the time changes of φ M and φ A , and /
Segmentation of S/ is performed using a frame in which φ s is low and φ i is high, a is the rear end of /S/, and φ s is used for the segmented section (SF-a). Perform degree calculations. Similarly, for the second phoneme /i/ following the initial /S/, φ i
Frame b, where φ M is low and φ M is high, is taken as the rear end of /M/, and the segmented section (a ~
For b), likelihood calculation was performed using φ i .
第3図は/SiSA/(示唆)と発声した時の各
音素の確率密度の時間変化を示している。セグメ
ンテーシヨン及び尤度計算は、各音素/S/,/
i/,/S/,/A/の確率密度の値、φs,φi,
φs,φAの時間変化に従つて行なうが、語頭の/
S/のセグメンテーシヨンをする場合、後続す
る/i/が無声化しているためφiが非常に小さく
なり、またφsが語頭の/S/の本来の区間である
(FS−c)を越え、さらに語頭の/S/に後続す
る/i/の本来の区間(c〜d)も越えているた
め、/i/に後続する/S/の後端eを語頭の/
S/の後端として出力しセグメンテーシヨン誤り
を起こしていた。 Figure 3 shows the temporal change in the probability density of each phoneme when /SiSA/ (suggestion) is uttered. Segmentation and likelihood calculation are performed for each phoneme /S/, /
The probability density values of i/, /S/, /A/, φ s , φ i ,
This is done according to the time changes of φ s and φ A , but the initial /
When segmenting S/, φ i becomes very small because the following /i/ is devoiced, and φ s is the original section of the word-initial /S/ (FS-c). It also exceeds the original interval (c to d) of /i/ that follows the /S/ at the beginning of the word, so the trailing end e of /S/ that follows /i/ is changed to /S/ at the beginning of the word.
It was output as the rear end of S/, causing a segmentation error.
このため、語頭の/S/に続く音素/i/,/
S/,/A/の音素についてのセグメンテーシヨ
ンも誤り、尤度が低くなる結果、無声化母音を含
む単語は誤認識し易い欠点があつた。 For this reason, the phonemes /i/, / following the /S/ at the beginning of the word
Segmentation for the S/ and /A/ phonemes is also incorrect and the likelihood becomes low, resulting in the disadvantage that words containing devoiced vowels are easily misrecognized.
(発明の目的)
本発明は上記従来例の欠点を除去するものであ
り、セグメンテーシヨン及び尤度計算の精度を向
上させ、それにより単語認識率を向上させること
を目的とする。(Object of the Invention) The present invention is intended to eliminate the drawbacks of the above-mentioned conventional examples, and aims to improve the accuracy of segmentation and likelihood calculation, thereby improving the word recognition rate.
(発明の構成)
本発明は、認識すべき単語を音素単位の記号列
で表記した単語辞書と、各音素の音響パラメータ
の分布形で表わされた各音素の標準パタンを具備
し、入力音声の単語を認識する際、入力音声を単
語辞書の各辞書項目と照合し、各辞書項目を構成
する辞書音素系列に従い各音素毎にその音素標準
パタンを用いて、その音素から生成される確率密
度を計算し入力音声をセグメンテーシヨンし、そ
のセグメンテーシヨンされた音声の区間に対し
て、上記の確率密度の値を用いて各辞書項目と入
力音声の類似度を求めて単語を認識する単語音声
認識方法において、無声子音に挾まれた無声化母
音のセグメンテーシヨン及び尤度計算を行なう
際、各音素の確率密度の値を用いて無声化母音を
含む、無声子音、無声化母音、無声子音の連続3
音素をまとめてセグメンテーシヨンし尤度計算を
行なうことを特徴とするものであり、これにより
セグメンテーシヨン及び尤度計算の精度を向上さ
せる効果を持つものである。(Structure of the Invention) The present invention includes a word dictionary in which words to be recognized are expressed as symbol strings for each phoneme, and a standard pattern of each phoneme expressed as a distribution of acoustic parameters of each phoneme. When recognizing a word, the input speech is checked against each dictionary item in the word dictionary, and the probability density generated from that phoneme is calculated using the phoneme standard pattern for each phoneme according to the dictionary phoneme sequence that makes up each dictionary item. is calculated, the input speech is segmented, and words are recognized by calculating the similarity between each dictionary item and the input speech using the above probability density value for the segmented speech interval. In the speech recognition method, when segmenting and calculating the likelihood of a devoiced vowel sandwiched between unvoiced consonants, the probability density value of each phoneme is used to segment the unvoiced consonant, unvoiced vowel, and unvoiced vowel, including the unvoiced vowel. consonant sequence 3
This method is characterized by segmenting phonemes and performing likelihood calculations, which has the effect of improving the accuracy of segmentation and likelihood calculations.
(実施例の説明)
以下に本発明の一実施例について第1図ととも
に説明する。同図においてパラメータ抽出部1、
確率密度計算部2および音素標準パタン部4は前
述の従来例と同様であり、従来例と異なるのは、
主として単語辞書部5の内容及び単語認識部3の
セグメンテーシヨンおよび尤度計算の一部であ
る。その単語辞書部5に格納されている単語辞書
は、認識すべき単語を音素の記号列で表記してあ
るが、従来例と異なるのは、無声化し易い母音、
例えば、「ASAHKAWA」、「AKTA」、「S
MA」、「SSA」等の〇印をつけたI、に対
して予めそれを示す符号をつけてあることであ
る。(Description of Embodiment) An embodiment of the present invention will be described below with reference to FIG. 1. In the figure, a parameter extraction unit 1,
The probability density calculation section 2 and the phoneme standard pattern section 4 are the same as those in the conventional example described above, and the differences from the conventional example are as follows.
It mainly includes the contents of the word dictionary section 5 and part of the segmentation and likelihood calculation of the word recognition section 3. The word dictionary stored in the word dictionary section 5 represents the words to be recognized as phoneme symbol strings, but the difference from the conventional example is that vowels that are easily devoiced,
For example, "ASAHKAWA", "AKTA", "S
The I's marked with a circle, such as "MA" and "SSA," are pre-assigned with a code indicating that.
本実施例の方法は、先ず入力音声からパラメー
タ抽出部1によりフレーム毎のパラメータを得、
さらに確率密度計算部2において、そのパラメー
タの値を使つて、各音素標準パタンから得られる
確率密度を計算する。ここまでは、前記従来例と
同様である。次に単語認識部3で、単語辞書部5
の各辞書項目毎にその辞書項目を構成する辞書音
素系列に従つて音素Xのセグメンテーシヨンを行
ないその音素Xとその音素Xに対応してセグメン
テーシヨンされた区間の尤度lxを計算する。辞書
音素系列中に無声子音C1,C2に挾まれた無声化
母音Vがある場合声化母音の確率密度の値は母音
の性質を示せず、無声子音の性質を示す。従つて
上記セグメンテーシヨンにおいて、無声子音、無
声化母音、無声子音(C1VC2)の並びにおける各
音素の種類及びその音素並びに対応して、各各の
音素確率密度の値を利用して3音素まとめてセグ
メンテーシヨンを行ない、そのセグメンテーシヨ
ンされた区間に対して尤度lc1vc2を計算する。 The method of this embodiment first obtains parameters for each frame from the input audio using the parameter extraction unit 1,
Furthermore, the probability density calculation unit 2 uses the values of the parameters to calculate the probability density obtained from each phoneme standard pattern. The process up to this point is the same as the conventional example. Next, in the word recognition section 3, the word dictionary section 5
For each dictionary entry, perform segmentation of phoneme X according to the dictionary phoneme sequence that constitutes that dictionary entry, and calculate the likelihood l x of the segmented interval corresponding to that phoneme X and that phoneme X. do. When there is a voiceless vowel V sandwiched between voiceless consonants C 1 and C 2 in the dictionary phoneme sequence, the probability density value of the voiced vowel does not indicate the nature of the vowel, but rather the nature of the voiceless consonant. Therefore, in the above segmentation, by using the type of each phoneme in the sequence of voiceless consonants, voiceless vowels, and voiceless consonants (C 1 VC 2 ), the phoneme, and the corresponding value of each phoneme probability density, The three phonemes are segmented together, and the likelihood l c1vc2 is calculated for the segmented interval.
第3図において/SiS/の間の/i/の確率密
度のφiはほとんどなく、代わりに語頭の/S/の
確率密度の値φsが語頭から第3番目のSの終り、
eまで優勢である。 In Figure 3, the probability density φ i of /i/ between /SiS/ is almost nonexistent, and instead, the probability density value φ s of /S/ at the beginning of the word is at the end of the third S from the beginning of the word.
It is dominant up to e.
従つて、無声化母音を含む連続3音素の第3番
目の音素/S/とそれに後続する母音/A/の確
率密度φS,φAを用いてセグメンテーシヨンを行
ない、そのセグメンテーシヨンされた区間に対し
てφsを用いて尤度を計算する。このようにするこ
とにより、無声子音、無音化母音、無声子音の連
続3音素、/SiS/は区間(FS〜e)に対応し良
好なセグメンテーシヨンができるため尤度計算の
精度も向上する。 Therefore, segmentation is performed using the probability densities φ S and φ A of the third phoneme /S/ of the three consecutive phonemes including the devoiced vowel and the vowel /A/ that follows it, and the segmentation result is The likelihood is calculated using φ s for the interval. By doing this, the successive three phonemes of a voiceless consonant, a voiceless vowel, and a voiceless consonant, /SiS/, correspond to the interval (FS~e) and good segmentation can be achieved, which improves the accuracy of the likelihood calculation. .
本実施例においては無声化母音を1つの音素と
して扱わず無声化母音を含む、無声子音、無声化
母音、無声子音の音素並びをまとめて、セグメン
テーシヨン尤度計算を行なうため、無声化母音を
含む単語の認識率が向上する利点がある。 In this embodiment, the segmentation likelihood calculation is performed by grouping together the phoneme sequences of voiceless consonants, voiceless vowels, and voiceless consonants, including the voiceless vowel, without treating the voiceless vowel as a single phoneme. This has the advantage of improving the recognition rate for words containing words.
(発明の効果)
本発明は、無声子音に挾まれた無声化母音のセ
グメンテーシヨン及び尤度計算を行なう際、各音
素の確率密度の値を使つて無声化母音を含む、無
声子音、無声化母音、無声子音の連続3音素をま
とめてセグメンテーシヨンし尤度計算を行なうの
で、従来法に比べ高い精度でセグメンテーシヨン
及び尤度計算を行なう利点を有する。(Effects of the Invention) The present invention uses the probability density value of each phoneme to segment and calculate the likelihood of a devoiced vowel sandwiched between unvoiced consonants. Since the three continuous phonemes of a voiced vowel and a voiceless consonant are segmented and the likelihood calculation is performed, this method has the advantage that the segmentation and likelihood calculation can be performed with higher accuracy than the conventional method.
第1図は従来の単語音声認識方法の一例及び本
発明の単語音声認識方法の実施例等を実行するた
めの装置の機能ブロツク図、第2図は/
SiMA/、(島)と発声した場合の各音素の確率
密度の時間変化を表わす図、第3図は/SiSA/
(示唆)と発声した場合の各音素の確率密度の変
化を表わす図である。
1……パラメータ抽出部、2……確率密度計算
部、3……単語認識部、4……音素標準パタン
部、5……単語辞書部。
FIG. 1 is a functional block diagram of an apparatus for carrying out an example of a conventional word speech recognition method and an embodiment of the word speech recognition method of the present invention, and FIG.
Figure 3 shows the time change in the probability density of each phoneme when uttering SiMA/, (island), /SiSA/
FIG. 4 is a diagram showing changes in the probability density of each phoneme when uttering "(suggestion)". 1... Parameter extraction section, 2... Probability density calculation section, 3... Word recognition section, 4... Phoneme standard pattern section, 5... Word dictionary section.
Claims (1)
音声を、認識すべき単語を音素単位の記号列で表
記した単語辞書の各辞書項目と照合し、各音素の
音響パラメータの分布形で表わされた各音素の標
準パタンを用いて、各辞書項目を構成する辞書音
素系列に従い各音素毎にその音素から生成される
確率密度を計算して入力音声をセグメンテーシヨ
ン、そのセグメンテーシヨンされた音声の区間に
対して、上記の確率密度の値を用いて各辞書項目
と入力音声の類似度を求めて単語を認識するにあ
たり、無声子音に挾まれた無声化した母音に対し
ては、無音化母音を含む、無声子音、無声化母
音、無声子音の音素系列の確率密度の値を用い
て、連続子音素をまとめてセグメンテーシヨン
し、尤度計算を行なうことを特徴とする単語音声
認識方法。1. When recognizing words in input speech, the input speech is compared with each dictionary item in a word dictionary in which the word to be recognized is expressed as a symbol string for each phoneme, and the word is expressed in the distribution form of the acoustic parameters of each phoneme. Using the standard pattern of each phoneme, the input speech is segmented by calculating the probability density generated from that phoneme for each phoneme according to the dictionary phoneme series that constitutes each dictionary item, and the segmented speech is When recognizing words by calculating the similarity between each dictionary item and the input speech using the above probability density value for the interval of A word speech recognition method characterized by segmenting consecutive consonants together and performing likelihood calculations using probability density values of phoneme sequences of unvoiced consonants, unvoiced vowels, and unvoiced consonants, including vowels. .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP59003590A JPS60149096A (en) | 1984-01-13 | 1984-01-13 | Recognition of word voice |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP59003590A JPS60149096A (en) | 1984-01-13 | 1984-01-13 | Recognition of word voice |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS60149096A JPS60149096A (en) | 1985-08-06 |
JPH0431116B2 true JPH0431116B2 (en) | 1992-05-25 |
Family
ID=11561674
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP59003590A Granted JPS60149096A (en) | 1984-01-13 | 1984-01-13 | Recognition of word voice |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS60149096A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11020085B2 (en) | 2015-08-27 | 2021-06-01 | Koninklijke Philips N.V. | Spectral doppler processing with adaptive sample window size |
-
1984
- 1984-01-13 JP JP59003590A patent/JPS60149096A/en active Granted
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11020085B2 (en) | 2015-08-27 | 2021-06-01 | Koninklijke Philips N.V. | Spectral doppler processing with adaptive sample window size |
Also Published As
Publication number | Publication date |
---|---|
JPS60149096A (en) | 1985-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Iwano et al. | Prosodic word boundary detection using statistical modeling of moraic fundamental frequency contours and its use for continuous speech recognition | |
JPH0431116B2 (en) | ||
JPH045392B2 (en) | ||
JPH0431115B2 (en) | ||
JPH08314490A (en) | Word spotting type speech recognition method and device | |
JPH045393B2 (en) | ||
JPH045396B2 (en) | ||
JPH0412480B2 (en) | ||
JPH045397B2 (en) | ||
JPH045391B2 (en) | ||
JP3291073B2 (en) | Voice recognition method | |
JPH0412479B2 (en) | ||
JPH0155477B2 (en) | ||
JPH07113838B2 (en) | Speech recognition method | |
JPH045394B2 (en) | ||
JPH0431114B2 (en) | ||
JPH045395B2 (en) | ||
JPH0155476B2 (en) | ||
JPH0413719B2 (en) | ||
JPH0635494A (en) | Speech recognizing device | |
JPS60182499A (en) | Voice recognition equipment | |
JPH0827640B2 (en) | Voice recognition device | |
JPH067359B2 (en) | Voice recognizer | |
JPH0431117B2 (en) | ||
JPS60149099A (en) | Voice recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
EXPY | Cancellation because of completion of term |