JP2001343992A - Method and device for learning voice pattern model, computer readable recording medium with voice pattern model learning program recorded, method and device for voice recognition, and computer readable recording medium with its program recorded - Google Patents
Method and device for learning voice pattern model, computer readable recording medium with voice pattern model learning program recorded, method and device for voice recognition, and computer readable recording medium with its program recordedInfo
- Publication number
- JP2001343992A JP2001343992A JP2000162964A JP2000162964A JP2001343992A JP 2001343992 A JP2001343992 A JP 2001343992A JP 2000162964 A JP2000162964 A JP 2000162964A JP 2000162964 A JP2000162964 A JP 2000162964A JP 2001343992 A JP2001343992 A JP 2001343992A
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- model
- speech
- phoneme set
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 235
- 238000000605 extraction Methods 0.000 claims abstract description 191
- 239000000284 extract Substances 0.000 claims abstract description 14
- 230000002452 interceptive effect Effects 0.000 claims description 26
- 238000004458 analytical method Methods 0.000 claims description 19
- 239000013598 vector Substances 0.000 abstract description 51
- 238000010586 diagram Methods 0.000 description 18
- 230000000694 effects Effects 0.000 description 14
- 230000007704 transition Effects 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 8
- 230000005236 sound signal Effects 0.000 description 4
- 241001122315 Polites Species 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 1
Abstract
Description
【0001】[0001]
【発明の属する技術分野】この発明は、対話音声のよう
に発話速度がはやくかつ曖昧な音声について適切に音声
パターンモデルを学習することが可能な音声パターンモ
デル学習装置、音声パターンモデル学習方法、および音
声パターンモデル学習プログラムを記録したコンピュー
タ読み取り可能な記録媒体に関するものである。さら
に、この発明は、対話音声のように発話速度がはやくか
つ曖昧な音声を精度よく認識することが可能な音声認識
装置、音声認識方法、および音声認識プログラムを記録
したコンピュータ読み取り可能な記録媒体に関するもの
である。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a voice pattern model learning apparatus, a voice pattern model learning method, and a voice pattern model learning method capable of appropriately learning a voice pattern model for an utterance having a high utterance speed and an ambiguous voice such as an interactive voice. The present invention relates to a computer-readable recording medium storing a speech pattern model learning program. Further, the present invention relates to a voice recognition device, a voice recognition method, and a computer-readable recording medium storing a voice recognition program capable of accurately recognizing an ambiguous voice having a fast utterance speed such as a dialogue voice. Things.
【0002】[0002]
【従来の技術】一般に、音声認識は、音声を音響分析し
て得られる音声の特徴ベクトルの時系列と、その特徴ベ
クトルの時系列のパターンをモデル化した音声パターン
モデルとのパターンマッチングを行うことにより実現さ
れる。この音声パターンモデルとしては、HMM(Hi
dden Markov Model,隠れマルコフモ
デル)が用いられることが多い。2. Description of the Related Art Generally, in speech recognition, pattern matching is performed between a time series of a feature vector of a speech obtained by acoustic analysis of a speech and a speech pattern model obtained by modeling a pattern of the time series of the feature vector. Is realized by: As the voice pattern model, HMM (Hi
Dden Markov Model, Hidden Markov Model) is often used.
【0003】音声パターンモデルとしてHMMを用いる
場合、モデル化する音声パターンの単位としては、音素
を用いることが多い。音素は子音(/s/,/h/,/
f/,/p/,/t/,/k/,/z/,/b/,/z
/,/g/,/m/,/n/,/r/)や母音(/a
/,/i/,/u/,/e/,/o/)等である。日本
語に現われる全音素をHMMによってモデル化しておけ
ば、音素HMMを接続することにより任意の単語や文章
をモデル化することができ、単語音声や連続音声の認識
を行うことができる。When an HMM is used as a voice pattern model, a phoneme is often used as a unit of a voice pattern to be modeled. Phonemes are consonants (/ s /, / h /, /
f /, / p /, / t /, / k /, / z /, / b /, / z
/, / G /, / m /, / n /, / r /) and vowels (/ a
/, / I /, / u /, / e /, / o /) and the like. If all phonemes appearing in Japanese are modeled by the HMM, an arbitrary word or sentence can be modeled by connecting the phoneme HMMs, and word speech or continuous speech can be recognized.
【0004】音素をHMMでモデル化する場合、以下の
ように音素を細分化してモデル化する場合が多い。例え
ば音節/ha/と/hi/の第1番目の音素である/h
/は同じ音素であっても後続音素である/a/,/i/
の影響を受け、/a/に先行する/h/と、/i/に先
行する/h/では音響特徴量(以後、特徴ベクトルとい
う)が異なっている。このように同じ音素での特徴ベク
トルが異なるものを異音と呼ぶ。異音は主に音素の出現
するコンテキスト、すなわち後続音素や先行音素の違い
によって生じるものとされている。そこで、各音素を1
つのモデルで表現するのではなく、コンテキストの違い
により別々のモデルで表現する方法が多く用いられてい
る。特に近年、R.Schwartz,Y.Chow著
「“IMPROVED HIDDEN MARKOV
MODELING OF PHONEMES OF C
ONTINUOUS SPEECH RECOGNIT
ION”,IEEE INTERNATIONAL C
ONFERENCE ONACOUSTICS, SP
EECH, AND SIGNAL PROCESSI
NG,Vol.3,35.6.1−35.6.4」(以
後、文献1と呼ぶ)等で提案された先行と後続の両方の
音素コンテキストを考慮した3音素組(トライフォン)
モデルを用いることが多い。例えば/aki/の/k/
は3音素組では(a)k(i)、/hako/の/k/
は3音素組では(a)k(o)である。ここで()内は
先行または後続の音素を示すものとする。上記(a)k
(i)と(a)k(o)は、後続の音素が異なるため別
の3音素組となる。この3音素組モデルを用いることに
よって、通常の音素モデルよりも高い認識性能を得るこ
とができる。なお、上記の(a)k(i)と(a)k
(o)等の表記法を以後、m音素組表記と呼ぶことにす
る。When a phoneme is modeled by an HMM, the phoneme is often segmented and modeled as follows. For example, the first phoneme of syllables / ha / and / hi / is / h
/ Is a subsequent phoneme even if it is the same phoneme / a /, / i /
And / h / preceding / a / and / h / preceding / i / have different acoustic feature amounts (hereinafter referred to as feature vectors). Such a phoneme having a different feature vector is called an abnormal sound. It is assumed that abnormal sounds are mainly caused by the context in which the phoneme appears, that is, the difference between the succeeding phoneme and the preceding phoneme. So, each phoneme is 1
Instead of using one model, many models use different models depending on the context. Particularly in recent years, R.A. Schwartz, Y .; Chow, “Improved Hidden Markov
MODELING OF PHONEMES OF C
ONTINUOUS SPEECH RECOGNIT
ION ”, IEEE INTERNATIONAL C
ONFERENCE ONACOUSTICS, SP
EECH, AND SIGNAL PROCESSI
NG, Vol. 3, 35.6.1-35.6.4 "(hereinafter referred to as reference 1) and the like, and a three-phoneme set (triphone) considering both preceding and succeeding phoneme contexts
Models are often used. For example, / aki / of / k /
Is (a) k (i), / hako // k /
Is (a) k (o) in a three-phoneme set. Here, the parentheses indicate the preceding or succeeding phonemes. The above (a) k
(I) and (a) k (o) are different sets of three phonemes because the subsequent phonemes are different. By using this three-phoneme set model, higher recognition performance than a normal phoneme model can be obtained. Note that the above (a) k (i) and (a) k
The notation such as (o) is hereinafter referred to as m phoneme set notation.
【0005】次に3音素組モデルの作成方法について説
明する。図23は例えば上記文献1に開示された3音素
組モデルを学習する従来の音声パターンモデル学習装置
の一例の構成を示すブロック図である。なお、文献1で
は英語の音素で説明しているが、日本語でも全く同じ技
術が使用できるので以下では日本語の音素を例にとって
説明する。図23において、100は3音素組モデルの
学習データが格納されている学習データメモリ、200
は学習データメモリ100に格納されている学習データ
中に含まれる音声の特徴ベクトルの時系列、300は3
音素組モデルの学習を行うモデル学習部、400はモデ
ル学習部300により学習された3音素組モデルのパラ
メータ、500は学習された3音素組モデルのパラメー
タ400等を格納するための3音素組モデルメモリであ
る。Next, a method for creating a three-phoneme set model will be described. FIG. 23 is a block diagram showing a configuration of an example of a conventional voice pattern model learning apparatus for learning a three-phoneme set model disclosed in the above-mentioned Document 1, for example. Note that, although the description is given in reference 1 using English phonemes, the same technique can be used in Japanese, so the following description will be given using Japanese phonemes as an example. In FIG. 23, reference numeral 100 denotes a learning data memory in which learning data of a three-phoneme set model is stored;
Is a time series of a speech feature vector included in the learning data stored in the learning data memory 100;
A model learning unit 400 for learning a phoneme set model; 400, a parameter of the three phoneme set model learned by the model learning unit 300; 500, a three phoneme set model for storing the learned parameter 400 of the three phoneme set model; Memory.
【0006】次に動作について説明する。学習データメ
モリ100に格納されている学習データは、多様な3音
素組のコンテキストを含んだ単語や文章を多数の話者が
読み上げた音声や、人対人の対話音声等を音響分析して
得られる、特徴ベクトルの時系列と発話内容を示す音素
組表記であって、具体的には、学習データの音声波形を
音響分析して得られる特徴ベクトルの時系列を音素区間
ごとに切り出したトークンの集合と、学習データ中に存
在する3音素組の3音素組表記とを対応づける3音素組
テーブルである。この3音素組テーブルの例を図24に
示す。Next, the operation will be described. The learning data stored in the learning data memory 100 can be obtained by acoustic analysis of a voice read by a number of speakers reading a word or a sentence including various contexts of three phonemes, a human-to-person conversation voice, and the like. , A set of tokens which is a phoneme set notation indicating a time series of feature vectors and utterance contents, specifically, a time series of feature vectors obtained by acoustic analysis of a speech waveform of learning data and cut out for each phoneme section. 6 is a three-phoneme set table for associating three-phoneme set notations of three-phoneme sets existing in the learning data. FIG. 24 shows an example of the three phoneme set table.
【0007】音響分析として例えばLPC(Linea
r Predictive Coding,線形予測分
析)が使用され、特徴ベクトルはLPCケプストラムで
ある。音素区間ごとへの切り出しは例えば人間がスペク
トログラムを観察して行う。また、各トークンには当該
トークンの音素名と先行音素名および後続音素名を記し
た3音素組表記が付与されているものとする。3音素組
表記の例を図25に示す。As an acoustic analysis, for example, LPC (Linea
r Predictive Coding (linear prediction analysis) is used, and the feature vector is an LPC cepstrum. The segmentation for each phoneme section is performed by, for example, a human observing a spectrogram. It is also assumed that each token is given a three-phoneme set notation in which the phoneme name, preceding phoneme name, and subsequent phoneme name of the token are described. FIG. 25 shows an example of the three-phoneme set notation.
【0008】また、3音素組モデルは連続分布型のHM
Mであると仮定する。この場合、各3音素組モデルの構
造としては図26に示すように5状態のleft−to
−rightモデルを用いる。図26において、状態1
が初期状態、状態5が最終状態である。各3音素組モデ
ルは、状態遷移確率aijと、ラベル出力確率b
ij(x)から構成される。ここで添字ijは状態iか
ら状態jへの遷移を示すものであり、状態遷移確率a
ijは状態iから状態jへの遷移が起きる確率である。
また、ラベル出力確率bij(x)は、連続分布型のH
MMでは多次元正規分布で表現される。状態遷移確率a
ijおよびラベル出力確率bij(x)をHMMのパラ
メータという。HMMのパラメータを求めることをHM
Mの学習という。The three-phoneme model is a continuous distribution type HM
Suppose M. In this case, the structure of each three-phoneme set model is a five-state left-to-
-Use the right model. In FIG. 26, state 1
Is the initial state, and state 5 is the final state. Each three-phone set model has a state transition probability a ij and a label output probability b
ij (x). Here, the subscript ij indicates a transition from the state i to the state j, and the state transition probability a
ij is the probability of a transition from state i to state j.
The label output probability b ij (x) is a continuous distribution type H
In MM, it is represented by a multidimensional normal distribution. State transition probability a
ij and the label output probability b ij (x) are referred to as HMM parameters. HM to determine the parameters of the HMM
It is called M learning.
【0009】次にモデル学習動作について説明する。 (1)学習手順1:モデル学習部300は、学習データ
メモリ100が保持する3音素組テーブルを読み込み、
3音素組テーブルの記述内容にしたがって、3音素組を
学習対象として選択する。3音素組テーブルが例えば図
24のように記述されている場合、モデル学習部300
はまず先頭の3音素組である(a)a(a)を学習対象
として選択する。Next, the model learning operation will be described. (1) Learning procedure 1: The model learning unit 300 reads the three-phoneme set table held in the learning data memory 100,
According to the description contents of the three phoneme set table, the three phoneme sets are selected as learning targets. When the three phoneme set table is described, for example, as shown in FIG.
First selects (a) a (a), which is the first set of three phonemes, as a learning target.
【0010】(2)学習手順2:次に、モデル学習部3
00は、学習データメモリ100から上記学習手順1に
おいて選択した3音素組と一致する3音素組表記を持つ
全てのトークンの特徴ベクトルの時系列200を読み込
み、例えばフォワード・バックワードアルゴリズムを用
いて選択した3音素組についてモデルを学習する。学習
を終了すると、モデル学習部300は学習を終了したモ
デルのパラメータである状態遷移確率ai jおよびラベ
ル出力確率bij(x)、ならびにその3音素組表記
を、3音素組モデルメモリ500に送出する。3音素組
モデルメモリ500は学習を終了したモデルのパラメー
タおよび3音素組表記を保持する。(2) Learning procedure 2: Next, the model learning section 3
00 reads from the learning data memory 100 a time series 200 of feature vectors of all tokens having a three-phoneme set notation that matches the three-phoneme set selected in the above-described learning procedure 1, and selects the time series 200 using, for example, a forward / backward algorithm. The model is learned for the set of three phonemes. Upon completion of learning, the state transition probability model learning unit 300 is a parameter of the model ended learning a i j and label output probabilities b ij (x), and the 3 phoneme set notation, the 3 phoneme sets model memory 500 Send out. The three-phoneme set model memory 500 holds the parameters of the model for which learning has been completed and the three-phoneme set notation.
【0011】(3)学習手順3:モデル学習部300
は、学習データメモリ100が保持する3音素組テーブ
ルを参照し、学習データ中に存在する全ての3音素組に
ついてモデルの学習が終了するまで、3音素組テーブル
に記述されている順番にしたがって次の3音素組を学習
対象として選択し、上記学習手順2を繰り返す。このよ
うにして、モデル学習部300は、学習データ中に存在
する全ての3音素組についてモデルを学習する。(3) Learning procedure 3: Model learning section 300
Refers to the three-phoneme set table held in the learning data memory 100, and continues in the order described in the three-phoneme set table until model learning is completed for all three-phoneme sets existing in the learning data. Are selected as learning targets, and the above learning procedure 2 is repeated. In this way, the model learning unit 300 learns a model for all three phoneme sets existing in the learning data.
【0012】[0012]
【発明が解決しようとする課題】従来の音声パターンモ
デル学習装置は以上のように構成されているので、先行
と後続の両方の音素コンテキストを考慮した3音素組モ
デルを用いて音素コンテキストの違いによって生じる音
素の特徴ベクトルの変形を考慮したモデルを作成し、認
識性能の向上を計っていたが、文章発声、朗読調、対話
調などの発話様式の違いに対処できないという課題があ
った。すなわち、音素の特徴ベクトルの変形は音素コン
テキストだけでなく、単語として発声する場合と文章発
声、朗読調、対話調などの発話様式の違いによっても生
じる。例えば、「予約」という言葉を単語として単独で
発声する場合と、「明日、予約したいんですが」という
テキストを読み上げる場合と、このテキストを人に向か
って話しかける場合とでは、特徴ベクトルの変形状態が
異なってくる。したがって、音声パターンモデル学習装
置は、従来の学習データとしてテキストを読み上げた音
声のみを用いた場合には、対話調の音声に対して適切な
音声パターンモデルを提供できないという課題があっ
た。Since the conventional speech pattern model learning apparatus is configured as described above, it uses a three-phoneme set model that considers both the preceding and succeeding phoneme contexts and uses the three-phoneme context model to determine the difference between phoneme contexts. Although a model was created in consideration of the resulting deformation of phoneme feature vectors to improve recognition performance, there was a problem that it was not possible to cope with differences in speech styles such as sentence utterance, reading style, and dialogue style. That is, the deformation of the feature vector of the phoneme is caused not only by the phoneme context but also by the difference between the case of uttering as a word and the utterance style such as sentence utterance, reading tone, dialogue tone and the like. For example, when the word "reservation" is uttered as a word alone, when the text "I want to make a reservation tomorrow" is read out, and when this text is spoken to a person, the deformation state of the feature vector Will be different. Therefore, the voice pattern model learning apparatus has a problem that it is not possible to provide a voice pattern model appropriate for a dialogue voice when using only voices that read text as conventional learning data.
【0013】また、テキストを読み上げた音声、人との
対話音声等の種々の発話様式の音声の学習データを同時
に用いて音声パターンモデルを学習する場合には、特徴
ベクトルの変形状態が異なる種々の特徴ベクトルを1個
のモデルで表現するので、音声パターンモデルの精度が
低下するという課題があった。When learning a speech pattern model by simultaneously using speech data of various utterance styles, such as text-to-speech speech and dialogue speech with a person, various deformation modes of feature vectors differ. Since the feature vector is represented by one model, there is a problem that the accuracy of the voice pattern model is reduced.
【0014】さらに、テキストを読み上げた音声、人と
の対話音声等の種々の発話様式の音声ごとの学習データ
を用いて音声パターンモデルを学習する場合には、音声
パターンモデルの精度低下を避けることはできるが、音
声パターンモデルの数が学習する発話様式の数に比例し
て増加してしまうという課題があった。Further, when learning a voice pattern model using learning data for each voice in various utterance styles, such as text-to-speech voices and dialogue voices with people, it is necessary to avoid a decrease in accuracy of the voice pattern model. However, there is a problem that the number of voice pattern models increases in proportion to the number of utterance styles to be learned.
【0015】また、対話音声のように発話速度がはやく
かつ曖昧な音声では、前後の1音素からだけではなく前
後の2音素からも影響を受けて、特徴ベクトルの変形が
生じることがあり、3音素組モデルでは十分な学習が行
えないという課題があった。[0015] In addition, in the case of a speech having a fast and ambiguous speech rate such as a dialogue voice, the feature vector is affected not only by the preceding and succeeding phonemes but also by the preceding and succeeding phonemes. There was a problem that sufficient learning could not be performed with the phoneme set model.
【0016】この発明は上記のような課題を解決するた
めになされたもので、対話調の音声に対しても、音声パ
ターンモデルの数を大きく増加させることなく効率的に
音声パターンモデルを学習する音声パターンモデル学習
装置、音声パターンモデル学習方法、および音声パター
ンモデル学習プログラムを記録したコンピュータ読み取
り可能な記録媒体を得ることを目的とする。SUMMARY OF THE INVENTION The present invention has been made to solve the above-described problem, and efficiently learns a voice pattern model even for an interactive voice without greatly increasing the number of voice pattern models. A voice pattern model learning device, a voice pattern model learning method, and a computer readable recording medium storing a voice pattern model learning program are provided.
【0017】また、この発明は、3音素組モデルでは十
分な学習が行えない、対話音声のように発話速度がはや
くかつ曖昧な音声について、音声パターンモデルの数を
大きく増加させることなく効率的に、より長い音素環境
を考慮した音声パターンモデルを学習する音声パターン
モデル学習装置、音声パターンモデル学習方法、および
音声パターンモデル学習プログラムを記録したコンピュ
ータ読み取り可能な記録媒体を得ることを目的とする。Further, the present invention can efficiently perform, without a large increase in the number of voice pattern models, a voice having a fast and ambiguous utterance speed, such as a dialog voice, which cannot be sufficiently learned by a three-phoneme set model. It is another object of the present invention to provide a voice pattern model learning device, a voice pattern model learning method, and a computer readable recording medium storing a voice pattern model learning program for learning a voice pattern model in consideration of a longer phoneme environment.
【0018】さらに、この発明は、対話音声のように発
話速度がはやくかつ曖昧な音声について精度よく音声認
識を行う音声認識装置、音声認識方法、および音声認識
プログラムを記録したコンピュータ読み取り可能な記録
媒体を得ることを目的とする。Further, the present invention provides a speech recognition device, a speech recognition method, and a computer-readable recording medium on which a speech recognition program is recorded, for accurately recognizing speech having a fast and ambiguous speech rate such as conversational speech. The purpose is to obtain.
【0019】[0019]
【課題を解決するための手段】この発明に係る音声パタ
ーンモデル学習装置は、テキストを読み上げた音声を用
いて学習した読み上げ音声m音素組モデルを用い、対話
音声学習データから認識率が所定の閾値以下であるm音
素組を抽出するm音素組抽出手段と、抽出した各m音素
組について、上記対話音声学習データを用いて対話音声
m音素組モデルを学習するモデル学習手段とを備えたも
のである。A speech pattern model learning apparatus according to the present invention uses a read-aloud m-phoneme set model trained using text-to-speech voices, and a recognition rate of a predetermined threshold is determined from interactive voice learning data. It comprises m phoneme set extraction means for extracting the following m phoneme sets, and model learning means for learning a dialogue speech m phoneme set model for each extracted m phoneme set by using the dialogue speech learning data. is there.
【0020】この発明に係る音声パターンモデル学習装
置は、m音素組抽出手段が、対話音声学習データ中から
同一m音素組表記をもつデータ数が所定数以上であるm
音素組を選択し、読み上げ音声m音素組モデルを用いて
選択した該m音素組を認識し、認識率が所定の閾値以下
であるならば選択した上記m音素組を抽出するものであ
る。In the speech pattern model learning apparatus according to the present invention, the m phoneme group extracting means includes a m phoneme group having the same m phoneme group notation in the dialog speech learning data.
A phoneme set is selected, the selected m-phoneme set is recognized using an m-phoneme set model of the read-aloud voice, and the selected m-phoneme set is extracted if the recognition rate is equal to or less than a predetermined threshold.
【0021】この発明に係る音声パターンモデル学習装
置は、テキストを読み上げた音声を用いて学習した読み
上げ音声m音素組モデルを用い、対話音声学習データか
ら認識率が第1の所定の閾値以下であるm音素組を抽出
するm音素組抽出手段と、抽出した各m音素組につい
て、上記対話音声学習データを用いて対話音声m音素組
モデルを学習する対話音声m音素組モデル学習手段と、
上記読み上げ音声m音素組モデルと上記対話音声m音素
組モデルとを用いて、上記対話音声学習データから認識
率が第2の所定の閾値以下のn音素組を抽出するn音素
組抽出手段と、抽出した各n音素組について、上記対話
音声学習データを用いて対話音声n音素組モデルを学習
する対話音声n音素組モデル学習手段とを備えたもので
ある。A speech pattern model learning apparatus according to the present invention uses a read-aloud m-phoneme set model learned using a text-to-speech voice, and a recognition rate based on conversational voice learning data is equal to or less than a first predetermined threshold. m phoneme set extraction means for extracting m phoneme sets, dialogue speech m phoneme set model learning means for learning a dialogue speech m phoneme set model using the dialogue speech learning data for each extracted m phoneme set,
An n-phoneme set extraction unit that extracts an n-phoneme set whose recognition rate is equal to or less than a second predetermined threshold from the dialogue speech learning data using the read-aloud m-phoneme set model and the dialogue m-phoneme set model; A dialogue speech n phoneme set model learning means for learning a dialogue speech n phoneme set model using the dialogue speech learning data for each extracted n phoneme set.
【0022】この発明に係る音声パターンモデル学習装
置は、n音素組抽出手段が、対話音声学習データ中から
同一n音素組表記をもつデータ数が所定数以上であるn
音素組を選択し、読み上げ音声m音素組モデルと対話音
声m音素組モデルとを用いて選択した上記n音素組を認
識し、認識率が第2の所定の閾値以下であるならば選択
した上記n音素組を抽出するものである。In the speech pattern model learning apparatus according to the present invention, the n phoneme group extracting means may include an n phoneme group extracting unit in which the number of data having the same n phoneme group notation is equal to or more than a predetermined number from the conversation speech learning data.
Selecting a phoneme set, recognizing the selected n phoneme set using the read-aloud speech m-phoneme set model and the dialogue speech m-phoneme set model, and selecting the n-phoneme set if the recognition rate is equal to or less than a second predetermined threshold value; This is for extracting n phoneme sets.
【0023】この発明に係る音声認識装置は、上記音声
パターンモデル学習装置によって学習された読み上げ音
声m音素組モデル、対話音声m音素組モデルおよび対話
音声n音素組モデルを並列に接続することによって認識
対象語彙に対する音声パターンモデルを作成する認識対
象語彙モデル作成手段と、該認識対象語彙モデル作成手
段によって作成した認識対象語彙に対する音声パターン
モデルを用いて、入力音声の認識を行う認識手段とを備
えたものである。A speech recognition apparatus according to the present invention recognizes by connecting in parallel a m-phoneme set model, an m-phoneme set model, and an n-phoneme set model learned by the above-mentioned speech pattern model learning apparatus. A recognition target vocabulary model creating means for creating a speech pattern model for the target vocabulary; and a recognition means for recognizing the input speech using the speech pattern model for the recognition target vocabulary created by the recognition vocabulary model creating means. Things.
【0024】この発明に係る音声パターンモデル学習方
法は、テキストを読み上げた音声を用いて学習した読み
上げ音声m音素組モデルを用い、対話音声学習データか
ら認識率が所定の閾値以下であるm音素組を抽出し、抽
出した各m音素組について、上記対話音声学習データを
用いて対話音声m音素組モデルを学習するものである。A speech pattern model learning method according to the present invention uses a m-phoneme set model of a read-aloud speech trained using a text-to-speech speech, and recognizes m-phoneme sets whose recognition rate is equal to or lower than a predetermined threshold from conversational speech learning data. Is extracted, and for each of the extracted m phoneme sets, a dialogue speech m phoneme set model is learned using the above dialogue speech learning data.
【0025】この発明に係る音声パターンモデル学習方
法は、m音素組を抽出する際に、対話音声学習データ中
から同一m音素組表記をもつデータ数が所定数以上であ
るm音素組を選択し、読み上げ音声m音素組モデルを用
いて選択した上記m音素組を認識し、認識率が所定の閾
値以下であるならば選択した上記m音素組を抽出するも
のである。In the speech pattern model learning method according to the present invention, when extracting m phoneme sets, m phoneme sets in which the number of data having the same m phoneme set notation is equal to or more than a predetermined number are selected from conversational speech learning data. The selected m-phoneme set is recognized by using the m-phoneme-set model of the read-out voice, and the selected m-phoneme set is extracted if the recognition rate is equal to or less than a predetermined threshold.
【0026】この発明に係る音声パターンモデル学習方
法は、テキストを読み上げた音声を用いて学習した読み
上げ音声m音素組モデルを用い、対話音声学習データか
ら認識率が第1の所定の閾値以下であるm音素組を抽出
し、抽出した各m音素組について、上記対話音声学習デ
ータを用いて対話音声m音素組モデルを学習し、上記読
み上げ音声m音素組モデルと上記対話音声m音素組モデ
ルとを用いて、上記対話音声学習データから認識率が第
2の所定の閾値以下のn音素組を抽出し、抽出した各n
音素組について、上記対話音声学習データを用いて対話
音声n音素組モデルを学習するものである。A speech pattern model learning method according to the present invention uses a read-aloud m-phoneme set model learned using a text-to-speech voice, and a recognition rate is less than or equal to a first predetermined threshold value based on interactive voice learning data. An m-phoneme set is extracted, and for each of the extracted m-phoneme sets, a dialogue m-phoneme set model is learned using the dialogue speech learning data. The n phoneme sets whose recognition rate is equal to or less than a second predetermined threshold value are extracted from the conversational speech learning data using
For a phoneme set, a dialogue speech n phoneme set model is learned using the above-mentioned dialogue speech learning data.
【0027】この発明に係る音声パターンモデル学習方
法は、n音素組を抽出する際に、対話学習音声データ中
から同一n音素組表記をもつデータ数が所定数以上であ
るn音素組を選択し、読み上げ音声m音素組モデルと対
話音声m音素組モデルとを用いて選択した上記n音素組
を認識し、認識率が第2の所定の閾値以下であるならば
選択した上記n音素組を抽出するものである。In the speech pattern model learning method according to the present invention, when extracting n phoneme sets, an n phoneme set in which the number of data having the same n phoneme set notation is equal to or more than a predetermined number is selected from the interactive learning speech data. Recognizing the selected n-phoneme set using the read-aloud m-phoneme set model and the dialogue m-phoneme set model, and extracting the selected n-phoneme set if the recognition rate is equal to or less than a second predetermined threshold. Is what you do.
【0028】この発明に係る音声認識方法は、音声パタ
ーンモデル学習方法によって学習された読み上げ音声m
音素組モデル、対話音声m音素組モデルおよび対話音声
n音素組モデルを並列に接続することによって認識対象
語彙に対する音声パターンモデルを作成し、作成した認
識対象語彙に対する音声パターンモデルを用いて、入力
音声の認識を行うものである。The speech recognition method according to the present invention provides a read-out speech m learned by a speech pattern model learning method.
A speech pattern model for the vocabulary to be recognized is created by connecting the phoneme set model, the dialogue speech m phoneme set model, and the dialogue speech n phoneme set model in parallel, and the input speech is generated using the created speech pattern model for the recognition target vocabulary. This is to recognize.
【0029】この発明に係る音声パターンモデル学習プ
ログラムを記録したコンピュータ読み取り可能な記録媒
体は、テキストを読み上げた音声を用いて学習した読み
上げ音声m音素組モデルを用い、対話音声学習データか
ら認識率が所定の閾値以下であるm音素組を抽出するm
音素組抽出ステップと、抽出したm音素組について、上
記対話音声学習データを用いて対話音声m音素組モデル
を学習する対話音声m音素組モデル学習ステップとを有
するものである。A computer-readable recording medium on which a speech pattern model learning program according to the present invention is recorded uses a read-aloud m-phoneme set model trained using text-to-speech voices, and a recognition rate is obtained from interactive voice learning data. M to extract m phoneme sets that are less than or equal to a predetermined threshold
The method includes a phoneme set extracting step and a dialogue m phoneme set model learning step of learning a dialogue m m phoneme set model using the dialogue speech learning data for the extracted m phoneme set.
【0030】この発明に係る音声パターンモデル学習プ
ログラムを記録したコンピュータ読み取り可能な記録媒
体は、m音素組抽出ステップが、対話音声学習データ中
から同一m音素組表記をもつデータ数が所定数以上であ
るm音素組を選択し、読み上げ音声m音素組モデルを用
いて選択した上記m音素組を認識し、認識率が所定の閾
値以下であるならば選択した上記m音素組を抽出するも
のである。[0030] In the computer-readable recording medium storing the speech pattern model learning program according to the present invention, the m-phoneme group extraction step includes the step of: if the number of data having the same m-phoneme group notation is more than a predetermined number from the interactive speech learning data. A m-phoneme group is selected, the m-phoneme group selected using the m-phoneme-speech model is read, and the m-phoneme group selected is extracted if the recognition rate is equal to or less than a predetermined threshold. .
【0031】この発明に係る音声パターンモデル学習プ
ログラムを記録したコンピュータ読み取り可能な記録媒
体は、テキストを読み上げた音声を用いて学習した読み
上げ音声m音素組モデルを用い、対話音声学習データか
ら認識率が第1の所定の閾値以下であるm音素組を抽出
するm音素組抽出ステップと、抽出した各m音素組につ
いて、上記対話音声学習データを用いて対話音声m音素
組モデルを学習する対話音声m音素組モデル学習ステッ
プと、上記読み上げ音声m音素組モデルと上記対話音声
m音素組モデルとを用いて、上記対話音声学習データか
ら認識率が第2の所定の閾値以下のn音素組を抽出する
n音素組抽出ステップと、抽出した各n音素組につい
て、上記対話音声学習データを用いて対話音声n音素組
モデルを学習する対話音声n音素組モデル学習ステップ
とを有するものである。A computer-readable recording medium on which a speech pattern model learning program according to the present invention is recorded uses a read-out speech m-phoneme set model learned by using text-to-speech speech, and a recognition rate is obtained from interactive speech learning data. An m-phoneme set extracting step of extracting m-phoneme sets that are equal to or smaller than a first predetermined threshold value; and a dialogue speech m for learning a dialogue speech m-phoneme set model using the dialogue speech learning data for each of the extracted m-phoneme sets. Using the phoneme set model learning step, and using the read-aloud m-phoneme set model and the dialogue m-phoneme set model, an n-phoneme set whose recognition rate is equal to or less than a second predetermined threshold is extracted from the dialogue speech learning data. an n-phoneme group extraction step, and a learning step for learning a dialogue n-phoneme group model for each of the extracted n-phoneme groups using the above dialogue voice learning data. Those having an audio n phoneme sets model learning step.
【0032】この発明に係る音声パターンモデル学習プ
ログラムを記録したコンピュータ読み取り可能な記録媒
体は、n音素組抽出ステップが、対話音声学習データ中
から同一n音素組表記をもつデータ数が所定数以上であ
るn音素組を選択し、読み上げ音声m音素組モデルと対
話音声m音素組モデルとを用いて選択した上記n音素組
を認識し、認識率が第2の所定の閾値以下であるなら
ば、選択した上記n音素組を抽出するものである。[0032] In the computer readable recording medium storing the speech pattern model learning program according to the present invention, the n phoneme group extracting step is such that the number of data having the same n phoneme group notation is more than a predetermined number from the interactive speech learning data. Selecting a certain n phoneme set and recognizing the selected n phoneme set using the read-aloud m-phoneme set model and the dialogue m-phoneme set model, and if the recognition rate is equal to or less than a second predetermined threshold, The selected n phoneme sets are extracted.
【0033】この発明に係る音声認識プログラムを記録
したコンピュータ読み取り可能な記録媒体は、音声パタ
ーンモデル学習方法によって学習された読み上げ音声m
音素組モデル、対話音声m音素組モデルおよび対話音声
n音素組モデルを並列に接続することによって認識対象
語彙に対する音声パターンモデルを作成する認識対象語
彙モデル作成ステップと、該認識対象語彙モデル作成ス
テップで作成した認識対象語彙に対する音声パターンモ
デルを用いて、入力音声の認識を行う認識ステップとを
有するものである。The computer-readable recording medium on which the voice recognition program according to the present invention is recorded is a read-out voice m learned by the voice pattern model learning method.
A recognition target vocabulary model creating step of creating a speech pattern model for the recognition target vocabulary by connecting the phoneme group model, the dialogue m m phoneme group model, and the dialogue n n phoneme group model in parallel; A recognition step of recognizing the input voice using the generated voice pattern model for the recognition target vocabulary.
【0034】[0034]
【発明の実施の形態】以下、この発明の実施の一形態を
説明する。 実施の形態1.図1はこの発明の実施の形態1による音
声パターンモデル学習装置の構成を示すブロック図であ
る。図において、3は、読み上げ音声学習データメモリ
6に格納された各m音素組についてテキストを読み上げ
た音声を用いて読み上げ音声m音素組モデルを学習する
とともに、m音素組抽出部(m音素組抽出手段)10に
よって抽出された各m音素組について、対話音声学習デ
ータメモリ8に格納された対話音声学習データを用いて
対話音声m音素組モデルを学習するモデル学習部(モデ
ル学習手段)、7は読み上げ音声学習データメモリ6に
含まれる読み上げ音声の特徴ベクトルの時系列、9は対
話音声学習データメモリ8に含まれる対話音声の特徴ベ
クトルの時系列、11はm音素組抽出部10によって抽
出されたm音素組のm音素組表記、12は抽出m音素組
表記メモリ、13は読み上げ音声m音素組モデルのパラ
メータおよびm音素組表記、14は読み上げ音声m音素
組モデルメモリ、15は対話音声m音素組モデルのパラ
メータおよびm音素組表記、16は対話音声m音素組モ
デルメモリである。なお、以下ではm=3である3音素
組を例にして説明する。また、典型的には、この実施の
形態1で使用される読み上げ音声m音素組モデルおよび
対話音声m音素組モデルはともに連続分布型のHMMで
ある。DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS One embodiment of the present invention will be described below. Embodiment 1 FIG. FIG. 1 is a block diagram showing a configuration of a speech pattern model learning device according to Embodiment 1 of the present invention. Referring to FIG. 3, reference numeral 3 denotes a m-phoneme group extracting unit (m-phoneme group extraction unit) which learns a m-phoneme group extraction model using a voice read out of a text with respect to each m-phoneme group stored in the read-aloud speech learning data memory 6. Means) a model learning section (model learning means) for learning a dialogue m m phoneme set model using the dialogue voice learning data stored in the dialogue voice learning data memory 8 for each m phoneme set extracted by 10; The time series of the feature vector of the reading voice included in the reading voice learning data memory 6, the time series 9 of the feature vector of the dialogue voice included in the dialogue learning data memory 8, and the 11 are extracted by the m phoneme set extraction unit 10. m phoneme set notation of m phoneme set, 12 is an extracted m phoneme set notation memory, 13 is a parameter of m-phoneme set model and m phoneme set Serial, the reading voice m phoneme sets model memory 14, 15 parameters and m phonemes sets representation of interactive voice m phoneme sets model 16 is an interactive voice m phoneme sets model memory. In the following, a description will be given of a three-phoneme set where m = 3 as an example. Also, typically, the read-aloud m m phoneme set model and the dialogue m m phoneme set model used in the first embodiment are both continuous distribution HMMs.
【0035】読み上げ音声学習データメモリ6は、多様
なm音素組のコンテキストを含んだ単語や文章を多数の
話者が読み上げた音声を音響分析して得られる、特徴ベ
クトルの時系列と発話内容を示す音素組表記とを含む読
み上げ音声学習データを格納するものであって、具体的
には、読み上げ音声学習データは、テキストを読み上げ
た音声波形を音響分析して得られる特徴ベクトルの時系
列を音素区間ごとに切り出したトークンの集合と、m音
素組のm音素組表記の集合とを対応づけるm音素組テー
ブルである。このm音素組テーブルは例えば従来技術と
同様に図24のように記述されている。ここで、音響分
析方法としては従来技術と同様に例えばLPC分析を用
い、特徴ベクトルはLPCケプストラムである。音素区
間ごとへの切り出しは例えば人間がスペクトログラムを
観察して行う。また、読み上げ音声学習データメモリ6
が保持する各トークン(各トークンにはトークン番号が
付されている)には各トークンの音素名、先行音素名お
よび後続音素名を記したm音素組表記が付与されてい
る。各m音素組表記は、例えばm=3の場合、従来技術
と同様に図25のように記述される。The read-aloud speech learning data memory 6 stores a time series of feature vectors and utterance contents obtained by acoustically analyzing a speech read out by a number of speakers from words and sentences including various m-phoneme contexts. The phonetic speech learning data includes a phoneme set notation shown, and specifically, the speech training data is a phoneme based on a time series of a feature vector obtained by acoustically analyzing a speech waveform obtained by reading a text. It is an m phoneme set table that associates a set of tokens extracted for each section with a set of m phoneme set notations of m phoneme sets. This m phoneme set table is described, for example, as shown in FIG. Here, as the acoustic analysis method, for example, LPC analysis is used as in the related art, and the feature vector is an LPC cepstrum. The segmentation for each phoneme section is performed by, for example, a human observing a spectrogram. In addition, the reading voice learning data memory 6
Are assigned m-phoneme set notation in which the phoneme name, preceding phoneme name, and subsequent phoneme name of each token are described. Each m-phoneme set notation is described as shown in FIG.
【0036】対話音声学習データメモリ8は、多様な場
面での人対人の対話音声を音響分析して得られる、特徴
ベクトルの時系列と発話内容を示す音素組表記とを含む
対話音声学習データを格納するものであって、具体的に
は、対話音声学習データは、人対人の対話音声波形を音
響分析して得られる特徴ベクトルの時系列を音素区間ご
とに切り出したトークンの集合と、m音素組のm音素組
表記の集合とを対応づけるm音素組テーブルである。こ
のm音素組テーブルは、読み上げ音声学習データメモリ
6のm音素組テーブルと同様の形式を有している。ま
た、音響分析の方法としては、読み上げ音声学習データ
と同様に例えばLPC分析を用い、特徴ベクトルはLP
Cケプストラムである。音素区間ごとへの切り出しも読
み上げ音声学習データと同様に例えば人間がスペクトロ
グラムを観察して行うものとする。また対話音声学習デ
ータメモリ8が保持する各トークンにも(各トークンに
はトークン番号が付されている)各トークンの音素名、
先行音素名および後続音素名を記したm音素組表記が付
与されているものとする。各m音素組表記は、読み上げ
音声学習データメモリ6のm音素組表記と同様のもので
ある。The dialogue speech learning data memory 8 stores dialogue speech learning data obtained by acoustic analysis of a person-to-person dialogue voice in various scenes, including a time series of feature vectors and a phoneme set notation indicating utterance contents. Specifically, the dialogue speech learning data includes a set of tokens obtained by extracting a time series of feature vectors obtained by acoustically analyzing a person-to-person dialogue speech waveform for each phoneme section, and m phonemes. It is an m phoneme set table which associates a set of m phoneme set notations with a set. This m-phoneme set table has the same format as the m-phoneme set table in the reading voice learning data memory 6. In addition, as a method of acoustic analysis, for example, LPC analysis is used in the same manner as the read-out speech learning data, and the feature vector is LP
C cepstrum. It is assumed that, for example, a human observes a spectrogram as in the case of the read-out voice learning data, and cuts out each phoneme section. The phoneme name of each token (each token is assigned a token number) is also stored in each token held in the dialogue voice learning data memory 8.
It is assumed that m phoneme group notation in which the preceding phoneme name and the subsequent phoneme name are described is given. Each m-phoneme set notation is the same as the m-phoneme set notation in the reading voice learning data memory 6.
【0037】読み上げ音声学習データは、テキストを読
み上げた音声のように比較的丁寧で明瞭な発声に関する
学習データであるのに対し、対話音声学習データは人対
人の自然な対話音声に関する学習データであるので音素
の特徴ベクトルの変形が激しくなっているのが特徴であ
る。The read-aloud speech learning data is learning data relating to relatively polite and clear utterances, such as a text-to-speech voice, whereas the interactive speech learning data is learning data relating to a natural human-to-person interactive voice. The feature is that the feature vector of the phoneme is severely deformed.
【0038】次に動作について説明する。この発明の実
施の形態1による音声パターンモデル学習装置は、読み
上げ音声m音素組モデルを次のようにして作成し、読み
上げ音声m音素組モデルメモリ14に格納する。この場
合、音声パターンモデル学習装置は、モデル学習部3の
入力端子Aを読み上げ音声学習データメモリ6の出力端
子B1に接続することにより、読み上げ音声学習データ
メモリ6が保持するデータをモデル学習部3へ入力する
ようにセットする。さらに、モデル学習部3の出力端子
Cが読み上げ音声m音素組モデルメモリ14の入力端子
D1に接続される。この接続状態で、以下の手順にした
がって、この実施の形態1による音声パターンモデル学
習装置は読み上げ音声m音素組モデルを学習する。Next, the operation will be described. The speech pattern model learning device according to the first embodiment of the present invention creates a read-aloud m m-phoneme set model as follows, and stores it in the read-aloud m-phoneme set model memory 14. In this case, the speech pattern model learning device connects the input terminal A of the model learning unit 3 to the output terminal B1 of the speech learning data memory 6 so that the data held in the speech learning data memory 6 is stored in the model learning unit 3. Set to input to. Further, the output terminal C of the model learning unit 3 is connected to the input terminal D1 of the read-aloud m-phoneme set model memory 14. In this connection state, the speech pattern model learning device according to the first embodiment learns the read-aloud m m phoneme set model according to the following procedure.
【0039】(1)読み上げ音声モデル学習手順1:モ
デル学習部3は、読み上げ音声学習データメモリ6が保
持するm音素組テーブルを読み込み、このm音素組テー
ブルの記述内容にしたがって先頭のm音素組をまず学習
対象として選択する。この場合、m=3であるm音素組
テーブルが従来技術と同様に例えば図24のように記述
されているならば、モデル学習部3はまず先頭のm音素
組である(a)a(a)を学習対象として選択する。(1) Reading voice model learning procedure 1: The model learning unit 3 reads the m phoneme set table held in the reading voice learning data memory 6, and according to the description contents of the m phoneme set table, the first m phoneme set. Is first selected as a learning target. In this case, if the m phoneme set table in which m = 3 is described as in the prior art, for example, as shown in FIG. 24, the model learning unit 3 first determines the first m phoneme set as (a) a (a ) Is selected as a learning target.
【0040】(2)読み上げ音声モデル学習手順2:モ
デル学習部3は、上記読み上げ音声モデル学習手順1ま
たは下記読み上げ音声モデル学習手順3において選択し
たm音素組と一致するm音素組表記を持つ全てのトーク
ンの特徴ベクトルの時系列7を読み上げ音声学習データ
メモリ6から読み込み、例えばフォワード・バックワー
ドアルゴリズムを用いて選択した上記m音素組について
モデルを学習する。学習を終了すると、モデル学習部3
はモデルのパラメータである状態遷移確率およびラベル
出力確率ならびにそのm音素組表記13を読み上げ音声
m音素組モデルメモリ14に送出する。読み上げ音声m
音素組モデルメモリ14は上記のように学習を終了した
モデルのパラメータとそのm音素組表記13を保持す
る。(2) Speech model learning procedure 2: The model learning section 3 has m phoneme set notation that matches the m phoneme set selected in the above read speech model learning procedure 1 or the following read speech model learning procedure 3. The time series 7 of the feature vector of the token is read out from the read-out speech learning data memory 6, and the model is learned for the m phoneme set selected using, for example, a forward / backward algorithm. When learning is completed, the model learning unit 3
Sends the state transition probability and label output probability, which are model parameters, and the m-phoneme set notation 13 thereof to the m-phoneme set model memory 14 for read-out speech. Reading voice m
The phoneme set model memory 14 holds the parameters of the model for which learning has been completed as described above and the m phoneme set notation 13 thereof.
【0041】(3)読み上げ音声モデル学習手順3:そ
の後、モデル学習部3は読み上げ音声学習データメモリ
6が保持するm音素組テーブルを参照し、読み上げ音声
学習データメモリ6に存在する全てのm音素組について
モデルの学習が終了するまで、上記m音素組テーブルに
記述されている順番にしたがって次のm音素組を学習対
象として選択し、上記読み上げ音声モデル学習手順2を
繰り返して、全てのm音素組について読み上げ音声m音
素組モデルの学習を終了する。(3) Reading voice model learning procedure 3: Thereafter, the model learning unit 3 refers to the m phoneme set table held in the reading voice learning data memory 6 and reads all m phonemes present in the reading voice learning data memory 6. Until the learning of the model for the set is completed, the next m-phoneme set is selected as a learning target according to the order described in the m-phoneme set table, and the above-described reading voice model learning procedure 2 is repeated to obtain all m-phoneme sets. The learning of the read-aloud m-phoneme set model for the set is ended.
【0042】次に、モデル学習部3は、m音素組抽出部
10と協働して、対話音声m音素組モデルを学習し、学
習によって得た結果を対話音声m音素組モデルメモリ1
6に格納する。学習を開始する前に、音声パターンモデ
ル学習装置は、モデル学習部3の入力端子Aを対話音声
学習データメモリ8の出力端子B2に接続することによ
り、対話音声学習データメモリ8が保持するデータをモ
デル学習部3へ入力するようにセットする。さらに、モ
デル学習部3の出力端子Cが対話音声m音素組モデルメ
モリ16の入力端子D2に接続される。この接続状態
で、以下の手順にしたがって、この実施の形態1による
音声パターンモデル学習装置は対話音声m音素組モデル
を学習する。Next, the model learning section 3 cooperates with the m-phoneme set extracting section 10 to learn the m-phoneme set model of the dialogue speech, and stores the result obtained by the learning in the dialogue m-phoneme set model memory 1.
6 is stored. Before starting the learning, the speech pattern model learning device connects the input terminal A of the model learning unit 3 to the output terminal B2 of the dialogue learning data memory 8 to thereby store the data held in the dialogue learning data memory 8. It is set so as to be input to the model learning unit 3. Further, the output terminal C of the model learning unit 3 is connected to the input terminal D2 of the conversational speech m phoneme group model memory 16. In this connection state, the speech pattern model learning apparatus according to the first embodiment learns the m-phoneme set model of the dialogue speech according to the following procedure.
【0043】この対話音声m音素組モデルの学習手順
は、読み上げ音声m音素組モデルメモリ14に格納され
ている読み上げ音声m音素組モデルを用いて対話音声学
習データメモリ8に格納されている各トークンの認識を
行い、認識率の低いm音素組を抽出する手順と、このよ
うにして抽出した各m音素組について対話音声m音素組
モデルを学習する手順との2つの手順からなる。The learning procedure of the dialogue m m phoneme set model is performed by using each of the tokens stored in the dialogue speech learning data memory 8 using the readout m m phoneme set model stored in the readout m m phoneme set model memory 14. And a procedure for extracting a m-phoneme set having a low recognition rate, and a procedure for learning a dialogue m-phoneme set model for each m-phoneme set extracted in this manner.
【0044】まず、認識率の低いm音素組を抽出する手
順について説明する。 (1)m音素組抽出手順1:m音素組抽出部10は、読
み上げ音声m音素組モデルメモリ14から全ての読み上
げ音声m音素組モデルのパラメータとそのm音素組表記
とを読み込む。First, a procedure for extracting m phoneme sets having a low recognition rate will be described. (1) m-phoneme-set extraction procedure 1: The m-phoneme-set extraction unit 10 reads the parameters of all the read-aloud m-phoneme-set models and the m-phoneme-set notation from the read-aloud m-phoneme-set model memory 14.
【0045】(2)m音素組抽出手順2:m音素組抽出
部10は、対話音声学習データメモリ8が保持するm音
素組テーブルを参照しこのm音素組テーブルの記述内容
にしたがって、先頭のm音素組を認識対象として選択す
る。m=3のm音素組テーブルが例えば図24のように
記述されている場合、m音素組抽出部10はまず先頭の
m音素組である(a)a(a)を認識対象として選択す
る。(2) m phoneme set extraction procedure 2: The m phoneme set extraction unit 10 refers to the m phoneme set table held in the conversational speech learning data memory 8 and reads the m phoneme set table according to the description contents of the m phoneme set table. The m phoneme sets are selected as recognition targets. When the m-phoneme set table of m = 3 is described, for example, as shown in FIG. 24, the m-phoneme set extraction unit 10 first selects the first m-phoneme set (a) a (a) as a recognition target.
【0046】(3)m音素組抽出手順3:m音素組抽出
部10は、上記m音素組抽出手順2または下記m音素組
抽出手順4において選択したm音素組と一致するm音素
組表記を持つ全てのトークンの特徴ベクトルの時系列9
を対話音声学習データメモリ8から読み込み、読み込ん
だ各トークンのそれぞれについて、上記m音素組抽出手
順1で読み込んだ全ての読み上げ音声m音素組モデルと
の尤度を計算し、一番高い尤度を示したm音素組モデル
のm音素組表記を当該トークンの認識結果とする。な
お、尤度計算には例えばビタビアルゴリズムを用いる。
m音素組抽出部10は、読み込んだ全てのトークンにつ
いて認識結果を求めた後、下記(1)式にしたがって認
識率Rtを計算する。(3) m-phoneme-set extraction procedure 3: The m-phoneme-set extraction unit 10 extracts the m-phoneme-set notation that matches the m-phoneme-set selected in the above-mentioned m-phoneme-set extraction procedure 2 or the following m-phoneme-set extraction procedure 4. Time series 9 of feature vectors of all tokens
Is read from the conversational speech learning data memory 8, and for each of the read tokens, the likelihoods of all the read-out speech m-phoneme set models read in the above m-phoneme set extraction procedure 1 are calculated, and the highest likelihood is calculated. The notation of the m phoneme set of the indicated m phoneme set model is used as the recognition result of the token. The likelihood calculation uses, for example, a Viterbi algorithm.
m phoneme set extraction unit 10, after obtaining the recognition result for all tokens read, calculates the recognition rate R t in accordance with the following equation (1).
【0047】 Rt= Ct/Nt*100.0 (1)R t = C t / N t * 100.0 (1)
【0048】但し、(1)式中で添字tは選択したm音
素組の種類を示しており、Ntはm音素組表記がm音素
組の種類がtであるトークンの個数、Ctはその中で正
認識であったトークンの個数である。ここで正認識と
は、読み込んだ各トークンのm音素組表記が一番高い尤
度を示したm音素組モデルのm音素組表記と一致する場
合を正認識とする。[0048] However, (1) subscript t denotes the m phoneme sets of type selected in formula, N t is the number of tokens m phoneme pairs notation is m phoneme sets of types t, C t is This is the number of tokens that were recognized correctly. Here, the correct recognition is defined as a case where the m phoneme set notation of each read token matches the m phoneme set notation of the m phoneme set model showing the highest likelihood.
【0049】m音素組抽出部10は、上記認識率Rtを
予め定めた閾値Trと比較し、閾値Tr以下であれば、
そのm音素組のm音素組表記を抽出m音素組表記メモリ
12に送出する。抽出m音素組表記メモリ12は、入力
されたm音素組表記を保持する。The m phoneme set extraction unit 10 compares the recognition rate Rt with a predetermined threshold value Tr, and if it is equal to or smaller than the threshold value Tr ,
The m phoneme set notation of the m phoneme set is sent to the extracted m phoneme set notation memory 12. The extracted m phoneme set notation memory 12 holds the input m phoneme set notation.
【0050】(4)m音素組抽出手順4:m音素組抽出
部10は、対話音声学習データメモリ8が保持するm音
素組テーブルを参照し、対話音声学習データメモリ8に
存在する全てのm音素組から認識率の低いものを抽出す
るために、上記m音素組テーブルに記述されている順番
にしたがって次のm音素組を選択し、上記m音素組抽出
手順3を繰り返す。(4) m phoneme set extraction procedure 4: The m phoneme set extraction unit 10 refers to the m phoneme set table held in the dialogue speech learning data memory 8 and reads all m-phoneme set data existing in the dialogue speech learning data memory 8. In order to extract a low recognition rate from a phoneme set, the next m phoneme set is selected according to the order described in the m phoneme set table, and the m phoneme set extraction procedure 3 is repeated.
【0051】以上のように、m音素組抽出部10は、上
記m音素組抽出手順1〜4を行うことによって、認識率
Rtが閾値Tr以下である全てのm音素組を抽出し、そ
れらのm音素組表記を抽出m音素組表記メモリ12に格
納する。As described above, the m-phoneme set extraction unit 10 extracts all the m-phoneme sets whose recognition rate Rt is equal to or less than the threshold value Tr by performing the m-phoneme set extraction procedures 1 to 4. The m phoneme group notation is stored in the extracted m phoneme group notation memory 12.
【0052】次に上記のようにして抽出した各m音素組
について対話音声m音素組モデルを学習する手順を説明
する。Next, the procedure for learning the m-phoneme group model for dialogue speech for each m-phoneme group extracted as described above will be described.
【0053】(1)抽出m音素組モデル学習手順1:モ
デル学習部3は、抽出m音素組表記メモリ12に保持さ
れているm音素組表記を読み込み、抽出m音素組表記メ
モリ12に保持されている順番にしたがい、まず先頭の
m音素組を学習対象として選択する。抽出m音素組表記
メモリ12の内容が例えば図2のようである場合、モデ
ル学習部3は先頭のm音素組である(a)a(u)を学
習対象として選択する。(1) Extracted m-phoneme set model learning procedure 1: The model learning section 3 reads the m-phoneme set notation held in the extracted m-phoneme set notation memory 12 and holds the m-phoneme set notation memory 12. First, the first m phoneme set is selected as a learning target. If the contents of the extracted m-phoneme set notation memory 12 are as shown in FIG. 2, for example, the model learning unit 3 selects the first m-phoneme set (a) a (u) as a learning target.
【0054】(2)抽出m音素組モデル学習手順2:モ
デル学習部3は、上記抽出m音素組モデルの学習手順1
または下記抽出m音素組モデルの学習手順3において選
択したm音素組と一致するm音素組表記を持つ全てのト
ークンの特徴ベクトルの時系列9を対話音声学習データ
メモリ8から読み込み、例えばフォワード・バックワー
ドアルゴリズムを用いて選択したm音素組に対する対話
音声m音素組モデルを学習する。そして、モデル学習部
3は、学習したモデルのパラメータとそのm音素組表記
を対話音声m音素組モデルメモリ16に送出する。対話
音声m音素組モデルメモリ16は、受け取ったモデルの
パラメータおよびm音素組表記を保持する。(2) Extracted m phoneme set model learning procedure 2: The model learning unit 3 learns the extracted m phoneme set model learning procedure 1
Alternatively, the time series 9 of the feature vectors of all tokens having the m phoneme set notation that matches the m phoneme set selected in the learning procedure 3 of the extracted m phoneme set model is read from the interactive speech learning data memory 8 and forward-backed, for example. A dialogue m-phoneme set model for the selected m-phoneme set is learned using a word algorithm. Then, the model learning unit 3 sends the learned model parameters and the m-phoneme set notation to the dialogue-phone m-phoneme set model memory 16. The conversational speech m-phoneme set model memory 16 holds the received model parameters and m-phoneme set notation.
【0055】(3)抽出m音素組モデル学習手順3:次
に、モデル学習部3は、抽出m音素組表記メモリ12に
保持されている順番にしたがって、抽出m音素組表記メ
モリ12に保持されている次のm音素組を選択し、上記
の抽出m音素組モデル学習手順2を繰り返す。(3) Extracted m-phoneme set model learning procedure 3: Next, the model learning section 3 holds the extracted m-phoneme set notation memory 12 in the order stored in the extracted m-phoneme set notation memory 12. Then, the next m phoneme set is selected, and the above-described extracted m phoneme set model learning procedure 2 is repeated.
【0056】次にこの実施の形態1による音声パターン
モデル学習装置が使用する、m音素組モデルを学習する
方法を具体的に説明する。図3はこの発明の実施の形態
1による音声パターンモデル学習方法の手順を示すフロ
ーチャートである。図3に示すとおり、この実施の形態
1による音声パターンモデル学習装置ではm音素組モデ
ルの学習手順は大きく3つのステップに分けられる。Next, a method for learning the m phoneme set model used by the voice pattern model learning apparatus according to the first embodiment will be described in detail. FIG. 3 is a flowchart showing the procedure of the voice pattern model learning method according to Embodiment 1 of the present invention. As shown in FIG. 3, in the speech pattern model learning apparatus according to the first embodiment, the learning procedure of the m phoneme set model is roughly divided into three steps.
【0057】まず、モデル学習部3は、第1ステップで
あるステップST101において、読み上げ音声m音素
組モデルを学習し学習した結果であるモデルのパラメー
タおよびm音素組表記を読み上げ音声m音素組モデルメ
モリ14に格納する。First, in step ST101, which is the first step, the model learning unit 3 learns model parameters and m-phoneme set notation obtained as a result of learning and learning the read-out m-phoneme set model, and reads out the m-phoneme set model memory. 14 is stored.
【0058】次に、m音素組抽出部10は、第2ステッ
プであるステップST102において、読み上げ音声m
音素組モデルメモリ14に格納されている読み上げ音声
m音素組モデルを用いて対話音声学習データメモリ8に
格納されている各トークンの認識を行い、認識率の低い
m音素組を抽出する。Next, in step ST102, which is the second step, the m-phoneme set extraction unit 10 reads out the read speech m
Each token stored in the conversational speech learning data memory 8 is recognized by using the m-phoneme group model of the read-out voice stored in the phoneme group model memory 14 and an m-phoneme group having a low recognition rate is extracted.
【0059】その後、モデル学習部3は、第3ステップ
であるステップST103において、対話音声学習デー
タメモリ8に格納されているトークンを用いて上記第2
ステップで抽出したm音素組について、対話音声m音素
組モデルを学習する。Thereafter, in step ST103, which is the third step, the model learning section 3 uses the token stored in the conversational voice learning data memory 8 to store the second
For the m phoneme set extracted in the step, a m-phoneme set model of conversational speech is learned.
【0060】次に上記第1〜第3ステップを詳しく説明
する。図4は上記第1ステップである読み上げ音声m音
素組モデルの学習手順を示すフローチャートである。図
4を参照しながら読み上げ音声m音素組モデルの学習手
順を詳細に説明する。Next, the first to third steps will be described in detail. FIG. 4 is a flowchart showing a learning procedure of the read-aloud m-phoneme set model as the first step. Referring to FIG. 4, the learning procedure of the m-phoneme set model of the read-aloud speech will be described in detail.
【0061】モデル学習部3は、ステップST201に
おいて、読み上げ音声学習データメモリ6のm音素組テ
ーブルを読み込み、このm音素組テーブルの記述内容に
したがって、先頭のm音素組を学習対象として選択す
る。m音素組テーブルが従来技術と同様に例えば図24
のように記述されている場合、モデル学習部3は先頭の
m音素組である(a)a(a)を学習対象として選択す
る。In step ST201, the model learning section 3 reads the m-phoneme set table in the read-aloud speech learning data memory 6, and selects the first m-phoneme set as a learning target according to the description contents of the m-phoneme set table. As shown in FIG.
In this case, the model learning unit 3 selects the head m phoneme set (a) a (a) as a learning target.
【0062】モデル学習部3は、次に、ステップST2
02において、上記ステップST201またはステップ
ST206において選択したm音素組と一致するm音素
組表記を持つ全てのトークンの特徴ベクトルの時系列7
を読み上げ音声学習データメモリ6から読み込む。The model learning unit 3 then proceeds to step ST2
02, a time series 7 of feature vectors of all tokens having m phoneme set notation that matches the m phoneme set selected in step ST201 or ST206.
Is read from the reading voice learning data memory 6.
【0063】そして、モデル学習部3は、ステップST
203において、例えばフォワード・バックワードアル
ゴリズムを用いて上記ステップST201またはステッ
プST206において選択したm音素組について読み上
げ音声m音素組モデルを学習する。Then, the model learning section 3 determines in step ST
At 203, a m-phoneme set model to be read aloud is learned for the m-phoneme set selected at step ST201 or ST206 using, for example, a forward / backward algorithm.
【0064】その後、モデル学習部3は、ステップST
204において、学習を終了すると上記ステップST2
03における学習の結果得たモデルのパラメータである
状態遷移確率およびラベル出力確率ならびにそのm音素
組表記13を読み上げ音声m音素組モデルメモリ14に
送出する。読み上げ音声m音素組モデルメモリ14は受
け取ったこれらのモデルのパラメータおよびm音素組表
記13を保持する。After that, the model learning section 3 executes step ST
At step 204, when the learning is completed, the above-described step ST2 is performed.
The state transition probability and the label output probability, which are the parameters of the model obtained as a result of the learning in step 03 and the m-phoneme group notation 13, are sent to the read-out m-phoneme group model memory 14. The read speech m-phoneme set model memory 14 holds the parameters of these models and the m-phoneme set notation 13 that have been received.
【0065】次に、モデル学習部3は、ステップST2
05において、読み上げ音声学習データメモリ6が保持
するm音素組テーブルを参照し、読み上げ音声学習デー
タメモリ6に存在する全てのm音素組について読み上げ
音声m音素組モデルの学習を終了したか否かを判定し、
全てのm音素組について学習が終了していない場合は、
ステップST206において、m音素組テーブルに記述
されている順番にしたがって次のm音素組を学習対象と
して選択し、上記ステップST202に戻る。一方、全
てのm音素組について学習が終了したならば、モデル学
習部3はこの読み上げ音声m音素組モデル学習手順を終
了する。Next, the model learning section 3 determines in step ST2
At 05, the m-phoneme set table held in the read-speech learning data memory 6 is referred to, and it is determined whether or not the learning of the read-speech m-phoneme set model has been completed for all the m-phoneme sets existing in the read-speech learning data memory 6. Judge,
If learning has not been completed for all m phoneme sets,
In step ST206, the next m phoneme set is selected as a learning target according to the order described in the m phoneme set table, and the process returns to step ST202. On the other hand, when the learning is completed for all the m phoneme sets, the model learning unit 3 ends the reading voice m phoneme set model learning procedure.
【0066】次に、m音素組抽出部10が、第2ステッ
プにおいて、読み上げ音声m音素組モデルメモリ14に
格納されている読み上げ音声m音素組モデルを用いて対
話音声学習データメモリ8に格納されている各トークン
の認識を行い、認識率の低いm音素組を抽出する。図5
はこの第2ステップの抽出手順を示すフローチャートで
あり、以下では、図5を参照しながらこの抽出手順を詳
細に説明する。Next, in a second step, the m-phoneme set extracting unit 10 stores the m-phoneme set data in the conversational speech learning data memory 8 using the read-out m-phoneme set model stored in the m-phoneme set model memory 14. Each token is recognized, and m phoneme sets having a low recognition rate are extracted. FIG.
Is a flowchart showing the extraction procedure of the second step. Hereinafter, this extraction procedure will be described in detail with reference to FIG.
【0067】まず、m音素組抽出部10は、ステップS
T301において、読み上げ音声m音素組モデルメモリ
14から全ての読み上げ音声m音素組モデルのパラメー
タおよびそのm音素組表記13を読み込む。First, the m-phoneme set extraction unit 10 determines in step S
At T301, the parameters of all the read m-phoneme group models and the m-phoneme set notation 13 are read from the read m-phoneme group model memory 14.
【0068】次に、m音素組抽出部10は、ステップS
T302において、対話音声学習データメモリ8に格納
されているm音素組テーブルを読み込み、このm音素組
テーブルの記述内容にしたがって、先頭のm音素組を認
識対象として選択する。m音素組テーブルが例えば図2
4のように記述されている場合、m音素組抽出部10は
先頭のm音素組である(a)a(a)を認識対象として
選択する。Next, the m-phoneme set extraction unit 10 determines in step S
At T302, the m phoneme set table stored in the conversational speech learning data memory 8 is read, and the first m phoneme set is selected as a recognition target according to the description contents of the m phoneme set table. The m phoneme set table is shown in FIG.
4, the m-phoneme set extraction unit 10 selects the first m-phoneme set (a) a (a) as a recognition target.
【0069】そして、m音素組抽出部10は、ステップ
ST303において、上記ステップST302またはス
テップST308において選択したm音素組と一致する
m音素組表記を持つ全てのトークンの特徴ベクトルの時
系列9を対話音声学習データメモリ8から読み込む。Then, in step ST303, the m-phoneme set extraction unit 10 interacts with the time series 9 of the feature vectors of all the tokens having the m-phoneme set notation that matches the m-phoneme set selected in step ST302 or ST308. Read from the voice learning data memory 8.
【0070】その後、m音素組抽出部10は、ステップ
ST304において、読み込んだ全てのトークンのそれ
ぞれについて、上記ステップST301で読み込んだ全
ての読み上げ音声m音素組モデルとの尤度を計算し、一
番高い尤度を示したm音素組モデルのm音素組表記を、
当該トークンの認識結果とする。なお、既に述べたよう
に、尤度計算には例えばビタビアルゴリズムを用いる。
m音素組抽出部10は、読み込んだ全てのトークンに対
する認識結果を求めた後、上記(1)式にしたがって認
識率Rtを計算する。Thereafter, in step ST304, the m-phoneme set extraction unit 10 calculates the likelihood of each of the read tokens with all the read-out speech m-phoneme set models read in step ST301. The m phoneme set notation of the m phoneme set model showing high likelihood is
This is the recognition result of the token. As described above, for example, the Viterbi algorithm is used for the likelihood calculation.
m phoneme set extraction unit 10, after obtaining the recognition result for all tokens read, calculates the recognition rate R t in accordance with the equation (1).
【0071】次に、m音素組抽出部10は、ステップS
T305において、上記ステップST304で求めた認
識率Rtを予め定めた閾値Trと比較し、閾値Tr以下
であれば、ステップST306に進み、選択したm音素
組のm音素組表記11を抽出m音素組表記メモリ12に
送出する。抽出m音素組表記メモリ12は、入力された
m音素組表記11を保持する。一方、上記認識率Rtが
閾値Trよりも大きいならば、m音素組抽出部10は何
も抽出m音素組表記メモリ12へ送出せずにステップS
T307に進む。Next, the m-phoneme set extraction unit 10 executes step S
In T305, it is compared with a threshold value T r which defines a recognition rate R t obtained in step ST304 in advance, if less than the threshold value T r, the process proceeds to step ST 306, the m phoneme sets of m phonemic sets notation 11 selected extracted It is sent to the m phoneme set notation memory 12. The extracted m phoneme set notation memory 12 holds the input m phoneme set notation 11. On the other hand, if the recognition rate Rt is greater than the threshold value Tr , the m-phoneme-set extracting unit 10 does not send anything to the extracted m-phoneme-set notation memory 12 and returns to step S
Proceed to T307.
【0072】ステップST307に進むと、m音素組抽
出部10は、対話音声学習データメモリ8に格納された
m音素組テーブルを参照し、対話音声学習データメモリ
8に存在する全てのm音素組について認識率Rtを計算
したか否かを判定し、全てのm音素組について認識が終
了していない場合は、ステップST308へ進み、m音
素組テーブルに記述されている順番にしたがって次のm
音素組を認識対象として選択し、ステップST303に
戻る。一方、m音素組抽出部10が全てのm音素組につ
いて認識を終了しているならばこのm音素組抽出手順を
終了する。At step ST307, the m-phoneme set extraction unit 10 refers to the m-phoneme set table stored in the dialogue speech learning data memory 8, and checks all m-phoneme sets existing in the dialogue speech learning data memory 8. It is determined whether or not the recognition rate Rt has been calculated. If the recognition has not been completed for all m phoneme sets, the process proceeds to step ST308, where the next m phoneme set table is processed according to the order described in the m phoneme set table.
The phoneme set is selected as a recognition target, and the process returns to step ST303. On the other hand, if the m-phoneme-set extracting unit 10 has finished recognizing all the m-phoneme-sets, the m-phoneme-set extraction procedure ends.
【0073】このようにm音素組抽出部10がm音素組
抽出手順(図5のステップST301〜ステップST3
08)を行うことによって、認識率Rtが閾値Tr以下
である全てのm音素組を抽出しそれらのm音素組表記1
1を抽出m音素組表記メモリ12に格納することができ
る。As described above, the m phoneme set extraction unit 10 executes the m phoneme set extraction procedure (steps ST301 to ST3 in FIG. 5).
08), all m phoneme sets whose recognition rate R t is equal to or less than the threshold value Tr are extracted, and the m phoneme set notations 1
1 can be stored in the extracted m phoneme set notation memory 12.
【0074】最後に、モデル学習部3は第3ステップで
対話音声学習データメモリ8に格納されているトークン
を用いて上記第2ステップで抽出した各m音素組につい
て対話音声m音素組モデルを学習する。図6は第3ステ
ップの学習手順を示すフローチャートであり、以下で
は、図6を参照しながら学習手順の詳細を説明する。Finally, the model learning section 3 learns the dialogue m m phoneme set model for each m phoneme set extracted in the second step using the token stored in the dialogue speech learning data memory 8 in the third step. I do. FIG. 6 is a flowchart showing the learning procedure of the third step. Hereinafter, the details of the learning procedure will be described with reference to FIG.
【0075】モデル学習部3は、まず、ステップST4
01において、抽出m音素組表記メモリ12に保持され
ているm音素組表記11を読み込み、抽出m音素組表記
メモリ12に保持されている順番にしたがって、まず先
頭のm音素組を学習対象として選択する。抽出m音素組
表記メモリ12の内容が例えば図2のようである場合、
モデル学習部3はまず先頭のm音素組である(a)a
(u)を学習対象として選択する。First, the model learning section 3 first proceeds to step ST4
In step 01, the m phoneme group notation 11 stored in the extracted m phoneme group notation memory 12 is read, and the first m phoneme group is selected as a learning target according to the order stored in the extracted m phoneme group notation memory 12. I do. When the contents of the extracted m phoneme set notation memory 12 are as shown in FIG. 2, for example,
First, the model learning unit 3 is the first m phoneme set (a) a
(U) is selected as a learning target.
【0076】次に、モデル学習部3は、ステップST4
02において、上記ステップST401またはステップ
ST406において選択したm音素組と一致するm音素
組表記を持つ全てのトークンの特徴ベクトルの時系列9
を対話音声学習データメモリ8から読み込む。Next, the model learning section 3 determines in step ST4
02, a time series 9 of feature vectors of all tokens having the m phoneme set notation that matches the m phoneme set selected in step ST401 or ST406.
Is read from the conversation voice learning data memory 8.
【0077】そして、モデル学習部3は、ステップST
403において、例えばフォワード・バックワードアル
ゴリズムを用いて選択したm音素組について対話音声m
音素組モデルを学習する。Then, the model learning section 3 determines in step ST
At 403, the dialogue speech m for the m phoneme set selected using, for example, the forward-backward algorithm
Learn phoneme set models.
【0078】その後、モデル学習部3は、ステップST
404において、上記ステップST403における学習
の結果得たモデルのパラメータおよびそのm音素組表記
15を対話音声m音素組モデルメモリ16に送出する。
対話音声m音素組モデルメモリ16は受け取ったモデル
のパラメータおよびm音素組表記15を保持する。Thereafter, the model learning section 3 determines in step ST
In 404, the parameters of the model obtained as a result of the learning in step ST403 and the m-phoneme set notation 15 are sent to the dialogue speech m-phoneme set model memory 16.
The conversational voice m phoneme set model memory 16 holds the parameters of the received model and the m phoneme set notation 15.
【0079】次に、モデル学習部3は、ステップST4
05において、抽出m音素組表記メモリ12に保持され
ている全てのm音素組について、全てのm音素組モデル
を学習したか否かを判定し、全てのm音素組について学
習が終了していない場合は、ステップST406に進
み、抽出m音素組表記メモリ12に記述されている順番
にしたがって次のm音素組を学習対象として選択し、ス
テップST402に戻る。一方、モデル学習部3は、全
てのm音素組について学習を終了しているならば、この
対話音声m音素組モデル学習手順を終了する。Next, the model learning section 3 determines in step ST4
At 05, it is determined whether all m phoneme set models have been learned for all m phoneme sets held in the extracted m phoneme set notation memory 12, and learning has not been completed for all m phoneme set models. In this case, the process proceeds to step ST406, where the next m phoneme set is selected as a learning target according to the order described in the extracted m phoneme set notation memory 12, and the process returns to step ST402. On the other hand, if the learning has been completed for all the m phoneme sets, the model learning unit 3 ends the conversational speech m phoneme set model learning procedure.
【0080】この実施の形態1による音声パターンモデ
ル学習方法をソフトウェアで実現する場合、読み上げ音
声m音素組モデルを学習し読み上げ音声m音素組モデル
メモリ14に格納する、読み上げ音声m音素組モデルを
学習する第1ステップと、読み上げ音声m音素組モデル
メモリ14に格納されている読み上げ音声m音素組モデ
ルを用いて対話音声学習データメモリ8に格納されてい
る各トークンの認識を行い、認識率の低いm音素組を抽
出する第2ステップと、対話音声学習データメモリ8に
格納されているトークンを用いて上記第2ステップで抽
出した全てのm音素組のそれぞれについて、対話音声m
音素組モデルを学習する第3ステップとを有する、コン
ピュータに音声パターンモデルを学習させるための音声
パターンモデル学習プログラムを記録したコンピュータ
で読み取り可能な記録媒体が必要である。When the voice pattern model learning method according to the first embodiment is realized by software, the read-aloud m m-phoneme set model is learned and stored in the read-aloud m-phoneme set model memory 14. The first step is to perform the recognition of each token stored in the conversational speech learning data memory 8 using the read-out speech m-phoneme set model stored in the read-out speech m-phoneme set model memory 14, and the recognition rate is low. a second step of extracting m phoneme sets, and a dialog voice m for each of all m phoneme sets extracted in the second step using the token stored in the dialog voice learning data memory 8.
And a third step of learning a phoneme set model, and a computer-readable recording medium storing a voice pattern model learning program for causing a computer to learn a voice pattern model is required.
【0081】以上説明したように、この実施の形態1の
音声パターンモデル学習装置および音声パターンモデル
学習方法によれば、読み上げ音声m音素組モデルを用い
て対話音声学習データメモリ8に保持されている全ての
m音素組のそれぞれの認識を行い、認識率の低いm音素
組を抽出して、抽出したm音素組についてのみ対話音声
学習データメモリ8が保持するトークンの特徴ベクトル
の時系列を用いて対話音声m音素組モデルを学習するの
で、全てのm音素組に対して対話音声m音素組モデルを
学習することなしに、読み上げ音声で学習した読み上げ
音声m音素組モデルでは認識が困難であった対話音声を
も認識可能な対話音声m音素組モデルを効率良く学習で
きる効果を奏する。なお、この実施の形態1ではm=3
として説明したが、mが3以外の任意の整数を選ぶこと
も可能であり、その場合にも同様の効果を奏する。As described above, according to the speech pattern model learning apparatus and the speech pattern model learning method of the first embodiment, the conversational speech learning data memory 8 holds the read-out speech m-phoneme set model. Recognition of all m phoneme sets is performed, m phoneme sets having a low recognition rate are extracted, and only the extracted m phoneme sets are extracted using the time series of the feature vectors of the tokens held in the conversational speech learning data memory 8. Since the m-phoneme set model of the dialogue speech is learned, it is difficult to recognize the m-phoneme set model of the read-out speech trained with the read-out speech without learning the m-phoneme set model of the dialogue speech for all the m-phoneme sets. This has the effect of efficiently learning a dialogue m m phoneme set model that can recognize dialogue voices. In the first embodiment, m = 3
However, it is also possible to select any integer other than 3 for m, and in that case, the same effect is obtained.
【0082】実施の形態2.この発明の実施の形態2に
よる音声パターンモデル学習装置は、上記実施の形態1
によるm音素組抽出手順1〜4に代わって以下に示す改
良m音素組抽出手順1〜4を実行するm音素組抽出部1
0を備えたものである。なお、この実施の形態2による
音声パターンモデル学習装置は図1に示す上記実施の形
態1によるものと同一の構成を有しており、m音素組抽
出部10以外の構成要素は上記実施の形態1による音声
パターンモデル学習装置と同じ動作をするので、以下で
はその他の構成要素の説明を省略する。また、この実施
の形態2においてもm=3のm音素組を対象として説明
する。Embodiment 2 The speech pattern model learning device according to the second embodiment of the present invention is similar to the first embodiment.
M phoneme set extraction unit 1 that executes the following improved m phoneme set extraction procedures 1 to 4 in place of m phoneme set extraction procedures 1 to 4
0 is provided. The speech pattern model learning apparatus according to the second embodiment has the same configuration as that according to the first embodiment shown in FIG. 1, and the components other than the m phoneme set extraction unit 10 are the same as those in the first embodiment. 1 performs the same operation as the speech pattern model learning apparatus according to No. 1, and the description of other components will be omitted below. Also, in the second embodiment, a description will be given of m phoneme sets where m = 3.
【0083】次に動作について説明する。 (1)改良m音素組抽出手順1:m音素組抽出部10
は、読み上げ音声m音素組モデルメモリ14から全ての
読み上げ音声m音素組モデルのパラメータおよびそのm
音素組表記13を読み込む。Next, the operation will be described. (1) Improved m phoneme group extraction procedure 1: m phoneme group extraction unit 10
Are the parameters of all the read m-phoneme set models and the m
The phoneme set notation 13 is read.
【0084】(2)改良m音素組抽出手順2:次に、m
音素組抽出部10は、対話音声学習データメモリ8に格
納されたm音素組テーブルを読み込み、このm音素組テ
ーブルの記述内容にしたがって、対話音声学習データ中
から先頭のm音素組を認識対象として選択する。m音素
組テーブルが例えば図24のように記述されている場
合、m音素組抽出部10は先頭のm音素組である(a)
a(a)を認識対象として選択する。(2) Improved m phoneme group extraction procedure 2: Next, m
The phoneme set extraction unit 10 reads the m phoneme set table stored in the dialogue speech learning data memory 8 and sets the first m phoneme set in the dialogue speech learning data as a recognition target according to the description contents of the m phoneme set table. select. When the m phoneme set table is described, for example, as shown in FIG. 24, the m phoneme set extraction unit 10 is the first m phoneme set (a).
a (a) is selected as a recognition target.
【0085】(3)改良m音素組抽出手順3:m音素組
抽出部10は、上記改良m音素組抽出手順2または下記
改良m音素組抽出手順4において選択したm音素組と一
致するm音素組表記を持つ全てのトークンの特徴ベクト
ルの時系列9を対話音声学習データメモリ8から読み込
む。読み込んだトークンの数Nt(添字tは選択したm
音素組の名前を示す)が予め定めた閾値N未満であれ
ば、m音素組抽出部10は抽出m音素組表記メモリ12
には何も送出せず、下記改良m音素組抽出手順4に移
る。一方、Ntが予め定めた閾値N以上であれば、上記
実施の形態1と同様に認識を行う。すなわち、読み込ん
だ各トークンについて、上記改良m音素組抽出手順1で
読み込んだ全ての読み上げ音声m音素組モデルとの尤度
を計算し、一番高い尤度を示したm音素組モデルのm音
素組表記を、当該トークンの認識結果とする。なお、尤
度計算には例えばビタビアルゴリズムを用いる。読み込
んだ全てのトークンに対する認識結果を求めた後、m音
素組抽出部10は、上記実施の形態1と同様に上記
(1)式によって認識率Rtを計算する。そして、m音
素組抽出部10は、上記認識率Rtを予め定めた閾値T
rと比較し、閾値Tr以下であれば、そのm音素組のm
音素組表記11を抽出m音素組表記メモリ12に送出す
る。抽出m音素組表記メモリ12は入力されたm音素組
表記11を保持する。(3) Improved m-phoneme group extraction procedure 3: The m-phoneme group extraction unit 10 selects m m-phonemes that match the m-phoneme group selected in the above-mentioned improved m-phoneme group extraction procedure 2 or the following improved m-phoneme group extraction procedure 4. The time series 9 of the feature vectors of all the tokens having the set notation is read from the interactive speech learning data memory 8. Number of read tokens N t (subscript t is selected m
If the phoneme set name is less than a predetermined threshold N, the m phoneme set extraction unit 10 extracts the m phoneme set notation memory 12
Nothing is sent, and the procedure moves to the following improved m phoneme group extraction procedure 4. On the other hand, if the threshold value N or more that N t is predetermined, for recognizing as in the first embodiment. That is, for each of the read tokens, the likelihood of all the read m-phoneme set models read out in the improved m-phoneme set extraction procedure 1 is calculated, and the m-phoneme set of the m-phoneme set model showing the highest likelihood is calculated. The set notation is the recognition result of the token. The likelihood calculation uses, for example, a Viterbi algorithm. After obtaining the recognition result for all tokens read, m phoneme set extraction unit 10 calculates the recognition rate R t in the same manner as the first embodiment by the expression (1). Then, the m phoneme set extraction unit 10 sets the recognition rate R t to a predetermined threshold T
r, and if it is less than or equal to the threshold value Tr , m
The phoneme set notation 11 is sent to the extracted m phoneme set notation memory 12. The extracted m phoneme set notation memory 12 holds the input m phoneme set notation 11.
【0086】(4)改良m音素組抽出手順4:m音素組
抽出部10は、対話音声学習データメモリ8が保持する
m音素組テーブルを参照し、対話音声学習データ中に存
在する全てのm音素組について上記改良m音素組抽出手
順3を実行するために、上記m音素組テーブルに記述さ
れている順番にしたがって次のm音素組を選択し、上記
改良m音素組抽出手順3を繰り返す。このようにして、
対話音声学習データ中に存在する全てのm音素組につい
て認識率を求めると、m音素組抽出部10は改良m音素
組抽出手順を終了する。(4) Improved m-phoneme set extraction procedure 4: The m-phoneme set extraction unit 10 refers to the m-phoneme set table held in the dialogue speech learning data memory 8 and reads all m-phoneme set data present in the dialogue speech learning data. In order to execute the improved m phoneme set extraction procedure 3 for the phoneme set, the next m phoneme set is selected according to the order described in the m phoneme set table, and the improved m phoneme set extraction procedure 3 is repeated. In this way,
When the recognition rates are obtained for all the m phoneme sets existing in the conversational speech learning data, the m phoneme set extraction unit 10 ends the improved m phoneme set extraction procedure.
【0087】次にこの実施の形態2による音声パターン
モデル学習装置が使用するm音素組モデルを学習する方
法を具体的に説明する。実施の形態2による音声パター
ンモデル学習装置では、上記実施の形態1による音声パ
ターンモデル学習装置と同様にm音素組モデルの学習手
順は大きく3つのステップに分けられる。Next, a method for learning the m-phoneme set model used by the voice pattern model learning apparatus according to the second embodiment will be specifically described. In the speech pattern model learning device according to the second embodiment, the learning procedure of the m phoneme set model is roughly divided into three steps as in the speech pattern model learning device according to the first embodiment.
【0088】まず、第1ステップは、読み上げ音声m音
素組モデルを学習し学習により得た結果であるモデルの
パラメータおよびそのm音素組表記13を読み上げ音声
m音素組モデルメモリ14に格納する、読み上げ音声m
音素組モデルを学習するステップである。First, the first step is to store the parameters of the model obtained as a result of learning and learning the m-phoneme set model of the read-aloud speech m and the m-phoneme set notation 13 in the read-aloud speech m-phoneme set model memory 14. Sound m
This is a step of learning a phoneme set model.
【0089】次の第2ステップは、読み上げ音声m音素
組モデルメモリ14に格納されている読み上げ音声m音
素組モデルを用いて、対話音声学習データメモリ8が保
持するm音素組テーブルに記述されたm音素組の中から
トークンの数Ntが閾値N以上でかつ認識率Rtが閾値
Tr以下であるm音素組を抽出するステップである。In the second step, the m-phoneme set model stored in the conversational speech learning data memory 8 is described by using the m-phoneme set model of the read speech m stored in the m-phoneme set model memory 14. the number N t of tokens from the m phoneme set is a step of threshold N or more and recognition rate R t to extract m phonemes sets is equal to or less than the threshold T r.
【0090】そして、次の第3ステップは、対話音声学
習データメモリ8に格納されているトークンを用いて上
記第2ステップで抽出した各m音素組について、対話音
声m音素組モデルを学習するステップである。Then, the next third step is a step of learning a dialogue m m phoneme set model for each m phoneme set extracted in the second step using the token stored in the dialogue speech learning data memory 8. It is.
【0091】上記第1〜第3ステップのうち、第1およ
び第3ステップは上記実施の形態1と全く同じ手順であ
るので以下ではその説明を省略し、第2ステップである
m音素組の抽出手順を詳細に説明する。図7はこの第2
ステップの抽出手順を示すフローチャートであり、以下
では図7を参照しながら抽出手順を詳細に説明する。Of the first to third steps, the first and third steps have exactly the same procedure as in the first embodiment, and therefore will not be described below, and the second step of extracting m phoneme sets will be described. The procedure will be described in detail. FIG. 7 shows this second
8 is a flowchart showing a procedure for extracting steps. Hereinafter, the extraction procedure will be described in detail with reference to FIG.
【0092】m音素組抽出部10は、まず、ステップS
T501において、読み上げ音声m音素組モデルメモリ
14から全ての読み上げ音声m音素組モデルのパラメー
タおよびそのm音素組表記13を読み込む。The m-phoneme-set extracting unit 10 first executes step S
At T501, the parameters of all the read-out m-phoneme set models and the m-phoneme set notation 13 are read from the read-out m-phoneme set model memory 14.
【0093】次に、m音素組抽出部10は、ステップS
T502において、対話音声学習データメモリ8に格納
されたm音素組テーブルを読み込み、このm音素組テー
ブルの先頭に記述されているm音素組を認識対象として
選択する。m音素組テーブルが例えば図24のように記
述されている場合、m音素組抽出部10は先頭のm音素
組である(a)a(a)を認識対象として選択する。Next, the m-phoneme set extraction unit 10 executes step S
At T502, the m phoneme set table stored in the conversational speech learning data memory 8 is read, and the m phoneme set described at the head of the m phoneme set table is selected as a recognition target. When the m phoneme set table is described, for example, as shown in FIG. 24, the m phoneme set extraction unit 10 selects the first m phoneme set (a) a (a) as a recognition target.
【0094】そして、m音素組抽出部10は、ステップ
ST503において、上記ステップST502またはス
テップST509において選択したm音素組と一致する
m音素組表記を持つ全てのトークンの特徴ベクトルの時
系列9を対話音声学習データメモリ8から読み込む。Then, in step ST503, the m-phoneme set extraction unit 10 interacts with the time series 9 of the feature vectors of all the tokens having the m-phoneme set notation that matches the m-phoneme set selected in step ST502 or ST509. Read from the voice learning data memory 8.
【0095】その後、m音素組抽出部10は、ステップ
ST504において、読み込んだトークンの数Nt(添
字tは選択したm音素組の名前を示す)を予め定めた閾
値Nと比較し、Nt<Nであれば、抽出m音素組表記メ
モリ12には何も送出せず、ステップST508に移
る。一方、Nt>=Nであれば、m音素組抽出部10は
ステップST505に移る。[0095] Thereafter, m phoneme set extraction unit 10, at step ST 504, compared to the number N t (subscript t indicates the name of the m phoneme sets selected) threshold N a predetermined a read token, N t If <N, nothing is sent to the extracted m phoneme set notation memory 12, and the routine goes to step ST508. On the other hand, if N t > = N, the m phoneme group extraction unit 10 moves to step ST505.
【0096】ステップST505においては、m音素組
抽出部10は、読み込んだ各トークンについて、上記ス
テップST503で読み込んだ全ての読み上げ音声m音
素組モデルとの尤度を計算し、一番高い尤度を示したm
音素組モデルのm音素組表記を、当該トークンの認識結
果とする。なお、尤度計算には例えばビタビアルゴリズ
ムを用いる。読み込んだ全てのトークンについて認識結
果を求めた後、m音素組抽出部10は上記(1)式にし
たがって認識率Rtを計算する。In step ST505, the m-phoneme set extraction unit 10 calculates the likelihood of each of the read tokens with all the read-out speech m-phoneme set models read in step ST503, and determines the highest likelihood. M shown
The m phoneme set notation of the phoneme set model is set as the recognition result of the token. The likelihood calculation uses, for example, a Viterbi algorithm. After obtaining the recognition result for all tokens read, m phoneme set extraction unit 10 calculates the recognition rate R t in accordance with the equation (1).
【0097】次に、m音素組抽出部10は、ステップS
T506において、上記ステップST505において求
めた認識率Rtを予め定めた閾値Trと比較し、閾値T
r以下であれば、ステップST507に進み、そのm音
素組のm音素組表記11を抽出m音素組表記メモリ12
に送出する。抽出m音素組表記メモリ12は入力された
m音素組表記11を保持する。一方、上記認識率Rtが
閾値Trよりも大きいならば、m音素組抽出部10はス
テップST508に進む。Next, the m-phoneme set extraction unit 10 executes step S
In T506, it is compared with a threshold value T r which defines a recognition rate R t determined in advance at step ST505, the threshold T
If it is equal to or smaller than r , the process proceeds to step ST507, where the m phoneme set notation 11 of the m phoneme set is extracted and the m phoneme set notation memory 12
To send to. The extracted m phoneme set notation memory 12 holds the input m phoneme set notation 11. On the other hand, if the recognition rate R t is larger than the threshold value T r, m phoneme set extraction unit 10 proceeds to step ST 508.
【0098】そして、ステップST508では、m音素
組抽出部10は、対話音声学習データメモリ8に格納さ
れたm音素組テーブルを参照し、対話音声学習データメ
モリ8に存在する全てのm音素組を既に選択し終えたか
否かを判定し、未選択のm音素組が存在する場合は、ス
テップST509に進み上記m音素組テーブルに記述さ
れている順番にしたがって次のm音素組を認識対象とし
て選択し、ステップST503に戻る。一方、m音素組
抽出部10は、既に全てのm音素組を選択し終えたので
あるならばm音素組の抽出手順を終了する。Then, in step ST508, the m-phoneme set extraction unit 10 refers to the m-phoneme set table stored in the dialogue speech learning data memory 8 and retrieves all the m-phoneme sets existing in the dialogue speech learning data memory 8. It is determined whether or not the selection has already been completed. If there is an unselected m phoneme set, the process proceeds to step ST509, and the next m phoneme set is selected as a recognition target in accordance with the order described in the m phoneme set table. Then, the process returns to step ST503. On the other hand, if the m phoneme set extraction unit 10 has already selected all m phoneme sets, the m phoneme set extraction procedure ends.
【0099】なお、この実施の形態2による音声パター
ンモデル学習方法をソフトウェアで実現する場合、読み
上げ音声m音素組モデルを学習し学習により得た結果を
読み上げ音声m音素組モデルメモリ14に格納する、読
み上げ音声m音素組モデルを学習する第1ステップと、
読み上げ音声m音素組モデルメモリ14に格納されてい
る読み上げ音声m音素組モデルを用いて対話音声学習デ
ータメモリ8に格納されたm音素組テーブルに記述され
たm音素組の中からトークンの数Ntが閾値N以上でか
つ認識率Rtが閾値Tr以下であるm音素組を抽出する
第2ステップと、対話音声学習データメモリ8に格納さ
れているトークンを用いて上記第2ステップで抽出した
m音素組について、対話音声m音素組モデルを学習する
第3ステップとを有した、コンピュータに音声パターン
モデルを学習させるためのプログラムを記録したコンピ
ュータで読み取り可能な記録媒体が必要である。When the speech pattern model learning method according to the second embodiment is realized by software, the read-out speech m-phoneme set model is learned, and the result obtained by the learning is stored in the read-out speech m-phoneme set model memory 14. A first step of learning a read-aloud m phoneme group model;
The number of tokens N from the m phoneme sets described in the m phoneme set table stored in the conversational speech learning data memory 8 using the read out voice m phoneme set model stored in the read out voice m phoneme set model memory 14. using a second step of extracting m phonemes sets t is a threshold value N or more and recognition rate R t is less than the threshold value T r, the token stored in the interactive voice learning data memory 8 is extracted with the second step And a third step of learning the m-phoneme set model of the dialogue speech with respect to the m-phoneme set described above, and a computer-readable recording medium storing a program for causing a computer to learn a speech pattern model is required.
【0100】以上説明したように、この実施の形態2に
よる音声パターンモデル学習装置は、上記改良m音素組
抽出手順1〜4(図7のステップST501〜ステップ
ST509)を実行することによって、トークンの数N
tが閾値N以上でかつ認識率Rtが閾値Tr以下である
全てのm音素組のm音素組表記11を抽出し、抽出した
全てのm音素組のm音素組表記11を抽出m音素組表記
メモリ12に格納する。したがって、この実施の形態2
による音声パターンモデル学習装置は、抽出m音素組モ
デルの学習においてトークンの数Ntが閾値N以上のm
音素組のみモデルを学習するので、読み上げ音声m音素
組モデルで認識率が低い対話音声のm音素組のうち、ト
ークンの数Ntが閾値N未満で統計的に信頼度の低いモ
デルの学習を回避し、統計的に信頼度の高いモデルのみ
を効率的に学習できるという効果を奏する。なお、この
実施の形態2ではm=3として説明したが、mが3以外
の任意の整数を選ぶことも可能であり、その場合にも同
様の効果を奏する。As described above, the speech pattern model learning apparatus according to the second embodiment executes the above-described improved m phoneme group extraction procedures 1 to 4 (steps ST501 to ST509 in FIG. 7), thereby obtaining the tokens. Number N
t is extracted m phonemic sets representation 11 of every m phonemes sets the threshold value N or more and recognition rate R t is equal to or less than the threshold value T r, extracting m phonemes all m phoneme sets of m phonemic sets notation 11 extracted It is stored in the set notation memory 12. Therefore, the second embodiment
Speech pattern model learning device according to the extracted m number N t is the threshold value N or more m tokens in the training of phoneme pairs model
Since learning model only phoneme set, reading of the m phoneme sets of low recognition rate interactive voice sound m phoneme sets model, a statistically of low reliability model learning number N t is less than the threshold value N of tokens This has the effect of avoiding and efficiently learning only models with high statistical reliability. In the second embodiment, m is described as 3; however, m may be any integer other than 3, and the same effect is obtained in that case.
【0101】実施の形態3.図8はこの発明の実施の形
態3による音声パターンモデル学習装置の構成を示すブ
ロック図である。図において、30は、読み上げ音声学
習データメモリ6に格納された各m音素組についてテキ
ストを読み上げた音声を用いて読み上げ音声m音素組モ
デルを学習するとともに、m音素組抽出部(m音素組抽
出手段)10によって抽出された各m音素組について、
対話音声学習データメモリ80に格納された対話音声学
習データを用いて対話音声m音素組モデルを学習し、さ
らに、上記読み上げ音声m音素組モデルと上記対話音声
m音素組モデルとを用いてn音素組抽出部(n音素組抽
出手段)17によって上記対話音声学習データから抽出
された各n音素組について、上記対話音声学習データを
用いて対話音声n音素組モデルを学習するモデル学習部
(対話音声m音素組モデル学習手段、対話音声n音素組
モデル学習手段)、7は読み上げ音声学習データメモリ
6に含まれる読み上げ音声の特徴ベクトルの時系列、9
は対話音声学習データメモリ80に含まれる対話音声の
特徴ベクトルの時系列、11はm音素組抽出部10によ
って抽出されたm音素組のm音素組表記、12は抽出m
音素組表記メモリ、13は読み上げ音声m音素組モデル
のパラメータおよびm音素組表記、14は読み上げ音声
m音素組モデルメモリ、15は対話音声m音素組モデル
のパラメータおよびm音素組表記、16は対話音声m音
素組モデルメモリ、18はn音素組抽出部17によって
抽出されたn音素組のn音素組表記、19は抽出n音素
組表記メモリ、20は対話音声n音素組モデルのパラメ
ータおよびn音素組表記、21は対話音声n音素組モデ
ルメモリである。なお、図8において、図1に示すもの
と同一の符号は上記実施の形態1による音声パターンモ
デル学習装置の構成要素と同一または相当するものを示
している。なお、以下では、m=3、n=5として説明
する。また、この実施の形態3による音声パターンモデ
ル学習装置が使用する音声パターンモデルは、上記実施
の形態1と同じく連続分布型のHMMであるとする。Embodiment 3 FIG. FIG. 8 is a block diagram showing a configuration of a speech pattern model learning device according to Embodiment 3 of the present invention. In the drawing, reference numeral 30 denotes a m-phoneme group extraction unit (m-phoneme group extraction unit) which learns a m-phoneme group extraction model by using a text-to-speech voice for each m-phoneme group stored in the speech-to-speech learning data memory 6. Means) For each m phoneme set extracted by 10,
The conversational speech m-phoneme set model is learned using the conversational speech learning data stored in the conversational speech learning data memory 80, and further, the n phonemes are set using the read-out speech m-phoneme set model and the dialogue m-phoneme set model. For each of the n phoneme sets extracted from the conversational speech learning data by the set extraction unit (n phoneme group extraction means) 17, a model learning unit (conversational speech learning) for learning a conversational speech n phoneme group model using the conversational speech learning data. m phoneme set model learning means, dialogue speech n phoneme set model learning means), 7 is a time series of the feature vector of the read speech included in the read speech learning data memory
Is a time series of the feature vector of the dialogue speech included in the dialogue speech learning data memory 80, 11 is an m phoneme set notation of the m phoneme set extracted by the m phoneme set extractor 10, and 12 is an extracted m
Phoneme set notation memory, 13 is a parameter of m-phoneme set model of read-out speech m and m-phoneme set notation, 14 is a read-out speech m-phoneme set model memory, 15 is a parameter of m-phoneme set model of dialogue speech and m-phoneme set notation, 16 is a dialogue Speech m phoneme group model memory, 18 n phoneme group notation of n phoneme group extracted by n phoneme group extractor 17, 19 extracted n phoneme group notation memory, 20 parameters of n phoneme model of conversational speech and n phonemes A set notation, 21 is a conversational speech n phoneme set model memory. In FIG. 8, the same reference numerals as those shown in FIG. 1 denote the same or corresponding components as those of the speech pattern model learning apparatus according to the first embodiment. In the following, description will be made assuming that m = 3 and n = 5. The speech pattern model used by the speech pattern model learning device according to the third embodiment is a continuous distribution type HMM as in the first embodiment.
【0102】対話音声学習データメモリ80は、上記実
施の形態1による対話音声学習データメモリ8が保持す
るデータに加えて、対話音声学習データ中に存在するn
音素組の種類を記述したn音素組テーブルを保持する。
ここでnはn>mなる整数であり、n音素組とは、m音
素組よりも長い範囲の音素の違いを考慮したn個の音素
のセットである。例えばn=5の場合には、/saQp
oro(札幌)/の/p/はn(=5)音素組では(a
Q)p(or)となる。なお、この(aQ)p(or)
等の表記法を以後、5音素組表記と呼ぶことにする。5
音素組テーブルの例を図9に示す。また、対話音声学習
データメモリ80が保持する各トークン(各トークンに
はトークン番号が付されている)には、3音素組表記と
ともに当該トークンの音素名と先々行音素名、先行音素
名および後続音素名、後々続音素名とを記した5音素組
表記が付与されている。3音素組表記とともに付与され
た5音素組表記の例を図10に示す。The conversational speech learning data memory 80 includes n data existing in the conversational speech learning data in addition to the data held in the conversational speech learning data memory 8 according to the first embodiment.
It holds an n phoneme set table describing the types of phoneme sets.
Here, n is an integer satisfying n> m, and the n phoneme set is a set of n phonemes taking into account differences in phonemes in a range longer than the m phoneme set. For example, when n = 5, / saQp
oro (Sapporo) // p / is n (= 5) phoneme set (a
Q) It becomes p (or). This (aQ) p (or)
Will be referred to as pentaphone notation hereinafter. 5
FIG. 9 shows an example of the phoneme set table. In addition, each token (each token is assigned a token number) held by the dialogue speech learning data memory 80 includes a phoneme name of the token, a phoneme name preceding the phoneme, a preceding phoneme name, and a succeeding phoneme together with the three-phoneme set notation. A five-phoneme set notation in which a name and a subsequent phoneme name are described later is given. FIG. 10 shows an example of a five-phoneme set notation provided together with the three-phoneme set notation.
【0103】次に動作について説明する。この実施の形
態3による音声パターンモデル学習装置は、以下のよう
に分かれた5つの手順:(1)読み上げ音声m音素組モ
デルの学習手順、(2)対話音声学習データメモリ80
が保持する認識率の低いm音素組の抽出手順、(3)抽
出したm音素組に対する対話音声m音素組モデルの学習
手順、(4)対話音声学習データメモリ80が保持する
認識率の低いn音素組の抽出手順、(5)抽出した対話
音声n音素組モデルの学習手順を順番に実行することに
よりモデル学習を行う。Next, the operation will be described. The speech pattern model learning apparatus according to the third embodiment includes five procedures divided as follows: (1) a procedure for learning a m-phoneme set model of a read-aloud speech, and (2) a conversational speech learning data memory 80.
, A procedure for extracting a m-phoneme set having a low recognition rate, (3) a learning procedure for a m-phoneme set model of the dialogue speech for the extracted m-phoneme set, and (4) an n having a low recognition rate held in the dialogue learning data memory 80 Model learning is performed by sequentially executing a phoneme group extraction procedure and (5) a learning procedure of the extracted dialogue speech n phoneme group model.
【0104】まず、読み上げ音声m音素組モデルの学習
手順について説明する。音声パターンモデル学習装置
は、図8に示すモデル学習部30の入力端子Aを読み上
げ音声学習データメモリ6に接続された端子B1に接続
し、読み上げ音声学習データメモリ6中のデータを入力
とするようにセットする。また、音声パターンモデル学
習装置は、モデル学習部30の出力端子Cを読み上げ音
声m音素組モデルメモリ14に接続された端子D1に接
続する。音声パターンモデル学習装置は、まず、この接
続状態で読み上げ音声m音素組モデルを学習する。この
実施の形態3による音声パターンモデル学習装置のモデ
ル学習部30は、上記実施の形態1で説明した読み上げ
音声モデル学習手順1〜3にしたがって、読み上げ音声
m音素組モデルを学習し、読み上げ音声m音素組モデル
メモリ14に学習の結果得たモデルのパラメータとその
m音素組表記を格納する。読み上げ音声学習データメモ
リ6に存在する全てのm音素組について読み上げ音声m
音素組モデルの学習を終了した時に、モデル学習部30
は読み上げ音声m音素組モデルの学習手順を終了する。First, the procedure for learning the m-phoneme set model of the read-out speech will be described. The voice pattern model learning device connects an input terminal A of the model learning unit 30 shown in FIG. 8 to a terminal B1 connected to the read-out voice learning data memory 6, and receives data in the read-out voice learning data memory 6. Set to. Further, the speech pattern model learning device connects the output terminal C of the model learning unit 30 to the terminal D1 connected to the read-out speech m phoneme set model memory 14. First, the speech pattern model learning device learns the read-aloud m-phoneme set model in this connection state. The model learning unit 30 of the speech pattern model learning apparatus according to the third embodiment learns the read-out speech m phoneme set model according to the read-out speech model learning procedures 1 to 3 described in the first embodiment, and reads out the read-out speech m. The model parameters obtained as a result of learning and the m phoneme group notation are stored in the phoneme group model memory 14. Speech m for all m phoneme sets existing in the speech speech learning data memory 6
When the learning of the phoneme set model is completed, the model learning unit 30
Ends the learning procedure of the m-phoneme set model of the read-aloud voice.
【0105】次に音声パターンモデル学習装置はm音素
組抽出部10により対話音声学習データメモリ80が保
持する認識率の低いm音素組の抽出を行う。m音素組抽
出部10は、上記実施の形態1で説明したm音素組抽出
手順1〜4にしたがって認識率の低いm音素組の抽出手
順を実行し、抽出した全てのm音素組のm音素組表記を
抽出m音素組表記メモリ12に格納する。Next, in the speech pattern model learning apparatus, the m phoneme set extraction unit 10 extracts m phoneme sets having a low recognition rate held in the conversational speech learning data memory 80. The m phoneme set extraction unit 10 executes the m phoneme set extraction procedure with a low recognition rate in accordance with the m phoneme set extraction procedures 1 to 4 described in the first embodiment, and executes m phoneme set extraction for all m phoneme sets. The set notation is stored in the extracted m-phoneme set notation memory 12.
【0106】次にモデル学習部30は対話音声m音素組
モデルの学習を行う。学習を開始する前に、音声パター
ンモデル学習装置はモデル学習部30の入力端子Aを対
話音声学習データメモリ80の出力端子B2に接続し、
また、モデル学習部30のもう一つの入力端子Eを抽出
m音素組表記メモリ12の出力端子F1に接続する。さ
らに、音声パターンモデル学習装置はモデル学習部30
の出力端子Cを対話音声m音素組モデルメモリ16の入
力端子D2に接続する。この接続状態で、モデル学習部
30は対話音声m音素組モデルを学習する。Next, the model learning section 30 learns the m-phoneme set model of the dialogue voice. Before starting the learning, the speech pattern model learning apparatus connects the input terminal A of the model learning unit 30 to the output terminal B2 of the conversational speech learning data memory 80,
Further, another input terminal E of the model learning unit 30 is connected to the output terminal F1 of the extracted m phoneme set notation memory 12. Further, the voice pattern model learning device includes a model learning unit 30.
Is connected to the input terminal D2 of the conversational voice m phoneme group model memory 16. In this connection state, the model learning unit 30 learns the m-phoneme set model of the dialogue voice.
【0107】モデル学習部30は、上記実施の形態1に
よる抽出m音素組モデルの学習手順1〜3にしたがっ
て、対話音声m音素組モデルを学習し、対話音声m音素
組モデルメモリ16に学習の結果得たモデルのパラメー
タとそのm音素組表記を格納する。そして、モデル学習
部30は抽出m音素組表記メモリ12に保持された全て
のm音素組について対話音声m音素組モデルの学習を終
了した時に対話音声m音素組モデルの学習手順を終了す
る。The model learning unit 30 learns the m-phoneme group model of the dialogue speech in accordance with the learning procedures 1 to 3 of the m-phoneme group model extracted in the first embodiment, and stores the learning in the dialogue m-phoneme group model memory 16. The resulting model parameters and their m phoneme set notation are stored. Then, the model learning unit 30 ends the learning procedure of the dialogue m m phoneme set model when the learning of the dialogue m m phoneme set model is completed for all the m phoneme sets stored in the extracted m phoneme set notation memory 12.
【0108】次に音声パターンモデル学習装置はn音素
組抽出部17により対話音声学習データメモリ80が保
持する認識率の低いn音素組の抽出を行う。n音素組を
抽出する手順は以下のとおりである。Next, in the speech pattern model learning apparatus, the n phoneme set extraction unit 17 extracts an n phoneme set having a low recognition rate held in the conversational speech learning data memory 80. The procedure for extracting the n phoneme sets is as follows.
【0109】(1)n音素組抽出手順1:n音素組抽出
部17は、読み上げ音声m音素組モデルメモリ14から
全ての読み上げ音声m音素組モデルのパラメータとその
m音素組表記13を読み込む。n音素組抽出部17は、
さらに、対話音声m音素組モデルメモリ16から全ての
対話音声m音素組モデルのパラメータとそのm音素組表
記15を読み込む。(1) Procedure for extracting n phoneme sets 1: The n phoneme set extraction unit 17 reads the parameters of all read m speech phoneme models and the m phoneme set notation 13 from the read speech m phoneme set model memory 14. The n phoneme set extraction unit 17
Further, the parameters of all the m-phoneme set models of the dialogue speech and the m-phoneme set notation 15 are read from the dialogue m-phoneme set model memory 16.
【0110】(2)n音素組抽抽出手順2:次に、n音
素組抽出部17は、対話音声学習データメモリ80が保
持するn音素組テーブルを参照し、この音素組テーブル
の記述内容にしたがって先頭のn音素組を認識対象とし
て選択する。n=5でn音素組テーブルが例えば図9の
ように記述されている場合、n音素組抽出部17は、ま
ず、先頭のn音素組である(ka)a(ai)を認識対
象として選択する。(2) N phoneme set extraction extraction procedure 2: Next, the n phoneme set extraction unit 17 refers to the n phoneme set table held in the conversational speech learning data memory 80, and adds the description contents of this phoneme set table. Therefore, the first n phoneme sets are selected as recognition targets. When n = 5 and the n phoneme set table is described as shown in FIG. 9, for example, the n phoneme set extraction unit 17 first selects the first n phoneme set (ka) a (ai) as a recognition target. I do.
【0111】(3)n音素組抽出手順3:n音素組抽出
部17は、上記n音素組抽出手順3または下記n音素組
抽出手順4において選択したn音素組と一致するn音素
組表記を持つ全てのトークンの特徴ベクトルの時系列9
を対話音声学習データメモリ80から読み込み、読み込
んだ各トークンについて、上記n音素組抽出手順1で読
み込んだ全ての読み上げ音声m音素組モデルおよび全て
の対話音声m音素組モデルとの尤度を計算し、一番高い
尤度を示したm音素組モデルのm音素組表記を、当該ト
ークンの認識結果とする。なお、尤度計算には例えばビ
タビアルゴリズムを用いる。読み込んだ全てのトークン
に対する認識結果を求めた後、n音素組抽出部17は下
記(2)式にしたがって認識率Rqを計算する。(3) N phoneme set extraction procedure 3: The n phoneme set extraction unit 17 extracts the n phoneme set notation that matches the n phoneme set selected in the above n phoneme set extraction procedure 3 or the following n phoneme set extraction procedure 4. Time series 9 of feature vectors of all tokens
Is read from the dialogue speech learning data memory 80, and for each of the read tokens, the likelihood of all the read-out m-phoneme set models and all the dialogue m-phoneme set models read in the n-phoneme set extraction procedure 1 is calculated. The m phoneme set notation of the m phoneme set model showing the highest likelihood is used as the token recognition result. The likelihood calculation uses, for example, a Viterbi algorithm. After obtaining the recognition result for all tokens read, n phoneme set extraction unit 17 calculates the recognition rate R q in accordance with the following equation (2).
【0112】 Rq=Cq/Nq*100.0 (2)R q = C q / N q * 100.0 (2)
【0113】但し、添字qは選択したn音素組の種類を
示し、Nqは、n音素組表記のn音素組種類がqである
トークンの個数、Cqはその中で正認識であったトーク
ンの個数である。ここで正認識とは、当該トークンのm
音素組表記が一番高い尤度を示したm音素組モデルのm
音素組表記と一致する場合を正認識とする。例えばn音
素組表記(n=5)が(ka)a(ai)であるトーク
ンはm音素組表記(m=3)が(a)a(a)であるの
で、一番高い尤度を示したm音素組モデルのm音素組表
記が(a)a(a)であれば正認識とする。Here, the subscript q indicates the type of the selected n phoneme set, Nq is the number of tokens whose n phoneme set type is q in the n phoneme set notation, and C q is positively recognized among them. The number of tokens. Here, correct recognition means m of the token
M of phoneme set model with phoneme set notation showing highest likelihood
The case where it matches the phoneme set notation is regarded as correct recognition. For example, a token whose n phoneme group notation (n = 5) is (ka) a (ai) has the highest likelihood because the m phoneme group notation (m = 3) is (a) a (a). If the m phoneme set notation of the m phoneme set model is (a) a (a), it is determined that the recognition is correct.
【0114】n音素組抽出部17は、上記認識率Rqを
予め定めた閾値Tqと比較し、閾値Tq以下であれば、
そのn音素組のn音素組表記18を抽出n音素組表記メ
モリ19に送出する。抽出n音素組表記メモリ19は入
力されたn音素組表記18を保持する。[0114] n phoneme set extraction unit 17 compares the threshold T q determined in advance of the recognition rate R q, equal to or less than the threshold value T q,
The n phoneme set notation 18 of the n phoneme set is sent to the extracted n phoneme set notation memory 19. The extracted n phoneme set notation memory 19 holds the inputted n phoneme set notation 18.
【0115】(4)n音素組抽出手順4:n音素組抽出
部17は、対話音声学習データメモリ80が保持するn
音素組テーブルを参照し、対話音声学習データメモリ8
0中に存在する全てのn音素組について上記n音素組抽
出手順3を実行するために、上記n音素組テーブルに記
述されている順番にしたがって次のn音素組を選択し、
上記n音素組抽出手順3を繰り返す。(4) n Phoneme Group Extraction Procedure 4: The n phoneme group extraction unit 17 stores n
Referring to the phoneme set table, the dialogue speech learning data memory 8
In order to execute the above n phoneme group extraction procedure 3 for all n phoneme groups existing in 0, the next n phoneme group is selected according to the order described in the n phoneme group table,
The above n phoneme group extraction procedure 3 is repeated.
【0116】このようにしてn音素組抽出部17はn音
素組を抽出する手順を終了する。n音素組抽出部17
は、上記n音素組抽出手順1〜4を実行することによっ
て、認識率Rqが閾値Tq以下である全てのn音素組の
n音素組表記18を抽出し、抽出n音素組表記メモリ1
9に格納することができる。Thus, the n-phoneme-set extracting unit 17 ends the procedure for extracting the n-phoneme-set. n phoneme set extraction unit 17
Extracts the n phoneme set notations 18 of all n phoneme sets whose recognition rate R q is equal to or less than the threshold value T q by executing the above n phoneme set extraction procedures 1 to 4, and extracts the n phoneme set notation memory 1
9 can be stored.
【0117】次にモデル学習部30は上記のようにして
抽出した各n音素組について対話音声n音素組モデルを
学習する。学習を開始する前に、音声パターンモデル学
習装置は、モデル学習部30の入力端子Aを対話音声学
習データメモリ80の出力端子B2に接続し、またモデ
ル学習部30のもう一つの入力端子Eを抽出n音素組表
記メモリ19の出力端子F2に接続する。さらに、音声
パターンモデル学習装置は、モデル学習部30の出力端
子Cを対話音声n音素組モデルメモリ21の入力端子D
3に接続する。この接続状態で、モデル学習部30は対
話音声n音素組モデルを学習する。学習手順を以下に示
す。Next, the model learning unit 30 learns a conversational speech n phoneme group model for each n phoneme group extracted as described above. Before starting the learning, the speech pattern model learning apparatus connects the input terminal A of the model learning unit 30 to the output terminal B2 of the conversational speech learning data memory 80, and connects another input terminal E of the model learning unit 30 to the input terminal E. It is connected to the output terminal F2 of the extracted n phoneme set notation memory 19. Further, the speech pattern model learning device connects the output terminal C of the model learning unit 30 to the input terminal D of the conversational speech n phoneme set model memory 21.
Connect to 3. In this connection state, the model learning unit 30 learns the conversational speech n-phoneme set model. The learning procedure is shown below.
【0118】(1)抽出n音素組モデル学習手順1:モ
デル学習部30は、まず、抽出n音素組表記メモリ19
に保持されている各n音素組表記を読み込み、抽出n音
素組表記メモリ19に保持されていた順番にしたがっ
て、先頭のn音素組を学習対象として選択する。抽出n
音素組表記メモリ19の内容が例えば図11のようであ
る場合、モデル学習部30は先頭のn音素組である(k
a)a(ai)を学習対象として選択する。(1) Extracted n phoneme set model learning procedure 1: The model learning unit 30 firstly outputs the extracted n phoneme set notation memory 19
Is read, and the first n phoneme set is selected as a learning target in accordance with the order held in the extracted n phoneme set notation memory 19. Extraction n
If the contents of the phoneme set notation memory 19 are, for example, as shown in FIG. 11, the model learning unit 30 is the first n phoneme sets (k
a) Select a (ai) as a learning target.
【0119】(2)抽出n音素組モデル学習手順2:次
に、モデル学習部30は、上記抽出n音素組モデル学習
手順1または下記抽出n音素組モデル学習手順3におい
て選択したn音素組と一致するn音素組表記を持つ全て
のトークンの特徴ベクトルの時系列9を対話音声学習デ
ータメモリ80から読み込み、例えばフォワード・バッ
クワードアルゴリズムを用いて選択したn音素組に対す
るモデルを学習する。そして、モデル学習部30は、学
習の結果得たモデルのパラメータとそのn音素組表記を
対話音声n音素組モデルメモリ21に送出する。対話音
声n音素組モデルメモリ21は受け取ったモデルのパラ
メータとそのn音素組表記を保持する。(2) Extracted n phoneme set model learning procedure 2: Next, the model learning unit 30 selects the n phoneme set selected in the extracted n phoneme set model learning procedure 1 or the extracted n phoneme set model learning procedure 3 described below. The time series 9 of the feature vectors of all tokens having the matching n phoneme set notation is read from the dialogue speech learning data memory 80, and a model for the selected n phoneme set is learned using, for example, a forward / backward algorithm. Then, the model learning unit 30 sends the parameters of the model obtained as a result of the learning and the n phoneme group notation to the n phoneme group model memory 21 of the dialogue speech. The conversational speech n phoneme set model memory 21 holds the parameters of the received model and the n phoneme set notation.
【0120】(3)抽出n音素組モデル学習手順3:モ
デル学習部30は、抽出n音素組表記メモリ19に保持
されている全てのn音素組について上記抽出n音素組モ
デル学習手順2を実行するために、抽出n音素組表記メ
モリ19に保持されている順番にしたがって次のn音素
組を選択し、上記抽出n音素組モデル学習手順2を繰り
返す。このようにして、モデル学習部30は抽出n音素
組モデルの学習を終了する。(3) Extracted n phoneme set model learning procedure 3: The model learning unit 30 executes the extracted n phoneme set model learning procedure 2 for all the n phoneme sets held in the extracted n phoneme set notation memory 19. To do so, the next n phoneme sets are selected according to the order stored in the extracted n phoneme set notation memory 19, and the extracted n phoneme set model learning procedure 2 is repeated. Thus, the model learning unit 30 ends the learning of the extracted n phoneme set model.
【0121】次にこの実施の形態3による音声パターン
モデル学習装置が使用する、m音素組モデルとn音素組
モデルを学習する方法を具体的に説明する。図12はこ
の発明の実施の形態3による音声パターンモデル学習方
法の手順を示すフローチャートである。図12に示すと
おり、この実施の形態3による音声パターンモデル学習
方法における読み上げ音声m音素組モデル、対話音声m
音素組モデルおよび対話音声n音素組モデルの学習手順
は大きく5つのステップに分けられる。Next, a method of learning the m phoneme set model and the n phoneme set model used by the speech pattern model learning apparatus according to the third embodiment will be specifically described. FIG. 12 is a flowchart showing a procedure of a voice pattern model learning method according to Embodiment 3 of the present invention. As shown in FIG. 12, the read-out speech m phoneme set model and the dialogue speech m in the speech pattern model learning method according to the third embodiment.
The learning procedure of the phoneme set model and the dialogue n-phoneme set model is mainly divided into five steps.
【0122】すなわち、第1ステップ(図12のステッ
プST601)は、読み上げ音声m音素組モデルを学習
し学習の結果得たモデルのパラメータおよびm音素組表
記13を読み上げ音声m音素組モデルメモリ14に格納
する、読み上げ音声m音素組モデル学習手順である。That is, the first step (step ST601 in FIG. 12) is to learn the m-phoneme set model of the read-aloud voice and to store the model parameters obtained as a result of the learning and the m-phoneme set notation 13 in the read-aloud m-phoneme set model memory 14. This is the learning procedure for the m-phoneme set model of the reading voice to be stored.
【0123】次の第2ステップ(図2のステップST6
02)は、読み上げ音声m音素組モデルメモリ14に格
納されている読み上げ音声m音素組モデルを用いて対話
音声学習データメモリ80に格納されている各トークン
の認識を行い、認識率の低いm音素組を抽出する手順で
ある。The next second step (step ST6 in FIG. 2)
02) recognizes each token stored in the interactive speech learning data memory 80 using the read-aloud m-phoneme set model stored in the read-aloud m-phoneme set model memory 14, and performs m-phonemes with a low recognition rate. This is a procedure for extracting a set.
【0124】次の第3ステップ(図12のステップST
603)は、対話音声学習データメモリ80に格納され
ているトークンを用いて上記第2ステップで抽出した各
m音素組について、対話音声m音素組モデルを学習し学
習の結果得たモデルのパラメータおよびm音素組表記1
5を対話音声m音素組モデルメモリ16に格納する、対
話音声m音素組モデル学習手順である。The next third step (step ST in FIG. 12)
603) learns the dialogue m m phoneme set model for each m phoneme set extracted in the second step using the token stored in the dialogue speech learning data memory 80, and obtains the parameters of the model obtained as a result of learning and m phoneme set notation 1
5 is a dialogue m-phoneme set model learning procedure for storing 5 in the dialogue m-phoneme set model memory 16.
【0125】次の第4ステップ(図12のステップST
604)は、読み上げ音声m音素組モデルメモリ14に
格納されている読み上げ音声m音素組モデルと対話音声
m音素組モデルメモリ16に格納されている対話音声m
音素組モデルとを用いて対話音声学習データメモリ80
に格納されている各トークンの認識を行い、認識率の低
いn音素組を抽出する手順である。The next fourth step (step ST in FIG. 12)
Reference numeral 604) denotes a reading voice m phoneme group model stored in the reading voice m phoneme group model memory 14 and a dialog voice m stored in the dialog voice m phoneme group model memory 16.
Interactive speech learning data memory 80 using phoneme set model
Is a procedure for recognizing each of the tokens stored in the, and extracting an n-phoneme set having a low recognition rate.
【0126】次の第5ステップ(図12のステップST
605)は、対話音声学習データメモリ80に格納され
ているトークンを用いて上記第4ステップで抽出したn
音素組に対する対話音声n音素組モデルを学習し学習の
結果得たモデルのパラメータおよびn音素組表記20を
対話音声n音素組モデルメモリ21に格納する、対話音
声n音素組モデル学習手順である。The next fifth step (step ST in FIG. 12)
605) is the n extracted in the fourth step using the token stored in the conversational speech learning data memory 80.
This is a dialog speech n phoneme group model learning procedure in which a dialog speech n phoneme group model for a phoneme group is learned, and the model parameters obtained as a result of the learning and the n phoneme group notation 20 are stored in the dialog speech n phoneme group model memory 21.
【0127】上記第1〜第5ステップのうち、第1、第
2および第3ステップは上記実施の形態1のものと全く
同じであるので説明を省略し、以下では第4ステップと
第5ステップを説明する。図13は第4ステップの詳細
を示すフローチャートであり、以下では図13を参照し
ながら第4ステップである認識率の低いn音素組の抽出
手順を詳細に説明する。Of the first to fifth steps, the first, second, and third steps are exactly the same as those in the first embodiment, and thus description thereof will be omitted, and the fourth and fifth steps will be described below. Will be described. FIG. 13 is a flowchart showing the details of the fourth step. Hereinafter, the procedure of extracting the n phoneme sets having a low recognition rate, which is the fourth step, will be described in detail with reference to FIG.
【0128】まず、n音素組抽出部17は、ステップS
T701において、読み上げ音声m音素組モデルメモリ
14から全ての読み上げ音声m音素組モデルのパラメー
タとそのm音素組表記13を読み込む。また、n音素組
抽出部17は、ステップST702において、対話音声
m音素組モデルメモリ16から全ての対話音声m音素組
モデルのパラメータとそのm音素組表記15を読み込
む。First, the n phoneme group extraction unit 17 determines in step S
At T701, the parameters of all the read m-phoneme group models and the m-phoneme group notation 13 are read from the read m-phoneme group model memory 14. In step ST702, the n-phoneme set extraction unit 17 reads the parameters of all m-phoneme set models of the dialogue speech and the m-phoneme set notation 15 from the dialogue m-phoneme set model memory 16.
【0129】次に、n音素組抽出部17は、ステップS
T703において、対話音声学習データメモリ80が保
持するn音素組テーブルを参照し、このn音素組テーブ
ルの記述内容にしたがって先頭のn音素組を認識対象と
して選択する。n音素組テーブルが例えば図9のように
記述されている場合、n音素組抽出部17はまず先頭の
n音素組である(ka)a(ai)を認識対象として選
択する。Next, the n-phoneme set extraction unit 17 determines in step S
At T703, the n phoneme set table held in the conversational speech learning data memory 80 is referred to, and the first n phoneme set is selected as a recognition target according to the description contents of the n phoneme set table. When the n-phoneme set table is described, for example, as shown in FIG. 9, the n-phoneme set extraction unit 17 first selects (ka) a (ai), which is the first n-phoneme set, as a recognition target.
【0130】そして、n音素組抽出部17は、ステップ
ST704において、上記ステップST703またはス
テップST709において選択したn音素組と一致する
n音素組表記を持つ全てのトークンの特徴ベクトルの時
系列9を対話音声学習データメモリ80から読み込む。Then, in step ST704, the n-phoneme set extraction unit 17 interacts with the time series 9 of the feature vectors of all tokens having the n-phoneme set notation that matches the n-phoneme set selected in step ST703 or ST709. It is read from the voice learning data memory 80.
【0131】その後、n音素組抽出部17は、ステップ
ST705において、読み込んだ各トークンについて、
上記ステップST701と上記ステップST702で読
み込んだ全ての読み上げ音声m音素組モデルおよび全て
の対話音声m音素組モデルとの尤度を計算し、一番高い
尤度を示したm音素組モデルのm音素組表記を、当該ト
ークンの認識結果とする。なお、尤度計算には例えばビ
タビアルゴリズムを用いる。読み込んだ全てのトークン
について認識結果を求めた後、n音素組抽出部17は上
記(2)式によって認識率Rqを計算する。Thereafter, in step ST705, the n-phoneme set extracting unit 17 calculates, for each token read,
The likelihood of all the read-aloud m m-phoneme set models and all the dialogue m-phoneme set models read in the above-mentioned steps ST701 and ST702 is calculated, and the m-phoneme of the m-phoneme set model showing the highest likelihood is calculated. The set notation is the recognition result of the token. The likelihood calculation uses, for example, a Viterbi algorithm. After obtaining the recognition results for all the read tokens, the n-phoneme group extraction unit 17 calculates the recognition rate Rq by the above equation (2).
【0132】次に、n音素組抽出部17は、ステップS
T706において、上記認識率Rqを予め定めた閾値T
qと比較し、閾値Tq以下であれば、ステップST70
7に進み、そのn音素組のn音素組表記18を抽出n音
素組表記メモリ19に送出する。抽出n音素組表記メモ
リ19は入力されたn音素組表記18を保持する。一
方、上記認識率Rqが閾値Tqよりも大きいならば、n
音素組抽出部17はステップST708に進む。Next, the n-phoneme set extraction unit 17 determines in step S
In T706, the threshold T determined in advance of the recognition rate R q
compared to q, equal to or less than the threshold value T q, step ST70
Then, the process proceeds to step S7, where the n phoneme group notation 18 of the n phoneme group is sent to the extracted n phoneme group notation memory 19. The extracted n phoneme set notation memory 19 holds the inputted n phoneme set notation 18. On the other hand, if the recognition rate Rq is larger than the threshold Tq , n
The phoneme set extraction unit 17 proceeds to step ST708.
【0133】ステップST708では、n音素組抽出部
17は、対話音声学習データメモリ80が保持するn音
素組テーブルを参照し、対話音声学習データ中に存在す
る全てのn音素組について認識率を計算したか否かを判
定する。そして、全てのn音素組について認識が終了し
ていない場合は、n音素組抽出部17は、ステップST
709において、上記n音素組テーブルに記述されてい
る順番にしたがって次のn音素組を認識対象として選択
し、ステップST704に戻る。一方、全てのn音素組
について認識が終了していれば、n音素組抽出部17は
n音素組を抽出する手順を終了する。In step ST708, the n-phoneme set extraction unit 17 refers to the n-phoneme set table held in the dialogue speech learning data memory 80, and calculates the recognition rate for all n-phoneme sets present in the dialogue speech learning data. It is determined whether or not it has been performed. If the recognition has not been completed for all n phoneme sets, the n phoneme set extraction unit 17 proceeds to step ST
In 709, the next n phoneme sets are selected as recognition targets in the order described in the n phoneme set table, and the process returns to step ST704. On the other hand, if the recognition has been completed for all the n phoneme sets, the n phoneme set extraction unit 17 ends the procedure for extracting the n phoneme sets.
【0134】以上のように、n音素組抽出部17は、上
記n音素組抽出手順(図13におけるステップST70
1〜ステップST709)を実行することによって、認
識率Rqが閾値Tq以下である全てのn音素組のn音素
組表記18を抽出して、抽出n音素組表記メモリ19に
格納することができる。As described above, the n phoneme set extraction unit 17 performs the n phoneme set extraction procedure (step ST70 in FIG. 13).
1 to ST709), the n phoneme set notations 18 of all n phoneme sets whose recognition rate R q is equal to or less than the threshold value T q can be extracted and stored in the extracted n phoneme set notation memory 19. it can.
【0135】次に、モデル学習部30は、第5ステップ
である対話音声n音素組モデル学習手順を実行する。学
習を実行する前に、音声パターンモデル学習装置は、モ
デル学習部30の入力端子Aを対話音声学習データの出
力端子B2に接続し、またモデル学習部30のもう一つ
の入力端子Eを抽出n音素組表記メモリ19の出力端子
F2に接続する。さらに、音声パターンモデル学習装置
はモデル学習部30の出力端子Cを対話音声n音素組モ
デルメモリ21の入力端子D3に接続する。この接続状
態で、モデル学習部30は対話音声n音素組モデルを学
習する。Next, the model learning section 30 executes the fifth step, that is, the learning procedure of the dialogue n phoneme group model. Before performing the learning, the speech pattern model learning apparatus connects the input terminal A of the model learning unit 30 to the output terminal B2 of the conversational speech learning data, and extracts another input terminal E of the model learning unit 30. It is connected to the output terminal F2 of the phoneme set notation memory 19. Further, the speech pattern model learning device connects the output terminal C of the model learning unit 30 to the input terminal D3 of the conversational speech n phoneme set model memory 21. In this connection state, the model learning unit 30 learns the conversational speech n-phoneme set model.
【0136】図14は対話音声n音素組モデル学習手順
の詳細を示すフローチャートであり、以下では、図14
を参照しながら学習手順の詳細について説明する。ま
ず、モデル学習部30は、ステップST801におい
て、抽出n音素組表記メモリ19に保持されているn音
素組表記18を読み込み、抽出n音素組表記メモリ19
に保持されていた順番にしたがって先頭のn音素組を学
習対象として選択する。抽出n音素組表記メモリ19の
内容が例えば図11のようである場合、モデル学習部3
0は先頭のn音素組である(ka)a(ai)を学習対
象として選択する。FIG. 14 is a flow chart showing the details of the learning procedure of the n-phoneme group model of the dialogue speech.
The details of the learning procedure will be described with reference to FIG. First, in step ST801, the model learning unit 30 reads the n phoneme group notation 18 stored in the extracted n phoneme group notation memory 19, and reads the extracted n phoneme group notation memory 19
Are selected as learning targets in accordance with the order held in. If the contents of the extracted n-phoneme set notation memory 19 are, for example, as shown in FIG.
0 selects the first n phoneme set (ka) a (ai) as a learning target.
【0137】次に、モデル学習部30は、ステップST
802において、上記ステップST801またはステッ
プST806において選択したn音素組と一致するn音
素組表記を持つ全てのトークンの特徴ベクトルの時系列
9を対話音声学習データメモリ80から読み込む。そし
て、モデル学習部30は、ステップST803におい
て、例えばフォワード・バックワードアルゴリズムを用
いて選択したn音素組についてモデルを学習する。Next, the model learning section 30 executes step ST
In step 802, the time series 9 of the feature vectors of all tokens having the n phoneme set notation that matches the n phoneme set selected in step ST 801 or ST 806 is read from the interactive speech learning data memory 80. Then, in step ST803, the model learning unit 30 learns a model for the selected n phoneme set using, for example, a forward / backward algorithm.
【0138】その後、モデル学習部30は、ステップS
T804において、学習の結果得た上記モデルのパラメ
ータとそのn音素組表記を対話音声n音素組モデルメモ
リ21に送出する。対話音声n音素組モデルメモリ21
は受け取ったモデルのパラメータおよびn音素組表記を
保持する。Thereafter, the model learning section 30 determines in step S
At T804, the parameters of the model obtained as a result of the learning and the n phoneme group notation are sent to the dialogue voice n phoneme group model memory 21. Dialogue voice n phoneme set model memory 21
Holds the received model parameters and n phoneme set notation.
【0139】次に、モデル学習部30は、ステップST
805において、抽出n音素組表記メモリ19に保持さ
れている全てのn音素組について対話音声n音素組モデ
ルを学習したか否かを判定し、全てのn音素組について
学習が終了していない場合には、モデル学習部30は、
ステップST806において、抽出n音素組表記メモリ
19に記述されている順番にしたがって次のn音素組を
学習対象として選択し、ステップST802に戻る。一
方、全てのn音素組について学習が終了しているなら
ば、モデル学習部30は、第5ステップである対話音声
n音素組モデルの学習手順を終了する。Next, the model learning section 30 determines in step ST
In 805, it is determined whether or not the conversational speech n phoneme set model has been learned for all n phoneme sets held in the extracted n phoneme set notation memory 19, and the learning has not been completed for all n phoneme set models. In the model learning unit 30,
In step ST806, the next n phoneme sets are selected as learning targets in the order described in the extracted n phoneme set notation memory 19, and the process returns to step ST802. On the other hand, if the learning has been completed for all the n phoneme sets, the model learning unit 30 ends the fifth step, which is the learning procedure of the dialogue n phoneme set model.
【0140】なお、この実施の形態3による音声パター
ンモデル学習方法をソフトウェアで実現する場合、読み
上げ音声m音素組モデルを学習し学習の結果を読み上げ
音声m音素組モデルメモリ14に格納する、読み上げ音
声m音素組モデルを学習する第1の手順と、読み上げ音
声m音素組モデルメモリ14に格納されている読み上げ
音声m音素組モデルを用いて対話音声学習データメモリ
80に格納されている各トークンの認識を行う、認識率
の低いm音素組を抽出する第2の手順と、対話音声学習
データメモリ80に格納されているトークンを用いて上
記第2の手順で抽出した各m音素組について、対話音声
m音素組モデルを学習する第3の手順と、読み上げ音声
m音素組モデルメモリ14に格納されている読み上げ音
声m音素組モデルと対話音声m音素組モデルメモリ16
に格納されている対話音声m音素組モデルとを用いて対
話音声学習データメモリ80に格納されている各トーク
ンの認識を行い認識率の低いn音素組を抽出する第4の
手順と、対話音声学習データメモリ80に格納されてい
るトークンを用いて抽出した各n音素組について対話音
声n音素組モデルを学習する第5の手順とを有した、コ
ンピュータに音声パターンモデルを学習させるためのプ
ログラムを記録したコンピュータで読み取り可能な記録
媒体が必要である。When the speech pattern model learning method according to the third embodiment is realized by software, a read-out speech m-phoneme set model memory is learned, and the result of the learning is stored in the read-out speech m-phoneme set model memory 14. A first procedure for learning the m phoneme set model, and recognition of each token stored in the conversational speech learning data memory 80 using the read out speech m phoneme set model stored in the read out speech m phoneme set model memory 14 And a second step of extracting m phoneme sets having a low recognition rate, and a dialogue speech of each m phoneme set extracted in the second procedure using the token stored in the dialogue speech learning data memory 80. A third procedure for learning the m phoneme set model, and a read speech m phoneme set model stored in the read speech m phoneme set model memory 14 Interactive voice m phoneme sets model memory 16
A fourth procedure for recognizing each token stored in the conversational speech learning data memory 80 using the conversational speech m phoneme set model stored in the dialogue box and extracting an n phoneme set with a low recognition rate; A fifth step of learning a dialogue n-phoneme set model for each n-phoneme set extracted using the token stored in the learning data memory 80. A computer-readable recording medium that records the recorded data is required.
【0141】以上説明したように、この実施の形態3に
よる音声パターンモデル学習装置および音声パターンモ
デル学習方法では、上記n音素組抽出手順(図14のス
テップST801〜ステップST806)を行うことに
よって、認識率Rqが閾値T q以下である全てのn音素
組を抽出し、抽出した各n音素組について、対話音声学
習データが保持するトークンを用いて対話音声n音素組
モデルを学習するので、対話音声のように発話速度がは
やくかつ曖昧な音声で読み上げ音声m音素組モデルと対
話音声m音素組モデルでは十分な認識性能が得られない
各n音素組について効率的に対話音声n音素組モデルを
学習することができる効果を奏する。なお、この実施の
形態3では、m=3、n=5として説明したが、m、n
は、m<nなる任意の整数の組を選択してもよく、この
場合にも同様の効果を奏する。As described above, in the third embodiment,
Pattern model learning device and voice pattern model
In the Dell learning method, the n phoneme set extraction procedure (step S
Steps ST801 to ST806)
Therefore, the recognition rate RqIs the threshold T qAll n phonemes that are
Dialogue phonetics for each of the extracted n phoneme groups
N phoneme group of dialogue speech using tokens held by learning data
Since the model is learned, the utterance speed is high like dialogue voice.
Pair with m-phoneme set model, which is read out quickly and vaguely
Sufficient recognition performance cannot be obtained with m-phoneme set model
Efficiently construct dialogue n phoneme set models for each n phoneme set
It has the effect of being able to learn. Note that this implementation
In the third embodiment, m = 3 and n = 5 have been described.
May select any set of integers such that m <n.
The same effect is obtained in such a case.
【0142】実施の形態4.この発明の実施の形態4に
よる音声パターンモデル学習装置は、上記実施の形態3
によるn音素組抽出手順1〜4に代わって以下に示す改
良n音素組抽出手順1〜4を実行するn音素組抽出部1
7を備えたものである。なお、実施の形態4による音声
パターンモデル学習装置は図8に示す上記実施の形態3
によるものと同一の構成を有しており、n音素組抽出部
17以外の構成要素は上記実施の形態3による音声パタ
ーンモデル学習装置と同じ動作をするので、以下ではそ
の他の構成要素の説明を省略する。また、この実施の形
態4においてもm=3のm音素組およびn=5のn音素
組を対象として説明する。Embodiment 4 The speech pattern model learning device according to the fourth embodiment of the present invention is similar to the third embodiment.
N phoneme set extraction unit 1 that executes the following improved n phoneme set extraction procedures 1 to 4 instead of n phoneme set extraction procedures 1 to 4
7 is provided. The speech pattern model learning apparatus according to the fourth embodiment is different from the third embodiment shown in FIG.
And the components other than the n-phoneme set extraction unit 17 operate in the same manner as the speech pattern model learning device according to the third embodiment, so that the other components will be described below. Omitted. Also in the fourth embodiment, a description will be given of m phoneme sets of m = 3 and n phoneme sets of n = 5.
【0143】次に動作について説明する。 (1)改良n音素組抽出手順1:n音素組抽出部17
は、読み上げ音声m音素組モデルメモリ14から全ての
読み上げ音声m音素組モデルのパラメータとそのm音素
組表記13を読み込む。n音素組抽出部17は、さら
に、対話音声m音素組モデルメモリ16から全ての対話
音声m音素組モデルのパラメータとそのm音素組表記1
5を読み込む。Next, the operation will be described. (1) Improved n phoneme group extraction procedure 1: n phoneme group extraction unit 17
Reads all the parameters of the m-phoneme set model of the read-aloud speech and the m-phoneme set notation 13 from the read-aloud m-phoneme set model memory 14. The n-phoneme group extraction unit 17 further stores the parameters of all the m-phoneme group models of the dialogue speech and the m-phoneme group notation 1
Read 5
【0144】(2)改良n音素組抽出手順2:次に、n
音素組抽出部17は、対話音声学習データメモリ80に
格納されたn音素組テーブルを読み込み、このn音素組
テーブルの記述内容にしたがって、対話音声学習データ
中から先頭のn音素組を認識対象として選択する。n音
素組テーブルが例えば図9のように記述されている場
合、n音素組抽出部17は先頭のn音素組である(k
a)a(ai)を認識対象として選択する。(2) Improved n phoneme group extraction procedure 2: Next, n
The phoneme set extraction unit 17 reads the n phoneme set table stored in the dialogue speech learning data memory 80, and recognizes the first n phoneme set in the dialogue speech learning data according to the description contents of the n phoneme set table. select. If the n-phoneme set table is described, for example, as shown in FIG. 9, the n-phoneme set extraction unit 17 is the first n-phoneme set (k
a) Select a (ai) as a recognition target.
【0145】(3)改良n音素組抽出手順3:n音素組
抽出部17は、上記改良n音素組抽出手順2または下記
改良n音素組抽出手順4において選択したn音素組と一
致するn音素組表記を持つ全てのトークンの特徴ベクト
ルの時系列9を対話音声学習データメモリ80から読み
込む。そして読み込んだトークンの数Nq(添字qは選
択したn音素組の名前を示す)が予め定めた閾値N未満
であれば、抽出n音素組表記メモリ19には何も送出せ
ず、次の改良n音素組抽出手順4に移る。一方、Nqが
予め定めた閾値N以上であれば、n音素組抽出部17は
上記実施の形態3と同様に認識を行う。すなわち、n音
素組抽出部17は、読み込んだ各トークンについて、上
記改良n音素組抽出手順1で読み込んだ全ての読み上げ
音声m音素組モデルおよび全ての対話音声m音素組モデ
ルとの尤度を計算し、一番高い尤度を示したm音素組モ
デルのm音素組表記を、当該トークンの認識結果とす
る。なお、尤度計算には例えばビタビアルゴリズムを用
いる。読み込んだ全てのトークンに対する認識結果を求
めた後、n音素組抽出部17は、上記(2)式によって
認識率Rqを計算する。そして、n音素組抽出部17
は、上記認識率Rqを予め定めた閾値Tqと比較し、閾
値Tq以下であれば、そのn音素組のn音素組表記を抽
出n音素組表記メモリ19に送出する。抽出n音素組表
記メモリ19は、入力されたn音素組表記を保持する。(3) Improved n phoneme set extraction procedure 3: The n phoneme set extraction unit 17 selects the n phonemes that match the n phoneme set selected in the improved n phoneme set extraction procedure 2 or the improved n phoneme set extraction procedure 4 described below. The time series 9 of the feature vectors of all tokens having the set notation is read from the dialogue speech learning data memory 80. If the number of read tokens N q (subscript q indicates the name of the selected n phoneme set) is less than a predetermined threshold N, nothing is sent to the extracted n phoneme set notation memory 19 and the next The procedure moves to the improved n phoneme set extraction procedure 4. On the other hand, if the threshold value N or more N q is predetermined, n phoneme set extraction unit 17 performs the recognition as in the third embodiment. That is, the n-phoneme set extraction unit 17 calculates the likelihood of each of the read tokens with all the read-aloud m-phoneme set models and all the dialogue m-phoneme set models read in the improved n-phoneme set extraction procedure 1. Then, the m phoneme set notation of the m phoneme set model showing the highest likelihood is set as the token recognition result. The likelihood calculation uses, for example, a Viterbi algorithm. After obtaining the recognition results for all the read tokens, the n-phoneme set extraction unit 17 calculates the recognition rate Rq by the above equation (2). Then, the n phoneme set extraction unit 17
Compares the recognition rate Rq with a predetermined threshold value Tq, and if it is equal to or smaller than the threshold value Tq , sends the n-phoneme set notation of the n-phoneme set to the extracted n-phoneme set notation memory 19. The extracted n phoneme group notation memory 19 holds the input n phoneme group notation.
【0146】(4)改良n音素組抽出手順4:n音素組
抽出部17は、対話音声学習データメモリ80が保持す
るn音素組テーブルを参照し、対話音声学習データメモ
リ80に存在する全てのn音素組について上記改良n音
素組抽出手順3を実行するために、上記n音素組テーブ
ルに記述されている順番にしたがって次のn音素組を認
識対象として選択し、上記改良n音素組抽出手順3を繰
り返す。このようにして、対話音声学習データ中に存在
する全てのn音素組について認識率を求めると、n音素
組抽出部17は改良n音素組抽出手順を終了する。(4) Improved n-phoneme set extraction procedure 4: The n-phoneme set extraction unit 17 refers to the n-phoneme set table held in the dialogue speech learning data memory 80, and retrieves all the n-phoneme set tables existing in the dialogue speech learning data memory 80. In order to execute the improved n phoneme set extraction procedure 3 for the n phoneme sets, the next n phoneme set is selected as a recognition target according to the order described in the n phoneme set table, and the improved n phoneme set extraction procedure is performed. Repeat 3. When the recognition rates are obtained for all the n phoneme sets existing in the conversational speech learning data in this way, the n phoneme set extraction unit 17 ends the improved n phoneme set extraction procedure.
【0147】次にこの実施の形態4による音声パターン
モデル学習装置が使用する、m音素組モデルとn音素組
モデルを学習する方法を具体的に説明する。実施の形態
4による音声パターンモデル学習装置では、上記実施の
形態3による音声パターンモデル学習装置と同様にm音
素組モデルとn音素組モデルの学習手順は大きく5つの
ステップに分けられる。Next, a method for learning the m phoneme set model and the n phoneme set model used by the speech pattern model learning apparatus according to the fourth embodiment will be specifically described. In the speech pattern model learning device according to the fourth embodiment, the learning procedure of the m phoneme set model and the n phoneme set model is roughly divided into five steps, similarly to the speech pattern model learning device according to the third embodiment.
【0148】まず、第1ステップは、読み上げ音声m音
素組モデルを学習し学習により得た結果であるモデルの
パラメータおよびm音素組表記13を読み上げ音声m音
素組モデルメモリ14に格納する、読み上げ音声m音素
組モデルを学習するステップである。First, the first step is to read out the m-phoneme set model of the read-aloud speech m and store the m-phoneme set notation 13 in the read-aloud m-phoneme set model memory 14. This is the step of learning the m phoneme set model.
【0149】次の第2ステップは、読み上げ音声m音素
組モデルメモリ14に格納されている読み上げ音声m音
素組モデルを用いて、対話音声学習データメモリ80に
格納されている各トークンの認識を行い、認識率の低い
m音素組を抽出するステップである。In the next second step, each token stored in the conversational speech learning data memory 80 is recognized using the read-out speech m-phoneme set model stored in the read-out speech m-phoneme set model memory 14. , Extracting m-phoneme sets with a low recognition rate.
【0150】次の第3ステップは、対話音声学習データ
メモリ80に格納されているトークンを用いて上記第2
ステップで抽出したm音素組について、対話音声m音素
組モデルを学習するステップである。The next third step is to use the token stored in the conversational speech learning data memory 80 for the second step.
This is a step of learning an m-phoneme set dialogue speech model for the m-phoneme set extracted in the step.
【0151】次の第4ステップは、読み上げ音声m音素
組モデルメモリ14に格納されている読み上げ音声m音
素組モデルおよび対話音声m音素組モデルメモリ16に
格納されている対話音声m音素組モデルを用いて、対話
音声学習データメモリ80が保持するn音素組テーブル
に記述されたn音素組の中からトークンの数Nqが閾値
N以上でかつ認識率Rqが閾値Tq以下であるn音素組
を抽出するステップである。In the next fourth step, the speech m m phoneme set model stored in the speech m m phoneme set model memory 14 and the dialog m m phoneme set model stored in the dialog m m phoneme set model memory 16 are stored. The n phonemes for which the number of tokens N q is equal to or greater than the threshold N and the recognition rate R q is equal to or less than the threshold T q from among the n phoneme sets described in the n phoneme set table held by the dialogue speech learning data memory 80 This is the step of extracting sets.
【0152】次の第5ステップは、対話音声学習データ
メモリ80に格納されているトークンを用いて上記第4
ステップで抽出した各n音素組について、対話音声n音
素組モデルを学習するステップである。In the next fifth step, the fourth step is performed by using the token stored in the conversational speech learning data memory 80.
This is a step of learning a dialogue speech n phoneme set model for each n phoneme set extracted in the step.
【0153】上記第1〜第5ステップのうち、第1、第
2、第3および第5ステップは上記実施の形態3と全く
同じ手順であるので以下ではその説明を省略し、第4ス
テップであるn音素組の抽出手順を詳細に説明する。図
15はこの第4ステップの抽出手順を示すフローチャー
トであり、以下では図15を参照しながら抽出手順を詳
細に説明する。[0153] Of the first to fifth steps, the first, second, third and fifth steps are exactly the same as those in the third embodiment, so that the description thereof will be omitted below and the fourth step will be described. The extraction procedure of a certain n phoneme set will be described in detail. FIG. 15 is a flowchart showing the extraction procedure of the fourth step. Hereinafter, the extraction procedure will be described in detail with reference to FIG.
【0154】n音素組抽出部17は、まず、ステップS
T901において、読み上げ音声m音素組モデルメモリ
14から全ての読み上げ音声m音素組モデルのパラメー
タとそのm音素組表記13を読み込む。続いて、n音素
組抽出部17は、ステップST902において、対話音
声m音素組モデルメモリ16から全ての対話音声m音素
組モデルのパラメータとそのm音素組表記15を読み込
む。First, the n phoneme group extraction unit 17 first executes step S
At T901, the parameters of all the read-out m-phoneme set models and the m-phoneme set notation 13 are read from the read-out m-phoneme set model memory 14. Subsequently, in step ST902, the n-phoneme set extraction unit 17 reads the parameters of all the m-phoneme set models of the dialogue speech and the m-phoneme set notation 15 from the dialogue m-phoneme set model memory 16.
【0155】次に、n音素組抽出部17は、ステップS
T903において、対話音声学習データメモリ80が保
持するn音素組テーブルを読み込み、このn音素組テー
ブルの記述内容にしたがって先頭のn音素組を認識対象
として選択する。n音素組テーブルが例えば図9のよう
に記述されている場合、n音素組抽出部17は先頭のn
音素組である(ka)a(ai)を認識対象として選択
する。Next, the n-phoneme set extraction unit 17 determines in step S
At T903, the n phoneme set table held by the conversational speech learning data memory 80 is read, and the first n phoneme set is selected as a recognition target according to the description contents of the n phoneme set table. If the n phoneme set table is described, for example, as shown in FIG.
The phoneme set (ka) a (ai) is selected as a recognition target.
【0156】次に、n音素組抽出部17は、ステップS
T904において、上記ステップST903またはステ
ップST910において選択したn音素組と一致するn
音素組表記を持つ全てのトークンの特徴ベクトルの時系
列9を対話音声学習データメモリ80から読み込む。Next, the n-phoneme set extraction unit 17 determines in step S
In T904, n matching the n phoneme set selected in step ST903 or ST910 described above.
The time series 9 of the feature vectors of all the tokens having the phoneme set notation is read from the conversational speech learning data memory 80.
【0157】そして、n音素組抽出部17は、ステップ
ST905において、読み込んだトークンの数Nq(添
字qは選択したn音素組の名前を示す)を予め定めた閾
値Nと比較し、Nq<Nであれば、抽出n音素組表記メ
モリ19には何も送出せず、ステップST909に移
る。一方、Nq>=Nであれば、n音素組抽出部17は
ステップST906に移る。[0157] Then, n phoneme set extraction unit 17, at step ST 905, is compared with a threshold value N which defines the number N q of the read tokens (subscript q represents the name of the n phonemes sets selected) beforehand, N q If <N, nothing is sent to the extracted n phoneme set notation memory 19, and the routine goes to step ST909. On the other hand, if N q > = N, the n phoneme group extraction unit 17 proceeds to step ST906.
【0158】次に、n音素組抽出部17は、ステップS
T906において、読み込んだ各トークンについて、上
記ステップST902およびステップST903で読み
込んだ全ての読み上げ音声m音素組モデルおよび全ての
対話音声m音素組モデルとの尤度を計算し、一番高い尤
度を示したm音素組モデルのm音素組表記を、当該トー
クンの認識結果とする。なお、尤度計算には例えばビタ
ビアルゴリズムを用いる。読み込んだ全てのトークンに
ついて認識結果を求めた後、n音素組抽出部17は上記
(2)式によって認識率Rqを計算する。Next, the n-phoneme set extraction unit 17 determines in step S
At T906, the likelihood of all the read-in speech m-phoneme set models and all the dialogue m-phoneme set models read in steps ST902 and ST903 is calculated for each of the read tokens, and the highest likelihood is indicated. The m phoneme set notation of the m phoneme set model is used as the recognition result of the token. The likelihood calculation uses, for example, a Viterbi algorithm. After obtaining the recognition results for all the read tokens, the n-phoneme group extraction unit 17 calculates the recognition rate Rq by the above equation (2).
【0159】次に、n音素組抽出部17は、ステップS
T907において、上記ステップST906において求
めた認識率Rqを予め定めた閾値Tqと比較し、閾値T
q以下であれば、ステップST908に進み、そのn音
素組のn音素組表記18を抽出n音素組表記メモリ19
に送出する。抽出n音素組表記メモリ19は入力された
n音素組表記18を保持する。一方、上記認識率Rqが
閾値Tqよりも大きいならば、n音素組抽出部17はス
テップST909に進む。Next, the n-phoneme set extraction unit 17 determines in step S
In T907, it is compared with a threshold value T q that defines a recognition rate R q previously determined in step ST 906, the threshold value T
If not more than q , the process proceeds to step ST908, where the n phoneme set notation 18 of the n phoneme set is extracted.
To send to. The extracted n phoneme set notation memory 19 holds the inputted n phoneme set notation 18. On the other hand, if the recognition rate R q is larger than the threshold value T q , the n-phoneme set extraction unit 17 proceeds to step ST909.
【0160】そして、ステップST909では、n音素
組抽出部17は、対話音声学習データメモリ80に格納
されたn音素組テーブルを参照し、対話音声学習データ
メモリ80に存在する全てのn音素組を既に選択し終え
たか否かを判定し、未選択のn音素組が存在する場合
は、ステップST910に進み上記n音素組テーブルに
記述されている順番にしたがって次のn音素組を認識対
象として選択し、ステップST904に戻る。一方、n
音素組抽出部17は、既に全てのn音素組を選択し終え
たのであるならばn音素組の抽出手順を終了する。[0160] In step ST909, the n-phoneme set extraction unit 17 refers to the n-phoneme set table stored in the conversational speech learning data memory 80, and retrieves all n-phoneme sets existing in the conversational speech learning data memory 80. It is determined whether or not the selection has been completed. If there is an unselected n-phoneme set, the process proceeds to step ST910, and the next n-phoneme set is selected as a recognition target according to the order described in the n-phoneme set table. Then, the process returns to step ST904. On the other hand, n
The phoneme set extraction unit 17 ends the procedure for extracting the n phoneme sets if all the n phoneme sets have already been selected.
【0161】なお、この実施の形態4による音声パター
ンモデル学習方法をソフトウェアで実現しようとする場
合、読み上げ音声m音素組モデルを学習し学習により得
た結果を読み上げ音声m音素組モデルメモリ14に格納
する、読み上げ音声m音素組モデルを学習する第1ステ
ップと、読み上げ音声m音素組モデルメモリ14に格納
されている読み上げ音声m音素組モデルを用いて対話音
声学習データメモリ80に格納されている各トークンの
認識を行い、認識率の低いm音素組を抽出する第2ステ
ップと、対話音声学習データメモリ80に格納されてい
るトークンを用いて上記第2ステップで抽出した各m音
素組について、対話音声m音素組モデルを学習する第3
ステップと、対話音声学習データメモリ80が保持する
n音素組テーブルに記述されたn音素組のなかからトー
クンの数Nqが閾値N以上でかつ認識率Rqが閾値Tq
以下であるn音素組を抽出する第4ステップと、対話音
声学習データメモリ80に格納されているトークンを用
いて抽出した各n音素組について対話音声n音素組モデ
ルを学習するステップとを有した、コンピュータに音声
パターンモデルを学習させるためのプログラムを記録し
たコンピュータで読み取り可能な記録媒体が必要であ
る。When the voice pattern model learning method according to the fourth embodiment is to be realized by software, the read-aloud m m-phoneme set model is learned and the result obtained by the learning is stored in the read-aloud m-phoneme set model memory 14. A first step of learning a read-aloud m m-phoneme set model, and using the read-aloud m-phoneme set model stored in the read-aloud m-phoneme set model memory 14 to store each data stored in the interactive voice learning data memory 80. A second step of recognizing tokens and extracting m phoneme sets having a low recognition rate; and a dialogue for each m phoneme set extracted in the second step using the token stored in the dialogue speech learning data memory 80. 3rd learning of phonetic m phoneme set model
Steps and the number N q of tokens from among n phoneme sets described in n phoneme sets table held spoken dialogue learning data memory 80 is the threshold N or more and recognition rate R q is a threshold value T q
A fourth step of extracting the following n phoneme sets and a step of learning a dialogue n phoneme set model for each of the n phoneme sets extracted using the token stored in the dialogue learning data memory 80 are included. In addition, a computer-readable recording medium that records a program for causing a computer to learn an audio pattern model is required.
【0162】以上説明したように、この実施の形態4に
よる音声パターンモデル学習装置は、上記改良n音素組
抽出手順(図15のステップST901〜ステップST
910)を実行することによって、トークンの数Nqが
閾値N以上でかつ認識率Rqが閾値Tq以下である全て
のn音素組のn音素組表記を抽出し、抽出した全てのn
音素組のn音素組表記18を抽出n音素組表記メモリ1
9に格納する。したがって、この実施の形態4による音
声パターンモデル学習装置は、抽出n音素組モデルの学
習においてトークンの数Nqが閾値N以上のn音素組の
みモデルを学習するので、読み上げ音声m音素組モデル
と対話音声m音素組モデルでは認識率が低い対話音声の
n音素組のうち、トークンの数Nqが閾値N未満で統計
的に信頼度の低いモデルの学習を回避し、統計的に信頼
度の高いモデルのみを効率的に学習できるという効果を
奏する。なお、この実施の形態4ではm=3、n=5と
して説明したが、m、nは、m<nなる任意の整数の組
を選択してもよく、その場合にも同様の効果を奏する。As described above, the speech pattern model learning apparatus according to the fourth embodiment uses the improved n phoneme set extraction procedure (step ST901 to step ST901 in FIG. 15).
910), n phoneme set notations of all n phoneme sets whose number of tokens N q is equal to or greater than the threshold N and whose recognition rate R q is equal to or less than the threshold T q are extracted, and all extracted n
Extract n phoneme set notation 18 of phoneme set n phoneme set notation memory 1
9 is stored. Therefore, the speech pattern model learning apparatus according to the fourth embodiment learns only n phoneme sets whose number of tokens Nq is equal to or greater than the threshold N in learning the extracted n phoneme set models. In the dialogue m phoneme set model, among the n phoneme sets of the dialogue speech having a low recognition rate, the number of tokens Nq is less than the threshold N, and learning of a model having a statistically low reliability is avoided. This has the effect that only high models can be efficiently learned. Although the fourth embodiment has been described assuming that m = 3 and n = 5, m and n may be any set of integers such that m <n, and the same effect is obtained in that case. .
【0163】実施の形態5.図16はこの発明の実施の
形態5による音声認識装置の構成を示すブロック図であ
る。図において、14は読み上げ音声m音素組モデルメ
モリ、16は対話音声m音素組モデルメモリ、21は対
話音声n音素組モデルメモリ、22は音声信号の入力端
子、23は音声信号の入力端子22から入力された音声
信号、24は音声信号23の音響特徴ベクトルの時系列
を算出する音響分析部、25は音響分析部24の出力で
ある特徴ベクトルの時系列、26は認識対象語彙の音素
表記を格納する認識対象語彙メモリ、27は認識対象語
彙の音素組表記、28は上記実施の形態3または4によ
る音声パターンモデル学習装置によって学習された読み
上げ音声m音素組モデル、対話音声m音素組モデルおよ
び対話音声n音素組モデルを並列に接続することによっ
て認識対象語彙に対する音声パターンモデル(すなわち
認識対象語彙モデル)を作成する認識対象語彙モデル作
成部(認識対象語彙モデル作成手段)、29は認識対象
語彙モデルのパラメータおよび音素組表記、31は認識
対象語彙モデルメモリ、32は認識対象語彙モデル作成
部28によって作成した認識対象語彙に対する音声パタ
ーンモデルを用いて、入力音声の認識を行う認識部(認
識手段)、33は認識結果である。なお、図16におい
て、図8に示すものと同一の符号は上記実施の形態3に
よる音声パターンモデル学習装置の構成要素と同一また
は相当するものを示している。Embodiment 5 FIG. FIG. 16 is a block diagram showing a configuration of a speech recognition apparatus according to Embodiment 5 of the present invention. In the figure, reference numeral 14 denotes a read speech m phoneme set model memory, 16 denotes a dialogue speech m phoneme set model memory, 21 denotes a dialogue speech n phoneme set model memory, 22 denotes a speech signal input terminal, and 23 denotes a speech signal input terminal 22. The input speech signal, 24 is an acoustic analysis unit that calculates a time series of acoustic feature vectors of the audio signal 23, 25 is a time series of feature vectors output from the acoustic analysis unit 24, and 26 is a phoneme notation of the vocabulary to be recognized. A recognition target vocabulary memory to be stored; 27, a phoneme set notation of the recognition target vocabulary; 28, a read-out speech m-phoneme set model, a conversational speech m-phoneme set model, which is learned by the speech pattern model learning apparatus according to the third or fourth embodiment. A speech pattern model for the vocabulary to be recognized (ie, a vocabulary model to be recognized) by connecting the dialogue n-phoneme set models in parallel A recognition target vocabulary model creation unit (recognition target vocabulary model creation means), 29 is a recognition target vocabulary model parameter and phoneme set notation, 31 is a recognition target vocabulary model memory, and 32 is a recognition target vocabulary model creation unit 28. A recognition unit (recognition means) 33 for recognizing the input voice using the voice pattern model for the recognition target vocabulary is a recognition result. In FIG. 16, the same reference numerals as those shown in FIG. 8 denote the same or corresponding components as those of the speech pattern model learning apparatus according to the third embodiment.
【0164】読み上げ音声m音素組モデルメモリ14
は、上記実施の形態3または4による音声パターンモデ
ル学習装置によって作成された全ての読み上げ音声m音
素組モデルのパラメータおよびそのm音素組表記を保持
している。また、対話音声m音素組モデルメモリ16
は、同様に、上記実施の形態3または4による音声パタ
ーンモデル学習装置によって作成された全ての対話音声
m音素組モデルのパラメータおよびそのm音素組表記を
保持している。さらに、対話音声n音素組モデルメモリ
21は、上記実施の形態3または4による音声パターン
モデル学習装置によって作成された全ての対話音声n音
素組モデルのパラメータおよびそのn音素組表記を保持
している。なお、以下では、m=3、n=5として説明
する。また、以下では、対話音声m音素組モデルメモリ
16は、上記実施の形態4による音声パターンモデル学
習装置によって作成された全ての対話音声m音素組モデ
ルのパラメータおよびそのm音素組表記を保持してお
り、対話音声n音素組モデルメモリ21は、上記実施の
形態4による音声パターンモデル学習装置によって作成
された全ての対話音声n音素組モデルのパラメータおよ
びそのn音素組表記を保持していると仮定する。Read-out speech m phoneme group model memory 14
Holds the parameters of all the read-aloud m-phoneme set models created by the speech pattern model learning apparatus according to Embodiment 3 or 4, and the m-phoneme set notation. Further, the dialogue voice m phoneme group model memory 16
Holds the parameters of all the dialogue m-phoneme set models created by the speech pattern model learning apparatus according to the third or fourth embodiment and the m-phoneme set notation. Further, the conversational speech n phoneme set model memory 21 holds the parameters of all the dialogue speech n phoneme set models created by the speech pattern model learning device according to the third or fourth embodiment and the n phoneme set notation. . In the following, description will be made assuming that m = 3 and n = 5. In the following, the dialogue m m phoneme set model memory 16 holds the parameters of all the dialogue m m phoneme set models created by the speech pattern model learning apparatus according to the fourth embodiment and the m phoneme set notation. It is assumed that the dialogue speech n phoneme set model memory 21 holds the parameters of all the dialogue speech n phoneme set models created by the speech pattern model learning device according to Embodiment 4 and the n phoneme set notation. I do.
【0165】次に動作について説明する。この実施の形
態5による音声認識装置は、認識を行う前に認識対象語
彙モデルを作成し、作成した認識対象語彙モデルを認識
対象語彙モデルメモリ31に保持する。Next, the operation will be described. The speech recognition apparatus according to the fifth embodiment creates a recognition target vocabulary model before performing recognition, and stores the created recognition target vocabulary model in the recognition target vocabulary model memory 31.
【0166】まずこの実施の形態5による音声認識装置
が用いる認識対象語彙モデルの作成方法について説明す
る。認識対象語彙モデル作成部28は、認識対象語彙メ
モリ26に格納されている認識対象語彙のモデルを作成
する。認識対象語彙メモリ26にはまた認識対象とする
語彙の音素表記が記述されている。認識対象語彙メモリ
26の内容の例を図17に示す。この例ではホテル予約
を想定したユーザの発話を認識対象としており、語彙番
号1の語彙は「予約お願いします」、語彙番号2は「あ
した空いてますか」、1000は「駅から近いですか」
である。認識対象語彙モデル作成部28は、以下のよう
に認識対象語彙モデルを作成する。First, a method of creating a recognition target vocabulary model used by the speech recognition apparatus according to the fifth embodiment will be described. The recognition target vocabulary model creating unit 28 creates a recognition target vocabulary model stored in the recognition target vocabulary memory 26. The recognition target vocabulary memory 26 also describes the phoneme notation of the vocabulary to be recognized. FIG. 17 shows an example of the contents of the vocabulary memory 26 to be recognized. In this example, the utterance of the user assuming a hotel reservation is to be recognized, and the vocabulary of vocabulary number 1 is "Please make a reservation", vocabulary number 2 is "Are you free?""
It is. The recognition target vocabulary model creation unit 28 creates a recognition target vocabulary model as follows.
【0167】(1)認識対象語彙モデル作成手順1:認
識対象語彙モデル作成部28は、認識対象語彙メモリ2
6に記載されている語彙番号の順番にモデル作成の対象
とする認識対象語彙を選択してこの認識対象語彙の音素
表記27を読み込む。例えば認識対象語彙メモリ26の
内容が図17のようであれば、認識対象語彙モデル作成
部28はまず語彙番号1である/yoyakuoneg
aisimasu/を選択する。(1) Recognition target vocabulary model creation procedure 1: The recognition target vocabulary model creation unit 28
6. The recognition target vocabulary to be model-created is selected in the order of the vocabulary numbers described in No. 6, and the phoneme description 27 of the recognition target vocabulary is read. For example, if the contents of the recognition target vocabulary memory 26 are as shown in FIG. 17, the recognition target vocabulary model creating unit 28 first has the vocabulary number 1 / yoyakuoneg.
Select aisimasu /.
【0168】(2)認識対象語彙モデル作成手順2:次
に、認識対象語彙モデル作成部28は、選択した認識対
象語彙の音素表記27にしたがって読み上げ音声m音素
組モデルメモリ14から、読み上げ音声m音素組モデル
のパラメータ13を読み込み、読み上げ音声m音素組モ
デルを直列接続して、選択した認識対象語彙について直
列接続モデルを作成する。例えば音素表記が/yoya
kuonegaisimasu/の場合、m=3である
ので、/(#)y(o)/,/(y)o(y)/,/
(o)y(a)/,/(y)a(k)/,/(a)k
(u)/,/(k)u(o)/,/(u)o(n)/,
/(o)n(e)/,/(n)e(g)/,/(e)g
(a)/,/(g)a(i)/,/(a)i(s)/,
/(i)s(i)/,/(s)i(m)/,/(i)m
(a)/,/(m)a(s)/,/(a)s(u)/,
/(s)u(#)/の計18個のm音素組モデルを接続
する。ここで、/#/は発話の前後の無音区間を意味す
る。この実施の形態5では、各m音素組モデルは図26
に示すように5状態の構造を有しているとする。図26
において、状態1が初期状態、状態5が最終状態であ
る。/yoyakuonegaisimasu/に対す
る直列接続モデルは図18のようになる。(2) Recognition-target vocabulary model creation procedure 2: Next, the recognition-target vocabulary model creation unit 28 reads out the read-out speech m from the phoneme set model memory 14 according to the phoneme notation 27 of the selected recognition-target vocabulary. The parameters 13 of the phoneme set model are read, the read-out speech m phoneme set models are connected in series, and a series connection model is created for the selected vocabulary to be recognized. For example, phoneme notation is / yoya
In the case of kuonegaishimasu /, since m = 3, / (#) y (o) /, / (y) o (y) /, /
(O) y (a) /, / (y) a (k) /, / (a) k
(U) /, / (k) u (o) /, / (u) o (n) /,
/ (O) n (e) /, / (n) e (g) /, / (e) g
(A) /, / (g) a (i) /, / (a) i (s) /,
/ (I) s (i) /, / (s) i (m) /, / (i) m
(A) /, / (m) a (s) /, / (a) s (u) /,
/ (S) u (#) /, a total of 18 m phoneme set models are connected. Here, / # / means a silent section before and after the utterance. In the fifth embodiment, each m-phoneme set model is shown in FIG.
It is assumed that the device has a five-state structure as shown in FIG. FIG.
, State 1 is an initial state and state 5 is a final state. FIG. 18 illustrates a series connection model for / yoyokuoneigashimasu /.
【0169】(3)認識対象語彙モデル作成手順3:次
に、認識対象語彙モデル作成部28は、対話音声m音素
組モデルメモリ16が保持するm音素組表記を参照し、
上記/yoyakuonegaisimasu/を構成
するm(=3)音素組である/(#)y(o)/,/
(y)o(y)/,/(o)y(a)/,/(y)a
(k)/,/(a)k(u)/,/(k)u(o)/,
/(u)o(n)/,/(o)n(e)/,/(n)e
(g)/,/(e)g(a)/,/(g)a(i)/,
/(a)i(s)/,/(i)s(i)/,/(s)i
(m)/,/(i)m(a)/,/(m)a(s)/,
/(a)s(u)/,/(s)u(#)/のうち、対話
音声m音素組モデルメモリ16が保持するm音素組表記
に存在するm音素組のモデルのパラメータ15を対話音
声m音素組モデルメモリ16から読み込み、上記認識対
象語彙モデル作成手順1で作成した直列接続モデルの該
当する場所に読み上げ音声m音素組モデルと対話音声m
音素組モデルとを並列に接続することによって、選択し
た認識対象語彙に対する並列接続モデルを作成する。(3) Recognition target vocabulary model creation procedure 3: Next, the recognition target vocabulary model creation unit 28 refers to the m phoneme set notation held in the dialogue speech m phoneme set model memory 16,
/ (#) Y (o) /, / is an m (= 3) phoneme set that constitutes the above / yoyokuoneigaishimasu /
(Y) o (y) /, / (o) y (a) /, / (y) a
(K) /, / (a) k (u) /, / (k) u (o) /,
/ (U) o (n) /, / (o) n (e) /, / (n) e
(G) /, / (e) g (a) /, / (g) a (i) /,
/ (A) i (s) /, / (i) s (i) /, / (s) i
(M) /, / (i) m (a) /, / (m) a (s) /,
Of the / (a) s (u) /, / (s) u (#) /, dialog parameters 15 of the m phoneme set model existing in the m phoneme set notation held in the dialogue m m phoneme set model memory 16 are used. The speech m phoneme set model and the dialogue speech m are read from the speech m phoneme set model memory 16 and stored in the corresponding locations of the serial connection model created in the recognition target vocabulary model creation procedure 1.
A parallel connection model for the selected vocabulary to be recognized is created by connecting the phoneme set models in parallel.
【0170】並列に接続するとは、接続対象とする読み
上げ音声m音素組モデルと対話音声m音素組モデルの初
期状態同士と最終状態同士を共有化し、一個の初期状態
からどちらのモデルへも遷移が可能で、どちらのモデル
へ遷移した場合でも、共通の最終状態で遷移を終えるよ
うに接続するものである。例えば、対話音声m音素組モ
デルメモリ16が保持するm音素組表記に存在するm音
素組が、/(y)o(y)/,/(o)y(a)/,/
(a)k(u)/,/(u)o(n)/,/(n)e
(g)/,/(e)g(a)/,/(g)a(i)/,
/(i)m(a)/の8個であるとすると、対話音声m
音素組モデルを図19のように図18の直列接続モデル
に並列に接続して並列接続モデルを作成する。The connection in parallel means that the initial state and the final state of the m-phoneme set model and the m-phoneme set model to be connected are shared, and the transition from one initial state to either model is performed. It is possible to connect so that the transition to either model is completed in a common final state. For example, if the m phoneme set existing in the m phoneme set notation held by the dialogue m phoneme set model memory 16 is / (y) o (y) /, / (o) y (a) /, /
(A) k (u) /, / (u) o (n) /, / (n) e
(G) /, / (e) g (a) /, / (g) a (i) /,
/ (I) m (a) /, the dialogue voice m
The phoneme set model is connected in parallel to the series connection model of FIG. 18 as shown in FIG. 19 to create a parallel connection model.
【0171】(4)認識対象語彙モデル作成手順4:次
に、認識対象語彙モデル作成部28は、対話音声n音素
組モデルメモリ21が保持するn音素組表記を参照し、
上記/yoyakuonegaisimasu/を構成
するn(本例ではn=5)音素組である/(##)y
(oy)/,/(#y)o(ya)/,/(yo)y
(ak)/,/(oy)a(ku)/,/(ya)k
(uo)/,/(ak)u(on)/,/(ku)o
(ne)/,/(uo)n(eg)/,/(on)e
(ga)/,/(ne)g(ai)/,/(eg)a
(is)/,/(ga)i(si)/,/(ai)s
(im)/,/(is)i(ma)/,/(si)m
(as)/,/(im)a(su)/,/(ma)s
(u#)/,/(as)u(##)/のうち、対話音声
n音素組モデルメモリ21が保持するn音素組表記に存
在するn音素組のモデルのパラメータ20を対話音声n
音素組モデルメモリ21から読み込み、上記認識対象語
彙モデル作成手順3で作成した並列接続モデルの該当す
る場所にさらに並列に接続することによって、選択した
認識対象語彙に対する認識対象語彙モデルを作成する。
例えば、対話音声n音素組モデルメモリ21が保持する
n音素組表記に存在するn音素組が/(#y)o(y
a)/,/(yo)y(ak)/,/(ne)g(a
i)/の3個であるとすると、認識対象語彙モデル作成
部28は対話音声n音素組モデルを図20のように接続
して認識対象語彙モデルを作成する。認識対象語彙モデ
ル作成部28は、接続を完了した上記認識対象語彙モデ
ルのパラメータおよびその音素表記29を認識対象語彙
モデルメモリ31に送出する。(4) Recognition target vocabulary model creation procedure 4: Next, the recognition target vocabulary model creation unit 28 refers to the n phoneme set notation held in the dialogue speech n phoneme set model memory 21,
It is an n (n = 5 in this example) phoneme set that constitutes the above / yoyokuoneigashimasu // (##) y
(Oy) /, / (# y) o (ya) /, / (yo) y
(Ak) /, / (oy) a (ku) /, / (ya) k
(Uo) /, / (ak) u (on) /, / (ku) o
(Ne) /, / (uo) n (eg) /, / (on) e
(Ga) /, / (ne) g (ai) /, / (eg) a
(Is) /, / (ga) i (si) /, / (ai) s
(Im) /, / (is) i (ma) /, / (si) m
(As) /, / (im) a (su) /, / (ma) s
Of (u #) /, / (as) u (##) /, the parameter 20 of the model of the n phoneme set in the n phoneme set notation held in the dialogue n phoneme set model memory 21 is set to the dialogue sound n.
The recognition target vocabulary model for the selected recognition target vocabulary is created by reading from the phoneme set model memory 21 and further connecting in parallel to a corresponding place of the parallel connection model created in the recognition subject vocabulary model creation procedure 3.
For example, the n phoneme set present in the n phoneme set notation held in the dialogue phonetic n phoneme set model memory 21 is / (# y) o (y
a) /, / (yo) y (ak) /, / (ne) g (a
i) / If there are three, the recognition target vocabulary model creating unit 28 connects the dialogue speech n phoneme set models as shown in FIG. 20 to create the recognition target vocabulary model. The recognition target vocabulary model creating unit 28 sends the parameters of the recognition target vocabulary model that has been connected and the phonetic notation 29 thereof to the recognition target vocabulary model memory 31.
【0172】(5)認識対象語彙モデル作成手順5:次
に、認識対象語彙モデル作成部28は、認識対象語彙メ
モリ26を参照して認識対象語彙メモリ26に存在する
全ての認識対象語彙について認識対象語彙モデルの作成
が終了するまで語彙番号の順番にモデル作成の対象とす
る次の認識対象語彙を選択し、上記認識対象語彙モデル
作成手順2〜4を繰り返す。このようにして、認識対象
語彙モデル作成部28は、認識対象語彙メモリ26に存
在する全ての認識対象語彙について認識対象語彙モデル
を作成すると、認識対象語彙モデル作成手順を終了す
る。(5) Recognition-target vocabulary model creation procedure 5: Next, the recognition-target vocabulary model creation unit 28 refers to the recognition-target vocabulary memory 26 and recognizes all the recognition-target vocabularies existing in the recognition-target vocabulary memory 26. Until the creation of the target vocabulary model is completed, the next recognition target vocabulary to be model-created is selected in the order of the vocabulary number, and the above-described recognition target vocabulary model creation steps 2 to 4 are repeated. When the recognition target vocabulary model creation unit 28 creates the recognition target vocabulary models for all the recognition target vocabularies existing in the recognition target vocabulary memory 26 in this way, the recognition target vocabulary model creation procedure ends.
【0173】次にこの実施の形態5による音声認識装置
の認識動作について説明する。認識動作を開始する前
に、認識部32は、認識対象語彙モデルメモリ31に保
持されている全ての認識対象語彙モデルのパラメータと
各認識対象語彙モデルがモデル化する音素表記とを読み
込む。例えば認識対象語彙が図17のようであれば、認
識部32は、1000個の認識対象語彙モデルとこれら
の認識対象語彙モデルに対応する音素表記とを認識対象
語彙モデルメモリ31から読み込む。Next, the recognition operation of the speech recognition apparatus according to the fifth embodiment will be described. Before starting the recognition operation, the recognition unit 32 reads the parameters of all the recognition target vocabulary models stored in the recognition target vocabulary model memory 31 and the phonemic notation modeled by each recognition target vocabulary model. For example, if the recognition target vocabulary is as shown in FIG. 17, the recognizing unit 32 reads from the recognition target vocabulary model memory 31 1000 recognition target vocabulary models and phonemic notations corresponding to these recognition target vocabulary models.
【0174】認識部32の認識動作は次のように行う。
入力端子22から音声信号23が入力されると、音響分
析部24は音声信号23を特徴ベクトルの時系列25に
変換する。この特徴ベクトルの時系列25は例えばLP
Cケプストラムの時系列である。The recognizing operation of the recognizing unit 32 is performed as follows.
When the audio signal 23 is input from the input terminal 22, the acoustic analysis unit 24 converts the audio signal 23 into a time series 25 of feature vectors. The time series 25 of this feature vector is, for example, LP
It is a time series of C cepstrum.
【0175】認識部32は特徴ベクトルの時系列25を
入力とし、予め読み込んである全ての認識対象語彙モデ
ルとの尤度を例えばビタビアルゴリズムによって計算
し、一番高い尤度を示した認識対象語彙モデルがモデル
化する音素表記を認識結果33として出力する。The recognizing unit 32 receives the time series 25 of the feature vector as input, calculates the likelihood with all the vocabulary models to be read in advance by, for example, the Viterbi algorithm, and obtains the vocabulary to be recognized having the highest likelihood. The phoneme notation modeled by the model is output as a recognition result 33.
【0176】次にこの実施の形態5による音声認識装置
が使用する、音声認識方法を具体的に説明する。上記し
たように、この実施の形態5による音声認識方法では、
認識を行う前に認識対象語彙モデルを作成し、作成した
認識対象語彙モデルを認識対象語彙モデルメモリ31に
保持する。まず、認識対象語彙モデルの作成手順につい
て説明する。Next, a specific description will be given of a speech recognition method used by the speech recognition apparatus according to the fifth embodiment. As described above, in the voice recognition method according to the fifth embodiment,
Before performing recognition, a vocabulary model to be recognized is created, and the created vocabulary model to be recognized is stored in the vocabulary model memory 31 to be recognized. First, a procedure for creating a vocabulary model to be recognized will be described.
【0177】図21はこの発明の実施の形態5による音
声認識方法における認識対象語彙モデルの作成手順の詳
細を示したフローチャートであり、以下では、図21を
参照しながら認識対象語彙モデルの作成手順について説
明する。FIG. 21 is a flowchart showing details of the procedure for creating a recognition target vocabulary model in the speech recognition method according to the fifth embodiment of the present invention. In the following, referring to FIG. Will be described.
【0178】まず、認識対象語彙モデル作成部28が、
ステップST1001において、認識対象語彙メモリ2
6を参照して、モデル作成の対象となる語彙番号1の認
識対象語彙を選択してこの認識対象語彙の音素表記27
を認識対象語彙メモリ26から読み込む。例えば認識対
象語彙メモリ26の内容が図17のようであれば、認識
対象語彙モデル作成部28はまず語彙番号1である/y
oyakuonegaisimasu/を選択する。First, the recognition target vocabulary model creation unit 28
In step ST1001, recognition target vocabulary memory 2
6, the vocabulary to be recognized having vocabulary number 1 to be model-created is selected, and the phoneme notation 27 of this vocabulary to be recognized is selected.
Is read from the recognition target vocabulary memory 26. For example, if the contents of the recognition target vocabulary memory 26 are as shown in FIG. 17, the recognition target vocabulary model creation unit 28 first has the vocabulary number 1 / y
Select oyakuonegaisimasu /.
【0179】次に、認識対象語彙モデル作成部28は、
ステップST1002において、上記ステップST10
01またはステップST1007において選択した認識
対象語彙の音素表記27にしたがって読み上げ音声m音
素組モデルメモリ14から、読み上げ音声m音素組モデ
ルのパラメータ13を読み込み、読み上げ音声m音素組
モデルを直列接続して、認識対象語彙に対する直列接続
モデルを作成する。例えば音素表記が/yoyakuo
negaisimasu/の場合、m=3であるなら
ば、/(#)y(o)/,/(y)o(y)/,/
(o)y(a)/,/(y)a(k)/,/(a)k
(u)/,/(k)u(o)/,/(u)o(n)/,
/(o)n(e)/,/(n)e(g)/,/(e)g
(a)/,/(g)a(i)/,/(a)i(s)/,
/(i)s(i)/,/(s)i(m)/,/(i)m
(a)/,/(m)a(s)/,/(a)s(u)/,
/(s)u(#)/の計18個のm音素組モデルを接続
する。ここで/#/は発話の前後の無音区間を意味する
ものとする。上記したように、この実施の形態5では図
26に示すような各m音素組モデルは5状態の構造を有
しているとする。したがって、音素表記/yoyaku
onegaisimasu/に対する直列接続モデルは
図18のようになる。Next, the recognition target vocabulary model creation unit 28
In step ST1002, in step ST10
01 or the parameters 13 of the read-aloud m-phoneme set model from the read-aloud m-phoneme set model memory 14 in accordance with the phoneme notation 27 of the vocabulary to be recognized selected in step ST1007, and the read-aloud m-phoneme set models are connected in series. Create a serial connection model for the vocabulary to be recognized. For example, phoneme notation is / yoyakuo
In the case of negaishimasu /, if m = 3, then / (#) y (o) /, / (y) o (y) /, /
(O) y (a) /, / (y) a (k) /, / (a) k
(U) /, / (k) u (o) /, / (u) o (n) /,
/ (O) n (e) /, / (n) e (g) /, / (e) g
(A) /, / (g) a (i) /, / (a) i (s) /,
/ (I) s (i) /, / (s) i (m) /, / (i) m
(A) /, / (m) a (s) /, / (a) s (u) /,
/ (S) u (#) /, a total of 18 m phoneme set models are connected. Here, / # / means a silent section before and after the utterance. As described above, in the fifth embodiment, each m-phoneme set model as shown in FIG. 26 has a five-state structure. Therefore, phonemic notation / yoyaku
FIG. 18 shows a series connection model for onegaijima /.
【0180】次に、認識対象語彙モデル作成部28は、
ステップST1003において、対話音声m音素組モデ
ルメモリ16が保持するm音素組表記を参照し、上記音
素表記/yoyakuonegaisimasu/を構
成するm音素組である/(#)y(o)/,/(y)o
(y)/,/(o)y(a)/,/(y)a(k)/,
/(a)k(u)/,/(k)u(o)/,/(u)o
(n)/,/(o)n(e)/,/(n)e(g)/,
/(e)g(a)/,/(g)a(i)/,/(a)i
(s)/,/(i)s(i)/,/(s)i(m)/,
/(i)m(a)/,/(m)a(s)/,/(a)s
(u)/,/(s)u(#)/のうち、対話音声m音素
組モデルメモリ16が保持するm音素組表記に存在する
m音素組のモデルのパラメータ15を対話音声m音素組
モデルメモリ16から読み込み、上記ステップST10
02で作成した直列接続モデルの該当する場所に読み上
げ音声m音素組モデルと対話音声m音素組モデルとを並
列に接続することによって、選択した認識対象語彙に対
する並列接続モデルを作成する。Next, the recognition target vocabulary model creation unit 28
In step ST1003, by referring to the m-phoneme set notation held in the dialogue m-phoneme set model memory 16, the m-phoneme set constituting the above-described phoneme notation / yoyakuonegai simasu // (#) y (o) /, / (y ) O
(Y) /, / (o) y (a) /, / (y) a (k) /,
/ (A) k (u) /, / (k) u (o) /, / (u) o
(N) /, / (o) n (e) /, / (n) e (g) /,
/ (E) g (a) /, / (g) a (i) /, / (a) i
(S) /, / (i) s (i) /, / (s) i (m) /,
/ (I) m (a) /, / (m) a (s) /, / (a) s
Of (u) /, / (s) u (#) /, the parameter 15 of the m phoneme set model present in the m phoneme set notation held in the dialogue m m phoneme set model memory 16 is used as the dialogue m m phoneme set model. The data is read from the memory 16 and is read from the step ST10
A parallel connection model for the selected vocabulary to be recognized is created by connecting the read-aloud m-phoneme set model and the dialogue m-phoneme set model in parallel to the corresponding location of the serial connection model created in step 02.
【0181】例えば、対話音声m音素組モデルメモリ1
6が保持するm音素組表記に存在するm音素組が、/
(y)o(y)/,/(o)y(a)/,/(a)k
(u)/,/(u)o(n)/,/(n)e(g)/,
/(e)g(a)/,/(g)a(i)/,/(i)m
(a)/の8個であるとすると、認識対象語彙モデル作
成部28は、これらの対話音声m音素組モデルを図19
のように接続して並列接続モデルを作成する。For example, conversational speech m phoneme group model memory 1
The m phoneme set present in the m phoneme set notation held by 6 is /
(Y) o (y) /, / (o) y (a) /, / (a) k
(U) /, / (u) o (n) /, / (n) e (g) /,
/ (E) g (a) /, / (g) a (i) /, / (i) m
Assuming that the number of (a) / is eight, the recognition target vocabulary model creation unit 28 converts these conversational speech m phoneme set models into
To create a parallel connection model.
【0182】次に、認識対象語彙モデル作成部28は、
ステップST1004において、対話音声n音素組モデ
ルメモリ21が保持するn音素組表記を参照し、上記音
素表記/yoyakuonegaisimasu/を構
成するn(この実施の形態5ではn=5)音素組である
/(##)y(oy)/,/(#y)o(ya)/,/
(yo)y(ak)/,/(oy)a(ku)/,/
(ya)k(uo)/,/(ak)u(on)/,/
(ku)o(ne)/,/(uo)n(eg)/,/
(on)e(ga)/,/(ne)g(ai)/,/
(eg)a(is)/,/(ga)i(si)/,/
(ai)s(im)/,/(is)i(ma)/,/
(si)m(as)/,/(im)a(su)/,/
(ma)s(u#)/,/(as)u(##)/のう
ち、対話音声n音素組モデルメモリ21が保持するn音
素組表記に存在するn音素組のモデルのパラメータ20
を対話音声n音素組モデルメモリ21から読み込み、上
記ステップST1003で作成した並列接続モデルの該
当する場所にさらに並列に接続することによって、選択
した認識対象語彙に対する認識対象語彙モデルを作成す
る。例えば、対話音声n音素組モデルメモリ21が保持
するn音素組表記に存在するn音素組が/(#y)o
(ya)/,/(yo)y(ak)/,/(ne)g
(ai)/の3個であるとすると、対話音声n音素組モ
デルを図20のように接続して認識対象語彙モデルを作
成する。Next, the recognition target vocabulary model creation unit 28
In step ST1004, by referring to the n phoneme set notation held in the dialogue phonetic n phoneme set model memory 21, n (n = 5 in the fifth embodiment) a phoneme set constituting the above phoneme notation / yoyakuoneigaishimasu // ( ##) y (oy) /, / (# y) o (ya) /, /
(Yo) y (ak) /, / (oy) a (ku) /, /
(Ya) k (uo) /, / (ak) u (on) /, /
(Ku) o (ne) /, / (uo) n (eg) /, /
(On) e (ga) /, / (ne) g (ai) /, /
(Eg) a (is) /, / (ga) i (si) /, /
(Ai) s (im) /, / (is) i (ma) /, /
(Si) m (as) /, / (im) a (su) /, /
Of the (ma) s (u #) / and / (as) u (##) /, the parameters 20 of the n-phoneme set model present in the n-phoneme set notation held in the dialogue n-phoneme set model memory 21
Is read from the dialogue n-phoneme set model memory 21 and connected in parallel to the corresponding location of the parallel connection model created in step ST1003 to create a recognition target vocabulary model for the selected recognition target vocabulary. For example, the n phoneme set existing in the n phoneme set notation held by the dialogue phonetic n phoneme set model memory 21 is / (# y) o.
(Ya) /, / (yo) y (ak) /, / (ne) g
Assuming that (ai) / is 3, the dialogue n-phoneme set models are connected as shown in FIG. 20 to create a vocabulary model to be recognized.
【0183】次に、認識対象語彙モデル作成部28は、
ステップST1005において、並列接続を完了した上
記認識対象語彙モデルのパラメータおよびその音素表記
29を認識対象語彙モデルメモリ31に送出する。認識
対象語彙モデルメモリ31は、受け取った上記認識対象
語彙モデルのパラメータおよび上記音素表記29を保持
する。Next, the recognition target vocabulary model creation unit 28
In step ST1005, the parameters of the vocabulary model to be recognized that have been connected in parallel and the phoneme notation 29 thereof are sent to the vocabulary model memory 31 to be recognized. The recognition target vocabulary model memory 31 holds the parameters of the received recognition target vocabulary model and the phoneme notation 29.
【0184】次に、認識対象語彙モデル作成部28が、
ステップST1006において、認識対象語彙メモリ2
6を参照して認識対象語彙メモリ26中に存在する全て
の認識対象語彙について認識対象語彙モデルを作成した
か否かを調べ、未作成の認識対象語彙が存在する場合
は、ステップST1007に進み、認識対象語彙メモリ
26から次の認識対象語彙を選択し、ステップST10
02に戻る。一方、認識対象語彙モデル作成部28は、
認識対象語彙モデルが未作成の認識対象語彙が認識対象
語彙メモリ26に存在しない場合は認識対象語彙モデル
作成手順を終了する。Next, the recognition target vocabulary model creation unit 28
In step ST1006, the recognition target vocabulary memory 2
It is checked whether or not a recognition target vocabulary model has been created for all the recognition target vocabularies existing in the recognition target vocabulary memory 26 with reference to No. 6; if there is an uncreated recognition target vocabulary, the process proceeds to step ST1007; The next vocabulary to be recognized is selected from the vocabulary memory to be recognized 26, and step ST10 is performed.
Return to 02. On the other hand, the recognition target vocabulary model creation unit 28
If the recognition target vocabulary for which the recognition target vocabulary model has not been created does not exist in the recognition target vocabulary memory 26, the recognition target vocabulary model creation procedure ends.
【0185】次にこの実施の形態5による音声認識方法
の音声認識手順を具体的に説明する。既に述べたよう
に、認識動作を開始する前に、認識部32は、認識対象
語彙モデルメモリ31に保持されている全ての認識対象
語彙モデルのパラメータと各認識対象語彙モデルがモデ
ル化する音素表記とを読み込む。例えば認識対象語彙が
図17のようであれば、認識部32は、1000個の認
識対象語彙モデルとこれらの認識対象語彙モデルに対応
する音素表記とを認識対象語彙モデルメモリ31から読
み込む。Next, the speech recognition procedure of the speech recognition method according to the fifth embodiment will be specifically described. As described above, before starting the recognition operation, the recognizing unit 32 determines the parameters of all the recognition target vocabulary models stored in the recognition target vocabulary model memory 31 and the phonemic notation modeled by each recognition target vocabulary model. And read. For example, if the recognition target vocabulary is as shown in FIG. 17, the recognizing unit 32 reads from the recognition target vocabulary model memory 31 1000 recognition target vocabulary models and phonemic notations corresponding to these recognition target vocabulary models.
【0186】図22はこの発明の実施の形態5による音
声認識方法における音声認識手順の詳細を示したフロー
チャートであり、以下では、図22を参照しながら音声
認識手順について説明する。まず、音響分析部24は、
ステップST1201において、入力端子22から入力
された音声信号23を特徴ベクトルの時系列25に変換
する。この特徴ベクトルの時系列25はLPCケプスト
ラムの時系列である。FIG. 22 is a flowchart showing details of the speech recognition procedure in the speech recognition method according to the fifth embodiment of the present invention. The speech recognition procedure will be described below with reference to FIG. First, the acoustic analysis unit 24
In step ST1201, the audio signal 23 input from the input terminal 22 is converted into a time series 25 of feature vectors. The time series 25 of the feature vector is a time series of the LPC cepstrum.
【0187】次に、認識部32が、ステップST120
2において、特徴ベクトルの時系列25を入力とし、予
め読み込んである全ての認識対象語彙モデルとの尤度を
例えばビタビアルゴリズムによって計算し、一番高い尤
度を示した認識対象語彙モデルがモデル化する音素表記
を認識結果33として出力する。Then, the recognizing unit 32 determines in step ST120
2, the likelihood with all recognition target vocabulary models read in advance is calculated by, for example, a Viterbi algorithm, and the recognition target vocabulary model showing the highest likelihood is modeled. The phoneme notation to be output is output as the recognition result 33.
【0188】なお、この実施の形態5による音声認識方
法をソフトウェアで実現しようとする場合、認識対象語
彙に対する音声パターンモデル(すなわち認識対象語彙
モデル)を作成する認識対象語彙モデル作成ステップ
と、音声信号の入力端子22から入力された音声信号2
3を特徴ベクトルの時系列25に変換する音響分析のス
テップと、特徴ベクトルの時系列25を入力とし、予め
読み込んである全ての認識対象語彙モデルとの尤度を例
えばビタビアルゴリズムによって計算し、一番高い尤度
を示した認識対象語彙モデルがモデル化する音素表記を
認識結果33として出力するステップとを有した、コン
ピュータに音声認識を実行させるための音声認識プログ
ラムを記録したコンピュータで読み取り可能な記録媒体
が必要である。When the speech recognition method according to the fifth embodiment is to be implemented by software, a recognition target vocabulary model creating step for creating a speech pattern model (that is, a recognition target vocabulary model) for the recognition target vocabulary, Signal 2 input from the input terminal 22
3 is converted into a time series 25 of feature vectors, and the time series 25 of the feature vectors are input, and the likelihoods of all the vocabulary models to be recognized which are read in advance are calculated by, for example, a Viterbi algorithm. Outputting the phoneme notation modeled by the recognition-target vocabulary model showing the highest likelihood as the recognition result 33. The computer-readable recording device stores a speech recognition program for causing the computer to execute speech recognition. A recording medium is required.
【0189】以上説明したように、この実施の形態5に
よる音声認識装置は、図20に示すように、上記実施の
形態3または4による音声パターンモデル学習装置によ
って学習された読み上げ音声m音素組モデル、対話音声
m音素組モデルおよび対話音声n音素組モデルを用い
て、対話音声のように発話速度がはやく曖昧な音声で認
識性能が低いm音素組やn音素組に対して、認識対象語
彙について別個に音声パターンモデルを作成してそのm
音素組やn音素組の音響特徴を高精度にモデル化し、読
み上げ音声m音素組モデルと並列接続して認識対象語彙
モデルを作成する。したがって、この実施の形態5によ
れば、読み上げ音声のような丁寧な発声を高精度に認識
でき、かつ対話音声のように発話速度がはやく曖昧な音
声でも認識精度を改善することができるという効果を奏
する。なお、この実施の形態5では、m=3、n=5と
して説明したが、m、nは、m<nなる任意の整数の組
を選択してもよく、この場合でも同様の効果を奏する。As described above, the speech recognition apparatus according to the fifth embodiment, as shown in FIG. 20, has a read-out speech m phoneme group model trained by the speech pattern model learning apparatus according to the third or fourth embodiment. Using m-phoneme group model and m-phoneme group model for dialogue speech, vocabulary to be recognized for m-phoneme group and n-phoneme group with fast utterance and low recognition performance like dialogue voice A voice pattern model is created separately and its m
The acoustic features of the phoneme set and the n-phoneme set are modeled with high accuracy, and the vocabulary model to be recognized is created by connecting the read-aloud speech m-phoneme set model in parallel. Therefore, according to the fifth embodiment, it is possible to recognize a polite utterance such as a reading voice with high accuracy, and to improve the recognition accuracy even for an utterly fast and ambiguous voice such as a dialogue voice. To play. Although the fifth embodiment has been described assuming that m = 3 and n = 5, m and n may be selected from any set of integers such that m <n. In this case, the same effect is obtained. .
【0190】[0190]
【発明の効果】以上のように、この発明によれば、テキ
ストを読み上げた音声を用いて学習した読み上げ音声m
音素組モデルを用い、対話音声学習データから認識率が
所定の閾値以下であるm音素組を抽出するm音素組抽出
手段またはm音素組抽出ステップと、抽出した各m音素
組について、上記対話音声学習データを用いて対話音声
m音素組モデルを学習するモデル学習手段またはモデル
学習ステップとを備えるように構成したので、全てのm
音素組に対して対話音声m音素組モデルを学習すること
なしに、読み上げ音声で学習した読み上げ音声m音素組
モデルでは認識が困難であった対話音声をも認識可能な
対話音声m音素組モデルを効率良く学習できる効果があ
る。As described above, according to the present invention, a read-out voice m learned using a voice read out of a text.
M phoneme set extraction means or m phoneme set extraction step for extracting a m phoneme set whose recognition rate is equal to or less than a predetermined threshold value from the dialogue speech learning data using a phoneme set model; Since it is configured to include a model learning means or a model learning step for learning a dialogue m m phoneme set model using learning data, all m
Without learning the m-phoneme group model for the dialogue speech for the phoneme group, a m-phoneme group model for dialogue speech that can recognize dialogue speech that was difficult to recognize with the m-phoneme group model read aloud speech was used. It has the effect of being able to learn efficiently.
【0191】この発明によれば、m音素組抽出手段また
はm音素組抽出ステップが、対話音声学習データ中から
同一m音素組表記をもつデータ数が所定数以上であるm
音素組を選択し、読み上げ音声m音素組モデルを用いて
選択した該m音素組を認識し、認識率が所定の閾値以下
であるならば選択した上記m音素組を抽出するようにし
たので、読み上げ音声m音素組モデルで認識率が低い対
話音声のm音素組のうち、データ数が所定数未満で統計
的に信頼度の低いモデルの学習を回避し、統計的に信頼
度の高いモデルのみを効率的に学習できるという効果が
ある。According to the present invention, the m-phoneme-set extracting means or the m-phoneme-set extracting step determines that the number of data having the same m-phoneme-set notation is more than a predetermined number from the interactive speech learning data.
Since the phoneme set is selected, the m-phoneme set selected using the read-aloud m-phoneme set model is recognized, and if the recognition rate is equal to or less than a predetermined threshold, the selected m-phoneme set is extracted, In the m-phoneme set model of the spoken m-phoneme set having a low recognition rate, learning of a model having a data number less than a predetermined number and having a statistically low reliability is avoided, and only a model having a statistically high reliability is used. There is an effect that can be learned efficiently.
【0192】この発明によれば、テキストを読み上げた
音声を用いて学習した読み上げ音声m音素組モデルを用
い、対話音声学習データから認識率が第1の所定の閾値
以下であるm音素組を抽出するm音素組抽出手段または
m音素組抽出ステップと、抽出した各m音素組につい
て、上記対話音声学習データを用いて対話音声m音素組
モデルを学習する対話音声m音素組モデル学習手段また
は対話音声m音素組モデル学習ステップと、上記読み上
げ音声m音素組モデルと上記対話音声m音素組モデルと
を用いて、上記対話音声学習データから認識率が第2の
所定の閾値以下のn音素組を抽出するn音素組抽出手段
またはn音素組抽出ステップと、抽出した各n音素組に
ついて、上記対話音声学習データを用いて対話音声n音
素組モデルを学習する対話音声n音素組モデル学習手段
または対話音声n音素組モデル学習ステップとを備える
ように構成したので、対話音声のように発話速度がはや
くかつ曖昧な音声で読み上げ音声m音素組モデルと対話
音声m音素組モデルでは十分な認識性能が得られない各
n音素組について効率的に対話音声n音素組モデルを学
習することができる効果がある。According to the present invention, an m-phoneme set whose recognition rate is equal to or less than a first predetermined threshold is extracted from conversational speech learning data by using a m-phoneme set model of a read-out voice trained using a text-reading voice. M phoneme set extraction means or m phoneme set extraction step, and for each extracted m phoneme set, a dialogue speech m phoneme set model learning means or dialogue speech for learning a dialogue speech m phoneme set model using the dialogue speech learning data. Using an m-phoneme group model learning step, and extracting the n-phoneme group whose recognition rate is equal to or less than a second predetermined threshold from the dialogue speech learning data, using the read-out speech m-phoneme group model and the dialogue m-phoneme group model. The n phoneme set extracting means or the n phoneme set extraction step to perform, and for each of the extracted n phoneme sets, a dialogue speech n phoneme set model is learned using the dialogue speech learning data. It is configured to include the dialogue speech n-phoneme set model learning means or the dialogue speech n-phoneme set model learning step, so that the speech rate is as fast and vocal as the dialogue speech. With the phoneme set model, there is an effect that the conversational speech n phoneme set model can be efficiently learned for each n phoneme set for which sufficient recognition performance cannot be obtained.
【0193】この発明によれば、n音素組抽出手段また
はn音素組抽出ステップが、対話音声学習データ中から
同一n音素組表記をもつデータ数が所定数以上であるn
音素組を選択し、読み上げ音声m音素組モデルと対話音
声m音素組モデルとを用いて選択した上記n音素組を認
識し、認識率が第2の所定の閾値以下であるならば選択
した上記n音素組を抽出するようにしたので、読み上げ
音声n音素組モデルで認識率が低い対話音声のn音素組
のうち、データ数が所定数未満で統計的に信頼度の低い
モデルの学習を回避し、統計的に信頼度の高いモデルの
みを効率的に学習できるという効果がある。According to the present invention, the n-phoneme-set extracting means or the n-phoneme-set extracting step determines that the number of data having the same n-phoneme-set notation is more than a predetermined number from the interactive speech learning data.
Selecting a phoneme set, recognizing the selected n phoneme set using the read-aloud speech m-phoneme set model and the dialogue speech m-phoneme set model, and selecting the n-phoneme set if the recognition rate is equal to or less than a second predetermined threshold value; Since n phoneme sets are extracted, learning of a model with less than a predetermined number of data and statistically low reliability among n phoneme sets of conversational speech with a low recognition rate in the n-phoneme set model of the read-out voice is avoided. However, there is an effect that only a model having a statistically high reliability can be efficiently learned.
【0194】この発明によれば、音声パターンモデル学
習装置または音声パターンモデル学習方法によって学習
された読み上げ音声m音素組モデル、対話音声m音素組
モデルおよび対話音声n音素組モデルを並列に接続する
ことによって認識対象語彙に対する音声パターンモデル
を作成する認識対象語彙モデル作成手段または認識対象
語彙モデル作成ステップと、該認識対象語彙モデル作成
手段によって作成した認識対象語彙に対する音声パター
ンモデルを用いて、入力音声の認識を行う認識手段また
は認識ステップとを備えるように構成したので、読み上
げ音声のような丁寧な発声を高精度に認識でき、かつ対
話音声のように発話速度がはやく曖昧な音声でも認識精
度を改善することができるという効果がある。According to the present invention, a read-aloud m m-phoneme set model, a dialogue m-phoneme set model, and a dialogue n-phoneme set model learned by the voice pattern model learning apparatus or the voice pattern model learning method are connected in parallel. A recognition target vocabulary model generating means or a recognition target vocabulary model generating step of generating a voice pattern model for the recognition target vocabulary by using the voice pattern model for the recognition target vocabulary generated by the recognition target vocabulary model generating means. Since it is configured to have a recognition means or a recognition step for performing recognition, it is possible to recognize polite utterances such as read-out voices with high accuracy, and to improve recognition accuracy even for vocal voices whose utterance speed is fast like dialogue voices There is an effect that can be.
【図1】 この発明の実施の形態1による音声パターン
モデル学習装置の構成を示すブロック図である。FIG. 1 is a block diagram showing a configuration of a speech pattern model learning device according to Embodiment 1 of the present invention.
【図2】 この発明の実施の形態1による音声パターン
モデル学習装置の抽出m音素組表記メモリの内容の一例
を示す図である。FIG. 2 is a diagram showing an example of the contents of an extracted m phoneme set notation memory of the speech pattern model learning device according to the first embodiment of the present invention.
【図3】 この発明の実施の形態1による音声パターン
モデル学習方法の手順を示すフローチャートである。FIG. 3 is a flowchart showing a procedure of a voice pattern model learning method according to the first embodiment of the present invention.
【図4】 この発明の実施の形態1における読み上げ音
声m音素組モデルの学習手順を示すフローチャートであ
る。FIG. 4 is a flowchart showing a learning procedure of a read-aloud m-phoneme set model according to Embodiment 1 of the present invention;
【図5】 この発明の実施の形態1における認識率の低
いm音素組を抽出する抽出手順を示すフローチャートで
ある。FIG. 5 is a flowchart showing an extraction procedure for extracting m phoneme sets having a low recognition rate according to Embodiment 1 of the present invention.
【図6】 この発明の実施の形態1における対話音声m
音素組モデルの学習手順を示すフローチャートである。FIG. 6 is a dialogue voice m according to the first embodiment of the present invention.
It is a flowchart which shows the learning procedure of a phoneme set model.
【図7】 この発明の実施の形態2による音声パターン
モデル学習装置におけるトークン数が所定数以上で認識
率の低いm音素組を抽出する抽出手順を示すフローチャ
ートである。FIG. 7 is a flowchart showing an extraction procedure for extracting a m-phoneme set having a low recognition rate and having a predetermined number of tokens or more in the voice pattern model learning device according to the second embodiment of the present invention.
【図8】 この発明の実施の形態3による音声パターン
モデル学習装置の構成を示すブロック図である。FIG. 8 is a block diagram showing a configuration of a speech pattern model learning device according to Embodiment 3 of the present invention.
【図9】 この発明の実施の形態3による音声パターン
モデル学習装置の対話音声学習データメモリが保持する
5音素組テーブルの一例を示す図である。FIG. 9 is a diagram showing an example of a pentaphone set table held in a conversational speech learning data memory of the speech pattern model learning device according to the third embodiment of the present invention.
【図10】 この発明の実施の形態3による音声パター
ンモデル学習装置の対話音声学習データメモリが保持す
る、3音素組表記とともに付与された5音素組表記の一
例を示す図である。FIG. 10 is a diagram showing an example of a five-phoneme set notation provided together with a three-phoneme set notation held in a dialogue speech learning data memory of the speech pattern model learning device according to the third embodiment of the present invention;
【図11】 この発明の実施の形態3による音声パター
ンモデル学習装置の抽出n音素組表記メモリの内容の一
例を示す図である。FIG. 11 is a diagram showing an example of the contents of an extracted n phoneme set notation memory of the speech pattern model learning device according to the third embodiment of the present invention.
【図12】 この発明の実施の形態3による音声パター
ンモデル学習方法の手順を示すフローチャートである。FIG. 12 is a flowchart showing a procedure of a voice pattern model learning method according to Embodiment 3 of the present invention.
【図13】 この発明の実施の形態3における認識率の
低いn音素組を抽出する抽出手順を示すフローチャート
である。FIG. 13 is a flowchart showing an extraction procedure for extracting n phoneme sets having a low recognition rate according to Embodiment 3 of the present invention.
【図14】 この発明の実施の形態3における対話音声
n音素組モデルの学習手順を示すフローチャートであ
る。FIG. 14 is a flowchart showing a learning procedure of a conversational speech n-phoneme set model according to Embodiment 3 of the present invention.
【図15】 この発明の実施の形態4による音声パター
ンモデル学習装置におけるトークン数が所定数以上で認
識率の低いn音素組を抽出する抽出手順を示すフローチ
ャートである。FIG. 15 is a flowchart showing an extraction procedure for extracting an n-phoneme set having a predetermined number of tokens or more and a low recognition rate in the speech pattern model learning device according to the fourth embodiment of the present invention.
【図16】 この発明の実施の形態5による音声認識装
置の構成を示すブロック図である。FIG. 16 is a block diagram showing a configuration of a speech recognition device according to Embodiment 5 of the present invention.
【図17】 この発明の実施の形態5による音声認識装
置の認識対象語彙メモリの内容の一例を示す図である。FIG. 17 is a diagram showing an example of the contents of a recognition target vocabulary memory of the speech recognition device according to the fifth embodiment of the present invention.
【図18】 認識対象語彙/yoyakuonegai
simasu/に対する直列接続モデルを示す図であ
る。FIG. 18: Recognition target vocabulary / yoyakuonegai
It is a figure which shows the series connection model with respect to simasu /.
【図19】 この発明の実施の形態5による音声認識装
置により作成され、図18の直列接続モデルに対話音声
m音素組モデルが並列に接続された並列接続モデルを示
す図である。FIG. 19 is a diagram showing a parallel connection model created by the voice recognition device according to the fifth embodiment of the present invention and in which the dialogue m-phoneme set model is connected in parallel to the serial connection model of FIG. 18;
【図20】 この発明の実施の形態5による音声認識装
置により作成され、図18の直列接続モデルに対話音声
n音素組モデルおよび対話音声n音素組モデルが並列に
接続された認識対象語彙モデルを示す図である。FIG. 20 is a diagram illustrating a recognition target vocabulary model created by the speech recognition apparatus according to the fifth embodiment of the present invention, in which the dialogue n phoneme group model and the dialogue n phoneme group model are connected in parallel to the serial connection model of FIG. 18; FIG.
【図21】 この発明の実施の形態5による音声認識方
法における認識対象語彙モデルの作成手順を示すフロー
チャートである。FIG. 21 is a flowchart showing a procedure for creating a vocabulary model to be recognized in the speech recognition method according to the fifth embodiment of the present invention.
【図22】 この発明の実施の形態5による音声認識方
法における音声認識手順の詳細を示したフローチャート
である。FIG. 22 is a flowchart showing details of a voice recognition procedure in a voice recognition method according to Embodiment 5 of the present invention.
【図23】 従来の音声パターンモデル学習装置の一例
の構成を示すブロック図である。FIG. 23 is a block diagram showing a configuration of an example of a conventional voice pattern model learning device.
【図24】 従来の音声パターンモデル学習装置の学習
データメモリが保持する3音素組テーブルの一例を示す
図である。FIG. 24 is a diagram showing an example of a three-phoneme set table held in a learning data memory of a conventional speech pattern model learning device.
【図25】 従来の音声パターンモデル学習装置の学習
データメモリが保持するトークンの3音素組表記の一例
を示す図である。FIG. 25 is a diagram showing an example of a three-phoneme set notation of a token stored in a learning data memory of a conventional voice pattern model learning device.
【図26】 3音素組モデルの構造の一例である5状態
のleft−to−rightモデルを示す図である。FIG. 26 is a diagram illustrating a 5-state left-to-right model that is an example of the structure of a three-phoneme set model.
3 モデル学習部(モデル学習手段)、6 読み上げ音
声学習データメモリ、8,80 対話音声学習データメ
モリ、10 m音素組抽出部(m音素組抽出手段)、1
2 抽出m音素組表記メモリ、14 読み上げ音声m音
素組モデルメモリ、16 対話音声m音素組モデルメモ
リ、17 n音素組抽出部(n音素組抽出手段)、19
抽出n音素組表記メモリ、21 対話音声n音素組モ
デルメモリ、24 音響分析部、26 認識対象語彙メ
モリ、28 認識対象語彙モデル作成部(認識対象語彙
モデル作成手段)、30 モデル学習部(対話音声m音
素組モデル学習手段、対話音声n音素組モデル学習手
段)、31 認識対象語彙モデルメモリ、32 認識部
(認識手段)。3 model learning unit (model learning means), 6 reading voice learning data memory, 8,80 conversational voice learning data memory, 10 m phoneme group extraction unit (m phoneme group extraction means), 1
2 extracted m phoneme set notation memory, 14 read-aloud speech m phoneme set model memory, 16 conversational speech m phoneme set model memory, 17 n phoneme set extraction unit (n phoneme set extraction means), 19
Extracted n phoneme set notation memory, 21 dialogue speech n phoneme set model memory, 24 acoustic analysis unit, 26 recognition target vocabulary memory, 28 recognition target vocabulary model creation unit (recognition target vocabulary model creation means), 30 model learning unit (interaction speech) m phoneme set model learning means, dialogue speech n phoneme set model learning means), 31 recognition target vocabulary model memory, 32 recognition unit (recognition means).
───────────────────────────────────────────────────── フロントページの続き (54)【発明の名称】 音声パターンモデル学習装置、音声パターンモデル学習方法、および音声パターンモデル学習プ ログラムを記録したコンピュータ読み取り可能な記録媒体、ならびに音声認識装置、音声認識方 法、および音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体 ──────────────────────────────────────────────────続 き Continued on the front page (54) [Title of the Invention] A voice pattern model learning device, a voice pattern model learning method, a computer-readable recording medium storing a voice pattern model learning program, a voice recognition device, and voice. Recognition method and computer-readable recording medium recording voice recognition program
Claims (15)
を考慮した音素である、m音素組についてテキストを読
み上げた音声を用いて学習した読み上げ音声m音素組モ
デルを用い、人対人の対話音声を音響分析して得られる
対話音声学習データに含まれる各m音素組を認識し、認
識率が所定の閾値以下であるm音素組を抽出するm音素
組抽出手段と、 該m音素組抽出手段によって抽出された各m音素組につ
いて、上記対話音声学習データを用いて対話音声m音素
組モデルを学習するモデル学習手段とを備えた音声パタ
ーンモデル学習装置。1. A m-phoneme set model, which is a phoneme taking into account the difference between (m-1) / 2 phonemes before and after the m-phoneme set, which is learned using a voice read out from a text for the m-phoneme set. M phoneme set extraction means for recognizing each m phoneme set included in dialogue speech learning data obtained by acoustic analysis of a person-to-person dialogue speech and extracting m phoneme sets whose recognition rate is equal to or less than a predetermined threshold value; A speech pattern model learning apparatus comprising: a model learning means for learning a dialogue m m phoneme set model using the dialogue speech learning data for each m phoneme set extracted by the m phoneme set extraction means.
タ中から同一m音素組表記をもつデータ数が所定数以上
であるm音素組を選択し、読み上げ音声m音素組モデル
を用いて選択した上記m音素組を認識し、認識率が所定
の閾値以下であるならば選択した上記m音素組を抽出す
ることを特徴とする請求項1記載の音声パターンモデル
学習装置。2. An m-phoneme set extraction unit selects m-phoneme sets in which the number of data having the same m-phoneme set notation is equal to or more than a predetermined number from the interactive speech learning data, and selects the m-phoneme set using a read-out m-phoneme set model. 2. The speech pattern model learning apparatus according to claim 1, wherein the m phoneme sets are recognized, and the selected m phoneme sets are extracted if the recognition rate is equal to or less than a predetermined threshold.
を考慮した音素である、m音素組についてテキストを読
み上げた音声を用いて学習した読み上げ音声m音素組モ
デルを用い、人対人の対話音声を音響分析して得られる
対話音声学習データに含まれる各m音素組を認識し、認
識率が第1の所定の閾値以下であるm音素組を抽出する
m音素組抽出手段と、 該m音素組抽出手段によって抽出された各m音素組につ
いて、上記対話音声学習データを用いて対話音声m音素
組モデルを学習する対話音声m音素組モデル学習手段
と、 上記読み上げ音声m音素組モデルと上記対話音声m音素
組モデルとを用いて、n>mなる上記m音素組よりさら
に長い範囲の音素の違いを考慮した音素である、上記対
話音声学習データに含まれる各n音素組を認識し、認識
率が第2の所定の閾値以下のn音素組を抽出するn音素
組抽出手段と、 該n音素組抽出手段によって抽出された各n音素組につ
いて、上記対話音声学習データを用いて対話音声n音素
組モデルを学習する対話音声n音素組モデル学習手段と
を備えた音声パターンモデル学習装置。3. A m-phoneme set model, which is a phoneme that takes into account the difference between (m-1) / 2 phonemes before and after the m-phoneme set and is trained using a speech read out text for the m-phoneme set. M phoneme set extraction means for recognizing each m phoneme set included in dialogue speech learning data obtained by acoustic analysis of a person-to-person dialogue speech and extracting a m phoneme set whose recognition rate is equal to or less than a first predetermined threshold value A dialogue m-phoneme set model learning means for learning a dialogue m-phoneme set model using the dialogue speech learning data for each m-phoneme set extracted by the m-phoneme set extraction means; Each n-phoneme set included in the dialogue speech learning data is a phoneme that takes into account differences in phonemes in a longer range than the m-phoneme set where n> m, using the set model and the m-phoneme set model for dialogue speech. Recognize N phoneme group extraction means for extracting an n phoneme group whose recognition rate is equal to or less than a second predetermined threshold value; and for each n phoneme group extracted by the n phoneme group extraction means, a dialogue speech using the above dialogue speech learning data. A speech pattern model learning device comprising: a dialogue speech n phoneme group model learning means for learning an n phoneme group model.
タ中から同一n音素組表記をもつデータ数が所定数以上
であるn音素組を選択し、読み上げ音声m音素組モデル
と対話音声m音素組モデルとを用いて選択した上記n音
素組を認識し、認識率が第2の所定の閾値以下であるな
らば選択した上記n音素組を抽出することを特徴とする
請求項3記載の音声パターンモデル学習装置。4. An n-phoneme set extracting means selects n-phoneme sets whose number of data having the same n-phoneme set notation is equal to or more than a predetermined number from the dialogue speech learning data, and reads out a read-out speech m-phoneme set model and a dialogue speech m. 4. The method according to claim 3, wherein the selected n phoneme sets are recognized using a phoneme set model, and the selected n phoneme sets are extracted if the recognition rate is equal to or less than a second predetermined threshold. Voice pattern model learning device.
ーンモデル学習装置によって学習された読み上げ音声m
音素組モデル、対話音声m音素組モデルおよび対話音声
n音素組モデルを並列に接続することによって認識対象
語彙に対する音声パターンモデルを作成する認識対象語
彙モデル作成手段と、 該認識対象語彙モデル作成手段によって作成した認識対
象語彙に対する音声パターンモデルを用いて、入力音声
の認識を行う認識手段とを備えた音声認識装置。5. A reading voice m learned by the voice pattern model learning device according to claim 3.
A recognition target vocabulary model creating unit for creating a speech pattern model for the recognition target vocabulary by connecting a phoneme group model, a dialogue m m phoneme group model, and a dialogue speech n phoneme group model in parallel; A speech recognition device comprising: a recognition unit configured to recognize an input speech by using a created speech pattern model for a recognition target vocabulary.
を考慮した音素である、m音素組についてテキストを読
み上げた音声を用いて学習した読み上げ音声m音素組モ
デルを用い、人対人の対話音声を音響分析して得られる
対話音声学習データに含まれる各m音素組を認識し、認
識率が所定の閾値以下であるm音素組を抽出し、抽出し
た各m音素組について、上記対話音声学習データを用い
て対話音声m音素組モデルを学習する音声パターンモデ
ル学習方法。6. A m-phoneme set model, which is a phoneme that takes into account the difference between (m-1) / 2 phonemes before and after the m-phoneme set and is trained using a voice read out from a text for the m-phoneme set, Recognize each m-phoneme set included in dialogue speech learning data obtained by acoustic analysis of human-to-person dialogue speech, extract m-phoneme sets whose recognition rate is equal to or less than a predetermined threshold, and for each of the extracted m-phoneme sets. And a speech pattern model learning method for learning a m-phoneme set model of conversational speech using the conversational speech learning data.
データ中から同一m音素組表記をもつデータ数が所定数
以上であるm音素組を選択し、読み上げ音声m音素組モ
デルを用いて選択した上記m音素組を認識し、認識率が
所定の閾値以下であるならば選択した上記m音素組を抽
出することを特徴とする請求項6記載の音声パターンモ
デル学習方法。7. When extracting m phoneme sets, m phoneme sets whose number of data having the same m phoneme set notation is equal to or more than a predetermined number are selected from conversational speech learning data, and a m-phoneme set model for reading out speech is used. 7. The speech pattern model learning method according to claim 6, wherein the m phoneme set selected by the above is recognized, and if the recognition rate is equal to or less than a predetermined threshold, the selected m phoneme set is extracted.
を考慮した音素である、m音素組についてテキストを読
み上げた音声を用いて学習した読み上げ音声m音素組モ
デルを用い、人対人の対話音声を音響分析して得られる
対話音声学習データに含まれる各m音素組を認識し、認
識率が第1の所定の閾値以下であるm音素組を抽出し、
抽出した各m音素組について、上記対話音声学習データ
を用いて対話音声m音素組モデルを学習し、上記読み上
げ音声m音素組モデルと上記対話音声m音素組モデルと
を用いて、n>mなる上記m音素組よりさらに長い範囲
の音素の違いを考慮した音素である、上記対話音声学習
データに含まれる各n音素組を認識して認識率が第2の
所定の閾値以下のn音素組を抽出し、抽出した各n音素
組について、上記対話音声学習データを用いて対話音声
n音素組モデルを学習する音声パターンモデル学習方
法。8. A m-phoneme set model, which is a phoneme taking into account the difference between (m-1) / 2 phonemes before and after the m-phoneme set, which is trained using a speech obtained by reading a text for the m-phoneme set, Recognize each m-phoneme set included in dialogue-speech learning data obtained by acoustic analysis of a person-to-person dialogue voice, and extract m-phoneme sets whose recognition rate is equal to or less than a first predetermined threshold,
For each of the extracted m-phoneme sets, a dialogue m-phoneme set model is learned using the dialogue speech learning data, and n> m is obtained using the read-out speech m-phoneme set model and the dialogue m-phoneme set model. Recognize each of the n phoneme sets included in the conversational speech learning data, which are phonemes taking into account differences in phonemes in a range longer than the m phoneme sets, and generate n phoneme sets whose recognition rate is equal to or less than a second predetermined threshold. A speech pattern model learning method for learning a conversational speech n-phoneme set model using the conversational speech learning data for each extracted and extracted n-phoneme set.
データ中から同一n音素組表記をもつデータ数が所定数
以上であるn音素組を選択し、読み上げ音声m音素組モ
デルと対話音声m音素組モデルとを用いて選択した上記
n音素組を認識し、認識率が第2の所定の閾値以下であ
るならば選択した上記n音素組を抽出することを特徴と
する請求項8記載の音声パターンモデル学習方法。9. When extracting n phoneme sets, an n phoneme set whose number of data having the same n phoneme set notation is equal to or greater than a predetermined number is selected from the dialogue learning speech data, and a dialogue with the m-phoneme set model of the spoken speech is performed. 9. The method according to claim 8, further comprising: recognizing the selected n phoneme set by using a speech m phoneme set model; and extracting the selected n phoneme set if the recognition rate is equal to or less than a second predetermined threshold. The described speech pattern model learning method.
ターンモデル学習方法によって学習された読み上げ音声
m音素組モデル、対話音声m音素組モデルおよび対話音
声n音素組モデルを並列に接続することによって認識対
象語彙に対する音声パターンモデルを作成し、作成した
認識対象語彙に対する音声パターンモデルを用いて、入
力音声の認識を行う音声認識方法。10. A method of connecting a speech m-phoneme set model, a dialogue m-phoneme set model, and an interactive speech n-phoneme set model learned by the speech pattern model learning method according to claim 8 in parallel. A speech recognition method for creating a speech pattern model for a recognition target vocabulary and recognizing an input speech using the created speech pattern model for the recognition target vocabulary.
いを考慮した音素である、m音素組についてテキストを
読み上げた音声を用いて学習した読み上げ音声m音素組
モデルを用い、人対人の対話音声を音響分析して得られ
る対話音声学習データに含まれる各m音素組を認識し、
認識率が所定の閾値以下であるm音素組を抽出するm音
素組抽出ステップと、該m音素組抽出ステップによって
抽出されたm音素組について、上記対話音声学習データ
を用いて対話音声m音素組モデルを学習する対話音声m
音素組モデル学習ステップとを有する、音声パターンモ
デル学習プログラムを記録したコンピュータ読み取り可
能な記録媒体。11. A read-aloud speech m-phoneme set model, which is trained using a speech obtained by reading a text about a m-phoneme set, which is a phoneme in consideration of a difference between each of the preceding and succeeding (m-1) / 2 phonemes, Recognize each m phoneme set included in the conversational speech learning data obtained by acoustically analyzing the conversational speech between people,
An m-phoneme set extracting step of extracting an m-phoneme set whose recognition rate is equal to or less than a predetermined threshold value; and a m-phoneme set extracted by the m-phoneme set extracting step, the m-phoneme set of the dialogue speech using the dialogue speech learning data. Dialogue m to learn the model
A computer-readable recording medium storing a speech pattern model learning program, comprising: a phoneme group model learning step.
習データ中から同一m音素組表記をもつデータ数が所定
数以上であるm音素組を選択し、読み上げ音声m音素組
モデルを用いて選択した上記m音素組を認識し、認識率
が所定の閾値以下であるならば選択した上記m音素組を
抽出するステップであることを特徴とする請求項11記
載の記録媒体。12. The m-phoneme set extraction step selects m-phoneme sets whose number of data having the same m-phoneme set notation is equal to or more than a predetermined number from the dialogue speech learning data, and selects the m-phoneme set using a read-out m-phoneme set model. 12. The recording medium according to claim 11, further comprising the step of recognizing the m phoneme sets and extracting the selected m phoneme sets if the recognition rate is equal to or less than a predetermined threshold.
いを考慮した音素である、m音素組についてテキストを
読み上げた音声を用いて学習した読み上げ音声m音素組
モデルを用い、人対人の対話音声を音響分析して得られ
る対話音声学習データに含まれる各m音素組を認識し、
認識率が第1の所定の閾値以下であるm音素組を抽出す
るm音素組抽出ステップと、該m音素組抽出ステップに
おいて抽出された各m音素組について、上記対話音声学
習データを用いて対話音声m音素組モデルを学習する対
話音声m音素組モデル学習ステップと、上記読み上げ音
声m音素組モデルと上記対話音声m音素組モデルとを用
いて、n>mなる上記m音素組よりさらに長い範囲の音
素の違いを考慮した音素である、上記対話音声学習デー
タに含まれる各n音素組を認識し、認識率が第2の所定
の閾値以下のn音素組を抽出するn音素組抽出ステップ
と、該n音素組抽出ステップにおいて抽出された各n音
素組について、上記対話音声学習データを用いて対話音
声n音素組モデルを学習する対話音声n音素組モデル学
習ステップとを有する、音声パターンモデル学習プログ
ラムを記録したコンピュータ読み取り可能な記録媒体。13. A read-aloud speech m-phoneme set model, which is learned using a text-to-speech voice for a m-phoneme set, which is a phoneme taking into account the difference between each of the preceding and following (m-1) / 2 phonemes, Recognize each m phoneme set included in the conversational speech learning data obtained by acoustically analyzing the conversational speech between people,
An m-phoneme set extraction step of extracting m-phoneme sets whose recognition rate is equal to or less than a first predetermined threshold value, and a dialogue using the dialogue speech learning data for each m-phoneme set extracted in the m-phoneme set extraction step. A dialog speech m phoneme set model learning step for learning a speech m phoneme set model, and a range longer than the m phoneme set satisfying n> m, using the read-out speech m phoneme set model and the dialogue speech m phoneme set model. An n-phoneme set extraction step of recognizing each of the n-phoneme sets included in the conversational speech learning data, and extracting an n-phoneme set whose recognition rate is equal to or less than a second predetermined threshold value. A conversational speech n phoneme group model learning step of learning a conversational speech n phoneme group model using the conversational speech training data for each n phoneme group extracted in the n phoneme group extraction step. That a computer-readable recording medium recording a speech pattern model training program.
習データ中から同一n音素組表記をもつデータ数が所定
数以上であるn音素組を選択し、読み上げ音声m音素組
モデルと対話音声m音素組モデルとを用いて選択した上
記n音素組を認識し、認識率が第2の所定の閾値以下で
あるならば、選択した上記n音素組を抽出するステップ
であることを特徴とする請求項13記載の記録媒体。14. An n-phoneme group extracting step selects n-phoneme groups in which the number of data having the same n-phoneme group notation is equal to or greater than a predetermined number from the dialogue speech learning data, and reads out a read-out speech m-phoneme set model and a dialogue speech m. Recognizing the selected n phoneme set using a phoneme set model, and extracting the selected n phoneme set if the recognition rate is equal to or less than a second predetermined threshold value. Item 14. The recording medium according to Item 13.
ターンモデル学習方法によって学習された読み上げ音声
m音素組モデル、対話音声m音素組モデルおよび対話音
声n音素組モデルを並列に接続することによって認識対
象語彙に対する音声パターンモデルを作成する認識対象
語彙モデル作成ステップと、該認識対象語彙モデル作成
ステップで作成した認識対象語彙に対する音声パターン
モデルを用いて、入力音声の認識を行う認識ステップと
を有する、音声認識プログラムを記録したコンピュータ
読み取り可能な記録媒体。15. A speech m-phoneme set model, a dialogue m-phoneme set model, and a dialogue n-phoneme set model, which are learned by the speech pattern model learning method according to claim 8 or 9, are connected in parallel. It has a recognition target vocabulary model creating step of creating a voice pattern model for the recognition target vocabulary, and a recognition step of recognizing the input voice using the voice pattern model for the recognition target vocabulary created in the recognition target vocabulary model creating step. And a computer-readable recording medium on which a voice recognition program is recorded.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000162964A JP4004716B2 (en) | 2000-05-31 | 2000-05-31 | Speech pattern model learning device, speech pattern model learning method, computer readable recording medium recording speech pattern model learning program, speech recognition device, speech recognition method, and computer readable recording medium recording speech recognition program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000162964A JP4004716B2 (en) | 2000-05-31 | 2000-05-31 | Speech pattern model learning device, speech pattern model learning method, computer readable recording medium recording speech pattern model learning program, speech recognition device, speech recognition method, and computer readable recording medium recording speech recognition program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001343992A true JP2001343992A (en) | 2001-12-14 |
JP4004716B2 JP4004716B2 (en) | 2007-11-07 |
Family
ID=18666799
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000162964A Expired - Fee Related JP4004716B2 (en) | 2000-05-31 | 2000-05-31 | Speech pattern model learning device, speech pattern model learning method, computer readable recording medium recording speech pattern model learning program, speech recognition device, speech recognition method, and computer readable recording medium recording speech recognition program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4004716B2 (en) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009532743A (en) * | 2006-04-03 | 2009-09-10 | ヴォコレクト・インコーポレーテッド | Method and system for optimizing model fit for speech recognition systems |
JP2012113251A (en) * | 2010-11-26 | 2012-06-14 | Nippon Telegr & Teleph Corp <Ntt> | Acoustic model creation apparatus, acoustic model creation method and program therefor |
US8374870B2 (en) | 2005-02-04 | 2013-02-12 | Vocollect, Inc. | Methods and systems for assessing and improving the performance of a speech recognition system |
US8612235B2 (en) | 2005-02-04 | 2013-12-17 | Vocollect, Inc. | Method and system for considering information about an expected response when performing speech recognition |
JP2014102345A (en) * | 2012-11-19 | 2014-06-05 | Nippon Telegr & Teleph Corp <Ntt> | Text creation device for acoustic model learning, method of the same, and program |
US8756059B2 (en) | 2005-02-04 | 2014-06-17 | Vocollect, Inc. | Method and system for considering information about an expected response when performing speech recognition |
US8868421B2 (en) | 2005-02-04 | 2014-10-21 | Vocollect, Inc. | Methods and systems for identifying errors in a speech recognition system |
JP2014224857A (en) * | 2013-05-15 | 2014-12-04 | 日本電信電話株式会社 | Dialogue control learning device, dialogue control device and method, and program for the same |
US8914290B2 (en) | 2011-05-20 | 2014-12-16 | Vocollect, Inc. | Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment |
US9978395B2 (en) | 2013-03-15 | 2018-05-22 | Vocollect, Inc. | Method and system for mitigating delay in receiving audio stream during production of sound from audio stream |
CN108573697A (en) * | 2017-03-10 | 2018-09-25 | 北京搜狗科技发展有限公司 | A kind of language model update method, device and equipment |
CN113053363A (en) * | 2021-05-12 | 2021-06-29 | 京东数字科技控股股份有限公司 | Speech recognition method, speech recognition apparatus, and computer-readable storage medium |
US11837253B2 (en) | 2016-07-27 | 2023-12-05 | Vocollect, Inc. | Distinguishing user speech from background speech in speech-dense environments |
-
2000
- 2000-05-31 JP JP2000162964A patent/JP4004716B2/en not_active Expired - Fee Related
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8868421B2 (en) | 2005-02-04 | 2014-10-21 | Vocollect, Inc. | Methods and systems for identifying errors in a speech recognition system |
US10068566B2 (en) | 2005-02-04 | 2018-09-04 | Vocollect, Inc. | Method and system for considering information about an expected response when performing speech recognition |
US8374870B2 (en) | 2005-02-04 | 2013-02-12 | Vocollect, Inc. | Methods and systems for assessing and improving the performance of a speech recognition system |
US9928829B2 (en) | 2005-02-04 | 2018-03-27 | Vocollect, Inc. | Methods and systems for identifying errors in a speech recognition system |
US8612235B2 (en) | 2005-02-04 | 2013-12-17 | Vocollect, Inc. | Method and system for considering information about an expected response when performing speech recognition |
US9202458B2 (en) | 2005-02-04 | 2015-12-01 | Vocollect, Inc. | Methods and systems for adapting a model for a speech recognition system |
US8756059B2 (en) | 2005-02-04 | 2014-06-17 | Vocollect, Inc. | Method and system for considering information about an expected response when performing speech recognition |
JP2013232017A (en) * | 2006-04-03 | 2013-11-14 | Vocollect Inc | Method and system for assessing and improving performance of speech recognition system |
JP2009532743A (en) * | 2006-04-03 | 2009-09-10 | ヴォコレクト・インコーポレーテッド | Method and system for optimizing model fit for speech recognition systems |
JP2012113251A (en) * | 2010-11-26 | 2012-06-14 | Nippon Telegr & Teleph Corp <Ntt> | Acoustic model creation apparatus, acoustic model creation method and program therefor |
US11817078B2 (en) | 2011-05-20 | 2023-11-14 | Vocollect, Inc. | Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment |
US8914290B2 (en) | 2011-05-20 | 2014-12-16 | Vocollect, Inc. | Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment |
US9697818B2 (en) | 2011-05-20 | 2017-07-04 | Vocollect, Inc. | Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment |
US10685643B2 (en) | 2011-05-20 | 2020-06-16 | Vocollect, Inc. | Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment |
US11810545B2 (en) | 2011-05-20 | 2023-11-07 | Vocollect, Inc. | Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment |
JP2014102345A (en) * | 2012-11-19 | 2014-06-05 | Nippon Telegr & Teleph Corp <Ntt> | Text creation device for acoustic model learning, method of the same, and program |
US9978395B2 (en) | 2013-03-15 | 2018-05-22 | Vocollect, Inc. | Method and system for mitigating delay in receiving audio stream during production of sound from audio stream |
JP2014224857A (en) * | 2013-05-15 | 2014-12-04 | 日本電信電話株式会社 | Dialogue control learning device, dialogue control device and method, and program for the same |
US11837253B2 (en) | 2016-07-27 | 2023-12-05 | Vocollect, Inc. | Distinguishing user speech from background speech in speech-dense environments |
CN108573697A (en) * | 2017-03-10 | 2018-09-25 | 北京搜狗科技发展有限公司 | A kind of language model update method, device and equipment |
CN113053363A (en) * | 2021-05-12 | 2021-06-29 | 京东数字科技控股股份有限公司 | Speech recognition method, speech recognition apparatus, and computer-readable storage medium |
CN113053363B (en) * | 2021-05-12 | 2024-03-01 | 京东科技控股股份有限公司 | Speech recognition method, speech recognition apparatus, and computer-readable storage medium |
Also Published As
Publication number | Publication date |
---|---|
JP4004716B2 (en) | 2007-11-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5327054B2 (en) | Pronunciation variation rule extraction device, pronunciation variation rule extraction method, and pronunciation variation rule extraction program | |
KR100486733B1 (en) | Method and apparatus for speech recognition using phone connection information | |
US20100057435A1 (en) | System and method for speech-to-speech translation | |
US20110238407A1 (en) | Systems and methods for speech-to-speech translation | |
JP4054507B2 (en) | Voice information processing method and apparatus, and storage medium | |
JP5310563B2 (en) | Speech recognition system, speech recognition method, and speech recognition program | |
US20070239455A1 (en) | Method and system for managing pronunciation dictionaries in a speech application | |
Kumar et al. | Development of Indian language speech databases for large vocabulary speech recognition systems | |
JP2002304190A (en) | Method for generating pronunciation change form and method for speech recognition | |
WO2007055233A1 (en) | Speech-to-text system, speech-to-text method, and speech-to-text program | |
CN103123644B (en) | Sound data retrieval system and program for the system | |
JP2001215993A (en) | Device and method for interactive processing and recording medium | |
WO2006083020A1 (en) | Audio recognition system for generating response audio by using audio data extracted | |
EP4275203B1 (en) | Self-learning end-to-end automatic speech recognition | |
JP2001343992A (en) | Method and device for learning voice pattern model, computer readable recording medium with voice pattern model learning program recorded, method and device for voice recognition, and computer readable recording medium with its program recorded | |
JP2019012095A (en) | Phoneme recognition dictionary generation device, phoneme recognition device, and program thereof | |
WO2004047075A1 (en) | Voice processing device and method, recording medium, and program | |
KR100848148B1 (en) | Syllable unit speech recognition device, character input unit using syllable unit speech recognition device, method and recording medium | |
JP5184467B2 (en) | Adaptive acoustic model generation apparatus and program | |
JPWO2007114346A1 (en) | Voice recognition device | |
JP5366050B2 (en) | Acoustic model learning apparatus, speech recognition apparatus, and computer program for acoustic model learning | |
Binnenpoorte et al. | Improving automatic phonetic transcription of spontaneous speech through Variant-Bases pronunciation variation modelling | |
JP2004021207A (en) | Phoneme recognition method, phoneme recognition device, and phoneme recognition program | |
JP3277579B2 (en) | Voice recognition method and apparatus | |
JP4812010B2 (en) | Audio processing apparatus and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041105 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20061227 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070220 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070419 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070522 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070626 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070724 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070822 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100831 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110831 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110831 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120831 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120831 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130831 Year of fee payment: 6 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |