JP2000356997A - 統計的言語モデル生成装置及び音声認識装置 - Google Patents
統計的言語モデル生成装置及び音声認識装置Info
- Publication number
- JP2000356997A JP2000356997A JP11168188A JP16818899A JP2000356997A JP 2000356997 A JP2000356997 A JP 2000356997A JP 11168188 A JP11168188 A JP 11168188A JP 16818899 A JP16818899 A JP 16818899A JP 2000356997 A JP2000356997 A JP 2000356997A
- Authority
- JP
- Japan
- Prior art keywords
- word
- language model
- gram
- statistical language
- class
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 90
- 238000009499 grossing Methods 0.000 claims abstract description 24
- 230000004927 fusion Effects 0.000 claims abstract description 21
- 230000007704 transition Effects 0.000 claims description 64
- 238000012545 processing Methods 0.000 claims description 53
- 238000010606 normalization Methods 0.000 claims description 8
- 230000015654 memory Effects 0.000 abstract description 50
- 238000011156 evaluation Methods 0.000 description 18
- 238000009826 distribution Methods 0.000 description 12
- 239000013598 vector Substances 0.000 description 10
- 238000012360 testing method Methods 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 101000777301 Homo sapiens Uteroglobin Proteins 0.000 description 1
- 241000406668 Loxodonta cyclotis Species 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 101000578834 Synechocystis sp. (strain PCC 6803 / Kazusa) Methionine aminopeptidase A Proteins 0.000 description 1
- 102100031083 Uteroglobin Human genes 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000021615 conjugation Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000002542 deteriorative effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
(57)【要約】
【課題】 少なくとも予測精度、信頼性及び頑健さにお
いて優れた性能を有する統計的言語モデルを生成する。 【解決手段】 学習用テキストデータに基づいて、単語
列の後に処理対象の単語が生起する第1の頻度確率を計
算して前向きの単語N−gramを生成する。次いで、
学習用テキストデータと品詞クラス情報データとに基づ
いて、単語の品詞クラス及び当該単語の後に接続される
単語列の後に、処理対象の単語が生起する頻度確率を計
算することにより前向きの品詞クラス−単語N−gra
mを生成する。前向きの品詞クラス−単語N−gram
を事前知識として用い、前向きの単語N−gramを事
後知識として用いて最大事後確率推定法により第1と第
2の頻度確率を補間してなる前向きの遷移確率を計算
し、正規化処理と平滑化処理を行い前向きのN−gra
mの統計的言語モデルを生成する。
いて優れた性能を有する統計的言語モデルを生成する。 【解決手段】 学習用テキストデータに基づいて、単語
列の後に処理対象の単語が生起する第1の頻度確率を計
算して前向きの単語N−gramを生成する。次いで、
学習用テキストデータと品詞クラス情報データとに基づ
いて、単語の品詞クラス及び当該単語の後に接続される
単語列の後に、処理対象の単語が生起する頻度確率を計
算することにより前向きの品詞クラス−単語N−gra
mを生成する。前向きの品詞クラス−単語N−gram
を事前知識として用い、前向きの単語N−gramを事
後知識として用いて最大事後確率推定法により第1と第
2の頻度確率を補間してなる前向きの遷移確率を計算
し、正規化処理と平滑化処理を行い前向きのN−gra
mの統計的言語モデルを生成する。
Description
【0001】
【発明の属する技術分野】本発明は、学習用テキストデ
ータに基づいて統計的言語モデルを生成する統計的言語
モデル生成装置、及び上記統計的言語モデルを用いて、
入力される発声音声文の音声信号を音声認識する音声認
識装置に関する。
ータに基づいて統計的言語モデルを生成する統計的言語
モデル生成装置、及び上記統計的言語モデルを用いて、
入力される発声音声文の音声信号を音声認識する音声認
識装置に関する。
【0002】
【従来の技術】近年、連続音声認識装置において、その
性能を高めるために言語モデルを用いる方法が研究され
ている。これは、言語モデルを用いて、次単語を予測し
探索空間を削減することにより、認識率の向上及び計算
時間の削減の効果を狙ったものである。最近盛んに用い
られている言語モデルとしてN−グラム(N−gra
m)がある。これは、大規模なテキストデータを学習
し、直前のN−1個の単語から次の単語への遷移確率を
統計的に与えるものである。複数L個の単語列w1 L=w
1,w2,…,wLの生成確率P(w1 L)は次式で表され
る。
性能を高めるために言語モデルを用いる方法が研究され
ている。これは、言語モデルを用いて、次単語を予測し
探索空間を削減することにより、認識率の向上及び計算
時間の削減の効果を狙ったものである。最近盛んに用い
られている言語モデルとしてN−グラム(N−gra
m)がある。これは、大規模なテキストデータを学習
し、直前のN−1個の単語から次の単語への遷移確率を
統計的に与えるものである。複数L個の単語列w1 L=w
1,w2,…,wLの生成確率P(w1 L)は次式で表され
る。
【0003】
【数1】
【0004】ここで、wtは単語列w1 Lのうちt番目の
1つの単語を表し、wi jはi番目からj番目の単語列を
表わす。上記数1において、確率P(wt|
wt+1-N t-1)は、N個の単語からなる単語列wt+1-N t-1
が発声された後に単語wtが発声される確率であり、以
下同様に、確率P(A|B)は単語又は単語列Bが発声
された後に単語Aが発声される確率を意味する。また、
数1における「Π」はt=1からLまでの確率P(wt
|wt+1-N t-1)の積を意味し、以下同様である。
1つの単語を表し、wi jはi番目からj番目の単語列を
表わす。上記数1において、確率P(wt|
wt+1-N t-1)は、N個の単語からなる単語列wt+1-N t-1
が発声された後に単語wtが発声される確率であり、以
下同様に、確率P(A|B)は単語又は単語列Bが発声
された後に単語Aが発声される確率を意味する。また、
数1における「Π」はt=1からLまでの確率P(wt
|wt+1-N t-1)の積を意味し、以下同様である。
【0005】大語彙連続音声認識において上述の単語N
−gramなどのN−gramの統計的言語モデルが広
く用いられているが、以下の4点を十分に満たしている
必要がある。 (1)次単語予測の精度 (2)スパースデータ(学習量が少ないデータ)に対す
る信頼性 (3)コンパクトなモデルサイズ (4)タスク(又はドメイン、音声認識処理すべき場面
などのジョブをいう。)のずれに対する頑健さ
−gramなどのN−gramの統計的言語モデルが広
く用いられているが、以下の4点を十分に満たしている
必要がある。 (1)次単語予測の精度 (2)スパースデータ(学習量が少ないデータ)に対す
る信頼性 (3)コンパクトなモデルサイズ (4)タスク(又はドメイン、音声認識処理すべき場面
などのジョブをいう。)のずれに対する頑健さ
【0006】
【発明が解決しようとする課題】上述の単語N−gra
mは「次単語予測の精度」に関しては優れた性能を持っ
ているが、「スパースデータに対する信頼性」、「タス
クのずれに対する頑健さ」の点では不満が残る。一方、
品詞クラスの情報に基づく品詞クラスN−gram(以
下、品詞クラスN−gramという。)は「次単語予測
の精度」に関しては単語N−gramにかなり劣るもの
の、他の3点に関してはすぐれている。また、クラスN
−gramとして、自動的にクラスタリングすることに
よりクラス分類を行う方法(例えば、従来技術文献1
「政瀧浩和ほか,”最大事後確率推定によるN−gra
m言語モデルのタスク適応”,電子情報通信学会論文
誌,Vol.J81−D−II,pp.2519−25
25,1998年11月」参照。)により得られた統計
的言語モデル(以下、自動クラス2−gramとい
う。)も提案されており、「次単語予測の精度」、「ス
パースデータに対する信頼性」、「コンパクトなモデル
サイズ」いずれにおいても良い性能を示すが、クラス分
類自体がタスクに依存したものとなってしまうため、
「タスクのずれに対する頑健さ」という点では劣る。こ
れらのモデルの4つの要求に対する充足度を表1にまと
めて示す。
mは「次単語予測の精度」に関しては優れた性能を持っ
ているが、「スパースデータに対する信頼性」、「タス
クのずれに対する頑健さ」の点では不満が残る。一方、
品詞クラスの情報に基づく品詞クラスN−gram(以
下、品詞クラスN−gramという。)は「次単語予測
の精度」に関しては単語N−gramにかなり劣るもの
の、他の3点に関してはすぐれている。また、クラスN
−gramとして、自動的にクラスタリングすることに
よりクラス分類を行う方法(例えば、従来技術文献1
「政瀧浩和ほか,”最大事後確率推定によるN−gra
m言語モデルのタスク適応”,電子情報通信学会論文
誌,Vol.J81−D−II,pp.2519−25
25,1998年11月」参照。)により得られた統計
的言語モデル(以下、自動クラス2−gramとい
う。)も提案されており、「次単語予測の精度」、「ス
パースデータに対する信頼性」、「コンパクトなモデル
サイズ」いずれにおいても良い性能を示すが、クラス分
類自体がタスクに依存したものとなってしまうため、
「タスクのずれに対する頑健さ」という点では劣る。こ
れらのモデルの4つの要求に対する充足度を表1にまと
めて示す。
【0007】
【表1】 各種の言語モデル基本性能の比較 ―――――――――――――――――――――――――――――――――― 予測精度 信頼性 モテ゛ルサイス゛ 頑健さ ―――――――――――――――――――――――――――――――――― 単語2−gram ◎ × × × ―――――――――――――――――――――――――――――――――― 品詞クラス2−gram × ◎ ◎ ◎ ―――――――――――――――――――――――――――――――――― 自動クラス2−gram ◎ ◎ ◎ × ――――――――――――――――――――――――――――――――――
【0008】本発明の第1の目的は上述の問題点を解決
し、モデルサイズを小型化できないが、予測精度、信頼
性及び頑健さにおいて優れた性能を有する統計的言語モ
デルを生成することができる統計的言語モデル生成装置
及びそれを用いた音声認識装置を提供することにある。
し、モデルサイズを小型化できないが、予測精度、信頼
性及び頑健さにおいて優れた性能を有する統計的言語モ
デルを生成することができる統計的言語モデル生成装置
及びそれを用いた音声認識装置を提供することにある。
【0009】また、本発明の第2の目的は上述の問題点
を解決し、予測精度、信頼性、モデルサイズ及び頑健さ
において優れた性能を有する統計的言語モデルを生成す
ることができる統計的言語モデル生成装置及びそれを用
いた音声認識装置を提供することにある。
を解決し、予測精度、信頼性、モデルサイズ及び頑健さ
において優れた性能を有する統計的言語モデルを生成す
ることができる統計的言語モデル生成装置及びそれを用
いた音声認識装置を提供することにある。
【0010】
【課題を解決するための手段】本発明に係る請求項1記
載の統計的言語モデル生成装置は、所定の話者の発声音
声文を書き下した学習用テキストデータに基づいて、複
数の単語からなる単語列の後に処理対象の単語が生起す
る第1の頻度確率を計算することにより前向きの単語N
−gramの統計的言語モデルを生成する第1の生成手
段と、上記学習用テキストデータと、品詞クラス情報を
含む品詞クラス情報データとに基づいて、第1の単語の
品詞クラス及び上記第1の単語の後に接続される複数の
単語からなる単語列の後に、処理対象の単語が生起する
第2の頻度確率を計算することにより前向きの品詞クラ
ス−単語N−gramの統計的言語モデルを生成する第
2の生成手段と、上記第2の生成手段によって生成され
た前向きの品詞クラス−単語N−gramの統計的言語
モデルを事前知識として用い、上記第1の生成手段によ
って生成された前向きの単語N−gramの統計的言語
モデルを事後知識として用いて最大事後確率推定法によ
り、第1の頻度確率と第2の頻度確率との間を補間して
なる前向きの遷移確率を計算する第1の計算手段と、上
記第1の計算手段によって計算された前向きの遷移確率
に対して、所定の正規化処理と平滑化処理を実行するこ
とにより前向きのN−gramの統計的言語モデルを生
成する第1の処理手段とを備えたことを特徴とする。
載の統計的言語モデル生成装置は、所定の話者の発声音
声文を書き下した学習用テキストデータに基づいて、複
数の単語からなる単語列の後に処理対象の単語が生起す
る第1の頻度確率を計算することにより前向きの単語N
−gramの統計的言語モデルを生成する第1の生成手
段と、上記学習用テキストデータと、品詞クラス情報を
含む品詞クラス情報データとに基づいて、第1の単語の
品詞クラス及び上記第1の単語の後に接続される複数の
単語からなる単語列の後に、処理対象の単語が生起する
第2の頻度確率を計算することにより前向きの品詞クラ
ス−単語N−gramの統計的言語モデルを生成する第
2の生成手段と、上記第2の生成手段によって生成され
た前向きの品詞クラス−単語N−gramの統計的言語
モデルを事前知識として用い、上記第1の生成手段によ
って生成された前向きの単語N−gramの統計的言語
モデルを事後知識として用いて最大事後確率推定法によ
り、第1の頻度確率と第2の頻度確率との間を補間して
なる前向きの遷移確率を計算する第1の計算手段と、上
記第1の計算手段によって計算された前向きの遷移確率
に対して、所定の正規化処理と平滑化処理を実行するこ
とにより前向きのN−gramの統計的言語モデルを生
成する第1の処理手段とを備えたことを特徴とする。
【0011】また、請求項2記載の統計的言語モデル生
成装置は、請求項1記載の統計的言語モデル生成装置に
おいて、上記学習用テキストデータに基づいて、処理対
象の単語から前に接続する複数の単語からなる単語列が
生起する第3の頻度確率を計算することにより後向きの
単語N−gramの統計的言語モデルを生成する第3の
生成手段と、上記学習用テキストデータと、上記品詞ク
ラス情報データとに基づいて、処理対象の単語の品詞ク
ラスから前に接続する複数の単語からなる単語列が生起
する第4の頻度確率を計算することにより後向きの品詞
クラス−単語N−gramの統計的言語モデルを生成す
る第4の生成手段と、上記第4の生成手段によって生成
された後向きの品詞クラス−単語N−gramの統計的
言語モデルを事前知識として用い、上記第3の生成手段
によって生成された後向きの単語N−gramの統計的
言語モデルを事後知識として用いて最大事後確率推定法
により、第3の頻度確率と第4の頻度確率との間を補間
してなる後向きの遷移確率を計算する第2の計算手段
と、上記第2の計算手段によって計算された後向きの遷
移確率に基づいて、所定の正規化処理と平滑化処理を実
行することにより後向きの単語N−gramの統計的言
語モデルを生成する第2の処理手段とをさらに備えたこ
とを特徴とする。
成装置は、請求項1記載の統計的言語モデル生成装置に
おいて、上記学習用テキストデータに基づいて、処理対
象の単語から前に接続する複数の単語からなる単語列が
生起する第3の頻度確率を計算することにより後向きの
単語N−gramの統計的言語モデルを生成する第3の
生成手段と、上記学習用テキストデータと、上記品詞ク
ラス情報データとに基づいて、処理対象の単語の品詞ク
ラスから前に接続する複数の単語からなる単語列が生起
する第4の頻度確率を計算することにより後向きの品詞
クラス−単語N−gramの統計的言語モデルを生成す
る第4の生成手段と、上記第4の生成手段によって生成
された後向きの品詞クラス−単語N−gramの統計的
言語モデルを事前知識として用い、上記第3の生成手段
によって生成された後向きの単語N−gramの統計的
言語モデルを事後知識として用いて最大事後確率推定法
により、第3の頻度確率と第4の頻度確率との間を補間
してなる後向きの遷移確率を計算する第2の計算手段
と、上記第2の計算手段によって計算された後向きの遷
移確率に基づいて、所定の正規化処理と平滑化処理を実
行することにより後向きの単語N−gramの統計的言
語モデルを生成する第2の処理手段とをさらに備えたこ
とを特徴とする。
【0012】本発明に係る請求項3記載の統計的言語モ
デル生成装置は、複数の単語からなる単語列の後に処理
対象の単語が生起する第1の頻度確率と、第1の単語の
品詞クラス及び上記第1の単語の後に接続される複数の
単語からなる単語列の後に、処理対象の単語が生起する
第2の頻度確率とを補間してなる前向きの遷移確率を含
む前向きのN−gramの統計的言語モデルの遷移確率
に基づいて、処理対象単語よりも前に接続される各単語
列に対して特徴量として上記前向きのN−gramの統
計的言語モデルの遷移確率を割り当てて、各クラスの特
徴量のばらつきが小さくならないようにクラスタリング
して、クラスタリング後のクラス分類情報を生成する第
1のクラスタリング手段と、処理対象の単語から前に接
続する複数の単語からなる単語列が生起する第3の頻度
確率と、処理対象の単語の品詞クラスから前に接続する
複数の単語からなる単語列が生起する第4の頻度確率と
を補間してなる後向きの遷移確率を含む後向きのN−g
ramの統計的言語モデルの遷移確率に基づいて、各処
理単語に対して特徴量として上記後向きのN−gram
の統計的言語モデルの遷移確率を割り当てて、各クラス
の特徴量のばらつきが小さくならないようにクラスタリ
ングして、クラスタリング後のクラス分類情報を生成す
る第2のクラスタリング手段と、所定の話者の発声音声
文を書き下した学習用テキストデータに基づいて、上記
第1のクラスタリング手段及び第2のクラスタリング手
段によって生成されたクラス分類情報を処理対象とし
て、処理対象の単語よりも前の単語列のクラスから、処
理対象の単語のクラスへの頻度確率を計算することによ
り融合N−gramの統計的言語モデルを生成する第5
の生成手段とを備えたことを特徴とする。
デル生成装置は、複数の単語からなる単語列の後に処理
対象の単語が生起する第1の頻度確率と、第1の単語の
品詞クラス及び上記第1の単語の後に接続される複数の
単語からなる単語列の後に、処理対象の単語が生起する
第2の頻度確率とを補間してなる前向きの遷移確率を含
む前向きのN−gramの統計的言語モデルの遷移確率
に基づいて、処理対象単語よりも前に接続される各単語
列に対して特徴量として上記前向きのN−gramの統
計的言語モデルの遷移確率を割り当てて、各クラスの特
徴量のばらつきが小さくならないようにクラスタリング
して、クラスタリング後のクラス分類情報を生成する第
1のクラスタリング手段と、処理対象の単語から前に接
続する複数の単語からなる単語列が生起する第3の頻度
確率と、処理対象の単語の品詞クラスから前に接続する
複数の単語からなる単語列が生起する第4の頻度確率と
を補間してなる後向きの遷移確率を含む後向きのN−g
ramの統計的言語モデルの遷移確率に基づいて、各処
理単語に対して特徴量として上記後向きのN−gram
の統計的言語モデルの遷移確率を割り当てて、各クラス
の特徴量のばらつきが小さくならないようにクラスタリ
ングして、クラスタリング後のクラス分類情報を生成す
る第2のクラスタリング手段と、所定の話者の発声音声
文を書き下した学習用テキストデータに基づいて、上記
第1のクラスタリング手段及び第2のクラスタリング手
段によって生成されたクラス分類情報を処理対象とし
て、処理対象の単語よりも前の単語列のクラスから、処
理対象の単語のクラスへの頻度確率を計算することによ
り融合N−gramの統計的言語モデルを生成する第5
の生成手段とを備えたことを特徴とする。
【0013】また、請求項4記載の統計的言語モデル生
成装置は、請求項3記載の統計的言語モデル生成装置に
おいて、上記補間してなる前向きの遷移確率は、上記第
1の処理手段によって生成された前向きのN−gram
の統計的言語モデルの遷移確率であり、上記補間してな
る後向きの遷移確率は、上記第2の処理手段によって生
成された後向きのN−gramの統計的言語モデルの遷
移確率であり、上記第5の生成手段において用いる学習
用テキストデータは、上記第1乃至第4の生成手段にお
いて用いる学習用テキストデータであることを特徴とす
る。
成装置は、請求項3記載の統計的言語モデル生成装置に
おいて、上記補間してなる前向きの遷移確率は、上記第
1の処理手段によって生成された前向きのN−gram
の統計的言語モデルの遷移確率であり、上記補間してな
る後向きの遷移確率は、上記第2の処理手段によって生
成された後向きのN−gramの統計的言語モデルの遷
移確率であり、上記第5の生成手段において用いる学習
用テキストデータは、上記第1乃至第4の生成手段にお
いて用いる学習用テキストデータであることを特徴とす
る。
【0014】さらに、本発明に係る請求項5記載の音声
認識装置は、入力される発声音声文の音声信号に基づい
て、所定の統計的言語モデルを用いて音声認識する音声
認識手段を備えた音声認識装置において、上記音声認識
手段は、請求項1に記載の第1の処理手段によって生成
された前向きN−gramの統計的言語モデルを用い
て、請求項2に記載の第2の処理手段によって生成され
た後向きN−gramの統計的言語モデルを用いて、も
しくは、請求項3又は4記載の第5の生成手段によって
生成された融合N−gramの統計的言語モデルを用い
て、音声認識することを特徴とする。
認識装置は、入力される発声音声文の音声信号に基づい
て、所定の統計的言語モデルを用いて音声認識する音声
認識手段を備えた音声認識装置において、上記音声認識
手段は、請求項1に記載の第1の処理手段によって生成
された前向きN−gramの統計的言語モデルを用い
て、請求項2に記載の第2の処理手段によって生成され
た後向きN−gramの統計的言語モデルを用いて、も
しくは、請求項3又は4記載の第5の生成手段によって
生成された融合N−gramの統計的言語モデルを用い
て、音声認識することを特徴とする。
【0015】
【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。
る実施形態について説明する。
【0016】図1は、本発明に係る一実施形態である連
続音声認識装置のブロック図である。この実施形態の連
続音声認識装置は、図4の第1の言語モデル生成処理を
実行することにより前向きN−gramである統計的言
語モデル及び後向きN−gramである統計的言語モデ
ルを生成する言語モデル生成部20(第1の実施形態)
と、上記生成された2つの統計的言語モデルに基づいて
図7の言語モデル生成処理を実行することにより上記2
つの統計的言語モデルを融合した融合N−gramであ
る統計的言語モデルを生成する言語モデル生成部30
(第2の実施形態)とを備えたことを特徴としている。
ここで、スイッチSWを接点a側に切り換えて統計的言
語モデルメモリ21内の前向きN−gramを用いて単
語仮説絞込部6が単語仮説絞込処理を行う実施形態を第
1の実施形態という一方、スイッチSWを接点b側に切
り換えて統計的言語モデルメモリ31内の後向きN−g
ramを用いて単語仮説絞込部6が単語仮説絞込処理を
行う実施形態を第2の実施形態という。
続音声認識装置のブロック図である。この実施形態の連
続音声認識装置は、図4の第1の言語モデル生成処理を
実行することにより前向きN−gramである統計的言
語モデル及び後向きN−gramである統計的言語モデ
ルを生成する言語モデル生成部20(第1の実施形態)
と、上記生成された2つの統計的言語モデルに基づいて
図7の言語モデル生成処理を実行することにより上記2
つの統計的言語モデルを融合した融合N−gramであ
る統計的言語モデルを生成する言語モデル生成部30
(第2の実施形態)とを備えたことを特徴としている。
ここで、スイッチSWを接点a側に切り換えて統計的言
語モデルメモリ21内の前向きN−gramを用いて単
語仮説絞込部6が単語仮説絞込処理を行う実施形態を第
1の実施形態という一方、スイッチSWを接点b側に切
り換えて統計的言語モデルメモリ31内の後向きN−g
ramを用いて単語仮説絞込部6が単語仮説絞込処理を
行う実施形態を第2の実施形態という。
【0017】本実施形態では、単語N−gram、品詞
クラスN−gram、自動クラスN−gramの欠点を
補い合うことにより、4つの要求を同時に満たす新しい
N−gramモデルを生成する方法を開示する。まず、
第1の実施形態では、まず、単語N−gramに対し
て、公知の最大事後確率推定法(以下、MAP推定法と
いう。)により品詞クラスの情報を付加することで、
「次単語予測の精度」を保ちながらも、「スパースデー
タに対する信頼性」、「タスクのずれに対する頑健さ」
を付加した統計的言語モデルを作成する。続いて、この
統計的言語モデルにより得られる単語間の遷移確率を単
語の特徴量とみなし、これに基づいて、自動的にクラス
タリングしてクラス分類を行うことによりさらに「コン
パクトなモデルサイズ」を加え、先に挙げた4つの要求
の同時に満たす融合N−gramである統計的言語モデ
ルを生成する。
クラスN−gram、自動クラスN−gramの欠点を
補い合うことにより、4つの要求を同時に満たす新しい
N−gramモデルを生成する方法を開示する。まず、
第1の実施形態では、まず、単語N−gramに対し
て、公知の最大事後確率推定法(以下、MAP推定法と
いう。)により品詞クラスの情報を付加することで、
「次単語予測の精度」を保ちながらも、「スパースデー
タに対する信頼性」、「タスクのずれに対する頑健さ」
を付加した統計的言語モデルを作成する。続いて、この
統計的言語モデルにより得られる単語間の遷移確率を単
語の特徴量とみなし、これに基づいて、自動的にクラス
タリングしてクラス分類を行うことによりさらに「コン
パクトなモデルサイズ」を加え、先に挙げた4つの要求
の同時に満たす融合N−gramである統計的言語モデ
ルを生成する。
【0018】まず、品詞クラス情報と単語情報の連続的
な補間処理について説明する。単語N−gramにおけ
る問題点である「スパースデータに対する信頼性」と
「タスクのずれに対する頑健さ」を品詞クラス情報を用
いて補うことを考える。単語N−gramにおける信頼
性は推定に用いる直前のN−1個の単語列の出現頻度に
依存する。そこで、出現回数の少ない単語列に関しては
品詞クラスの情報で補うようにすれば精度を落とすこと
なく、信頼性の向上が期待でき、同時に品詞クラスN−
gramの持つタスクのずれに対する頑健さを加えるこ
とができると考えられる。この方法の実現手段として
は、以下の方法が考えられる。 (a)単語列の出現回数によるしきい値によって単語N
−gramと品詞クラスN−gramを切り換える方
法、(b)両者の線形結合を用いる方法、及び(c)バ
ックオフ平滑化に用いる方法など。
な補間処理について説明する。単語N−gramにおけ
る問題点である「スパースデータに対する信頼性」と
「タスクのずれに対する頑健さ」を品詞クラス情報を用
いて補うことを考える。単語N−gramにおける信頼
性は推定に用いる直前のN−1個の単語列の出現頻度に
依存する。そこで、出現回数の少ない単語列に関しては
品詞クラスの情報で補うようにすれば精度を落とすこと
なく、信頼性の向上が期待でき、同時に品詞クラスN−
gramの持つタスクのずれに対する頑健さを加えるこ
とができると考えられる。この方法の実現手段として
は、以下の方法が考えられる。 (a)単語列の出現回数によるしきい値によって単語N
−gramと品詞クラスN−gramを切り換える方
法、(b)両者の線形結合を用いる方法、及び(c)バ
ックオフ平滑化に用いる方法など。
【0019】発明者の意見として、図3に示すように、
品詞クラスN−gramと、単語N−gramとの間を
直前の単語列の出現頻度に応じて、直前の単語列を用い
た確率推定値と、直前の品詞クラス列を用いた確率推定
値を連続的に補間する方がより精度と信頼性を期待でき
る。そこで、この目的のために品詞クラス及び単語列か
ら単語へのN−gram(以下、品詞クラス−単語N−
gramという。)を考える。単語列(w1,w2,…,
wn-1,wn)について処理するときに、品詞クラス−単
語N−gramは品詞クラス及び単語列(c1,w2,
…,wn-1)から単語wnへの遷移確率を考えるものあ
り、その値は次式であらわされる。ここで、c1は単語
w1の品詞クラスである。
品詞クラスN−gramと、単語N−gramとの間を
直前の単語列の出現頻度に応じて、直前の単語列を用い
た確率推定値と、直前の品詞クラス列を用いた確率推定
値を連続的に補間する方がより精度と信頼性を期待でき
る。そこで、この目的のために品詞クラス及び単語列か
ら単語へのN−gram(以下、品詞クラス−単語N−
gramという。)を考える。単語列(w1,w2,…,
wn-1,wn)について処理するときに、品詞クラス−単
語N−gramは品詞クラス及び単語列(c1,w2,
…,wn-1)から単語wnへの遷移確率を考えるものあ
り、その値は次式であらわされる。ここで、c1は単語
w1の品詞クラスである。
【0020】
【数2】p(wn|c1,w2,…,wn-1)
【0021】そして、この品詞クラス−単語N−gra
mを事前知識とし、単語N−gramを事後知識とする
公知のMAP推定法を用いることにする。MAP推定法
を用いる場合、事後事象である単語N−gramの値が
どのような分布に従うかを予め知っておく必要がある。
そして、この分布、すなわち事前分布が次式のベータ分
布に従うものと仮定する。
mを事前知識とし、単語N−gramを事後知識とする
公知のMAP推定法を用いることにする。MAP推定法
を用いる場合、事後事象である単語N−gramの値が
どのような分布に従うかを予め知っておく必要がある。
そして、この分布、すなわち事前分布が次式のベータ分
布に従うものと仮定する。
【0022】
【数3】 {1/B(α,β)}×p( α -1)(1−p)( β -1)
【0023】ベータ分布を用いる理由はパラメータα及
びβを変化させることにより、一様分布を含む様々な分
布形状を表すことができるためである。単語列(w1,
w2,…,wi)の観測回数をC(w1,w2,…,wi)
とする時、MAP推定法によるMAP推定処理後の単語
列(w1,w2,…,wn-1)から単語wnへの前向きの遷
移確率pMAP(wn|w1,w2,…,wn-1)は次式のよ
うになる。
びβを変化させることにより、一様分布を含む様々な分
布形状を表すことができるためである。単語列(w1,
w2,…,wi)の観測回数をC(w1,w2,…,wi)
とする時、MAP推定法によるMAP推定処理後の単語
列(w1,w2,…,wn-1)から単語wnへの前向きの遷
移確率pMAP(wn|w1,w2,…,wn-1)は次式のよ
うになる。
【0024】
【数4】pMAP(wn|w1,w2,…,wn-1)={C
(w1,w2,…,wn-1)+α−1}/{C(w1,
w2,…,wn-1,wn)+α+β−2}
(w1,w2,…,wn-1)+α−1}/{C(w1,
w2,…,wn-1,wn)+α+β−2}
【0025】ベータ分布においてはその平均μと分散β
は次式となることが知られている。
は次式となることが知られている。
【0026】
【数5】μ=α/(α+β)
【数6】σ2=αβ/{(α+β)2(α+β+1)}
【0027】しかしながら、これらの値を最尤推定によ
って求めることは困難である。まず、観測回数C
(w1,w2,…,wn-1)及び観測回数C(w1,w2,
…,wn)がともに0の時、すなわち事後知識が与えら
れないときの確率推定値は、上記数4に次式の数7を代
入することにより、数8を得る。
って求めることは困難である。まず、観測回数C
(w1,w2,…,wn-1)及び観測回数C(w1,w2,
…,wn)がともに0の時、すなわち事後知識が与えら
れないときの確率推定値は、上記数4に次式の数7を代
入することにより、数8を得る。
【0028】
【数7】C(w1,w2,…,wn-1)=C(w1,w2,
…,wn)=0
…,wn)=0
【数8】pMAP(wn|w1,w2,…,wn-1)=(α−
1)/(α+β−2)
1)/(α+β−2)
【0029】また、事後知識が与えられない時は事前知
識を用いるのが妥当であることから上記数8の値は事前
知識による値と等しいとし、次式を得る。
識を用いるのが妥当であることから上記数8の値は事前
知識による値と等しいとし、次式を得る。
【0030】
【数9】(α−1)/(α+β−2)=p(wn|c1,
w2,…,wn-1)
w2,…,wn-1)
【0031】ここで、確率p(wn|c1,w2,…,w
n-1)は単語N−gramの確率p(wn|wi,w2,
…,wn-1)(ただしwi∈ci)の重み付き平均μhとし
て求められる。ここで、パラメータα及びβに関して解
が求めやすいように上記数5の事前分布の平均μと、上
記数8及び数9における重み付き平均μhとの関係にお
いて次式の数10及び数11であることを上記数6に形
式的にあてはめ、次式の数12を仮定する。
n-1)は単語N−gramの確率p(wn|wi,w2,
…,wn-1)(ただしwi∈ci)の重み付き平均μhとし
て求められる。ここで、パラメータα及びβに関して解
が求めやすいように上記数5の事前分布の平均μと、上
記数8及び数9における重み付き平均μhとの関係にお
いて次式の数10及び数11であることを上記数6に形
式的にあてはめ、次式の数12を仮定する。
【0032】
【数10】α→α−1
【数11】α+β→α+β−2
【数12】{(α−1)(β−1)}/{(α+β−
2)2(α+β−1)}=σh 2
2)2(α+β−1)}=σh 2
【0033】ここで、σh 2は単語N−gramの重み付
き分散である。上記数8、数9、数12により、パラメ
ータα及びβは次式に従って求めることができる。
き分散である。上記数8、数9、数12により、パラメ
ータα及びβは次式に従って求めることができる。
【0034】
【数13】α−1={μh 2/(1−μh)}σh 2−μh
【数14】 α+β−2=[{μh(1−μh)}/σh 2]−1
【0035】なお、重み付き平均μh及び重み付き分散
σh 2は次式で定義されて計算することができる。
σh 2は次式で定義されて計算することができる。
【0036】
【数15】
【数16】
【0037】上述された方法で計算されたパラメータα
及びβに基づいて上記数4を用いて、各単語列毎にMA
P推定後の前向きの確率を求める。
及びβに基づいて上記数4を用いて、各単語列毎にMA
P推定後の前向きの確率を求める。
【0038】次いで、後向きの遷移確率について説明す
る。MAP推定法によるMAP推定処理後の単語wnか
ら単語列(wn-1,wn-2,…,w2,w1)への後向きの
遷移確率pMAP(wn-1,wn-2,…,w2,w1|wn)は
次式のようになる。
る。MAP推定法によるMAP推定処理後の単語wnか
ら単語列(wn-1,wn-2,…,w2,w1)への後向きの
遷移確率pMAP(wn-1,wn-2,…,w2,w1|wn)は
次式のようになる。
【0039】
【数17】pMAP(wn-1,wn-2,…,w2,w1|wn)
={C(wn,wn-1,…,w2,w1)+α−1}/{C
(wn)+α+β−2}
={C(wn,wn-1,…,w2,w1)+α−1}/{C
(wn)+α+β−2}
【0040】ここで、事後知識が与えられないときの確
率推定値は、上記数17に次式の数18を代入すること
により、数19を得る。
率推定値は、上記数17に次式の数18を代入すること
により、数19を得る。
【0041】
【数18】 C(wn,wn-1,…,w2,w1)=C(wn)=0
【数19】pMAP(wn-1,…,w2,w1|wn)=(α
−1)/(α+β−2)
−1)/(α+β−2)
【0042】また、事後知識が与えられない時は事前知
識を用いるのが妥当であることから上記数19の値は事
前知識による値と等しいとし、次式を得る。
識を用いるのが妥当であることから上記数19の値は事
前知識による値と等しいとし、次式を得る。
【0043】
【数20】(α−1)/(α+β−2)=p(wn-1,
…,w2,w1|cn)
…,w2,w1|cn)
【0044】また、パラメータα及びβは上記の数13
及び数14を用いて計算でき、ここで、重み付き平均μ
h及び重み付き分散σh 2は次式で定義されて計算するこ
とができる。
及び数14を用いて計算でき、ここで、重み付き平均μ
h及び重み付き分散σh 2は次式で定義されて計算するこ
とができる。
【0045】
【数21】
【数22】
【0046】上述された方法で計算されたパラメータα
及びβに基づいて上記数17を用いて、各単語列毎にM
AP推定後の後向きの確率を求める。
及びβに基づいて上記数17を用いて、各単語列毎にM
AP推定後の後向きの確率を求める。
【0047】このようにして得られたMAP推定後のN
−gramの値は単語N−gramの観測回数が多い単
語列ではより単語N−gramの値に近く、少ない単語
列では品詞クラス−単語2−gramの値に近いため、
「次単語の予測精度」、「スパースデータに対する信頼
性」、「タスクのずれに対する頑健さ」の三つを兼ね備
えたモデルになっていると考えられる。
−gramの値は単語N−gramの観測回数が多い単
語列ではより単語N−gramの値に近く、少ない単語
列では品詞クラス−単語2−gramの値に近いため、
「次単語の予測精度」、「スパースデータに対する信頼
性」、「タスクのずれに対する頑健さ」の三つを兼ね備
えたモデルになっていると考えられる。
【0048】次いで、正規化処理と平滑化処理について
説明する。MAP推定後の確率は個々の単語列ごとに独
立に計算されるため、各先行単語列ごとの遷移確率の和
が1となる保証がない。このため、これが1となるよう
に補正を行う必要がある。また、MAP推定後のN−g
ramにおいても事前知識すら与えられない単語列に対
しては確率値を割り当てることができないため、平滑化
により何らかの確率値を割り振る必要がある。平滑化の
方法としては、好ましくは、次の2つの方法のいずれか
を用いる。 (1)MAP推定による平滑化処理 (2)バックオフ平滑化処理
説明する。MAP推定後の確率は個々の単語列ごとに独
立に計算されるため、各先行単語列ごとの遷移確率の和
が1となる保証がない。このため、これが1となるよう
に補正を行う必要がある。また、MAP推定後のN−g
ramにおいても事前知識すら与えられない単語列に対
しては確率値を割り当てることができないため、平滑化
により何らかの確率値を割り振る必要がある。平滑化の
方法としては、好ましくは、次の2つの方法のいずれか
を用いる。 (1)MAP推定による平滑化処理 (2)バックオフ平滑化処理
【0049】まず、MAP推定による平滑化処理につい
て説明する。MAP推定における事前知識である確率p
(wn|c1,w2,…,wn-1)に対して、さらに1次元
下(すなわち、履歴の1つ短い)の確率p(wn|w2,
…,wn-1)を事前知識とするMAP推定を行うこと
で、事前知識すら与えられていない場合でも確率値を割
り当てができる(例えば、従来技術文献2「川端豪ほ
か,”二項事後分布に基づくN−gram言語モデルの
Back−off平滑化”,電子情報通信学会技術報
告,SP93−95,pp.1−6,1995年12
月」参照。)。さらに、確率p(wn|w2,…,
wn-1)は確率p(wn|c2,…,wn-1)で、確率p
(wn|c2,…,wn-1)は確率p(wn|w3,…,w
n-1)でという具合に逐次的にMAP推定を繰り返すこ
とにより、最終的には単語1−gram(又は0−gr
am)を事前知識とするMAP推定が行われるため、す
べての単語列に対して確率値を割り当てることができ
る。なお、この場合、上記数9における重み付き平均μ
hの値としてはMAP推定後の確率推定値pMAP(wn|
c1,w2,…,wn -1)を用いることになる。また、正
規化後の確率値は各先行単語列に対して、次単語への遷
移確率の総和が1となるように次式に従って正規化され
る。ここで、Vは語彙数を表すものとする。
て説明する。MAP推定における事前知識である確率p
(wn|c1,w2,…,wn-1)に対して、さらに1次元
下(すなわち、履歴の1つ短い)の確率p(wn|w2,
…,wn-1)を事前知識とするMAP推定を行うこと
で、事前知識すら与えられていない場合でも確率値を割
り当てができる(例えば、従来技術文献2「川端豪ほ
か,”二項事後分布に基づくN−gram言語モデルの
Back−off平滑化”,電子情報通信学会技術報
告,SP93−95,pp.1−6,1995年12
月」参照。)。さらに、確率p(wn|w2,…,
wn-1)は確率p(wn|c2,…,wn-1)で、確率p
(wn|c2,…,wn-1)は確率p(wn|w3,…,w
n-1)でという具合に逐次的にMAP推定を繰り返すこ
とにより、最終的には単語1−gram(又は0−gr
am)を事前知識とするMAP推定が行われるため、す
べての単語列に対して確率値を割り当てることができ
る。なお、この場合、上記数9における重み付き平均μ
hの値としてはMAP推定後の確率推定値pMAP(wn|
c1,w2,…,wn -1)を用いることになる。また、正
規化後の確率値は各先行単語列に対して、次単語への遷
移確率の総和が1となるように次式に従って正規化され
る。ここで、Vは語彙数を表すものとする。
【0050】
【数23】
【0051】次いで、バックオフ平滑化処理について説
明する。平滑化の方法として公知のバックオフ平滑化法
(例えば、従来技術文献3「S. M. Katz,”Estimation
of Probabilities from Sparse Data for the Language
Model Component of a Speech Recognitizer”,IEEE T
ransaction on Acoustics, Speech and Signal Process
ing, pp.400-401, 1987」参照。)を用いた場合は、未
学習である列に割り振られる確率値の総和は、事前知識
として用いるモデルにおいてに公知のバックオフ平滑化
法により未学習である列に割り振られる確率値の総和と
等しくする。すなわち、MAP推定後のバックオフ係数
b(w1,w2,…,wn-1)は、事前知識におけるバッ
クオフ係数b(c1,w2,…,wn-1)と等しいものと
する。その後、後続単語への遷移確率の和が1となるよ
うにディスカウント係数を求める。最終的に、バックオ
フ平滑化処理を施したMAP推定後の遷移確率は次式で
与えられることになる。
明する。平滑化の方法として公知のバックオフ平滑化法
(例えば、従来技術文献3「S. M. Katz,”Estimation
of Probabilities from Sparse Data for the Language
Model Component of a Speech Recognitizer”,IEEE T
ransaction on Acoustics, Speech and Signal Process
ing, pp.400-401, 1987」参照。)を用いた場合は、未
学習である列に割り振られる確率値の総和は、事前知識
として用いるモデルにおいてに公知のバックオフ平滑化
法により未学習である列に割り振られる確率値の総和と
等しくする。すなわち、MAP推定後のバックオフ係数
b(w1,w2,…,wn-1)は、事前知識におけるバッ
クオフ係数b(c1,w2,…,wn-1)と等しいものと
する。その後、後続単語への遷移確率の和が1となるよ
うにディスカウント係数を求める。最終的に、バックオ
フ平滑化処理を施したMAP推定後の遷移確率は次式で
与えられることになる。
【0052】(1)C(w1,w2,…,wn)>0のと
き、すなわち事後知識が与えられた場合
き、すなわち事後知識が与えられた場合
【0053】
【数24】pMAP(wn|w1,w2,…,wn-1)=d
(w2,…,wn-1,wn)×{C(w1,w2,…,
wn-1,wn)+α−1}/{C(w1,w2,…,
wn-1)+α+β−2}
(w2,…,wn-1,wn)×{C(w1,w2,…,
wn-1,wn)+α−1}/{C(w1,w2,…,
wn-1)+α+β−2}
【0054】(2)C(c1,w2,…,wn)>Cut
(n)のとき、すなわち事後知識が与えられない場合
(n)のとき、すなわち事後知識が与えられない場合
【0055】
【数25】pMAP(wn|w1,w2,…,wn-1)=d
(w2,…,wn-1,wn)×(α−1)/{C(w1,w
2,…,wn-1)+α+β−2}
(w2,…,wn-1,wn)×(α−1)/{C(w1,w
2,…,wn-1)+α+β−2}
【0056】(3)C(c1,w2,…,wn)≦Cut
(n)のとき、すなわち事前知識すら信頼性がない場合
(n)のとき、すなわち事前知識すら信頼性がない場合
【0057】
【数26】pMAP(wn|w1,w2,…,wn-1)=b
(w1,w2,…,wn-1)×pMAP(wn|w2,…,w
n-1)
(w1,w2,…,wn-1)×pMAP(wn|w2,…,w
n-1)
【0058】ここで、Cut(n)はN−gramの次
数nにおけるカットオフ係数であり、d(w2,…,w
n-1,wn)はディスカウント係数であり、b(w1,
w2,…,wn-1)はバックオフ係数である。
数nにおけるカットオフ係数であり、d(w2,…,w
n-1,wn)はディスカウント係数であり、b(w1,
w2,…,wn-1)はバックオフ係数である。
【0059】なお、後向きの確率の場合においても、同
様の式を用いて平滑化処理を行うことができる。ここ
で、上記数20における重み付き平均μの値としては、
MAP推定後の値pMAP(wn-1,…,w2,w1|cn)
を用いる。また、後向きのMAP推定においては、後向
きの品詞クラス−単語N−gramの統計的言語モデル
を事前知識として用い、後向きの単語N−gramの統
計的言語モデルを事後知識として用いる。
様の式を用いて平滑化処理を行うことができる。ここ
で、上記数20における重み付き平均μの値としては、
MAP推定後の値pMAP(wn-1,…,w2,w1|cn)
を用いる。また、後向きのMAP推定においては、後向
きの品詞クラス−単語N−gramの統計的言語モデル
を事前知識として用い、後向きの単語N−gramの統
計的言語モデルを事後知識として用いる。
【0060】次いで、第2の実施形態における品詞クラ
ス情報と自動クラス分類の併用の方法について説明す
る。第1の実施形態の言語モデル生成部20により得ら
れた前向きN−gram及び後向きN−gramである
2つの統計的言語モデルに対して、自動的にクラスタリ
ング(自動クラス分類)することにより、モデルサイズ
の縮小をはかる。自動クラスN−gramがタスクのず
れに対して頑健か否かは、自動クラス分類を行う際、各
単語に割り当てられる特徴量がタスクのずれに対して頑
健かどうかで決まると考えられる。通常の自動クラス分
類においては単語の特徴量として単語N−gramの値
を用いるが、この特徴量はタスクのずれに対する頑健さ
を欠くため、得られる自動クラスN−gramもまたタ
スクのずれに対する頑健さに欠けるものとなると考えら
れる。上述の第1の実施形態の言語モデル生成部20に
より得られたMAP推定後のN−gramの統計的言語
モデルはタスクのずれに対する頑健さを持つため、この
値を単語の特徴量として用いることによってタスクのず
れに対して頑健な自動クラスが得られることが期待さ
れ、このクラスを用いたクラスN−gramにより、第
1の実施形態の言語モデル生成部20により得られた統
計的言語モデルに対してさらに「コンパクトなモデルサ
イズ」を付け加えることが期待できる。
ス情報と自動クラス分類の併用の方法について説明す
る。第1の実施形態の言語モデル生成部20により得ら
れた前向きN−gram及び後向きN−gramである
2つの統計的言語モデルに対して、自動的にクラスタリ
ング(自動クラス分類)することにより、モデルサイズ
の縮小をはかる。自動クラスN−gramがタスクのず
れに対して頑健か否かは、自動クラス分類を行う際、各
単語に割り当てられる特徴量がタスクのずれに対して頑
健かどうかで決まると考えられる。通常の自動クラス分
類においては単語の特徴量として単語N−gramの値
を用いるが、この特徴量はタスクのずれに対する頑健さ
を欠くため、得られる自動クラスN−gramもまたタ
スクのずれに対する頑健さに欠けるものとなると考えら
れる。上述の第1の実施形態の言語モデル生成部20に
より得られたMAP推定後のN−gramの統計的言語
モデルはタスクのずれに対する頑健さを持つため、この
値を単語の特徴量として用いることによってタスクのず
れに対して頑健な自動クラスが得られることが期待さ
れ、このクラスを用いたクラスN−gramにより、第
1の実施形態の言語モデル生成部20により得られた統
計的言語モデルに対してさらに「コンパクトなモデルサ
イズ」を付け加えることが期待できる。
【0061】次いで、先行単語列のクラス分類について
説明する。ある単語列(w1,w2,…,wn-1)を考え
た場合、この単語列(w1,w2,…,wn-1)から他の
単語w nへの遷移確率は次式で与えられる。
説明する。ある単語列(w1,w2,…,wn-1)を考え
た場合、この単語列(w1,w2,…,wn-1)から他の
単語w nへの遷移確率は次式で与えられる。
【数27】pMAP(wn|w1,w2,…,wn-1)
【0062】このとき、遷移先の単語として語彙セット
中のすべての単語V個を考え、これらの遷移確率列を長
さVのベクトルと考えることができる。このベクトルは
単語列(w1,w2,…,wn-1)の次単語に対する接続
属性を表していると考えることができるため、このベク
トルに基づき、単語列をクラス分類する。ここで、自動
クラス分類の方法としては次の手順を用いる。
中のすべての単語V個を考え、これらの遷移確率列を長
さVのベクトルと考えることができる。このベクトルは
単語列(w1,w2,…,wn-1)の次単語に対する接続
属性を表していると考えることができるため、このベク
トルに基づき、単語列をクラス分類する。ここで、自動
クラス分類の方法としては次の手順を用いる。
【0063】<ステップSS1>1単語列に対して1ク
ラスとする。 <ステップSS2>個々の単語列のクラスXに対して特
徴量V(X)を割り当てる。ここで、特徴量V(X)は
クラスXから次の単語への遷移確率を要素とするベクト
ルである。 <ステップSS3>マージするために必要なマージコス
ト(Unew−Uold)が最小となるような(すなわち、マ
ージ後のベクトルの分散が小さくならないような)クラ
スのペアを選び、統合して1つのクラスとする。ここ
で、Unewはマージ後のクラス内のベクトルのバラツキ
又は分散であり、Uoldはマージ前のクラス内のベクト
ルのバラツキ又は分散であり、それぞれ次式のように計
算できる。
ラスとする。 <ステップSS2>個々の単語列のクラスXに対して特
徴量V(X)を割り当てる。ここで、特徴量V(X)は
クラスXから次の単語への遷移確率を要素とするベクト
ルである。 <ステップSS3>マージするために必要なマージコス
ト(Unew−Uold)が最小となるような(すなわち、マ
ージ後のベクトルの分散が小さくならないような)クラ
スのペアを選び、統合して1つのクラスとする。ここ
で、Unewはマージ後のクラス内のベクトルのバラツキ
又は分散であり、Uoldはマージ前のクラス内のベクト
ルのバラツキ又は分散であり、それぞれ次式のように計
算できる。
【0064】
【数28】
【数29】
【0065】ここで、Cnewはマージ後のクラスであ
り、Coldはマージ前のクラスを表し、D(Vc,V
w)はベクトルVcとVwとのユークリッド距離の自乗
を表す。 <ステップSS4>上記ステップSS2及びSS3の手
順を予め定められたクラス数になるまで繰り返すことに
より、クラスタリング処理を行う。
り、Coldはマージ前のクラスを表し、D(Vc,V
w)はベクトルVcとVwとのユークリッド距離の自乗
を表す。 <ステップSS4>上記ステップSS2及びSS3の手
順を予め定められたクラス数になるまで繰り返すことに
より、クラスタリング処理を行う。
【0066】次いで、後続単語のクラス分類について説
明する。単語列(w1,w2,…,w n-1)から他の単語
wnへの遷移確率は単語列(w1,w2,…,wn-1)がス
パースな場合(十分な学習量が無い場合)でもMAP推
定により信頼性のある値を割り当てることができた。し
かしながら、後続単語wnがスパースな場合の信頼性の
問題は解決されていない。そこで、ある単語wnに先ん
じて単語列(w1,w2,…,wn-1)が出現する確率p
(w1,w2,…,wn-1|wn)を単語wnの属する品詞
クラスに先んじて単語列(w1,w2,…,wn-1)が出
現する確率p(w1,w2,…,wn-1|cn)を事前知識
とするMAP推定で補間することを考える。MAP推定
の手順自体は上述した方法を用いる。これにより得られ
たMAP推定後の確率pMAP(w1,w2,…,wn-1|w
n)を要素とするベクトルは上述したのと同様に、単語
wnの先行単語列(w1,w2,…,wn-1)に対する信頼
性のある接続属性を表している。このベクトルに基づい
て後続単語もクラス分類する。このようにして得られた
先行単語列のクラスと後続単語のクラス(ともに処理対
象の単語を基準として)は共に単語情報とともに品詞情
報をも考慮したクラスとなっており、これらのクラスか
ら生成されるクラスN−gramを、単語N−gram
と品詞クラスN−gramとを融合した融合N−gra
mと呼んでいる。
明する。単語列(w1,w2,…,w n-1)から他の単語
wnへの遷移確率は単語列(w1,w2,…,wn-1)がス
パースな場合(十分な学習量が無い場合)でもMAP推
定により信頼性のある値を割り当てることができた。し
かしながら、後続単語wnがスパースな場合の信頼性の
問題は解決されていない。そこで、ある単語wnに先ん
じて単語列(w1,w2,…,wn-1)が出現する確率p
(w1,w2,…,wn-1|wn)を単語wnの属する品詞
クラスに先んじて単語列(w1,w2,…,wn-1)が出
現する確率p(w1,w2,…,wn-1|cn)を事前知識
とするMAP推定で補間することを考える。MAP推定
の手順自体は上述した方法を用いる。これにより得られ
たMAP推定後の確率pMAP(w1,w2,…,wn-1|w
n)を要素とするベクトルは上述したのと同様に、単語
wnの先行単語列(w1,w2,…,wn-1)に対する信頼
性のある接続属性を表している。このベクトルに基づい
て後続単語もクラス分類する。このようにして得られた
先行単語列のクラスと後続単語のクラス(ともに処理対
象の単語を基準として)は共に単語情報とともに品詞情
報をも考慮したクラスとなっており、これらのクラスか
ら生成されるクラスN−gramを、単語N−gram
と品詞クラスN−gramとを融合した融合N−gra
mと呼んでいる。
【0067】さらに、品詞によるクラスについて補足説
明する。クラスN−gramにおけるクラスの指標とし
ては品詞クラス情報がよく用いられる。そこで、本発明
者は、まず、品詞クラス情報に基づくクラス分類を行っ
たクラスbigramと単語bigramの性能比較を
行った。学習セットはのべ単語数459,383単語、
異なり単語数7,221単語であり、クラスは品詞クラ
ス情報(本実施形態では、品詞クラス情報データメモリ
14に格納される。)に基づく158クラスを用いた。
実験結果はのべ単語数6,826のテストセットにおい
て、クラスbigramがパープレキシティ31.53
であったのに対して、単語bigramでは18.51
であり、両者の間にはかなりの差があることがわかる。
この原因はクラス分類に用いた品詞情報は単語の性質全
体を表わすものであるため、N−gramにおいて重要
な単語の接続性を純粋にあらわしているとは言い難いた
めと考えられる。
明する。クラスN−gramにおけるクラスの指標とし
ては品詞クラス情報がよく用いられる。そこで、本発明
者は、まず、品詞クラス情報に基づくクラス分類を行っ
たクラスbigramと単語bigramの性能比較を
行った。学習セットはのべ単語数459,383単語、
異なり単語数7,221単語であり、クラスは品詞クラ
ス情報(本実施形態では、品詞クラス情報データメモリ
14に格納される。)に基づく158クラスを用いた。
実験結果はのべ単語数6,826のテストセットにおい
て、クラスbigramがパープレキシティ31.53
であったのに対して、単語bigramでは18.51
であり、両者の間にはかなりの差があることがわかる。
この原因はクラス分類に用いた品詞情報は単語の性質全
体を表わすものであるため、N−gramにおいて重要
な単語の接続性を純粋にあらわしているとは言い難いた
めと考えられる。
【0068】この状況に鑑みて本発明者は、以下に示す
多重クラスN−gramである融合N−gramを発明
した。ここで、品詞情報によるクラス分類を行う場合
と、単語の接続性のみに着目してクラス分類を行う場合
の違いに関して考える。例として全節で用いた品詞分類
の1つである動詞活用語尾のうち次の3つを対象として
みる。 (a)「き:語尾、五段カ行、連用形」 (b)「し:語尾、五段サ行、連用形」 (c)「く:語尾、五段カ行、終止形」 これらは異なった品詞を持つために(ここでは、3つの
品詞にクラス分類される)、品詞情報によるクラス分類
では各々別のクラスとされる。この場合どのような単語
が前にくるか後にくるか、各々3通りの接続を考えるこ
とになる。しかしながら、これらに対してどのような単
語が前にくるかだけを考えた場合、「き」と「く」は同
じと考えることができ、どのような単語が後にくるかだ
けを考えた場合、「き」と「し」は同じと考えることが
できる。従って、どのような単語が前にくるか、後にく
るかという性質を個別に考え、それぞれに対して別々に
クラスを割り当てれば各々2通りの接続を考えればよい
ことになり、通常のクラス分類よりも効率的なクラス分
類を行うことができる。
多重クラスN−gramである融合N−gramを発明
した。ここで、品詞情報によるクラス分類を行う場合
と、単語の接続性のみに着目してクラス分類を行う場合
の違いに関して考える。例として全節で用いた品詞分類
の1つである動詞活用語尾のうち次の3つを対象として
みる。 (a)「き:語尾、五段カ行、連用形」 (b)「し:語尾、五段サ行、連用形」 (c)「く:語尾、五段カ行、終止形」 これらは異なった品詞を持つために(ここでは、3つの
品詞にクラス分類される)、品詞情報によるクラス分類
では各々別のクラスとされる。この場合どのような単語
が前にくるか後にくるか、各々3通りの接続を考えるこ
とになる。しかしながら、これらに対してどのような単
語が前にくるかだけを考えた場合、「き」と「く」は同
じと考えることができ、どのような単語が後にくるかだ
けを考えた場合、「き」と「し」は同じと考えることが
できる。従って、どのような単語が前にくるか、後にく
るかという性質を個別に考え、それぞれに対して別々に
クラスを割り当てれば各々2通りの接続を考えればよい
ことになり、通常のクラス分類よりも効率的なクラス分
類を行うことができる。
【0069】本実施形態では、前者である前にある単語
の後向きの接続性(fromの接続性)に関するクラス
をtoクラス(後向きのクラス)と呼び、後者である後
続する単語の前向きの接続性(toの接続性)をfro
mクラス(前向きのクラス)と呼ぶことにし、個々の単
語はtoクラス、fromクラスの2つのクラス属性
(品詞属性)を持つと考えることにする。これによれ
ば、上記の3つの単語はtoクラスでは (a)「き、く:語尾、五段カ行」 (b)「し:語尾、五段サ行」 の2つのクラスで表現でき、fromクラスでは (a)「き、し:語尾、五段、連用形」 (b)「く:語尾、五段、終止形」 の2つのクラスで表現できる。この考え方はN≧3の場
合に対してもそのまま拡張可能で、この場合、個々の単
語はN個のクラス属性を持つことになる。このクラス属
性のことを多重クラスと呼び、これを用いたN−gra
mを多重クラスN−gramと呼ぶ。N=2としたとき
の多重クラスbigramの出現確率は次式で表わされ
る。
の後向きの接続性(fromの接続性)に関するクラス
をtoクラス(後向きのクラス)と呼び、後者である後
続する単語の前向きの接続性(toの接続性)をfro
mクラス(前向きのクラス)と呼ぶことにし、個々の単
語はtoクラス、fromクラスの2つのクラス属性
(品詞属性)を持つと考えることにする。これによれ
ば、上記の3つの単語はtoクラスでは (a)「き、く:語尾、五段カ行」 (b)「し:語尾、五段サ行」 の2つのクラスで表現でき、fromクラスでは (a)「き、し:語尾、五段、連用形」 (b)「く:語尾、五段、終止形」 の2つのクラスで表現できる。この考え方はN≧3の場
合に対してもそのまま拡張可能で、この場合、個々の単
語はN個のクラス属性を持つことになる。このクラス属
性のことを多重クラスと呼び、これを用いたN−gra
mを多重クラスN−gramと呼ぶ。N=2としたとき
の多重クラスbigramの出現確率は次式で表わされ
る。
【0070】
【数30】P(Wn|Wn−1)≒P(Ct(Wn)|
Cf(Wn−1))×P(Wn|Ct(Wn))
Cf(Wn−1))×P(Wn|Ct(Wn))
【0071】ここで、Ctは、処理対象の単語が属する
toクラスを表わし、Cfはfromクラスを表わすも
のとする。このときのパラメータ数はクラスN−gra
mが、クラス数の自乗+単語数となるのに対して、to
クラス数×fromクラス数+単語数となる。
toクラスを表わし、Cfはfromクラスを表わすも
のとする。このときのパラメータ数はクラスN−gra
mが、クラス数の自乗+単語数となるのに対して、to
クラス数×fromクラス数+単語数となる。
【0072】さらに、言語モデル生成部20及び30に
よって実行される統計的言語モデル生成処理について図
4乃至図10のフローチャートを参照して説明する。
よって実行される統計的言語モデル生成処理について図
4乃至図10のフローチャートを参照して説明する。
【0073】図4は、図1の言語モデル生成部20によ
って実行される第1の言語モデル生成処理を示すフロー
チャートである。図4において、まず、ステップS1に
おいて前向き言語モデル生成処理(図5)を実行した
後、ステップS2において後向き言語モデル生成処理
(図6)を実行して、当該第1の言語モデル生成処理を
終了する。
って実行される第1の言語モデル生成処理を示すフロー
チャートである。図4において、まず、ステップS1に
おいて前向き言語モデル生成処理(図5)を実行した
後、ステップS2において後向き言語モデル生成処理
(図6)を実行して、当該第1の言語モデル生成処理を
終了する。
【0074】図5は、図4のサブルーチンである前向き
言語モデル生成処理を示すフローチャートである。図5
において、まず、ステップS11において学習用テキス
トデータメモリ13内に格納され、発声音声文を書き下
したコーパスである学習用テキストデータに基づいて、
前向きの単語N−gramの統計的言語モデルを生成し
た後、ステップS12において学習用テキストデータメ
モリ13内の学習用テキストデータと、品詞クラス情報
データメモリ14内の品詞クラス情報データとに基づい
て、前向きの品詞クラス−単語N−gramの統計的言
語モデルを生成する。次いで、ステップS13において
品詞クラスと単語列との各対に対して、数13乃至数1
6を用いてMAP推定法のためのパラメータα及びβを
計算し、ステップS14において各単語列に対して、計
算されたパラメータα及びβに基づいて数4を用いてM
AP推定後の前向きの遷移確率を計算する。さらに、ス
テップS15において計算された前向きの遷移確率に対
して、正規化処理と平滑化処理を実行することにより前
向き言語モデルを生成して、統計的言語モデルメモリ2
1に格納して、元のメインルーチンに戻る。
言語モデル生成処理を示すフローチャートである。図5
において、まず、ステップS11において学習用テキス
トデータメモリ13内に格納され、発声音声文を書き下
したコーパスである学習用テキストデータに基づいて、
前向きの単語N−gramの統計的言語モデルを生成し
た後、ステップS12において学習用テキストデータメ
モリ13内の学習用テキストデータと、品詞クラス情報
データメモリ14内の品詞クラス情報データとに基づい
て、前向きの品詞クラス−単語N−gramの統計的言
語モデルを生成する。次いで、ステップS13において
品詞クラスと単語列との各対に対して、数13乃至数1
6を用いてMAP推定法のためのパラメータα及びβを
計算し、ステップS14において各単語列に対して、計
算されたパラメータα及びβに基づいて数4を用いてM
AP推定後の前向きの遷移確率を計算する。さらに、ス
テップS15において計算された前向きの遷移確率に対
して、正規化処理と平滑化処理を実行することにより前
向き言語モデルを生成して、統計的言語モデルメモリ2
1に格納して、元のメインルーチンに戻る。
【0075】図6は、図4のサブルーチンである後向き
言語モデル生成処理を示すフローチャートである。図6
において、まず、ステップS21において学習用テキス
トデータメモリ13内の学習用テキストデータに基づい
て後向きの単語N−gramを生成した後、ステップS
22において学習用テキストデータメモリ13内の学習
用テキストデータと、品詞クラス情報データメモリ14
内の品詞クラス情報データとに基づいて、後向きの品詞
クラス−単語N−gramを生成する。次いで、ステッ
プS23において品詞クラスと単語列との各対に対し
て、数13、数14、数21及び数22を用いてMAP
推定法のためのパラメータα及びβを計算し、ステップ
S24において各単語列に対して、計算されたパラメー
タα及びβに基づいて数17を用いてMAP推定後の後
向きの遷移確率を計算する。さらに、ステップS25に
おいて計算された後向きの遷移確率に対して正規化処理
と平滑化処理を実行することにより、後向き言語モデル
を生成して、統計的言語モデルメモリ22に格納して、
元のメインルーチンに戻る。
言語モデル生成処理を示すフローチャートである。図6
において、まず、ステップS21において学習用テキス
トデータメモリ13内の学習用テキストデータに基づい
て後向きの単語N−gramを生成した後、ステップS
22において学習用テキストデータメモリ13内の学習
用テキストデータと、品詞クラス情報データメモリ14
内の品詞クラス情報データとに基づいて、後向きの品詞
クラス−単語N−gramを生成する。次いで、ステッ
プS23において品詞クラスと単語列との各対に対し
て、数13、数14、数21及び数22を用いてMAP
推定法のためのパラメータα及びβを計算し、ステップ
S24において各単語列に対して、計算されたパラメー
タα及びβに基づいて数17を用いてMAP推定後の後
向きの遷移確率を計算する。さらに、ステップS25に
おいて計算された後向きの遷移確率に対して正規化処理
と平滑化処理を実行することにより、後向き言語モデル
を生成して、統計的言語モデルメモリ22に格納して、
元のメインルーチンに戻る。
【0076】図7は、図1の言語モデル生成部30によ
って実行される第2の言語モデル生成処理を示すフロー
チャートである。図7において、まず、ステップS31
において前向き言語モデルのクラスタリング処理(図
8)を実行し、ステップS32において後向き言語モデ
ルのクラスタリング処理(図9)を実行し、ステップS
33において融合言語モデル生成処理(図10)を実行
して当該第2の言語モデル生成処理を終了する。
って実行される第2の言語モデル生成処理を示すフロー
チャートである。図7において、まず、ステップS31
において前向き言語モデルのクラスタリング処理(図
8)を実行し、ステップS32において後向き言語モデ
ルのクラスタリング処理(図9)を実行し、ステップS
33において融合言語モデル生成処理(図10)を実行
して当該第2の言語モデル生成処理を終了する。
【0077】図8は、図7のサブルーチンである前向き
言語モデルのクラスタリング処理(ステップS31)を
示すフローチャートである。図8において、まず、ステ
ップS41において統計的言語モデルメモリ21内の前
向き言語モデルの遷移確率に基づいて、処理対象単語よ
りも前に接続される各単語列に対して特徴量として上記
遷移確率を割り当てて、ここで、1単語列に対して1つ
のクラスとする。次いで、ステップS42において各ク
ラスの対をマージしてマージコストが最小となるクラス
の対を選択し、1つのクラスに統合し、ステップS43
において所定のクラス数しきい値(例えば、200又は
500)になったか否かが判断される。ここで、NOの
ときはステップS42に戻る一方、YESのときはステ
ップS44に進み、クラスタリング後の処理対象単語に
先行する単語列のクラス分類情報を一時メモリに格納し
て元のメインルーチンに戻る。
言語モデルのクラスタリング処理(ステップS31)を
示すフローチャートである。図8において、まず、ステ
ップS41において統計的言語モデルメモリ21内の前
向き言語モデルの遷移確率に基づいて、処理対象単語よ
りも前に接続される各単語列に対して特徴量として上記
遷移確率を割り当てて、ここで、1単語列に対して1つ
のクラスとする。次いで、ステップS42において各ク
ラスの対をマージしてマージコストが最小となるクラス
の対を選択し、1つのクラスに統合し、ステップS43
において所定のクラス数しきい値(例えば、200又は
500)になったか否かが判断される。ここで、NOの
ときはステップS42に戻る一方、YESのときはステ
ップS44に進み、クラスタリング後の処理対象単語に
先行する単語列のクラス分類情報を一時メモリに格納し
て元のメインルーチンに戻る。
【0078】図9は、図7のサブルーチンである後向き
言語モデルのクラスタリング処理(ステップS32)を
示すフローチャートである。図9において、ステップS
51において統計的言語モデルメモリ22内の後向き言
語モデルの遷移確率に基づいて、各処理対象単語に対し
て特徴量として上記遷移確率を割り当て、ここで、1単
語列に対して1つのクラスとする。次いで、ステップS
52において各クラスの対をマージしてマージコストが
最小となるクラスの対を選択し、1つのクラスに統合
し、ステップS53において所定のクラス数しきい値に
なったか否かが判断される。ここで、NOのときはステ
ップS52に戻る一方、YESのときはステップS54
に進み、クラスタリング後の処理対象単語のクラス分類
情報を一時メモリに格納して元のメインルーチンに戻
る。
言語モデルのクラスタリング処理(ステップS32)を
示すフローチャートである。図9において、ステップS
51において統計的言語モデルメモリ22内の後向き言
語モデルの遷移確率に基づいて、各処理対象単語に対し
て特徴量として上記遷移確率を割り当て、ここで、1単
語列に対して1つのクラスとする。次いで、ステップS
52において各クラスの対をマージしてマージコストが
最小となるクラスの対を選択し、1つのクラスに統合
し、ステップS53において所定のクラス数しきい値に
なったか否かが判断される。ここで、NOのときはステ
ップS52に戻る一方、YESのときはステップS54
に進み、クラスタリング後の処理対象単語のクラス分類
情報を一時メモリに格納して元のメインルーチンに戻
る。
【0079】図10は、図7のサブルーチンである融合
言語モデル生成処理を示すフローチャートである。図1
0において、まず、ステップS61において、一時メモ
リにそれぞれ格納されたクラスタリング後の処理対象単
語に先行する単語列のクラス分類情報と、クラスタリン
グ後の処理対象単語のクラス分類情報とを処理対象とす
る。次いで、ステップS62において、学習用テキスト
データメモリ13内の学習用テキストデータに基づい
て、上記2つのクラス分類情報の各クラスを用いて、処
理対象単語に先行する単語列のクラスから処理対象単語
のクラスへの頻度確率を計算することにより、単語N−
gramと、品詞クラスN−gramとを融合させた融
合N−gramの統計的言語モデルを生成して統計的言
語モデルメモリ31に格納して元のメインルーチンに戻
る。
言語モデル生成処理を示すフローチャートである。図1
0において、まず、ステップS61において、一時メモ
リにそれぞれ格納されたクラスタリング後の処理対象単
語に先行する単語列のクラス分類情報と、クラスタリン
グ後の処理対象単語のクラス分類情報とを処理対象とす
る。次いで、ステップS62において、学習用テキスト
データメモリ13内の学習用テキストデータに基づい
て、上記2つのクラス分類情報の各クラスを用いて、処
理対象単語に先行する単語列のクラスから処理対象単語
のクラスへの頻度確率を計算することにより、単語N−
gramと、品詞クラスN−gramとを融合させた融
合N−gramの統計的言語モデルを生成して統計的言
語モデルメモリ31に格納して元のメインルーチンに戻
る。
【0080】次いで、図1に示す連続音声認識装置の構
成及び動作について説明する。図1において、単語照合
部4に接続された音素隠れマルコフモデル(以下、隠れ
マルコフモデルをHMMという。)メモリ11内の音素
HMMは、各状態を含んで表され、各状態はそれぞれ以
下の情報を有する。 (a)状態番号、(b)受理可能なコンテキストクラ
ス、(c)先行状態、及び後続状態のリスト、(d)出
力確率密度分布のパラメータ、及び(e)自己遷移確率
及び後続状態への遷移確率。なお、本実施形態において
用いる音素HMMは、各分布がどの話者に由来するかを
特定する必要があるため、所定の話者混合HMMを変換
して生成する。ここで、出力確率密度関数は34次元の
対角共分散行列をもつ混合ガウス分布である。また、単
語照合部4に接続された単語辞書メモリ12内の単語辞
書は、音素HMMメモリ11内の音素HMMの各単語毎
にシンボルで表した読みを示すシンボル列を格納する。
成及び動作について説明する。図1において、単語照合
部4に接続された音素隠れマルコフモデル(以下、隠れ
マルコフモデルをHMMという。)メモリ11内の音素
HMMは、各状態を含んで表され、各状態はそれぞれ以
下の情報を有する。 (a)状態番号、(b)受理可能なコンテキストクラ
ス、(c)先行状態、及び後続状態のリスト、(d)出
力確率密度分布のパラメータ、及び(e)自己遷移確率
及び後続状態への遷移確率。なお、本実施形態において
用いる音素HMMは、各分布がどの話者に由来するかを
特定する必要があるため、所定の話者混合HMMを変換
して生成する。ここで、出力確率密度関数は34次元の
対角共分散行列をもつ混合ガウス分布である。また、単
語照合部4に接続された単語辞書メモリ12内の単語辞
書は、音素HMMメモリ11内の音素HMMの各単語毎
にシンボルで表した読みを示すシンボル列を格納する。
【0081】図1において、話者の発声音声はマイクロ
ホン1に入力されて音声信号に変換された後、特徴抽出
部2に入力される。特徴抽出部2は、入力された音声信
号をA/D変換した後、例えばLPC分析を実行し、対
数パワー、16次ケプストラム係数、Δ対数パワー及び
16次Δケプストラム係数を含む34次元の特徴パラメ
ータを抽出する。抽出された特徴パラメータの時系列は
バッファメモリ3を介して単語照合部4に入力される。
ホン1に入力されて音声信号に変換された後、特徴抽出
部2に入力される。特徴抽出部2は、入力された音声信
号をA/D変換した後、例えばLPC分析を実行し、対
数パワー、16次ケプストラム係数、Δ対数パワー及び
16次Δケプストラム係数を含む34次元の特徴パラメ
ータを抽出する。抽出された特徴パラメータの時系列は
バッファメモリ3を介して単語照合部4に入力される。
【0082】単語照合部4は、ワン−パス・ビタビ復号
化法を用いて、バッファメモリ3を介して入力される特
徴パラメータのデータに基づいて、音素HMMメモリ1
1内の音素HMMと単語辞書メモリ12内の単語辞書と
を用いて単語仮説を検出し尤度を計算して出力する。こ
こで、単語照合部4は、各時刻の各HMMの状態毎に、
単語内の尤度と発声開始からの尤度を計算する。尤度
は、単語の識別番号、単語の開始時刻、先行単語の違い
毎に個別にもつ。また、計算処理量の削減のために、上
記音素HMM及び単語辞書とに基づいて計算される総尤
度のうちの低い尤度のグリッド仮説を削減する。単語照
合部4は、その結果の単語仮説と尤度の情報を発声開始
時刻からの時間情報(具体的には、例えばフレーム番
号)とともにバッファメモリ5を介して単語仮説絞込部
6に出力する。
化法を用いて、バッファメモリ3を介して入力される特
徴パラメータのデータに基づいて、音素HMMメモリ1
1内の音素HMMと単語辞書メモリ12内の単語辞書と
を用いて単語仮説を検出し尤度を計算して出力する。こ
こで、単語照合部4は、各時刻の各HMMの状態毎に、
単語内の尤度と発声開始からの尤度を計算する。尤度
は、単語の識別番号、単語の開始時刻、先行単語の違い
毎に個別にもつ。また、計算処理量の削減のために、上
記音素HMM及び単語辞書とに基づいて計算される総尤
度のうちの低い尤度のグリッド仮説を削減する。単語照
合部4は、その結果の単語仮説と尤度の情報を発声開始
時刻からの時間情報(具体的には、例えばフレーム番
号)とともにバッファメモリ5を介して単語仮説絞込部
6に出力する。
【0083】ここで、スイッチSWをa側に切り換えた
とき、統計的言語モデルメモリ21が単語仮説絞込部6
に接続されて単語仮説絞込部6は、言語モデル生成部2
0により生成された統計的言語モデルメモリ21内の前
向きN−gramである統計的言語モデルを参照して単
語仮説絞込処理を行う一方、スイッチSWをb側に切り
換えたとき、統計的言語モデルメモリ31が単語仮説絞
込部6に接続されて単語仮説絞込部6は、言語モデル生
成部30により生成された統計的言語モデルメモリ31
内の融合N−gramである統計的言語モデルを参照し
て単語仮説絞込処理を行う。
とき、統計的言語モデルメモリ21が単語仮説絞込部6
に接続されて単語仮説絞込部6は、言語モデル生成部2
0により生成された統計的言語モデルメモリ21内の前
向きN−gramである統計的言語モデルを参照して単
語仮説絞込処理を行う一方、スイッチSWをb側に切り
換えたとき、統計的言語モデルメモリ31が単語仮説絞
込部6に接続されて単語仮説絞込部6は、言語モデル生
成部30により生成された統計的言語モデルメモリ31
内の融合N−gramである統計的言語モデルを参照し
て単語仮説絞込処理を行う。
【0084】単語仮説絞込部6は、単語照合部4からバ
ッファメモリ5を介して出力される単語仮説に基づい
て、統計的言語モデルメモリ21又は31内の統計的言
語モデルを参照して、終了時刻が等しく開始時刻が異な
る同一の単語の単語仮説に対して、当該単語の先頭音素
環境毎に、発声開始時刻から当該単語の終了時刻に至る
計算された総尤度のうちの最も高い尤度を有する1つの
単語仮説で代表させるように単語仮説の絞り込みを行っ
た後、絞り込み後のすべての単語仮説の単語列のうち、
最大の総尤度を有する仮説の単語列を認識結果として出
力する。なお、タスク適応化された統計的言語モデル
は、各タスク毎に1つの統計的言語モデルを備え、単語
仮説絞込部6は、音声認識しようとするタスクに対応す
る統計的言語モデルを選択的に参照する。本実施形態に
おいては、好ましくは、処理すべき当該単語の先頭音素
環境とは、当該単語より先行する単語仮説の最終音素
と、当該単語の単語仮説の最初の2つの音素とを含む3
つの音素並びをいう。
ッファメモリ5を介して出力される単語仮説に基づい
て、統計的言語モデルメモリ21又は31内の統計的言
語モデルを参照して、終了時刻が等しく開始時刻が異な
る同一の単語の単語仮説に対して、当該単語の先頭音素
環境毎に、発声開始時刻から当該単語の終了時刻に至る
計算された総尤度のうちの最も高い尤度を有する1つの
単語仮説で代表させるように単語仮説の絞り込みを行っ
た後、絞り込み後のすべての単語仮説の単語列のうち、
最大の総尤度を有する仮説の単語列を認識結果として出
力する。なお、タスク適応化された統計的言語モデル
は、各タスク毎に1つの統計的言語モデルを備え、単語
仮説絞込部6は、音声認識しようとするタスクに対応す
る統計的言語モデルを選択的に参照する。本実施形態に
おいては、好ましくは、処理すべき当該単語の先頭音素
環境とは、当該単語より先行する単語仮説の最終音素
と、当該単語の単語仮説の最初の2つの音素とを含む3
つの音素並びをいう。
【0085】例えば、図2に示すように、(i−1)番
目の単語Wi-1の次に、音素列a1,a2,…,anからな
るi番目の単語Wiがくるときに、単語Wi-1の単語仮説
として6つの仮説Wa,Wb,Wc,Wd,We,Wf
が存在している。ここで、前者3つの単語仮説Wa,W
b,Wcの最終音素は/x/であるとし、後者3つの単
語仮説Wd,We,Wfの最終音素は/y/であるとす
る。終了時刻teと先頭音素環境が等しい仮説(図2で
は先頭音素環境が“x/a1/a2”である上から3つの
単語仮説)のうち総尤度が最も高い仮説(例えば、図2
において1番上の仮説)以外を削除する。なお、上から
4番めの仮説は先頭音素環境が違うため、すなわち、先
行する単語仮説の最終音素がxではなくyであるので、
上から4番めの仮説を削除しない。すなわち、先行する
単語仮説の最終音素毎に1つのみ仮説を残す。図2の例
では、最終音素/x/に対して1つの仮説を残し、最終
音素/y/に対して1つの仮説を残す。
目の単語Wi-1の次に、音素列a1,a2,…,anからな
るi番目の単語Wiがくるときに、単語Wi-1の単語仮説
として6つの仮説Wa,Wb,Wc,Wd,We,Wf
が存在している。ここで、前者3つの単語仮説Wa,W
b,Wcの最終音素は/x/であるとし、後者3つの単
語仮説Wd,We,Wfの最終音素は/y/であるとす
る。終了時刻teと先頭音素環境が等しい仮説(図2で
は先頭音素環境が“x/a1/a2”である上から3つの
単語仮説)のうち総尤度が最も高い仮説(例えば、図2
において1番上の仮説)以外を削除する。なお、上から
4番めの仮説は先頭音素環境が違うため、すなわち、先
行する単語仮説の最終音素がxではなくyであるので、
上から4番めの仮説を削除しない。すなわち、先行する
単語仮説の最終音素毎に1つのみ仮説を残す。図2の例
では、最終音素/x/に対して1つの仮説を残し、最終
音素/y/に対して1つの仮説を残す。
【0086】以上の実施形態においては、当該単語の先
頭音素環境とは、当該単語より先行する単語仮説の最終
音素と、当該単語の単語仮説の最初の2つの音素とを含
む3つの音素並びとして定義されているが、本発明はこ
れに限らず、先行する単語仮説の最終音素と、最終音素
と連続する先行する単語仮説の少なくとも1つの音素と
を含む先行単語仮説の音素列と、当該単語の単語仮説の
最初の音素を含む音素列とを含む音素並びとしてもよ
い。
頭音素環境とは、当該単語より先行する単語仮説の最終
音素と、当該単語の単語仮説の最初の2つの音素とを含
む3つの音素並びとして定義されているが、本発明はこ
れに限らず、先行する単語仮説の最終音素と、最終音素
と連続する先行する単語仮説の少なくとも1つの音素と
を含む先行単語仮説の音素列と、当該単語の単語仮説の
最初の音素を含む音素列とを含む音素並びとしてもよ
い。
【0087】以上の実施形態において、特徴抽出部2
と、単語照合部4と、単語仮説絞込部6と、言語モデル
生成部20,30とは、例えば、デジタル電子計算機な
どのコンピュータで構成され、バッファメモリ3,5
と、音素HMMメモリ11と、単語辞書メモリ12と、
学習用テキストデータメモリ13と、品詞クラス情報デ
ータメモリ14と、統計的言語モデルメモリ21,2
2,31とは、例えばハードディスクメモリなどの記憶
装置で構成される。
と、単語照合部4と、単語仮説絞込部6と、言語モデル
生成部20,30とは、例えば、デジタル電子計算機な
どのコンピュータで構成され、バッファメモリ3,5
と、音素HMMメモリ11と、単語辞書メモリ12と、
学習用テキストデータメモリ13と、品詞クラス情報デ
ータメモリ14と、統計的言語モデルメモリ21,2
2,31とは、例えばハードディスクメモリなどの記憶
装置で構成される。
【0088】以上実施形態においては、単語照合部4と
単語仮説絞込部6とを用いて音声認識を行っているが、
本発明はこれに限らず、例えば、音素HMM11を参照
する音素照合部と、例えばOne Pass DPアル
ゴリズムを用いて統計的言語モデルを参照して単語の音
声認識を行う音声認識部とで構成してもよい。
単語仮説絞込部6とを用いて音声認識を行っているが、
本発明はこれに限らず、例えば、音素HMM11を参照
する音素照合部と、例えばOne Pass DPアル
ゴリズムを用いて統計的言語モデルを参照して単語の音
声認識を行う音声認識部とで構成してもよい。
【0089】以上の実施形態においては、単語仮説絞込
部6において用いる統計的言語モデルとして、前向きの
N−gram又は融合N−gramを用いているが、統
計的言語モデルメモリ22内の後向きのN−gramを
用いてもよいし、前向きのN−gramと後向きのN−
gramの各遷移確率の平均値を有するN−gramの
統計的言語モデルを生成して、これを単語仮説絞込部6
で用いてもよい。
部6において用いる統計的言語モデルとして、前向きの
N−gram又は融合N−gramを用いているが、統
計的言語モデルメモリ22内の後向きのN−gramを
用いてもよいし、前向きのN−gramと後向きのN−
gramの各遷移確率の平均値を有するN−gramの
統計的言語モデルを生成して、これを単語仮説絞込部6
で用いてもよい。
【0090】
【実施例】<第1の実施形態の実験とその結果>本発明
者は、MAP推定による品詞情報と単語情報の連続補間
の有効性を確認するために評価実験を行った。実験にお
けるN−gramの次元は2−gramを用い、平滑化
はカットオフ係数0のバックオフを用いた。比較対象は
事後知識である単語2−gram、事前知識である品詞
クラス−単語2−gram、及びそれらの線形結合モデ
ルとした。学習用テキストデータ及び品詞クラス情報デ
ータである学習セットは総単語数約26万語、異なり単
語数約4千語からなる日本語の対話文で、品詞情報は8
8個のカテゴリに分類されている。また、評価セットは
学習セットと同一タスクの16会話2178単語の評価
セットAと学習セットとは異なるタスクの24会話36
55単語の評価セットBの2種類を用いた。本発明者に
よる実験結果である、各モデルにおける評価セットA、
Bにおけるパープレキシティを表2に示す。
者は、MAP推定による品詞情報と単語情報の連続補間
の有効性を確認するために評価実験を行った。実験にお
けるN−gramの次元は2−gramを用い、平滑化
はカットオフ係数0のバックオフを用いた。比較対象は
事後知識である単語2−gram、事前知識である品詞
クラス−単語2−gram、及びそれらの線形結合モデ
ルとした。学習用テキストデータ及び品詞クラス情報デ
ータである学習セットは総単語数約26万語、異なり単
語数約4千語からなる日本語の対話文で、品詞情報は8
8個のカテゴリに分類されている。また、評価セットは
学習セットと同一タスクの16会話2178単語の評価
セットAと学習セットとは異なるタスクの24会話36
55単語の評価セットBの2種類を用いた。本発明者に
よる実験結果である、各モデルにおける評価セットA、
Bにおけるパープレキシティを表2に示す。
【0091】
【表2】 各モデルの評価セットにおける性能(パープレキシティ) ―――――――――――――――――――――――――――――――――― テストセットA テストセットB (同一のタスク) (異なるタスク) ―――――――――――――――――――――――――――――――――― 単語2−gram 14.39 53.06 ―――――――――――――――――――――――――――――――――― 品詞クラス−単語2−gram 22.00 58.74 ―――――――――――――――――――――――――――――――――― 線形結合された2−gram 14.00 45.69 ―――――――――――――――――――――――――――――――――― MAP推定された2−gram 13.33 43.76 (第1の実施形態) ――――――――――――――――――――――――――――――――――
【0092】表2から明らかなように、MAP推定後の
モデルは両方の評価セットに対して、最もパープレキシ
ティが低く、特に評価セットBに対して著しい。このこ
とからMAP推定を用いて品詞情報と単語情報を連続的
に補間したモデルでは、単語2−gramの持つ次単語
予測精度を保ったまま、「タスクのずれに対する頑健
さ」が加わっており、その効果は線形結合モデルよりも
大きいことがわかる。
モデルは両方の評価セットに対して、最もパープレキシ
ティが低く、特に評価セットBに対して著しい。このこ
とからMAP推定を用いて品詞情報と単語情報を連続的
に補間したモデルでは、単語2−gramの持つ次単語
予測精度を保ったまま、「タスクのずれに対する頑健
さ」が加わっており、その効果は線形結合モデルよりも
大きいことがわかる。
【0093】<第2の実施形態の実験とその結果>第1
の実施形態の言語モデル生成部20により得られたMA
P推定と自動クラス分類の併用による品詞N−gram
と、単語N−gramの融合N−gramモデル(第2
の実施形態)に対する評価実験を行った。評価の条件
は、第1の実施形態の条件と同じであり、比較対象は単
語2−gram及び自動クラス分類のみを行ったクラス
2−gramとした。また、クラス数はそれぞれに対し
て、500及び200クラスのものを用いた。各モデル
に対する評価セットA、Bのパープレキシティとクラス
数の関係を図11に示す。評価セットA、B双方におい
て一定のクラス数まではクラス数の減少とともにパープ
レキシティも減少しており、品詞情報を含んだ特徴量を
用いたクラス分類の効果が現われている。特に異なるタ
スクである評価セットBにおいてパープレキシティの減
少が著しく、タスクのずれに対する頑健さとして品詞情
報が効果的に働いていることを示している。また、クラ
ス200及び500の場合のパープレキシティの値を表
3に示す。
の実施形態の言語モデル生成部20により得られたMA
P推定と自動クラス分類の併用による品詞N−gram
と、単語N−gramの融合N−gramモデル(第2
の実施形態)に対する評価実験を行った。評価の条件
は、第1の実施形態の条件と同じであり、比較対象は単
語2−gram及び自動クラス分類のみを行ったクラス
2−gramとした。また、クラス数はそれぞれに対し
て、500及び200クラスのものを用いた。各モデル
に対する評価セットA、Bのパープレキシティとクラス
数の関係を図11に示す。評価セットA、B双方におい
て一定のクラス数まではクラス数の減少とともにパープ
レキシティも減少しており、品詞情報を含んだ特徴量を
用いたクラス分類の効果が現われている。特に異なるタ
スクである評価セットBにおいてパープレキシティの減
少が著しく、タスクのずれに対する頑健さとして品詞情
報が効果的に働いていることを示している。また、クラ
ス200及び500の場合のパープレキシティの値を表
3に示す。
【0094】
【表3】 融合2−gramのパープレキシティ評価 ―――――――――――――――――――――――――――――――――― クラス数 テストセットA テストセットB (同一のタスク) (異なるタスク) ―――――――――――――――――――――――――――――――――― 単語2−gram 14.39 53.06 ―――――――――――――――――――――――――――――――――― 自動的にクラスタリング 500 15.12 59.10 された2−gram ――――――――――――――――――――――― 200 16.62 58.01 ―――――――――――――――――――――――――――――――――― 融合2−gram 500 13.95 45.32 (第2の実施形態) ――――――――――――――――――――――― 200 15.44 46.51 ――――――――――――――――――――――――――――――――――
【0095】表3から明らかなように、融合2−gra
mは自動クラス分類によるクラス2−gram、単語2
−gram双方に対して低いパープレキシティを示して
いる。特に、評価セットBに対しては単語2−gram
に対して、15%パープレキシティが低下しており、タ
スクのずれに対する頑健さを示している。また、このと
きの論理パラメータサイズは単語2−gramの2%未
満であり、エントリ数においても1/2であり。従来技
術の項で述べた4つの要求を同時に満たしていることが
わかる。
mは自動クラス分類によるクラス2−gram、単語2
−gram双方に対して低いパープレキシティを示して
いる。特に、評価セットBに対しては単語2−gram
に対して、15%パープレキシティが低下しており、タ
スクのずれに対する頑健さを示している。また、このと
きの論理パラメータサイズは単語2−gramの2%未
満であり、エントリ数においても1/2であり。従来技
術の項で述べた4つの要求を同時に満たしていることが
わかる。
【0096】次いで、第2の実施形態の融合2−gra
mの連続単語認識における評価を行った。実験条件は、
上述の条件と同様であり、その評価結果を示す。
mの連続単語認識における評価を行った。実験条件は、
上述の条件と同様であり、その評価結果を示す。
【0097】
【表4】 融合2−gram(第2の実施形態)の単語誤認識率の評価 ―――――――――――――――――――――――――――――――――― テストセットA テストセットB (同一のタスク) (異なるタスク) ―――――――――――――――――――――――――――――――――― 単語2−gram 14.34% 32.76% ―――――――――――――――――――――――――――――――――― 融合2−gram 12.37% 23.07% (200クラス) ―――――――――――――――――――――――――――――――――― 融合2−gram 12.02% 23.51% (500クラス) ――――――――――――――――――――――――――――――――――
【0098】表4から明らかなように、融合2−gra
mの単語誤認識率はパープレキシティ同様評価セット
A、B共単語2−gramより低い値を示している。ま
たその低下率はパープレキシティが同一タスクで3%で
あったのに対し16%と大きく、さらに、異なるタスク
では28%と著しい。このことから融合2−gramは
連続単語認識おいても同一タスク、異なるタスク共に非
常に有効であることがわかる。
mの単語誤認識率はパープレキシティ同様評価セット
A、B共単語2−gramより低い値を示している。ま
たその低下率はパープレキシティが同一タスクで3%で
あったのに対し16%と大きく、さらに、異なるタスク
では28%と著しい。このことから融合2−gramは
連続単語認識おいても同一タスク、異なるタスク共に非
常に有効であることがわかる。
【0099】以上説明したように、本実施形態によれ
ば、単語N−gramに対してスパースデータに対する
信頼性とタスクのずれに対する頑健さを与える手法とし
て、品詞クラスN−gramを事前知識とした最大事後
確率推定を用いる方法を提案した。本手法を用いること
により、出現回数の少ない単語ペアに対しても品詞クラ
スN−gramの値に基づく信頼性のある値を与えるこ
とができる。また、同時にタスクのずれに対して頑健で
あるという品詞クラスN−gramの性質も引き継ぐこ
とができる。
ば、単語N−gramに対してスパースデータに対する
信頼性とタスクのずれに対する頑健さを与える手法とし
て、品詞クラスN−gramを事前知識とした最大事後
確率推定を用いる方法を提案した。本手法を用いること
により、出現回数の少ない単語ペアに対しても品詞クラ
スN−gramの値に基づく信頼性のある値を与えるこ
とができる。また、同時にタスクのずれに対して頑健で
あるという品詞クラスN−gramの性質も引き継ぐこ
とができる。
【0100】さらに、このモデルの単語間の遷移確率を
単語の特徴量とみなし、これに基づいて自動クラス分類
を行うことにより、性能を落とすことなくパラメータサ
イズを縮小することができる。このモデルは単語N−g
ramの2%の論理パラメータ数、50%のエントリ数
で、同一タスクでは3%、異なるタスクでは15%パー
プレキシティが低く、さらに連続単語認識においては単
語誤認識率がそれぞれ16%及び28%だけ低い。この
ことから単語N−gramの次単語予測精度を保ったま
ま、スパースデータ対する信頼性、タスクのずれに対す
る頑健さを加えたうえ、モデルサイズも縮小できること
が実験により確認された。
単語の特徴量とみなし、これに基づいて自動クラス分類
を行うことにより、性能を落とすことなくパラメータサ
イズを縮小することができる。このモデルは単語N−g
ramの2%の論理パラメータ数、50%のエントリ数
で、同一タスクでは3%、異なるタスクでは15%パー
プレキシティが低く、さらに連続単語認識においては単
語誤認識率がそれぞれ16%及び28%だけ低い。この
ことから単語N−gramの次単語予測精度を保ったま
ま、スパースデータ対する信頼性、タスクのずれに対す
る頑健さを加えたうえ、モデルサイズも縮小できること
が実験により確認された。
【0101】従って、以上詳述したように、第1の実施
形態の言語モデル生成部20により生成された前向きN
−gramである統計的言語モデルは、モデルサイズを
小型化できないが、予測精度、信頼性及び頑健さにおい
て優れた性能を有する。また、この統計的言語モデルを
用いて音声認識することにより、従来例に比較して改善
された音声認識率で音声認識できる。
形態の言語モデル生成部20により生成された前向きN
−gramである統計的言語モデルは、モデルサイズを
小型化できないが、予測精度、信頼性及び頑健さにおい
て優れた性能を有する。また、この統計的言語モデルを
用いて音声認識することにより、従来例に比較して改善
された音声認識率で音声認識できる。
【0102】また、第2の実施形態の言語モデル生成部
30により生成された融合N−gramである統計的言
語モデルは、予測精度、信頼性、モデルサイズ及び頑健
さにおいて優れた性能を有する。また、この統計的言語
モデルを用いて音声認識することにより、従来例に比較
して改善された音声認識率で音声認識できる。
30により生成された融合N−gramである統計的言
語モデルは、予測精度、信頼性、モデルサイズ及び頑健
さにおいて優れた性能を有する。また、この統計的言語
モデルを用いて音声認識することにより、従来例に比較
して改善された音声認識率で音声認識できる。
【0103】
【発明の効果】以上詳述したように本発明に係る請求項
1記載の統計的言語モデル生成装置によれば、所定の話
者の発声音声文を書き下した学習用テキストデータに基
づいて、複数の単語からなる単語列の後に処理対象の単
語が生起する第1の頻度確率を計算することにより前向
きの単語N−gramの統計的言語モデルを生成する第
1の生成手段と、上記学習用テキストデータと、品詞ク
ラス情報を含む品詞クラス情報データとに基づいて、第
1の単語の品詞クラス及び上記第1の単語の後に接続さ
れる複数の単語からなる単語列の後に、処理対象の単語
が生起する第2の頻度確率を計算することにより前向き
の品詞クラス−単語N−gramの統計的言語モデルを
生成する第2の生成手段と、上記第2の生成手段によっ
て生成された前向きの品詞クラス−単語N−gramの
統計的言語モデルを事前知識として用い、上記第1の生
成手段によって生成された前向きの単語N−gramの
統計的言語モデルを事後知識として用いて最大事後確率
推定法により、第1の頻度確率と第2の頻度確率との間
を補間してなる前向きの遷移確率を計算する第1の計算
手段と、上記第1の計算手段によって計算された前向き
の遷移確率に対して、所定の正規化処理と平滑化処理を
実行することにより前向きのN−gramの統計的言語
モデルを生成する第1の処理手段とを備える。従って、
上記生成された生成された前向きN−gramである統
計的言語モデルは、モデルサイズを小型化できないが、
予測精度、信頼性及び頑健さにおいて優れた性能を有す
る。また、この統計的言語モデルを用いて音声認識する
ことにより、従来例に比較して改善された音声認識率で
音声認識できる。
1記載の統計的言語モデル生成装置によれば、所定の話
者の発声音声文を書き下した学習用テキストデータに基
づいて、複数の単語からなる単語列の後に処理対象の単
語が生起する第1の頻度確率を計算することにより前向
きの単語N−gramの統計的言語モデルを生成する第
1の生成手段と、上記学習用テキストデータと、品詞ク
ラス情報を含む品詞クラス情報データとに基づいて、第
1の単語の品詞クラス及び上記第1の単語の後に接続さ
れる複数の単語からなる単語列の後に、処理対象の単語
が生起する第2の頻度確率を計算することにより前向き
の品詞クラス−単語N−gramの統計的言語モデルを
生成する第2の生成手段と、上記第2の生成手段によっ
て生成された前向きの品詞クラス−単語N−gramの
統計的言語モデルを事前知識として用い、上記第1の生
成手段によって生成された前向きの単語N−gramの
統計的言語モデルを事後知識として用いて最大事後確率
推定法により、第1の頻度確率と第2の頻度確率との間
を補間してなる前向きの遷移確率を計算する第1の計算
手段と、上記第1の計算手段によって計算された前向き
の遷移確率に対して、所定の正規化処理と平滑化処理を
実行することにより前向きのN−gramの統計的言語
モデルを生成する第1の処理手段とを備える。従って、
上記生成された生成された前向きN−gramである統
計的言語モデルは、モデルサイズを小型化できないが、
予測精度、信頼性及び頑健さにおいて優れた性能を有す
る。また、この統計的言語モデルを用いて音声認識する
ことにより、従来例に比較して改善された音声認識率で
音声認識できる。
【0104】また、請求項2記載の統計的言語モデル生
成装置によれば、請求項1記載の統計的言語モデル生成
装置において、上記学習用テキストデータに基づいて、
処理対象の単語から前に接続する複数の単語からなる単
語列が生起する第3の頻度確率を計算することにより後
向きの単語N−gramの統計的言語モデルを生成する
第3の生成手段と、上記学習用テキストデータと、上記
品詞クラス情報データとに基づいて、処理対象の単語の
品詞クラスから前に接続する複数の単語からなる単語列
が生起する第4の頻度確率を計算することにより後向き
の品詞クラス−単語N−gramの統計的言語モデルを
生成する第4の生成手段と、上記第4の生成手段によっ
て生成された後向きの品詞クラス−単語N−gramの
統計的言語モデルを事前知識として用い、上記第3の生
成手段によって生成された後向きの単語N−gramの
統計的言語モデルを事後知識として用いて最大事後確率
推定法により、第3の頻度確率と第4の頻度確率との間
を補間してなる後向きの遷移確率を計算する第2の計算
手段と、上記第2の計算手段によって計算された後向き
の遷移確率に基づいて、所定の正規化処理と平滑化処理
を実行することにより後向きの単語N−gramの統計
的言語モデルを生成する第2の処理手段とをさらに備え
る。従って、上記生成された生成された後向きN−gr
amである統計的言語モデルは、モデルサイズを小型化
できないが、予測精度、信頼性及び頑健さにおいて優れ
た性能を有する。また、この統計的言語モデルを用いて
音声認識することにより、従来例に比較して改善された
音声認識率で音声認識できる。
成装置によれば、請求項1記載の統計的言語モデル生成
装置において、上記学習用テキストデータに基づいて、
処理対象の単語から前に接続する複数の単語からなる単
語列が生起する第3の頻度確率を計算することにより後
向きの単語N−gramの統計的言語モデルを生成する
第3の生成手段と、上記学習用テキストデータと、上記
品詞クラス情報データとに基づいて、処理対象の単語の
品詞クラスから前に接続する複数の単語からなる単語列
が生起する第4の頻度確率を計算することにより後向き
の品詞クラス−単語N−gramの統計的言語モデルを
生成する第4の生成手段と、上記第4の生成手段によっ
て生成された後向きの品詞クラス−単語N−gramの
統計的言語モデルを事前知識として用い、上記第3の生
成手段によって生成された後向きの単語N−gramの
統計的言語モデルを事後知識として用いて最大事後確率
推定法により、第3の頻度確率と第4の頻度確率との間
を補間してなる後向きの遷移確率を計算する第2の計算
手段と、上記第2の計算手段によって計算された後向き
の遷移確率に基づいて、所定の正規化処理と平滑化処理
を実行することにより後向きの単語N−gramの統計
的言語モデルを生成する第2の処理手段とをさらに備え
る。従って、上記生成された生成された後向きN−gr
amである統計的言語モデルは、モデルサイズを小型化
できないが、予測精度、信頼性及び頑健さにおいて優れ
た性能を有する。また、この統計的言語モデルを用いて
音声認識することにより、従来例に比較して改善された
音声認識率で音声認識できる。
【0105】本発明に係る請求項3記載の統計的言語モ
デル生成装置によれば、複数の単語からなる単語列の後
に処理対象の単語が生起する第1の頻度確率と、第1の
単語の品詞クラス及び上記第1の単語の後に接続される
複数の単語からなる単語列の後に、処理対象の単語が生
起する第2の頻度確率とを補間してなる前向きの遷移確
率を含む前向きのN−gramの統計的言語モデルの遷
移確率に基づいて、処理対象単語よりも前に接続される
各単語列に対して特徴量として上記前向きのN−gra
mの統計的言語モデルの遷移確率を割り当てて、各クラ
スの特徴量のばらつきが小さくならないようにクラスタ
リングして、クラスタリング後のクラス分類情報を生成
する第1のクラスタリング手段と、処理対象の単語から
前に接続する複数の単語からなる単語列が生起する第3
の頻度確率と、処理対象の単語の品詞クラスから前に接
続する複数の単語からなる単語列が生起する第4の頻度
確率とを補間してなる後向きの遷移確率を含む後向きの
N−gramの統計的言語モデルの遷移確率に基づい
て、各処理単語に対して特徴量として上記後向きのN−
gramの統計的言語モデルの遷移確率を割り当てて、
各クラスの特徴量のばらつきが小さくならないようにク
ラスタリングして、クラスタリング後のクラス分類情報
を生成する第2のクラスタリング手段と、所定の話者の
発声音声文を書き下した学習用テキストデータに基づい
て、上記第1のクラスタリング手段及び第2のクラスタ
リング手段によって生成されたクラス分類情報を処理対
象として、処理対象の単語よりも前の単語列のクラスか
ら、処理対象の単語のクラスへの頻度確率を計算するこ
とにより融合N−gramの統計的言語モデルを生成す
る第5の生成手段とを備える。ここで、好ましくは、上
記補間してなる前向きの遷移確率は、上記第1の処理手
段によって生成された前向きのN−gramの統計的言
語モデルの遷移確率であり、上記補間してなる後向きの
遷移確率は、上記第2の処理手段によって生成された後
向きのN−gramの統計的言語モデルの遷移確率であ
り、上記第5の生成手段において用いる学習用テキスト
データは、上記第1乃至第4の生成手段において用いる
学習用テキストデータである。従って、上記生成された
生成された融合N−gramである統計的言語モデル
は、モデルサイズ、予測精度、信頼性及び頑健さにおい
て優れた性能を有する。また、この統計的言語モデルを
用いて音声認識することにより、従来例に比較して改善
された音声認識率で音声認識できる。
デル生成装置によれば、複数の単語からなる単語列の後
に処理対象の単語が生起する第1の頻度確率と、第1の
単語の品詞クラス及び上記第1の単語の後に接続される
複数の単語からなる単語列の後に、処理対象の単語が生
起する第2の頻度確率とを補間してなる前向きの遷移確
率を含む前向きのN−gramの統計的言語モデルの遷
移確率に基づいて、処理対象単語よりも前に接続される
各単語列に対して特徴量として上記前向きのN−gra
mの統計的言語モデルの遷移確率を割り当てて、各クラ
スの特徴量のばらつきが小さくならないようにクラスタ
リングして、クラスタリング後のクラス分類情報を生成
する第1のクラスタリング手段と、処理対象の単語から
前に接続する複数の単語からなる単語列が生起する第3
の頻度確率と、処理対象の単語の品詞クラスから前に接
続する複数の単語からなる単語列が生起する第4の頻度
確率とを補間してなる後向きの遷移確率を含む後向きの
N−gramの統計的言語モデルの遷移確率に基づい
て、各処理単語に対して特徴量として上記後向きのN−
gramの統計的言語モデルの遷移確率を割り当てて、
各クラスの特徴量のばらつきが小さくならないようにク
ラスタリングして、クラスタリング後のクラス分類情報
を生成する第2のクラスタリング手段と、所定の話者の
発声音声文を書き下した学習用テキストデータに基づい
て、上記第1のクラスタリング手段及び第2のクラスタ
リング手段によって生成されたクラス分類情報を処理対
象として、処理対象の単語よりも前の単語列のクラスか
ら、処理対象の単語のクラスへの頻度確率を計算するこ
とにより融合N−gramの統計的言語モデルを生成す
る第5の生成手段とを備える。ここで、好ましくは、上
記補間してなる前向きの遷移確率は、上記第1の処理手
段によって生成された前向きのN−gramの統計的言
語モデルの遷移確率であり、上記補間してなる後向きの
遷移確率は、上記第2の処理手段によって生成された後
向きのN−gramの統計的言語モデルの遷移確率であ
り、上記第5の生成手段において用いる学習用テキスト
データは、上記第1乃至第4の生成手段において用いる
学習用テキストデータである。従って、上記生成された
生成された融合N−gramである統計的言語モデル
は、モデルサイズ、予測精度、信頼性及び頑健さにおい
て優れた性能を有する。また、この統計的言語モデルを
用いて音声認識することにより、従来例に比較して改善
された音声認識率で音声認識できる。
【0106】さらに、本発明に係る請求項5記載の音声
認識装置によれば、入力される発声音声文の音声信号に
基づいて、所定の統計的言語モデルを用いて音声認識す
る音声認識手段を備えた音声認識装置において、上記音
声認識手段は、請求項1に記載の第1の処理手段によっ
て生成された前向きN−gramの統計的言語モデルを
用いて、請求項2に記載の第2の処理手段によって生成
された後向きN−gramの統計的言語モデルを用い
て、もしくは、請求項3又は4記載の第5の生成手段に
よって生成された融合N−gramの統計的言語モデル
を用いて、音声認識する。従って、上記統計的言語モデ
ルを用いて音声認識することにより、従来例に比較して
改善された音声認識率で音声認識できる。
認識装置によれば、入力される発声音声文の音声信号に
基づいて、所定の統計的言語モデルを用いて音声認識す
る音声認識手段を備えた音声認識装置において、上記音
声認識手段は、請求項1に記載の第1の処理手段によっ
て生成された前向きN−gramの統計的言語モデルを
用いて、請求項2に記載の第2の処理手段によって生成
された後向きN−gramの統計的言語モデルを用い
て、もしくは、請求項3又は4記載の第5の生成手段に
よって生成された融合N−gramの統計的言語モデル
を用いて、音声認識する。従って、上記統計的言語モデ
ルを用いて音声認識することにより、従来例に比較して
改善された音声認識率で音声認識できる。
【図1】 本発明に係る一実施形態である連続音声認識
装置のブロック図である。
装置のブロック図である。
【図2】 図1の連続音声認識装置における単語仮説絞
込部6の処理を示すタイミングチャートである。
込部6の処理を示すタイミングチャートである。
【図3】 図1の言語モデル生成部20によって実行さ
れる確率推定値の補間処理を示すグラフである。
れる確率推定値の補間処理を示すグラフである。
【図4】 図1の言語モデル生成部20によって実行さ
れる第1の言語モデル生成処理を示すフローチャートで
ある。
れる第1の言語モデル生成処理を示すフローチャートで
ある。
【図5】 図4のサブルーチンである前向き言語モデル
生成処理を示すフローチャートである。
生成処理を示すフローチャートである。
【図6】 図4のサブルーチンである後向き言語モデル
生成処理を示すフローチャートである。
生成処理を示すフローチャートである。
【図7】 図1の言語モデル生成部30によって実行さ
れる第2の言語モデル生成処理を示すフローチャートで
ある。
れる第2の言語モデル生成処理を示すフローチャートで
ある。
【図8】 図7のサブルーチンである前向き言語モデル
のクラスタリング処理を示すフローチャートである。
のクラスタリング処理を示すフローチャートである。
【図9】 図7のサブルーチンである後向き言語モデル
のクラスタリング処理を示すフローチャートである。
のクラスタリング処理を示すフローチャートである。
【図10】 図7のサブルーチンである融合言語モデル
生成処理を示すフローチャートである。
生成処理を示すフローチャートである。
【図11】 図1の言語モデル生成部30によって生成
された融合2−gramの言語モデル(第2の実施形
態)及び単語2−gram(従来例)に対する実験結果
であって、クラス数とパープレキシティの関係を示すグ
ラフである。
された融合2−gramの言語モデル(第2の実施形
態)及び単語2−gram(従来例)に対する実験結果
であって、クラス数とパープレキシティの関係を示すグ
ラフである。
1…マイクロホン、 2…特徴抽出部、 3,5…バッファメモリ、 4…単語照合部、 6…単語仮説絞込部、 11…音素HMMメモリ、 12…単語辞書メモリ、 13…学習用テキストデータメモリ、 14…品詞クラス情報データメモリ、 20,30…言語モデル生成部、 21,22,31…統計的言語モデルメモリ、 SW…スイッチ。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 匂坂 芳典 京都府相楽郡精華町大字乾谷小字三平谷5 番地 株式会社エイ・ティ・アール音声翻 訳通信研究所内 Fターム(参考) 5B091 AA15 CB12 CC01 CC16 EA01 5D015 HH23
Claims (5)
- 【請求項1】 所定の話者の発声音声文を書き下した学
習用テキストデータに基づいて、複数の単語からなる単
語列の後に処理対象の単語が生起する第1の頻度確率を
計算することにより前向きの単語N−gramの統計的
言語モデルを生成する第1の生成手段と、 上記学習用テキストデータと、品詞クラス情報を含む品
詞クラス情報データとに基づいて、第1の単語の品詞ク
ラス及び上記第1の単語の後に接続される複数の単語か
らなる単語列の後に、処理対象の単語が生起する第2の
頻度確率を計算することにより前向きの品詞クラス−単
語N−gramの統計的言語モデルを生成する第2の生
成手段と、 上記第2の生成手段によって生成された前向きの品詞ク
ラス−単語N−gramの統計的言語モデルを事前知識
として用い、上記第1の生成手段によって生成された前
向きの単語N−gramの統計的言語モデルを事後知識
として用いて最大事後確率推定法により、第1の頻度確
率と第2の頻度確率との間を補間してなる前向きの遷移
確率を計算する第1の計算手段と、 上記第1の計算手段によって計算された前向きの遷移確
率に対して、所定の正規化処理と平滑化処理を実行する
ことにより前向きのN−gramの統計的言語モデルを
生成する第1の処理手段とを備えたことを特徴とする統
計的言語モデル生成装置。 - 【請求項2】 請求項1記載の統計的言語モデル生成装
置において、 上記学習用テキストデータに基づいて、処理対象の単語
から前に接続する複数の単語からなる単語列が生起する
第3の頻度確率を計算することにより後向きの単語N−
gramの統計的言語モデルを生成する第3の生成手段
と、 上記学習用テキストデータと、上記品詞クラス情報デー
タとに基づいて、処理対象の単語の品詞クラスから前に
接続する複数の単語からなる単語列が生起する第4の頻
度確率を計算することにより後向きの品詞クラス−単語
N−gramの統計的言語モデルを生成する第4の生成
手段と、 上記第4の生成手段によって生成された後向きの品詞ク
ラス−単語N−gramの統計的言語モデルを事前知識
として用い、上記第3の生成手段によって生成された後
向きの単語N−gramの統計的言語モデルを事後知識
として用いて最大事後確率推定法により、第3の頻度確
率と第4の頻度確率との間を補間してなる後向きの遷移
確率を計算する第2の計算手段と、 上記第2の計算手段によって計算された後向きの遷移確
率に基づいて、所定の正規化処理と平滑化処理を実行す
ることにより後向きの単語N−gramの統計的言語モ
デルを生成する第2の処理手段とをさらに備えたことを
特徴とする統計的言語モデル生成装置。 - 【請求項3】 複数の単語からなる単語列の後に処理対
象の単語が生起する第1の頻度確率と、第1の単語の品
詞クラス及び上記第1の単語の後に接続される複数の単
語からなる単語列の後に、処理対象の単語が生起する第
2の頻度確率とを補間してなる前向きの遷移確率を含む
前向きのN−gramの統計的言語モデルの遷移確率に
基づいて、処理対象単語よりも前に接続される各単語列
に対して特徴量として上記前向きのN−gramの統計
的言語モデルの遷移確率を割り当てて、各クラスの特徴
量のばらつきが小さくならないようにクラスタリングし
て、クラスタリング後のクラス分類情報を生成する第1
のクラスタリング手段と、 処理対象の単語から前に接続する複数の単語からなる単
語列が生起する第3の頻度確率と、処理対象の単語の品
詞クラスから前に接続する複数の単語からなる単語列が
生起する第4の頻度確率とを補間してなる後向きの遷移
確率を含む後向きのN−gramの統計的言語モデルの
遷移確率に基づいて、各処理単語に対して特徴量として
上記後向きのN−gramの統計的言語モデルの遷移確
率を割り当てて、各クラスの特徴量のばらつきが小さく
ならないようにクラスタリングして、クラスタリング後
のクラス分類情報を生成する第2のクラスタリング手段
と、 所定の話者の発声音声文を書き下した学習用テキストデ
ータに基づいて、上記第1のクラスタリング手段及び第
2のクラスタリング手段によって生成されたクラス分類
情報を処理対象として、処理対象の単語よりも前の単語
列のクラスから、処理対象の単語のクラスへの頻度確率
を計算することにより融合N−gramの統計的言語モ
デルを生成する第5の生成手段とを備えたことを特徴と
する統計的言語モデル生成装置。 - 【請求項4】 請求項3記載の統計的言語モデル生成装
置において、 上記補間してなる前向きの遷移確率は、上記第1の処理
手段によって生成された前向きのN−gramの統計的
言語モデルの遷移確率であり、 上記補間してなる後向きの遷移確率は、上記第2の処理
手段によって生成された後向きのN−gramの統計的
言語モデルの遷移確率であり、 上記第5の生成手段において用いる学習用テキストデー
タは、上記第1乃至第4の生成手段において用いる学習
用テキストデータであることを特徴とする統計的言語モ
デル生成装置。 - 【請求項5】 入力される発声音声文の音声信号に基づ
いて、所定の統計的言語モデルを用いて音声認識する音
声認識手段を備えた音声認識装置において、 上記音声認識手段は、請求項1に記載の第1の処理手段
によって生成された前向きN−gramの統計的言語モ
デルを用いて、請求項2に記載の第2の処理手段によっ
て生成された後向きN−gramの統計的言語モデルを
用いて、もしくは、請求項3又は4記載の第5の生成手
段によって生成された融合N−gramの統計的言語モ
デルを用いて、音声認識することを特徴とする音声認識
装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11168188A JP2000356997A (ja) | 1999-06-15 | 1999-06-15 | 統計的言語モデル生成装置及び音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11168188A JP2000356997A (ja) | 1999-06-15 | 1999-06-15 | 統計的言語モデル生成装置及び音声認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2000356997A true JP2000356997A (ja) | 2000-12-26 |
Family
ID=15863426
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP11168188A Pending JP2000356997A (ja) | 1999-06-15 | 1999-06-15 | 統計的言語モデル生成装置及び音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2000356997A (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001092488A (ja) * | 1999-09-17 | 2001-04-06 | Atr Interpreting Telecommunications Res Lab | 統計的言語モデル生成装置及び音声認識装置 |
JP2003186493A (ja) * | 2001-12-11 | 2003-07-04 | Sony Internatl Europ Gmbh | 発音辞書のオンライン使用方法 |
JP2005293580A (ja) * | 2004-03-26 | 2005-10-20 | Microsoft Corp | Arpa標準フォーマットによる、削除補間nグラム言語モデルの表現 |
WO2007142102A1 (ja) * | 2006-05-31 | 2007-12-13 | Nec Corporation | 言語モデル学習システム、言語モデル学習方法、および言語モデル学習用プログラム |
JP2010039539A (ja) * | 2008-07-31 | 2010-02-18 | Ntt Docomo Inc | 言語モデル作成装置および言語モデル作成方法 |
US9251135B2 (en) | 2013-08-13 | 2016-02-02 | International Business Machines Corporation | Correcting N-gram probabilities by page view information |
-
1999
- 1999-06-15 JP JP11168188A patent/JP2000356997A/ja active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001092488A (ja) * | 1999-09-17 | 2001-04-06 | Atr Interpreting Telecommunications Res Lab | 統計的言語モデル生成装置及び音声認識装置 |
JP2003186493A (ja) * | 2001-12-11 | 2003-07-04 | Sony Internatl Europ Gmbh | 発音辞書のオンライン使用方法 |
JP2005293580A (ja) * | 2004-03-26 | 2005-10-20 | Microsoft Corp | Arpa標準フォーマットによる、削除補間nグラム言語モデルの表現 |
KR101120773B1 (ko) | 2004-03-26 | 2012-03-23 | 마이크로소프트 코포레이션 | 삭제된 보간 n-그램 언어 모델의 arpa 표준 형식 표현 |
WO2007142102A1 (ja) * | 2006-05-31 | 2007-12-13 | Nec Corporation | 言語モデル学習システム、言語モデル学習方法、および言語モデル学習用プログラム |
US8831943B2 (en) | 2006-05-31 | 2014-09-09 | Nec Corporation | Language model learning system, language model learning method, and language model learning program |
JP2010039539A (ja) * | 2008-07-31 | 2010-02-18 | Ntt Docomo Inc | 言語モデル作成装置および言語モデル作成方法 |
US9251135B2 (en) | 2013-08-13 | 2016-02-02 | International Business Machines Corporation | Correcting N-gram probabilities by page view information |
US9311291B2 (en) | 2013-08-13 | 2016-04-12 | International Business Machines Corporation | Correcting N-gram probabilities by page view information |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2965537B2 (ja) | 話者クラスタリング処理装置及び音声認識装置 | |
JP4301102B2 (ja) | 音声処理装置および音声処理方法、プログラム、並びに記録媒体 | |
US6385579B1 (en) | Methods and apparatus for forming compound words for use in a continuous speech recognition system | |
JP3004254B2 (ja) | 統計的シーケンスモデル生成装置、統計的言語モデル生成装置及び音声認識装置 | |
US7366669B2 (en) | Acoustic model creation method as well as acoustic model creation apparatus and speech recognition apparatus | |
US5884259A (en) | Method and apparatus for a time-synchronous tree-based search strategy | |
JP2004362584A (ja) | テキストおよび音声の分類のための言語モデルの判別トレーニング | |
JP2010139745A (ja) | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム | |
EP1074019B1 (en) | Adaptation of a speech recognizer for dialectal and linguistic domain variations | |
KR100573870B1 (ko) | 대화체 연속음성인식을 위한 의사형태소 기반다중발음사전 구축 방법 및 그 시스템과 이를 이용한대화체 음성인식 방법 | |
JP2000356997A (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
JP3364631B2 (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
JP2886121B2 (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
JP3176210B2 (ja) | 音声認識方法及び音声認識装置 | |
JP2938866B1 (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
JP3589044B2 (ja) | 話者適応化装置 | |
JP2968792B1 (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
JP2938865B1 (ja) | 音声認識装置 | |
JP2852210B2 (ja) | 不特定話者モデル作成装置及び音声認識装置 | |
JP3039399B2 (ja) | 非母国語音声認識装置 | |
KR100277690B1 (ko) | 화행 정보를 이용한 음성 인식 방법 | |
JP2996925B2 (ja) | 音素境界検出装置及び音声認識装置 | |
Fukada et al. | Automatic generation of multiple pronunciations based on neural networks and language statistics | |
JP2002268677A (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
US20240355321A1 (en) | Call word learning data generation device and method |