[go: up one dir, main page]

JPH1185184A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH1185184A
JPH1185184A JP9239528A JP23952897A JPH1185184A JP H1185184 A JPH1185184 A JP H1185184A JP 9239528 A JP9239528 A JP 9239528A JP 23952897 A JP23952897 A JP 23952897A JP H1185184 A JPH1185184 A JP H1185184A
Authority
JP
Japan
Prior art keywords
word
phoneme
speech recognition
model
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9239528A
Other languages
English (en)
Inventor
Hiroshi Yamamoto
博史 山本
Singer Harald
ハラルド・シンガー
Atsushi Nakamura
篤 中村
Foo Chan
チャン・フオー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK
ATR Interpreting Telecommunications Research Laboratories
Original Assignee
ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK
ATR Interpreting Telecommunications Research Laboratories
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK, ATR Interpreting Telecommunications Research Laboratories filed Critical ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK
Priority to JP9239528A priority Critical patent/JPH1185184A/ja
Publication of JPH1185184A publication Critical patent/JPH1185184A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 利用者に対して一定内容の発声を促す必要性
が無く、「教師なし」で話者適応化処理を実行しながら
連続的に音声認識することができる音声認識装置を提供
する。 【解決手段】 音声認識器4,6は、音響モデルと単語
単位の統計的言語モデルとを参照して、入力される発声
音声文の音声信号に基づいて発声音声文の単語列を連続
的に音声認識する。教師信号発生部21は、各単語列に
対応した音素列を含む単語辞書を参照して、音声認識器
6から出力される単語列を音素列に変換する。オンライ
ン話者適応化制御部22は、変換された音素列を教師信
号として用いて、音響モデルに対してオンライン話者適
応化処理を実行することにより、音響モデルを更新す
る。ここで、オンライン話者適応化制御部22はクアジ
・ベイズ(Quasi−Bayes)近似に基づくオン
ライン話者適応化処理を実行し、統計的言語モデルは可
変長Nの単語のN−グラムを含む。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、リアルタイムで話
者適応化処理を行うオンライン話者適応化制御手段を備
えた連続音声認識装置に関する。
【0002】
【従来の技術】認識対象の音声をそのまま用いて逐次的
に話者適応を行なっていくオンライン話者適応処理は未
知の話者に対して発話量に応じて段階的に音響モデルの
高精度化を図ることができるため、音声認識システムの
構築という観点から実用的な手法として期待が高い。オ
ンライン話者適応処理としては、クアジ・ベイズ(Qu
asi−Bayes)近似に基づくオンライン話者適応
化方法が、例えば、従来技術文献「Q.Huo et al.,“A s
tudy of on-line Quasi-Bayes adaptation for CDHMM-b
ases speech recognition",In Proceeding of the Inte
rnational Conference on Acoustics,Speech,and Signa
l Processing,pp.705-708,1996年5月」参照。)におい
て開示されている。この方法では、発話内容が既知であ
る「教師あり」の条件で構成され、すなわち教師信号を
手動で与えて動作させ、その有効性が確認されている。
【0003】
【発明が解決しようとする課題】しかしながら、「教師
あり」の話者適応処理では利用者に対して一定内容の発
声を促す必要性が生じ、対話制御の複雑化や利用者への
負担増をまねくことになってしまう。本発明の目的は以
上の問題点を解決し、利用者に対して一定内容の発声を
促す必要性が無く、「教師なし」で話者適応化処理を実
行しながら連続的に音声認識することができる音声認識
装置を提供することにある。
【0004】
【課題を解決するための手段】本発明に係る請求項1記
載の音声認識装置は、所定の音響モデルと、所定の単語
単位の統計的言語モデルとを参照して、入力される発声
音声文の音声信号に基づいて上記発声音声文の単語列を
連続的に音声認識する音声認識手段と、各単語列に対応
した音素列を含む単語辞書を参照して、上記音声認識手
段から出力される単語列を音素列に変換する変換手段
と、上記変換手段によって変換された音素列を教師信号
として用いて、上記音響モデルに対してオンライン話者
適応化処理を実行することにより、上記音響モデルを更
新する適応化手段とを備えたことを特徴とする。
【0005】また、請求項2記載の音声認識装置は、請
求項1記載の音声認識装置において、上記適応化手段
は、クアジ・ベイズ(Quasi−Bayes)近似に
基づくオンライン話者適応化処理を実行することを特徴
とする。
【0006】さらに、請求項3記載の音声認識装置は、
請求項1又は2記載の音声認識装置において、上記統計
的言語モデルは、可変長Nの単語のN−グラムを含むこ
とを特徴とする。
【0007】
【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。
【0008】図1に本発明に係る一実施形態の連続音声
認識装置のブロック図を示す。本実施形態の連続音声認
識装置は、公知のワン−パス・ビタビ復号化法を用い
て、入力される発声音声文の音声信号の特徴パラメータ
に基づいて上記発声音声文の単語仮説を検出し尤度を計
算して出力する単語照合部4を備えた連続音声認識装置
において、(a)単語照合部4からバッファメモリ5を
介して出力される、終了時刻が等しく開始時刻が異なる
同一の単語の単語仮説に対して、可変長Nの単語のN−
gramである単語単位の可変長N−gramを含む統
計的言語モデル13を参照して、当該単語の先頭音素環
境毎に、発声開始時刻から当該単語の終了時刻に至る計
算された総尤度のうちの最も高い尤度を有する1つの単
語仮説で代表させるように単語仮説の絞り込みを行う単
語仮説絞込部6と、(b)単語仮説絞込部6から出力さ
れる音声認識結果の単語列を、単語辞書12を参照し
て、音素列に変換する教師信号発生部21と、(c)教
師信号発生部21から出力される音素列を教師信号とし
て用いて、公知のクアジ・ベイズ近似に基づくオンライ
ン話者適応化方法を用いて、音響モデルである音素隠れ
マルコフモデル(以下、音素HMMという。)11を更
新するオンライン話者適応化制御部22とを備えたこと
を特徴とする。
【0009】「教師なし」話者適応処理においては「教
師あり」における発話内容に相当する情報である教師信
号を話者適応前の音響モデルを用いた認識結果を元に内
部的に生成させている。このため、話者適応の効果は生
成された教師信号の精度(認識率)に大きく依存するこ
とになる。教師信号として日本語の音節規則のみを言語
的制約として与えた連続音声認識器(いわゆる、音素タ
イプライタ)の認識結果を用いた場合の「教師なし」ク
アジ・ベイズオン近似に基づくライン話者適応処理(以
下、比較例という。)においては教師信号の精度が不十
分なため、認識性能がほとんど向上しなかった。従っ
て、より強い言語的制約を用い、少なくとも音素タイプ
ライタを上回る性能を持つ認識器の認識結果を教師信号
として用いなければ「教師なし」クアジ・ベイズ近似に
基づくオンライン話者適応による認識性能の向上は見込
めないことが予想され、本発明者は、単語単位の統計的
言語モデルである可変長N−gram(例えば、特開平
09−134192号公報において開示され、詳細後述
する。)を言語的制約として与えた(認識対象の語彙、
ドメインが既知ということが前提となる。)連続音声認
識器の認識結果を教師信号として用いる「教師なし」ク
アジ・ベイズに基づくオンライン話者適応処理を実行し
ながら連続音声認識することを発明した。これにより、
詳細後述するように、可変長N−gramを用いること
により、高精度な教師信号を生成することができ「教師
なし」の条件でも適応効果を得ることができる。
【0010】本実施形態で用いる統計的言語モデル13
は、学習用テキストデータに基づいて言語モデル生成部
により生成されたものであって、統計的言語モデル13
は、品詞クラス間のバイグラム(N=2)を基本とした
ものであるが、単独で信頼できる単語は品詞クラスより
分離させ、単独のクラスとして取り扱い、さらに、予測
精度を向上させるため、頻出単語列に関してはそれらの
単語を結合して一つのクラスとして取り扱い、長い単語
連鎖の表現を可能にさせ、こうして、生成されたモデル
は、品詞バイグラムと可変長単語N−グラムとの特徴を
併せ持つ統計的言語モデルとなり、遷移確率の精度と信
頼性とのバランスをとられたものであることを特徴とす
る。
【0011】まず、本実施形態において用いる可変長N
−グラムの概念について以下に説明する。N−グラム
は、(N−1)重のマルコフモデルであり、これは、過
去(N−1)回の状態遷移を記憶するように単純(1
重)マルコフモデルの各状態が分離されたものと解釈さ
れる。例として、図3にバイグラムをマルコフモデルと
して図式化した状態遷移図を示し、図4にトライグラム
をマルコフモデルとして図式化した状態遷移図を示す。
【0012】図3においては、状態s1においてシンボ
ルaを出力されたとき状態s1のままであるが、状態s1
でシンボルbを出力した状態s2に遷移する。状態s2
シンボルbを出力したときは状態s2のままであるが、
状態s2でシンボルaを出力したとき状態s1に戻る。図
4のトライグラムは、バイグラムの状態s1を状態s11
と状態s12とに分離しかつ、状態s2を状態s21と状態
22とに分離したものと考えられる。さらに、全ての状
態の分離を進めることにより、より高次のN−グラムと
なる。
【0013】図5に示す可変長N−グラムは、単純マル
コフモデルの状態を部分的に分離させたものである。す
なわち、図3のバイグラムにおいて、状態s2から、シ
ンボルaが出力される際に、続けてシンボルbを出力す
る場合(これをabと表わし、シンボルabを出力する
という。)、続けてb以外のシンボルを出力する場合
(これをa(/b)と表し、シンボルa(/b)を出力
するという。ここで、/は否定の意味を表しバー(上
線)である。)とに分け、前者の場合、状態s1から状
態s12に遷移させる一方、後者の場合、状態s2から状
態s11に遷移させる。すなわち、前者の場合において、
状態s1から状態s12へと分離させ、シンボルaを出力
する残りの遷移(a(/b))を状態s11に残したもの
である。なお、このモデルにおいて、状態s11でシンボ
ルabを出力したとき状態s12に遷移する一方、状態s
11でシンボルa(/b)を出力したとき状態s11のまま
である。また、状態s12でシンボルabを出力したとき
状態s12のままである一方、状態s12でシンボルa(/
b)を出力したとき状態s11に遷移する。
【0014】このモデルは、複数の連続したシンボルを
新しいシンボルとみなすことで、単純マルコフモデルの
構造のまま、長い連鎖を表すことができるという特徴が
ある。同様の状態分離を繰り返すことで、局所的にさら
に長い連鎖を表すことができる。これが可変長N−グラ
ムである。すなわち、シンボルを単語とみなした言語モ
デルとしての可変長単語N−グラムは、単語列(1単語
も含む)間のバイグラムと表される。
【0015】次いで、可変長N−グラムの動作について
説明する。本実施形態で用いる統計的言語モデル22
は、品詞クラスと単語との可変長N−グラムであり、次
の3種類のクラス間のバイグラムとして表現する。 (1)品詞クラス(以下、第1のクラスという。)、
(2)品詞クラスから分離した単語のクラス(以下、第
2のクラスという。)、及び、(3)連接単語が結合し
てできたクラス(以下、第3のクラスという。)。
【0016】上記第1のクラスに属する単語は、主とし
て出現頻度の小さいもので、単語単独で取り扱うよりも
遷移確率の信頼性が高められる。また、第2のクラスに
属する単語は、主として出現頻度が高いもので、単独で
取り扱っても十分な信頼性があり、さらに、連接単語が
結合して上記第3のクラスに分類されることにより、可
変長N−グラムとして動作し、次単語の予測精度が高め
られる。ただし、本実施形態において、連接する品詞ク
ラスと品詞クラス、および、品詞クラスと単語の結合は
考えない。複数L個の単語からなる文の生成確率P(w
1 L)は、次式で与えられる。
【0017】
【数1】
【0018】ここで、wstは文章を上記のクラスに分
類した時の、t番目の単語列(単独の単語も含める)を
意味する。従って、P(wst|ct)は、t番目のクラ
スがわかったときに単語列wstが出現する確率であ
り、P(ct|ct-1)は1つ前の(t−1)番目のクラ
スから当該t番目のクラスの単語が出現する確率であ
る。また、文章のKは単語列の個数を表し、K≦Lであ
る。従って、数1のΠはt=1からKまでの積である。
ここで、例として、次の7単語からなる発声音声文の文
章を考える。
【0019】
【数2】「わたくし−村山−と−言−い−ま−す」
【0020】この文章の生成確率P(w1 L)は、数1を
用いて、次の式で与えられる。
【数3】P(w1 L)=P(わたくし|{わたくし})・
P({わたくし}) ・P(村山|<固有名詞>)・(<固有名詞>|{わた
くし}) ・P(と|{と})・P({と}|<固有名詞>) ・P(言います|[言います])・P([言います]|
{と})
【0021】ただし、<>,{},[]はそれぞれ、第
1のクラス、第2のクラス、第3のクラスに属している
ことを表す。ただし、各単語および単語列は次のように
属している。 (1)「村山」は名詞なので、第1のクラスに属する。 (2)「わたくし」、「と」は名詞と助詞との組み合わ
せであり、第2のクラスに属する。 (3)「言います」は動詞と、動詞の接尾辞と、助動詞
と、助動詞の接尾辞との組み合わせであり、第3のクラ
スに属する。 ここで、第2と第3のクラスにおいて、単語とクラスの
出現頻度は等しいので、P(わたくし|{わたくし})
=1、P(と|{と})=1、P(言います|[言いま
す])=1であり、従って、上記数3は次の式のように
なる。
【0022】
【数4】P(w1 L)=P(わたくし) ・P(村山|<固有名詞>)・P(<固有名詞>|わた
くし) ・P(と|<固有名詞>) ・P(言います|と)
【0023】図1において、単語照合部4に接続され、
例えばハードディスクメモリに格納される音素HMM1
1は、各状態を含んで表され、各状態はそれぞれ以下の
情報を有する。 (a)状態番号 (b)受理可能なコンテキストクラス (c)先行状態、及び後続状態のリスト (d)出力確率密度分布のパラメータ (e)自己遷移確率及び後続状態への遷移確率 なお、本実施形態において用いる音素HMM11は、各
分布がどの話者に由来するかを特定する必要があるた
め、所定の話者混合HMMを変換して生成する。ここ
で、出力確率密度関数は34次元の対角共分散行列をも
つ混合ガウス分布である。
【0024】また、単語照合部4に接続され、例えばハ
ードディスクに格納される単語辞書12は、音素HMM
11の各単語毎に音素シンボルで表した読みを示すシン
ボル列又は音素列を格納する。
【0025】図1において、話者の発声音声はマイクロ
ホン1に入力されて音声信号に変換された後、特徴抽出
部2に入力される。特徴抽出部2は、入力された音声信
号をA/D変換した後、例えばLPC分析を実行し、対
数パワー、16次ケプストラム係数、Δ対数パワー及び
16次Δケプストラム係数を含む34次元の特徴パラメ
ータを抽出する。抽出された特徴パラメータの時系列は
バッファメモリ3を介して単語照合部4に入力される。
【0026】単語照合部4は、ワン−パス・ビタビ復号
化法を用いて、バッファメモリ3を介して入力される特
徴パラメータのデータに基づいて、音素HMM11と単
語辞書12とを用いて単語仮説を検出し尤度を計算して
出力する。ここで、単語照合部4は、各時刻の各HMM
の状態毎に、単語内の尤度と発声開始からの尤度を計算
する。尤度は、単語の識別番号、単語の開始時刻、先行
単語の違い毎に個別にもつ。また、計算処理量の削減の
ために、音素HMM11及び単語辞書12とに基づいて
計算される総尤度のうちの低い尤度のグリッド仮説を削
減する。単語照合部4は、その結果の単語仮説と尤度の
情報を発声開始時刻からの時間情報(具体的には、例え
ばフレーム番号)とともにバッファメモリ5を介して単
語仮説絞込部6に出力する。
【0027】単語仮説絞込部6は、単語照合部4からバ
ッファメモリ5を介して出力される単語仮説に基づい
て、統計的言語モデル13を参照して、終了時刻が等し
く開始時刻が異なる同一の単語の単語仮説に対して、当
該単語の先頭音素環境毎に、発声開始時刻から当該単語
の終了時刻に至る計算された総尤度のうちの最も高い尤
度を有する1つの単語仮説で代表させるように単語仮説
の絞り込みを行った後、絞り込み後のすべての単語仮説
の単語列のうち、最大の総尤度を有する仮説の単語列を
認識結果として出力する。出力される単語列は、教師信
号を発生するために教師信号発生部21に入力される。
本実施形態においては、好ましくは、処理すべき当該単
語の先頭音素環境とは、当該単語より先行する単語仮説
の最終音素と、当該単語の単語仮説の最初の2つの音素
とを含む3つの音素並びをいう。
【0028】例えば、図2に示すように、(i−1)番
目の単語Wi-1の次に、音素列a1,a2,…,anからな
るi番目の単語Wiがくるときに、単語Wi-1の単語仮説
として6つの仮説Wa,Wb,Wc,Wd,We,Wf
が存在している。ここで、前者3つの単語仮説Wa,W
b,Wcの最終音素は/x/であるとし、後者3つの単
語仮説Wd,We,Wfの最終音素は/y/であるとす
る。終了時刻teと先頭音素環境が等しい仮説(図2で
は先頭音素環境が“x/a1/a2”である上から3つの
単語仮説)のうち総尤度が最も高い仮説(例えば、図2
において1番上の仮説)以外を削除する。なお、上から
4番めの仮説は先頭音素環境が違うため、すなわち、先
行する単語仮説の最終音素がxではなくyであるので、
上から4番めの仮説を削除しない。すなわち、先行する
単語仮説の最終音素毎に1つのみ仮説を残す。図2の例
では、最終音素/x/に対して1つの仮説を残し、最終
音素/y/に対して1つの仮説を残す。
【0029】一方、教師信号発生部21は、単語仮説絞
込部6から出力される音声認識結果の単語列を、単語辞
書12を参照して、音素列に変換してオンライン話者適
応化制御部22に出力する。これに応答して、オンライ
ン話者適応化制御部22は、教師信号発生部21から出
力される音素列を教師信号として用いて、公知のクアジ
・ベイズ近似に基づくオンライン話者適応化方法を用い
て、話者音声の発声毎に、音響モデルである音素HMM
11を更新してオンライン話者適応化処理を実行する。
具体的には、対象となる音素HMM11のパラメータの
推定に対してその個々のパラメータの確率密度関数の近
似を行う。近似の分布の基準は分布の最頻値が同じにな
ることであり、その値は公知のEM(Estimation-Maxim
ization)アルゴリズムに基づく繰り返し計算によって
推定される。この際に前の学習データによる影響を効果
的に無くしていくことにより、話者の変化等の環境の変
化に高速に追従していくことが可能である。このときに
学習データによる影響はハイパーパラメータと呼ばれる
パラメータ化された形式で記憶されており、新しい発話
データと共に話者適応に用いられながら逐次更新されて
いく。
【0030】以上の実施形態においては、当該単語の先
頭音素環境とは、当該単語より先行する単語仮説の最終
音素と、当該単語の単語仮説の最初の2つの音素とを含
む3つの音素並びとして定義されているが、本発明はこ
れに限らず、先行する単語仮説の最終音素と、最終音素
と連続する先行する単語仮説の少なくとも1つの音素と
を含む先行単語仮説の音素列と、当該単語の単語仮説の
最初の音素を含む音素列とを含む音素並びとしてもよ
い。
【0031】以上の実施形態において、特徴抽出部2
と、単語照合部4と、単語仮説絞込部6と、教師信号発
生部21と、オンライン話者適応化制御部22とは、例
えば、デジタル電子計算機で構成され、バッファメモリ
3,5は例えばハードデイスクメモリで構成され、音素
HMM11と単語辞書12と統計的言語モデル13と
は、例えばハードデイスクメモリなどの記憶装置に記憶
される。
【0032】以上実施形態においては、単語照合部4と
単語仮説絞込部6とを用いて音声認識を行っているが、
本発明はこれに限らず、例えば、音素HMM11を参照
する音素照合部と、例えばOne Pass DPアル
ゴリズムを用いて統計的言語モデル13を参照して単語
の音声認識を行う音声認識部とで構成してもよい。
【0033】以上の実施形態において、オンライン話者
適応化制御部22は、教師信号発生部21から出力され
る音素列を教師信号として用いて、公知のクアジ・ベイ
ズ近似に基づくオンライン話者適応化方法を用いて、音
響モデルである音素HMM11を更新しているが、本発
明はこれに限らず、別のオンライン話者適応化方法を用
いてもよい。
【0034】
【実施例】本発明者は、図1の連続音声認識装置の実験
を以下のごとく行った。話者適応は一発声ごとに行なわ
れ、適応が行なわれた音響モデルは次の発声において教
師信号の生成とそれを用いた話者適応の適応元のモデル
として用いられる。本来、オンライン話者適応処理は、
認識対象の音声をそのまま適応データとして用いるが、
本発明の実験では各発声ごとの適応結果に対して同一の
条件でその効果を比較するために、適応データとは別に
認識対象音声(テストデータ)を用意した。ここで、教
師信号の生成は5名の話者に対して以下の条件で行なっ
た。
【0035】
【表1】 音響分析 ───────────────────────────── 標本化 :12kHz フレーム間隔:10msec ハミング窓 :20msec 特徴量 :logパワー+16次LPCケプストラム +Δlogパワー+16次ΔLPCケプストラム ─────────────────────────────
【表2】 音響モデル ─────────────────────────────────── 不特定話者HMnet 600状態5混合+1状態10混合 無音モデル ───────────────────────────────────
【表3】 言語モデル ──────────────────────────── 6370単語、可変長N−gram(分離クラス数500) ────────────────────────────
【0036】各話者ごとの適応データを表4に示す。ま
た初期モデルである不特定話者モデルを用いた場合の音
素誤り率、すなわち教師信号の精度は表5に示す通りで
ある。
【0037】
【表4】 適応に用いたデータ ──────────────────────────── 話者名 会話数 発声数 発声時間 ──────────────────────────── FYOMA 11 282 415.48秒 FYUYO 9 245 383.31秒 FHITA 15 508 699.47秒 FTOAS 6 215 317.92秒 MMATA 2 46 78.20秒 ────────────────────────────
【表5】
【0038】言語制約として音素タイプライタを用いた
比較例の場合に比較して、本実施形態の方法を用いた音
声認識装置においては、教師信号の精度が大きく向上し
ていることがわかる。なお実際の教師信号は逐次適応の
進んだ音響モデルを用いて生成されるため、教師信号の
精度はさらに向上している。例えば、話者FYOMAで
10.6%から8.6%に向上している。
【0039】図1に示す音声認識装置で教師信号を生成
して話者適応を行なった。一発声ごとのオンライン話者
適応が全発声について終了した時点でのテストデータに
対する音素誤り率(比較例では、音素タイプライタを使
用した。)を表6に示す。図6にはテストデータTAS
12008について適応データを一発声ずつ増やした時
の音素誤り率の変化を示す。
【0040】
【表6】 話者適応後の音素誤認識率 ─────────────────────────────────── テストデータ 話者 音素誤認識率(%) ────────────────── 実施形態 教師あり 適応なし ─────────────────────────────────── TAS12008.A FYOMA 19.33 17.09 24.23 TAS12010.A FYOMA 14.55 13.09 22.18 TAS13005.B FYUYO 15.49 16.20 21.83 TAS13009.B FYUYO 16.11 14.99 26.02 TAS22001.B FHITA 17.99 15.35 27.01 TAS23002.A FHITA 16.19 14.52 32.59 TAS32002.A FYOAS 16.75 13.66 21.65 TAS33001.B FYOAS 12.95 9.76 19.53 TAS33011.B MMATA 17.83 17.04 29.86 ─────────────────────────────────── 平均 17.46 15.74 25.08 ───────────────────────────────────
【0041】表6において、「教師あり」は手動で教師
信号を与えた場合であり、「適応なし」は話者適応をし
ない音素HMMを用いた場合である。表6及び図6から
明らかなように、本実施形態の「教師なし」オンライン
適応でも「教師あり」には及ばないもの、明らかに認識
性能の向上し適応に必要な発声量に関しても「教師あ
り」の場合と大きな差がないことが確認された。
【0042】以上説明したように、本実施形態によれ
ば、単語単位の統計的言語モデルを言語的制約として用
いた連続音声認識器によって教師信号を得て、「教師な
し」クアジ・ベイズ近似を用いたオンライン話者適応処
理を実行することにより、教師信号を自動的に発生する
ことができ、不特定話者の発声音声に対して、事前準備
なしで、従来技術に比較してきわめて高い音声認識率を
得ることができる。本実施形態では、当該装置を使用す
ればするほど、音響モデルを適応化することができるの
で、音声認識性能を大幅に向上させることができる。ま
た、可変長N−gramを含む音響モデルを用いること
により、高精度な教師信号を生成することができ「教師
なし」の条件でも大きな話者適応効果を得ることができ
る。
【0043】
【発明の効果】以上詳述したように本発明によれば、所
定の音響モデルと、所定の単語単位の統計的言語モデル
とを参照して、入力される発声音声文の音声信号に基づ
いて上記発声音声文の単語列を連続的に音声認識する音
声認識手段と、各単語列に対応した音素列を含む単語辞
書を参照して、上記音声認識手段から出力される単語列
を音素列に変換する変換手段と、上記変換手段によって
変換された音素列を教師信号として用いて、上記音響モ
デルに対してオンライン話者適応化処理を実行すること
により、上記音響モデルを更新する適応化手段とを備え
る。ここで、上記適応化手段は、好ましくは、クアジ・
ベイズ(Quasi−Bayes)近似に基づくオンラ
イン話者適応化処理を実行し、上記統計的言語モデル
は、好ましくは、可変長Nの単語のN−グラムを含む。
【0044】従って、単語単位の統計的言語モデルを言
語的制約として用いた音声認識手段によって教師信号を
得てオンライン話者適応処理を実行することにより、教
師信号を自動的に発生することができ、不特定話者の発
声音声に対して、事前準備なしで、従来技術に比較して
きわめて高い音声認識率を得ることができる。本発明で
は、当該装置を使用すればするほど、音響モデルを適応
化することができるので、音声認識性能を大幅に向上さ
せることができる。また、単語の可変長N−gramを
含む音響モデルを用いることにより、高精度な教師信号
を生成することができ「教師なし」の条件でも大きな話
者適応効果を得ることができる。
【図面の簡単な説明】
【図1】 本発明に係る一実施形態である連続音声認識
装置のブロック図である。
【図2】 図1の連続音声認識装置における単語仮説絞
込部6の処理を示すタイミングチャートである。
【図3】 バイグラムの統計的言語モデルを示す状態遷
移図である。
【図4】 トライグラムの統計的言語モデルを示す状態
遷移図である。
【図5】 図1の連続音声認識装置において用いる可変
長N−グラムの下のモデルを示す状態遷移図である。
【図6】 図1の連続音声認識装置の実験結果であっ
て、適応データ量に対する音素認識誤り率を示すグラフ
である。
【符号の説明】
1…マイクロホン、 2…特徴抽出部、 3,5…バッファメモリ、 4…単語照合部、 6…単語仮説絞込部、 11…音素HMM、 12…単語辞書、 13…言語モデル生成部、 21…教師信号発生部、 22…オンライン話者適応化制御部。
フロントページの続き (72)発明者 ハラルド・シンガー 京都府相楽郡精華町大字乾谷小字三平谷5 番地 株式会社エイ・ティ・アール音声翻 訳通信研究所内 (72)発明者 中村 篤 京都府相楽郡精華町大字乾谷小字三平谷5 番地 株式会社エイ・ティ・アール音声翻 訳通信研究所内 (72)発明者 チャン・フオー 京都府相楽郡精華町大字乾谷小字三平谷5 番地 株式会社エイ・ティ・アール音声翻 訳通信研究所内

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 所定の音響モデルと、所定の単語単位の
    統計的言語モデルとを参照して、入力される発声音声文
    の音声信号に基づいて上記発声音声文の単語列を連続的
    に音声認識する音声認識手段と、 各単語列に対応した音素列を含む単語辞書を参照して、
    上記音声認識手段から出力される単語列を音素列に変換
    する変換手段と、 上記変換手段によって変換された音素列を教師信号とし
    て用いて、上記音響モデルに対してオンライン話者適応
    化処理を実行することにより、上記音響モデルを更新す
    る適応化手段とを備えたことを特徴とする音声認識装
    置。
  2. 【請求項2】 請求項1記載の音声認識装置において、 上記適応化手段は、クアジ・ベイズ(Quasi−Ba
    yes)近似に基づくオンライン話者適応化処理を実行
    することを特徴とする音声認識装置。
  3. 【請求項3】 請求項1又は2記載の音声認識装置にお
    いて、 上記統計的言語モデルは、可変長Nの単語のN−グラム
    を含むことを特徴とする音声認識装置。
JP9239528A 1997-09-04 1997-09-04 音声認識装置 Pending JPH1185184A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9239528A JPH1185184A (ja) 1997-09-04 1997-09-04 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9239528A JPH1185184A (ja) 1997-09-04 1997-09-04 音声認識装置

Publications (1)

Publication Number Publication Date
JPH1185184A true JPH1185184A (ja) 1999-03-30

Family

ID=17046151

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9239528A Pending JPH1185184A (ja) 1997-09-04 1997-09-04 音声認識装置

Country Status (1)

Country Link
JP (1) JPH1185184A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003186493A (ja) * 2001-12-11 2003-07-04 Sony Internatl Europ Gmbh 発音辞書のオンライン使用方法
JP2003526117A (ja) * 1999-05-13 2003-09-02 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 大語彙自動音声認識装置の教師なし適応方法
JP2006293489A (ja) * 2005-04-06 2006-10-26 Sony Corp 学習装置および学習方法、並びに学習プログラム
US8630853B2 (en) 2007-03-26 2014-01-14 Nec Corporation Speech classification apparatus, speech classification method, and speech classification program
JP2019514046A (ja) * 2016-03-22 2019-05-30 エスアールアイ インターナショナルSRI International 雑音の多い未知のチャネル条件における音声認識のためのシステムおよび方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003526117A (ja) * 1999-05-13 2003-09-02 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 大語彙自動音声認識装置の教師なし適応方法
JP2003186493A (ja) * 2001-12-11 2003-07-04 Sony Internatl Europ Gmbh 発音辞書のオンライン使用方法
JP2006293489A (ja) * 2005-04-06 2006-10-26 Sony Corp 学習装置および学習方法、並びに学習プログラム
US8630853B2 (en) 2007-03-26 2014-01-14 Nec Corporation Speech classification apparatus, speech classification method, and speech classification program
JP5418223B2 (ja) * 2007-03-26 2014-02-19 日本電気株式会社 音声分類装置、音声分類方法、および音声分類用プログラム
JP2019514046A (ja) * 2016-03-22 2019-05-30 エスアールアイ インターナショナルSRI International 雑音の多い未知のチャネル条件における音声認識のためのシステムおよび方法
US11217228B2 (en) 2016-03-22 2022-01-04 Sri International Systems and methods for speech recognition in unseen and noisy channel conditions

Similar Documents

Publication Publication Date Title
JP3126985B2 (ja) 音声認識システムの言語モデルのサイズを適応させるための方法および装置
JP4301102B2 (ja) 音声処理装置および音声処理方法、プログラム、並びに記録媒体
EP2048655B1 (en) Context sensitive multi-stage speech recognition
US7366669B2 (en) Acoustic model creation method as well as acoustic model creation apparatus and speech recognition apparatus
JP2003316386A (ja) 音声認識方法および音声認識装置および音声認識プログラム
CN112435654A (zh) 通过帧插入对语音数据进行数据增强
JPH09179581A (ja) 音声認識システム
Zhang et al. Improved context-dependent acoustic modeling for continuous Chinese speech recognition.
JPH1185184A (ja) 音声認識装置
JP2886117B2 (ja) 音声認識装置
JP5300000B2 (ja) 調音特徴抽出装置、調音特徴抽出方法、及び調音特徴抽出プログラム
JPH08123470A (ja) 音声認識装置
JPH1097293A (ja) 音声認識用単語辞書作成装置及び連続音声認識装置
JP2880436B2 (ja) 音声認識装置
JP2975542B2 (ja) 音声認識装置
JP2968792B1 (ja) 統計的言語モデル生成装置及び音声認識装置
JPH10254477A (ja) 音素境界検出装置及び音声認識装置
JP2905686B2 (ja) 音声認識装置
JP2731133B2 (ja) 連続音声認識装置
JP2005091504A (ja) 音声認識装置
JP2000075885A (ja) 音声認識装置
Tachibana et al. Frame-level AnyBoost for LVCSR with the MMI criterion
JP4919282B2 (ja) 不明瞭音声コマンド認識装置および不明瞭音声コマンド認識処理方法
JPH07104782A (ja) 音声認識装置
JP2975540B2 (ja) 自由発話音声認識装置