JP2004272134A - 音声認識装置及びコンピュータプログラム - Google Patents
音声認識装置及びコンピュータプログラム Download PDFInfo
- Publication number
- JP2004272134A JP2004272134A JP2003065916A JP2003065916A JP2004272134A JP 2004272134 A JP2004272134 A JP 2004272134A JP 2003065916 A JP2003065916 A JP 2003065916A JP 2003065916 A JP2003065916 A JP 2003065916A JP 2004272134 A JP2004272134 A JP 2004272134A
- Authority
- JP
- Japan
- Prior art keywords
- speech recognition
- learning
- speech
- output
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010801 machine learning Methods 0.000 claims description 21
- 238000000034 method Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 8
- 230000004044 response Effects 0.000 claims description 2
- 238000012706 support-vector machine Methods 0.000 abstract description 39
- 238000010586 diagram Methods 0.000 description 17
- 230000008569 process Effects 0.000 description 15
- 230000002269 spontaneous effect Effects 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000000415 inactivating effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
Images
Abstract
【課題】異なる発話スタイルの音響モデルを発話単位よりもさらに細かい単位で切替えることが可能な音声認識装置を提供する。
【解決手段】音声認識装置30は、自然発話音響モデル42を用いる音声認識部44、朗読発話音響モデル46を用いる音声認識部48、これらの音声認識結果の対応関係を決定するアライメント部50、音声認識結果から単語ごとに特徴パラメータを作成するパラメータ作成部64、この特徴パラメータを受け、第1及び第2の音声認識結果のいずれを選択するかを単語ごとに判定し判定信号を出力するサポートベクターマシン62、および判定信号にしたがって、音声認識部44及び音声認識部48の音声認識結果の一方を選択する選択部72とを含む。
【選択図】 図7
【解決手段】音声認識装置30は、自然発話音響モデル42を用いる音声認識部44、朗読発話音響モデル46を用いる音声認識部48、これらの音声認識結果の対応関係を決定するアライメント部50、音声認識結果から単語ごとに特徴パラメータを作成するパラメータ作成部64、この特徴パラメータを受け、第1及び第2の音声認識結果のいずれを選択するかを単語ごとに判定し判定信号を出力するサポートベクターマシン62、および判定信号にしたがって、音声認識部44及び音声認識部48の音声認識結果の一方を選択する選択部72とを含む。
【選択図】 図7
Description
【0001】
【発明の属する技術分野】
この発明は音声認識システムに関し、特に、発話スタイルに依存した音響モデルを自動的に選択する事により認識率を向上させる音声認識システムに関する。
【0002】
【従来の技術】
音声認識システム及び音声対話システムは、会話調の音声を処理する必要がある。一般に、会話調といっても複数の発話スタイルがある。発話スタイルが異なれば、音声認識に適した音響モデルも異なると考えられる。
【0003】
発話スタイルの異なる複数の音響モデルを用いて、発話単位で最尤となる結果を自動選択する音声認識技術が、非特許文献1により知られている。
【0004】
【非特許文献1】
T.Takezawa,et al.”A Comparative Study on Acoustic and Linguistic Characteristics…”,ICSLP2000,Vol.3,pp.522−525,2000
【発明が解決しようとする課題】
非特許文献1に記載の技術では、発話の一部で発話スタイルが変化した様な場合にはどの音響モデルを用いても好ましい結果を得られない。何らかの手段により、異なる発話スタイルの音響モデルを発話単位よりもさらに細かい単位で切替えて用いる様にできればさらに正確な音声認識を行なうためには有用である。しかし、その様な切替えを行なうための手法は従来は知られていない。
【0005】
それゆえに本発明の目的は、異なる発話スタイルの音響モデルを発話単位よりもさらに細かい単位で切替える事が可能な音声認識装置を提供する事である。
【0006】
この発明の他の目的は、異なる発話スタイルの音響モデルを単語単位で切替える事が可能な音声認識装置を提供する事である。
【0007】
この発明のさらに他の目的は、言語情報を用いる事により異なる発話スタイルの音響モデルを単語単位で切替える事が可能な音声認識装置を提供する事である。
【0008】
この発明の別の目的は、言語情報を用いる事により異なる発話スタイルの音響モデルを単語単位で切替える事が可能で、その切替を学習可能とした音声認識装置を提供する事である。
【0009】
【課題を解決するための手段】
本発明の第1の局面によれば、音声認識装置は、第1の音響モデルを使用して音声入力に対する音声認識を行ない第1の音声認識結果を出力するための第1の音声認識手段と、第2の音響モデルを使用して音声入力に対する音声認識を行ない第2の音声認識結果を出力するための第2の音声認識手段と、第1及び第2の音声認識結果の対応関係を決定するためのアライメント手段と、第1及び第2の音声認識結果の、アライメント手段により決定された対応部分の組から、予め定められた特徴パラメータを作成するためのパラメータ作成手段と、特徴パラメータを受け、第1及び第2の音声認識結果のいずれを選択するかを、対応部分の組の各々に対して判定し判定信号を出力するための判定手段と、判定信号に従って、第1及び第2の音声認識結果の一方を選択するための選択手段とを含む。
【0010】
好ましくは、判定手段は、特徴パラメータを受けると判定信号を出力する様に、学習のための音声データ及び当該音声データに対応する正解単語列の組、ならびに当該学習データに対する第1及び第2の音声認識結果に基づいて学習済みの機械学習手段を含む。
【0011】
より好ましくは、機械学習手段はサポートベクターマシンを含む。
【0012】
さらに好ましくは、音声認識装置は、第1及び第2の音声認識結果が一致するか否かを判定するために、対応部分の組の各々に対して両者を比較し、一致する場合には、パラメータ作成手段及び判定手段を不能動化するための比較手段を含む。選択手段は、第1及び第2の音声認識結果が一致する場合には、第1及び第2の音声認識結果のうち予め定められた一方を選択して出力してもよい。
【0013】
音声認識装置は、学習のための音声データと当該音声データに対応する正解単語列との組を多数記憶した学習コーパスと、学習コーパスを用いて機械学習手段を学習させるための学習手段とをさらに含んでもよい。
【0014】
好ましくは、音声認識装置は、機械学習手段の学習を行なう第1のモードと、機械学習手段の学習結果を利用して音声認識を行なう第2のモードとの動作モードを有し、音声認識装置はさらに、動作モードを指定する動作モード指定信号を受ける信号入力部を含み、学習手段は、音声入力を受ける第1の入力と、学習コーパスからの学習のための音声入力を受ける第2の入力と、第1及び第2の音声認識手段の入力に接続された出力とを持ち、動作モード指定信号が予め定められた第1の値の時には第1の入力を、第1の値と異なる第2の値の時には第2の入力を、それぞれ出力と接続するための第1のスイッチ手段と、第1及び第2の音声認識結果、比較手段の比較結果、ならびに第1のスイッチ手段の出力からのデータを受け、機械学習手段のための学習データを作成して出力するための学習データ作成手段と、パラメータ作成手段の出力に接続された第1の入力、学習データ作成手段の出力に接続された第2の入力、及び機械学習手段の入力に接続された出力とを有する第2のスイッチ手段とを含み、第2のスイッチ手段は、動作モード指定信号が第1の値のときには第1の入力を出力に、第2の値のときには第2の入力を出力に、それぞれ接続する様に動作する。
【0015】
学習データ作成手段は、第1及び第2の音声認識結果、ならびに第1のスイッチ手段を介して学習コーパスから与えられる正解単語列に基づいて、機械学習手段のための教師信号を作成するための手段と、教師信号及び特徴パラメータとを機械学習手段の学習データとして記憶するためのパラメータ記憶手段と、学習コーパスに含まれる音声データの全てに対して学習データの記憶が終了した事に応答して、パラメータ手段に記憶されている学習データを読出して第2のスイッチ手段の第2の入力に与えるための手段とを含んでもよい。
【0016】
好ましくは、第1の音響モデルは自然発話音響モデルであり、第2の音響モデルは朗読発話音響モデルである。
【0017】
本発明の第2の局面によれば、コンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを上記した音声認識装置として動作させる。
【0018】
【発明の実施の形態】
言語尤度及び品詞などの言語情報と発話スタイルとの関係を調べた結果、音声認識に適した音響モデルは品詞に依存して異なる事が判明した。その結果、以下の実施の形態で示す様に、言語情報を用いて音声認識に用いる音響モデルを単語単位で切替える事が可能になり、音声認識の精度を向上させる事ができる。
【0019】
最初に、言語尤度及び品詞などの言語情報と発話スタイルとの関係について行った研究の結果について述べる。
【0020】
<使用した資料>
音響モデル
発話スタイルとして、本実施の形態では自然発話と朗読発話とを選び、男女別にそれぞれの音響モデルを準備した。自然発話としては、出願人において準備した旅行会話を模擬した日本人同士の対話音声を用いた。朗読音声としては、音素バランス文の読み上げ音声を用いた。音響分析の条件を図1に、学習に用いた音声データの概要を図2に、それぞれ示す。なお、図1において「MFCC」とは「Mel−Frequency Cepstrum Coefficient」の事を指す。
【0021】
分析用音声データ
分析に用いた音声データは、出願人において準備した、旅行会話を模擬した日本人同士の対話音声(男性17名及び女性25名からなる発話者による延べ551発話)の音声データと、通訳を介した日本語―英語の対話音声(日本語側のみ:男性8名、女性15名、延べ330発話)の音声データとである。
【0022】
以下、本明細書では、日本人同士の対話音声を直接対話データと呼び、通訳を介した対話音声を間接対話データと呼ぶ。
【0023】
<発話スタイル別音響モデルの尤度比較>
本実施の形態では、単語単位による音響モデルの自動選択を行なう。一般に、音声認識において、正解系列の音響尤度が高くなる事が好ましい。従ってここでは、音響尤度の大小比較を行なっている。具体的には、朗読発話と自然発話との各音響モデルを用い、分析用データについての単語単位の音響尤度を求めて比較及び分析を行った。
【0024】
<品詞情報を用いた比較及び分析>
図3に、品詞と発話スタイルとの関係を示す。図3の縦軸に示す「自然発話音響モデル優位率」とは、自然発話音響モデルを用いた場合の音響尤度が、朗読発話音響モデルを用いた場合の音響尤度よりも高くなる単語の割合の事をいう。図3の横軸は品詞である。すなわち図3は、自然発話音響モデル優位率を、品詞ごとに集計した結果を示す。自然発話音響モデル優位率が0.5より高いという事は、自然発話音響モデルを用いた場合の音響尤度が朗読発話音響モデルを用いた場合の音響尤度よりも高くなる単語の方が、そうでない単語よりも多い事を意味する。図3から分かる様に、品詞によって朗読発話に近いものと自然発話に近いものとに大きく分かれている。
【0025】
図4に、図3のデータをさらに直接対話データと間接対話データとに分類して示した。ただし図4においては、図3に示した間投詞については除外してある。図4において、白い棒グラフは直接対話データでの自然発話音響モデル優位率を示し、黒い棒グラフは間接対話データでの自然発話音響モデル優位率を示す。
【0026】
図4から、ほぼすべての品詞について、直接対話データの自然発話音響モデル優位率が高くなっている事が分かる。特に、内容に関する重要な情報を伝達する形容詞類及び名詞類、並びに名詞類に伴う接尾辞及び接頭辞では、直接対話データと間接対話データとの間に顕著な差がある事が分かる。たとえば形容詞類では、直接対話データでの自然発話音響モデル優位率が0.8近いのに対し、間接対話データでの自然発話音響モデル優位率は0.5以下である。
【0027】
また、図3及び図4から、品詞によって朗読発話に近いものと自然発話に近いものとに大きく分かれる事が分かる。たとえば、自然発話特有の品詞である感動詞や、文末表現である助動詞では自然発話音響モデル優位率が高くなる。逆に、内容に関する重要な情報を伝達する名詞類では自然発話音響モデル優位率は低くなる。この傾向は、直接対話データと間接対話データとに共通して生じているが、図4に示す様に特に間接対話データの場合に顕著である。
【0028】
図5は、図4に示した名詞類をより詳細に分類し集計した結果を示す。図5において、縦軸は自然発話音響モデル優位率を表す。
【0029】
図5を参照して、名詞類の中でも、固有名詞及び数詞では朗読発話音響モデルが優位であるのに対して、代名詞及びサ変名詞では自然発話が優位となっている。この理由として、固有名詞及び数詞は、対話中で電話番号・名前・日時などの様な比較的重要な情報を表現している事が多く、はっきりと聞き取れる様に意識的に明瞭に発話されており、朗読発話に近い発話スタイルになっているのではないかと考えられる。この傾向は間接対話データの場合に顕著に表れており、特に数詞、固有名詞は直接対話データと間接対話データとの間に大きな差が見られる。
【0030】
一方、代名詞及びサ変名詞については、聞き取りづらい状況であっても対話進行への影響が小さいため、あまり明瞭に発話されていないと考えられる。この場合にはまた、直接対話データと間接対話データとの間の差は固有名詞又は数詞の場合ほど大きくない。
【0031】
以上から、品詞に依存して適切な音響モデルが異なり、その結果品詞に依存して適切な音響モデルを用いる事でより正確な認識ができる可能性が示された。
【0032】
<言語尤度と発話スタイルとの関係>
次に、言語尤度と発話スタイルとの関係について示す。言語尤度とは、簡単にいえばコーパス中においてある単語列が出現する確率の事をいう。二つの単語列についての言語尤度はバイグラムと呼ばれる。
【0033】
図6は、自然発話音響モデル優位率を、マルチクラス複合バイグラムによる言語尤度の値を用いて集計した結果である。ここでは、分析用データを言語尤度の値によりソートし、各グループに含まれる単語数がほぼ等しくなる様に16グループに分割している。図6の横軸は、各グループ番号を表す。グループ番号の値が小さいほどそのグループ内の単語の言語尤度は低い。縦軸は自然発話音響モデル優位率を示す。
【0034】
図6を参照して、言語尤度が高くなるほど自然発話音響モデル優位率も高くなるという関係が見られる。この理由として、言語尤度の低い単語ほど、対話中でその単語が持つ情報量が大きく、そのために意識的に明瞭に発話され朗読発話に近い発話スタイルとなっている可能性が考えられる。
【0035】
以上から、朗読発話音響モデルと自然発話音響モデルとの中から単語単位で適切な音響モデルを選択するために、言語尤度と品詞情報とを用いる事ができる事が示された。
【0036】
<音声認識装置>
上で示した知見から、朗読発話音響モデルと自然発話音響モデルとを用いた認識結果から、単語単位で自動選択する事により、認識精度の向上を図った音声認識装置を構築できる。以下、その一実施の形態について説明する。
【0037】
ハードウェアブロック図
本装置では、以下に詳細に述べる様に、朗読発話音響モデルと自然発話音響モデルとの自動選択に、SVM(Support Vector Machine)による機械学習を用いている。本実施の形態ではこのSVMの学習も可能にしているため、本実施の形態の装置は主として学習に関する部分と、実際の音声認識に関する部分とに大別される。なお、以下の図面において、同じ部品には同じ参照符号及び名称を付す事とする。それらの機能も同一である。従ってそれらの詳細な説明は繰返さない。
【0038】
図7に、本実施の形態に係る音声認識装置30のブロック図を示す。図7を参照して、本実施の形態に係る音声認識装置30は、前述した通り朗読発話音響モデルと自然発話音響モデルとの自動選択を行なうためのSVM62と、音声認識装置30を学習モードで動作させるか、認識モードで動作させるかを指定するモード指定信号を入力するための端子66と、SVM62の学習のための発話音声データ及びその正解文となるテキストデータとの組合せを多数含む学習コーパス40と、モード指定信号に基づいて音声入力74と学習コーパス40の一文とのいずれかを選択するスイッチ68とを含む。
【0039】
スイッチ68は、音声入力74が与えられる第1の入力68Aと、学習コーパス40からの一文が与えられる第2の入力68Bと、出力68Cとを有する。スイッチ68は、端子66からのモード指定信号が第1の値のときには第1の入力68Aのデータを出力68Cに与え、第2の値のときには第2の入力68Bのデータを出力68Cに与える。
【0040】
音声認識装置30はさらに、自然発話音響モデル42と、スイッチ68の出力68Cから入力される音声入力に対し、自然発話音響モデル42を用いて音声認識処理を行なう音声認識部44と、朗読発話音響モデル46と、スイッチ68の出力68Cから入力される音声入力に対し、朗読発話音響モデル46を用いて音声認識処理を行なうための音声認識部48とを含む。
【0041】
音声認識装置30はさらに、音声認識部44及び音声認識部48の出力に含まれる時間データ及び音響スコアなどから認識結果のアライメントをとり、音声認識部44の出力と音声認識部48の出力との単語単位での対応関係を決定するアライメント部50と、アライメント部50によるアライメントの結果に基づいて、音声認識部44の出力と音声認識部48の出力とから対応する単語を取出し、両者が一致するか否かを判定する比較部52とを含む。比較部52の出力は、後述する比較選択部54及びパラメータ作成部64の能動化又は不能動化に使用される。
【0042】
音声認識装置30はまた、比較部52による比較結果とモード指定信号とを受け、モード指定信号が第2の値のときでかつ音声認識部44の出力と音声認識部48の出力とが相違しているときに、そのいずれかがスイッチ68の出力68Cから与えられた文と一致するか否かを判定し、判定結果と、いずれが一致しているかを示す、SVM学習のための教師信号とを出力するための比較選択部54とを含む。
【0043】
音声認識装置30はそれに加えて、比較部52の出力する信号が認識結果の不一致を示すときに、音声認識部44の出力及び音声認識部48の出力に基づいてSVM62の学習のためのパラメータベクトルを作成するためのパラメータ作成部64と、パラメータ作成部64により作成されたパラメータと、比較選択部54からの教師信号とを学習パラメータベクトルとして記憶するためのパラメータ記憶部58と、学習コーパス40内の全ての文について上記した処理が終了した事に応答して、パラメータ記憶部58に記憶されていた全ての学習パラメータベクトルを出力するためのSVM学習部60とを含む。
【0044】
適切な音響モデルの選択は言語尤度及び品詞との関係で選択できる事が分かっているため、本実施の形態の装置では、SVM62の学習には以下の様な全部で27次元の学習パラメータ+1次元の教師信号を用いる。
・各音響モデルを用いた場合の音響尤度の大小関係(1次元)
・各音響モデルを用いた場合の言語尤度(2次元)
・各音響モデルを用いた場合に出現する品詞(24次元)
本実施の形態では、各音響モデルに対して12品詞を用い、パラメータとしては各品詞ごとに認識結果中におけるその出現回数を使用している。教師信号は、両モデルの認識結果が異なっており、かつ一方が正解だったときにその正解だった認識結果を与えた音響モデルを示す。上記した27次元のパラメータはパラメータ作成部64により、教師信号は比較選択部54により、それぞれ作成される。
【0045】
音声認識装置30はまた、パラメータ作成部64の出力に接続された第1の入力70A、SVM学習部60の出力に接続された第2の入力70B、及び出力70Cを有し、端子66からのモード指定信号が第1の値のときには第1の入力70Aのデータを、第2の値のときには第2の入力70Bのデータを、それぞれ選択して出力70Cを介して出力するためのスイッチ70とを含む。スイッチ70の出力70Cは、SVM62の入力に接続されている。
【0046】
従って、モード指定信号が第1の値のときにはパラメータ作成部64からの27次元のパラメータがSVM62に与えられ、第2の値のときにはSVM学習部60からの27次元のパラメータ+1次元の教師信号からなる学習データがSVM62に与えられる。
【0047】
音声認識装置30はさらに、音声認識部44の出力、音声認識部48の出力、比較部52からの判定信号、SVM62からの判定信号、及び端子66からのモード指定信号を受け、モード指定信号が第1の値のときに、以下に説明する様な方法に従って音声認識部44又は音声認識部48の出力を選択するための出力選択部72を含む。すなわち出力選択部72は、音声認識部44の出力と音声認識部48の出力とが一致しているときには、無条件で音声認識部44の出力を選択して音声認識結果として出力する。両者が一致していないときには出力選択部72は、SVM62の判定信号に基づいていずれかを選択して音声認識結果として出力する。
【0048】
図8に、端子66から与えられるモード指定信号が第2の値のとき、すなわち音声認識装置30が学習モードのときの音声認識装置30の実質的な構成を示す。図9に、モード指定信号が第1の値のとき、即ち音声認識装置30が認識モードのときの音声認識装置30の実質的な構成を示す。
【0049】
図10に、図7、図8及び図9に示すアライメント部50が行なうアライメント処理の概略について示す。単語単位で音響尤度及び言語尤度などを比較するためには、比較対象となる時間的区間が同一でなければならない。そのため、アライメント部50によって対応関係のとれた複数の単語同士を比較して学習を行なう事としている。
【0050】
図10を参照して、正解系列が「えーワタナベケンタです」であるのに対して、朗読発話音響モデルを用いた音声認識部の出力が「えーワタナベケンタです」、自然発話音響モデルを用いた音声認識部の出力が「えーまた歩いて三日です」というものである場合を考える。この例では、図10のボックス90で示す部分がこの3つを通じて対応しており、またボックス94で示す部分も対応している事が分かる。従ってボックス92で示す部分も互いに対応した部分である事が分かる。これが図9のアライメント部50の行なうアライメントの処理である。この処理は、音声認識部44及び音声認識部48から出力される認識結果に付随する時間データ、単語を使用したDPマッチングにより行なう。
【0051】
なお、ボックス90、92、94中にそれぞれ含まれる単語群の様に互いに対応している部分は、1対1に対応する単語からなる場合だけではない。場合によってはボックス92の様に複数の単語を含む場合もある。本明細書ではこれらの場合も含めて単に「単語単位」と呼ぶ事とする。
【0052】
図11に、比較部52及び比較選択部54が行なう比較処理と選択処理の詳細について示す。図11において、「○」「×」「◎」がいずれも単語を示すものとする。特に、「○」は正解と同じ単語を示し、「×」は認識結果のうち正解と異なる単語を表し、「◎」は二つの認識結果の単語のうち、一方のみが正解の場合を示す。
【0053】
図11を参照して、図7及び図8に示す比較部52及び比較選択部54は、「◎」に相当する単語が存在する場合のみパラメータベクトル作成制御信号をパラメータ作成部64に対して与える。すなわち、音声認識部44の出力と音声認識部48の出力とが相違しており、かつ一方が正解系列と一致する場合のみ、パラメータの作成を行なわせる。両者とも正解の場合にも、両者とも不正解の場合にも、学習を行なう必要はないからである。従って、図11に示す例では、ボックス102、106、108及び110の場合のみパラメータベクトル作成制御信号が出力され、ボックス100、104及び112の場合には出力されない。
【0054】
なお上記した様に、比較対照の単語が1対1で対応しているとは限らないので、SVM62の学習では、対応のとれた個所ごとに、正解系列とのDP(Dynamic Programming)距離が最小となる結果が自動選択される様機械学習を行なった。そのための学習データ数は185箇所であった。
【0055】
<音声認識装置の動作>
上記した音声認識装置30は以下の様に動作する。まず、学習モードにおける音声認識装置30の動作から説明する。学習モードでは、端子66に与えられるモード制御信号は第2の値となる。その結果、スイッチ68は第2の入力68B側に倒れる。スイッチ70は第2の入力70B側に倒れる。
【0056】
この状態で、学習コーパス40から音声入力データがスイッチ68を介して音声認識部44及び音声認識部48に与えられる。学習コーパス40からはまた、このときの音声入力データに対応する正解列や正解単語列が比較選択部54に与えられる。
【0057】
音声認識部44は自然発話音響モデル42を用いて、音声入力データに対して音声認識を行ない認識結果をアライメント部50、比較部52、及びパラメータ作成部64に与える。音声認識部48も同様に朗読発話音響モデル46を用いて、入力された音声データに対して音声認識を行ない認識結果をアライメント部50、比較部52、及びパラメータ作成部64に与える。
【0058】
アライメント部50は、音声認識部44からの認識結果と音声認識部48からの認識結果とに対してDPマッチングを行ない、両者の単語単位での対応関係を決定する。比較部52は、アライメント部50によるアライメント結果に基づいて、単語単位で音声認識部44の認識結果の単語と音声認識部48の認識結果の単語との対応するもの同士を比較する。比較部52は、両者が一致する場合にはパラメータ作成部64及び比較選択部54を不能動化させ、両者が不一致の場合には両者を能動化させる。
【0059】
比較部52により能動化されると、パラメータ作成部64は音声認識部44からの認識結果と音声認識部48からの認識結果とに基づいて、SVM学習のための27次元のパラメータ列を作成する。一方比較選択部54は、音声認識部44の出力及び音声認識部48の出力と学習コーパス40からの正解系列とを比較し、正解となる方を示す教師信号を作成し学習データ作成部56に与える。
【0060】
学習データ作成部56は、パラメータ作成部64からの27次元のデータと、比較選択部54からの教師信号とを組にして学習データベクトルとしてパラメータ記憶部58に与える。パラメータ記憶部58は、これを順次記憶していく。
【0061】
学習コーパス40内の全ての音声データに対して上記した処理が完了すると、SVM学習部60がパラメータ記憶部58に記憶されている学習パラメータをスイッチ70を介してSVM62に与え、SVM62を学習させる。以上で学習は終了である。
【0062】
音声認識時には、端子66を介して与えられるモード指定信号は第1の値となる。このとき、スイッチ68は第1の入力68Aのデータ側に倒れる。すなわちスイッチ68は、音声入力74を選択して出力68Cから音声認識部44及び音声認識部48に与える。その結果、スイッチ70は第1の入力70A側に倒れる。モード指定信号はSVM62にも与えられ、このときSVM62は、27次元のパラメータを与えられると、学習結果に従って音声認識部44の出力又は音声認識部48の出力のいずれを選択すべきかを示す判定信号を出力する様に動作する。
【0063】
音声認識部44及び音声認識部48は、音声入力74に対してそれぞれ自然発話音響モデル42及び朗読発話音響モデル46を用いて音声認識を行ない、結果をアライメント部50、比較部52、及びパラメータ作成部64に与える。
【0064】
アライメント部50は学習モード時と同様に両者の出力の対応関係をとる。比較部52は、対応のとれた単語単位で両者の出力が一致しているか否かを判定する。両者が一致しているとき、比較部52はパラメータ作成部64を不能動化し、出力選択部72を制御して音声認識部44の出力を選択して出力させる。両者が一致していないとき、比較部52はパラメータ作成部64を能動化させる。
【0065】
パラメータ作成部64は、音声認識部44の出力及び音声認識部48の出力から、学習モード時と同様に27次元のパラメータを作成しスイッチ70を介してSVM62に与える。SVM62は、このパラメータの組合せに対し、学習結果に従った判定信号を出力選択部72に出力する。出力選択部72は、比較部52から与えられる信号が両者の不一致を示す値なので、SVM62の判定信号に従って、音声認識部44の出力又は音声認識部48の出力の一方を選択して音声認識結果として出力する。
【0066】
<実験結果>
上記した装置を用いて認識実験を行った。実験では、朗読発話音響モデル及び自然発話音響モデルをそれぞれ単独で用いた場合と、上記した装置での機械学習による自動選択結果とを比較した。使用した学習データは自然発話を用いたものであり、総単語数は4990であった。
【0067】
図12に、この実験の結果得られた単語誤り率を示す。図12から分かる様に、単語単位で音響モデルを自動選択する本実施の形態の装置によれば、朗読発話音響モデルを単独で使用した場合よりも約1.7ポイント、単語誤り率が改善した。自然発話音響モデルを単独で使用した場合と比較しても、約0.7ポイントの改善が得られた。また、本実施の形態の装置により品詞単位で自動選択する事により単語の選択の改善が見られたのは、66.5%(185箇所中、123箇所)であった。
【0068】
以上の様に、本実施の形態の装置では、品詞及び言語尤度などの言語情報をパラメータとして用い、機械学習で品詞単位で音響モデルを自動選択することができる。その結果、単語誤り率が改善し、より正確な音声認識結果が得られる。
【0069】
<コンピュータによる実現>
上記した本実施の形態の音声認識装置は、音声処理機能を備えたコンピュータにより実現できる。図13にコンピュータにより実現された音声認識装置30の外観を示す。図14はこの音声認識装置30のハードウェアブロック図である。
【0070】
図13を参照して、音声認識装置30は、CD−ROM(Compact Disc Read−Only Memory)駆動装置190、FD(Flexible Disk)駆動装置192を備えたコンピュータ180と、いずれもコンピュータ180に接続されたモニタ182、マイク184、キーボード186、及びマウス188とを含む。
【0071】
図14を参照して、コンピュータ180は、前述したCD−ROM駆動装置190及びFD駆動装置192に加えて、CPU(Central Processing Unit)196と、ROM(Read−Only Memory)198と、RAM(Random Access Memory)200と、ハードディスク194と、マイク184に接続されたサウンドボード208とを含む。これらはいずれもバス206により相互に接続されている。CD−ROM駆動装置190にはCD−ROM202が装着され、FD駆動装置192にはFD204が装着される。
【0072】
以下に述べる制御構造を有するコンピュータプログラムは、たとえばCD−ROM202又はFD204の様なコンピュータ読取可能な記録媒体上に記録されて流通し、当該CD−ROM202をCD−ROM駆動装置190に装着したのちCD−ROM202からハードディスク194に複写される。実行時にはこのプログラムはハードディスク194から読出されてRAM200にロードされ、図示しないプログラムカウンタにより指定されるアドレスからCPU196が命令を読出して実行し、実行結果をRAM200又はハードディスク194に書込む。CPU196はさらにプログラムカウンタの値をプログラムの実行結果により書換え、さらにそのプログラムカウンタの値に基づいて次の命令をRAM200から読出して実行する。CPU196はこの様な動作原理に従って、コンピュータプログラムを実行する。
【0073】
図15に、本実施の形態の装置を実現するためのコンピュータプログラムのうち、学習モードを実現するプログラムのフローチャートを示す。このプログラムを選択する事が、図7に示す端子66に与えるモード指定信号を第2の値にする事に対応する。
【0074】
図15を参照してこのプログラムは、学習コーパス40の最初の一文の音声データと正解文とを選択するステップ220と、ステップ220の処理の結果、学習コーパス40の終わりに達したか否かを判定するステップ222とを含む。ステップ222での判定の結果、学習コーパス40の終わりに達したと判定された場合、制御はステップ242に進み、それ以外の場合には制御はステップ224に進む。ステップ242での処理については後述する。
【0075】
ステップ224では、自然発話音響モデルと、朗読発話音響モデルとの両音響モデルを用いて、処理対象の一文に相当する音声データを音声認識する。続いてステップ226では、両モデルを用いた音声認識結果のアライメントを行ない、単語単位での対応関係を決定する。
【0076】
続いてステップ228では、この一文の二つの認識結果のうち、先頭のアライメント部分(単語)を選択する。ステップ230で、一文の中で処理対象のアライメントが全て終了したか否かを判定する。全て終了した場合には制御はステップ232に進む。それ以外の場合には制御はステップ234に進む。ステップ232の内容については後述する。
【0077】
ステップ234では、処理対象となるアライメント部分が互いに異なるか否かを判定する。互いに異なる場合には制御はステップ236に進む。それ以外の場合には制御はステップ240に進む。
【0078】
ステップ236では、いずれか一つが、学習コーパス40から与えられた正解系列の対応する単語と一致するか否かを判定する。いずれも一致しない場合、制御はステップ240に進む。一方が一致する場合、ステップ238で、前述した通りの27次元のパラメータと、どちらが正解と一致しているかを示す教師信号とからなる学習データを作成し、記憶する。この後、制御はステップ240に進む。
【0079】
ステップ240では、処理を次のアライメント部分に進める。
【0080】
ステップ230で一文に相当する音声データの全てについて処理が終了したと判定されると制御はステップ232に進む。ステップ232では、学習コーパス40中の次の音声データを処理対象に選択する処理が行われる。この後、制御はステップ222に戻る。この様にして、ステップ222〜240の処理が繰返し実行される。
【0081】
ステップ222での判定の結果、学習コーパス40内の全ての音声データについて処理が終了し、必要な学習データの作成が完了すると制御はステップ242に進む。ステップ242では、ステップ238の処理で作成された学習データの組が全てSVM62に学習のために与えられる。SVM62としては、パブリックドメインのSVMソフトウェアツールを使用する事ができる。この学習が終了したらこのプログラムは終了する。
【0082】
図16に、音声認識を実行する際のプログラムのフローチャートを示す。このプログラムを選択して実行する事が、図7に示す端子66に与えるモード指定信号の値を第1の値にする事に相当する。なお、このプログラムでは図15に示すものと同様の処理を実行する場合には、図15に示すものと同じルーチンを使用している。それらは、同じステップ番号で示す。
【0083】
図16を参照して、このプログラムは、入力文の音声入力を受けるステップ260と、この音声入力に対して自然発話音響モデルと朗読発話音響モデルとの両モデルを用いた音声認識を行なうステップ224と、両モデルを用いた音声認識結果のアライメントを行ない、単語単位での対応関係を決定するステップ226と、ステップ226により得られたアライメント部分の先頭を選択するステップ228とを含む。
【0084】
このプログラムはさらに、選択されたアライメント部分が音声入力の終わりを示すか否かを判定するステップ262を含む。ステップ262で音声入力の終わりであると判定されるとこのプログラムは終了する。音声入力の終わりでないと判定された場合、制御はステップ268に進む。
【0085】
ステップ268では、両モデルを用いた認識結果の対応する部分が一致するか否かを判定する。両者が一致していれば制御はステップ274に進む。さもなければ制御はステップ270に進む。
【0086】
ステップ270では、前述した27次元のパラメータを認識結果から作成する処理が行なわれる。続いてステップ272では、このパラメータを学習済みのSVMツールに与える事により、それに対するSVMツールの判定結果を得て、判定結果に対応する認識結果を選択して出力する。この後、制御はステップ276に進む。
【0087】
一方、ステップ268において両者が一致していると判定された場合、ステップ274では、いずれか予め定められた一方(本実施の形態では自然発話音響モデルを用いた音声認識結果)を選択して出力する。これが誤ったものであるにせよ、正しいものであるにせよ、いずれの認識結果を出力しても結果は同じである。この後、制御はステップ276に進む。
【0088】
ステップ276では、次のアライメント部分を新たな処理対象とする。制御はこの後ステップ262に戻り、以下上述した処理を繰返す。
【0089】
以上の制御構造を有するプログラムをコンピュータ上で実行させる事により、前述した本発明の一実施の形態の音声認識装置を実現する事ができる。
【0090】
なお、本実施の形態では自然発話音響モデルと朗読発話音響モデルという二つの典型的な音響モデルを切替えて用いた。しかし本発明はこの二つの音響モデルを切替える場合に限定されるわけではない。たとえば、三つ以上の音響モデルを切替える様な実施の形態も可能である。また本実施の形態では、学習にSVMを用いたが、SVM以外の機械学習方法を採用してもよい。
【0091】
また上記した実施の形態では、SVMの学習と音声認識とを同一の装置で切替えて実行できる様にした。しかし本発明はそうした実施の形態に限定される訳ではない。SVM学習は装置の出荷前に完成しておき、音声認識装置には学習済みのSVMのみを搭載する様にしてもよい。
【0092】
図13、図14に示した様に、本実施の形態では一般的な構成を持つデスクトップのコンピュータを用いたが、ノートブック型、又はPDA(Personal Digital Assistant)などで本発明に係る音声認識装置を実現してもよい。
【0093】
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内でのすべての変更を含む。
【図面の簡単な説明】
【図1】本実施の形態で用いた音声データの音響分析の条件を示す図である。
【図2】本実施の形態で用いた音声データの概要を示す図である。
【図3】品詞と発話スタイルとの関係を示す図である。
【図4】品詞と発話スタイルとの関係を直接対話データと間接対話データとに分類して示す図である。
【図5】図4に示した名詞類に関する品詞と発話スタイルとの関係をより詳細に分類し集計した結果を示す図である。
【図6】自然発話音響モデル優位率を、言語尤度の値を用いて集計した結果を示す図である。
【図7】本発明の一実施の形態に係る音声認識装置のブロック図である。
【図8】学習モード時の音声認識装置の実質的構成を示すブロック図である。
【図9】音声認識モード時の音声認識装置の実質的構成を示すブロック図である。
【図10】アライメント処理の概略を説明するための図である。
【図11】比較部52及び比較選択部54が行なう比較処理と選択処理の詳細を示す図である。
【図12】本発明の一実施の形態の装置による実験の結果得られた単語誤り率を示す図である。
【図13】コンピュータにより実現した本発明の一実施の形態の装置の外観を示す図である。
【図14】図13に示すコンピュータ及び周辺機器のハードウェア構成を示すブロック図である。
【図15】学習モードのコンピュータプログラムの制御構造を示すフローチャートである。
【図16】音声認識モードのコンピュータプログラムの制御構造を示すフローチャートである。
【符号の説明】
30 音声認識装置、40 学習コーパス、42 自然発話音響モデル、44、48 音声認識部、46 朗読発話音響モデル、50 アライメント部、52比較部、54 比較選択部、56 学習データ作成部、58 パラメータ記憶部、60 SVM学習部、62 SVM、64 パラメータ作成部
【発明の属する技術分野】
この発明は音声認識システムに関し、特に、発話スタイルに依存した音響モデルを自動的に選択する事により認識率を向上させる音声認識システムに関する。
【0002】
【従来の技術】
音声認識システム及び音声対話システムは、会話調の音声を処理する必要がある。一般に、会話調といっても複数の発話スタイルがある。発話スタイルが異なれば、音声認識に適した音響モデルも異なると考えられる。
【0003】
発話スタイルの異なる複数の音響モデルを用いて、発話単位で最尤となる結果を自動選択する音声認識技術が、非特許文献1により知られている。
【0004】
【非特許文献1】
T.Takezawa,et al.”A Comparative Study on Acoustic and Linguistic Characteristics…”,ICSLP2000,Vol.3,pp.522−525,2000
【発明が解決しようとする課題】
非特許文献1に記載の技術では、発話の一部で発話スタイルが変化した様な場合にはどの音響モデルを用いても好ましい結果を得られない。何らかの手段により、異なる発話スタイルの音響モデルを発話単位よりもさらに細かい単位で切替えて用いる様にできればさらに正確な音声認識を行なうためには有用である。しかし、その様な切替えを行なうための手法は従来は知られていない。
【0005】
それゆえに本発明の目的は、異なる発話スタイルの音響モデルを発話単位よりもさらに細かい単位で切替える事が可能な音声認識装置を提供する事である。
【0006】
この発明の他の目的は、異なる発話スタイルの音響モデルを単語単位で切替える事が可能な音声認識装置を提供する事である。
【0007】
この発明のさらに他の目的は、言語情報を用いる事により異なる発話スタイルの音響モデルを単語単位で切替える事が可能な音声認識装置を提供する事である。
【0008】
この発明の別の目的は、言語情報を用いる事により異なる発話スタイルの音響モデルを単語単位で切替える事が可能で、その切替を学習可能とした音声認識装置を提供する事である。
【0009】
【課題を解決するための手段】
本発明の第1の局面によれば、音声認識装置は、第1の音響モデルを使用して音声入力に対する音声認識を行ない第1の音声認識結果を出力するための第1の音声認識手段と、第2の音響モデルを使用して音声入力に対する音声認識を行ない第2の音声認識結果を出力するための第2の音声認識手段と、第1及び第2の音声認識結果の対応関係を決定するためのアライメント手段と、第1及び第2の音声認識結果の、アライメント手段により決定された対応部分の組から、予め定められた特徴パラメータを作成するためのパラメータ作成手段と、特徴パラメータを受け、第1及び第2の音声認識結果のいずれを選択するかを、対応部分の組の各々に対して判定し判定信号を出力するための判定手段と、判定信号に従って、第1及び第2の音声認識結果の一方を選択するための選択手段とを含む。
【0010】
好ましくは、判定手段は、特徴パラメータを受けると判定信号を出力する様に、学習のための音声データ及び当該音声データに対応する正解単語列の組、ならびに当該学習データに対する第1及び第2の音声認識結果に基づいて学習済みの機械学習手段を含む。
【0011】
より好ましくは、機械学習手段はサポートベクターマシンを含む。
【0012】
さらに好ましくは、音声認識装置は、第1及び第2の音声認識結果が一致するか否かを判定するために、対応部分の組の各々に対して両者を比較し、一致する場合には、パラメータ作成手段及び判定手段を不能動化するための比較手段を含む。選択手段は、第1及び第2の音声認識結果が一致する場合には、第1及び第2の音声認識結果のうち予め定められた一方を選択して出力してもよい。
【0013】
音声認識装置は、学習のための音声データと当該音声データに対応する正解単語列との組を多数記憶した学習コーパスと、学習コーパスを用いて機械学習手段を学習させるための学習手段とをさらに含んでもよい。
【0014】
好ましくは、音声認識装置は、機械学習手段の学習を行なう第1のモードと、機械学習手段の学習結果を利用して音声認識を行なう第2のモードとの動作モードを有し、音声認識装置はさらに、動作モードを指定する動作モード指定信号を受ける信号入力部を含み、学習手段は、音声入力を受ける第1の入力と、学習コーパスからの学習のための音声入力を受ける第2の入力と、第1及び第2の音声認識手段の入力に接続された出力とを持ち、動作モード指定信号が予め定められた第1の値の時には第1の入力を、第1の値と異なる第2の値の時には第2の入力を、それぞれ出力と接続するための第1のスイッチ手段と、第1及び第2の音声認識結果、比較手段の比較結果、ならびに第1のスイッチ手段の出力からのデータを受け、機械学習手段のための学習データを作成して出力するための学習データ作成手段と、パラメータ作成手段の出力に接続された第1の入力、学習データ作成手段の出力に接続された第2の入力、及び機械学習手段の入力に接続された出力とを有する第2のスイッチ手段とを含み、第2のスイッチ手段は、動作モード指定信号が第1の値のときには第1の入力を出力に、第2の値のときには第2の入力を出力に、それぞれ接続する様に動作する。
【0015】
学習データ作成手段は、第1及び第2の音声認識結果、ならびに第1のスイッチ手段を介して学習コーパスから与えられる正解単語列に基づいて、機械学習手段のための教師信号を作成するための手段と、教師信号及び特徴パラメータとを機械学習手段の学習データとして記憶するためのパラメータ記憶手段と、学習コーパスに含まれる音声データの全てに対して学習データの記憶が終了した事に応答して、パラメータ手段に記憶されている学習データを読出して第2のスイッチ手段の第2の入力に与えるための手段とを含んでもよい。
【0016】
好ましくは、第1の音響モデルは自然発話音響モデルであり、第2の音響モデルは朗読発話音響モデルである。
【0017】
本発明の第2の局面によれば、コンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを上記した音声認識装置として動作させる。
【0018】
【発明の実施の形態】
言語尤度及び品詞などの言語情報と発話スタイルとの関係を調べた結果、音声認識に適した音響モデルは品詞に依存して異なる事が判明した。その結果、以下の実施の形態で示す様に、言語情報を用いて音声認識に用いる音響モデルを単語単位で切替える事が可能になり、音声認識の精度を向上させる事ができる。
【0019】
最初に、言語尤度及び品詞などの言語情報と発話スタイルとの関係について行った研究の結果について述べる。
【0020】
<使用した資料>
音響モデル
発話スタイルとして、本実施の形態では自然発話と朗読発話とを選び、男女別にそれぞれの音響モデルを準備した。自然発話としては、出願人において準備した旅行会話を模擬した日本人同士の対話音声を用いた。朗読音声としては、音素バランス文の読み上げ音声を用いた。音響分析の条件を図1に、学習に用いた音声データの概要を図2に、それぞれ示す。なお、図1において「MFCC」とは「Mel−Frequency Cepstrum Coefficient」の事を指す。
【0021】
分析用音声データ
分析に用いた音声データは、出願人において準備した、旅行会話を模擬した日本人同士の対話音声(男性17名及び女性25名からなる発話者による延べ551発話)の音声データと、通訳を介した日本語―英語の対話音声(日本語側のみ:男性8名、女性15名、延べ330発話)の音声データとである。
【0022】
以下、本明細書では、日本人同士の対話音声を直接対話データと呼び、通訳を介した対話音声を間接対話データと呼ぶ。
【0023】
<発話スタイル別音響モデルの尤度比較>
本実施の形態では、単語単位による音響モデルの自動選択を行なう。一般に、音声認識において、正解系列の音響尤度が高くなる事が好ましい。従ってここでは、音響尤度の大小比較を行なっている。具体的には、朗読発話と自然発話との各音響モデルを用い、分析用データについての単語単位の音響尤度を求めて比較及び分析を行った。
【0024】
<品詞情報を用いた比較及び分析>
図3に、品詞と発話スタイルとの関係を示す。図3の縦軸に示す「自然発話音響モデル優位率」とは、自然発話音響モデルを用いた場合の音響尤度が、朗読発話音響モデルを用いた場合の音響尤度よりも高くなる単語の割合の事をいう。図3の横軸は品詞である。すなわち図3は、自然発話音響モデル優位率を、品詞ごとに集計した結果を示す。自然発話音響モデル優位率が0.5より高いという事は、自然発話音響モデルを用いた場合の音響尤度が朗読発話音響モデルを用いた場合の音響尤度よりも高くなる単語の方が、そうでない単語よりも多い事を意味する。図3から分かる様に、品詞によって朗読発話に近いものと自然発話に近いものとに大きく分かれている。
【0025】
図4に、図3のデータをさらに直接対話データと間接対話データとに分類して示した。ただし図4においては、図3に示した間投詞については除外してある。図4において、白い棒グラフは直接対話データでの自然発話音響モデル優位率を示し、黒い棒グラフは間接対話データでの自然発話音響モデル優位率を示す。
【0026】
図4から、ほぼすべての品詞について、直接対話データの自然発話音響モデル優位率が高くなっている事が分かる。特に、内容に関する重要な情報を伝達する形容詞類及び名詞類、並びに名詞類に伴う接尾辞及び接頭辞では、直接対話データと間接対話データとの間に顕著な差がある事が分かる。たとえば形容詞類では、直接対話データでの自然発話音響モデル優位率が0.8近いのに対し、間接対話データでの自然発話音響モデル優位率は0.5以下である。
【0027】
また、図3及び図4から、品詞によって朗読発話に近いものと自然発話に近いものとに大きく分かれる事が分かる。たとえば、自然発話特有の品詞である感動詞や、文末表現である助動詞では自然発話音響モデル優位率が高くなる。逆に、内容に関する重要な情報を伝達する名詞類では自然発話音響モデル優位率は低くなる。この傾向は、直接対話データと間接対話データとに共通して生じているが、図4に示す様に特に間接対話データの場合に顕著である。
【0028】
図5は、図4に示した名詞類をより詳細に分類し集計した結果を示す。図5において、縦軸は自然発話音響モデル優位率を表す。
【0029】
図5を参照して、名詞類の中でも、固有名詞及び数詞では朗読発話音響モデルが優位であるのに対して、代名詞及びサ変名詞では自然発話が優位となっている。この理由として、固有名詞及び数詞は、対話中で電話番号・名前・日時などの様な比較的重要な情報を表現している事が多く、はっきりと聞き取れる様に意識的に明瞭に発話されており、朗読発話に近い発話スタイルになっているのではないかと考えられる。この傾向は間接対話データの場合に顕著に表れており、特に数詞、固有名詞は直接対話データと間接対話データとの間に大きな差が見られる。
【0030】
一方、代名詞及びサ変名詞については、聞き取りづらい状況であっても対話進行への影響が小さいため、あまり明瞭に発話されていないと考えられる。この場合にはまた、直接対話データと間接対話データとの間の差は固有名詞又は数詞の場合ほど大きくない。
【0031】
以上から、品詞に依存して適切な音響モデルが異なり、その結果品詞に依存して適切な音響モデルを用いる事でより正確な認識ができる可能性が示された。
【0032】
<言語尤度と発話スタイルとの関係>
次に、言語尤度と発話スタイルとの関係について示す。言語尤度とは、簡単にいえばコーパス中においてある単語列が出現する確率の事をいう。二つの単語列についての言語尤度はバイグラムと呼ばれる。
【0033】
図6は、自然発話音響モデル優位率を、マルチクラス複合バイグラムによる言語尤度の値を用いて集計した結果である。ここでは、分析用データを言語尤度の値によりソートし、各グループに含まれる単語数がほぼ等しくなる様に16グループに分割している。図6の横軸は、各グループ番号を表す。グループ番号の値が小さいほどそのグループ内の単語の言語尤度は低い。縦軸は自然発話音響モデル優位率を示す。
【0034】
図6を参照して、言語尤度が高くなるほど自然発話音響モデル優位率も高くなるという関係が見られる。この理由として、言語尤度の低い単語ほど、対話中でその単語が持つ情報量が大きく、そのために意識的に明瞭に発話され朗読発話に近い発話スタイルとなっている可能性が考えられる。
【0035】
以上から、朗読発話音響モデルと自然発話音響モデルとの中から単語単位で適切な音響モデルを選択するために、言語尤度と品詞情報とを用いる事ができる事が示された。
【0036】
<音声認識装置>
上で示した知見から、朗読発話音響モデルと自然発話音響モデルとを用いた認識結果から、単語単位で自動選択する事により、認識精度の向上を図った音声認識装置を構築できる。以下、その一実施の形態について説明する。
【0037】
ハードウェアブロック図
本装置では、以下に詳細に述べる様に、朗読発話音響モデルと自然発話音響モデルとの自動選択に、SVM(Support Vector Machine)による機械学習を用いている。本実施の形態ではこのSVMの学習も可能にしているため、本実施の形態の装置は主として学習に関する部分と、実際の音声認識に関する部分とに大別される。なお、以下の図面において、同じ部品には同じ参照符号及び名称を付す事とする。それらの機能も同一である。従ってそれらの詳細な説明は繰返さない。
【0038】
図7に、本実施の形態に係る音声認識装置30のブロック図を示す。図7を参照して、本実施の形態に係る音声認識装置30は、前述した通り朗読発話音響モデルと自然発話音響モデルとの自動選択を行なうためのSVM62と、音声認識装置30を学習モードで動作させるか、認識モードで動作させるかを指定するモード指定信号を入力するための端子66と、SVM62の学習のための発話音声データ及びその正解文となるテキストデータとの組合せを多数含む学習コーパス40と、モード指定信号に基づいて音声入力74と学習コーパス40の一文とのいずれかを選択するスイッチ68とを含む。
【0039】
スイッチ68は、音声入力74が与えられる第1の入力68Aと、学習コーパス40からの一文が与えられる第2の入力68Bと、出力68Cとを有する。スイッチ68は、端子66からのモード指定信号が第1の値のときには第1の入力68Aのデータを出力68Cに与え、第2の値のときには第2の入力68Bのデータを出力68Cに与える。
【0040】
音声認識装置30はさらに、自然発話音響モデル42と、スイッチ68の出力68Cから入力される音声入力に対し、自然発話音響モデル42を用いて音声認識処理を行なう音声認識部44と、朗読発話音響モデル46と、スイッチ68の出力68Cから入力される音声入力に対し、朗読発話音響モデル46を用いて音声認識処理を行なうための音声認識部48とを含む。
【0041】
音声認識装置30はさらに、音声認識部44及び音声認識部48の出力に含まれる時間データ及び音響スコアなどから認識結果のアライメントをとり、音声認識部44の出力と音声認識部48の出力との単語単位での対応関係を決定するアライメント部50と、アライメント部50によるアライメントの結果に基づいて、音声認識部44の出力と音声認識部48の出力とから対応する単語を取出し、両者が一致するか否かを判定する比較部52とを含む。比較部52の出力は、後述する比較選択部54及びパラメータ作成部64の能動化又は不能動化に使用される。
【0042】
音声認識装置30はまた、比較部52による比較結果とモード指定信号とを受け、モード指定信号が第2の値のときでかつ音声認識部44の出力と音声認識部48の出力とが相違しているときに、そのいずれかがスイッチ68の出力68Cから与えられた文と一致するか否かを判定し、判定結果と、いずれが一致しているかを示す、SVM学習のための教師信号とを出力するための比較選択部54とを含む。
【0043】
音声認識装置30はそれに加えて、比較部52の出力する信号が認識結果の不一致を示すときに、音声認識部44の出力及び音声認識部48の出力に基づいてSVM62の学習のためのパラメータベクトルを作成するためのパラメータ作成部64と、パラメータ作成部64により作成されたパラメータと、比較選択部54からの教師信号とを学習パラメータベクトルとして記憶するためのパラメータ記憶部58と、学習コーパス40内の全ての文について上記した処理が終了した事に応答して、パラメータ記憶部58に記憶されていた全ての学習パラメータベクトルを出力するためのSVM学習部60とを含む。
【0044】
適切な音響モデルの選択は言語尤度及び品詞との関係で選択できる事が分かっているため、本実施の形態の装置では、SVM62の学習には以下の様な全部で27次元の学習パラメータ+1次元の教師信号を用いる。
・各音響モデルを用いた場合の音響尤度の大小関係(1次元)
・各音響モデルを用いた場合の言語尤度(2次元)
・各音響モデルを用いた場合に出現する品詞(24次元)
本実施の形態では、各音響モデルに対して12品詞を用い、パラメータとしては各品詞ごとに認識結果中におけるその出現回数を使用している。教師信号は、両モデルの認識結果が異なっており、かつ一方が正解だったときにその正解だった認識結果を与えた音響モデルを示す。上記した27次元のパラメータはパラメータ作成部64により、教師信号は比較選択部54により、それぞれ作成される。
【0045】
音声認識装置30はまた、パラメータ作成部64の出力に接続された第1の入力70A、SVM学習部60の出力に接続された第2の入力70B、及び出力70Cを有し、端子66からのモード指定信号が第1の値のときには第1の入力70Aのデータを、第2の値のときには第2の入力70Bのデータを、それぞれ選択して出力70Cを介して出力するためのスイッチ70とを含む。スイッチ70の出力70Cは、SVM62の入力に接続されている。
【0046】
従って、モード指定信号が第1の値のときにはパラメータ作成部64からの27次元のパラメータがSVM62に与えられ、第2の値のときにはSVM学習部60からの27次元のパラメータ+1次元の教師信号からなる学習データがSVM62に与えられる。
【0047】
音声認識装置30はさらに、音声認識部44の出力、音声認識部48の出力、比較部52からの判定信号、SVM62からの判定信号、及び端子66からのモード指定信号を受け、モード指定信号が第1の値のときに、以下に説明する様な方法に従って音声認識部44又は音声認識部48の出力を選択するための出力選択部72を含む。すなわち出力選択部72は、音声認識部44の出力と音声認識部48の出力とが一致しているときには、無条件で音声認識部44の出力を選択して音声認識結果として出力する。両者が一致していないときには出力選択部72は、SVM62の判定信号に基づいていずれかを選択して音声認識結果として出力する。
【0048】
図8に、端子66から与えられるモード指定信号が第2の値のとき、すなわち音声認識装置30が学習モードのときの音声認識装置30の実質的な構成を示す。図9に、モード指定信号が第1の値のとき、即ち音声認識装置30が認識モードのときの音声認識装置30の実質的な構成を示す。
【0049】
図10に、図7、図8及び図9に示すアライメント部50が行なうアライメント処理の概略について示す。単語単位で音響尤度及び言語尤度などを比較するためには、比較対象となる時間的区間が同一でなければならない。そのため、アライメント部50によって対応関係のとれた複数の単語同士を比較して学習を行なう事としている。
【0050】
図10を参照して、正解系列が「えーワタナベケンタです」であるのに対して、朗読発話音響モデルを用いた音声認識部の出力が「えーワタナベケンタです」、自然発話音響モデルを用いた音声認識部の出力が「えーまた歩いて三日です」というものである場合を考える。この例では、図10のボックス90で示す部分がこの3つを通じて対応しており、またボックス94で示す部分も対応している事が分かる。従ってボックス92で示す部分も互いに対応した部分である事が分かる。これが図9のアライメント部50の行なうアライメントの処理である。この処理は、音声認識部44及び音声認識部48から出力される認識結果に付随する時間データ、単語を使用したDPマッチングにより行なう。
【0051】
なお、ボックス90、92、94中にそれぞれ含まれる単語群の様に互いに対応している部分は、1対1に対応する単語からなる場合だけではない。場合によってはボックス92の様に複数の単語を含む場合もある。本明細書ではこれらの場合も含めて単に「単語単位」と呼ぶ事とする。
【0052】
図11に、比較部52及び比較選択部54が行なう比較処理と選択処理の詳細について示す。図11において、「○」「×」「◎」がいずれも単語を示すものとする。特に、「○」は正解と同じ単語を示し、「×」は認識結果のうち正解と異なる単語を表し、「◎」は二つの認識結果の単語のうち、一方のみが正解の場合を示す。
【0053】
図11を参照して、図7及び図8に示す比較部52及び比較選択部54は、「◎」に相当する単語が存在する場合のみパラメータベクトル作成制御信号をパラメータ作成部64に対して与える。すなわち、音声認識部44の出力と音声認識部48の出力とが相違しており、かつ一方が正解系列と一致する場合のみ、パラメータの作成を行なわせる。両者とも正解の場合にも、両者とも不正解の場合にも、学習を行なう必要はないからである。従って、図11に示す例では、ボックス102、106、108及び110の場合のみパラメータベクトル作成制御信号が出力され、ボックス100、104及び112の場合には出力されない。
【0054】
なお上記した様に、比較対照の単語が1対1で対応しているとは限らないので、SVM62の学習では、対応のとれた個所ごとに、正解系列とのDP(Dynamic Programming)距離が最小となる結果が自動選択される様機械学習を行なった。そのための学習データ数は185箇所であった。
【0055】
<音声認識装置の動作>
上記した音声認識装置30は以下の様に動作する。まず、学習モードにおける音声認識装置30の動作から説明する。学習モードでは、端子66に与えられるモード制御信号は第2の値となる。その結果、スイッチ68は第2の入力68B側に倒れる。スイッチ70は第2の入力70B側に倒れる。
【0056】
この状態で、学習コーパス40から音声入力データがスイッチ68を介して音声認識部44及び音声認識部48に与えられる。学習コーパス40からはまた、このときの音声入力データに対応する正解列や正解単語列が比較選択部54に与えられる。
【0057】
音声認識部44は自然発話音響モデル42を用いて、音声入力データに対して音声認識を行ない認識結果をアライメント部50、比較部52、及びパラメータ作成部64に与える。音声認識部48も同様に朗読発話音響モデル46を用いて、入力された音声データに対して音声認識を行ない認識結果をアライメント部50、比較部52、及びパラメータ作成部64に与える。
【0058】
アライメント部50は、音声認識部44からの認識結果と音声認識部48からの認識結果とに対してDPマッチングを行ない、両者の単語単位での対応関係を決定する。比較部52は、アライメント部50によるアライメント結果に基づいて、単語単位で音声認識部44の認識結果の単語と音声認識部48の認識結果の単語との対応するもの同士を比較する。比較部52は、両者が一致する場合にはパラメータ作成部64及び比較選択部54を不能動化させ、両者が不一致の場合には両者を能動化させる。
【0059】
比較部52により能動化されると、パラメータ作成部64は音声認識部44からの認識結果と音声認識部48からの認識結果とに基づいて、SVM学習のための27次元のパラメータ列を作成する。一方比較選択部54は、音声認識部44の出力及び音声認識部48の出力と学習コーパス40からの正解系列とを比較し、正解となる方を示す教師信号を作成し学習データ作成部56に与える。
【0060】
学習データ作成部56は、パラメータ作成部64からの27次元のデータと、比較選択部54からの教師信号とを組にして学習データベクトルとしてパラメータ記憶部58に与える。パラメータ記憶部58は、これを順次記憶していく。
【0061】
学習コーパス40内の全ての音声データに対して上記した処理が完了すると、SVM学習部60がパラメータ記憶部58に記憶されている学習パラメータをスイッチ70を介してSVM62に与え、SVM62を学習させる。以上で学習は終了である。
【0062】
音声認識時には、端子66を介して与えられるモード指定信号は第1の値となる。このとき、スイッチ68は第1の入力68Aのデータ側に倒れる。すなわちスイッチ68は、音声入力74を選択して出力68Cから音声認識部44及び音声認識部48に与える。その結果、スイッチ70は第1の入力70A側に倒れる。モード指定信号はSVM62にも与えられ、このときSVM62は、27次元のパラメータを与えられると、学習結果に従って音声認識部44の出力又は音声認識部48の出力のいずれを選択すべきかを示す判定信号を出力する様に動作する。
【0063】
音声認識部44及び音声認識部48は、音声入力74に対してそれぞれ自然発話音響モデル42及び朗読発話音響モデル46を用いて音声認識を行ない、結果をアライメント部50、比較部52、及びパラメータ作成部64に与える。
【0064】
アライメント部50は学習モード時と同様に両者の出力の対応関係をとる。比較部52は、対応のとれた単語単位で両者の出力が一致しているか否かを判定する。両者が一致しているとき、比較部52はパラメータ作成部64を不能動化し、出力選択部72を制御して音声認識部44の出力を選択して出力させる。両者が一致していないとき、比較部52はパラメータ作成部64を能動化させる。
【0065】
パラメータ作成部64は、音声認識部44の出力及び音声認識部48の出力から、学習モード時と同様に27次元のパラメータを作成しスイッチ70を介してSVM62に与える。SVM62は、このパラメータの組合せに対し、学習結果に従った判定信号を出力選択部72に出力する。出力選択部72は、比較部52から与えられる信号が両者の不一致を示す値なので、SVM62の判定信号に従って、音声認識部44の出力又は音声認識部48の出力の一方を選択して音声認識結果として出力する。
【0066】
<実験結果>
上記した装置を用いて認識実験を行った。実験では、朗読発話音響モデル及び自然発話音響モデルをそれぞれ単独で用いた場合と、上記した装置での機械学習による自動選択結果とを比較した。使用した学習データは自然発話を用いたものであり、総単語数は4990であった。
【0067】
図12に、この実験の結果得られた単語誤り率を示す。図12から分かる様に、単語単位で音響モデルを自動選択する本実施の形態の装置によれば、朗読発話音響モデルを単独で使用した場合よりも約1.7ポイント、単語誤り率が改善した。自然発話音響モデルを単独で使用した場合と比較しても、約0.7ポイントの改善が得られた。また、本実施の形態の装置により品詞単位で自動選択する事により単語の選択の改善が見られたのは、66.5%(185箇所中、123箇所)であった。
【0068】
以上の様に、本実施の形態の装置では、品詞及び言語尤度などの言語情報をパラメータとして用い、機械学習で品詞単位で音響モデルを自動選択することができる。その結果、単語誤り率が改善し、より正確な音声認識結果が得られる。
【0069】
<コンピュータによる実現>
上記した本実施の形態の音声認識装置は、音声処理機能を備えたコンピュータにより実現できる。図13にコンピュータにより実現された音声認識装置30の外観を示す。図14はこの音声認識装置30のハードウェアブロック図である。
【0070】
図13を参照して、音声認識装置30は、CD−ROM(Compact Disc Read−Only Memory)駆動装置190、FD(Flexible Disk)駆動装置192を備えたコンピュータ180と、いずれもコンピュータ180に接続されたモニタ182、マイク184、キーボード186、及びマウス188とを含む。
【0071】
図14を参照して、コンピュータ180は、前述したCD−ROM駆動装置190及びFD駆動装置192に加えて、CPU(Central Processing Unit)196と、ROM(Read−Only Memory)198と、RAM(Random Access Memory)200と、ハードディスク194と、マイク184に接続されたサウンドボード208とを含む。これらはいずれもバス206により相互に接続されている。CD−ROM駆動装置190にはCD−ROM202が装着され、FD駆動装置192にはFD204が装着される。
【0072】
以下に述べる制御構造を有するコンピュータプログラムは、たとえばCD−ROM202又はFD204の様なコンピュータ読取可能な記録媒体上に記録されて流通し、当該CD−ROM202をCD−ROM駆動装置190に装着したのちCD−ROM202からハードディスク194に複写される。実行時にはこのプログラムはハードディスク194から読出されてRAM200にロードされ、図示しないプログラムカウンタにより指定されるアドレスからCPU196が命令を読出して実行し、実行結果をRAM200又はハードディスク194に書込む。CPU196はさらにプログラムカウンタの値をプログラムの実行結果により書換え、さらにそのプログラムカウンタの値に基づいて次の命令をRAM200から読出して実行する。CPU196はこの様な動作原理に従って、コンピュータプログラムを実行する。
【0073】
図15に、本実施の形態の装置を実現するためのコンピュータプログラムのうち、学習モードを実現するプログラムのフローチャートを示す。このプログラムを選択する事が、図7に示す端子66に与えるモード指定信号を第2の値にする事に対応する。
【0074】
図15を参照してこのプログラムは、学習コーパス40の最初の一文の音声データと正解文とを選択するステップ220と、ステップ220の処理の結果、学習コーパス40の終わりに達したか否かを判定するステップ222とを含む。ステップ222での判定の結果、学習コーパス40の終わりに達したと判定された場合、制御はステップ242に進み、それ以外の場合には制御はステップ224に進む。ステップ242での処理については後述する。
【0075】
ステップ224では、自然発話音響モデルと、朗読発話音響モデルとの両音響モデルを用いて、処理対象の一文に相当する音声データを音声認識する。続いてステップ226では、両モデルを用いた音声認識結果のアライメントを行ない、単語単位での対応関係を決定する。
【0076】
続いてステップ228では、この一文の二つの認識結果のうち、先頭のアライメント部分(単語)を選択する。ステップ230で、一文の中で処理対象のアライメントが全て終了したか否かを判定する。全て終了した場合には制御はステップ232に進む。それ以外の場合には制御はステップ234に進む。ステップ232の内容については後述する。
【0077】
ステップ234では、処理対象となるアライメント部分が互いに異なるか否かを判定する。互いに異なる場合には制御はステップ236に進む。それ以外の場合には制御はステップ240に進む。
【0078】
ステップ236では、いずれか一つが、学習コーパス40から与えられた正解系列の対応する単語と一致するか否かを判定する。いずれも一致しない場合、制御はステップ240に進む。一方が一致する場合、ステップ238で、前述した通りの27次元のパラメータと、どちらが正解と一致しているかを示す教師信号とからなる学習データを作成し、記憶する。この後、制御はステップ240に進む。
【0079】
ステップ240では、処理を次のアライメント部分に進める。
【0080】
ステップ230で一文に相当する音声データの全てについて処理が終了したと判定されると制御はステップ232に進む。ステップ232では、学習コーパス40中の次の音声データを処理対象に選択する処理が行われる。この後、制御はステップ222に戻る。この様にして、ステップ222〜240の処理が繰返し実行される。
【0081】
ステップ222での判定の結果、学習コーパス40内の全ての音声データについて処理が終了し、必要な学習データの作成が完了すると制御はステップ242に進む。ステップ242では、ステップ238の処理で作成された学習データの組が全てSVM62に学習のために与えられる。SVM62としては、パブリックドメインのSVMソフトウェアツールを使用する事ができる。この学習が終了したらこのプログラムは終了する。
【0082】
図16に、音声認識を実行する際のプログラムのフローチャートを示す。このプログラムを選択して実行する事が、図7に示す端子66に与えるモード指定信号の値を第1の値にする事に相当する。なお、このプログラムでは図15に示すものと同様の処理を実行する場合には、図15に示すものと同じルーチンを使用している。それらは、同じステップ番号で示す。
【0083】
図16を参照して、このプログラムは、入力文の音声入力を受けるステップ260と、この音声入力に対して自然発話音響モデルと朗読発話音響モデルとの両モデルを用いた音声認識を行なうステップ224と、両モデルを用いた音声認識結果のアライメントを行ない、単語単位での対応関係を決定するステップ226と、ステップ226により得られたアライメント部分の先頭を選択するステップ228とを含む。
【0084】
このプログラムはさらに、選択されたアライメント部分が音声入力の終わりを示すか否かを判定するステップ262を含む。ステップ262で音声入力の終わりであると判定されるとこのプログラムは終了する。音声入力の終わりでないと判定された場合、制御はステップ268に進む。
【0085】
ステップ268では、両モデルを用いた認識結果の対応する部分が一致するか否かを判定する。両者が一致していれば制御はステップ274に進む。さもなければ制御はステップ270に進む。
【0086】
ステップ270では、前述した27次元のパラメータを認識結果から作成する処理が行なわれる。続いてステップ272では、このパラメータを学習済みのSVMツールに与える事により、それに対するSVMツールの判定結果を得て、判定結果に対応する認識結果を選択して出力する。この後、制御はステップ276に進む。
【0087】
一方、ステップ268において両者が一致していると判定された場合、ステップ274では、いずれか予め定められた一方(本実施の形態では自然発話音響モデルを用いた音声認識結果)を選択して出力する。これが誤ったものであるにせよ、正しいものであるにせよ、いずれの認識結果を出力しても結果は同じである。この後、制御はステップ276に進む。
【0088】
ステップ276では、次のアライメント部分を新たな処理対象とする。制御はこの後ステップ262に戻り、以下上述した処理を繰返す。
【0089】
以上の制御構造を有するプログラムをコンピュータ上で実行させる事により、前述した本発明の一実施の形態の音声認識装置を実現する事ができる。
【0090】
なお、本実施の形態では自然発話音響モデルと朗読発話音響モデルという二つの典型的な音響モデルを切替えて用いた。しかし本発明はこの二つの音響モデルを切替える場合に限定されるわけではない。たとえば、三つ以上の音響モデルを切替える様な実施の形態も可能である。また本実施の形態では、学習にSVMを用いたが、SVM以外の機械学習方法を採用してもよい。
【0091】
また上記した実施の形態では、SVMの学習と音声認識とを同一の装置で切替えて実行できる様にした。しかし本発明はそうした実施の形態に限定される訳ではない。SVM学習は装置の出荷前に完成しておき、音声認識装置には学習済みのSVMのみを搭載する様にしてもよい。
【0092】
図13、図14に示した様に、本実施の形態では一般的な構成を持つデスクトップのコンピュータを用いたが、ノートブック型、又はPDA(Personal Digital Assistant)などで本発明に係る音声認識装置を実現してもよい。
【0093】
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内でのすべての変更を含む。
【図面の簡単な説明】
【図1】本実施の形態で用いた音声データの音響分析の条件を示す図である。
【図2】本実施の形態で用いた音声データの概要を示す図である。
【図3】品詞と発話スタイルとの関係を示す図である。
【図4】品詞と発話スタイルとの関係を直接対話データと間接対話データとに分類して示す図である。
【図5】図4に示した名詞類に関する品詞と発話スタイルとの関係をより詳細に分類し集計した結果を示す図である。
【図6】自然発話音響モデル優位率を、言語尤度の値を用いて集計した結果を示す図である。
【図7】本発明の一実施の形態に係る音声認識装置のブロック図である。
【図8】学習モード時の音声認識装置の実質的構成を示すブロック図である。
【図9】音声認識モード時の音声認識装置の実質的構成を示すブロック図である。
【図10】アライメント処理の概略を説明するための図である。
【図11】比較部52及び比較選択部54が行なう比較処理と選択処理の詳細を示す図である。
【図12】本発明の一実施の形態の装置による実験の結果得られた単語誤り率を示す図である。
【図13】コンピュータにより実現した本発明の一実施の形態の装置の外観を示す図である。
【図14】図13に示すコンピュータ及び周辺機器のハードウェア構成を示すブロック図である。
【図15】学習モードのコンピュータプログラムの制御構造を示すフローチャートである。
【図16】音声認識モードのコンピュータプログラムの制御構造を示すフローチャートである。
【符号の説明】
30 音声認識装置、40 学習コーパス、42 自然発話音響モデル、44、48 音声認識部、46 朗読発話音響モデル、50 アライメント部、52比較部、54 比較選択部、56 学習データ作成部、58 パラメータ記憶部、60 SVM学習部、62 SVM、64 パラメータ作成部
Claims (9)
- 第1の音響モデルを使用して音声入力に対する音声認識を行ない第1の音声認識結果を出力するための第1の音声認識手段と、
第2の音響モデルを使用して前記音声入力に対する音声認識を行ない第2の音声認識結果を出力するための第2の音声認識手段と、
前記第1及び第2の音声認識結果の対応関係を決定するためのアライメント手段と、
前記第1及び第2の音声認識結果の、前記アライメント手段により決定された対応部分の組から、予め定められた特徴パラメータを作成するためのパラメータ作成手段と、
前記特徴パラメータを受け、前記第1及び第2の音声認識結果のいずれを選択するかを、前記対応部分の組の各々に対して判定し判定信号を出力するための判定手段と、
前記判定信号に従って、前記第1及び第2の音声認識結果の一方を選択するための選択手段とを含む、音声認識装置。 - 前記判定手段は、特徴パラメータを受けると前記判定信号を出力する様に、学習のための音声データ及び当該音声データに対応する正解単語列の組、ならびに当該学習データに対する前記第1及び第2の音声認識結果に基づいて学習済みの機械学習手段を含む、請求項1に記載の音声認識装置。
- 前記第1及び第2の音声認識結果が一致するか否かを判定するために、前記対応部分の組の各々に対して両者を比較し、一致する場合には、前記パラメータ作成手段及び前記判定手段を不能動化するための比較手段をさらに含む、請求項2に記載の音声認識装置。
- 前記選択手段は、前記第1及び第2の音声認識結果が一致する場合には、前記第1及び第2の音声認識結果のうち予め定められた一方を選択して出力する、請求項3に記載の音声認識装置。
- 前記学習のための音声データと当該音声データに対応する正解単語列との組を多数記憶した学習コーパスと、
前記学習コーパスを用いて前記機械学習手段を学習させるための学習手段とをさらに含む、請求項2〜請求項4のいずれかに記載の音声認識装置。 - 前記音声認識装置は、前記機械学習手段の学習を行なう第1のモードと、前記機械学習手段の学習結果を利用して音声認識を行なう第2のモードとの動作モードを有し、
前記音声認識装置はさらに、前記動作モードを指定する動作モード指定信号を受ける信号入力部を含み、
前記学習手段は、
音声入力を受ける第1の入力と、前記学習コーパスからの学習のための音声入力を受ける第2の入力と、前記第1及び第2の音声認識手段の入力に接続された出力とを持ち、前記動作モード指定信号が予め定められた第1の値の時には前記第1の入力を、前記第1の値と異なる第2の値の時には前記第2の入力を、それぞれ前記出力と接続するための第1のスイッチ手段と、
前記第1及び第2の音声認識結果、前記比較手段の比較結果、ならびに前記第1のスイッチ手段の前記出力からのデータを受け、前記機械学習手段のための学習データを作成して出力するための学習データ作成手段と、
前記パラメータ作成手段の出力に接続された第1の入力、前記学習データ作成手段の出力に接続された第2の入力、及び前記機械学習手段の入力に接続された出力とを有する第2のスイッチ手段とを含み、
前記第2のスイッチ手段は、前記動作モード指定信号が前記第1の値のときには前記第1の入力を前記出力に、前記第2の値のときには前記第2の入力を前記出力に、それぞれ接続する様に動作する、請求項5に記載の音声認識装置。 - 前記学習データ作成手段は、前記第1及び第2の音声認識結果、ならびに前記第1のスイッチ手段を介して前記学習コーパスから与えられる正解単語列に基づいて、前記機械学習手段のための教師信号を作成するための手段と、
前記教師信号及び前記特徴パラメータとを前記機械学習手段の学習データとして記憶するためのパラメータ記憶手段と、
前記学習コーパスに含まれる音声データの全てに対して前記学習データの記憶が終了した事に応答して、前記パラメータ手段に記憶されている前記学習データを読出して前記第2のスイッチ手段の前記第2の入力に与えるための手段とを含む、請求項6に記載の音声認識装置。 - 前記第1の音響モデルは自然発話音響モデルであり、前記第2の音響モデルは朗読発話音響モデルである、請求項1〜請求項7のいずれかに記載の音声認識装置。
- コンピュータにより実行されると、当該コンピュータを請求項1〜請求項8のいずれかに記載の音声認識装置として動作させる、コンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003065916A JP2004272134A (ja) | 2003-03-12 | 2003-03-12 | 音声認識装置及びコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003065916A JP2004272134A (ja) | 2003-03-12 | 2003-03-12 | 音声認識装置及びコンピュータプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004272134A true JP2004272134A (ja) | 2004-09-30 |
Family
ID=33126761
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003065916A Pending JP2004272134A (ja) | 2003-03-12 | 2003-03-12 | 音声認識装置及びコンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004272134A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014010456A (ja) * | 2012-06-28 | 2014-01-20 | Lg Electronics Inc | 移動端末機及びその音声認識方法 |
WO2014054217A1 (ja) * | 2012-10-02 | 2014-04-10 | 株式会社デンソー | 音声認識システム |
CN104704558A (zh) * | 2012-09-14 | 2015-06-10 | 杜比实验室特许公司 | 基于多声道音频内容分析的上混检测 |
JP2019537749A (ja) * | 2016-11-17 | 2019-12-26 | ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツングRobert Bosch Gmbh | ニューラルネットワークを用いてハイブリッド音声認識結果をランク付けするためのシステム及び方法 |
-
2003
- 2003-03-12 JP JP2003065916A patent/JP2004272134A/ja active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014010456A (ja) * | 2012-06-28 | 2014-01-20 | Lg Electronics Inc | 移動端末機及びその音声認識方法 |
US9147395B2 (en) | 2012-06-28 | 2015-09-29 | Lg Electronics Inc. | Mobile terminal and method for recognizing voice thereof |
CN104704558A (zh) * | 2012-09-14 | 2015-06-10 | 杜比实验室特许公司 | 基于多声道音频内容分析的上混检测 |
JP2015534116A (ja) * | 2012-09-14 | 2015-11-26 | ドルビー ラボラトリーズ ライセンシング コーポレイション | マルチチャネル・オーディオ・コンテンツ解析に基づく上方混合検出 |
WO2014054217A1 (ja) * | 2012-10-02 | 2014-04-10 | 株式会社デンソー | 音声認識システム |
US9293142B2 (en) | 2012-10-02 | 2016-03-22 | Denso Corporation | Voice recognition system |
JP2019537749A (ja) * | 2016-11-17 | 2019-12-26 | ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツングRobert Bosch Gmbh | ニューラルネットワークを用いてハイブリッド音声認識結果をランク付けするためのシステム及び方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11062694B2 (en) | Text-to-speech processing with emphasized output audio | |
US11443733B2 (en) | Contextual text-to-speech processing | |
US7869999B2 (en) | Systems and methods for selecting from multiple phonectic transcriptions for text-to-speech synthesis | |
JP5327054B2 (ja) | 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム | |
US10140973B1 (en) | Text-to-speech processing using previously speech processed data | |
US8024179B2 (en) | System and method for improving interaction with a user through a dynamically alterable spoken dialog system | |
US20180137109A1 (en) | Methodology for automatic multilingual speech recognition | |
US11763797B2 (en) | Text-to-speech (TTS) processing | |
US20080177543A1 (en) | Stochastic Syllable Accent Recognition | |
US20090138266A1 (en) | Apparatus, method, and computer program product for recognizing speech | |
JP2001100781A (ja) | 音声処理装置および音声処理方法、並びに記録媒体 | |
JP2007249212A (ja) | テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ | |
JP2017058513A (ja) | 学習装置、音声合成装置、学習方法、音声合成方法、学習プログラム及び音声合成プログラム | |
Inoue et al. | An investigation to transplant emotional expressions in DNN-based TTS synthesis | |
US9798653B1 (en) | Methods, apparatus and data structure for cross-language speech adaptation | |
JP7007617B2 (ja) | 話し終わり判定装置、話し終わり判定方法およびプログラム | |
JP6669081B2 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
JP6806619B2 (ja) | 音声合成システム、音声合成方法、及び音声合成プログラム | |
JP2010139745A (ja) | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム | |
JP2000172294A (ja) | 音声認識方法、その装置及びプログラム記録媒体 | |
JP6594251B2 (ja) | 音響モデル学習装置、音声合成装置、これらの方法及びプログラム | |
JP6436806B2 (ja) | 音声合成用データ作成方法、及び音声合成用データ作成装置 | |
JP2004272134A (ja) | 音声認識装置及びコンピュータプログラム | |
JP2008293098A (ja) | 応答スコア情報生成装置、対話処理装置 | |
Tesfaye Biru et al. | Subset selection, adaptation, gemination and prosody prediction for amharic text-to-speech synthesis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060718 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060815 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061012 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20061114 |