JP2004272134A

JP2004272134A - 音声認識装置及びコンピュータプログラム

Info

Publication number: JP2004272134A
Application number: JP2003065916A
Authority: JP
Inventors: Yoshiyuki Yasuda; 圭志安田; Kunio Aono; 邦生青野; Toshiyuki Takezawa; 寿幸竹澤; Seiichi Yamamoto; 誠一山本
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2003-03-12
Filing date: 2003-03-12
Publication date: 2004-09-30

Abstract

【課題】異なる発話スタイルの音響モデルを発話単位よりもさらに細かい単位で切替えることが可能な音声認識装置を提供する。
【解決手段】音声認識装置３０は、自然発話音響モデル４２を用いる音声認識部４４、朗読発話音響モデル４６を用いる音声認識部４８、これらの音声認識結果の対応関係を決定するアライメント部５０、音声認識結果から単語ごとに特徴パラメータを作成するパラメータ作成部６４、この特徴パラメータを受け、第１及び第２の音声認識結果のいずれを選択するかを単語ごとに判定し判定信号を出力するサポートベクターマシン６２、および判定信号にしたがって、音声認識部４４及び音声認識部４８の音声認識結果の一方を選択する選択部７２とを含む。
【選択図】図７

Description

【０００１】
【発明の属する技術分野】
この発明は音声認識システムに関し、特に、発話スタイルに依存した音響モデルを自動的に選択する事により認識率を向上させる音声認識システムに関する。
【０００２】
【従来の技術】
音声認識システム及び音声対話システムは、会話調の音声を処理する必要がある。一般に、会話調といっても複数の発話スタイルがある。発話スタイルが異なれば、音声認識に適した音響モデルも異なると考えられる。
【０００３】
発話スタイルの異なる複数の音響モデルを用いて、発話単位で最尤となる結果を自動選択する音声認識技術が、非特許文献１により知られている。
【０００４】
【非特許文献１】
Ｔ．Ｔａｋｅｚａｗａ，ｅｔａｌ．”ＡＣｏｍｐａｒａｔｉｖｅＳｔｕｄｙｏｎＡｃｏｕｓｔｉｃａｎｄＬｉｎｇｕｉｓｔｉｃＣｈａｒａｃｔｅｒｉｓｔｉｃｓ…”，ＩＣＳＬＰ２０００，Ｖｏｌ．３，ｐｐ．５２２−５２５，２０００
【発明が解決しようとする課題】
非特許文献１に記載の技術では、発話の一部で発話スタイルが変化した様な場合にはどの音響モデルを用いても好ましい結果を得られない。何らかの手段により、異なる発話スタイルの音響モデルを発話単位よりもさらに細かい単位で切替えて用いる様にできればさらに正確な音声認識を行なうためには有用である。しかし、その様な切替えを行なうための手法は従来は知られていない。
【０００５】
それゆえに本発明の目的は、異なる発話スタイルの音響モデルを発話単位よりもさらに細かい単位で切替える事が可能な音声認識装置を提供する事である。
【０００６】
この発明の他の目的は、異なる発話スタイルの音響モデルを単語単位で切替える事が可能な音声認識装置を提供する事である。
【０００７】
この発明のさらに他の目的は、言語情報を用いる事により異なる発話スタイルの音響モデルを単語単位で切替える事が可能な音声認識装置を提供する事である。
【０００８】
この発明の別の目的は、言語情報を用いる事により異なる発話スタイルの音響モデルを単語単位で切替える事が可能で、その切替を学習可能とした音声認識装置を提供する事である。
【０００９】
【課題を解決するための手段】
本発明の第１の局面によれば、音声認識装置は、第１の音響モデルを使用して音声入力に対する音声認識を行ない第１の音声認識結果を出力するための第１の音声認識手段と、第２の音響モデルを使用して音声入力に対する音声認識を行ない第２の音声認識結果を出力するための第２の音声認識手段と、第１及び第２の音声認識結果の対応関係を決定するためのアライメント手段と、第１及び第２の音声認識結果の、アライメント手段により決定された対応部分の組から、予め定められた特徴パラメータを作成するためのパラメータ作成手段と、特徴パラメータを受け、第１及び第２の音声認識結果のいずれを選択するかを、対応部分の組の各々に対して判定し判定信号を出力するための判定手段と、判定信号に従って、第１及び第２の音声認識結果の一方を選択するための選択手段とを含む。
【００１０】
好ましくは、判定手段は、特徴パラメータを受けると判定信号を出力する様に、学習のための音声データ及び当該音声データに対応する正解単語列の組、ならびに当該学習データに対する第１及び第２の音声認識結果に基づいて学習済みの機械学習手段を含む。
【００１１】
より好ましくは、機械学習手段はサポートベクターマシンを含む。
【００１２】
さらに好ましくは、音声認識装置は、第１及び第２の音声認識結果が一致するか否かを判定するために、対応部分の組の各々に対して両者を比較し、一致する場合には、パラメータ作成手段及び判定手段を不能動化するための比較手段を含む。選択手段は、第１及び第２の音声認識結果が一致する場合には、第１及び第２の音声認識結果のうち予め定められた一方を選択して出力してもよい。
【００１３】
音声認識装置は、学習のための音声データと当該音声データに対応する正解単語列との組を多数記憶した学習コーパスと、学習コーパスを用いて機械学習手段を学習させるための学習手段とをさらに含んでもよい。
【００１４】
好ましくは、音声認識装置は、機械学習手段の学習を行なう第１のモードと、機械学習手段の学習結果を利用して音声認識を行なう第２のモードとの動作モードを有し、音声認識装置はさらに、動作モードを指定する動作モード指定信号を受ける信号入力部を含み、学習手段は、音声入力を受ける第１の入力と、学習コーパスからの学習のための音声入力を受ける第２の入力と、第１及び第２の音声認識手段の入力に接続された出力とを持ち、動作モード指定信号が予め定められた第１の値の時には第１の入力を、第１の値と異なる第２の値の時には第２の入力を、それぞれ出力と接続するための第１のスイッチ手段と、第１及び第２の音声認識結果、比較手段の比較結果、ならびに第１のスイッチ手段の出力からのデータを受け、機械学習手段のための学習データを作成して出力するための学習データ作成手段と、パラメータ作成手段の出力に接続された第１の入力、学習データ作成手段の出力に接続された第２の入力、及び機械学習手段の入力に接続された出力とを有する第２のスイッチ手段とを含み、第２のスイッチ手段は、動作モード指定信号が第１の値のときには第１の入力を出力に、第２の値のときには第２の入力を出力に、それぞれ接続する様に動作する。
【００１５】
学習データ作成手段は、第１及び第２の音声認識結果、ならびに第１のスイッチ手段を介して学習コーパスから与えられる正解単語列に基づいて、機械学習手段のための教師信号を作成するための手段と、教師信号及び特徴パラメータとを機械学習手段の学習データとして記憶するためのパラメータ記憶手段と、学習コーパスに含まれる音声データの全てに対して学習データの記憶が終了した事に応答して、パラメータ手段に記憶されている学習データを読出して第２のスイッチ手段の第２の入力に与えるための手段とを含んでもよい。
【００１６】
好ましくは、第１の音響モデルは自然発話音響モデルであり、第２の音響モデルは朗読発話音響モデルである。
【００１７】
本発明の第２の局面によれば、コンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを上記した音声認識装置として動作させる。
【００１８】
【発明の実施の形態】
言語尤度及び品詞などの言語情報と発話スタイルとの関係を調べた結果、音声認識に適した音響モデルは品詞に依存して異なる事が判明した。その結果、以下の実施の形態で示す様に、言語情報を用いて音声認識に用いる音響モデルを単語単位で切替える事が可能になり、音声認識の精度を向上させる事ができる。
【００１９】
最初に、言語尤度及び品詞などの言語情報と発話スタイルとの関係について行った研究の結果について述べる。
【００２０】
＜使用した資料＞
音響モデル
発話スタイルとして、本実施の形態では自然発話と朗読発話とを選び、男女別にそれぞれの音響モデルを準備した。自然発話としては、出願人において準備した旅行会話を模擬した日本人同士の対話音声を用いた。朗読音声としては、音素バランス文の読み上げ音声を用いた。音響分析の条件を図１に、学習に用いた音声データの概要を図２に、それぞれ示す。なお、図１において「ＭＦＣＣ」とは「Ｍｅｌ−ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ」の事を指す。
【００２１】
分析用音声データ
分析に用いた音声データは、出願人において準備した、旅行会話を模擬した日本人同士の対話音声（男性１７名及び女性２５名からなる発話者による延べ５５１発話）の音声データと、通訳を介した日本語―英語の対話音声（日本語側のみ：男性８名、女性１５名、延べ３３０発話）の音声データとである。
【００２２】
以下、本明細書では、日本人同士の対話音声を直接対話データと呼び、通訳を介した対話音声を間接対話データと呼ぶ。
【００２３】
＜発話スタイル別音響モデルの尤度比較＞
本実施の形態では、単語単位による音響モデルの自動選択を行なう。一般に、音声認識において、正解系列の音響尤度が高くなる事が好ましい。従ってここでは、音響尤度の大小比較を行なっている。具体的には、朗読発話と自然発話との各音響モデルを用い、分析用データについての単語単位の音響尤度を求めて比較及び分析を行った。
【００２４】
＜品詞情報を用いた比較及び分析＞
図３に、品詞と発話スタイルとの関係を示す。図３の縦軸に示す「自然発話音響モデル優位率」とは、自然発話音響モデルを用いた場合の音響尤度が、朗読発話音響モデルを用いた場合の音響尤度よりも高くなる単語の割合の事をいう。図３の横軸は品詞である。すなわち図３は、自然発話音響モデル優位率を、品詞ごとに集計した結果を示す。自然発話音響モデル優位率が０．５より高いという事は、自然発話音響モデルを用いた場合の音響尤度が朗読発話音響モデルを用いた場合の音響尤度よりも高くなる単語の方が、そうでない単語よりも多い事を意味する。図３から分かる様に、品詞によって朗読発話に近いものと自然発話に近いものとに大きく分かれている。
【００２５】
図４に、図３のデータをさらに直接対話データと間接対話データとに分類して示した。ただし図４においては、図３に示した間投詞については除外してある。図４において、白い棒グラフは直接対話データでの自然発話音響モデル優位率を示し、黒い棒グラフは間接対話データでの自然発話音響モデル優位率を示す。
【００２６】
図４から、ほぼすべての品詞について、直接対話データの自然発話音響モデル優位率が高くなっている事が分かる。特に、内容に関する重要な情報を伝達する形容詞類及び名詞類、並びに名詞類に伴う接尾辞及び接頭辞では、直接対話データと間接対話データとの間に顕著な差がある事が分かる。たとえば形容詞類では、直接対話データでの自然発話音響モデル優位率が０．８近いのに対し、間接対話データでの自然発話音響モデル優位率は０．５以下である。
【００２７】
また、図３及び図４から、品詞によって朗読発話に近いものと自然発話に近いものとに大きく分かれる事が分かる。たとえば、自然発話特有の品詞である感動詞や、文末表現である助動詞では自然発話音響モデル優位率が高くなる。逆に、内容に関する重要な情報を伝達する名詞類では自然発話音響モデル優位率は低くなる。この傾向は、直接対話データと間接対話データとに共通して生じているが、図４に示す様に特に間接対話データの場合に顕著である。
【００２８】
図５は、図４に示した名詞類をより詳細に分類し集計した結果を示す。図５において、縦軸は自然発話音響モデル優位率を表す。
【００２９】
図５を参照して、名詞類の中でも、固有名詞及び数詞では朗読発話音響モデルが優位であるのに対して、代名詞及びサ変名詞では自然発話が優位となっている。この理由として、固有名詞及び数詞は、対話中で電話番号・名前・日時などの様な比較的重要な情報を表現している事が多く、はっきりと聞き取れる様に意識的に明瞭に発話されており、朗読発話に近い発話スタイルになっているのではないかと考えられる。この傾向は間接対話データの場合に顕著に表れており、特に数詞、固有名詞は直接対話データと間接対話データとの間に大きな差が見られる。
【００３０】
一方、代名詞及びサ変名詞については、聞き取りづらい状況であっても対話進行への影響が小さいため、あまり明瞭に発話されていないと考えられる。この場合にはまた、直接対話データと間接対話データとの間の差は固有名詞又は数詞の場合ほど大きくない。
【００３１】
以上から、品詞に依存して適切な音響モデルが異なり、その結果品詞に依存して適切な音響モデルを用いる事でより正確な認識ができる可能性が示された。
【００３２】
＜言語尤度と発話スタイルとの関係＞
次に、言語尤度と発話スタイルとの関係について示す。言語尤度とは、簡単にいえばコーパス中においてある単語列が出現する確率の事をいう。二つの単語列についての言語尤度はバイグラムと呼ばれる。
【００３３】
図６は、自然発話音響モデル優位率を、マルチクラス複合バイグラムによる言語尤度の値を用いて集計した結果である。ここでは、分析用データを言語尤度の値によりソートし、各グループに含まれる単語数がほぼ等しくなる様に１６グループに分割している。図６の横軸は、各グループ番号を表す。グループ番号の値が小さいほどそのグループ内の単語の言語尤度は低い。縦軸は自然発話音響モデル優位率を示す。
【００３４】
図６を参照して、言語尤度が高くなるほど自然発話音響モデル優位率も高くなるという関係が見られる。この理由として、言語尤度の低い単語ほど、対話中でその単語が持つ情報量が大きく、そのために意識的に明瞭に発話され朗読発話に近い発話スタイルとなっている可能性が考えられる。
【００３５】
以上から、朗読発話音響モデルと自然発話音響モデルとの中から単語単位で適切な音響モデルを選択するために、言語尤度と品詞情報とを用いる事ができる事が示された。
【００３６】
＜音声認識装置＞
上で示した知見から、朗読発話音響モデルと自然発話音響モデルとを用いた認識結果から、単語単位で自動選択する事により、認識精度の向上を図った音声認識装置を構築できる。以下、その一実施の形態について説明する。
【００３７】
ハードウェアブロック図
本装置では、以下に詳細に述べる様に、朗読発話音響モデルと自然発話音響モデルとの自動選択に、ＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）による機械学習を用いている。本実施の形態ではこのＳＶＭの学習も可能にしているため、本実施の形態の装置は主として学習に関する部分と、実際の音声認識に関する部分とに大別される。なお、以下の図面において、同じ部品には同じ参照符号及び名称を付す事とする。それらの機能も同一である。従ってそれらの詳細な説明は繰返さない。
【００３８】
図７に、本実施の形態に係る音声認識装置３０のブロック図を示す。図７を参照して、本実施の形態に係る音声認識装置３０は、前述した通り朗読発話音響モデルと自然発話音響モデルとの自動選択を行なうためのＳＶＭ６２と、音声認識装置３０を学習モードで動作させるか、認識モードで動作させるかを指定するモード指定信号を入力するための端子６６と、ＳＶＭ６２の学習のための発話音声データ及びその正解文となるテキストデータとの組合せを多数含む学習コーパス４０と、モード指定信号に基づいて音声入力７４と学習コーパス４０の一文とのいずれかを選択するスイッチ６８とを含む。
【００３９】
スイッチ６８は、音声入力７４が与えられる第１の入力６８Ａと、学習コーパス４０からの一文が与えられる第２の入力６８Ｂと、出力６８Ｃとを有する。スイッチ６８は、端子６６からのモード指定信号が第１の値のときには第１の入力６８Ａのデータを出力６８Ｃに与え、第２の値のときには第２の入力６８Ｂのデータを出力６８Ｃに与える。
【００４０】
音声認識装置３０はさらに、自然発話音響モデル４２と、スイッチ６８の出力６８Ｃから入力される音声入力に対し、自然発話音響モデル４２を用いて音声認識処理を行なう音声認識部４４と、朗読発話音響モデル４６と、スイッチ６８の出力６８Ｃから入力される音声入力に対し、朗読発話音響モデル４６を用いて音声認識処理を行なうための音声認識部４８とを含む。
【００４１】
音声認識装置３０はさらに、音声認識部４４及び音声認識部４８の出力に含まれる時間データ及び音響スコアなどから認識結果のアライメントをとり、音声認識部４４の出力と音声認識部４８の出力との単語単位での対応関係を決定するアライメント部５０と、アライメント部５０によるアライメントの結果に基づいて、音声認識部４４の出力と音声認識部４８の出力とから対応する単語を取出し、両者が一致するか否かを判定する比較部５２とを含む。比較部５２の出力は、後述する比較選択部５４及びパラメータ作成部６４の能動化又は不能動化に使用される。
【００４２】
音声認識装置３０はまた、比較部５２による比較結果とモード指定信号とを受け、モード指定信号が第２の値のときでかつ音声認識部４４の出力と音声認識部４８の出力とが相違しているときに、そのいずれかがスイッチ６８の出力６８Ｃから与えられた文と一致するか否かを判定し、判定結果と、いずれが一致しているかを示す、ＳＶＭ学習のための教師信号とを出力するための比較選択部５４とを含む。
【００４３】
音声認識装置３０はそれに加えて、比較部５２の出力する信号が認識結果の不一致を示すときに、音声認識部４４の出力及び音声認識部４８の出力に基づいてＳＶＭ６２の学習のためのパラメータベクトルを作成するためのパラメータ作成部６４と、パラメータ作成部６４により作成されたパラメータと、比較選択部５４からの教師信号とを学習パラメータベクトルとして記憶するためのパラメータ記憶部５８と、学習コーパス４０内の全ての文について上記した処理が終了した事に応答して、パラメータ記憶部５８に記憶されていた全ての学習パラメータベクトルを出力するためのＳＶＭ学習部６０とを含む。
【００４４】
適切な音響モデルの選択は言語尤度及び品詞との関係で選択できる事が分かっているため、本実施の形態の装置では、ＳＶＭ６２の学習には以下の様な全部で２７次元の学習パラメータ＋１次元の教師信号を用いる。
・各音響モデルを用いた場合の音響尤度の大小関係（１次元）
・各音響モデルを用いた場合の言語尤度（２次元）
・各音響モデルを用いた場合に出現する品詞（２４次元）
本実施の形態では、各音響モデルに対して１２品詞を用い、パラメータとしては各品詞ごとに認識結果中におけるその出現回数を使用している。教師信号は、両モデルの認識結果が異なっており、かつ一方が正解だったときにその正解だった認識結果を与えた音響モデルを示す。上記した２７次元のパラメータはパラメータ作成部６４により、教師信号は比較選択部５４により、それぞれ作成される。
【００４５】
音声認識装置３０はまた、パラメータ作成部６４の出力に接続された第１の入力７０Ａ、ＳＶＭ学習部６０の出力に接続された第２の入力７０Ｂ、及び出力７０Ｃを有し、端子６６からのモード指定信号が第１の値のときには第１の入力７０Ａのデータを、第２の値のときには第２の入力７０Ｂのデータを、それぞれ選択して出力７０Ｃを介して出力するためのスイッチ７０とを含む。スイッチ７０の出力７０Ｃは、ＳＶＭ６２の入力に接続されている。
【００４６】
従って、モード指定信号が第１の値のときにはパラメータ作成部６４からの２７次元のパラメータがＳＶＭ６２に与えられ、第２の値のときにはＳＶＭ学習部６０からの２７次元のパラメータ＋１次元の教師信号からなる学習データがＳＶＭ６２に与えられる。
【００４７】
音声認識装置３０はさらに、音声認識部４４の出力、音声認識部４８の出力、比較部５２からの判定信号、ＳＶＭ６２からの判定信号、及び端子６６からのモード指定信号を受け、モード指定信号が第１の値のときに、以下に説明する様な方法に従って音声認識部４４又は音声認識部４８の出力を選択するための出力選択部７２を含む。すなわち出力選択部７２は、音声認識部４４の出力と音声認識部４８の出力とが一致しているときには、無条件で音声認識部４４の出力を選択して音声認識結果として出力する。両者が一致していないときには出力選択部７２は、ＳＶＭ６２の判定信号に基づいていずれかを選択して音声認識結果として出力する。
【００４８】
図８に、端子６６から与えられるモード指定信号が第２の値のとき、すなわち音声認識装置３０が学習モードのときの音声認識装置３０の実質的な構成を示す。図９に、モード指定信号が第１の値のとき、即ち音声認識装置３０が認識モードのときの音声認識装置３０の実質的な構成を示す。
【００４９】
図１０に、図７、図８及び図９に示すアライメント部５０が行なうアライメント処理の概略について示す。単語単位で音響尤度及び言語尤度などを比較するためには、比較対象となる時間的区間が同一でなければならない。そのため、アライメント部５０によって対応関係のとれた複数の単語同士を比較して学習を行なう事としている。
【００５０】
図１０を参照して、正解系列が「えーワタナベケンタです」であるのに対して、朗読発話音響モデルを用いた音声認識部の出力が「えーワタナベケンタです」、自然発話音響モデルを用いた音声認識部の出力が「えーまた歩いて三日です」というものである場合を考える。この例では、図１０のボックス９０で示す部分がこの３つを通じて対応しており、またボックス９４で示す部分も対応している事が分かる。従ってボックス９２で示す部分も互いに対応した部分である事が分かる。これが図９のアライメント部５０の行なうアライメントの処理である。この処理は、音声認識部４４及び音声認識部４８から出力される認識結果に付随する時間データ、単語を使用したＤＰマッチングにより行なう。
【００５１】
なお、ボックス９０、９２、９４中にそれぞれ含まれる単語群の様に互いに対応している部分は、１対１に対応する単語からなる場合だけではない。場合によってはボックス９２の様に複数の単語を含む場合もある。本明細書ではこれらの場合も含めて単に「単語単位」と呼ぶ事とする。
【００５２】
図１１に、比較部５２及び比較選択部５４が行なう比較処理と選択処理の詳細について示す。図１１において、「○」「×」「◎」がいずれも単語を示すものとする。特に、「○」は正解と同じ単語を示し、「×」は認識結果のうち正解と異なる単語を表し、「◎」は二つの認識結果の単語のうち、一方のみが正解の場合を示す。
【００５３】
図１１を参照して、図７及び図８に示す比較部５２及び比較選択部５４は、「◎」に相当する単語が存在する場合のみパラメータベクトル作成制御信号をパラメータ作成部６４に対して与える。すなわち、音声認識部４４の出力と音声認識部４８の出力とが相違しており、かつ一方が正解系列と一致する場合のみ、パラメータの作成を行なわせる。両者とも正解の場合にも、両者とも不正解の場合にも、学習を行なう必要はないからである。従って、図１１に示す例では、ボックス１０２、１０６、１０８及び１１０の場合のみパラメータベクトル作成制御信号が出力され、ボックス１００、１０４及び１１２の場合には出力されない。
【００５４】
なお上記した様に、比較対照の単語が１対１で対応しているとは限らないので、ＳＶＭ６２の学習では、対応のとれた個所ごとに、正解系列とのＤＰ（ＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇ）距離が最小となる結果が自動選択される様機械学習を行なった。そのための学習データ数は１８５箇所であった。
【００５５】
＜音声認識装置の動作＞
上記した音声認識装置３０は以下の様に動作する。まず、学習モードにおける音声認識装置３０の動作から説明する。学習モードでは、端子６６に与えられるモード制御信号は第２の値となる。その結果、スイッチ６８は第２の入力６８Ｂ側に倒れる。スイッチ７０は第２の入力７０Ｂ側に倒れる。
【００５６】
この状態で、学習コーパス４０から音声入力データがスイッチ６８を介して音声認識部４４及び音声認識部４８に与えられる。学習コーパス４０からはまた、このときの音声入力データに対応する正解列や正解単語列が比較選択部５４に与えられる。
【００５７】
音声認識部４４は自然発話音響モデル４２を用いて、音声入力データに対して音声認識を行ない認識結果をアライメント部５０、比較部５２、及びパラメータ作成部６４に与える。音声認識部４８も同様に朗読発話音響モデル４６を用いて、入力された音声データに対して音声認識を行ない認識結果をアライメント部５０、比較部５２、及びパラメータ作成部６４に与える。
【００５８】
アライメント部５０は、音声認識部４４からの認識結果と音声認識部４８からの認識結果とに対してＤＰマッチングを行ない、両者の単語単位での対応関係を決定する。比較部５２は、アライメント部５０によるアライメント結果に基づいて、単語単位で音声認識部４４の認識結果の単語と音声認識部４８の認識結果の単語との対応するもの同士を比較する。比較部５２は、両者が一致する場合にはパラメータ作成部６４及び比較選択部５４を不能動化させ、両者が不一致の場合には両者を能動化させる。
【００５９】
比較部５２により能動化されると、パラメータ作成部６４は音声認識部４４からの認識結果と音声認識部４８からの認識結果とに基づいて、ＳＶＭ学習のための２７次元のパラメータ列を作成する。一方比較選択部５４は、音声認識部４４の出力及び音声認識部４８の出力と学習コーパス４０からの正解系列とを比較し、正解となる方を示す教師信号を作成し学習データ作成部５６に与える。
【００６０】
学習データ作成部５６は、パラメータ作成部６４からの２７次元のデータと、比較選択部５４からの教師信号とを組にして学習データベクトルとしてパラメータ記憶部５８に与える。パラメータ記憶部５８は、これを順次記憶していく。
【００６１】
学習コーパス４０内の全ての音声データに対して上記した処理が完了すると、ＳＶＭ学習部６０がパラメータ記憶部５８に記憶されている学習パラメータをスイッチ７０を介してＳＶＭ６２に与え、ＳＶＭ６２を学習させる。以上で学習は終了である。
【００６２】
音声認識時には、端子６６を介して与えられるモード指定信号は第１の値となる。このとき、スイッチ６８は第１の入力６８Ａのデータ側に倒れる。すなわちスイッチ６８は、音声入力７４を選択して出力６８Ｃから音声認識部４４及び音声認識部４８に与える。その結果、スイッチ７０は第１の入力７０Ａ側に倒れる。モード指定信号はＳＶＭ６２にも与えられ、このときＳＶＭ６２は、２７次元のパラメータを与えられると、学習結果に従って音声認識部４４の出力又は音声認識部４８の出力のいずれを選択すべきかを示す判定信号を出力する様に動作する。
【００６３】
音声認識部４４及び音声認識部４８は、音声入力７４に対してそれぞれ自然発話音響モデル４２及び朗読発話音響モデル４６を用いて音声認識を行ない、結果をアライメント部５０、比較部５２、及びパラメータ作成部６４に与える。
【００６４】
アライメント部５０は学習モード時と同様に両者の出力の対応関係をとる。比較部５２は、対応のとれた単語単位で両者の出力が一致しているか否かを判定する。両者が一致しているとき、比較部５２はパラメータ作成部６４を不能動化し、出力選択部７２を制御して音声認識部４４の出力を選択して出力させる。両者が一致していないとき、比較部５２はパラメータ作成部６４を能動化させる。
【００６５】
パラメータ作成部６４は、音声認識部４４の出力及び音声認識部４８の出力から、学習モード時と同様に２７次元のパラメータを作成しスイッチ７０を介してＳＶＭ６２に与える。ＳＶＭ６２は、このパラメータの組合せに対し、学習結果に従った判定信号を出力選択部７２に出力する。出力選択部７２は、比較部５２から与えられる信号が両者の不一致を示す値なので、ＳＶＭ６２の判定信号に従って、音声認識部４４の出力又は音声認識部４８の出力の一方を選択して音声認識結果として出力する。
【００６６】
＜実験結果＞
上記した装置を用いて認識実験を行った。実験では、朗読発話音響モデル及び自然発話音響モデルをそれぞれ単独で用いた場合と、上記した装置での機械学習による自動選択結果とを比較した。使用した学習データは自然発話を用いたものであり、総単語数は４９９０であった。
【００６７】
図１２に、この実験の結果得られた単語誤り率を示す。図１２から分かる様に、単語単位で音響モデルを自動選択する本実施の形態の装置によれば、朗読発話音響モデルを単独で使用した場合よりも約１．７ポイント、単語誤り率が改善した。自然発話音響モデルを単独で使用した場合と比較しても、約０．７ポイントの改善が得られた。また、本実施の形態の装置により品詞単位で自動選択する事により単語の選択の改善が見られたのは、６６．５％（１８５箇所中、１２３箇所）であった。
【００６８】
以上の様に、本実施の形態の装置では、品詞及び言語尤度などの言語情報をパラメータとして用い、機械学習で品詞単位で音響モデルを自動選択することができる。その結果、単語誤り率が改善し、より正確な音声認識結果が得られる。
【００６９】
＜コンピュータによる実現＞
上記した本実施の形態の音声認識装置は、音声処理機能を備えたコンピュータにより実現できる。図１３にコンピュータにより実現された音声認識装置３０の外観を示す。図１４はこの音声認識装置３０のハードウェアブロック図である。
【００７０】
図１３を参照して、音声認識装置３０は、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）駆動装置１９０、ＦＤ（ＦｌｅｘｉｂｌｅＤｉｓｋ）駆動装置１９２を備えたコンピュータ１８０と、いずれもコンピュータ１８０に接続されたモニタ１８２、マイク１８４、キーボード１８６、及びマウス１８８とを含む。
【００７１】
図１４を参照して、コンピュータ１８０は、前述したＣＤ−ＲＯＭ駆動装置１９０及びＦＤ駆動装置１９２に加えて、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１９６と、ＲＯＭ（Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）１９８と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）２００と、ハードディスク１９４と、マイク１８４に接続されたサウンドボード２０８とを含む。これらはいずれもバス２０６により相互に接続されている。ＣＤ−ＲＯＭ駆動装置１９０にはＣＤ−ＲＯＭ２０２が装着され、ＦＤ駆動装置１９２にはＦＤ２０４が装着される。
【００７２】
以下に述べる制御構造を有するコンピュータプログラムは、たとえばＣＤ−ＲＯＭ２０２又はＦＤ２０４の様なコンピュータ読取可能な記録媒体上に記録されて流通し、当該ＣＤ−ＲＯＭ２０２をＣＤ−ＲＯＭ駆動装置１９０に装着したのちＣＤ−ＲＯＭ２０２からハードディスク１９４に複写される。実行時にはこのプログラムはハードディスク１９４から読出されてＲＡＭ２００にロードされ、図示しないプログラムカウンタにより指定されるアドレスからＣＰＵ１９６が命令を読出して実行し、実行結果をＲＡＭ２００又はハードディスク１９４に書込む。ＣＰＵ１９６はさらにプログラムカウンタの値をプログラムの実行結果により書換え、さらにそのプログラムカウンタの値に基づいて次の命令をＲＡＭ２００から読出して実行する。ＣＰＵ１９６はこの様な動作原理に従って、コンピュータプログラムを実行する。
【００７３】
図１５に、本実施の形態の装置を実現するためのコンピュータプログラムのうち、学習モードを実現するプログラムのフローチャートを示す。このプログラムを選択する事が、図７に示す端子６６に与えるモード指定信号を第２の値にする事に対応する。
【００７４】
図１５を参照してこのプログラムは、学習コーパス４０の最初の一文の音声データと正解文とを選択するステップ２２０と、ステップ２２０の処理の結果、学習コーパス４０の終わりに達したか否かを判定するステップ２２２とを含む。ステップ２２２での判定の結果、学習コーパス４０の終わりに達したと判定された場合、制御はステップ２４２に進み、それ以外の場合には制御はステップ２２４に進む。ステップ２４２での処理については後述する。
【００７５】
ステップ２２４では、自然発話音響モデルと、朗読発話音響モデルとの両音響モデルを用いて、処理対象の一文に相当する音声データを音声認識する。続いてステップ２２６では、両モデルを用いた音声認識結果のアライメントを行ない、単語単位での対応関係を決定する。
【００７６】
続いてステップ２２８では、この一文の二つの認識結果のうち、先頭のアライメント部分（単語）を選択する。ステップ２３０で、一文の中で処理対象のアライメントが全て終了したか否かを判定する。全て終了した場合には制御はステップ２３２に進む。それ以外の場合には制御はステップ２３４に進む。ステップ２３２の内容については後述する。
【００７７】
ステップ２３４では、処理対象となるアライメント部分が互いに異なるか否かを判定する。互いに異なる場合には制御はステップ２３６に進む。それ以外の場合には制御はステップ２４０に進む。
【００７８】
ステップ２３６では、いずれか一つが、学習コーパス４０から与えられた正解系列の対応する単語と一致するか否かを判定する。いずれも一致しない場合、制御はステップ２４０に進む。一方が一致する場合、ステップ２３８で、前述した通りの２７次元のパラメータと、どちらが正解と一致しているかを示す教師信号とからなる学習データを作成し、記憶する。この後、制御はステップ２４０に進む。
【００７９】
ステップ２４０では、処理を次のアライメント部分に進める。
【００８０】
ステップ２３０で一文に相当する音声データの全てについて処理が終了したと判定されると制御はステップ２３２に進む。ステップ２３２では、学習コーパス４０中の次の音声データを処理対象に選択する処理が行われる。この後、制御はステップ２２２に戻る。この様にして、ステップ２２２〜２４０の処理が繰返し実行される。
【００８１】
ステップ２２２での判定の結果、学習コーパス４０内の全ての音声データについて処理が終了し、必要な学習データの作成が完了すると制御はステップ２４２に進む。ステップ２４２では、ステップ２３８の処理で作成された学習データの組が全てＳＶＭ６２に学習のために与えられる。ＳＶＭ６２としては、パブリックドメインのＳＶＭソフトウェアツールを使用する事ができる。この学習が終了したらこのプログラムは終了する。
【００８２】
図１６に、音声認識を実行する際のプログラムのフローチャートを示す。このプログラムを選択して実行する事が、図７に示す端子６６に与えるモード指定信号の値を第１の値にする事に相当する。なお、このプログラムでは図１５に示すものと同様の処理を実行する場合には、図１５に示すものと同じルーチンを使用している。それらは、同じステップ番号で示す。
【００８３】
図１６を参照して、このプログラムは、入力文の音声入力を受けるステップ２６０と、この音声入力に対して自然発話音響モデルと朗読発話音響モデルとの両モデルを用いた音声認識を行なうステップ２２４と、両モデルを用いた音声認識結果のアライメントを行ない、単語単位での対応関係を決定するステップ２２６と、ステップ２２６により得られたアライメント部分の先頭を選択するステップ２２８とを含む。
【００８４】
このプログラムはさらに、選択されたアライメント部分が音声入力の終わりを示すか否かを判定するステップ２６２を含む。ステップ２６２で音声入力の終わりであると判定されるとこのプログラムは終了する。音声入力の終わりでないと判定された場合、制御はステップ２６８に進む。
【００８５】
ステップ２６８では、両モデルを用いた認識結果の対応する部分が一致するか否かを判定する。両者が一致していれば制御はステップ２７４に進む。さもなければ制御はステップ２７０に進む。
【００８６】
ステップ２７０では、前述した２７次元のパラメータを認識結果から作成する処理が行なわれる。続いてステップ２７２では、このパラメータを学習済みのＳＶＭツールに与える事により、それに対するＳＶＭツールの判定結果を得て、判定結果に対応する認識結果を選択して出力する。この後、制御はステップ２７６に進む。
【００８７】
一方、ステップ２６８において両者が一致していると判定された場合、ステップ２７４では、いずれか予め定められた一方（本実施の形態では自然発話音響モデルを用いた音声認識結果）を選択して出力する。これが誤ったものであるにせよ、正しいものであるにせよ、いずれの認識結果を出力しても結果は同じである。この後、制御はステップ２７６に進む。
【００８８】
ステップ２７６では、次のアライメント部分を新たな処理対象とする。制御はこの後ステップ２６２に戻り、以下上述した処理を繰返す。
【００８９】
以上の制御構造を有するプログラムをコンピュータ上で実行させる事により、前述した本発明の一実施の形態の音声認識装置を実現する事ができる。
【００９０】
なお、本実施の形態では自然発話音響モデルと朗読発話音響モデルという二つの典型的な音響モデルを切替えて用いた。しかし本発明はこの二つの音響モデルを切替える場合に限定されるわけではない。たとえば、三つ以上の音響モデルを切替える様な実施の形態も可能である。また本実施の形態では、学習にＳＶＭを用いたが、ＳＶＭ以外の機械学習方法を採用してもよい。
【００９１】
また上記した実施の形態では、ＳＶＭの学習と音声認識とを同一の装置で切替えて実行できる様にした。しかし本発明はそうした実施の形態に限定される訳ではない。ＳＶＭ学習は装置の出荷前に完成しておき、音声認識装置には学習済みのＳＶＭのみを搭載する様にしてもよい。
【００９２】
図１３、図１４に示した様に、本実施の形態では一般的な構成を持つデスクトップのコンピュータを用いたが、ノートブック型、又はＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）などで本発明に係る音声認識装置を実現してもよい。
【００９３】
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内でのすべての変更を含む。
【図面の簡単な説明】
【図１】本実施の形態で用いた音声データの音響分析の条件を示す図である。
【図２】本実施の形態で用いた音声データの概要を示す図である。
【図３】品詞と発話スタイルとの関係を示す図である。
【図４】品詞と発話スタイルとの関係を直接対話データと間接対話データとに分類して示す図である。
【図５】図４に示した名詞類に関する品詞と発話スタイルとの関係をより詳細に分類し集計した結果を示す図である。
【図６】自然発話音響モデル優位率を、言語尤度の値を用いて集計した結果を示す図である。
【図７】本発明の一実施の形態に係る音声認識装置のブロック図である。
【図８】学習モード時の音声認識装置の実質的構成を示すブロック図である。
【図９】音声認識モード時の音声認識装置の実質的構成を示すブロック図である。
【図１０】アライメント処理の概略を説明するための図である。
【図１１】比較部５２及び比較選択部５４が行なう比較処理と選択処理の詳細を示す図である。
【図１２】本発明の一実施の形態の装置による実験の結果得られた単語誤り率を示す図である。
【図１３】コンピュータにより実現した本発明の一実施の形態の装置の外観を示す図である。
【図１４】図１３に示すコンピュータ及び周辺機器のハードウェア構成を示すブロック図である。
【図１５】学習モードのコンピュータプログラムの制御構造を示すフローチャートである。
【図１６】音声認識モードのコンピュータプログラムの制御構造を示すフローチャートである。
【符号の説明】
３０音声認識装置、４０学習コーパス、４２自然発話音響モデル、４４、４８音声認識部、４６朗読発話音響モデル、５０アライメント部、５２比較部、５４比較選択部、５６学習データ作成部、５８パラメータ記憶部、６０ＳＶＭ学習部、６２ＳＶＭ、６４パラメータ作成部

Claims

第１の音響モデルを使用して音声入力に対する音声認識を行ない第１の音声認識結果を出力するための第１の音声認識手段と、
第２の音響モデルを使用して前記音声入力に対する音声認識を行ない第２の音声認識結果を出力するための第２の音声認識手段と、
前記第１及び第２の音声認識結果の対応関係を決定するためのアライメント手段と、
前記第１及び第２の音声認識結果の、前記アライメント手段により決定された対応部分の組から、予め定められた特徴パラメータを作成するためのパラメータ作成手段と、
前記特徴パラメータを受け、前記第１及び第２の音声認識結果のいずれを選択するかを、前記対応部分の組の各々に対して判定し判定信号を出力するための判定手段と、
前記判定信号に従って、前記第１及び第２の音声認識結果の一方を選択するための選択手段とを含む、音声認識装置。
前記判定手段は、特徴パラメータを受けると前記判定信号を出力する様に、学習のための音声データ及び当該音声データに対応する正解単語列の組、ならびに当該学習データに対する前記第１及び第２の音声認識結果に基づいて学習済みの機械学習手段を含む、請求項１に記載の音声認識装置。
前記第１及び第２の音声認識結果が一致するか否かを判定するために、前記対応部分の組の各々に対して両者を比較し、一致する場合には、前記パラメータ作成手段及び前記判定手段を不能動化するための比較手段をさらに含む、請求項２に記載の音声認識装置。
前記選択手段は、前記第１及び第２の音声認識結果が一致する場合には、前記第１及び第２の音声認識結果のうち予め定められた一方を選択して出力する、請求項３に記載の音声認識装置。
前記学習のための音声データと当該音声データに対応する正解単語列との組を多数記憶した学習コーパスと、
前記学習コーパスを用いて前記機械学習手段を学習させるための学習手段とをさらに含む、請求項２〜請求項４のいずれかに記載の音声認識装置。
前記音声認識装置は、前記機械学習手段の学習を行なう第１のモードと、前記機械学習手段の学習結果を利用して音声認識を行なう第２のモードとの動作モードを有し、
前記音声認識装置はさらに、前記動作モードを指定する動作モード指定信号を受ける信号入力部を含み、
前記学習手段は、
音声入力を受ける第１の入力と、前記学習コーパスからの学習のための音声入力を受ける第２の入力と、前記第１及び第２の音声認識手段の入力に接続された出力とを持ち、前記動作モード指定信号が予め定められた第１の値の時には前記第１の入力を、前記第１の値と異なる第２の値の時には前記第２の入力を、それぞれ前記出力と接続するための第１のスイッチ手段と、
前記第１及び第２の音声認識結果、前記比較手段の比較結果、ならびに前記第１のスイッチ手段の前記出力からのデータを受け、前記機械学習手段のための学習データを作成して出力するための学習データ作成手段と、
前記パラメータ作成手段の出力に接続された第１の入力、前記学習データ作成手段の出力に接続された第２の入力、及び前記機械学習手段の入力に接続された出力とを有する第２のスイッチ手段とを含み、
前記第２のスイッチ手段は、前記動作モード指定信号が前記第１の値のときには前記第１の入力を前記出力に、前記第２の値のときには前記第２の入力を前記出力に、それぞれ接続する様に動作する、請求項５に記載の音声認識装置。
前記学習データ作成手段は、前記第１及び第２の音声認識結果、ならびに前記第１のスイッチ手段を介して前記学習コーパスから与えられる正解単語列に基づいて、前記機械学習手段のための教師信号を作成するための手段と、
前記教師信号及び前記特徴パラメータとを前記機械学習手段の学習データとして記憶するためのパラメータ記憶手段と、
前記学習コーパスに含まれる音声データの全てに対して前記学習データの記憶が終了した事に応答して、前記パラメータ手段に記憶されている前記学習データを読出して前記第２のスイッチ手段の前記第２の入力に与えるための手段とを含む、請求項６に記載の音声認識装置。
前記第１の音響モデルは自然発話音響モデルであり、前記第２の音響モデルは朗読発話音響モデルである、請求項１〜請求項７のいずれかに記載の音声認識装置。
コンピュータにより実行されると、当該コンピュータを請求項１〜請求項８のいずれかに記載の音声認識装置として動作させる、コンピュータプログラム。