JP2015099335A

JP2015099335A - 情報処理装置およびその方法

Info

Publication number: JP2015099335A
Application number: JP2013240255A
Authority: JP
Inventors: 金子　和恵; Kazue Kaneko; 和恵金子
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2013-11-20
Filing date: 2013-11-20
Publication date: 2015-05-28

Abstract

【課題】発音評価における無益な発声の繰り返しを防ぐ。【解決手段】評価音素選択部206は、評価音素を選択する。評価単語作成部211は、評価音素を含む評価単語を作成する。評価単語変更部213は、評価単語を変更する。棄却単語作成部212は、作成または変更された評価単語に含まれる評価音素を、評価音素と発音を区別する比較音素に置き換えた棄却単語を作成する。音声認識文法作成部208は、評価単語と棄却単語から音声認識文法を作成する。音声認識部205は、音声認識文法に基づきユーザの発音を音声認識し、音声認識の結果の履歴情報を記録する。反復学習制御部204は、履歴情報を参照して発音評価を制御する。【選択図】図2

Description

本発明は、音声認識を用いてユーザの発音を評価する情報処理に関する。

ユーザの発音を評価するソフトウェアや装置は、手本になる発音パターンとユーザの発音パターンを比較するものが多い。特許文献1は、ネイティブが発音したお手本音声とユーザの発音を、基本周波数などの比較により評価する。また、スマートフォンや電子辞書などには機器操作用に音声認識機能が搭載されていることがあり、この音声認識を用いれば発音評価を実現可能である。

特許文献2は、間違え易い音素を含む単語の組を音声認識して発音を評価する。例えば「r」と「l」は日本人にとって間違え易い音素である。そこで「ramp」と「lamp」から音声認識文法を作成し、ユーザの「ramp」の発音を音声認識する。「ramp」と認識される場合は発音が正しいと評価し、「lamp」と認識される場合は発音が正しくないと評価する。

特許文献3は、単語の音声認識と、音素タイプライタを使った認識を別途実行し、その結果をフレーム単位に比較してフレーム単位に類似度を求め、発音に誤りがあった箇所を指摘する。

機器操作用の汎用的な音声認識は、音素の認識率がそれほど高くない。単語の認識率約95%に対して、音素の認識率は約70%ほどである。そのため、正しい発音箇所を、誤って、正しくないと評価する場合がある。

特許文献2のように「ramp」と「lamp」の単語認識を行うことで「r」と「l」という音素の認識（または識別）を行う方式は、学習したい音素を含む単語の発音において、学習対象外の音素の発音を間違える場合が発生する。その場合、学習対象の音素の発音が正しくても、間違った評価が得られることがある。「ramp」と「lamp」の二つを含む音声認識文法に従って発音した際に、「ae」の発音を間違えて「α」と発音すると、本来学習したい「r」の発音は正しくても続く母音の誤りによって「lamp」と誤認識される可能性がある。

なお、本明細書において、次の発音記号を下記のように表記する。

を「α」；

を「α:」；

を「ae」；

を「ｉ:」；

を「⊃」；

を「Λ」；

音声認識には、認識精度を上げるため、音素一つからなるモノフォンのモデルよりも、隣接する三つの音素からならトライフォンのモデルを使用するものがある。この場合、「ramp」は(r+ae)(r+ae+m)(ae+m+p)(m+p)のパスに「lamp」は(l+ae)(l+ae+m)(ae+m+p)(m+p)のパスに展開される。ユーザが「ae」の発音を正しく行えず「α」を発音した場合、最初の子音の発音が合っていても、次の母音が異なるため、正しい結果が得られない可能性がある。

例えば、(r+α)と(r+ae)のモデル間の距離より、(r+α)と(l+ae)のモデル間の距離の方が近いとし、「ramp」よりも「lamp」と子音が異なる発音の方を結果として出力する。その場合、正しい発音である子音の発音が間違っていると判断され、評価すべき音素について正しい発音がされているにもかかわらず、再度、発音を要求する可能性がある。その結果、ユーザは、実際に間違った発音箇所が分からないまま、無益な発声を繰り返す可能性がある。

特許文献3によれば、音素の認識精度が充分に信頼できる場合にのみ、誤った発音箇所を特定することができ、ユーザは修正すべき発音箇所を知ることができる。しかし、その場で誤った発音箇所の発声練習を行うことは、本来学習したい音素とは別の発声練習を行うことになり、計画的な学習を妨げる可能性がある。

特開2005-031207号公報特開2004-053652号公報特許0471612号公報

本発明は、発音評価における無益な発声の繰り返しを防ぐことを目的とする。

本発明は、前記の目的を達成する一手段として、以下の構成を備える。

本発明にかかる情報処理は、発音評価を行う際に、評価音素を選択し、前記評価音素を含む評価単語を作成し、前記評価単語を変更し、前記作成または変更された評価単語に含まれる評価音素を、前記評価音素と発音を区別する比較音素に置き換えた棄却単語を作成し、前記評価単語と前記棄却単語から音声認識文法を作成し、前記音声認識文法に基づきユーザの発音を音声認識し、前記音声認識の結果の履歴情報を記録し、前記履歴情報を参照して前記発音評価を制御する。

本発明によれば、発音評価における無益な発声の繰り返しを防ぐことができる。例えば、学習すべき評価音素が正しく発音され、評価音素以外の発音に誤りがあった場合に同じ単語の発声を繰り返す無益な繰り返しを防いで、評価音素の集中的な学習を可能にする。

実施例の発音評価装置の構成例を示すブロック図。実施例1の発音評価装置の処理構成例を示すブロック図。実施例1の発音評価処理を説明するフローチャート。発音評価表の一例を示す図。音声認識文法例、音響モデルの遷移パス例、音声認識時の距離計算の比較単位、音声認識の結果例、認識結果の履歴例を示す図。実施例2の発音評価装置の処理構成例を示すブロック図。修正音素対応表の一例を示す図。変更先の音素を選択する処理を説明するフローチャート。変更先の音素を選択する処理を説明するフローチャート。音声認識文法例、音声認識の結果例、認識結果の履歴例を示す図。実施例3における評価音素の選択処理を説明するフローチャート。実施例4の発音評価装置の処理構成例を示すブロック図。学習レベル別の評価音素の選択処理を説明するフローチャート。学習レベル別発音評価音素表の一例を示す図。

以下、本発明にかかる実施例の情報処理を図面を参照して詳細に説明する。

［装置の構成］
図1のブロック図により実施例の発音評価装置の構成例を示す。

CPU101は、RAM102をワークメモリとして、フラッシュメモリなどの不揮発性メモリ(NVRAM)103に格納されたプログラムを実行し、各構成を制御する。そして、NVRAM103に格納された評価発音表や辞書などのデータに基づき発音評価処理を実行する。

表示部104は、例えばLCDであり、CPU101により、発音評価処理におけるユーザに対する指示や発音評価結果などを表示するユーザインタフェイス(UI)が表示される。図1(B)に示す例は、ユーザへの指示「rampを発音してください」が表示された状態を示している。

入力部105は、ユーザが発音評価装置を操作し、指示を入力するためのタッチパネルなどである。図1(B)に示す例は、入力部105として、表示部104にソフトウェアキーボードを表示した例である。スピーカ106は、CPU101により、ユーザが発音すべき評価単語の発音例を再生するなどに用いられる音声出力部である。マイク107は、ユーザの音声を入力するための音声入力部である。

なお、図1(B)には、タブレットデバイスを発音評価装置とする例を示すが、発音評価処理用のソフトウェアをコンピュータ機器に供給すればコンピュータ機器を発音評価装置として機能させることができる。その場合、発音評価処理用のソフトウェアは、記録媒体やネットワークを介して発音評価装置に供給される。また、ネットワーク上のサーバ装置が発音評価処理用のソフトウェアを実行し、ユーザのコンピュータ機器が、サーバ装置から受信したユーザインタフェイスを表示し、ユーザの発声をディジタル化してサーバ装置に送信することで発音評価を行うこともできる。

［処理構成］
図2のブロック図により実施例1の発音評価装置の処理構成例を示す。この処理構成は、CPU101が発音評価処理用のプログラムを実行することによって実現される。

音声入力要求部201は、ユーザに発音すべき単語を表示部104に提示し発声を促す。結果表示部202は、評価結果および発音の矯正アドバイスを表示部104に提示する。音声入力部203は、ユーザの発声をマイク107から入力する。

音声認識部205は、音声入力部203が入力したユーザの発声を音声認識し、特定の評価音素に対するユーザの発音の正解、不正解を判定し、判定結果を含む音声認識結果を履歴情報として履歴部209に記録する。

発音評価管理部207は、履歴部209に記録された履歴情報を参照して、音素に対するユーザの発音評価を発音評価情報として発音評価表210に記録する。評価音素選択部206は、発音評価表210を参照して特定の評価音素を選択する。反復学習制御部204は、履歴部209に記録された履歴情報を参照して、発音評価の繰り返しを制御する。

評価単語作成部211は、単語辞書214を参照して、評価音素に対する評価単語を作成する。棄却単語作成部212は、単語辞書214を参照して、評価単語に対する棄却単語を作成する。音声認識文法作成部208は、評価単語と棄却単語から音声認識文法を作成する。

評価単語変更部213は、履歴部209に記録された音声認識結果および単語辞書214を参照して、評価音素に対する異なる評価単語を作成する。なお、履歴部209、発音評価表210および単語辞書214は、NVRAM103の所定領域に割り当てられる。

［発音評価処理］
図3のフローチャートにより実施例1の発音評価処理を説明する。図3に示す処理は、発音評価処理の実行を示すユーザ指示が入力された場合にCPU101によって実行される。また、図4により発音評価表の一例を示す。また、図5により音声認識文法例、音響モデルの遷移パス例、音声認識時の距離計算の比較単位、音声認識の結果例、認識結果の履歴例を示す。

評価音素選択部206は、発音評価表210を参照して評価音素を選択する(S301)。図4(A)は初期の発音評価表210の一例を示す。例えば、評価音素選択部206は、例えば、発音評価表210から未学習でかつ評価点が「0」の音素「r」を選択する。

次に、評価単語作成部211は、単語辞書214を参照して、評価音素を含む評価単語を選択する(S302)。例えば「ramp」が評価単語として選択される。

次に、棄却単語作成部212は、評価音素と発音を区別したい比較音素を求め、単語辞書214を参照して、評価単語中の評価音素を比較音素に置き換えた単語を棄却単語として作成する(S303)。

例えば、評価単語「ramp」の評価音素「r」を、比較音素「l」に置き換えた「lamp」が棄却単語として作成される。なお、評価単語を選択し、次に棄却単語を作成する例を示したが、評価音素を棄却音素に置き換えただけの単語が単語辞書214に存在するか否かを検索し、棄却単語を決定してもよい。

次に、音声認識文法作成部208は、評価単語と棄却単語から音声認識文法を作成する(S304)。

図5(A)は音声認識文法の一例を示す。なお、音声認識文法における音素記号は、大文字アルファベットを用いて示され、図5(A)において「AE」は発音記号「ae」を表す。図5(B)は、図5(A)に示す音声認識文法をトライフォンモデルの音響モデルで展開した場合の遷移パスを示す。図5(B)に示すように、「ramp」の遷移パス402は(r+ae)(r+ae+m)(ae+m+p)(m+p)であり、「lamp」の遷移パス403は(l+ae)(l+ae+m)(ae+m+p)(m+p)である。

次に、音声入力要求部201は、評価単語を提示してユーザに発声を促す(S305)（図1(B)参照）。その際、表示部104に文字列を表示するだけでなく、スピーカ106によって「ramp」の発音例を再生してもよい。

次に、音声入力部203は、ユーザの発声を入力する(S306)。その際、ユーザは「ramp」の「ae」をうまく発音できずに「α」に近い発音をしたと仮定する。

次に、音声認識部205は、音声認識文法作成部208が作成した音声認識文法に基づき、音声入力部203が入力した音声を音声認識し(S307)、認識結果を履歴として履歴部209に記録する(S308)。

図5(C)は音声認識時の距離計算の比較単位を示す。遷移パス402と403に対する、ユーザ発音404の距離が計算される。(r+ae)と(r+α)の距離よりも、(l+ae)と(r+α)の距離の方が近く、(r+ae+m)と(r+α+m)の距離よりも、(l+ae+m)と(r+α+m)の距離の方が近い場合に「lamp」が認識結果として選択される。図5(D)は認識結果を示し、「r」の発音ではなく「ae」の発音が誤っていたために「lamp」の発音に近いと判断された例である。なお、尤度は、マイナスで計算しているため符号を除く数字部分の値が小さいほど尤度が高い。

図5(E)は履歴部209に記録される認識結果例を示し、認識結果405が評価単語「ramp」の認識結果である。認識結果における「修正対象音素」は、音声認識結果が不正解（認識結果が評価単語ではない）となった場合に評価単語を変更するために変更される音素である。修正対象音素は評価音素以外の音素ならどれでもよく、トライフォンモデルを用いる場合は評価音素が、子音の場合は評価音素の次の音素、母音の場合は評価音素の前の音素を修正対象音素とする。

次に、反復学習制御部204は、履歴部209に記録された認識結果の履歴を参照して認識結果を評価する(S309)。つまり、履歴部209に記録された認識結果の履歴中の正解（認識結果が評価単語と同じ）の回数をカウントし、正解数が所定の閾値未満の場合は処理をステップS313に進める。また、正解数が所定の閾値に達した場合（反復学習の終了条件）は処理をステップS310へ進める。

正解数が閾値未満の場合、評価単語変更部213は、評価音素をそのままにして評価単語を変更し(S313)、処理をステップS303に戻す。例えば、トライフォンモデルの場合、「ramp」の評価音素「r」の次の音素（修正対象音素）「ae」を「ei」に変更し、「r」と「ei」の音素を含む単語「race」を選択する。なお、変更先の音素の選択は、修正対象音素が母音の場合は母音の何れか、子音の場合は子音の何れかである。

処理はステップS303に戻り、変更後の評価単語に対して棄却単語が作成され、発音評価が繰り返される。

図5(E)に示すように、例えば、評価単語「race」に対して棄却単語「lace」が作成され、評価単語「race」に対する認識結果406が得られる。この例では、評価単語「race」に対する認識結果406は正解である。この場合、ステップS309の判定における正解数は「1」になるが閾値が「2」であれば反復学習の終了条件を満たさず、再度、ステップS313において評価単語が変更され、発音評価が繰り返される。

図5(E)に示す評価結果407は、修正対象音素「ei」が「ai」に変更され、評価単語が「rice」に変更され、棄却単語「lice」が作成された場合の評価結果例を示す。この例では、評価単語「rice」に対する認識結果407は正解であり、正解数が「2」になるので（閾値が「2」であれば）反復学習の終了条件が満たされ、処理はステップS310に進む。

反復学習の終了条件が満たされると、発音評価管理部207は、発音評価表210の「評価音素の評価点」および「学習単語数」を更新する(S310)。この例では、図4(B)に示すように、音素「r」の評価点は正解数が加算されて「2」になり、三つの単語が学習されたので学習単語数は「3」に更新される。

次に、発音評価管理部207は、履歴部209に記録された認識結果（図5(E)）を参照して、不正解となった評価単語の修正対象音素に対応する発音評価表210の「音素の評価点」を更新する(S311)。図5(E)において、不正解となった評価単語「ramp」の修正対象音素は「ae」であり、図4(B)に示すように、発音評価表210の音素「ae」の評価点がデクリメントされ、この例では「-1」に更新される。つまり、未学習の音素でも誤りと評価される発音があった場合、当該音素の評価点を下げることで、当該音素が評価単語に使われる割合を低減する。

次に、結果表示部202は、評価点の変更をユーザに提示し(S312)、発音評価処理が終了する。

図3には、正解数が閾値に達しない場合に学習は終了しない発音評価処理を示したが、正解数が増加しない発音評価が継続した場合、評価点を保留もしくは減算して、発音評価処理を終了してもよい。また、ユーザ操作により学習を終了して、終了時の正解数で評価点を付与するようにしてもよい。評価点は、正解数による加算、不正解数による減算に限らず、評価回数で評価点を正規化してもよい。

また、正解数が閾値に達した場合に評価結果をユーザに提示する例を示したが、一回の音声評価ごとに、結果表示部202により正解、不正解や発音に対するアドバイスを提示してもよい。

また、認識結果の評価を正解数で評価せずに、認識結果の尤度を正解との間の距離として、所定の評価回数における距離の累積の変化により認識結果を評価してもよい。距離の累積の増加が少なくなれば、発音が正解に近付いていると判断することができ、一回の認識結果における距離が大きく、距離の累積の増加が変わらなければ、発音が改善されていないと判断することができる。

なお、評価単語や棄却単語を単語辞書214から選択する際に、評価音素以外の音素について、高評価点の音素を優先的に選択し、低評価点の音素を避けるようにしてもよい。また、評価単語や棄却単語は、単語辞書214からの選択に限らず、単語辞書214にない任意の文字列を評価単語や棄却単語として作成してもよい。

以下、本発明にかかる実施例2の情報処理を説明する。なお、実施例2において、実施例1と略同様の構成については、同一符号を付して、その詳細説明を省略する。

実施例1において、評価単語変更部213における修正対象音素と変更先の音素の対応は「修正対象音素が母音の場合は母音の何れか、子音の場合は子音の何れか」である。つまり、実施例1では、修正対象音素と変更先の音素の対応として子音と母音の場合分けのみを行った。

音声認識を使った発音評価において認識結果が不正解の場合、一概に、評価音素と修正対象音素のどちらかが正解とは言えない。修正対象音素が未学習の場合、評価音素と修正対処音素のどちらにも誤りがあり得る。未学習の音素を、より発音し易いと想定され、かつ、修正対象音素との隔たりの少ない音素に変えることで、信頼度が高い発音が得られると考えられる。

そこで、実施例2では、修正対象音素と変更先の音素を、それらの学習の有無と評価状態によって対応付ける。

図6のブロック図により実施例2の発音評価装置の処理構成例を示す。この処理構成は、CPU101が発音評価処理用のプログラムを実行することによって実現される。なお、図6に示す処理構成が、図2に示す処理構成と異なるのは、評価単語変更部213が参照する修正音素対応表220が追加されている点である。なお、修正音素対応表220は、NVRAM103の所定領域に割り当てられる。

図7により修正音素対応表220の一例を示す。修正音素対応表220は、修正対象音素について、当該音素の学習状態および当該音素の評価に基づき、選択すべき変更先の音素を示すテーブルである。つまり、修正対象音素が学習済みかつ高評価の場合、評価音素の誤りの可能性が高い。従って、変更先の音素に修正対象音素を加えることで同じ単語を繰り返し発音させ、発音の振れによる影響を評価し直す。

また、修正対象音素が学習済みかつ低評価の場合、修正対象音素の誤りの可能性が高い。この場合、ユーザが、その発音および周辺の発音を苦手とする可能性があり、発音し易いと想定されかつ修正対象音素との隔たりが大きい音素を変更先の音素とする。つまり、変更先の音素を選択する場合に、修正音素対応表220および発音評価表210に基づき、音素に優先順序を付けて変更先の音素を選択することが好ましい。

高評価とは所定点数以上の評価点を有することであり、低評価とは所定点数未満の評価点を有することである。なお、所定点数は自然数である。

図8、図9のフローチャートにより変更先の音素を選択する処理を説明する。また、図10により音声認識文法例、音声認識の結果例、認識結果の履歴例を示す。

評価単語変更部213は、評価単語の修正対象音素を選択する(S601)。図10(E)に示す認識結果705の評価単語「ramp」の場合、修正対象音素は評価音素「r」の次の音素「ae」である。

次に、評価単語変更部213は、発音評価表210を参照して修正対象音素の学習状態を判定する(S602)。図4(A)に示す発音評価表210の例では、修正対象音素「ae」が未学習であることが示される。修正対象音素が未学習の場合、評価単語変更部213は、修正音素対応表220を参照して、未学習音素に対応する変更先の音素の候補配列を取得する(S603)。図7に示す修正音素対応表220の例によれば、未学習の修正対象音素「ae」に対応する変更先の音素として候補配列［Λ, e, i, u, …］が取得される。

また、修正対象音素が学習済みの場合、評価単語変更部213は、発音評価表210を参照して、当該音素の評価の高低を判定する(S604)。なお、所定の閾値を設定し、評価点＞閾値ならば評価を高、評価点≦閾値ならば評価を低と判定すればよい。

修正対象音素の学習が高評価の場合、評価単語変更部213は、高評価に対応する変更先の音素を取得する(S605)。図7に示す修正音素対応表220の例によれば、学習が高評価の修正対象音素「ae」に対応する変更先の音素として候補配列［ae, ei, ｉ:, ai, α:, au, …］が取得される。

また、修正対象音素の学習が低評価の場合、評価単語変更部213は、低評価に対応する変更先の音素を取得する(S606)。図7に示す修正音素対応表220の例によれば、学習が低評価の修正対象音素「ae」に対応する変更先の音素として候補配列［e, i, u, ⊃, …］が取得される。

次に、評価単語変更部213は、取得した候補配列から優先度が高い音素を選択する処理を行う。評価単語変更部213は、まず、カウンタjを0に初期化し(S607)、候補配列にj番目の音素が存在するか否か判定する(S608)。

候補配列にj番目の音素が存在する場合、評価単語変更部213は、発音評価表210を参照して、当該音素の学習状態の判定(S609)、当該音素の評価の判定(S610)を行う。そして、当該音素が学習済みかつ高評価の場合は、当該音素を変更先の音素に決定し(S612)、音素の選択処理を終了する。

また、候補配列のj番目の音素が未学習または高評価ではない場合、評価単語変更部213は、カウントjをインクリメントし(S611)、処理をステップS608に戻す。これは、学習済みかつ高評価の音素を優先的に選択するための処理である。

一方、候補配列の全音素を調べても学習済みかつ高評価の音素が抽出されなかった場合、評価単語変更部213は、カウンタjを0にリセットし(S613)、候補配列にj番目の音素が存在するか否かを判定する(S614)。

候補配列にj番目の音素が存在する場合、評価単語変更部213は、発音評価表210を参照して、当該音素の学習状態の判定(S615)、当該音素の評価の判定(S616)を行う。そして、当該音素が未学習かつマイナス評価ではない場合、当該音素を変更先の音素に決定し(S612)、音素の選択処理を終了する。

また、候補配列のj番目の音素が学習済みまたはマイナス評価の場合、評価単語変更部213は、カウントjをインクリメントし(S617)、処理をステップS614に戻す。これは、未学習かつマイナス評価ではない音素を優先的に選択するための処理である。

他方、候補配列の全音素を調べても未学習かつマイナス評価ではない音素が抽出されず、優先的に選択すべき音素が抽出されなかった場合、評価単語変更部213は、乱数R（正の整数）を発生する(S618)。そして、候補配列にR番目の音素が存在するか否かを判定し(S619)、R番目の音素が存在する場合は当該音素を変更先の音素に決定し(S612)、R番目の音素が存在しない場合は処理をステップS618に戻す。

なお、候補配列から優先的に選択すべき音素が抽出されず、ステップS614で候補配列にj番目の音素が存在しないと判定された場合はステップS618、S619の処理を行わなくてもよい。その場合、評価単語変更部213による評価単語の変更を行われずに、発音評価が繰り返される。

修正対象音素「ae」が未学習で、候補配列［Λ, e, i, u, …］が得られ、(1)学習済みかつ高評価、(2)未学習かつマイナス評価ではない、という優先順序で、変更先の音素「Λ」が選択されたと仮定する。この場合、評価音素「r」に変更先の音素「Λ」が連続する評価単語として例えば「wrap」が選択され、棄却単語として例えば「lap」が選択される。図10(A)は、これら評価単語と棄却単語から作成される音声認識文法を示す。なお、音声認識文法における音素記号は、大文字アルファベットを用いて示され、図10(A)において「AH」は発音記号「Λ」を表す。

なお、上記では、評価単語が最初に変更される際の、変更先の音素の選択処理を説明した。評価単語の変更が繰り返されると、変更後の評価単語の修正対象音素に応じて候補配列が更新され、当該候補配列から変更先の音素が選択される。その際、変更先の音素が過去に使用した音素に戻る可能性がある。これを避けるために、ステップS603、S605またはS606で取得した候補配列を保持し、変更先の音素として採用した音素を候補配列から除外して、変更先の音素の選択処理をステップS607から開始する。こうすれば、変更先の音素が過去に使用した音素に戻ることなく、次の変更先の音素を選択することができる。

例えば、候補配列が［Λ, e, i, u, …］の場合、「ae」「Λ」「e」の順で変更先の音素が選択され、図10(E)の例のように一回目が「ramp」「lamp」、二回目が「wrap」「lap」、三回目が「red」「led」になる。

このように「学習済みかつ高評価＞未学習かつマイナス評価ではない＞その他」の優先順に変更先の音素を選択することができる。

［変形例］
実施例1、2では、棄却単語を、評価単語中の評価音素を比較音素で置き換えた単語と説明した。しかし、評価単語に存在する評価音素以外の音素も、対応する比較音素と置き換えた単語を棄却単語に加えてもよい。例えば、評価音素が「l」で評価単語「bless」が選択された場合、評価音素「l」を比較音素「r」で置き換えるとともに、音素「s」を音素「θ」に置き換えた単語「breath」を棄却単語としてもよい。

また、棄却単語は、発音の誤りが複数存在する場合を考慮して、すべての音素から学習した音素モデル（ガベッジモデル）の音素列を棄却単語にしてもよい。

図10(B)は、評価単語「wrap」と、棄却単語としてガベッジモデル「GBG」の不特定数の繰り返しが選定された場合の音声認識文法を示す。また、図10(C)は、ガベッジモデルを一つの文法として記述した音声認識文法を示す。図10(B)の文法と図10(D)の文法を同時に適用すると、評価単語として「wrap」、棄却単語として「lap」とガベッジモデル「GBG」の不特定数の繰り返しが認識候補になり、その認識結果例が図10(D)に示される。図10(D)において、一位が「wrap」、二位が四連続の「GBG」、三位が三連続の「GBG」になり、棄却単語の「lap」は候補として選択されていない。

比較音素に置き換えた棄却単語と、ガベッジモデルの棄却単語を併用する利点は、評価単語とまったくかけ離れた発音が行われた場合にある。その場合、評価単語や比較音素に置き換えた棄却単語よりも、ガベッジモデルの方に近いと判定され、当該発音を判定対象外として処理することができる。ただし、図10(D)の認識結果例のように、棄却単語「lap」よりもガベッジモデルの方が近いと判断されることもあり、一概に対象外とはできない。また、評価単語や比較音素に置き換えた棄却単語よりも、ガベッジモデルの方が近いと判断さることもあるので、評価単語の変更が有効である。

以下、本発明にかかる実施例3の情報処理を説明する。なお、実施例3において、実施例1、2と略同様の構成については、同一符号を付して、その詳細説明を省略する。

実施例3では、学習すべき音素（評価音素）を選択する場合に、発音評価表210に基づき音素に優先順序を付けて評価音素を選択する例を説明する。

図11のフローチャートにより実施例3における評価音素の選択処理を説明する。なお、図4に示す発音評価表210に含まれる各レコードの番号をj（正の整数）で表す。

評価音素選択部206は、カウンタjを0に初期化し(S801)、発音評価表210にj番目のレコードがあるか否かを判定する(S802)。j番目のレコードがある場合、評価音素選択部206は、当該レコードの音素の学習状態を判定し(S803)、未学習の場合は、当該音素を評価音素に決定し(S809)、評価音素の選択処理を終了する。

また、j番目のレコードの音素が学習済みの場合、評価音素選択部206は、カウントjをインクリメントし(S804)、処理をステップS802に戻す。これは、未学習の音素を優先的に選択するための処理である。

一方、発音評価表210の全レコードを調べても未学習の音素が抽出されなかった場合、評価音素選択部206は、カウンタjを0にリセットし(S805)、発音評価表210にj番目のレコードがあるか否かを判定する(S806)。j番目のレコードがある場合、評価音素選択部206は、当該レコードの音素の評価を判定し(S807)、当該音素が低評価の場合、当該音素を評価音素に決定し(S809)、評価音素の選択処理を終了する。

また、j番目のレコードの音素が高評価の場合、評価音素選択部206は、カウントjをインクリメントし(S808)、処理をステップS806に戻す。これは、学習済みかつ低評価の音素を優先的に選択するための処理である。

他方、発音評価表210の全レコードを調べても低評価の音素が抽出されなかった場合、評価音素選択部206は、評価音素の選択処理を終了する。これは、すべての音素について学習済みかつ高評価の場合のパスである。なお、すべての音素について学習済みかつ高評価の場合は、評価点の低い音素を評価音素に決定したり、評価音素をランダムに決定してもよい。

このように「未学習＞低評価＞その他」の優先順に評価音素を選択することができる。

以下、本発明にかかる実施例4の情報処理を説明する。なお、実施例4において、実施例1-3と略同様の構成については、同一符号を付して、その詳細説明を省略する。

実施例4では、ユーザの学習レベルを設定し、学習レベルに連動して学習すべき音素を選択する例を説明する。

図12のブロック図により実施例4の発音評価装置の処理構成例を示す。この処理構成は、CPU101が発音評価処理用のプログラムを実行することによって実現される。

ユーザ学習レベル管理部230は、ユーザごとの学習レベルを管理する。学習レベル別発音評価音素表231は、学習レベルごとに学習すべき音素が記録されたテーブルである。なお、学習レベル別発音評価音素表231は、NVRAM103の所定領域に割り当てられる。

図13のフローチャートにより学習レベル別の評価音素の選択処理を説明する。なお、図11に示す評価音素の選択処理と同様に処理には同一符号を付して、その詳細説明を省略する場合がある。

評価音素選択部206は、ユーザ学習レベル管理部230からユーザの学習レベルを取得し(S901)、ユーザの発音評価表210を取得する(S902)。

次に、評価音素選択部206は、カウンタjを0に初期化し(S801)、ユーザの発音評価表210にj番目のレコードがあるか否かを判定する(S802)。j番目のレコードがある場合、評価音素選択部206は、学習レベル別発音評価音素表231を参照する、当該レコードの音素がユーザの学習レベルに対応する評価音素か否かの判定(S903)、当該音素の学習状態の判定(S803)を行う。そして、当該音素がユーザの学習レベルに対応する評価音素（以下、学習レベル対応音素）かつ未学習の場合、当該音素を評価音素に決定し(S809)、評価音素の選択処理を終了する。

また、j番目のレコードの音素が学習レベル対応音素ではない、または、学習済みの場合、評価音素選択部206は、カウントjをインクリメントし(S804)、処理をステップS802に戻す。これは、学習レベル対応音素のうち、未学習の音素を優先的に選択するための処理である。

一方、ユーザの発音評価表210の全レコードを調べても学習レベル対応音素かつ未学習の音素が抽出されなかった場合、評価音素選択部206は、カウンタjを0にリセットする(S805)。そして、ユーザの発音評価表210にj番目のレコードがあるか否かを判定する(S806)。j番目のレコードがある場合、評価音素選択部206は、当該レコードの音素が学習レベル対応音素か否かの判定(S904)、当該音素の評価を判定(S807)を行う。そして、当該音素が学習レベル対応音素かつ低評価の場合、当該音素を評価音素に決定し(S809)、評価音素の選択処理を終了する。

また、j番目のレコードの音素が学習レベル対応音素ではない、または、高評価の場合、評価音素選択部206は、カウントjをインクリメントし(S808)、処理をステップS806に戻す。これは、学習レベル対応音素のうち、学習済みかつ低評価の音素を優先的に選択するための処理である。

他方、発音評価表210の全レコードを調べても学習レベル対応音素かつ低評価の音素が抽出されなかった場合、評価音素選択部206は、ユーザの学習レベルを一段階上げる旨をユーザ学習レベル管理部230に指示する(S905)。そして、処理をステップS901に戻す。

図14により学習レベル別発音評価音素表231の一例を示す。ユーザの学習レベルが「1」（初級レベル）ならば評価音素は例えば［e, i, u, ei, oi, ｉ:, …」に限定され、ユーザの学習が進むに連れて学習レベルが「2、3、…」のように上り、より発音が難しい評価音素が割り当てられる。

このように、ユーザの学習レベルに連動して学習すべき音素を選択することができる。なお、発音評価装置のユーザが一人に限定される場合、発音評価表210は当該ユーザ分の一つのテーブルで充分である。

［その他の実施例］
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記録媒体を介してシステム或いは装置に供給し、そのシステムあるいは装置のコンピュータ（又はCPUやMPU等）がプログラムを読み出して実行する処理である。

Claims

発音評価を行う情報処理装置であって、
評価音素を選択する選択手段と、
前記評価音素を含む評価単語を作成する第一の作成手段と、
前記評価単語を変更する変更手段と、
前記作成または変更された評価単語に含まれる評価音素を、前記評価音素と発音を区別する比較音素に置き換えた棄却単語を作成する第二の作成手段と、
前記評価単語と前記棄却単語から音声認識文法を作成する第三の作成手段と、
前記音声認識文法に基づきユーザの発音を音声認識し、前記音声認識の結果の履歴情報を記録する認識手段と、
前記履歴情報を参照して前記発音評価を制御する制御手段とを有する情報処理装置。
さらに、ユーザの発音評価情報を管理する管理手段を有し、前記選択手段はユーザの発音評価情報に基づき前記評価音素を選択する請求項1に記載された情報処理装置。
前記選択手段は、前記発音評価情報を参照して、未学習または評価点が所定点数未満の低評価の音素を優先的に前記評価音素として選択する請求項2に記載された情報処理装置。
さらに、ユーザの学習レベルを管理するレベル管理手段を有し、前記選択手段は、ユーザの発音評価情報および学習レベルごとに学習すべき音素が記録されたテーブルを参照して、前記ユーザの学習レベルに対応しかつ未学習の音素を優先的に前記評価音素として選択する請求項2または請求項3に記載された情報処理装置。
前記選択手段は、前記ユーザの学習レベルに対応する未学習の音素がない場合、前記発音評価情報およびテーブルを参照して、前記ユーザの学習レベルに対応しかつ前記低評価の音素を優先的に前記評価音素として選択する請求項4に記載された情報処理装置。
前記レベル管理手段は、前記ユーザの学習レベルに対応する前記低評価の音素がない場合、前記ユーザの学習レベルを一段階上げる請求項5に記載された情報処理装置。
前記変更手段は、前記音声認識の結果が示す修正対象音素に基づき前記評価単語を変更し、前記修正対象音素は前記評価音素以外の音素である請求項2に記載された情報処理装置。
前記修正対象音素は、前記評価音素が子音の場合は前記評価単語における当該評価音素の次の音素、前記評価音素が母音の場合は前記評価単語における当該評価音素の前の音素である請求項7に記載された情報処理装置。
前記変更手段は、前記修正対象音素と変更先の音素の対応を示すテーブルを参照して、前記評価単語を変更する請求項7または請求項8に記載された情報処理装置。
前記変更手段は、前記修正対象音素の学習状態および評価点に基づき前記テーブルから変更先の音素の候補配列を取得し、前記発音評価情報を参照して、前記候補配列に含まれる学習済みかつ評価点が所定点数以上の高評価の音素を優先的に選択して前記評価単語を変更する請求項9に記載された情報処理装置。
前記変更手段は、前記候補配列に学習済みかつ前記高評価の音素が含まれない場合、前記候補配列に含まれる未学習かつマイナス評価ではない音素を優先的に選択して前記評価単語を変更する請求項10に記載された情報処理装置。
前記変更手段は、前記候補配列に未学習かつマイナス評価ではない音素が含まれない場合、前記候補配列に含まれる音素をランダムに選択して前記評価単語を変更する請求項11に記載された情報処理装置。
前記音声認識の結果は、前記評価音素に対するユーザの発音の正解、不正解を前記認識手段が判定した結果を含み、前記制御手段は、前記履歴情報に含まれる正解に対応する音声認識の結果の数が所定の閾値未満の場合、前記変更手段に前記評価単語を変更させる請求項2に記載された情報処理装置。
前記制御手段は、前記正解に対応する音声認識の結果の数が前記閾値に達すると、前記管理手段に前記発音評価情報を更新させる請求項13に記載された情報処理装置。
前記管理手段は、前記発音評価情報における前記評価音素の評価点に前記正解に対応する音声認識の結果の数を加算する請求項14に記載された情報処理装置。
前記管理手段は、前記履歴情報に含まれる不正解に対応する音声認識の結果が示す修正対象音素について、前記発音評価情報における当該修正対象音素の評価点を減ずる請求項14または請求項15に記載された情報処理装置。
選択手段、第一から第三の作成手段、変更手段、認識手段、制御手段を有し、発音評価を行う情報処理装置の情報処理方法であって、
前記選択手段が、評価音素を選択し、
前記第一の作成手段が、前記評価音素を含む評価単語を作成し、
前記変更手段が、前記評価単語を変更し、
前記第二の作成手段が、前記作成または変更された評価単語に含まれる評価音素を、前記評価音素と発音を区別する比較音素に置き換えた棄却単語を作成し、
前記第三の作成手段が、前記評価単語と前記棄却単語から音声認識文法を作成し、
前記認識手段が、前記音声認識文法に基づきユーザの発音を音声認識し、前記音声認識の結果の履歴情報を記録し、
前記制御手段が、前記履歴情報を参照して前記発音評価を制御する情報処理方法。
コンピュータを請求項1から請求項16の何れか一項に記載された情報処理装置の各手段として機能させるためのプログラム。
請求項18に記載されたプログラムが記録されたコンピュータが読み取り可能な記録媒体。