JP2006178334A

JP2006178334A - 語学学習システム

Info

Publication number: JP2006178334A
Application number: JP2004373815A
Authority: JP
Inventors: Naohiro Emoto; 直博江本
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2004-12-24
Filing date: 2004-12-24
Publication date: 2006-07-06
Also published as: KR20060073502A; KR100659212B1; CN100585663C; CN1794315A

Abstract

【課題】学習者に似た模範音声を用いて学習することが可能な語学楽手装置を提供すること。
【解決手段】本発明は、話者の音声から抽出した特徴量と、その話者の音声データとを対応付けて記録したデータベースと、学習者の音声を取得する音声取得手段と、前記音声取得手段が取得した音声から、前記学習者の音声の特徴量を抽出する特徴量抽出手段と、前記データベースに記録された特徴量と、前記特徴量抽出手段により抽出された特徴量との差を示す近似度指数を算出する近似度算出手段と、前記データベースから、前記近似度算出手段により算出された近似度指数が第１の条件を満足する特徴量と対応付けられた音声データを抽出する音声データ抽出手段と、前記音声データ抽出手段により抽出された音声データに従って音声を出力する再生手段とを有する語学学習システムを提供する。
【選択図】図１

Description

本発明は、語学学習を支援する語学学習システムに関する。

外国語あるいは母国語の語学学習、特に、発音あるいは発話の独習においては、ＣＤ（Compact Disk）等の記録媒体に記録された模範音声を再生し、その模範音声の真似をして発音あるいは発話するという学習方法が広く用いられている。これは模範音声の真似をすることで正しい発音を身につけることを目的とするものである。ここで、学習をより効果的に進めるためには、模範音声と自分の音声との差を評価する必要がある。しかし、ＣＤに記録された模範音声は、ある特定のアナウンサーやネイティブスピーカーの音声である場合がほとんどである。すなわち、多くの学習者にとってこれらの模範音声は、自分の音声とはまったく異なる特徴を有する音声により発せられるものであるため、模範音声と比較して自分の発音がどの程度正確にできているかという評価が困難であるという問題があった。

このような問題を解決する技術として、例えば特許文献１、２に記載の技術がある。特許文献１に記載の技術は、模範音声にユーザの抑揚、話速、声質等のパラメータを反映させて、模範音声をユーザ音声に似た音声に変換するものである。特許文献２に記載の技術は、複数の模範音声の中から、学習者が任意のものを選択可能とするものである。
特開２００２−２４４５４７号公報特開２００４−１３３４０９号公報

しかし、特許文献１に記載の技術によればイントネーションの較正は可能であるものの、例えば英語における「ｒとｌ」や「ｓとｔｈ」など明らかに発音が異なるものの較正を行うことは困難であるという問題があった。さらに、音声波形に対して修正を施すため、処理が複雑になるという問題もあった。また、特許文献２の記載の技術においては、模範音声を選択する方式であるために、学習者が自ら模範音声を選択する必要があり、煩雑であるという問題があった。

本発明は上述の事情に鑑みてなされたものであり、より簡単な処理で学習者に似た模範音声を用いて学習することが可能な語学学習装置を提供することを目的とする。

上述の課題を解決するため、本発明は、話者の音声から抽出した特徴量と、その話者の１または複数の音声データとを対応付けたデータを複数の話者について記録したデータベースと、学習者の音声を取得する音声取得手段と、前記音声取得手段が取得した音声から、前記学習者の音声の特徴量を抽出する特徴量抽出手段と、前記データベースに記録された複数の話者の特徴量と、前記特徴量抽出手段により抽出された特徴量との差を示す近似度指数を話者毎に算出する近似度算出手段と、前記データベースから、前記近似度算出手段により算出された近似度指数が第１の条件を満足する特徴量と対応付けられた１の音声データを抽出する音声データ抽出手段と、前記音声データ抽出手段により抽出された１の音声データに従って音声を出力する再生手段とを有する語学学習システムを提供する。

好ましい態様において、この語学学習システムは、前記第１の条件が、近似度が最も高いものを抽出するという条件であってもよい。
別の好ましい態様において、この語学学習システムは、前記抽出手段により抽出された音声データの話速を変換する話速変換手段をさらに有し、前記再生手段が、前記話速変換手段により話速変換された音声データに従って音声を出力してもよい。
さらに別の好ましい態様において、この語学学習システムは、模範音声を記憶する記憶手段と、前記模範音声と、前記音声取得手段により取得された学習者の音声を比較し、両者の近似度を数値化する比較手段と、前記比較手段により得られた近似度が第２の条件を満たしている場合、前記取得手段により取得された学習者の音声を、前記特徴量抽出手段により抽出された特徴量と対応付けて前記データベースに追加するデータベース更新手段とをさらに有してもよい。

本発明によれば、学習者と似た声の特徴を有する話者により発せられた音声が、学習における例文の音声として再生される。したがって学習者は、真似すべき（目標とすべき）発音をより正確に認識することができ、これにより学習効率を向上させることができる。

以下、図面を参照して本発明の実施形態について説明する。
＜１．構成＞
図１は、本発明の第１実施形態に係る語学学習システム１の機能構成を示すブロック図である。記憶部１１は、話者の音声から抽出した特徴量と、その話者による音声の音声データとを対応付けて記録したデータベースＤＢ１を記憶している。入力部１２は、学習者（ユーザ）の音声を取得し、ユーザ音声データとして出力する。特徴抽出部１３は、学習者の音声から特徴量を抽出する。音声データ抽出部１４は、特徴抽出部１３により抽出された特徴量と、データベースＤＢ１に記録されている特徴量とを比較し、あらかじめ決められた条件を満足するものを抽出する。音声データ抽出部１４はさらに、抽出された特徴量に対応付けられている音声データを抽出する。再生部１５は、音声データ抽出部１４により抽出された音声データを再生する。

データベースＤＢ１の詳細な内容については後述するが、語学学習システム１はさらに、データベースＤＢ１を更新するために以下の構成要素を有している。記憶部１６は、語学学習のお手本となる模範音声データとその模範音声のテキストデータとを対応付けて記録した模範音声データベースＤＢ２を記憶している。比較部１７は、入力部１２により取得されたユーザ音声データと、記憶部１６に記憶された模範音声データとの比較を行う。比較の結果、ユーザ音声があらかじめ決められた条件を満足すると、ＤＢ更新部１８はユーザ音声データをデータベースＤＢ１に追加する。

図２は、データベースＤＢ１の内容を例示する図である。データベースＤＢ１には、話者を特定する識別子である話者ＩＤ（図２では「ＩＤ００１」）と、その話者の音声データから抽出した特徴量とが記録されている。データベースＤＢ１にはさらに、例文を特定する識別子である例文ＩＤと、その例文の音声データと、その例文の発音レベル（後述する）とが対応付けて記録されている。データベースＤＢ１は、例文ＩＤ、音声データ、および発音レベルからなるデータセットを複数有しており、各データセットは音声データの話者に与えられた話者ＩＤと対応付けて記録されている。すなわち、データベースＤＢ１は、複数の話者による複数の例文の音声データを有しており、これらのデータは話者ＩＤおよび特徴量によって話者毎に対応付けられて記録されている。

図３は、語学学習システム１のハードウェア構成を示すブロック図である。ＣＰＵ（Central Processing Unit）１０１は、ＲＡＭ（Random Access Memory）１０２を作業エリアとして、ＲＯＭ（Read Only Memory）１０３あるいはＨＤＤ（Hard Disk Drive）１０４に記憶されているプログラムを読み出して実行する。ＨＤＤ１０４は、各種アプリケーションプログラムやデータを記憶する記憶装置である。また、ＨＤＤ１０４は、データベースＤＢ１および模範音声データベースＤＢ２も記憶する。ディスプレイ１０５は、ＣＲＴ（Cathode Ray Tube）やＬＣＤ（Liquid Crystal Display）等、ＣＰＵ１０１の制御下で文字や画像を表示する表示装置である。マイク１０６は、ユーザの音声を取得するための集音装置であり、ユーザの発した音声に対応する音声信号を出力する。音声処理部１０７は、マイク１０６により出力されたアナログ音声信号をデジタル音声データに変換する機能や、ＨＤＤ１０４に記憶された音声データを音声信号に変換してスピーカ１０８に出力する機能を有する。また、ユーザはキーボード１０９を操作することにより、語学学習システム１に対して指示入力を行うことができる。以上で説明した各構成要素は、バス１１０を介して相互に接続されている。また、語学学習システム１は、Ｉ／Ｆ（インターフェース）１１１を介して他の機器と通信を行うことができる。

＜２．動作＞
続いて、本実施形態に係る語学学習システム１の動作について説明する。ここでは、まず例文の音声を再生する動作について説明した後に、データベースＤＢ１の内容を更新する動作について説明する。語学学習システム１において、ＣＰＵ１０１がＨＤＤ１０４に記憶された語学学習プログラムを実行することにより図１に示される機能を有する。また、学習者（ユーザ）は、語学学習プログラムの開始時等にキーボード１０９を操作して自分を特定する識別子であるユーザＩＤを入力する。ＣＰＵ１０１は、入力されたユーザＩＤを現在システムを使用している学習者のユーザＩＤとしてＲＡＭ１０２に記憶する。

＜２−１．音声再生＞
図４は、語学学習システム１の動作を示すフローチャートである。語学学習プログラムを実行すると、語学学習システム１のＣＰＵ１０１は、模範音声データベースＤＢ２を検索して利用可能な例文のリストを作成する。ＣＰＵ１０１は、このリストに基づいて、ディスプレイ１０５上に例文の選択を促すメッセージを表示する。ユーザはディスプレイ１０５上に表示されたメッセージに従い、リストにある例文から１の例文を選択する。ＣＰＵ１０１は選択された例文の音声を再生する（ステップＳ１０１）。具体的には、ＣＰＵ１０１は例文の模範音声データを模範音声データベースＤＢ２から読み出し、読み出した模範音声データを音声処理部１０７に出力する。音声処理部１０７は入力された模範音声データをデジタル／アナログ変換してアナログ音声信号としてスピーカ１０８に出力する。こうしてスピーカ１０８から模範音声が再生される。

ユーザはスピーカ１０８から再生された模範音声を聞き、マイク１０６に向かって模範音声を真似して例文を発声する。すなわち、ユーザ音声の入力が行われる（ステップＳ１０２）。具体的には次のとおりである。模範音声の再生が終了すると、ＣＰＵ１０１は、「次はあなたの番です。例文を発音してください」等、ユーザに例文の発生を促すメッセージをディスプレイ１０５に表示する。さらにＣＰＵ１０１は、「スペースキーを押してから発音し、発音が終わったらもう一度スペースキーを押してください」等、ユーザ音声の入力を行うための操作を指示するメッセージをディスプレイ１０５に表示する。ユーザは、ディスプレイ１０５に表示されたメッセージに従ってキーボード１０９を操作し、ユーザ音声の入力を行う。すなわち、キーボード１０９のスペースキーを押した後に、マイク１０６に向かって例文を発声する。発声が終了したら、ユーザはもう一度スペースキーを押す。

ユーザの音声はマイク１０６により電気信号に変換される。マイク１０６は、ユーザ音声信号を出力する。ユーザ音声信号は、音声処理部１０７によりデジタル音声データに変換され、ユーザ音声データとしてＨＤＤ１０４に記録される。ＣＰＵ１０１は、模範音声の再生が完了した後、スペースキーの押下をトリガとしてユーザ音声データの記録を開始し、再度のスペースキーの押下をトリガとしてユーザ音声データの記録を終了する。すなわち、ユーザが最初にスペースキーを押してから、もう一度スペースキーを押すまでの間のユーザ音声がＨＤＤ１０４に記録される。

続いてＣＰＵ１０１は、得られたユーザ音声データに対して特徴量抽出処理を行う（ステップＳ１０３）。具体的には次のとおりである。ＣＰＵ１０１は、音声データをあらかじめ決められた時間（フレーム）毎に分割する。ＣＰＵ１０１は、フレームに分解された模範音声データが示す波形およびユーザ音声信号が示す波形をフーリエ変換して得られた振幅スペクトルの対数を求め、それをフーリエ逆変換してフレームごとのスペクトル包絡を得る。ＣＰＵ１０１は、こうして得られたスペクトル包絡から第１フォルマントおよび第２フォルマントのフォルマント周波数を抽出する。一般に母音は第１および第２フォルマントの分布により特徴付けられる。ＣＰＵ１０１は、音声データの先頭から、フレーム毎に得られたフォルマント周波数の分布を、あらかじめ決められた母音（例えば「ａ」）のフォルマント周波数分布とマッチングを行う。マッチングによりそのフレームが母音「ａ」に相当するものであると判断されると、ＣＰＵ１０１は、そのフレームにおけるフォルマントのうち、あらかじめ決められたフォルマント（例えば、第１、第２、第３の３つのフォルマント）のフォルマント周波数を算出する。ＣＰＵ１０１は、算出したフォルマント周波数を、ユーザの音声の特徴量ＰとしてＲＡＭ１０２に記憶する。

続いてＣＰＵ１０１は、データベースＤＢ１から、このユーザの音声の特徴量Ｐと似た特徴量と対応付けられている音声データを抽出する（ステップＳ１０４）。具体的には、抽出された特徴量ＰとデータベースＤＢ１に記録された特徴量とを比較し、特徴量Ｐと最も近似するものを特定する。比較においては、例えば、特徴量ＰとデータベースＤＢ１との間で第１〜第３フォルマント周波数の値の差を算出し、さらに３つのフォルマント周波数の差の絶対値を足し合わせた量を両者の近似度を示す近似度指数として算出する。ＣＰＵ１０１は、算出した近似度指数が最も小さいもの、すなわち特徴量Ｐと最も近似する特徴量をデータベースＤＢ１から特定する。ＣＰＵ１０１はさらに、特定された特徴量と対応付けられている音声データを抽出し、抽出した音声データをＲＡＭ１０２に記憶する。

続いてＣＰＵ１０１は、音声データの再生を行う（ステップＳ１０５）。具体的には次のとおりである。ＣＰＵ１０１は音声データを音声処理部１０７に出力する。音声処理部１０７は、入力された音声データをデジタル／アナログ変換して音声信号としてスピーカ１０８に出力する。こうして、抽出された音声データはスピーカ１０８から音声として
再生される。ここで、音声データは特徴量のマッチングにより抽出されたものであるので、再生された音声は、学習者の音声と特徴が似た音声となっている。したがって、学習者は、自分とはまったく異なる声の特徴を有する話者（アナウンサー、ネイティブスピーカー等）により発せられた音声を聞くだけでは真似をすることが困難であった例文であっても、自分とよく似た声の特徴を有する話者により発せられた音声であれば、真似すべき発音をより正しく理解することができ、学習効率を向上させることができる

＜２−２．データベース更新＞
続いて、データベースＤＢ１の更新動作について説明する。
図５は、語学学習システム１におけるデータベースＤＢ１の更新動作を示すフローチャートである。まず、上述のステップＳ１０１〜Ｓ１０２の処理により、模範音声の再生およびユーザ音声の入力が行われる。続いてＣＰＵ１０１は、模範音声とユーザ音声の比較処理を行う（ステップＳ２０１）。具体的には次のとおりである。ＣＰＵ１０１は、模範音声データが示す波形をあらかじめ決められた時間（フレーム）ごとに分割する。また、ＣＰＵ１０１は、ユーザ音声データが示す波形についてもフレームごとに分割する。ＣＰＵ１０１は、フレームに分解された模範音声データが示す波形およびユーザ音声信号が示す波形をフーリエ変換して得られた振幅スペクトルの対数を求め、それをフーリエ逆変換してフレームごとのスペクトル包絡を得る。

図６は、模範音声（上）およびユーザ音声（下）のスペクトル包絡を例示する図である。図６に示されるスペクトル包絡は、フレームＩ〜フレームＩＩＩの３つのフレームから構成されている。ＣＰＵ１０１は、得られたスペクトル包絡をフレームごとに比較し、両者の近似度を数値化する処理を行う。近似度の数値化（近似度指数の算出）は、例えば以下のように行う。ＣＰＵ１０１は、特徴的なフォルマントの周波数とスペクトル密度とをスペクトル密度−周波数図に表したときの２点間の距離を音声データ全体について足し合わせたものを近似度指数として算出してもよい。あるいは、特定の周波数におけるスペクトル密度の差を音声データ全体について積分したものを近似度指数として算出してもよい。なお、模範音声とユーザ音声とは長さ（時間）が異なるのが通常であるので、上述の処理に先立ち両者の長さを揃える処理を行うことが好ましい。

再び図５を参照して説明する。ＣＰＵ１０１は、算出した近似度指数に基づいて、データベースＤＢ１の更新を行うか否か判断する（ステップＳ２０２）。具体的には次のとおりである。ＨＤＤ１０４には、取得した音声データをデータベースＤＢ１に追加登録するための条件があらかじめ記憶されている。ＣＰＵ１０１は、ステップＳ２０１で算出した近似度指数がこの登録条件を満足するかどうか判断する。登録条件が満足された場合（ステップＳ２０２：ＹＥＳ）、ＣＰＵ１０１は、処理を後述するステップＳ２０３へと進める。登録条件が満足されない場合（ステップＳ２０２：ＮＯ）、ＣＰＵ１０１は処理を終了する。

登録条件が満足された場合、ＣＰＵ１０１はデータベース更新処理を行う（ステップＳ２０３）。具体的には次のとおりである。ＣＰＵ１０１は、登録条件を満足した音声データに、この音声データの話者である学習者（ユーザ）を特定するユーザＩＤを付与する。ＣＰＵ１０１は、模範音声データベースＤＢ２からユーザＩＤと同一のユーザＩＤを検索し、音声データをこのユーザＩＤと対応つけて模範音声データベースＤＢ２に追加登録する。ＣＰＵ１０１は、更新要求から抽出したユーザＩＤが模範音声データベースＤＢ２に登録されていなかった場合は、このユーザＩＤを追加登録し、このユーザＩＤに対応つけて音声データを登録する。このようにして、データベースＤＢ１に学習者の音声データが追加登録され、更新される。

以上で説明したデータベース更新動作は、前述の音声再生動作と平行して行われてもよいし、音声再生動作の完了後に行われてもよい。こうして、学習者の音声データが順次データベースＤＢ１に追加されて行くことで、データベースＤＢ１には数多くの話者の音声データが蓄積されることとなる。したがって、語学学習システム１が使用されるにつれデータベースＤＢ１に多くの話者の音声データが登録されていき、同時に新しい学習者が語学学習システム１を使用する際にも自分と特徴の似た音声が再生される確率が高くなっていく。

＜３．変形例＞
本発明は上述の実施形態に限定されるものではなく、種々の変形実施が可能である。
＜３−１．変形例１＞
上述の実施形態において、ステップＳ１０４で抽出した音声データをＲＡＭ１０２に記憶した後、ＣＰＵ１０１は、音声データに対して話速変換処理を行ってもよい。具体的には次のとおりである。ＲＡＭ１０２は、話速変換処理の前後における話速比率を指定する変数ａをあらかじめ記憶している。ＣＰＵ１０１は、抽出した音声データに対して、音声の時間（音声データの先頭から末尾までの再生に要する時間）をａ倍する処理を行う。ａ＞１の場合は話速変換処理により音声の長さが伸びる。すなわち、話速は遅くなる。逆に、ａ＜１の場合は話速変換処理により音声の長さは縮む。すなわち、話速は速くなる。本実施形態において、変数ａの初期値として１より大きい値が設定されている。したがって、模範音声が再生され、続いてユーザ音声が入力された後、ユーザ音声と似た音声で再生される例文は、模範音声よりもゆっくりと再生される。したがって、学習者は、真似すべき発音（目標とすべき発音）をより明確に認識することができる。

＜３−２．変形例２＞
上述の実施形態では、ステップＳ１０４において、学習者（ユーザ）の音声から抽出した特徴量と最も近似する特徴量と対応付けられた音声データを抽出したが、音声データを抽出する条件は学習者の音声の特徴量と最も近似するものに限定されない。例えば、データベースＤＢ１において、例文の音声データと対応付けてその音声の発話レベル（模範音声との近似度を示す指数。発話レベルの高いものはより模範音声に近似している）を記録しておき、この発話レベルを音声データ選択の条件に組み込んでもよい。具体的な条件としては例えば、発話レベルがある一定レベル以上のもののなかから、特徴量が最も近似するものを抽出するという条件でもよい。あるいは、特徴量の近似度がある値以上のもののなかから、発話レベルが最も高いものを抽出するという条件でもよい。発話レベルは、例えばステップＳ２０１における近似度指数の算出と同様に行えばよい。

＜３−３．変形例３＞
また、システムの構成は、上述の実施形態で説明したものに限定されない。語学学習システム１がネットワークを介してサーバ装置に接続されており、上述の語学学習システムの機能のうち一部を、サーバ装置に担わせてもよい。
さらに、上述の実施形態においては、ＣＰＵ１０１が語学学習プログラムを実行することにより語学学習システムとしての機能がソフトウェア的に実現されたが、図１に示される機能構成要素に相当する電子回路等を用い、ハードウェア的にシステムを実現してもよい。

＜３−４．変形例４＞
上述の実施形態においては、話者の音声の特徴量として第１〜第３フォルマントのフォルマント周波数を用いる態様について説明したが、音声の特徴量はフォルマント周波数に限定されるものではない。スペクトログラム等、他の音声解析方法に基づいて算出した特徴量であってもよい。

本発明の第１実施形態に係る語学学習システム１の機能構成を示すブロック図である。データベースＤＢ１の内容を例示する図である。語学学習システム１のハードウェア構成を示すブロック図である。語学学習システム１の動作を示すフローチャートである。語学学習システム１におけるデータベースＤＢ１の更新動作を示すフローチャートである。模範音声（上）およびユーザ音声（下）のスペクトル包絡を例示する図である。

符号の説明

１…語学学習システム、２…語学学習システム、１１…記憶部、１２…入力部、１３…特徴抽出部、１４…音声データ抽出部、１５…再生部、１６…記憶部、１７…比較部、１８…ＤＢ更新部、２１…話速変換部、１０１…ＣＰＵ、１０２…ＲＡＭ、１０４…ＨＤＤ、１０５…ディスプレイ、１０６…マイク、１０７…音声処理部、１０８…スピーカ、１０９…キーボード、１１０…バス、１１１…Ｉ／Ｆ

Claims

話者の音声から抽出した特徴量と、その話者の１または複数の音声データとを対応付けたデータを複数の話者について記録したデータベースと、
学習者の音声を取得する音声取得手段と、
前記音声取得手段が取得した音声から、前記学習者の音声の特徴量を抽出する特徴量抽出手段と、
前記データベースに記録された複数の話者の特徴量と、前記特徴量抽出手段により抽出された特徴量との差を示す近似度指数を話者毎に算出する近似度算出手段と、
前記データベースから、前記近似度算出手段により算出された近似度指数が第１の条件を満足する特徴量と対応付けられた１の音声データを抽出する音声データ抽出手段と、
前記音声データ抽出手段により抽出された１の音声データに従って音声を出力する再生手段と
を有する語学学習システム。
前記第１の条件が、近似度が最も高いものを抽出するという条件であることを特徴とする請求項１に記載の語学学習システム。
前記抽出手段により抽出された音声データの話速を変換する話速変換手段をさらに有し、
前記再生手段が、前記話速変換手段により話速変換された音声データに従って音声を出力する
ことを特徴とする請求項１に記載の語学学習システム。
模範音声を記憶する記憶手段と、
前記模範音声と、前記音声取得手段により取得された学習者の音声を比較し、両者の近似度を数値化する比較手段と、
前記比較手段により得られた近似度が第２の条件を満たしている場合、前記取得手段により取得された学習者の音声を、前記特徴量抽出手段により抽出された特徴量と対応付けて前記データベースに追加するデータベース更新手段と
をさらに有する請求項１に記載の語学学習システム。