[go: up one dir, main page]

JP2006178334A - 語学学習システム - Google Patents

語学学習システム Download PDF

Info

Publication number
JP2006178334A
JP2006178334A JP2004373815A JP2004373815A JP2006178334A JP 2006178334 A JP2006178334 A JP 2006178334A JP 2004373815 A JP2004373815 A JP 2004373815A JP 2004373815 A JP2004373815 A JP 2004373815A JP 2006178334 A JP2006178334 A JP 2006178334A
Authority
JP
Japan
Prior art keywords
voice
database
extracted
language learning
approximation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004373815A
Other languages
English (en)
Inventor
Naohiro Emoto
直博 江本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2004373815A priority Critical patent/JP2006178334A/ja
Priority to CN200510132618A priority patent/CN100585663C/zh
Priority to KR1020050128485A priority patent/KR100659212B1/ko
Publication of JP2006178334A publication Critical patent/JP2006178334A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/06Foreign languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/04Electrically-operated educational appliances with audible presentation of the material to be studied
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/06Electrically-operated educational appliances with both visual and audible presentation of the material to be studied

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

【課題】 学習者に似た模範音声を用いて学習することが可能な語学楽手装置を提供すること。
【解決手段】 本発明は、話者の音声から抽出した特徴量と、その話者の音声データとを対応付けて記録したデータベースと、学習者の音声を取得する音声取得手段と、前記音声取得手段が取得した音声から、前記学習者の音声の特徴量を抽出する特徴量抽出手段と、前記データベースに記録された特徴量と、前記特徴量抽出手段により抽出された特徴量との差を示す近似度指数を算出する近似度算出手段と、前記データベースから、前記近似度算出手段により算出された近似度指数が第1の条件を満足する特徴量と対応付けられた音声データを抽出する音声データ抽出手段と、前記音声データ抽出手段により抽出された音声データに従って音声を出力する再生手段とを有する語学学習システムを提供する。
【選択図】 図1

Description

本発明は、語学学習を支援する語学学習システムに関する。
外国語あるいは母国語の語学学習、特に、発音あるいは発話の独習においては、CD(Compact Disk)等の記録媒体に記録された模範音声を再生し、その模範音声の真似をして発音あるいは発話するという学習方法が広く用いられている。これは模範音声の真似をすることで正しい発音を身につけることを目的とするものである。ここで、学習をより効果的に進めるためには、模範音声と自分の音声との差を評価する必要がある。しかし、CDに記録された模範音声は、ある特定のアナウンサーやネイティブスピーカーの音声である場合がほとんどである。すなわち、多くの学習者にとってこれらの模範音声は、自分の音声とはまったく異なる特徴を有する音声により発せられるものであるため、模範音声と比較して自分の発音がどの程度正確にできているかという評価が困難であるという問題があった。
このような問題を解決する技術として、例えば特許文献1、2に記載の技術がある。特許文献1に記載の技術は、模範音声にユーザの抑揚、話速、声質等のパラメータを反映させて、模範音声をユーザ音声に似た音声に変換するものである。特許文献2に記載の技術は、複数の模範音声の中から、学習者が任意のものを選択可能とするものである。
特開2002−244547号公報 特開2004−133409号公報
しかし、特許文献1に記載の技術によればイントネーションの較正は可能であるものの、例えば英語における「rとl」や「sとth」など明らかに発音が異なるものの較正を行うことは困難であるという問題があった。さらに、音声波形に対して修正を施すため、処理が複雑になるという問題もあった。また、特許文献2の記載の技術においては、模範音声を選択する方式であるために、学習者が自ら模範音声を選択する必要があり、煩雑であるという問題があった。
本発明は上述の事情に鑑みてなされたものであり、より簡単な処理で学習者に似た模範音声を用いて学習することが可能な語学学習装置を提供することを目的とする。
上述の課題を解決するため、本発明は、話者の音声から抽出した特徴量と、その話者の1または複数の音声データとを対応付けたデータを複数の話者について記録したデータベースと、学習者の音声を取得する音声取得手段と、前記音声取得手段が取得した音声から、前記学習者の音声の特徴量を抽出する特徴量抽出手段と、前記データベースに記録された複数の話者の特徴量と、前記特徴量抽出手段により抽出された特徴量との差を示す近似度指数を話者毎に算出する近似度算出手段と、前記データベースから、前記近似度算出手段により算出された近似度指数が第1の条件を満足する特徴量と対応付けられた1の音声データを抽出する音声データ抽出手段と、前記音声データ抽出手段により抽出された1の音声データに従って音声を出力する再生手段とを有する語学学習システムを提供する。
好ましい態様において、この語学学習システムは、前記第1の条件が、近似度が最も高いものを抽出するという条件であってもよい。
別の好ましい態様において、この語学学習システムは、前記抽出手段により抽出された音声データの話速を変換する話速変換手段をさらに有し、前記再生手段が、前記話速変換手段により話速変換された音声データに従って音声を出力してもよい。
さらに別の好ましい態様において、この語学学習システムは、模範音声を記憶する記憶手段と、前記模範音声と、前記音声取得手段により取得された学習者の音声を比較し、両者の近似度を数値化する比較手段と、前記比較手段により得られた近似度が第2の条件を満たしている場合、前記取得手段により取得された学習者の音声を、前記特徴量抽出手段により抽出された特徴量と対応付けて前記データベースに追加するデータベース更新手段とをさらに有してもよい。
本発明によれば、学習者と似た声の特徴を有する話者により発せられた音声が、学習における例文の音声として再生される。したがって学習者は、真似すべき(目標とすべき)発音をより正確に認識することができ、これにより学習効率を向上させることができる。
以下、図面を参照して本発明の実施形態について説明する。
<1.構成>
図1は、本発明の第1実施形態に係る語学学習システム1の機能構成を示すブロック図である。記憶部11は、話者の音声から抽出した特徴量と、その話者による音声の音声データとを対応付けて記録したデータベースDB1を記憶している。入力部12は、学習者(ユーザ)の音声を取得し、ユーザ音声データとして出力する。特徴抽出部13は、学習者の音声から特徴量を抽出する。音声データ抽出部14は、特徴抽出部13により抽出された特徴量と、データベースDB1に記録されている特徴量とを比較し、あらかじめ決められた条件を満足するものを抽出する。音声データ抽出部14はさらに、抽出された特徴量に対応付けられている音声データを抽出する。再生部15は、音声データ抽出部14により抽出された音声データを再生する。
データベースDB1の詳細な内容については後述するが、語学学習システム1はさらに、データベースDB1を更新するために以下の構成要素を有している。記憶部16は、語学学習のお手本となる模範音声データとその模範音声のテキストデータとを対応付けて記録した模範音声データベースDB2を記憶している。比較部17は、入力部12により取得されたユーザ音声データと、記憶部16に記憶された模範音声データとの比較を行う。比較の結果、ユーザ音声があらかじめ決められた条件を満足すると、DB更新部18はユーザ音声データをデータベースDB1に追加する。
図2は、データベースDB1の内容を例示する図である。データベースDB1には、話者を特定する識別子である話者ID(図2では「ID001」)と、その話者の音声データから抽出した特徴量とが記録されている。データベースDB1にはさらに、例文を特定する識別子である例文IDと、その例文の音声データと、その例文の発音レベル(後述する)とが対応付けて記録されている。データベースDB1は、例文ID、音声データ、および発音レベルからなるデータセットを複数有しており、各データセットは音声データの話者に与えられた話者IDと対応付けて記録されている。すなわち、データベースDB1は、複数の話者による複数の例文の音声データを有しており、これらのデータは話者IDおよび特徴量によって話者毎に対応付けられて記録されている。
図3は、語学学習システム1のハードウェア構成を示すブロック図である。CPU(Central Processing Unit)101は、RAM(Random Access Memory)102を作業エリアとして、ROM(Read Only Memory)103あるいはHDD(Hard Disk Drive)104に記憶されているプログラムを読み出して実行する。HDD104は、各種アプリケーションプログラムやデータを記憶する記憶装置である。また、HDD104は、データベースDB1および模範音声データベースDB2も記憶する。ディスプレイ105は、CRT(Cathode Ray Tube)やLCD(Liquid Crystal Display)等、CPU101の制御下で文字や画像を表示する表示装置である。マイク106は、ユーザの音声を取得するための集音装置であり、ユーザの発した音声に対応する音声信号を出力する。音声処理部107は、マイク106により出力されたアナログ音声信号をデジタル音声データに変換する機能や、HDD104に記憶された音声データを音声信号に変換してスピーカ108に出力する機能を有する。また、ユーザはキーボード109を操作することにより、語学学習システム1に対して指示入力を行うことができる。以上で説明した各構成要素は、バス110を介して相互に接続されている。また、語学学習システム1は、I/F(インターフェース)111を介して他の機器と通信を行うことができる。
<2.動作>
続いて、本実施形態に係る語学学習システム1の動作について説明する。ここでは、まず例文の音声を再生する動作について説明した後に、データベースDB1の内容を更新する動作について説明する。語学学習システム1において、CPU101がHDD104に記憶された語学学習プログラムを実行することにより図1に示される機能を有する。また、学習者(ユーザ)は、語学学習プログラムの開始時等にキーボード109を操作して自分を特定する識別子であるユーザIDを入力する。CPU101は、入力されたユーザIDを現在システムを使用している学習者のユーザIDとしてRAM102に記憶する。
<2−1.音声再生>
図4は、語学学習システム1の動作を示すフローチャートである。語学学習プログラムを実行すると、語学学習システム1のCPU101は、模範音声データベースDB2を検索して利用可能な例文のリストを作成する。CPU101は、このリストに基づいて、ディスプレイ105上に例文の選択を促すメッセージを表示する。ユーザはディスプレイ105上に表示されたメッセージに従い、リストにある例文から1の例文を選択する。CPU101は選択された例文の音声を再生する(ステップS101)。具体的には、CPU101は例文の模範音声データを模範音声データベースDB2から読み出し、読み出した模範音声データを音声処理部107に出力する。音声処理部107は入力された模範音声データをデジタル/アナログ変換してアナログ音声信号としてスピーカ108に出力する。こうしてスピーカ108から模範音声が再生される。
ユーザはスピーカ108から再生された模範音声を聞き、マイク106に向かって模範音声を真似して例文を発声する。すなわち、ユーザ音声の入力が行われる(ステップS102)。具体的には次のとおりである。模範音声の再生が終了すると、CPU101は、「次はあなたの番です。例文を発音してください」等、ユーザに例文の発生を促すメッセージをディスプレイ105に表示する。さらにCPU101は、「スペースキーを押してから発音し、発音が終わったらもう一度スペースキーを押してください」等、ユーザ音声の入力を行うための操作を指示するメッセージをディスプレイ105に表示する。ユーザは、ディスプレイ105に表示されたメッセージに従ってキーボード109を操作し、ユーザ音声の入力を行う。すなわち、キーボード109のスペースキーを押した後に、マイク106に向かって例文を発声する。発声が終了したら、ユーザはもう一度スペースキーを押す。
ユーザの音声はマイク106により電気信号に変換される。マイク106は、ユーザ音声信号を出力する。ユーザ音声信号は、音声処理部107によりデジタル音声データに変換され、ユーザ音声データとしてHDD104に記録される。CPU101は、模範音声の再生が完了した後、スペースキーの押下をトリガとしてユーザ音声データの記録を開始し、再度のスペースキーの押下をトリガとしてユーザ音声データの記録を終了する。すなわち、ユーザが最初にスペースキーを押してから、もう一度スペースキーを押すまでの間のユーザ音声がHDD104に記録される。
続いてCPU101は、得られたユーザ音声データに対して特徴量抽出処理を行う(ステップS103)。具体的には次のとおりである。CPU101は、音声データをあらかじめ決められた時間(フレーム)毎に分割する。CPU101は、フレームに分解された模範音声データが示す波形およびユーザ音声信号が示す波形をフーリエ変換して得られた振幅スペクトルの対数を求め、それをフーリエ逆変換してフレームごとのスペクトル包絡を得る。CPU101は、こうして得られたスペクトル包絡から第1フォルマントおよび第2フォルマントのフォルマント周波数を抽出する。一般に母音は第1および第2フォルマントの分布により特徴付けられる。CPU101は、音声データの先頭から、フレーム毎に得られたフォルマント周波数の分布を、あらかじめ決められた母音(例えば「a」)のフォルマント周波数分布とマッチングを行う。マッチングによりそのフレームが母音「a」に相当するものであると判断されると、CPU101は、そのフレームにおけるフォルマントのうち、あらかじめ決められたフォルマント(例えば、第1、第2、第3の3つのフォルマント)のフォルマント周波数を算出する。CPU101は、算出したフォルマント周波数を、ユーザの音声の特徴量PとしてRAM102に記憶する。
続いてCPU101は、データベースDB1から、このユーザの音声の特徴量Pと似た特徴量と対応付けられている音声データを抽出する(ステップS104)。具体的には、抽出された特徴量PとデータベースDB1に記録された特徴量とを比較し、特徴量Pと最も近似するものを特定する。比較においては、例えば、特徴量PとデータベースDB1との間で第1〜第3フォルマント周波数の値の差を算出し、さらに3つのフォルマント周波数の差の絶対値を足し合わせた量を両者の近似度を示す近似度指数として算出する。CPU101は、算出した近似度指数が最も小さいもの、すなわち特徴量Pと最も近似する特徴量をデータベースDB1から特定する。CPU101はさらに、特定された特徴量と対応付けられている音声データを抽出し、抽出した音声データをRAM102に記憶する。
続いてCPU101は、音声データの再生を行う(ステップS105)。具体的には次のとおりである。CPU101は音声データを音声処理部107に出力する。音声処理部107は、入力された音声データをデジタル/アナログ変換して音声信号としてスピーカ108に出力する。こうして、抽出された音声データはスピーカ108から音声として
再生される。ここで、音声データは特徴量のマッチングにより抽出されたものであるので、再生された音声は、学習者の音声と特徴が似た音声となっている。したがって、学習者は、自分とはまったく異なる声の特徴を有する話者(アナウンサー、ネイティブスピーカー等)により発せられた音声を聞くだけでは真似をすることが困難であった例文であっても、自分とよく似た声の特徴を有する話者により発せられた音声であれば、真似すべき発音をより正しく理解することができ、学習効率を向上させることができる
<2−2.データベース更新>
続いて、データベースDB1の更新動作について説明する。
図5は、語学学習システム1におけるデータベースDB1の更新動作を示すフローチャートである。まず、上述のステップS101〜S102の処理により、模範音声の再生およびユーザ音声の入力が行われる。続いてCPU101は、模範音声とユーザ音声の比較処理を行う(ステップS201)。具体的には次のとおりである。CPU101は、模範音声データが示す波形をあらかじめ決められた時間(フレーム)ごとに分割する。また、CPU101は、ユーザ音声データが示す波形についてもフレームごとに分割する。CPU101は、フレームに分解された模範音声データが示す波形およびユーザ音声信号が示す波形をフーリエ変換して得られた振幅スペクトルの対数を求め、それをフーリエ逆変換してフレームごとのスペクトル包絡を得る。
図6は、模範音声(上)およびユーザ音声(下)のスペクトル包絡を例示する図である。図6に示されるスペクトル包絡は、フレームI〜フレームIIIの3つのフレームから構成されている。CPU101は、得られたスペクトル包絡をフレームごとに比較し、両者の近似度を数値化する処理を行う。近似度の数値化(近似度指数の算出)は、例えば以下のように行う。CPU101は、特徴的なフォルマントの周波数とスペクトル密度とをスペクトル密度−周波数図に表したときの2点間の距離を音声データ全体について足し合わせたものを近似度指数として算出してもよい。あるいは、特定の周波数におけるスペクトル密度の差を音声データ全体について積分したものを近似度指数として算出してもよい。なお、模範音声とユーザ音声とは長さ(時間)が異なるのが通常であるので、上述の処理に先立ち両者の長さを揃える処理を行うことが好ましい。
再び図5を参照して説明する。CPU101は、算出した近似度指数に基づいて、データベースDB1の更新を行うか否か判断する(ステップS202)。具体的には次のとおりである。HDD104には、取得した音声データをデータベースDB1に追加登録するための条件があらかじめ記憶されている。CPU101は、ステップS201で算出した近似度指数がこの登録条件を満足するかどうか判断する。登録条件が満足された場合(ステップS202:YES)、CPU101は、処理を後述するステップS203へと進める。登録条件が満足されない場合(ステップS202:NO)、CPU101は処理を終了する。
登録条件が満足された場合、CPU101はデータベース更新処理を行う(ステップS203)。具体的には次のとおりである。CPU101は、登録条件を満足した音声データに、この音声データの話者である学習者(ユーザ)を特定するユーザIDを付与する。CPU101は、模範音声データベースDB2からユーザIDと同一のユーザIDを検索し、音声データをこのユーザIDと対応つけて模範音声データベースDB2に追加登録する。CPU101は、更新要求から抽出したユーザIDが模範音声データベースDB2に登録されていなかった場合は、このユーザIDを追加登録し、このユーザIDに対応つけて音声データを登録する。このようにして、データベースDB1に学習者の音声データが追加登録され、更新される。
以上で説明したデータベース更新動作は、前述の音声再生動作と平行して行われてもよいし、音声再生動作の完了後に行われてもよい。こうして、学習者の音声データが順次データベースDB1に追加されて行くことで、データベースDB1には数多くの話者の音声データが蓄積されることとなる。したがって、語学学習システム1が使用されるにつれデータベースDB1に多くの話者の音声データが登録されていき、同時に新しい学習者が語学学習システム1を使用する際にも自分と特徴の似た音声が再生される確率が高くなっていく。
<3.変形例>
本発明は上述の実施形態に限定されるものではなく、種々の変形実施が可能である。
<3−1.変形例1>
上述の実施形態において、ステップS104で抽出した音声データをRAM102に記憶した後、CPU101は、音声データに対して話速変換処理を行ってもよい。具体的には次のとおりである。RAM102は、話速変換処理の前後における話速比率を指定する変数aをあらかじめ記憶している。CPU101は、抽出した音声データに対して、音声の時間(音声データの先頭から末尾までの再生に要する時間)をa倍する処理を行う。a>1の場合は話速変換処理により音声の長さが伸びる。すなわち、話速は遅くなる。逆に、a<1の場合は話速変換処理により音声の長さは縮む。すなわち、話速は速くなる。本実施形態において、変数aの初期値として1より大きい値が設定されている。したがって、模範音声が再生され、続いてユーザ音声が入力された後、ユーザ音声と似た音声で再生される例文は、模範音声よりもゆっくりと再生される。したがって、学習者は、真似すべき発音(目標とすべき発音)をより明確に認識することができる。
<3−2.変形例2>
上述の実施形態では、ステップS104において、学習者(ユーザ)の音声から抽出した特徴量と最も近似する特徴量と対応付けられた音声データを抽出したが、音声データを抽出する条件は学習者の音声の特徴量と最も近似するものに限定されない。例えば、データベースDB1において、例文の音声データと対応付けてその音声の発話レベル(模範音声との近似度を示す指数。発話レベルの高いものはより模範音声に近似している)を記録しておき、この発話レベルを音声データ選択の条件に組み込んでもよい。具体的な条件としては例えば、発話レベルがある一定レベル以上のもののなかから、特徴量が最も近似するものを抽出するという条件でもよい。あるいは、特徴量の近似度がある値以上のもののなかから、発話レベルが最も高いものを抽出するという条件でもよい。発話レベルは、例えばステップS201における近似度指数の算出と同様に行えばよい。
<3−3.変形例3>
また、システムの構成は、上述の実施形態で説明したものに限定されない。語学学習システム1がネットワークを介してサーバ装置に接続されており、上述の語学学習システムの機能のうち一部を、サーバ装置に担わせてもよい。
さらに、上述の実施形態においては、CPU101が語学学習プログラムを実行することにより語学学習システムとしての機能がソフトウェア的に実現されたが、図1に示される機能構成要素に相当する電子回路等を用い、ハードウェア的にシステムを実現してもよい。
<3−4.変形例4>
上述の実施形態においては、話者の音声の特徴量として第1〜第3フォルマントのフォルマント周波数を用いる態様について説明したが、音声の特徴量はフォルマント周波数に限定されるものではない。スペクトログラム等、他の音声解析方法に基づいて算出した特徴量であってもよい。
本発明の第1実施形態に係る語学学習システム1の機能構成を示すブロック図である。 データベースDB1の内容を例示する図である。 語学学習システム1のハードウェア構成を示すブロック図である。 語学学習システム1の動作を示すフローチャートである。 語学学習システム1におけるデータベースDB1の更新動作を示すフローチャートである。 模範音声(上)およびユーザ音声(下)のスペクトル包絡を例示する図である。
符号の説明
1…語学学習システム、2…語学学習システム、11…記憶部、12…入力部、13…特徴抽出部、14…音声データ抽出部、15…再生部、16…記憶部、17…比較部、18…DB更新部、21…話速変換部、101…CPU、102…RAM、104…HDD、105…ディスプレイ、106…マイク、107…音声処理部、108…スピーカ、109…キーボード、110…バス、111…I/F

Claims (4)

  1. 話者の音声から抽出した特徴量と、その話者の1または複数の音声データとを対応付けたデータを複数の話者について記録したデータベースと、
    学習者の音声を取得する音声取得手段と、
    前記音声取得手段が取得した音声から、前記学習者の音声の特徴量を抽出する特徴量抽出手段と、
    前記データベースに記録された複数の話者の特徴量と、前記特徴量抽出手段により抽出された特徴量との差を示す近似度指数を話者毎に算出する近似度算出手段と、
    前記データベースから、前記近似度算出手段により算出された近似度指数が第1の条件を満足する特徴量と対応付けられた1の音声データを抽出する音声データ抽出手段と、
    前記音声データ抽出手段により抽出された1の音声データに従って音声を出力する再生手段と
    を有する語学学習システム。
  2. 前記第1の条件が、近似度が最も高いものを抽出するという条件であることを特徴とする請求項1に記載の語学学習システム。
  3. 前記抽出手段により抽出された音声データの話速を変換する話速変換手段をさらに有し、
    前記再生手段が、前記話速変換手段により話速変換された音声データに従って音声を出力する
    ことを特徴とする請求項1に記載の語学学習システム。
  4. 模範音声を記憶する記憶手段と、
    前記模範音声と、前記音声取得手段により取得された学習者の音声を比較し、両者の近似度を数値化する比較手段と、
    前記比較手段により得られた近似度が第2の条件を満たしている場合、前記取得手段により取得された学習者の音声を、前記特徴量抽出手段により抽出された特徴量と対応付けて前記データベースに追加するデータベース更新手段と
    をさらに有する請求項1に記載の語学学習システム。
JP2004373815A 2004-12-24 2004-12-24 語学学習システム Pending JP2006178334A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2004373815A JP2006178334A (ja) 2004-12-24 2004-12-24 語学学習システム
CN200510132618A CN100585663C (zh) 2004-12-24 2005-12-23 语言学习系统
KR1020050128485A KR100659212B1 (ko) 2004-12-24 2005-12-23 어학 학습 시스템 및 어학 학습용의 음성 데이터 제공 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004373815A JP2006178334A (ja) 2004-12-24 2004-12-24 語学学習システム

Publications (1)

Publication Number Publication Date
JP2006178334A true JP2006178334A (ja) 2006-07-06

Family

ID=36732492

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004373815A Pending JP2006178334A (ja) 2004-12-24 2004-12-24 語学学習システム

Country Status (3)

Country Link
JP (1) JP2006178334A (ja)
KR (1) KR100659212B1 (ja)
CN (1) CN100585663C (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006184813A (ja) * 2004-12-28 2006-07-13 Advanced Telecommunication Research Institute International 外国語学習装置

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101630448B (zh) * 2008-07-15 2011-07-27 上海启态网络科技有限公司 语言学习客户端及系统
KR101228909B1 (ko) * 2009-09-10 2013-02-01 최종근 전자 사전 단말기에서 어휘에 대한 소리를 제공하는 방법 및 그 전자 사전 단말기
KR101141793B1 (ko) * 2011-08-22 2012-05-04 광주대학교산학협력단 음 높이 가변 어학학습시스템
CN102760434A (zh) * 2012-07-09 2012-10-31 华为终端有限公司 一种声纹特征模型更新方法及终端
CN104485115B (zh) * 2014-12-04 2019-05-03 上海流利说信息技术有限公司 发音评价设备、方法和系统
JP6613560B2 (ja) * 2014-12-12 2019-12-04 カシオ計算機株式会社 電子機器、学習支援方法およびプログラム
CN105933635A (zh) * 2016-05-04 2016-09-07 王磊 一种对音频或视频内容附加标签的方法
CN110556095B (zh) * 2018-05-30 2023-06-23 卡西欧计算机株式会社 学习装置、机器人、学习支援系统、学习装置控制方法以及存储介质
KR102416041B1 (ko) * 2021-11-23 2022-07-01 진기석 다국어 동시 학습 시스템

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6449081A (en) * 1987-08-19 1989-02-23 Chuo Hatsujo Kk Pronunciation training apparatus
JPH03273280A (ja) * 1990-03-22 1991-12-04 Nec Corp 発声練習用音声合成方式
JP2000056785A (ja) * 1998-08-10 2000-02-25 Yamaha Corp 似顔絵出力装置およびカラオケ装置
JP2001051580A (ja) * 1999-08-06 2001-02-23 Nyuuton:Kk 音声学習装置
JP2002244547A (ja) * 2001-02-19 2002-08-30 Nippon Hoso Kyokai <Nhk> 発話学習システムのコンピュータプログラムおよびこのプログラムと協働するサーバ装置
JP2004093915A (ja) * 2002-08-30 2004-03-25 Casio Comput Co Ltd サーバ装置、情報端末装置、学習支援装置及びプログラム
JP2004264621A (ja) * 2003-03-03 2004-09-24 Fujitsu Ltd 教材提示方法,教材提供システム及び教材提供プログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6449081A (en) * 1987-08-19 1989-02-23 Chuo Hatsujo Kk Pronunciation training apparatus
JPH03273280A (ja) * 1990-03-22 1991-12-04 Nec Corp 発声練習用音声合成方式
JP2000056785A (ja) * 1998-08-10 2000-02-25 Yamaha Corp 似顔絵出力装置およびカラオケ装置
JP2001051580A (ja) * 1999-08-06 2001-02-23 Nyuuton:Kk 音声学習装置
JP2002244547A (ja) * 2001-02-19 2002-08-30 Nippon Hoso Kyokai <Nhk> 発話学習システムのコンピュータプログラムおよびこのプログラムと協働するサーバ装置
JP2004093915A (ja) * 2002-08-30 2004-03-25 Casio Comput Co Ltd サーバ装置、情報端末装置、学習支援装置及びプログラム
JP2004264621A (ja) * 2003-03-03 2004-09-24 Fujitsu Ltd 教材提示方法,教材提供システム及び教材提供プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006184813A (ja) * 2004-12-28 2006-07-13 Advanced Telecommunication Research Institute International 外国語学習装置

Also Published As

Publication number Publication date
KR20060073502A (ko) 2006-06-28
KR100659212B1 (ko) 2006-12-20
CN100585663C (zh) 2010-01-27
CN1794315A (zh) 2006-06-28

Similar Documents

Publication Publication Date Title
US10789290B2 (en) Audio data processing method and apparatus, and computer storage medium
CN110148427B (zh) 音频处理方法、装置、系统、存储介质、终端及服务器
CN106898340B (zh) 一种歌曲的合成方法及终端
US6182044B1 (en) System and methods for analyzing and critiquing a vocal performance
CN110675886B (zh) 音频信号处理方法、装置、电子设备及存储介质
US20190130894A1 (en) Text-based insertion and replacement in audio narration
JP2007249212A (ja) テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ
CN108831437A (zh) 一种歌声生成方法、装置、终端和存储介质
CN108053814B (zh) 一种模拟用户歌声的语音合成系统及方法
CN110310621A (zh) 歌唱合成方法、装置、设备以及计算机可读存储介质
CN112992109B (zh) 辅助歌唱系统、辅助歌唱方法及其非瞬时计算机可读取记录媒体
CN112420015B (zh) 一种音频合成方法、装置、设备及计算机可读存储介质
JP5598516B2 (ja) カラオケ用音声合成システム,及びパラメータ抽出装置
KR100659212B1 (ko) 어학 학습 시스템 및 어학 학습용의 음성 데이터 제공 방법
CN112908308A (zh) 一种音频处理方法、装置、设备及介质
US7308407B2 (en) Method and system for generating natural sounding concatenative synthetic speech
CN112750422B (zh) 一种歌声合成方法、装置及设备
JP2006139162A (ja) 語学学習装置
CN113421544B (zh) 歌声合成方法、装置、计算机设备及存储介质
CN112164387B (zh) 音频合成方法、装置及电子设备和计算机可读存储介质
US7092884B2 (en) Method of nonvisual enrollment for speech recognition
CN114842858A (zh) 一种音频处理方法、装置、电子设备及存储介质
CN114566191A (zh) 录音的修音方法及相关装置
CN114038481A (zh) 一种歌词时间戳生成方法、装置、设备及介质
KR20050041749A (ko) 방송 음성 데이터를 이용한 영역 및 화자 의존 음성 합성장치, 음성 합성용 데이터베이스 구축방법 및 음성 합성서비스 시스템

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071023

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091021

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091110

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100106

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100608

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20101019