JPH1152979A - 順序データの音声認識装置 - Google Patents
順序データの音声認識装置Info
- Publication number
- JPH1152979A JPH1152979A JP9215306A JP21530697A JPH1152979A JP H1152979 A JPH1152979 A JP H1152979A JP 9215306 A JP9215306 A JP 9215306A JP 21530697 A JP21530697 A JP 21530697A JP H1152979 A JPH1152979 A JP H1152979A
- Authority
- JP
- Japan
- Prior art keywords
- data
- recognition
- speech
- input
- dummy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F2300/00—Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
- A63F2300/10—Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by input arrangements for converting player-generated signals into game device control signals
- A63F2300/1081—Input via voice recognition
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
(57)【要約】
【課題】 山手線の駅名など、順序に従って入力される
べき順序データの音声認識装置において認識の所要時間
を短縮し、認識のエラーを減少させる。 【解決手段】 あらかじめ定められた順序に従って現在
入力されるべき順序データに1つ以上のダミーデータを
加えて音声認識の対象語とする手段1と、外部から入力
される音声の特徴に基づいて、該認識対象語の中で入力
音声に最も類似した対象語を認識結果として出力する手
段2とを備える。
べき順序データの音声認識装置において認識の所要時間
を短縮し、認識のエラーを減少させる。 【解決手段】 あらかじめ定められた順序に従って現在
入力されるべき順序データに1つ以上のダミーデータを
加えて音声認識の対象語とする手段1と、外部から入力
される音声の特徴に基づいて、該認識対象語の中で入力
音声に最も類似した対象語を認識結果として出力する手
段2とを備える。
Description
【0001】
【発明の属する技術分野】本発明は音声の認識装置に係
り、更に詳しくは例えば駅の名前など、順序に従って入
力されるべき順序データの音声認識を行う順序データの
音声認識装置に関する。
り、更に詳しくは例えば駅の名前など、順序に従って入
力されるべき順序データの音声認識を行う順序データの
音声認識装置に関する。
【0002】
【従来の技術と発明が解決しようとする課題】順序デー
タの音声認識装置とは、例えば山手線の駅名、歴代天皇
の名前など、順序のある単語が順番に正しく発声されて
いるか否かを認識するものであって、例えばゲーム機や
練習機などに主として応用可能と考えられるものであ
る。そのような音声認識装置の従来例は存在しないが、
最も簡単な実現方式としては、音声認識用対象単語とし
て、例えば山手線の駅名を全て用いて、現在入力された
音声データを全ての認識対象語と比較して音声認識を行
う方式が考えられる。
タの音声認識装置とは、例えば山手線の駅名、歴代天皇
の名前など、順序のある単語が順番に正しく発声されて
いるか否かを認識するものであって、例えばゲーム機や
練習機などに主として応用可能と考えられるものであ
る。そのような音声認識装置の従来例は存在しないが、
最も簡単な実現方式としては、音声認識用対象単語とし
て、例えば山手線の駅名を全て用いて、現在入力された
音声データを全ての認識対象語と比較して音声認識を行
う方式が考えられる。
【0003】しかしながら、このような方式では、認識
対象語の数が多くなるため認識に時間がかかるという問
題点があり、また順序データ内に類似した単語、例えば
“目黒”と“目白”があるような場合には、認識を誤り
やすいという問題点も存在する。
対象語の数が多くなるため認識に時間がかかるという問
題点があり、また順序データ内に類似した単語、例えば
“目黒”と“目白”があるような場合には、認識を誤り
やすいという問題点も存在する。
【0004】本発明は、現在入力されるべき順序データ
に、例えば数単語程度のダミーデータを付加して認識対
象語とすることによって、認識に必要な時間を短縮し、
かつ認識のエラーを減らすことを目的とする。
に、例えば数単語程度のダミーデータを付加して認識対
象語とすることによって、認識に必要な時間を短縮し、
かつ認識のエラーを減らすことを目的とする。
【0005】
【課題を解決するための手段】図1、および図2は本発
明の原理構成ブロック図である。これらの図は、あらか
じめ定められた順序で入力されるべき順序データを音声
認識する、順序データの音声認識装置の原理構成ブロッ
ク図である。
明の原理構成ブロック図である。これらの図は、あらか
じめ定められた順序で入力されるべき順序データを音声
認識する、順序データの音声認識装置の原理構成ブロッ
ク図である。
【0006】図1は第1の発明の原理構成ブロック図で
ある。同図において音声認識対象語生成手段1は、あら
かじめ定められた順序に従って現在入力されるべき順序
データに1つ以上のダミーデータを加えて、音声認識の
対象語を生成するものである。音声認識手段2は、外部
から入力される音声の特徴に基づいて、生成された認識
対象語の中で入力音声に最も類似した対象語を認識結果
として出力するものである。
ある。同図において音声認識対象語生成手段1は、あら
かじめ定められた順序に従って現在入力されるべき順序
データに1つ以上のダミーデータを加えて、音声認識の
対象語を生成するものである。音声認識手段2は、外部
から入力される音声の特徴に基づいて、生成された認識
対象語の中で入力音声に最も類似した対象語を認識結果
として出力するものである。
【0007】第1の発明においては、外部から入力され
る音声に対して、例えばその分析と特徴抽出が行われ、
その特徴抽出結果に基づいて認識対象語、すなわち現在
入力されるべき順序データに1つ以上のダミーデータが
加えられた対象語の中で、入力音声に最も類似した対象
語が認識結果として出力される。これによって認識対象
語を全ての順序データとする場合に比べて、認識対象語
は高々数単語程度となり、認識時間を短縮し、また認識
のエラーを減らすことができる。
る音声に対して、例えばその分析と特徴抽出が行われ、
その特徴抽出結果に基づいて認識対象語、すなわち現在
入力されるべき順序データに1つ以上のダミーデータが
加えられた対象語の中で、入力音声に最も類似した対象
語が認識結果として出力される。これによって認識対象
語を全ての順序データとする場合に比べて、認識対象語
は高々数単語程度となり、認識時間を短縮し、また認識
のエラーを減らすことができる。
【0008】図2は第2の発明の原理構成ブロック図で
ある。同図においてダミーデータ付き順序データ格納手
段3は、あらかじめ定められた順序で入力されるべき順
序データのそれぞれに対してそれぞれ1つ以上のダミー
データを加えたデータを格納したものである。また音声
認識手段2は、ダミーデータ付き順序データ格納手段3
から、順序に従って現在入力されるべき順序データとそ
の順序データに対する1つ以上のダミーデータとを読み
出して認識の対象語とし、入力される音声の特徴に基づ
いて、認識対象語の中で入力音声に最も類似した対象語
を認識結果として出力するものである。
ある。同図においてダミーデータ付き順序データ格納手
段3は、あらかじめ定められた順序で入力されるべき順
序データのそれぞれに対してそれぞれ1つ以上のダミー
データを加えたデータを格納したものである。また音声
認識手段2は、ダミーデータ付き順序データ格納手段3
から、順序に従って現在入力されるべき順序データとそ
の順序データに対する1つ以上のダミーデータとを読み
出して認識の対象語とし、入力される音声の特徴に基づ
いて、認識対象語の中で入力音声に最も類似した対象語
を認識結果として出力するものである。
【0009】この第2の発明を前述の第1の発明と比較
すると、順序データのそれぞれに対してそれぞれ1つ以
上のダミーデータを加えたダミーデータ付き順序データ
があらかじめ作成され、そのデータがダミーデータ付き
順序データ格納手段3に格納されているのに対して、第
1の発明では順序データの入力時点でダミーデータの加
えられた音声認識対象語が生成される点だけが異なって
いる。
すると、順序データのそれぞれに対してそれぞれ1つ以
上のダミーデータを加えたダミーデータ付き順序データ
があらかじめ作成され、そのデータがダミーデータ付き
順序データ格納手段3に格納されているのに対して、第
1の発明では順序データの入力時点でダミーデータの加
えられた音声認識対象語が生成される点だけが異なって
いる。
【0010】第1の発明および第2の発明の実施形態と
しては、音声認識手段2の認識結果と順序に従って現在
入力されるべきデータとを照合して、それらが一致した
か否かを判定する判定手段を更に備える形態も可能であ
り、またダミーデータとして現在入力されるべきデータ
と順序データ内で近隣関係にある近隣データを用いるこ
とも可能であり、更に1つ以上のダミーデータが加えら
れた音声認識の対象語を、例えばディスプレイ上に表示
する表示手段を備えることも可能である。
しては、音声認識手段2の認識結果と順序に従って現在
入力されるべきデータとを照合して、それらが一致した
か否かを判定する判定手段を更に備える形態も可能であ
り、またダミーデータとして現在入力されるべきデータ
と順序データ内で近隣関係にある近隣データを用いるこ
とも可能であり、更に1つ以上のダミーデータが加えら
れた音声認識の対象語を、例えばディスプレイ上に表示
する表示手段を備えることも可能である。
【0011】また、本発明はあらかじめ定められた順序
に従って現在入力されるべき順序データに1つ以上のダ
ミーデータを加えて、前記音声認識の認識対象語とする
第1の手順と、外部から入力される音声の特徴に基づい
て、該認識対象語の中で入力音声に最も類似した対象語
を認識結果として出力する第2の手順とをコンピュータ
に実行させるプログラムを記憶したコンピュータ読み取
り可能な記憶媒体を構成する。
に従って現在入力されるべき順序データに1つ以上のダ
ミーデータを加えて、前記音声認識の認識対象語とする
第1の手順と、外部から入力される音声の特徴に基づい
て、該認識対象語の中で入力音声に最も類似した対象語
を認識結果として出力する第2の手順とをコンピュータ
に実行させるプログラムを記憶したコンピュータ読み取
り可能な記憶媒体を構成する。
【0012】さらに、本発明は順序データのそれぞれに
対してそれぞれ1つ以上のダミーデータを加えたデータ
を格納したダミーデータ付き順序データ格納部から前記
あらかじめ定められた順序に従って現在入力されるべき
順序データと該順序データに対する1つ以上のダミーデ
ータとを読み出して認識の対象語とし、外部から入力さ
れる音声の特徴に基づいて、該認識対象語の中で入力音
声に最も類似した対象語を認識結果として出力する第1
の手順をコンピュータに実行させるプログラムを記憶し
たコンピュータ読み取り可能な記憶媒体を構成する。
対してそれぞれ1つ以上のダミーデータを加えたデータ
を格納したダミーデータ付き順序データ格納部から前記
あらかじめ定められた順序に従って現在入力されるべき
順序データと該順序データに対する1つ以上のダミーデ
ータとを読み出して認識の対象語とし、外部から入力さ
れる音声の特徴に基づいて、該認識対象語の中で入力音
声に最も類似した対象語を認識結果として出力する第1
の手順をコンピュータに実行させるプログラムを記憶し
たコンピュータ読み取り可能な記憶媒体を構成する。
【0013】さらにまた、本発明は順序データのすべて
を音声認識の認識対象語として格納する第1の手順と、
外部から入力される音声の特徴に基づいて、該認識対象
語の中で入力音声に最も類似した対象語を認識結果とし
て出力する第2の手順とをコンピュータに実行させるプ
ログラムを記憶したコンピュータ読み取り可能な記憶媒
体を構成する。
を音声認識の認識対象語として格納する第1の手順と、
外部から入力される音声の特徴に基づいて、該認識対象
語の中で入力音声に最も類似した対象語を認識結果とし
て出力する第2の手順とをコンピュータに実行させるプ
ログラムを記憶したコンピュータ読み取り可能な記憶媒
体を構成する。
【0014】以上のように本発明によれば、音声認識の
対象語を現在入力されるべき順序データに1つ以上のダ
ミーデータを加えた高々数単語程度に限定することが可
能である。
対象語を現在入力されるべき順序データに1つ以上のダ
ミーデータを加えた高々数単語程度に限定することが可
能である。
【0015】
【発明の実施の形態】図3は本発明の順序データの音声
認識装置の第1の実施形態の構成ブロック図である。同
図において音声認識装置は、音声が入力されるマイク1
0、入力された音声を分析する分析部11、分析部11
によって得られた音声の分析結果から入力音声の特徴を
抽出する特徴抽出部12、順序データが格納された順序
データ辞書部13、順序データ辞書部13から順序デー
タの順序に従って順番に1単語ずつ読み出される順序デ
ータに1つ以上のダミー単語を追加して、認識用単語と
するダミー単語追加部14、あらかじめ沢山のダミー単
語を格納したダミー単語辞書部15、ダミー単語追加部
14の出力を格納する認識単語辞書部16、認識単語辞
書部16の格納内容と特徴抽出部12によって抽出され
た入力音声の特徴とを比較して、入力音声の特徴に最も
類似した認識用単語を出力する単語照合部17、単語照
合部17の出力と順序データ辞書部13から出力され
る、現在入力されるべき順序データとの一致を判定する
判定部18、判定部18の判定結果を音声合成する音声
合成部19、音声合成部19の合成結果を音声出力する
スピーカ20から構成されている。
認識装置の第1の実施形態の構成ブロック図である。同
図において音声認識装置は、音声が入力されるマイク1
0、入力された音声を分析する分析部11、分析部11
によって得られた音声の分析結果から入力音声の特徴を
抽出する特徴抽出部12、順序データが格納された順序
データ辞書部13、順序データ辞書部13から順序デー
タの順序に従って順番に1単語ずつ読み出される順序デ
ータに1つ以上のダミー単語を追加して、認識用単語と
するダミー単語追加部14、あらかじめ沢山のダミー単
語を格納したダミー単語辞書部15、ダミー単語追加部
14の出力を格納する認識単語辞書部16、認識単語辞
書部16の格納内容と特徴抽出部12によって抽出され
た入力音声の特徴とを比較して、入力音声の特徴に最も
類似した認識用単語を出力する単語照合部17、単語照
合部17の出力と順序データ辞書部13から出力され
る、現在入力されるべき順序データとの一致を判定する
判定部18、判定部18の判定結果を音声合成する音声
合成部19、音声合成部19の合成結果を音声出力する
スピーカ20から構成されている。
【0016】図4は図3の順序データの音声認識装置の
第1の実施形態における全体処理のフローチャートであ
る。同図において処理が開始されると、まずステップS
1で先頭の順序データを取り出すために、順序の番号を
示すpの値が1とされた後に、ステップS2で順序デー
タ辞書部13から今回の順序(p)、ここでは1番目の
単語が取り出され、ステップS3でn個のダミー単語が
生成され、ステップS4で今回の順序の順序データとし
ての単語にダミー単語が追加されて認識用単語とされ、
今回の順序データが判定部18に通知される。
第1の実施形態における全体処理のフローチャートであ
る。同図において処理が開始されると、まずステップS
1で先頭の順序データを取り出すために、順序の番号を
示すpの値が1とされた後に、ステップS2で順序デー
タ辞書部13から今回の順序(p)、ここでは1番目の
単語が取り出され、ステップS3でn個のダミー単語が
生成され、ステップS4で今回の順序の順序データとし
ての単語にダミー単語が追加されて認識用単語とされ、
今回の順序データが判定部18に通知される。
【0017】次に外部からの入力音声をマイク10を用
いてステップS5で受け取り、ステップS6で分析部1
1によって入力音声が分析され、ステップS7で特徴抽
出部12によって音声の分析結果から特徴が抽出され、
ステップS8で単語照合部17によって抽出された特徴
が認識用単語と照合され、最も特徴に近い認識用単語が
取り出され、ステップS9でその照合結果と今回の順序
の単語が一致するか否かが判定される。
いてステップS5で受け取り、ステップS6で分析部1
1によって入力音声が分析され、ステップS7で特徴抽
出部12によって音声の分析結果から特徴が抽出され、
ステップS8で単語照合部17によって抽出された特徴
が認識用単語と照合され、最も特徴に近い認識用単語が
取り出され、ステップS9でその照合結果と今回の順序
の単語が一致するか否かが判定される。
【0018】照合結果と今回の順序の単語、すなわち入
力されるべき順序データとが一致すると判定部18によ
って判定されると、ステップS10で音声合成部19に
よって「正解」が音声合成され、ステップS11でpの
値がインクリメントされ、ステップS12で順序を示す
番号pが終りに達したか否かが判定され、終りに達して
いない場合にはステップS2で次の順序の順序データが
取り出され、ステップS3以降の処理が繰り返される。
ステップS9で照合結果と現在入力されるべき順序デー
タとが一致しないと判定されると、ステップS13で音
声合成部19によって「不正解」が音声合成され、ステ
ップS2以降の処理が繰り返される。またステップS1
2で順序データの番号を示すpが終りに達したと判定さ
れた時点で、処理を終了する。
力されるべき順序データとが一致すると判定部18によ
って判定されると、ステップS10で音声合成部19に
よって「正解」が音声合成され、ステップS11でpの
値がインクリメントされ、ステップS12で順序を示す
番号pが終りに達したか否かが判定され、終りに達して
いない場合にはステップS2で次の順序の順序データが
取り出され、ステップS3以降の処理が繰り返される。
ステップS9で照合結果と現在入力されるべき順序デー
タとが一致しないと判定されると、ステップS13で音
声合成部19によって「不正解」が音声合成され、ステ
ップS2以降の処理が繰り返される。またステップS1
2で順序データの番号を示すpが終りに達したと判定さ
れた時点で、処理を終了する。
【0019】図5は、図3の順序データの音声認識装置
の第1の実施形態における、図4とは一部異なる全体処
理のフローチャートである。同図を図4のフローチャー
トと比較すると、図4のステップS3でダミー単語が生
成される処理の代りに、ステップS15でn個のダミー
単語がダミー単語辞書部から読み出される処理が実行さ
れる。すなわち図3においてはダミー単語辞書部15が
備えられており、その意味ではステップS15のように
ダミー単語をダミー単語辞書部15から読み出すのは順
当と考えられるが、図4ではダミー単語辞書部15が備
えられていない場合の処理として、ダミー単語追加部1
4がp番目の順序データに対してステップS3で新たな
ダミー単語を生成する点が異なっている。
の第1の実施形態における、図4とは一部異なる全体処
理のフローチャートである。同図を図4のフローチャー
トと比較すると、図4のステップS3でダミー単語が生
成される処理の代りに、ステップS15でn個のダミー
単語がダミー単語辞書部から読み出される処理が実行さ
れる。すなわち図3においてはダミー単語辞書部15が
備えられており、その意味ではステップS15のように
ダミー単語をダミー単語辞書部15から読み出すのは順
当と考えられるが、図4ではダミー単語辞書部15が備
えられていない場合の処理として、ダミー単語追加部1
4がp番目の順序データに対してステップS3で新たな
ダミー単語を生成する点が異なっている。
【0020】図6は図3の認識単語辞書部16に格納さ
れるデータの具体例の説明図である。同図において認識
単語辞書部16には、現在入力されるべき正しい順序デ
ータ“新宿”に加えて、3つのダミー単語として“東
京”、“池袋”、および“渋谷”が格納され、これらの
単語は1組の認識用単語として図3の単語照合部17に
与えられる。なおここでは順序データは山手線の駅名を
順番に並べたものとし、正しい順番にある順序データの
“新宿”に対して、“東京”、“池袋”、および“渋
谷”は順序データの順序において“新宿”の次にあるデ
ータでもなく、またその前にあるデータでもないことか
ら、ダミー単語として使用可能なものである。
れるデータの具体例の説明図である。同図において認識
単語辞書部16には、現在入力されるべき正しい順序デ
ータ“新宿”に加えて、3つのダミー単語として“東
京”、“池袋”、および“渋谷”が格納され、これらの
単語は1組の認識用単語として図3の単語照合部17に
与えられる。なおここでは順序データは山手線の駅名を
順番に並べたものとし、正しい順番にある順序データの
“新宿”に対して、“東京”、“池袋”、および“渋
谷”は順序データの順序において“新宿”の次にあるデ
ータでもなく、またその前にあるデータでもないことか
ら、ダミー単語として使用可能なものである。
【0021】図7は順序データの音声認識装置の第2の
実施形態の構成ブロック図である。同図を第1の実施形
態を示す図3と比較すると、認識単語辞書部16に格納
された音声認識の対象単語としての認識用単語を表示す
る表示部21が備えられている点だけが異なっている。
この表示部21を用いて、認識単語辞書部16の格納内
容、すなわち音声認識の対象語をディスプレイ上に表示
することによって、ユーザはその表示内容をヘルプ画面
として用いることができ、表示された音声認識の認識対
象の中に1つだけ存在する正しい順序データを入力する
ことが容易となる。
実施形態の構成ブロック図である。同図を第1の実施形
態を示す図3と比較すると、認識単語辞書部16に格納
された音声認識の対象単語としての認識用単語を表示す
る表示部21が備えられている点だけが異なっている。
この表示部21を用いて、認識単語辞書部16の格納内
容、すなわち音声認識の対象語をディスプレイ上に表示
することによって、ユーザはその表示内容をヘルプ画面
として用いることができ、表示された音声認識の認識対
象の中に1つだけ存在する正しい順序データを入力する
ことが容易となる。
【0022】図8は順序データの音声認識装置の第3の
実施形態の構成ブロック図である。同図を図3に示した
第1の実施形態と比較すると、認識単語辞書部16に代
わって、ダミー単語付き順序データ辞書部22が備えら
れている点が異なっている。このダミー単語付き順序デ
ータ辞書部22に対しては、例えばゲーム機における順
序データの音声認識に先立つ事前処理においてその格納
内容が作成される。すなわち事前処理において、順序デ
ータ辞書部13から順番に1つずつ読み出される順序デ
ータのそれぞれに対して、ダミー単語辞書部14に格納
されている1つ以上のダミー単語がダミー単語追加部1
5によって追加され、ダミー単語付き順序データとして
ダミー単語付き順序データ辞書部22に格納される。な
お単語照合部17の出力に対する判定部18の判定にお
いては、正しい順序データはダミー単語付き順序データ
辞書部22から与えられる。
実施形態の構成ブロック図である。同図を図3に示した
第1の実施形態と比較すると、認識単語辞書部16に代
わって、ダミー単語付き順序データ辞書部22が備えら
れている点が異なっている。このダミー単語付き順序デ
ータ辞書部22に対しては、例えばゲーム機における順
序データの音声認識に先立つ事前処理においてその格納
内容が作成される。すなわち事前処理において、順序デ
ータ辞書部13から順番に1つずつ読み出される順序デ
ータのそれぞれに対して、ダミー単語辞書部14に格納
されている1つ以上のダミー単語がダミー単語追加部1
5によって追加され、ダミー単語付き順序データとして
ダミー単語付き順序データ辞書部22に格納される。な
お単語照合部17の出力に対する判定部18の判定にお
いては、正しい順序データはダミー単語付き順序データ
辞書部22から与えられる。
【0023】ここで単語照合部17による照合作用、判
定部18による判定作用について説明する。これらの作
用は本発明の全ての実施形態に共通のものである。まず
単語照合部17ては、音声認識において入力される音声
のパターンとテンプレート、すなわち認識単語辞書部1
6内の認識単語のそれぞれとの間の距離が求められる。
一般にこの距離の値がある閾値より小さい場合には、入
力パターンはテンプレートと同じカテゴリに属するもの
として照合が行われる音声認識においていわゆる同定を
実現することは非常に難しい。その理由は入力パターン
とテンプレートとの間の距離にはカテゴリの不一致によ
る異なりの他に、話者の異なり、騒音環境の異なり、マ
イクの異なりなどいろいろな要素が含まれるためであ
る。そこである閾値より距離が大きいからといって、入
力パターンとテンプレートのカテゴリが全く異なると言
い切ることはできない。同じカテゴリであっても、話者
が異なるため距離が大きくなってしまうこともある。
定部18による判定作用について説明する。これらの作
用は本発明の全ての実施形態に共通のものである。まず
単語照合部17ては、音声認識において入力される音声
のパターンとテンプレート、すなわち認識単語辞書部1
6内の認識単語のそれぞれとの間の距離が求められる。
一般にこの距離の値がある閾値より小さい場合には、入
力パターンはテンプレートと同じカテゴリに属するもの
として照合が行われる音声認識においていわゆる同定を
実現することは非常に難しい。その理由は入力パターン
とテンプレートとの間の距離にはカテゴリの不一致によ
る異なりの他に、話者の異なり、騒音環境の異なり、マ
イクの異なりなどいろいろな要素が含まれるためであ
る。そこである閾値より距離が大きいからといって、入
力パターンとテンプレートのカテゴリが全く異なると言
い切ることはできない。同じカテゴリであっても、話者
が異なるため距離が大きくなってしまうこともある。
【0024】そこで2つ以上のテンプレートを用意し
て、入力パターンとそれぞれのテンプレートとの間の距
離を求め、入力パターンのカテゴリとの距離が最も小さ
くなるテンプレートのカテゴリを求める識別が行われ
る。この識別においては話者の異なり、騒音環境の異な
り、マイクの異なりなどが全てのテンプレートとの間の
距離に平等に反映され、これらの影響を受けずに正しい
カテゴリを見つけることができる。識別を用いて同定を
行う場合には、同定したいカテゴリのテンプレートの他
に1つ以上のダミーのカテゴリのテンプレートを用いて
照合を行い、同定したいカテゴリに識別された場合には
同定が成功、他のカテゴリに識別された場合には同定が
失敗という判定を行うことにする。
て、入力パターンとそれぞれのテンプレートとの間の距
離を求め、入力パターンのカテゴリとの距離が最も小さ
くなるテンプレートのカテゴリを求める識別が行われ
る。この識別においては話者の異なり、騒音環境の異な
り、マイクの異なりなどが全てのテンプレートとの間の
距離に平等に反映され、これらの影響を受けずに正しい
カテゴリを見つけることができる。識別を用いて同定を
行う場合には、同定したいカテゴリのテンプレートの他
に1つ以上のダミーのカテゴリのテンプレートを用いて
照合を行い、同定したいカテゴリに識別された場合には
同定が成功、他のカテゴリに識別された場合には同定が
失敗という判定を行うことにする。
【0025】すなわち単語照合部17において正しい順
序データと1つ以上のダミーデータとを用いて行われる
照合は識別動作であり、この照合結果としての単語照合
部17の出力と正しい順序データとが一致するか否かの
判定部18による判定は同定の成否を判定していること
になる。
序データと1つ以上のダミーデータとを用いて行われる
照合は識別動作であり、この照合結果としての単語照合
部17の出力と正しい順序データとが一致するか否かの
判定部18による判定は同定の成否を判定していること
になる。
【0026】図9は図8のダミー単語付き順序データ辞
書部22に格納されているデータの具体例である。同図
において順序データは前述の山手線の駅名であり、“新
宿”の次に“代々木”、“代々木”の次に“原宿”が格
納され、それぞれの順序データに対して3つのダミー単
語が格納されている。この格納データは事前処理によっ
て作成される。
書部22に格納されているデータの具体例である。同図
において順序データは前述の山手線の駅名であり、“新
宿”の次に“代々木”、“代々木”の次に“原宿”が格
納され、それぞれの順序データに対して3つのダミー単
語が格納されている。この格納データは事前処理によっ
て作成される。
【0027】図10はダミー単語付き順序データ生成処
理のフローチャートである。同図において処理が開始さ
れると、まずステップS17で順序データ辞書部13か
ら次の順序データが1単語読み出され、ステップS18
でダミー単語辞書部14からダミー単語がn単語読み出
されてステップS17で読み出された順序データに追加
され、ステップS19でこれらの順序データとダミー単
語がダミー単語付き順序データ辞書部22に格納され、
ステップS20で次の順序データが順序データ辞書部1
3にあるか否かが判定され、ない場合には処理を終了
し、ある場合には次の順序データに対するダミー単語付
き順序データを生成するためにステップS17以降の処
理が繰り返される。
理のフローチャートである。同図において処理が開始さ
れると、まずステップS17で順序データ辞書部13か
ら次の順序データが1単語読み出され、ステップS18
でダミー単語辞書部14からダミー単語がn単語読み出
されてステップS17で読み出された順序データに追加
され、ステップS19でこれらの順序データとダミー単
語がダミー単語付き順序データ辞書部22に格納され、
ステップS20で次の順序データが順序データ辞書部1
3にあるか否かが判定され、ない場合には処理を終了
し、ある場合には次の順序データに対するダミー単語付
き順序データを生成するためにステップS17以降の処
理が繰り返される。
【0028】図11は順序データの音声認識装置の第4
の実施形態の構成ブロック図である。同図を例えば第1
の実施形態を示す図3と比較すると、ダミー単語辞書部
15の代りに近隣データ読み出し部23が備えられてい
る点が異なっている。この近隣データ読み出し部23
は、ダミー単語の代りに近隣データをダミー単語追加部
14に与え、ダミー単語追加部14はその近隣データを
順序データに加えて認識単語辞書部16に格納すること
になる。近隣データとは、順序データ辞書部13に格納
されている順序データの中で、現在入力されるべき順序
データの近隣にあるデータのことであり、近隣データ読
み出し部23は現在入力されるべき順序データの近隣デ
ータを読み出してダミー単語追加部14に与えることに
なる。
の実施形態の構成ブロック図である。同図を例えば第1
の実施形態を示す図3と比較すると、ダミー単語辞書部
15の代りに近隣データ読み出し部23が備えられてい
る点が異なっている。この近隣データ読み出し部23
は、ダミー単語の代りに近隣データをダミー単語追加部
14に与え、ダミー単語追加部14はその近隣データを
順序データに加えて認識単語辞書部16に格納すること
になる。近隣データとは、順序データ辞書部13に格納
されている順序データの中で、現在入力されるべき順序
データの近隣にあるデータのことであり、近隣データ読
み出し部23は現在入力されるべき順序データの近隣デ
ータを読み出してダミー単語追加部14に与えることに
なる。
【0029】図12は図11の順序データの音声認識装
置の第4の実施形態における全体処理のフローチャート
である。同図を、例えば図4に示した第1の実施形態に
おける処理フローチャートと比較すると、図4のステッ
プS3でダミー単語が新たに生成される代わりに、ステ
ップS22でダミー単語が順序データ辞書部内の近隣単
語から読み出される点が異なっている。この近隣単語の
読み出しについては、次の図13、および図14を用い
て説明する。
置の第4の実施形態における全体処理のフローチャート
である。同図を、例えば図4に示した第1の実施形態に
おける処理フローチャートと比較すると、図4のステッ
プS3でダミー単語が新たに生成される代わりに、ステ
ップS22でダミー単語が順序データ辞書部内の近隣単
語から読み出される点が異なっている。この近隣単語の
読み出しについては、次の図13、および図14を用い
て説明する。
【0030】図13は図11における順序データ辞書部
13に格納されている順序データの具体例である。同図
において“新宿”から始まって山手線の駅名が“代々
木”、“原宿”、・・・とiの値に対応して格納されて
いる。
13に格納されている順序データの具体例である。同図
において“新宿”から始まって山手線の駅名が“代々
木”、“原宿”、・・・とiの値に対応して格納されて
いる。
【0031】図14は図11におけるダミー単語追加部
14の処理フローチャートである。同図において処理が
開始されると、まずステップS25で図13のiの番号
に対応する現在の順序が“I”とされ、ステップS26
で追加すべき単語の数がn=2mとされ、ステップS2
7で次の不等式を満足するJ番目の単語のうちでI番
目、すなわち現在入力されるべき順序データ以外の単語
が近隣データ、すなわちダミー単語として追加されて処
理を終了する。
14の処理フローチャートである。同図において処理が
開始されると、まずステップS25で図13のiの番号
に対応する現在の順序が“I”とされ、ステップS26
で追加すべき単語の数がn=2mとされ、ステップS2
7で次の不等式を満足するJ番目の単語のうちでI番
目、すなわち現在入力されるべき順序データ以外の単語
が近隣データ、すなわちダミー単語として追加されて処
理を終了する。
【0032】I−m≦J<I+m 但しJが0、または負となる場合には、対応するダミー
単語の追加は行わず、その個数に相当するダミー単語を
現在入力されるべき順序データ、およびすでに選ばれて
いる近隣データ以外の単語からランダムに選択して、ダ
ミー単語として追加する。
単語の追加は行わず、その個数に相当するダミー単語を
現在入力されるべき順序データ、およびすでに選ばれて
いる近隣データ以外の単語からランダムに選択して、ダ
ミー単語として追加する。
【0033】図15は順序データの音声認識装置の第5
の実施形態の構成ブロック図である。同図においては図
3の第1の実施形態と比較して、ダミー単語追加部14
およびダミー単語辞書部15が存在せず、順序データ辞
書部13の順序データが全て認識単語辞書部16に与え
られ、音声認識の認識対象として単語照合部17にその
まま与えられる点が異なっている。すなわちこの第5の
実施形態は、従来技術で説明したように従来例が存在し
ない順序データの音声認識装置の最も簡単な構成例とし
て考えられるものであり、前述のような問題点を持って
いるが、1つの実施形態として可能なものである。
の実施形態の構成ブロック図である。同図においては図
3の第1の実施形態と比較して、ダミー単語追加部14
およびダミー単語辞書部15が存在せず、順序データ辞
書部13の順序データが全て認識単語辞書部16に与え
られ、音声認識の認識対象として単語照合部17にその
まま与えられる点が異なっている。すなわちこの第5の
実施形態は、従来技術で説明したように従来例が存在し
ない順序データの音声認識装置の最も簡単な構成例とし
て考えられるものであり、前述のような問題点を持って
いるが、1つの実施形態として可能なものである。
【0034】
【発明の効果】以上詳細に説明したように本発明によれ
ば、現在入力されるべき順序データに1つ以上のダミー
データを加えて音声認識の対象語とすることによって、
認識に必要な時間を短縮することができ、また認識のエ
ラーを減らすこともできる。またこのようにして生成さ
れた音声認識の対象語を表示部によって表示することに
より、ユーザの正しい順序データの入力を助けることが
でき、順序データの音声認識装置の実用性向上に寄与す
るところが大きい。
ば、現在入力されるべき順序データに1つ以上のダミー
データを加えて音声認識の対象語とすることによって、
認識に必要な時間を短縮することができ、また認識のエ
ラーを減らすこともできる。またこのようにして生成さ
れた音声認識の対象語を表示部によって表示することに
より、ユーザの正しい順序データの入力を助けることが
でき、順序データの音声認識装置の実用性向上に寄与す
るところが大きい。
【図1】第1の発明の原理構成ブロック図である。
【図2】第2の発明の原理構成ブロック図である。
【図3】順序データの音声認識装置の第1の実施形態の
構成ブロック図である。
構成ブロック図である。
【図4】第1の実施形態における全体処理フローチャー
トである。
トである。
【図5】第1の実施形態における別の全体処理フローチ
ャートである。
ャートである。
【図6】認識単語辞書部に格納されているデータの具体
例を説明する図である。
例を説明する図である。
【図7】順序データの音声認識装置の第2の実施形態の
構成ブロック図である。
構成ブロック図である。
【図8】順序データの音声認識装置の第3の実施形態の
構成ブロック図である。
構成ブロック図である。
【図9】図8のダミー単語付き順序データ辞書部に格納
されているデータの具体例を説明する図である。
されているデータの具体例を説明する図である。
【図10】図8のダミー単語追加部による処理フローチ
ャートである。
ャートである。
【図11】順序データの音声認識装置の第4の実施形態
の構成ブロック図である。
の構成ブロック図である。
【図12】第4の実施形態における全体処理フローチャ
ートである。
ートである。
【図13】図11における順序データ辞書部に格納され
ているデータの具体例を説明する図である。
ているデータの具体例を説明する図である。
【図14】図11のダミー単語追加部の処理フローチャ
ートである。
ートである。
【図15】順序データの音声認識装置の第5の実施形態
の構成ブロック図である。
の構成ブロック図である。
1 音声認識対象語生成手段 2 音声認識手段 3 ダミーデータ付き順序データ格納手段 13 順序データ辞書部 14 ダミー単語追加部 15 ダミー単語辞書部 16 認識単語辞書部 17 単語照合部 18 判定部 21 表示部 22 ダミー単語付き順序データ辞書部 23 近隣データ読み出し部
Claims (15)
- 【請求項1】 あらかじめ定められた順序で入力される
べき順序データを音声認識する音声認識装置において、 前記あらかじめ定められた順序に従って現在入力される
べき順序データに1つ以上のダミーデータを加えて、前
記音声認識の認識対象語とする音声認識対象語生成手段
と、 外部から入力される音声の特徴に基づいて、該認識対象
語の中で入力音声に最も類似した対象語を認識結果とし
て出力する音声認識手段とを備えることを特徴とする順
序データの音声認識装置。 - 【請求項2】 前記音声認識手段の認識結果と、前記順
序に従って現在入力されるべきデータとを比較して、両
者の一致を判定する判定手段を更に備えることを特徴と
する請求項1記載の順序データの音声認識装置。 - 【請求項3】 前記ダミーデータが、前記現在入力され
るべきデータと前記順序データ内で近隣関係にある近隣
データであることを特徴とする請求項1、または2記載
の順序データの音声認識装置。 - 【請求項4】 前記1つ以上のダミーデータが加えられ
た前記音声認識の対象語を表示する表示手段を更に備え
ることを特徴とする請求項1、2、または3記載の順序
データの音声認識装置。 - 【請求項5】 あらかじめ定められた順序で入力される
べき順序データを音声認識する音声認識装置において、 前記順序データのそれぞれに対してそれぞれ1つ以上の
ダミーデータを加えたデータを格納したダミーデータ付
き順序データ格納手段と、 該ダミーデータ付き順序データ格納手段から前記あらか
じめ定められた順序に従って現在入力されるべき順序デ
ータと該順序データに対する1つ以上のダミーデータと
を読み出して認識の対象語とし、外部から入力される音
声の特徴に基づいて、該認識対象語の中で入力音声に最
も類似した対象語を認識結果として出力する音声認識手
段とを備えることを特徴とする順序データの音声認識装
置。 - 【請求項6】 前記音声認識手段の認識結果と、前記順
序に従って現在入力されるべきデータとを比較して、両
者の一致を判定する判定手段を更に備えることを特徴と
する請求項5記載の順序データの音声認識装置。 - 【請求項7】 前記ダミーデータが前記現在入力される
べきデータと前記順序データ内で近隣関係にある近隣デ
ータであることを特徴とする請求項5、または6記載の
順序データの音声認識装置。 - 【請求項8】 前記1つ以上のダミーデータが加えられ
た前記音声認識の対象語を表示する表示手段を更に備え
ることを特徴とする請求項5、6、または7記載の順序
データの音声認識装置。 - 【請求項9】 あらかじめ定められた順序で入力される
べき順序データを音声認識する音声認識装置において、 前記順序データのすべてを音声認識の認識対象語として
格納する音声認識対象語格納手段と、 外部から入力される音声の特徴に基づいて、該認識対象
語の中で入力音声に最も類似した対象語を認識結果とし
て出力する音声認識手段とを備えることを特徴とする音
声認識装置。 - 【請求項10】 あらかじめ定められた順序に従って現
在入力されるべき順序データに1つ以上のダミーデータ
を加えて、前記音声認識の認識対象語とする第1の手順
と、 外部から入力される音声の特徴に基づいて、該認識対象
語の中で入力音声に最も類似した対象語を認識結果とし
て出力する第2の手順とをコンピュータに実行させるプ
ログラムを記憶したコンピュータ読み取り可能な記憶媒
体。 - 【請求項11】 順序データのそれぞれに対してそれぞ
れ1つ以上のダミーデータを加えたデータを格納したダ
ミーデータ付き順序データ格納部から前記あらかじめ定
められた順序に従って現在入力されるべき順序データと
該順序データに対する1つ以上のダミーデータとを読み
出して認識の対象語とし、外部から入力される音声の特
徴に基づいて、該認識対象語の中で入力音声に最も類似
した対象語を認識結果として出力する第1の手順をコン
ピュータに実行させるプログラムを記憶したコンピュー
タ読み取り可能な記憶媒体。 - 【請求項12】 順序データのすべてを音声認識の認識
対象語として格納する第1の手順と、 外部から入力される音声の特徴に基づいて、該認識対象
語の中で入力音声に最も類似した対象語を認識結果とし
て出力する第2の手順とをコンピュータに実行させるプ
ログラムを記憶したコンピュータ読み取り可能な記憶媒
体。 - 【請求項13】 あらかじめ定められた順序で入力され
るべき順序データを音声認識する音声認識方法におい
て、 前記あらかじめ定められた順序に従って現在入力される
べき順序データに1つ以上のダミーデータを加えて、前
記音声認識の認識対象語とする第1の手順と、 外部から入力される音声の特徴に基づいて、該認識対象
語の中で入力音声に最も類似した対象語を認識結果とし
て出力する第2の手順からなることを特徴とする順序デ
ータの音声認識方法。 - 【請求項14】 あらかじめ定められた順序で入力され
るべき順序データを音声認識する音声認識方法におい
て、 前記順序データのそれぞれに対してそれぞれ1つ以上の
ダミーデータを加えたデータを格納したダミーデータ付
き順序データ格納部から前記あらかじめ定められた順序
に従って現在入力されるべき順序データと該順序データ
に対する1つ以上のダミーデータとを読み出して認識の
対象語とし、外部から入力される音声の特徴に基づい
て、該認識対象語の中で入力音声に最も類似した対象語
を認識結果として出力することを特徴とする順序データ
の音声認識方法。 - 【請求項15】 あらかじめ定められた順序で入力され
るべき順序データを音声認識する音声認識方法におい
て、 前記順序データのすべてを音声認識の認識対象語として
格納し、 外部から入力される音声の特徴に基づいて、該認識対象
語の中で入力音声に最も類似した対象語を認識結果とし
て出力することを特徴とする音声認識方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP9215306A JPH1152979A (ja) | 1997-08-08 | 1997-08-08 | 順序データの音声認識装置 |
US09/017,682 US6298325B1 (en) | 1997-08-08 | 1998-02-03 | Speech recognition system for sequence data |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP9215306A JPH1152979A (ja) | 1997-08-08 | 1997-08-08 | 順序データの音声認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH1152979A true JPH1152979A (ja) | 1999-02-26 |
Family
ID=16670147
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP9215306A Withdrawn JPH1152979A (ja) | 1997-08-08 | 1997-08-08 | 順序データの音声認識装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US6298325B1 (ja) |
JP (1) | JPH1152979A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003015687A (ja) * | 2001-06-29 | 2003-01-17 | Clarion Co Ltd | ナビゲーション装置及び方法並びにナビゲーション用ソフトウェア |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5396044B2 (ja) * | 2008-08-20 | 2014-01-22 | 株式会社コナミデジタルエンタテインメント | ゲーム装置、ゲーム装置の制御方法、及びプログラム |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4156868A (en) * | 1977-05-05 | 1979-05-29 | Bell Telephone Laboratories, Incorporated | Syntactic word recognizer |
JPH01503786A (ja) * | 1987-06-25 | 1989-12-21 | イビイ イスティテュト ビオキミコ イタリアノ ジョバンニ ロレンツィニ ソチエタ ペル アツィオニ | プロスタグランジン誘導体,それらの製法及びそれらを含有する医薬組成物 |
JP2808906B2 (ja) * | 1991-02-07 | 1998-10-08 | 日本電気株式会社 | 音声認識装置 |
JPH05197389A (ja) * | 1991-08-13 | 1993-08-06 | Toshiba Corp | 音声認識装置 |
US5428707A (en) * | 1992-11-13 | 1995-06-27 | Dragon Systems, Inc. | Apparatus and methods for training speech recognition systems and their users and otherwise improving speech recognition performance |
JPH06214590A (ja) | 1993-01-20 | 1994-08-05 | Asahi Chem Ind Co Ltd | 電話交換機の接続方法および音声認識方法 |
KR100309207B1 (ko) * | 1993-03-12 | 2001-12-17 | 에드워드 이. 데이비스 | 음성-대화식언어명령방법및장치 |
-
1997
- 1997-08-08 JP JP9215306A patent/JPH1152979A/ja not_active Withdrawn
-
1998
- 1998-02-03 US US09/017,682 patent/US6298325B1/en not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003015687A (ja) * | 2001-06-29 | 2003-01-17 | Clarion Co Ltd | ナビゲーション装置及び方法並びにナビゲーション用ソフトウェア |
JP4727852B2 (ja) * | 2001-06-29 | 2011-07-20 | クラリオン株式会社 | ナビゲーション装置及び方法並びにナビゲーション用ソフトウェア |
Also Published As
Publication number | Publication date |
---|---|
US6298325B1 (en) | 2001-10-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5797116A (en) | Method and apparatus for recognizing previously unrecognized speech by requesting a predicted-category-related domain-dictionary-linking word | |
US10074363B2 (en) | Method and apparatus for keyword speech recognition | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
US8793135B2 (en) | System and method for auditory captchas | |
CN104462071A (zh) | 语音翻译设备和语音翻译方法 | |
JP2001034290A (ja) | 音声応答装置および方法、並びに記録媒体 | |
JP2002132287A (ja) | 音声収録方法および音声収録装置および記憶媒体 | |
CN108305618A (zh) | 语音获取及搜索方法、智能笔、搜索终端及存储介质 | |
JP3104661B2 (ja) | 日本語文章作成装置 | |
JPH10274996A (ja) | 音声認識装置 | |
US11929061B2 (en) | Speech analysis system | |
JPH1152979A (ja) | 順序データの音声認識装置 | |
CN117037843A (zh) | 一种语音对抗样本生成方法、装置、终端设备及介质 | |
JPH1083195A (ja) | 入力言語認識装置及び入力言語認識方法 | |
US7181397B2 (en) | Speech dialog method and system | |
JPH10173769A (ja) | 音声メッセージ検索装置 | |
JP2006018028A (ja) | 対話方法、対話装置、音声対話装置、対話プログラム、音声対話プログラム及び記録媒体 | |
JP5381211B2 (ja) | 音声対話装置及びプログラム | |
WO2024111387A1 (ja) | 処理装置、処理方法、及び記録媒体 | |
JP6991409B2 (ja) | 情報処理装置、プログラム及び情報処理方法 | |
JP6538399B2 (ja) | 音声処理装置、音声処理方法およびプログラム | |
JP3090204B2 (ja) | 音声モデル学習装置及び音声認識装置 | |
JP2003108180A (ja) | 音声合成方法および音声合成装置 | |
JP2003122391A (ja) | 音声認識装置およびその制御方法ならびにプログラム | |
KR100677197B1 (ko) | 음성 인식 기술 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20041102 |