JP3718088B2 - Speech recognition correction method - Google Patents
Speech recognition correction method Download PDFInfo
- Publication number
- JP3718088B2 JP3718088B2 JP27036999A JP27036999A JP3718088B2 JP 3718088 B2 JP3718088 B2 JP 3718088B2 JP 27036999 A JP27036999 A JP 27036999A JP 27036999 A JP27036999 A JP 27036999A JP 3718088 B2 JP3718088 B2 JP 3718088B2
- Authority
- JP
- Japan
- Prior art keywords
- correction
- voice
- speech recognition
- character string
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Navigation (AREA)
- Traffic Control Systems (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は、音声認識処理の結果得られた文字列の一部に誤りがある場合にこの誤り部分の修正を行う音声認識修正方式に関する。
【0002】
【従来の技術】
最近の車載用機器、例えばナビゲーション装置やオーディオ機器に各種の操作指示を与える方法としては、利用者が操作パネルやリモートコントロール(リモコン)ユニットに備わった各種のキーを押下する方法の他に、利用者によって発せられた操作音声の内容を音声認識することによって行う方法がある。この操作音声の内容を音声認識する方法によれば、利用者は、各種の操作キーの配置等を覚える必要がなく、しかも走行中に車両が振動した状態でキーの操作を行わないですむため、操作の簡略化が可能である。また、操作音声の内容を音声認識する方法は、特に最近のプロセッサの高速化等に伴って比較的精度の高い音声認識処理が可能になりつつあるため、音声認識を用いた操作指示方法は、車載用機器についても汎用されている。
【0003】
ところで、音声認識の対象となる操作音声をマイクロホンによって集音する場合に、同時にロードノイズやエンジンノイズ等が操作音声とともに集音されるため、静かな環境下で音声を集音する場合に比べて音声認識の認識率が低下する。したがって、通常は誤認識した音声の内容を修正する必要がある。認識結果として得られた文字列の一部に誤りがあった場合には、利用者は、再度同じ内容の音声を少し声の調子を変えて、例えば明瞭に発音するようにして発声し、2回目の音声認識処理が行われる。このようにして、同じ音声に対して何度か音声認識処理を繰り返すことにより、最終的に正しい認識結果としての文字列が得られるようになる。
【0004】
【発明が解決しようとする課題】
ところで、上述した従来の音声認識結果の修正方法は、利用者が同じ音声を発声してその内容に対して音声認識処理が繰り返されるため、認識率が悪い単語を発声した場合に、何度も同じ音声の発声を繰り返すことになり、修正に手間がかかるという問題があった。例えば、認識結果としての文字列を表示させ、その中の修正箇所にカーソルを移動して、直接キーボード等から修正データを入力することができればこのような不都合は生じないが、車載用機器の操作を音声認識処理を用いて行う場合には、利用者による50音等のキー入力が容易ではないため、音声を入力することによって効率よく認識結果の修正を行う方法が望まれている。
【0005】
本発明は、このような点に鑑みて創作されたものであり、その目的は、誤認識された文字を効率良く修正することができる音声認識修正方式を提供することにある。
【0006】
【課題を解決するための手段】
上述した課題を解決するために、本発明の音声認識修正方式では、第1の音声認識手段によって、入力音声に対して音声認識処理を行って、複数の文字からなる認識結果としての文字列データを得るとともに、第2の音声認識手段によって、この得られた文字列データの中の誤認識箇所を修正するために入力された修正用音声に対して音声認識処理を行って、1文字以上のn文字からなる修正用データを取得している。そして、上述した第1の音声認識手段によって得られた文字列データの一部を、上述した第2の音声認識手段によって得られた修正用データに置き換えている。誤認識箇所を修正する際に、上述した第2の音声認識装置によって音声認識処理を行うことにより、1文字以上のn文字からなる修正用データを取得しているので、従来のように、修正用データを入力する際にキーボード等の操作部を操作する必要がなく誤認識箇所を修正する際の操作の簡略化が可能となる。また、誤認識された箇所に対応して修正に必要な音声のみを入力して認識結果の修正を行っているので、従来のように認識させたい音声を声の調子等を変えて何度も入力する手間が省け、効率よく認識結果の修正を行うことができる。
【0007】
また、修正候補通知手段によって、文字列データの中で修正用データに置き換えが可能な修正箇所を通知し、修正箇所選択手段によって、この通知された1あるいは複数の修正箇所の中から、利用者の操作に応じていずれかを選択することが望ましい。修正用データによって置き換えが可能な修正箇所であるか否かの判断については、例えば、置き換えが行われた文字列データが、一般的に用いられる言葉(単語)として存在するか否かを調べることにより判断すればよい。また、特定の操作指示等に対応する音声のみを音声認識の対象としている場合であれば、特定の操作指示に対応した言葉の中に、置き換え後の文字列が含まれるか否かを判断してもよい。このように、文字列データの一部を修正用データに置き換えることが可能な修正箇所だけを通知し、置き換えが不可能な修正箇所については通知しないようにすることで、通知する必要のない情報を排除することができ、修正箇所に関する通知が煩雑になることを防ぐことができる。また、通知された1あるいは複数の修正箇所の中から修正箇所として適しているものを利用者の操作に応じて選択することにより、利用者の意図に沿った修正内容を確実に反映させることができる。
【0008】
また、上述した第1の音声認識手段による音声認識処理に用いられる音声認識辞書を備え、文字列置き換え手段によって修正用データの置き換えが行われた修正後の文字列データに基づいて、音声認識辞書の内容を更新することが望ましい。文字列データの修正が行われたということは、もとの文字列データに対応した音声に対する認識率が低いということなので、この音声に対応する音声認識辞書の内容を修正後の文字列データに基づいて更新することにより、認識率を向上させることができる。
【0009】
【発明の実施の形態】
以下、本発明の音声認識修正方式を適用した一実施形態の音声認識装置およびこの音声認識装置を含んで構成された車載用システムについて図面を参照しながら説明する。
【0010】
〔第1の実施形態〕
図1は、第1の実施形態の車載用システムの構成を示す図である。図1に示す車載用システムは、利用者から音声により与えられる各種の入力指示に対応してナビゲーション処理等の各種動作を行うものであり、利用者が発した音声に対して音声認識処理を行って利用者の発声した音声に対応する文字列を特定する音声認識装置1と、自車位置を検出して自車位置周辺の地図を表示したり、利用者によって選択された目的地までの経路探索および経路誘導等を行うナビゲーション装置2と、音声認識装置1から出力される音声認識結果やナビゲーション装置2から出力される自車位置周辺の地図画像等を表示するディスプレイ装置3と、音声認識装置1から出力される音声認識結果やナビゲーション装置2から出力される各種の案内音声等を出力するオーディオ部4とを備えている。
【0011】
上述した音声認識装置1は、マイクロホン10、音声認識部12、音声認識辞書14、修正用音声認識部16、修正用辞書18、文字列置換部20、修正候補検索部22、修正候補格納部24、認識結果判定部26、画像生成部28、辞書更新部30を含んで構成されている。
【0012】
マイクロホン10は、利用者から発声された音声を集音して電気信号に変換する。音声認識部12は、音声認識辞書14を検索することにより、マイクロホン10を介して入力された音声信号に対して音声認識処理を行い、利用者が発声した音声に対応する文字列データを特定する。
【0013】
修正用音声認識部16は、音声認識結果を修正する際に必要な修正用音声が入力されたときに、修正用辞書18を検索することにより、この修正用音声に対して音声認識処理を行い、修正用音声に対応する文字データ(これを、以後「修正用データ」と称する)を特定する。本実施形態では、修正用音声として1音の文字を考えるものとする。
【0014】
文字列置換部20は、音声認識部12によって特定された文字列データと修正用音声認識部16によって特定された修正用データとを取得し、文字列データに含まれる各文字データを修正用データに置換した文字列データを生成する。具体的には、例えば、音声認識部12によって特定された文字列データが「たきざわ」であり、修正用音声認識部16によって特定された修正用データが「か」であるとすると、文字列置換部20は、文字列データ「たきざわ」に含まれる文字データ「た」と修正用データ「か」を置換した文字列データ「かきざわ」と、文字列データ「たきざわ」に含まれる文字データ「き」と修正用データ「か」を置換した文字列データ「たかざわ」と、文字列データ「たきざわ」に含まれる文字データ「ざ」と修正用データ「か」を置換した文字列データ「たきかわ」と、文字列データ「たきざわ」に含まれる文字データ「わ」と修正用データ「か」を置換した文字列データ「たきざか」とを生成する。
【0015】
修正候補検索部22は、音声認識辞書14を検索し、文字列置換部20によって生成された各文字列データ(置換処理後の各文字列データ)が、音声認識の対象となる文字列として音声認識辞書14に登録されているか否かを調べる。各文字列データが音声認識辞書14に登録されていた場合には、修正候補検索部22は、その文字列データを「修正候補データ」として修正候補格納部24に格納する。
【0016】
認識結果判定部26は、音声認識部12によって得られた音声認識結果を利用者に対して通知し、利用者から与えられる指示入力に基づいて音声認識結果の適否を判定して出力する。また、音声認識結果が誤っていた場合には、認識結果判定部26は、修正候補検索部22によって抽出された音声認識結果の修正候補を利用者に対して通知し、利用者から与えられる指示入力に基づいて最適な修正結果を判定して出力する。この認識結果判定部26によって判定された音声認識結果または最適な修正結果が、音声認識装置1からの出力としてナビゲーション装置2に向けて出力される。
【0017】
画像生成部28は、認識結果判定部26から与えられる指示に基づいて、音声認識結果や音声認識結果の修正候補等の各種画像を表示するための画像データを生成する。画像生成部28によって生成され表示される画像の具体的な表示例については後述する。
【0018】
辞書更新部30は、認識結果判定部26から出力される情報に基づいて音声認識結果に対して修正が行われたか否かを調べ、修正が行われた場合には、修正結果に基づいて音声認識辞書14に格納されたデータの内容を更新する。
【0019】
上述した音声認識部12、音声認識辞書14が第1の音声認識手段に、修正用音声認識部16、修正用辞書18が第2の音声認識手段に、文字列置換部20が文字列置き換え手段に、修正候補検索部22、修正候補格納部24、認識結果判定部26、画像生成部28、ディスプレイ装置3が修正候補通知手段に、認識結果判定部26が修正箇所選択手段に、辞書更新部30が辞書更新手段にそれぞれ対応している。
【0020】
本実施形態の車載用システムは上述した構成を有しており、次に、音声認識装置1において行われる音声認識処理について詳細に説明する。図2および図3は、音声認識装置1において行われる音声認識処理の動作を示す流れ図である。例えば、ナビゲーション装置2に対して、経路探索を行う際の出発地名や目的地名を音声で入力する場合を考え、利用者により音声入力された文字列「かきざわ」が文字列「たきざわ」に誤認識され、これを文字列「かきざわ」に修正する際の動作について説明する。
【0021】
音声認識部12は、マイクロホン10を介して利用者から音声入力が行われたか否かを判定する(ステップ100)。音声入力が行われるまで、ステップ100において否定判断がなされて待機状態となる。音声入力が行われると、音声認識部12は、音声認識辞書14を用いて音声認識処理を行い、利用者が発声した音声に対応する文字列データを特定する(ステップ101)。上述した例では、文字列データとして「たきざわ」が特定される。音声認識部12によって得られた音声認識結果は認識結果判定部26に出力される。
【0022】
認識結果判定部26は、音声認識結果を表示するための画像データを生成するよう画像生成部28に指示を行うとともに、音声認識結果を音声で出力するための音声データを生成してオーディオ部4に出力する。この結果、ディスプレイ装置3の画面上に音声認識結果が表示されるとともに、オーディオ部4から音声認識結果に対応する音声が出力され、音声認識結果が利用者に対して通知される(ステップ102)。
【0023】
図4は、音声認識結果の表示例を示す図である。図4に示すように、ディスプレイ装置3の画面上に、音声認識結果が「たきざわ」である旨の表示と、この音声認識結果が誤っている場合には修正用音声を入力するように促す表示とが行われる。また、図4に示したような表示と並行して、オーディオ部4から、例えば、「音声認識結果は「たきざわ」でよろしいですか?」等のアナウンスが出力される。
【0024】
上述したようにして利用者に対して音声認識結果が通知されると、認識結果判定部26は、一定時間(例えば、30秒間)が経過したか否かを判定し(ステップ103)、一定時間が経過していない場合には、音声入力が行われたか否かを判定する(ステップ104)。音声入力が行われずに一定時間が経過すると、ステップ103において肯定判断がなされ、認識結果判定部26は、音声認識結果をナビゲーション装置2に向けて出力する(ステップ105)。また、一定時間が経過する前に利用者によって音声入力が行われた場合には、ステップ104において肯定判断がなされ、認識結果判定部26は、入力された音声が一文字であるか否かを判定する(ステップ106)。例えば、入力された音声が一文字であるか否かについては修正用音声認識部16が常に監視しており、認識結果判定部26は、修正用音声認識部16から得られる情報に基づいて、入力音声が一文字であるか否かを判定する。
【0025】
入力音声が一文字でない場合には、ステップ106において否定判断がなされ、認識結果判定部26は、入力された音声は認識結果修正用の音声ではなく、次の操作指示等に関する音声であると判断し、上述したステップ101において得られた音声認識結果をナビゲーション装置2に向けて出力する(ステップ107)。その後、ステップ101に戻り、次の操作指示等に関する入力音声(ステップ104での判定処理の対象となった入力音声)に対して音声認識処理以降の動作を行う。
【0026】
また、入力された音声が一文字であった場合には、修正用音声認識部16は、入力された音声が認識結果修正用の音声であると判断し、この音声に対して修正用辞書18を用いて音声認識処理を行い、この音声に対応する修正用データを特定する(ステップ108)。上述した例では、誤認識されている「たきざわ」を「かきざわ」に修正するために利用者によって「か」が音声入力されるので、この音声「か」に対して音声認識処理が行われ、対応する修正用データが特定される。
【0027】
次に、文字列置換部20は、修正対象となる文字列データを音声認識部12から取得するとともに、修正用データを修正用音声認識部16から取得する(ステップ109)。その後、文字列置換部20は、修正対象の文字列データに含まれる最初の文字データを修正用データと置換し、修正候補検索部22に出力する(ステップ110)。上述した例では、修正対象の文字列データ「たきざわ」の最初の文字データ「た」が修正用データ「か」に置換されて生成された文字列データ「かきざわ」が出力される。
【0028】
修正候補検索部22は、音声認識辞書14を検索し、文字列置換部20から出力された文字列データ(置換後の文字列データ)が音声認識の対象となる文字列として音声認識辞書14に登録されているか否かを調べる(ステップ111)。置換後の文字列データが音声認識辞書14に登録されている場合には、修正候補検索部22は、この文字列データを修正候補データとして修正候補格納部24に格納する(ステップ112)。また、置換後の文字列データが音声認識辞書14に登録されていない場合には、ステップ111において否定判断がなされ、この場合には、修正候補検索部22は、ステップ112に示した修正候補データの格納動作を行わない。
【0029】
次に、文字列置換部20は、修正対象の文字列データに含まれる最後の文字データが修正用データに置き換えられたか否かを調べることにより、文字列の置換処理が完了したか否かを判定する(ステップ113)。置換処理が完了していない場合には、ステップ113において否定判断がなされ、文字列置換部20は、次に置換処理の対象となる文字データを修正用データと置換する(ステップ114)。上述した例では、文字列データ「たきざわ」の2文字目の文字データ「き」が修正用データ「か」と置換され、文字列データ「たかざわ」が出力される。また、2回目以降の処理では、文字列データ「たきざわ」の3文字目の文字データ「ざ」が修正用データ「か」と置換された文字列データ「たきかわ」、および文字列データ「たきざわ」の最後の文字データ「わ」が修正用データ「か」と置換された文字列データ「たきざか」がそれぞれ出力される。置換処理が行われると、ステップ111に戻って、置換後の文字列データが音声認識辞書14に格納されているか否かの判定以降の動作が繰り返される。
【0030】
置換処理が完了するとステップ113において肯定判断がなされ、次に、認識結果判定部26は、修正候補格納部24に修正候補データが格納されているか否かを判定する(ステップ115)。修正候補データが格納されていた場合には、認識結果判定部26は、この修正候補データを読み出し、画像生成部28に指示を送り、修正候補の表示を行う(ステップ116)。図5は、修正候補の表示例を示す図であり、修正候補データとして、「かきざわ」、「たかざわ」、「たきかわ」、「たきざか」の各々に対応する文字列データが格納されていた場合の表示例を示している。図5に示すように、各修正候補に対して、「1:かきざわ」、「2:たかざわ」、「3:たきかわ」、「4:たきざか」というように番号が付加されて表示が行われるとともに、最適な修正結果に対応する番号を選択するよう利用者に対して促す表示が行われる。
【0031】
表示された修正候補の中から修正結果として適するものが利用者により選択されると、認識結果判定部26は、選択された修正候補に対応する修正候補データを音声認識結果としてナビゲーション装置2に向けて出力する(ステップ117)。上述した例では、1番の「かきざわ」が利用者によって選択されるものとする。なお、利用者による修正候補の選択方法としては、各修正候補に付加しておいた番号を所定の操作部(図示せず)を介して利用者に選択させるようにしてもよく、また、利用者に番号を音声入力してもらい、これに対して音声認識処理を行って修正候補を選択するようにしてもよい。
【0032】
次に、辞書更新部30は、修正後の音声認識結果に関する情報を認識結果判定部26から取得し、この音声認識結果に対応して音声認識辞書14の内容を更新する(ステップ118)。音声認識辞書14の内容の更新が行われた後は、ステップ100に戻り、音声入力が行われたか否かの判定以降の動作が繰り返される。
【0033】
また、上述したステップ115において、修正候補が格納されていなかった場合には、修正対象の文字列データに2箇所以上の誤認識箇所が含まれている等の理由により修正候補が抽出不可能であったと考えられるので、認識結果判定部26は、画像生成部28に指示を送り、利用者に対して、音声認識結果の修正ができなかったことを知らせ、音声入力を再度行うよう促すエラー通知を表示する(ステップ119)。エラー通知が行われると、ステップ100に戻り、音声入力が行われたか否かの判定以降の動作が繰り返される。
【0034】
このように、本実施形態の音声認識装置1では、音声認識部12によって得られた文字列データに含まれる誤認識箇所に対する修正を行う場合に、修正用音声認識部16によって音声認識処理を行って修正用データを取得し、この修正用データを音声認識部12によって得られた文字列データの一部と置き換えることにより誤認識箇所の修正を行っている。したがって、従来のように認識させたい文字列データに対応する音声を声の調子等を変えて何度も入力する等の手間がなく、効率よく認識結果の修正を行うことができる。また、修正用データの入力を音声入力により行っているので、キーボード等の操作部を用いる必要がなく、操作を簡略化することができる。また、音声認識部12によって得られた文字列データの一部を修正用データと置き換える際に、置き換えが行われた文字列データが音声認識辞書14に登録されているか否かを調べることにより、登録されている文字列データだけを抽出して利用者に通知している。すなわち、文字列データの一部を修正用データに置き換えることが可能な修正箇所だけを利用者に通知しているということであり、修正箇所に関する通知内容が煩雑になるのを防ぐことができる。また、修正箇所として適しているものを利用者の操作に対応して選択しているので、利用者の意図に沿った修正を確実に行うことができる。しかも、認識結果に対して修正を行った場合には、この修正結果に対応して音声認識辞書14の内容を更新しているので、音声認識処理を繰り返し行うことにより認識率を向上させることができるという利点も有する。
【0035】
〔第2の実施形態〕
ところで、上述した第1の実施形態では、音声認識結果に含まれる誤認識箇所が一文字のみの場合について説明したが、同様な処理手順により複数の文字が誤認識されている場合についても音声により修正を行うことができる。
【0036】
図6および図7は、図1に示した音声認識装置1において行われる音声認識処理の動作の変形例を示す流れ図であり、音声認識処理によって得られた文字列データの中の一文字以上のn文字について修正を行う場合の動作手順が示されている。図6および図7に示した動作手順は、図2および図3に示した動作手順に対して、入力音声が一文字であるか否かを判定するステップ106の動作を、利用者による修正指示があったか否かを判定するステップ106Aの動作に置き換えるとともに、修正対象の文字列データに含まれる最初の文字データを修正用データに置き換えるステップ110の動作を、文字列データの最初のn文字を修正用データに置き換えるステップ110Aの動作に置き換えた点が異なっている。
【0037】
すなわち、上述した第1の実施形態では、入力音声が一文字であるか否かを判定することによって、この入力音声が修正用の音声なのか、それとも次の通常の操作用の音声なのかを区別していたため、修正用の音声として複数文字が許容される場合には、このような区別を行うことができなくなる。このため、利用者によって何らかの修正指示がなされた後に入力された音声を修正用の音声として取り扱うことにしている。
【0038】
修正用音声の入力に先立って、利用者による修正指示がなされない場合には、ステップ106Aの判定動作において否定判断が行われ、次に、認識結果判定部26は、入力された音声が認識結果修正用の音声ではなく、次の操作指示等に関する音声であると判断し、認識結果をナビゲーション装置2に向けて出力するステップ107以降の動作が行われる。
【0039】
一方、修正用音声の入力に先立って、利用者による修正指示がなされた場合には、ステップ106Aの判定動作において肯定判断が行われ、次に、修正用音声認識部16は、入力された音声が認識結果修正用の音声であると判断し、この音声に対する音声認識処理を行うステップ108以降の動作が行われる。
【0040】
また、利用者によって修正指示を行う具体的な方法としてはいくつかの方法が考えられる。例えば、操作部(図示せず)の特定キーが押下されたときに修正指示がなされたものと判定したり、利用者が特定の言葉をマイクロホン10に向かって発声したときに修正指示がなされたものと判定する場合などが考えられる。
【0041】
このように、認識結果としての文字列データの修正を行う際に、利用者に何らかの意思表示をさせることにより、複数文字(一文字であってもよい)を対象にした修正が可能になる。
【0042】
また、利用者によって修正指示がなされた後に入力される修正用の音声の文字数nは、あらかじめ設定された固定値を用いることもできるが、その都度自由に設定するようにしてもよい。例えば、特に修正用文字の文字数nが設定されておらず、修正用音声に対する音声認識処理によって得られた修正用データの文字数をこのnの値として採用するようにしてもよい。この場合には、認識結果としての文字列の誤り箇所を利用者が判断し、その都度最適な文字数の修正用音声をマイクロホン10に向かって発声すればよいため、さらに効率よく認識結果の修正を行うことができる。
【0043】
なお、本発明は上記実施形態に限定されるものではなく、本発明の要旨の範囲内において種々の変形実施が可能である。例えば、上述した実施形態では、車載用システムにおいて、本発明を適用した音声認識装置1を用いてナビゲーション装置2に対して所定の指示入力を行う場合について説明したが、これ以外にも、例えば、オーディオ装置等の他の車載用機器に対して所定の指示入力を行うようにしてもよい。また、車載用システム以外の各種システム、例えば、パーソナルコンピュータやワークステーション等の各種コンピュータに対して各種の指示入力を行うような場合においても、本発明を適用することができる。
【0044】
【発明の効果】
上述したように、本発明によれば、音声認識処理の結果得られた文字列の一部に誤認識箇所がある場合に、所定文字数の修正用音声を入力し、この修正用音声に対して音声認識処理を行って修正用データを取得し、文字列データに含まれる誤認識箇所をこの修正用データに置き換えることにより認識結果の修正を行っているため、従来のように認識させたい文字列データに対応する音声を声の調子等を変えて何度も入力する等の手間がなく、効率よく認識結果の修正を行うことができる。また、修正用データの入力を音声入力により行っているので、キーボード等の操作部を用いる必要がなく、操作を簡略化することができる。
【図面の簡単な説明】
【図1】第1の実施形態の車載用システムの構成を示す図である。
【図2】音声認識装置において行われる音声認識処理の動作を示す流れ図である。
【図3】音声認識装置において行われる音声認識処理の動作を示す流れ図である。
【図4】音声認識結果の表示例を示す図である。
【図5】修正候補の表示例を示す図である。
【図6】音声認識装置において行われる音声認識処理の変形例の動作を示す流れ図である。
【図7】音声認識装置において行われる音声認識処理の変形例の動作を示す流れ図である。
【符号の説明】
1 音声認識装置
2 ナビゲーション装置
3 ディスプレイ装置
4 オーディオ部
10 マイクロホン
12 音声認識部
14 音声認識辞書
16 修正用音声認識部
18 修正用辞書
20 文字列置換部
22 修正候補検索部
24 修正候補格納部
26 認識結果判定部
28 画像生成部
30 辞書更新部[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a speech recognition correction method for correcting an error portion when a part of a character string obtained as a result of speech recognition processing has an error.
[0002]
[Prior art]
As a method of giving various operation instructions to recent in-vehicle devices, such as navigation devices and audio devices, in addition to the method in which the user presses various keys on the operation panel or remote control (remote control) unit, it can be used. There is a method of recognizing the contents of operation voices issued by a person. According to the method for recognizing the contents of the operation voice, the user does not need to remember the arrangement of various operation keys, and the user does not have to operate the keys while the vehicle vibrates while driving. The operation can be simplified. In addition, since the method for recognizing the contents of the operation voice is becoming possible with a relatively high accuracy voice recognition process especially with recent increase in processor speed, the operation instruction method using voice recognition is It is also widely used for in-vehicle devices.
[0003]
By the way, when operating sound that is subject to speech recognition is collected with a microphone, road noise and engine noise are simultaneously collected along with the operating sound, so compared to when collecting sound in a quiet environment. The recognition rate of voice recognition decreases. Therefore, it is usually necessary to correct the content of misrecognized speech. If there is an error in a part of the character string obtained as a recognition result, the user utters the same content again with a slightly different tone, for example, clearly pronounced. A second speech recognition process is performed. In this way, by repeating the voice recognition process several times for the same voice, a character string as a correct recognition result can be finally obtained.
[0004]
[Problems to be solved by the invention]
By the way, the conventional speech recognition result correcting method described above is repeated many times when a user utters the same speech and repeats speech recognition processing on the content, and utters a word with a poor recognition rate. There was a problem that it took time and effort to correct the same voice. For example, if you can display a character string as a recognition result, move the cursor to the correction location in the character string, and input correction data directly from the keyboard etc., such inconvenience will not occur. Is performed using voice recognition processing, it is not easy for a user to input a key such as 50 sounds. Therefore, a method for efficiently correcting a recognition result by inputting voice is desired.
[0005]
The present invention has been made in view of such a point, and an object of the present invention is to provide a speech recognition correction method that can efficiently correct misrecognized characters.
[0006]
[Means for Solving the Problems]
In order to solve the above-described problem, in the speech recognition correction method of the present invention, the first speech recognition means performs speech recognition processing on the input speech, and character string data as a recognition result including a plurality of characters. And the second speech recognition means performs speech recognition processing on the correction speech input in order to correct the erroneous recognition location in the obtained character string data. Correction data consisting of n characters is acquired. Then, a part of the character string data obtained by the first voice recognition means described above is replaced with correction data obtained by the second voice recognition means described above. When correcting a misrecognized part, correction data consisting of one or more n characters is acquired by performing the voice recognition process by the second voice recognition device described above, so correction is performed as in the past. It is not necessary to operate an operation unit such as a keyboard when inputting business data, and it is possible to simplify the operation when correcting a misrecognized portion. In addition, since only the voice necessary for correction is input corresponding to the misrecognized part and the recognition result is corrected, the voice to be recognized as before is changed many times by changing the tone of the voice. This eliminates the need for input and can correct the recognition result efficiently.
[0007]
Further, the correction candidate notification means notifies the correction portion that can be replaced with the correction data in the character string data, and the correction portion selection means notifies the user of one or more of the notified correction portions. It is desirable to select one according to the operation. For determining whether or not it is a correction part that can be replaced by the correction data, for example, checking whether or not the character string data that has been replaced exists as a commonly used word (word) Judgment may be made by Also, if only speech corresponding to a specific operation instruction or the like is targeted for speech recognition, it is determined whether or not the replaced character string is included in words corresponding to the specific operation instruction. May be. In this way, information that does not need to be notified is notified by notifying only the correction part that can replace part of the character string data with correction data, and not reporting the correction part that cannot be replaced. Can be prevented, and it is possible to prevent the notification regarding the correction part from becoming complicated. In addition, by selecting one of the notified correction locations that is suitable as the correction location according to the user's operation, the correction content according to the user's intention can be reliably reflected. it can.
[0008]
The speech recognition dictionary includes a speech recognition dictionary used for the speech recognition processing by the first speech recognition unit described above, and based on the corrected character string data in which the correction data is replaced by the character string replacement unit. It is desirable to update the contents. The fact that the character string data has been modified means that the recognition rate for the voice corresponding to the original character string data is low, so the content of the voice recognition dictionary corresponding to this voice is changed to the corrected character string data. By updating based on the recognition rate, the recognition rate can be improved.
[0009]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, a voice recognition device according to an embodiment to which a voice recognition correction method of the present invention is applied and a vehicle-mounted system including the voice recognition device will be described with reference to the drawings.
[0010]
[First Embodiment]
FIG. 1 is a diagram illustrating a configuration of an in-vehicle system according to the first embodiment. The in-vehicle system shown in FIG. 1 performs various operations such as navigation processing in response to various input instructions given by voice from the user, and performs voice recognition processing on the voice uttered by the user. A
[0011]
The
[0012]
The
[0013]
The correction
[0014]
The character string replacement unit 20 acquires the character string data specified by the
[0015]
The correction
[0016]
The recognition
[0017]
The
[0018]
The
[0019]
The
[0020]
The in-vehicle system according to the present embodiment has the above-described configuration. Next, the speech recognition process performed in the
[0021]
The
[0022]
The recognition
[0023]
FIG. 4 is a diagram illustrating a display example of a voice recognition result. As shown in FIG. 4, on the screen of the
[0024]
When the voice recognition result is notified to the user as described above, the recognition
[0025]
If the input voice is not a single character, a negative determination is made in
[0026]
If the input voice is a single character, the correction
[0027]
Next, the character string replacement unit 20 acquires character string data to be corrected from the
[0028]
The correction
[0029]
Next, the character string replacement unit 20 checks whether or not the character string replacement processing is completed by checking whether or not the last character data included in the character string data to be corrected has been replaced with correction data. Determination is made (step 113). If the replacement process has not been completed, a negative determination is made in
[0030]
When the replacement process is completed, an affirmative determination is made in
[0031]
When a user selects a suitable correction result from the displayed correction candidates, the recognition
[0032]
Next, the
[0033]
Further, in the above-described
[0034]
As described above, in the
[0035]
[Second Embodiment]
By the way, in the first embodiment described above, the case where only one character is erroneously recognized included in the speech recognition result has been described. However, even when a plurality of characters are erroneously recognized by the same processing procedure, correction is also performed by speech. It can be performed.
[0036]
6 and 7 are flowcharts showing a modification of the operation of the speech recognition process performed in the
[0037]
That is, in the first embodiment described above, by determining whether or not the input voice is a single character, it is distinguished whether the input voice is a correction voice or a next normal operation voice. Therefore, such a distinction cannot be made when a plurality of characters are allowed as a correction sound. For this reason, the voice input after some correction instruction is given by the user is handled as a correction voice.
[0038]
If the user does not give a correction instruction prior to the input of the correction voice, a negative determination is made in the determination operation of
[0039]
On the other hand, if the user gives a correction instruction prior to the input of the correction voice, an affirmative determination is made in the determination operation of
[0040]
In addition, there are several possible methods for giving a correction instruction by the user. For example, it is determined that a correction instruction is given when a specific key of an operation unit (not shown) is pressed, or a correction instruction is given when a user speaks a specific word toward the
[0041]
As described above, when correcting the character string data as the recognition result, it is possible to correct a plurality of characters (may be one character) by causing the user to display some intention.
[0042]
Further, the fixed number n of voices for correction input after a correction instruction is given by the user may be a preset fixed value, but may be set freely each time. For example, the number n of correction characters is not particularly set, and the number of characters of correction data obtained by the speech recognition process for the correction speech may be adopted as the value of n. In this case, since the user determines the error location of the character string as the recognition result and utters the correction voice having the optimum number of characters to the
[0043]
In addition, this invention is not limited to the said embodiment, A various deformation | transformation implementation is possible within the range of the summary of this invention. For example, in the above-described embodiment, the case where a predetermined instruction is input to the
[0044]
【The invention's effect】
As described above, according to the present invention, when a part of the character string obtained as a result of the speech recognition process has a misrecognized portion, a correction voice having a predetermined number of characters is input, and the correction voice is Since the correction result is obtained by performing voice recognition processing to acquire correction data and replacing the erroneous recognition location included in the character string data with this correction data, the character string that you want to be recognized as before The recognition result can be corrected efficiently without the trouble of inputting the voice corresponding to the data many times by changing the tone of the voice. In addition, since the correction data is input by voice input, it is not necessary to use an operation unit such as a keyboard, and the operation can be simplified.
[Brief description of the drawings]
FIG. 1 is a diagram illustrating a configuration of an in-vehicle system according to a first embodiment.
FIG. 2 is a flowchart showing the operation of speech recognition processing performed in the speech recognition apparatus.
FIG. 3 is a flowchart showing an operation of speech recognition processing performed in the speech recognition apparatus.
FIG. 4 is a diagram illustrating a display example of a voice recognition result.
FIG. 5 is a diagram illustrating a display example of correction candidates.
FIG. 6 is a flowchart showing the operation of a modified example of the speech recognition process performed in the speech recognition apparatus.
FIG. 7 is a flowchart showing the operation of a modified example of the speech recognition process performed in the speech recognition apparatus.
[Explanation of symbols]
1 Voice recognition device
2 Navigation device
3 Display device
4 Audio section
10 Microphone
12 Voice recognition unit
14 Speech recognition dictionary
16 Voice recognition unit for correction
18 Correction Dictionary
20 Character string replacement part
22 Correction candidate search section
24 Correction candidate storage
26 Recognition result determination unit
28 Image generator
30 Dictionary Update Department
Claims (3)
入力される修正用音声に対して音声認識処理を行って、1文字以上のn文字からなる修正用データを得る第2の音声認識手段と、
前記第1の音声認識手段によって得られた前記文字列データの一部であって異なる箇所のそれぞれを前記第2の音声認識手段によって得られた前記修正用データに置き換えて複数の修正候補データを生成する文字列置き換え手段と、
前記文字列置き換え手段によって生成された前記複数の修正候補データを通知する修正候補通知手段と、
前記修正候補通知手段によって通知された前記複数の修正候補データの中から、利用者の操作に応じていずれかを選択する修正箇所選択手段と、
を備え、前記修正箇所選択手段によって選択された前記修正候補データを用いて、前記第1の音声認識手段による認識結果の修正を行うことを特徴とする音声認識修正方式。First speech recognition means for performing speech recognition processing on input speech to obtain character string data as a recognition result composed of a plurality of characters;
Second speech recognition means for performing speech recognition processing on the input correction speech to obtain correction data consisting of one or more n characters;
A part of the character string data obtained by the first voice recognition means and different portions are replaced with the correction data obtained by the second voice recognition means to obtain a plurality of correction candidate data. and string replacement means you generate,
Correction candidate notification means for notifying the plurality of correction candidate data generated by the character string replacement means;
A correction location selection unit that selects one of the plurality of correction candidate data notified by the correction candidate notification unit according to a user operation;
A speech recognition correction method comprising: correcting the recognition result by the first speech recognition means using the correction candidate data selected by the correction location selection means .
前記第1の音声認識手段による音声認識処理に用いられる音声認識辞書と、
前記修正箇所選択手段によって選択された前記修正候補データに基づいて、前記音声認識辞書の内容を更新する辞書更新手段と、
を備えることを特徴とする音声認識修正方式。 In claim 1,
A speech recognition dictionary used for speech recognition processing by the first speech recognition means;
Dictionary updating means for updating the contents of the speech recognition dictionary based on the correction candidate data selected by the correction location selecting means ;
A speech recognition correction method characterized by comprising:
前記修正候補通知手段は、前記文字列置き換え手段によって生成された前記複数の修正候補データのそれぞれが、前記音声認識辞書に音声認識の対象となる文字列として予め登録されているか否かを判定し、登録されていた前記修正候補データのみを通知対象とすることを特徴とする音声認識修正方式。 The correction candidate notification unit determines whether each of the plurality of correction candidate data generated by the character string replacement unit is registered in advance as a character string to be subjected to voice recognition in the voice recognition dictionary. A speech recognition correction method, wherein only the correction candidate data that has been registered is to be notified.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP27036999A JP3718088B2 (en) | 1999-09-24 | 1999-09-24 | Speech recognition correction method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP27036999A JP3718088B2 (en) | 1999-09-24 | 1999-09-24 | Speech recognition correction method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001092493A JP2001092493A (en) | 2001-04-06 |
JP3718088B2 true JP3718088B2 (en) | 2005-11-16 |
Family
ID=17485314
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP27036999A Expired - Fee Related JP3718088B2 (en) | 1999-09-24 | 1999-09-24 | Speech recognition correction method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3718088B2 (en) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8019602B2 (en) * | 2004-01-20 | 2011-09-13 | Microsoft Corporation | Automatic speech recognition learning using user corrections |
JP2005316022A (en) * | 2004-04-27 | 2005-11-10 | Aisin Aw Co Ltd | Navigation device and program |
JP4867654B2 (en) * | 2006-12-28 | 2012-02-01 | 日産自動車株式会社 | Speech recognition apparatus and speech recognition method |
JP4672686B2 (en) | 2007-02-16 | 2011-04-20 | 株式会社デンソー | Voice recognition device and navigation device |
JP4809857B2 (en) * | 2008-03-04 | 2011-11-09 | 日本放送協会 | Related document selection output device and program thereof |
KR102217292B1 (en) * | 2015-02-26 | 2021-02-18 | 네이버 주식회사 | Method, apparatus and computer-readable recording medium for improving a set of at least one semantic units by using phonetic sound |
JP7326931B2 (en) | 2019-07-02 | 2023-08-16 | 富士通株式会社 | Program, information processing device, and information processing method |
-
1999
- 1999-09-24 JP JP27036999A patent/JP3718088B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2001092493A (en) | 2001-04-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6400109B2 (en) | Speech recognition system | |
JP4270611B2 (en) | Input system | |
JP3990075B2 (en) | Speech recognition support method and speech recognition system | |
JP2005331882A (en) | Voice recognition device, method, and program | |
JP2004061576A (en) | Speech control unit | |
JP2002511154A (en) | Extensible speech recognition system that provides audio feedback to the user | |
JP3702867B2 (en) | Voice control device | |
JP2008051895A (en) | Speech recognition apparatus and speech recognition processing program | |
JP3842497B2 (en) | Audio processing device | |
JP3104661B2 (en) | Japanese writing system | |
JP3718088B2 (en) | Speech recognition correction method | |
JP4604377B2 (en) | Voice recognition device | |
JP3726783B2 (en) | Voice recognition device | |
JP2005275228A (en) | Navigation system | |
JP3890774B2 (en) | Navigation system | |
JPH04248596A (en) | speech recognition correction device | |
JP2003005783A (en) | Navigation system and its destination input method | |
JP4212947B2 (en) | Speech recognition system and speech recognition correction / learning method | |
JP2008058452A (en) | Speech information authentication apparatus and method | |
JP2011180416A (en) | Voice synthesis device, voice synthesis method and car navigation system | |
JPH0934491A (en) | Method and device for voice synthetization and navigation system | |
JP2005114964A (en) | Method and processor for speech recognition | |
JP4093394B2 (en) | Voice recognition device | |
JP2003330488A (en) | Voice recognition device | |
JP2003140682A (en) | Voice recognition device and voice dictionary generation method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20050419 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050531 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050727 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050830 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050901 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080909 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090909 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100909 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100909 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110909 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |