JP2007183516A - Voice interactive apparatus and speech recognition method - Google Patents
Voice interactive apparatus and speech recognition method Download PDFInfo
- Publication number
- JP2007183516A JP2007183516A JP2006003048A JP2006003048A JP2007183516A JP 2007183516 A JP2007183516 A JP 2007183516A JP 2006003048 A JP2006003048 A JP 2006003048A JP 2006003048 A JP2006003048 A JP 2006003048A JP 2007183516 A JP2007183516 A JP 2007183516A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- voice
- utterance
- signal processing
- recognition result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、発話された音声に応じて対話をする音声対話装置、及び発話された音声を認識する音声認識方法に関する。 The present invention relates to a voice dialogue apparatus that performs a dialogue according to spoken voice, and a voice recognition method that recognizes spoken voice.
従来から、発話された音声に応じて対話をする音声対話装置を用いて、ユーザが発話した目的地の施設名称などを認識し、認識した目的地に対応する経路情報を提供するナビゲーション装置が提案されている(例えば、特許文献1など参照。)。 Conventionally, a navigation device has been proposed that recognizes the facility name of the destination spoken by the user using a voice dialogue device that performs dialogue according to the spoken voice and provides route information corresponding to the recognized destination. (See, for example, Patent Document 1).
この種のナビゲーション装置においては、自車両が存在する都道府県内の施設名称のみをユーザが発話することにより、目的地入力を行うことができる。また、ナビゲーション装置においては、他県の施設については、都道府県名称といった当該施設に関する属性の名称と施設名称とをユーザが連続的に発話することにより、目的地などを入力することができる。さらに、ナビゲーション装置においては、入力した目的地が誤認識された場合であっても、ユーザが訂正指示を入力して再度発話するなど、いわゆる訂正発話(言い直し発話)を行うことにより、目的地を再入力することもできる。
しかしながら、従来の音声対話装置においては、先に入力された施設名称の誤認識を訂正するために、ユーザが訂正発話を行った場合には、当該先に入力された施設名称の全てが取り消されてしまうことから、取り消された施設名称を最初から入力する手間を強いるという問題があった。例えば、従来の音声対話装置においては、自車両位置が東京都内であり、ユーザが目的地として神奈川県に存在する「追浜駅」と発話したにもかかわらず、これを東京都内に存在する駅名称と照合した結果「奥多摩駅」であるものと誤認識した場合には、ユーザが訂正発話によって「神奈川県の追浜駅」と発話せざるを得なかった。このように、従来の音声対話装置においては、先の発話内容の入力はなかったものとして取り扱うことから、ユーザが重複した発話を繰り返さなければならないという問題があった。 However, in the conventional spoken dialogue apparatus, in order to correct a misrecognition of a facility name input in advance, when the user makes a correction utterance, all the facility names input in advance are canceled. For this reason, there is a problem that it is time-consuming to input the canceled facility name from the beginning. For example, in a conventional spoken dialogue apparatus, the location of the vehicle is in Tokyo, and the user speaks “Oppama Station” in Kanagawa as the destination, but this is the name of the station in Tokyo. If the user misrecognizes that it is “Okutama Station”, the user has to speak “Oppama Station in Kanagawa Prefecture” with a corrected utterance. As described above, in the conventional voice interactive apparatus, since it is assumed that the previous utterance content has not been input, there is a problem that the user has to repeat duplicate utterances.
そこで、本発明は、上述した実情に鑑みて提案されたものであり、訂正発話時におけるユーザの負担を軽減することができる音声対話装置及び音声認識方法を提供することを目的とする。 Therefore, the present invention has been proposed in view of the above-described circumstances, and an object of the present invention is to provide a voice interaction apparatus and a voice recognition method that can reduce the burden on the user at the time of corrected utterance.
本発明にかかる音声対話装置は、発話音声を入力する入力手段と、前記入力手段によって入力された発話音声を音声認識し、音声認識結果に応じたシステム応答を生成する音声認識手段と、前記音声認識手段によって生成された前記システム応答を出力する出力手段とを備える。そして、前記音声認識手段は、音声認識の対象となる語彙を含む第1の言語モデルを用いて第1の発話音声を照合した第1の照合結果が採用されなかった場合には、前記語彙の属性を表す他の語彙を含む第2の言語モデルを用いて第2の発話音声を照合し、得られた第2の照合結果によって限定される言語モデルを用いて前記第1の発話音声を再度音声認識し、音声認識結果に応じたシステム応答を生成することにより、上述の課題を解決する。 The speech dialogue apparatus according to the present invention includes an input unit for inputting speech speech, a speech recognition unit for recognizing speech speech input by the input unit, and generating a system response according to a speech recognition result, and the speech Output means for outputting the system response generated by the recognition means. When the first collation result obtained by collating the first uttered speech using the first language model including the vocabulary to be recognized is not adopted, the speech recognition means The second utterance speech is collated using the second language model including other vocabulary representing the attribute, and the first utterance speech is again represented using the language model limited by the obtained second collation result. The above-described problem is solved by performing speech recognition and generating a system response according to the speech recognition result.
また、本発明にかかる音声認識方法は、入力された発話音声を音声認識し、音声認識結果に応じたシステム応答を生成する音声認識工程と、前記音声認識工程にて生成された前記システム応答を出力する出力工程とを備える。そして、前記音声認識工程では、音声認識の対象となる語彙を含む第1の言語モデルを用いて第1の発話音声を照合した第1の照合結果が採用されなかった場合には、前記語彙の属性を表す他の語彙を含む第2の言語モデルを用いて第2の発話音声を照合し、得られた第2の照合結果によって限定される言語モデルを用いて前記第1の発話音声を再度音声認識し、音声認識結果に応じたシステム応答を生成することにより、上述の課題を解決する。 In addition, the speech recognition method according to the present invention includes a speech recognition step of recognizing input speech and generating a system response according to a speech recognition result, and the system response generated in the speech recognition step. An output step of outputting. In the speech recognition step, if the first collation result obtained by collating the first uttered speech using the first language model including the vocabulary to be speech-recognized is not adopted, The second utterance speech is collated using the second language model including other vocabulary representing the attribute, and the first utterance speech is again represented using the language model limited by the obtained second collation result. The above-described problem is solved by performing speech recognition and generating a system response according to the speech recognition result.
本発明にかかる音声対話装置及び音声認識方法においては、第1の言語モデルを用いてユーザが発話した第1の発話音声を照合した結果、誤認識した場合であっても、訂正発話として、第1の発話音声の語彙の属性を表す語彙を含む第2の発話音声のみを発話すればよく、これに応じて、第2の言語モデルを用いて第2の発話音声を照合して得られた第2の照合結果によって限定される言語モデルを用いて第1の発話音声を再度照合することにより、当該第1の発話音声の語彙を正しく音声認識することが可能となる。 In the spoken dialogue apparatus and the speech recognition method according to the present invention, the first utterance speech uttered by the user using the first language model is collated, and as a result, the correct utterance is It is only necessary to utter the second utterance voice including the vocabulary representing the vocabulary attribute of the utterance voice of one utterance, and the second utterance voice is collated using the second language model accordingly. By collating the first utterance voice again using the language model limited by the second collation result, it becomes possible to correctly recognize the vocabulary of the first utterance voice.
したがって、本発明にかかる音声対話装置及び音声認識方法においては、ユーザが訂正発話する際に、第2の発話音声として第1の発話音声を重複する必要がなくなり、当該ユーザの負担を軽減することができる。 Therefore, in the voice interaction apparatus and the voice recognition method according to the present invention, when the user utters a corrected utterance, it is not necessary to duplicate the first utterance voice as the second utterance voice, thereby reducing the burden on the user. Can do.
以下、本発明の実施の形態について図面を参照して説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
この実施の形態として示す音声対話装置は、車両や、携帯端末装置などに搭載されるナビゲーション装置に適用した場合の構成である。この音声対話装置をナビゲーション装置に適用すると、ナビゲーション装置で要求される各種機能を、ユーザとシステムとのインタラクティブな対話によって動作させることができる。 The voice interaction device shown as this embodiment has a configuration when applied to a navigation device mounted on a vehicle, a portable terminal device or the like. When this voice interactive apparatus is applied to a navigation apparatus, various functions required by the navigation apparatus can be operated by interactive interaction between the user and the system.
なお、本発明は、これに限定されるものではなく、各種情報処理装置に搭載されて、各種機能をインタラクティブに段階的に動作させることができる、どのようなアプリケーションにも適用することができる。 The present invention is not limited to this, and can be applied to any application that is mounted on various information processing apparatuses and can operate various functions interactively in stages.
[第1の実施の形態]
[音声対話装置の構成]
まず、図1を用いて、本発明の第1の実施の形態として示す音声対話装置の構成について説明をする。
[First Embodiment]
[Configuration of voice interactive device]
First, the configuration of the voice interactive apparatus shown as the first embodiment of the present invention will be described with reference to FIG.
音声対話装置は、信号処理ユニット1と、マイク2と、スピーカ3と、入力装置4と、ディスプレイ5とを備えている。なお、本発明にかかわる主要構成要素ではないことから、図示しないが、携帯端末装置のナビゲーション装置であれば、他に送受信手段を備えた構成であってもよく、また、車両に搭載されたナビゲーション装置であれば、送受信手段または通信接続手段などを備えた構成であってもよい。
The voice interactive apparatus includes a
信号処理ユニット1は、マイク2から入力されるユーザによって発話された音声をデジタル音声信号に変換して出力するA/Dコンバータ11と、システム応答として信号処理装置14から出力されるデジタル音声信号をアナログ音声信号に変換して出力するD/Aコンバータ12と、D/Aコンバータ12から出力されるアナログ音声信号を増幅する出力アンプ13と、信号処理装置14と、外部記憶装置15とを備えている。
The
信号処理装置14は、CPU(Central Processing Unit)21と、メモリ22とを備えており、マイク2から、A/Dコンバータ11を介して入力されるユーザによって発話された音声の音声認識処理を実行し、音声認識処理結果を出力する。また、信号処理装置14は、バージイン機能を備えており、当該信号処理装置14によるシステム応答に割り込むように入力されたユーザの発話音声に対しても音声認識処理を実行することができる。
The
CPU21は、信号処理装置14を統括的に制御する制御手段である。CPU21は、メモリ22に記憶されている処理プログラムを読み出して実行し、音声認識処理を制御したり、バージイン機能の制御を行ったりする。
The
通常、バージイン機能は、有効となっておらず機能していない。バージイン機能は、システム応答に対して、ユーザによる割り込み発話がなされると予測された場合にのみ有効となり、割り込み発話に対する音声認識処理が実行される。 Normally, the barge-in function is not enabled and is not functioning. The barge-in function is effective only when it is predicted that an interrupt utterance will be made by the user in response to the system response, and a speech recognition process for the interrupt utterance is executed.
メモリ22は、CPU21で実行される処理プログラムや、使用頻度の高い各種データなどをあらかじめ記憶している。また、メモリ22は、CPU21によって音声認識処理が実行される場合には、外部記憶装置15から読み出された認識対象語及びその音響モデルが格納されることにより、認識対象語の辞書が構築される。
The
信号処理装置14のCPU21は、このメモリ22に構築された辞書を参照して、ユーザによって発話された発話音声の音声特徴パターンと、認識対象語の音響モデルの音声パターンとの一致度を演算することで音声認識処理を行う。
The
外部記憶装置15は、ナビゲーション装置で使用される各種データや、信号処理装置14で実行される音声認識処理で使用される認識対象データや、システム応答用の音声データなどを記憶している。外部記憶装置15は、認識対象データとして、音声認識処理で音声認識の対象となる認識対象語や、認識対象語の音響モデル、さらに、認識対象語とその接続関係を規定したネットワーク文法などの言語モデルを記憶している。認識対象語の音響モデルは、音響的に意味を持つ部分単語モデルを定義したものである。
The
認識対象語の音響モデルは、音響的に意味を持つ部分単語モデルを定義したものであり、一般的な発話速度で発話される際の通常発話と、通常発話を一旦行った際に誤認識されたと判断した後に、ユーザによって発話される訂正発話(言い直し発話)とにそれぞれ対応した音響モデルが用意されている。 The acoustic model of the recognition target word is a definition of a partial word model that has acoustic meaning, and it is misrecognized when a normal utterance is spoken at a normal utterance speed and once a normal utterance is performed. After the determination, the acoustic models corresponding to the corrected utterances (rephrased utterances) uttered by the user are prepared.
また、ネットワーク文法とは、認識対象語の接続関係を規定するためのルールであり、例えば、図2に示すような階層構造で表すことができる。図2に示す例では、認識対象語である“駅名”を下位の階層Bとし、この下位の階層Bに接続される上位の階層Aとして“都道府県名”を規定している。 The network grammar is a rule for defining the connection relation of recognition target words, and can be represented by, for example, a hierarchical structure as shown in FIG. In the example illustrated in FIG. 2, “recognition name” “station name” is defined as a lower hierarchy B, and “prefecture name” is defined as an upper hierarchy A connected to the lower hierarchy B.
信号処理装置14は、図2に示すように認識対象語に対して規定された階層構造をなすネットワーク文法を用いることで、ユーザによって、例えば、「神奈川県の鶴見駅」といったような発話がなされた場合でも、音声認識をすることができる。
As shown in FIG. 2, the
また、“都道府県名”と、“駅名”とを、それぞれ個別に有するネットワーク文法を切り替えて用いれば、「神奈川県」で発話が一旦完了され、その後「鶴見駅」と発話された場合でも音声認識をすることができる。 In addition, if the network grammar that has “prefecture name” and “station name” is switched separately, the utterance is once completed in “Kanagawa Prefecture”, and even if “Tsurumi Station” is subsequently spoken Can recognize.
マイク2は、ユーザの発話音声を、当該音声対話装置に入力する。マイク2から入力されたユーザの発話音声は、電気信号である音声信号に変換され、A/Dコンバータ11でデジタル音声信号に変換されて信号処理装置14に供給される。
The
スピーカ3は、システムの発話として、信号処理装置14から出力され、D/Aコンバータ12でアナログ音声信号に変換され、出力アンプ13で信号増幅されたアナログ音声信号を音声として出力する。
The
入力装置4は、ユーザによって押下される発話スイッチ4a及び訂正スイッチ4bを備えている。発話スイッチ4aは、音声認識の開始指示を行うためのスイッチである。一方、訂正スイッチ4bは、ユーザによって発話された音声が、システムにおいて誤認識された場合に、訂正を行うためのスイッチである。なお、この訂正スイッチ4bを一定期間押し続けると、音声認識処理を途中で終了させることができる。
The
ディスプレイ5は、例えばLCD(液晶表示装置)などで実現され、ナビゲーションの行き先や、探索条件設定時のガイダンス表示を行ったり、経路誘導などの画面を表示したり、信号処理装置14による音声認識処理結果である応答画像を表示させたりする。
The
[音声対話装置の動作]
このような構成からなる音声対話装置は、図3に示す一連の手順にしたがった処理動作を行う。なお、同図においては、ナビゲーション装置の所定の機能を動作させる場合に、ユーザが、要求される設定事項を音声対話装置を介して入力し、ナビゲーション装置を動作させるまでの一連の処理工程を示している。
[Operation of voice interactive device]
The voice interaction apparatus having such a configuration performs processing operations according to a series of procedures shown in FIG. In the figure, when a predetermined function of the navigation device is operated, a series of processing steps from when the user inputs required setting items via the voice interaction device to operate the navigation device are shown. ing.
まず、音声対話装置における信号処理装置14は、ステップS1において、ユーザによる発話スイッチ4aの操作によって発話開始が指示されたことに応じて、発話された音声に対する音声認識処理を開始する。
First, in step S1, the
続いて、信号処理装置14は、ステップS2において、初期状態で認識対象語として待ち受ける文法(言語モデル)を読み出し、メモリ22に設定することにより、語彙の初期化を行う。すなわち、信号処理装置14は、認識対象データとして外部記憶装置15に記憶されている音声認識処理で音声認識の対象となる認識対象語や、認識対象語の音響モデル、さらには、認識対象語とその接続関係を規定したネットワーク文法などの言語モデルを読み出し、メモリ22に設定する。
Subsequently, in step S <b> 2, the
ここで、信号処理装置14は、例えば図4乃至図7に示すような住所や施設名称などを認識対象とする。
Here, for example, the
具体的には、信号処理装置14は、図4に示すように、“都道府県名”、“市名”、“区町村名”などからなる住所の文法に基づいて、「神奈川県横須賀市夏島町」といった住所の連続音声発話や、「神奈川県」、「横須賀市」、「夏島町」といった単語毎に分割された音声発話を認識することができる。また、信号処理装置14は、図5に示すように、“都道府県名”、“駅名”などからなる施設の文法に基づいて、「神奈川県追浜駅」といった施設の連続音声発話や、「神奈川県」、「追浜駅」、といった単語毎に分割された音声発話を認識することができる。
Specifically, as shown in FIG. 4, the
さらに、信号処理装置14は、図6及び図7に示すように、自車両位置Oの近傍に存在する施設名称を集めて動的に構築される文法(言語モデル)を利用することもできる。図6は、領域Aに存在する施設を文法に登録し、領域A以外の領域に存在する施設は登録されない場合の例を示している。ここで、領域Aは、通常、半径数十キロメートルの円領域などとされる。一方、図7は、領域Aを内包する領域Cに存在する施設を文法に登録し、領域Bに存在する施設は登録されない場合の例を示している。なお、領域Aは、領域Cと比較して詳細度の高い施設名称までを抽出して文法が構築される領域である。通常、領域Aは、半径数十キロメートルの円領域などとされ、領域Cは、半径数百キロメートルの円領域などとされる。なお、動的に構築される文法の領域としては、自車両が存在する都道府県領域とすることもできる。この実施の形態においては、自車両位置が東京都内であり、領域Aには数千箇所程度の近傍施設名称が含まれているものとする。
Furthermore, as shown in FIGS. 6 and 7, the
また、信号処理装置14は、図示しないナビゲーション操作コマンドなどを認識対象としてもよい。
The
信号処理装置14は、このようにして語彙の初期化を行うと、図3中ステップS3において、外部記憶装置15に記憶された告知音声データを読み出して、D/Aコンバータ12、出力アンプ13、スピーカ3を介して出力させることで、処理を開始した旨をユーザに告知し、発話要求を行う。
When the
すなわち、ユーザは、スピーカ3を介して出力される、信号処理装置14による処理が開始された旨を知らせる告知音声を聞いたことに応じて、認識対象データに含まれる認識対象語の発話を開始する。ユーザによって発話され、マイク2を介して入力された音声は、A/Dコンバータ11でデジタル音声信号に変化されて、信号処理装置14に出力される。
That is, the user starts uttering the recognition target word included in the recognition target data in response to listening to the notification voice that is output via the
続いて、信号処理装置14は、ステップS4において、ユーザによって発話された音声の取り込みを開始する。
Subsequently, in step S4, the
通常、信号処理装置14は、発話スイッチ4aの操作がなされるまでは、D/Aコンバータ12の出力(デジタル音声信号)の平均パワーを演算している。信号処理装置14は、上述したステップS1において、発話スイッチ4aの操作がなされると、演算された平均パワーと、入力されたデジタル音声信号の瞬間パワーとを比較する。そして、信号処理装置14は、入力されたデジタル音声信号が、演算された平均パワーよりも所定値以上大きくなった場合に、ユーザが発話をした音声区間であると判断して、音声の取り込みを開始する。その後も、信号処理装置14は、平均パワーの演算を継続して実行し、平均パワーが所定値よりも小さくなった場合に、ユーザの発話が終了したと判断をする。
Normally, the
続いて、信号処理装置14は、ステップS5において、取り込まれた発話音声と、外部記憶装置15からメモリ22に読み込まれた認識対象語との一致度演算を開始する。一致度は、音声区間部分のデジタル音声信号と、個々の認識対象語がどの程度似ているのかをスコアとして示したものである。例えば、信号処理装置14は、スコアの値が大きい認識対象語ほど一致度が高いと評価する。なお、信号処理装置14は、この一致度演算を実行している間も、並列処理により音声取り込みを継続して実行する。
Subsequently, in step S <b> 5, the
そして、信号処理装置14は、ステップS6において、デジタル音声信号の瞬間パワーが所定時間以上、所定値以下となったことに応じて、ユーザの発話が終了したと判断し、音声取り込みを終了する。
Then, in step S6, the
信号処理装置14は、音声取り込みを終了すると、ステップS7において、ステップS5における一致度演算が終了するまで待機し、認識対象語を音声認識結果として確定したか否かを判定する。具体的には、信号処理装置14は、音声認識結果の信頼度を演算し、その信頼度が所定の閾値以上であった場合に音声認識結果として確定する。なお、音声認識結果の信頼度の演算については、“駒谷、河原著、「音声対話システムにおける音声認識結果の信頼度の利用法」、日本音響学会全国大会論文集3−5−2、pp.73−74、2000年”などに詳細に記載されている。
After completing the voice capturing, the
ここで、信号処理装置14は、認識対象語を音声認識結果として確定した場合には、ステップS8へと処理を移行する一方で、認識対象語を音声認識結果として確定しない場合には、ステップS12へと処理を移行し、再度発話してもらいたい旨をユーザに告知するために、再発話要求を行い、ステップS4からの処理を繰り返す。
Here, when the recognition target word is determined as the speech recognition result, the
なお、ここでは、自車両位置が東京都内であり、自車両位置に応じて動的に構築される辞書に含まれる施設名称が東京都内近傍に存在する施設名称のみとなることから、ユーザが目的地として神奈川県に存在する「追浜駅」と発話したにもかかわらず、これを東京都内に存在する駅名称と照合した結果「奥多摩駅」であるものと誤認識したものとする。この場合、「奥多摩駅」は、その発音が「追浜駅」と非常に似ており、信頼度も十分に大きな値となることから、信号処理装置14は、「奥多摩駅」を音声認識結果として確定し、ステップS8へと処理を移行することになる。
Here, the user's purpose is that the vehicle position is in Tokyo, and the facility names included in the dictionary dynamically constructed according to the vehicle position are only the facility names existing in the vicinity of Tokyo. It is assumed that despite being uttered “Oppama Station” in Kanagawa Prefecture as a place, it is misrecognized as “Okutama Station” as a result of collating this with the station name existing in Tokyo. In this case, “Okutama Station” is very similar in sound to “Oppama Station” and has a sufficiently high reliability. Therefore, the
信号処理装置14は、ステップS8において、先に図5に示したような文法のように、音声認識した語彙が最下層の語彙を含むか否かを判定する。信号処理装置14は、音声認識した語彙が最下層の語彙を含まないと判定した場合には、ステップS13へと処理を移行する一方で、音声認識した語彙が最下層の語彙を含むと判定した場合には、ステップS9へと処理を移行する。この場合、信号処理装置14は、音声認識した「奥多摩駅」という語彙自体が地点情報を有する最下層の語彙であることから、ステップS9へと処理を移行する。
In step S8, the
続いて、信号処理装置14は、ステップS9において、システム応答を生成して出力する。具体的には、信号処理装置14は、図示しない音声合成処理機能を用いて音声認識結果である「奥多摩駅」を音声信号に変換する。この音声信号は、D/Aコンバータ12でアナログ音声信号に変換され、出力アンプ13で信号増幅された上で、スピーカ3を介して音声として出力される。
Subsequently, the
そして、信号処理装置14は、ステップS10において、ユーザによる訂正スイッチ4bの押下があるか否かを所定時間待ち受ける。ここで、信号処理装置14は、訂正スイッチ4bの押下がなかった場合には、音声認識結果をユーザが認容したと判断し、ステップS11において、音声認識結果を決定し、その音声認識結果に応じた処理を行う。例えば、ナビゲーション装置に適用された音声対話装置においては、音声認識結果の住所を目的地として設定し、一連の処理を終了する。一方、信号処理装置14は、訂正スイッチ4bの押下があった場合には、音声認識結果をユーザが否定したと判断し、ステップS12へと処理を移行する。
In step S10, the
なお、ここでは、ユーザによる発話音声「追浜駅」に対して、システム応答が「奥多摩駅」となったことから、当該ユーザが訂正スイッチ4bを押下し、ステップS12へと処理を移行し、再度発話してもらいたい旨をユーザに告知するために、再発話要求を行い、ステップS4からの処理を繰り返すことになる。
Here, since the system response is “Okutama Station” for the speech voice “Oppama Station” by the user, the user presses the
信号処理装置14は、ステップS4乃至ステップS7において、ユーザによる第2の発話音声の音声認識処理を行う。ここで、ユーザは、発話音声「追浜駅」に対して東京都内に存在する「奥多摩駅」と誤認識されたことに応じて、第2の発話にて「神奈川県」と訂正発話したとする。ユーザによって発話され、マイク2を介して入力された音声は、A/Dコンバータ11でデジタル音声信号に変化されて、信号処理装置14に出力される。これに応じて、信号処理装置14は、音声認識処理を行い、「神奈川県」と正しい音声認識結果を得たとする。
In step S4 to step S7, the
この場合、信号処理装置14は、ステップS8において、音声認識した「神奈川県」という語彙が上位階層の語彙であることから、ステップS13へと処理を移行する。信号処理装置14は、ステップS13において、ステップS7と同様に、「神奈川県」という音声認識結果の信頼度の評価を再度行い、その信頼度が所定の閾値以上であった場合に音声認識結果として確定する。なお、この信頼度の評価においては、ステップS7にて用いた閾値よりも高い閾値を用いる。信号処理装置14は、かかる閾値を用いることによって十分に信頼できる場合にのみ、認識対象語を音声認識結果として確定し、ステップS14へと処理を移行する。一方、信号処理装置14は、認識対象語を音声認識結果として確定しない場合には、第1の発話音声「追浜駅」の利用を諦め、ステップS21へと処理を移行する。なお、ここでは、音声認識結果の確定を行い、ステップS14へと処理を移行したものとする。
In this case, the
続いて、信号処理装置14は、ステップS14において、1つ前のシステム応答としての発話がユーザによって否定されたという事実があったか否かを判定する。ここで、信号処理装置14は、1つ前の発話が存在し、それが否定された場合には、誤認識を訂正しようとするユーザの意図があったと判断し、ステップS15へと処理を移行する一方で、そうでない場合には、ステップS21へと処理を移行する。なお、ここでは、発話音声「追浜駅」に対して東京都内に存在する「奥多摩駅」と誤認識されたことに応じて、第2の発話音声として「神奈川県」と訂正発話したことから、ステップS15へと処理を移行することになる。
Subsequently, in step S14, the
続いて、信号処理装置14は、ステップS15において、音声認識結果である「神奈川県」を信頼し、神奈川県内の施設を待ち受け語として設定する。すなわち、信号処理装置14は、先に図5に示した神奈川県の下位階層に位置する施設名称語彙のみを待ち受け範囲として絞り込み、図4に示した文法、図5の他の部分、図6又は図7に示した文法を待ち受け範囲外とする。
Subsequently, in step S15, the
続いて、信号処理装置14は、ステップS16において、前回の音声認識時に保存しておいたユーザによる第1の発話音声と、ステップS15にて絞り込んだ文法との照合を行うことにより、再度音声認識処理を行う。
Subsequently, in step S16, the
そして、信号処理装置14は、ステップS17において、ステップS7と同様に、「追浜駅」という音声認識結果の信頼度の評価を再度行い、その信頼度が所定の閾値以上であった場合に音声認識結果として確定する。なお、この信頼度の評価においても、ステップS7にて用いた閾値よりも高い閾値を用いる。信号処理装置14は、かかる閾値を用いることによって十分に信頼できる場合にのみ、認識対象語を音声認識結果として確定し、ステップS18へと処理を移行する。一方、信号処理装置14は、認識対象語を音声認識結果として確定しない場合には、第1の発話音声の利用を諦め、ステップS20において、第1の発話音声を破棄した上で、ステップS21へと処理を移行する。
Then, in step S17, the
信号処理装置14は、認識対象語を音声認識結果として確定した場合には、ステップS18において、図示しない音声合成処理機能を用いて音声認識結果である「神奈川県の追浜駅」を音声信号に変換する。この音声信号は、D/Aコンバータ12でアナログ音声信号に変換され、出力アンプ13で信号増幅された上で、スピーカ3を介して音声として出力される。
If the recognition target word is confirmed as a speech recognition result, the
そして、信号処理装置14は、ステップS19において、ユーザによる訂正スイッチ4bの押下があるか否かを所定時間待ち受ける。ここで、信号処理装置14は、訂正スイッチ4bの押下がなかった場合には、音声認識結果をユーザが認容したと判断し、ステップS11において、音声認識結果を決定し、上述したように、その音声認識結果に応じた処理を行い、一連の処理を終了する。一方、信号処理装置14は、訂正スイッチ4bの押下があった場合には、音声認識結果をユーザが否定したと判断し、ステップS20において、第1の発話音声を破棄した上で、ステップS21へと処理を移行する。
In step S19, the
また、信号処理装置14は、ステップS21へと処理を移行した場合には、「神奈川県」という発話音声のみを受理した状態であることから、ステップS22において、ユーザによる訂正スイッチ4bの押下があるか否かを所定時間待ち受ける。ここで、信号処理装置14は、訂正スイッチ4bの押下がなかった場合には、音声認識結果をユーザが認容したと判断し、ステップS23において、文法を、神奈川県内の住所及び施設に限定し、ステップS4からの処理を繰り返す。一方、信号処理装置14は、訂正スイッチ4bの押下があった場合には、音声認識結果をユーザが否定したと判断し、ステップS12において、再度発話してもらいたい旨をユーザに告知するために、再発話要求を行った上で、ステップS4からの処理を繰り返す。
In addition, since the
音声対話装置は、このような一連の手順にしたがった処理動作を行うことにより、第1の発話音声が誤認識された場合であっても、第2の発話音声を音声認識することによって正しい目的地を設定し、ナビゲーション装置の所定の機能を動作させることができる。 By performing the processing operation according to such a series of procedures, the voice interactive apparatus can correctly recognize the second utterance voice even if the first utterance voice is erroneously recognized. The ground can be set and a predetermined function of the navigation device can be operated.
[第1の実施の形態の効果]
以上詳細に説明したように、第1の実施の形態として示した音声対話装置においては、信号処理装置14により、音声認識の対象となる語彙を含む第1の言語モデルを用いて第1の発話音声を照合した第1の照合結果が採用されなかった場合には、その語彙の属性を表す他の語彙を含む第2の言語モデルを用いて第2の発話音声を照合し、得られた第2の照合結果によって限定される言語モデルを用いて第1の発話音声を再度音声認識し、音声認識結果に応じたシステム応答を生成する。
[Effect of the first embodiment]
As described above in detail, in the voice interactive apparatus shown as the first embodiment, the
これにより、この音声対話装置においては、ユーザが訂正発話する際に、第2の発話音声として第1の発話音声を重複する必要がなくなり、当該ユーザの負担を軽減することができる。 As a result, in this voice interactive apparatus, when the user utters a corrected utterance, it is not necessary to duplicate the first utterance as the second utterance, and the burden on the user can be reduced.
具体的には、音声対話装置においては、信号処理装置14により、第2の照合結果によって限定される言語モデルとして、第2の発話音声によって指示される地点に含まれる第1の発話音声と同じ属性を表す語彙を含む言語モデルに絞り込む。例えば、音声対話装置においては、自車両位置が東京都内であるときに、ユーザが目的地として「追浜駅」と発話したにもかかわらず、これを東京都内に存在する施設名称と照合した結果「奥多摩駅」であるものと誤認識した場合であっても、訂正発話として、「追浜駅」の属性としての都道府県を表す「神奈川県」とのみ発話すればよい。これに応じて、音声対話装置においては、神奈川県内に存在する施設名称と第1の発話音声である「追浜駅」とを照合することにより、「追浜駅」という正しい音声認識結果を出力することが可能となる。なお、音声対話装置においては、訂正発話として、例えば「神奈川県の横須賀市」や「京浜急行本線」といったように、都道府県以外の属性を含む発話を第2の発話音声としてもよい。
Specifically, in the voice interaction device, the
また、音声対話装置においては、信号処理装置14により、第2の発話音声の音声認識結果の信頼度が所定の閾値以上であった場合にのみ、第1の発話音声を再度音声認識する。これにより、音声対話装置においては、第2の照合結果が信頼できない場合に、これに基づいて辞書を切り替えて再度音声認識してしまうことがなく、再認識結果が誤認識となってしまう事態を回避することができる。また、音声対話装置においては、無駄に再認識してしまうことによる演算量の増加も回避することができる。
Further, in the voice interaction device, the
さらに、音声対話装置においては、信号処理装置14により、第1の発話音声の再音声認識結果の信頼度が所定の閾値以上であった場合にのみ、システム応答を生成する。これにより、音声対話装置においては、再認識結果が誤認識となってしまう事態を回避することができる。
Further, in the voice interactive apparatus, the
さらにまた、音声対話装置においては、信号処理装置14により、第2の発話音声の音声認識結果の信頼度演算に用いる閾値、又は、第1の発話音声の再音声認識結果の信頼度演算に用いる閾値として、第1の発話音声の音声認識結果の信頼度演算に用いる閾値よりも高い閾値を用いる。これにより、音声対話装置においては、辞書を切り替えて再度音声認識を行った結果の採用基準を高くすることができ、再認識結果が誤認識となってしまう事態を確実に回避することができる。
Furthermore, in the voice interaction device, the
[第2の実施の形態]
つぎに、本発明の第2の実施の形態として示す音声対話装置について説明をする。
[Second Embodiment]
Next, a voice interactive apparatus shown as the second embodiment of the present invention will be described.
この第2の実施の形態として示す音声対話装置は、図1を用いて説明した第1の実施の形態として示す音声対話装置と同一の構成である。したがって、第2の実施の形態として示す音声対話装置の構成については、同一符号を付すことによってその説明を省略する。 The voice interactive apparatus shown as the second embodiment has the same configuration as the voice interactive apparatus shown as the first embodiment described with reference to FIG. Therefore, about the structure of the voice interactive apparatus shown as 2nd Embodiment, the description is abbreviate | omitted by attaching | subjecting the same code | symbol.
また、この第2の実施の形態として示す音声対話装置は、上述した第1の実施の形態として示した音声対話装置と同様に、誤認識があった場合における訂正発話時に、使用する言語モデルを限定することにより、ユーザが重複した発話を繰り返すのを回避することができるものであるが、ユーザによる発話音声によって指示された地点からの距離に基づいて、使用する言語モデルを限定するものである。 In addition, the voice interaction apparatus shown as the second embodiment, like the voice interaction apparatus shown as the first embodiment described above, uses a language model to be used at the time of correct utterance when there is a misrecognition. By limiting, it is possible to prevent the user from repeating repeated utterances, but the language model to be used is limited based on the distance from the point indicated by the user's uttered speech. .
したがって、第2の実施の形態として示す音声対話装置の処理動作は、第1の実施の形態として示した音声対話装置の処理動作として図3を用いて説明したフローチャートの一部が変更されるだけであり、同一の処理内容については、同一ステップ番号を付すことによってその説明を省略する。 Therefore, the processing operation of the voice interaction apparatus shown as the second embodiment is only a part of the flowchart described with reference to FIG. 3 as the processing operation of the voice interaction apparatus shown as the first embodiment. The same processing contents are given the same step numbers, and the description thereof is omitted.
[音声対話装置の動作]
第2の実施の形態として示す音声対話装置は、図8に示す一連の手順にしたがった処理動作を行う。なお、同図においては、ナビゲーション装置の所定の機能を動作させる場合に、ユーザが、要求される設定事項を音声対話装置を介して入力し、ナビゲーション装置を動作させるまでの一連の処理工程を示している。
[Operation of voice interactive device]
The voice interactive apparatus shown as the second embodiment performs processing operations according to a series of procedures shown in FIG. In the figure, when a predetermined function of the navigation device is operated, a series of processing steps from when the user inputs required setting items via the voice interaction device to operate the navigation device are shown. ing.
音声対話装置における信号処理装置14は、ステップS1乃至ステップS6の処理を行い、音声取り込みを終了すると、ステップS7において、音声認識結果の信頼度を演算し、その信頼度が所定の閾値以上であった場合に音声認識結果として確定する。
When the
なお、ここでは、自車両位置が東京都内であり、自車両位置に応じて動的に構築される辞書に含まれる施設名称が東京都内近傍に存在する施設名称のみであるのに応じて、ユーザが目的地として神奈川県に存在する「海洋研究開発機構」と発話したにもかかわらず、これを東京都内に存在する施設名称と照合した結果「葛西臨海公園」であるものと誤認識したものとする。この場合、「葛西臨海公園」は、その発音が「海洋研究開発機構」と非常に似ており、信頼度も十分に大きな値となることから、信号処理装置14は、「葛西臨海公園」を音声認識結果として確定し、ステップS8へと処理を移行することになる。
Here, the user's vehicle position is in Tokyo, and the facility name included in the dictionary that is dynamically constructed according to the vehicle position is only the facility name that exists in the vicinity of Tokyo. Despite having spoken with the “Japan Agency for Marine-Earth Science and Technology” in Kanagawa Prefecture as a destination, the result of collating this with the name of a facility existing in Tokyo was misunderstood as “Kasai Rinkai Park”. To do. In this case, since the pronunciation of “Kasai Rinkai Park” is very similar to that of “Japan Agency for Marine-Earth Science and Technology” and the reliability is sufficiently large, the
信号処理装置14は、ステップS8において、先に図5に示したような文法のように、音声認識した語彙が最下層の語彙を含むか否かを判定する。信号処理装置14は、音声認識した語彙が最下層の語彙を含まないと判定した場合には、ステップS21へと処理を移行する一方で、音声認識した語彙が最下層の語彙を含むと判定した場合には、ステップS31へと処理を移行する。この場合、信号処理装置14は、音声認識した「葛西臨海公園」という語彙自体が地点情報を有する最下層の語彙であることから、ステップS31へと処理を移行する。
In step S8, the
続いて、信号処理装置14は、ステップS31において、1つ前のシステム応答としての発話がユーザによって否定されたという事実があったか否かを判定する。ここで、信号処理装置14は、1つ前の発話が存在し、それが否定された場合には、誤認識を訂正しようとするユーザの意図があったと判断し、ステップS32へと処理を移行する一方で、そうでない場合には、ステップS9へと処理を移行する。なお、ここでは、最初の発話音声(第1の発話音声)しか入力されていないことから、ステップS9へと処理を移行することになる。
Subsequently, in step S31, the
続いて、信号処理装置14は、ステップS9において、システム応答を生成して出力する。具体的には、信号処理装置14は、図示しない音声合成処理機能を用いて音声認識結果である「葛西臨海公園」を音声信号に変換する。この音声信号は、D/Aコンバータ12でアナログ音声信号に変換され、出力アンプ13で信号増幅された上で、スピーカ3を介して音声として出力される。
Subsequently, the
そして、信号処理装置14は、ステップS10において、ユーザによる訂正スイッチ4bの押下があるか否かを所定時間待ち受ける。ここで、信号処理装置14は、訂正スイッチ4bの押下がなかった場合には、音声認識結果をユーザが認容したと判断し、ステップS11において、音声認識結果を決定し、その音声認識結果に応じた処理を行う。例えば、ナビゲーション装置に適用された音声対話装置においては、音声認識結果の住所を目的地として設定し、一連の処理を終了する。一方、信号処理装置14は、訂正スイッチ4bの押下があった場合には、音声認識結果をユーザが否定したと判断し、ステップS12へと処理を移行する。
In step S10, the
なお、ここでは、ユーザによる発話音声「海洋研究開発機構」に対して、システム応答が「葛西臨海公園」となったことから、当該ユーザが訂正スイッチ4bを押下し、ステップS12へと処理を移行し、再度発話してもらいたい旨をユーザに告知するために、再発話要求を行い、ステップS4からの処理を繰り返すことになる。
Here, since the system response is “Kasai Rinkai Park” with respect to the speech voice “Marine Research and Development Organization” by the user, the user presses the
信号処理装置14は、ステップS4乃至ステップS8において、ユーザによる第2の発話音声の音声認識処理を行う。ここで、ユーザは、発話音声「海洋研究開発機構」に対して東京都内に存在する「葛西臨海公園」と誤認識されたことに応じて、第2の発話音声として「海洋研究開発機構」の代替施設としての「神奈川県の追浜駅」と訂正発話したとする。ユーザによって発話され、マイク2を介して入力された音声は、A/Dコンバータ11でデジタル音声信号に変化されて、信号処理装置14に出力される。これに応じて、信号処理装置14は、音声認識処理を行い、「神奈川県の追浜駅」と正しい音声認識結果を得たとする。
In step S4 to step S8, the
この場合、信号処理装置14は、ステップS8において、ユーザが発話した「神奈川県の追浜駅」という語彙が最下層の語彙であることから、ステップS31へと処理を移行し、1つ前のシステム応答としての発話がユーザによって否定されたという事実があったか否かを判定する。なお、ここでは、発話音声「海洋研究開発機構」に対して東京都内に存在する「葛西臨海公園」と誤認識されたことに応じて、第2の発話音声として「神奈川県の追浜駅」と訂正発話したことから、ステップS32へと処理を移行することになる。
In this case, since the vocabulary “Oppama Station in Kanagawa Prefecture” uttered by the user in step S8 is the lowest vocabulary, the
信号処理装置14は、ステップS32において、音声認識結果である「神奈川県の追浜駅」を信頼し、追浜駅から所定距離内に存在する近傍施設を待ち受け語として設定する。すなわち、信号処理装置14は、例えば図9に示すように、追浜駅Aから所定距離内に存在する近傍施設名称を集めて動的に文法(言語モデル)を構築し、その施設名称語彙のみを待ち受け範囲として絞り込む。このとき、信号処理装置14は、追浜駅Aの近傍施設として、詳細度の高い施設名称を抽出し、その施設名称を文法に組み込む。
In step S32, the
続いて、信号処理装置14は、ステップS33において、前回の音声認識時に保存しておいたユーザによる第1の発話音声と、ステップS32にて絞り込んだ文法との照合を行うことにより、再度音声認識処理を行う。なお、ここでは、音声認識結果として「海洋研究開発機構」が得られたものとする。
Subsequently, in step S33, the
そして、信号処理装置14は、ステップS34において、ステップS7と同様に、「海洋研究開発機構」という音声認識結果の信頼度の評価を再度行い、その信頼度が所定の閾値以上であった場合に音声認識結果として確定する。なお、この信頼度の評価においては、ステップS7にて用いた閾値よりも高い閾値を用いる。信号処理装置14は、かかる閾値を用いることによって十分に信頼できる場合にのみ、認識対象語を音声認識結果として確定し、ステップS35へと処理を移行する。一方、信号処理装置14は、認識対象語を音声認識結果として確定しない場合には、第1の発話音声の利用を諦め、ステップS37において、第1の発話音声を破棄した上で、ステップS38へと処理を移行する。
Then, in step S34, the
信号処理装置14は、認識対象語を音声認識結果として確定した場合には、ステップS35において、図示しない音声合成処理機能を用いて音声認識結果である「神奈川県の追浜駅付近の海洋研究開発機構」を音声信号に変換する。この音声信号は、D/Aコンバータ12でアナログ音声信号に変換され、出力アンプ13で信号増幅された上で、スピーカ3を介して音声として出力される。
If the recognition target word is confirmed as the speech recognition result, the
そして、信号処理装置14は、ステップS36において、ユーザによる訂正スイッチ4bの押下があるか否かを所定時間待ち受ける。ここで、信号処理装置14は、訂正スイッチ4bの押下がなかった場合には、音声認識結果をユーザが認容したと判断し、ステップS11において、音声認識結果を決定し、上述したように、その音声認識結果に応じた処理を行い、一連の処理を終了する。一方、信号処理装置14は、訂正スイッチ4bの押下があった場合には、音声認識結果をユーザが否定したと判断し、ステップS37において、第1の発話音声を破棄した上で、ステップS38へと処理を移行する。
In step S36, the
また、信号処理装置14は、ステップS38へと処理を移行した場合には、第1の発話音声が破棄されていることから、今回の音声認識結果である「神奈川県の追浜駅」を図示しない音声合成処理機能を用いて音声信号に変換する。この音声信号は、D/Aコンバータ12でアナログ音声信号に変換され、出力アンプ13で信号増幅された上で、スピーカ3を介して音声として出力される。
Further, when the process proceeds to step S38, the
そして、信号処理装置14は、ステップS39において、ユーザによる訂正スイッチ4bの押下があるか否かを所定時間待ち受ける。ここで、信号処理装置14は、訂正スイッチ4bの押下がなかった場合には、音声認識結果をユーザが認容したと判断し、ステップS11において、音声認識結果を決定し、上述したように、その音声認識結果に応じた処理を行い、一連の処理を終了する。一方、信号処理装置14は、訂正スイッチ4bの押下があった場合には、音声認識結果をユーザが否定したと判断し、ステップS12へと処理を移行し、再度発話してもらいたい旨をユーザに告知するために、再発話要求を行った上で、ステップS4からの処理を繰り返す。
In step S39, the
音声対話装置は、このような一連の手順にしたがった処理動作を行うことにより、第1の発話音声が誤認識された場合であっても、第2の発話音声を音声認識することによって正しい目的地を設定し、ナビゲーション装置の所定の機能を動作させることができる。 By performing the processing operation according to such a series of procedures, the voice interactive apparatus can correctly recognize the second utterance voice even if the first utterance voice is erroneously recognized. The ground can be set and a predetermined function of the navigation device can be operated.
[第2の実施の形態の効果]
以上詳細に説明したように、第2の実施の形態として示した音声対話装置においては、信号処理装置14により、第2の照合結果によって限定される言語モデルとして、第2の発話音声によって指示される地点から所定距離内に存在する第1の発話音声と同じ属性を表す語彙を含む言語モデルに絞り込む。
[Effect of the second embodiment]
As described above in detail, in the voice interactive device shown as the second embodiment, the
これにより、この音声対話装置においては、ユーザが訂正発話する際に、第2の発話音声として第1の発話音声を重複する必要がなくなり、当該ユーザの負担を軽減することができる。例えば、音声対話装置においては、自車両位置が東京都内であるときに、ユーザが目的地として「海洋研究開発機構」と発話したにもかかわらず、これを東京都内に存在する施設名称と照合した結果「葛西臨海公園」であるものと誤認識した場合であっても、訂正発話として、「神奈川県の追浜駅」と目的とする施設の代替となる施設を発話すればよい。これに応じて、音声対話装置においては、神奈川県の追浜駅から所定距離内に存在する施設名称と第1の発話音声である「海洋研究開発機構」とを照合することにより、「海洋研究開発機構」という正しい音声認識結果を出力することが可能となる。 As a result, in this voice interactive apparatus, when the user utters a corrected utterance, it is not necessary to duplicate the first utterance as the second utterance, and the burden on the user can be reduced. For example, in a spoken dialogue device, when the vehicle position is in Tokyo, the user spoke with “Japan Agency for Marine-Earth Science and Technology” as the destination, but this was compared with the name of the facility existing in Tokyo. Even if the result is misunderstood as “Kasai Rinkai Park”, “Oppama Station in Kanagawa” can be used as a corrected utterance to speak out a facility that is an alternative to the target facility. In response to this, the spoken dialogue device collates the name of the facility existing within a predetermined distance from Oppama Station in Kanagawa Prefecture with the “Ocean Research and Development Organization” as the first utterance speech, It is possible to output a correct speech recognition result “mechanism”.
なお、上述の実施の形態は本発明の一例である。このため、本発明は、上述の実施の形態に限定されることはなく、この実施の形態以外の形態であっても、本発明に係る技術的思想を逸脱しない範囲であれば、設計などに応じて種々の変更が可能であることは勿論である。 The above-described embodiment is an example of the present invention. For this reason, the present invention is not limited to the above-described embodiment, and even if it is a form other than this embodiment, as long as it does not depart from the technical idea according to the present invention, the design and the like Of course, various modifications are possible.
1 信号処理ユニット
2 マイク
3 スピーカ
4 入力装置
4a 発話スイッチ
4b 訂正スイッチ
5 ディスプレイ
11 A/Dコンバータ
12 D/Aコンバータ
13 出力アンプ
14 信号処理装置
15 外部記憶装置
21 CPU
22 メモリ
DESCRIPTION OF
22 memory
Claims (7)
前記入力手段によって入力された発話音声を音声認識し、音声認識結果に応じたシステム応答を生成する音声認識手段と、
前記音声認識手段によって生成された前記システム応答を出力する出力手段とを備え、
前記音声認識手段は、音声認識の対象となる語彙を含む第1の言語モデルを用いて第1の発話音声を照合した第1の照合結果が採用されなかった場合には、前記語彙の属性を表す他の語彙を含む第2の言語モデルを用いて第2の発話音声を照合し、得られた第2の照合結果によって限定される言語モデルを用いて前記第1の発話音声を再度音声認識し、音声認識結果に応じたシステム応答を生成すること
を特徴とする音声対話装置。 An input means for inputting speech voice;
Voice recognition means for recognizing speech speech input by the input means and generating a system response according to the voice recognition result;
Output means for outputting the system response generated by the voice recognition means,
If the first collation result obtained by collating the first uttered speech using the first language model including the vocabulary to be recognized is not adopted, the speech recognition means sets the attribute of the vocabulary. The second utterance speech is collated using the second language model including the other vocabulary to represent, and the first utterance speech is recognized again using the language model limited by the obtained second collation result. And generating a system response according to the voice recognition result.
を特徴とする請求項1記載の音声対話装置。 The speech recognition means includes, as a language model limited by the second collation result, a language model including a vocabulary representing the same attribute as that of the first utterance speech included in a point indicated by the second utterance speech The voice interaction device according to claim 1, wherein the voice interaction device is narrowed down to
を特徴とする請求項1記載の音声対話装置。 The speech recognition means, as a language model limited by the second collation result, a vocabulary representing the same attribute as the first speech speech existing within a predetermined distance from a point indicated by the second speech speech The spoken dialogue apparatus according to claim 1, wherein the language model is narrowed down to language models including
前記音声認識手段は、前記信頼度演算手段によって求められた前記第2の発話音声の音声認識結果の信頼度が所定の閾値以上であった場合にのみ、前記第1の発話音声を再度音声認識すること
を特徴とする請求項1記載の音声対話装置。 Comprising reliability calculation means for calculating the reliability of the voice recognition result by the voice recognition means;
The voice recognition means recognizes the first utterance voice again only when the reliability of the voice recognition result of the second utterance voice obtained by the reliability calculation means is equal to or greater than a predetermined threshold. The spoken dialogue apparatus according to claim 1, wherein:
を特徴とする請求項4記載の音声対話装置。 The speech recognition means generates a system response only when the reliability of the re-speech recognition result of the first uttered speech obtained by the reliability calculation means is equal to or greater than a predetermined threshold value. The voice interactive apparatus according to claim 4.
を特徴とする請求項4又は請求項5記載の音声対話装置。 The reliability calculation means uses the first threshold as a threshold used for the reliability calculation of the speech recognition result of the second utterance speech or the threshold used for the reliability calculation of the re-speech recognition result of the first utterance speech. The voice dialogue apparatus according to claim 4 or 5, wherein a threshold value higher than a threshold value used for the reliability calculation of the voice recognition result of the uttered voice is used.
前記音声認識工程にて生成された前記システム応答を出力する出力工程とを備え、
前記音声認識工程では、音声認識の対象となる語彙を含む第1の言語モデルを用いて第1の発話音声を照合した第1の照合結果が採用されなかった場合には、前記語彙の属性を表す他の語彙を含む第2の言語モデルを用いて第2の発話音声を照合し、得られた第2の照合結果によって限定される言語モデルを用いて前記第1の発話音声を再度音声認識し、音声認識結果に応じたシステム応答を生成すること
を特徴とする音声認識方法。 A speech recognition step of recognizing the input speech and generating a system response according to the speech recognition result;
An output step of outputting the system response generated in the voice recognition step,
In the speech recognition step, if the first collation result obtained by collating the first uttered speech using the first language model including the vocabulary to be speech-recognized is not adopted, the attribute of the vocabulary is set. The second utterance speech is collated using the second language model including the other vocabulary to represent, and the first utterance speech is recognized again using the language model limited by the obtained second collation result. And generating a system response according to the speech recognition result.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006003048A JP2007183516A (en) | 2006-01-10 | 2006-01-10 | Voice interactive apparatus and speech recognition method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006003048A JP2007183516A (en) | 2006-01-10 | 2006-01-10 | Voice interactive apparatus and speech recognition method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007183516A true JP2007183516A (en) | 2007-07-19 |
Family
ID=38339667
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006003048A Pending JP2007183516A (en) | 2006-01-10 | 2006-01-10 | Voice interactive apparatus and speech recognition method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007183516A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008065202A (en) * | 2006-09-11 | 2008-03-21 | Alpine Electronics Inc | Point searching device and navigation device |
JP2013072974A (en) * | 2011-09-27 | 2013-04-22 | Toshiba Corp | Voice recognition device, method and program |
JP2016522903A (en) * | 2013-06-14 | 2016-08-04 | 三菱電機株式会社 | Speech recognition system and method |
-
2006
- 2006-01-10 JP JP2006003048A patent/JP2007183516A/en active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008065202A (en) * | 2006-09-11 | 2008-03-21 | Alpine Electronics Inc | Point searching device and navigation device |
JP2013072974A (en) * | 2011-09-27 | 2013-04-22 | Toshiba Corp | Voice recognition device, method and program |
JP2016522903A (en) * | 2013-06-14 | 2016-08-04 | 三菱電機株式会社 | Speech recognition system and method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6570651B2 (en) | Voice dialogue apparatus and voice dialogue method | |
JP4304952B2 (en) | On-vehicle controller and program for causing computer to execute operation explanation method thereof | |
US8639508B2 (en) | User-specific confidence thresholds for speech recognition | |
KR20190001434A (en) | System and device for selecting a speech recognition model | |
JP6024675B2 (en) | Voice recognition terminal device, voice recognition system, and voice recognition method | |
JP2008009153A (en) | Voice interactive system | |
JP2010191400A (en) | Speech recognition system and data updating method | |
JP2003114696A (en) | Speech recognition device, program, and navigation system | |
EP1899955B1 (en) | Speech dialog method and system | |
KR20210098250A (en) | Electronic device and Method for controlling the electronic device thereof | |
JP4914632B2 (en) | Navigation device | |
JP2010197644A (en) | Speech recognition system | |
JP2018116206A (en) | Voice recognition device, voice recognition method and voice recognition system | |
JP2007183516A (en) | Voice interactive apparatus and speech recognition method | |
JP4056711B2 (en) | Voice recognition device | |
JP4951422B2 (en) | Speech recognition apparatus and speech recognition method | |
JP3846500B2 (en) | Speech recognition dialogue apparatus and speech recognition dialogue processing method | |
JP4639094B2 (en) | Speech recognition system, speech recognition apparatus, and speech recognition program | |
JP2007127896A (en) | Voice recognition device and voice recognition method | |
JP6811865B2 (en) | Voice recognition device and voice recognition method | |
JP4624825B2 (en) | Voice dialogue apparatus and voice dialogue method | |
JP2005114964A (en) | Method and processor for speech recognition | |
JP2003330488A (en) | Voice recognition device | |
JP2006337942A (en) | Voice dialog system and interruptive speech control method | |
WO2015102039A1 (en) | Speech recognition apparatus |