JP2005309185A - 音声入力装置、および音声入力方法 - Google Patents
音声入力装置、および音声入力方法 Download PDFInfo
- Publication number
- JP2005309185A JP2005309185A JP2004127870A JP2004127870A JP2005309185A JP 2005309185 A JP2005309185 A JP 2005309185A JP 2004127870 A JP2004127870 A JP 2004127870A JP 2004127870 A JP2004127870 A JP 2004127870A JP 2005309185 A JP2005309185 A JP 2005309185A
- Authority
- JP
- Japan
- Prior art keywords
- voice input
- speaker
- history
- voice
- dialogue
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims description 38
- 238000000605 extraction Methods 0.000 claims description 12
- 238000001514 detection method Methods 0.000 claims description 5
- 230000003993 interaction Effects 0.000 abstract 5
- 230000002452 interceptive effect Effects 0.000 abstract 4
- 230000005236 sound signal Effects 0.000 description 6
- 239000000284 extract Substances 0.000 description 5
- 238000012790 confirmation Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000470 constituent Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
Images
Abstract
【課題】音声入力の再開時に中断前の対話履歴を出力して発話者に提供すること。
【解決手段】履歴生成部105b−1は、音声入力中断前の対話内容が複雑な場合は、対話履歴記憶部105a−2に格納された発話者と音声認識コントローラ105との対話履歴をキーワードとして要約文を生成することにより、中断前の発話者と音声認識コントローラ105との対話履歴を要約して、スピーカー103、およびモニタ104を介して出力する。音声入力中断前の対話内容が単純な場合は、対話履歴記憶部105a−2に格納された発話者と音声認識コントローラ105との対話履歴に基づいて、中断前の発話者による最後の発話を抽出して、スピーカー103、およびモニタ104を介して出力する。
【選択図】 図1
【解決手段】履歴生成部105b−1は、音声入力中断前の対話内容が複雑な場合は、対話履歴記憶部105a−2に格納された発話者と音声認識コントローラ105との対話履歴をキーワードとして要約文を生成することにより、中断前の発話者と音声認識コントローラ105との対話履歴を要約して、スピーカー103、およびモニタ104を介して出力する。音声入力中断前の対話内容が単純な場合は、対話履歴記憶部105a−2に格納された発話者と音声認識コントローラ105との対話履歴に基づいて、中断前の発話者による最後の発話を抽出して、スピーカー103、およびモニタ104を介して出力する。
【選択図】 図1
Description
本発明は、各種機器を音声によって操作するための音声入力装置、および音声入力方法に関する。
対話による音声入力の途中で音声入力を中断した場合、対話の再開時に発話者が円滑な音声入力を行えるよう、中断前の最後の対話履歴を出力して発話者に提示する音声対話装置が特許文献1によって知られている。
しかしながら、従来の音声対話装置においては、中断前の対話内容が複雑であった場合、対話再開時に中断前の最後の対話履歴を出力するだけでは発話者が中断前の対話内容を思い出せないという問題が生じていた。
本発明は、音声案内と発話者の音声入力との対話履歴を記憶するとともに、発話者からの音声入力の中断指示と再開指示を検出し、発話者からの音声入力の中断指示が検出された後、発話者からの音声入力の再開指示が検出された場合に、対話履歴の要約を生成して出力することを特徴とする。
本発明によれば、音声入力の再開時に、中断前の発話者と音声案内の対話履歴から、対話履歴の要約を生成して発話者に提示することとした。これにより、中断前の対話内容が複雑であった場合であっても、発話者は音声入力中断前の対話の内容を的確に把握することができる。
図1は、本発明における音声入力装置の一実施の形態を示し、音声入力装置をカーナビゲーションシステムに適用した場合のブロック図である。運転者(発話者)が発話したナビゲーション装置200に対する操作コマンドは音声入力装置100で認識され、ナビゲーション装置200へ出力される。ナビゲーション装置200は、音声入力装置100から出力されたコマンドにしたがって処理を実行する。
音声入力装置100は、運転者の発話を入力するマイク101と、音声入力の開始、中断、再開、およびキャンセルを指示するための音声入力操作スイッチ102と、ガイダンス音声やビープ音を出力するスピーカー103と、ガイダンス画像や音声信号の認識結果を表示するモニタ104と、入力された音声信号を分析し内容を認識する音声認識コントローラ105とを備えている。マイク101は車両のルームミラー近傍、あるいはステアリングコラム等、ドライバーの口元に接近した位置に設置される。音声入力操作スイッチ102は車両のステアリングホイール等に設置される。また、スピーカー103はナビゲーション装置200から出力される経路誘導の音声ガイダンスを出力し、モニタ104はナビゲーション装置200から出力される地図情報、および誘導経路情報を画像表示する。
音声認識コントローラ105は、メモリ105aと、CPU105bとを有している。メモリ105aはマイク101から入力された音声信号を一時的に記憶し、さらに音声認識用辞書105a−1と、対話履歴記憶部105a−2とを有している。音声認識用辞書105a−1は音声認識実行時の音声待受け単語を格納する。対話履歴記憶部105a−2は、運転者による発話内容を音声認識した結果の履歴と、音声入力が中断した際に中断直前に音声認識コントローラ105が出力したガイダンスによって運転者に要求した操作を示す単語とを対話履歴として記憶する。
CPU105bは、ソフトウェア形態により構成される履歴生成部105b−1を有している。履歴生成部105b−1は、運転者によって音声入力が一時的に中断され、その後再開された場合、対話履歴記憶部105a−2に格納された対話履歴に基づいて、中断前に行っていた音声入力内容の履歴を生成して運転者に対して出力する。これにより、運転者は音声入力再開時に中断前に行った音声入力の内容を思い出すことができ、継続して音声入力を行うことができる。
なお、本実施の形態においては、履歴生成部105b−1は、対話履歴記憶部105a−2に格納された中断前の対話履歴に基づいて、以下の2パターンのいずれかの方法で、音声入力内容の履歴を生成して出力する。なお、運転者に対して履歴を出力するに当たっては、スピーカー103を介した音声による出力と、モニタ104を介した画像による出力とを併用する。
(1)要約生成
要約生成では、履歴生成部105b−1は対話履歴記憶部105a−2に格納された対話履歴に含まれるキーワードを抽出して要約文を生成することにより、中断前の運転者と音声認識コントローラ105との対話履歴を要約する。なお、履歴生成部105b−1は、あらかじめ定義され、メモリ105aに格納された要約文の作成ルールに基づいて、キーワードを結合して要約文を生成する。
(2)最終発話抽出
最終発話抽出では、履歴生成部105b−1は対話履歴記憶部105a−2に格納された対話履歴に基づいて、中断前の運転者による最後の発話内容(音声入力)を抽出する。
(1)要約生成
要約生成では、履歴生成部105b−1は対話履歴記憶部105a−2に格納された対話履歴に含まれるキーワードを抽出して要約文を生成することにより、中断前の運転者と音声認識コントローラ105との対話履歴を要約する。なお、履歴生成部105b−1は、あらかじめ定義され、メモリ105aに格納された要約文の作成ルールに基づいて、キーワードを結合して要約文を生成する。
(2)最終発話抽出
最終発話抽出では、履歴生成部105b−1は対話履歴記憶部105a−2に格納された対話履歴に基づいて、中断前の運転者による最後の発話内容(音声入力)を抽出する。
履歴生成部105b−1は、上記2つのパターンの方法のうち、いずれの方法により履歴を作成するかを、中断前に運転者が行っていた操作カテゴリ(操作の種類)に基づいて判定する。すなわち、音声入力再開時に運転者に対して対話履歴の要約の出力が必要か、あるいは中断前の運転者による最後の発話の出力が必要かを、各操作カテゴリごとにあらかじめ設定して履歴生成方法としてメモリ105aに格納しておく。履歴生成部105b−1は、音声入力が再開された場合、中断前の操作カテゴリに対応する履歴生成方法をメモリ105aから読み出して、当該履歴生成方法で履歴を生成し、運転者に提示する。
なお、操作カテゴリは、例えばナビゲーション装置200において渋滞情報等の交通情報を確認する「交通情報確認」や目的地を設定するために住所を検索する「住所検索」等が設定されている。操作カテゴリが「交通情報確認」の場合、一般には音声認識コントローラ105と運転者とが対話を行いながら、交通情報を確認したい区間の指定や、交通情報を取得するために情報センターへ接続するか否かの指定等を行うため、複雑な対話が発生する。音声入力の中断前にこのような複雑な対話が行われた場合、運転者に対しては単に中断前の最後の発話を出力しただけでは、運転者は中断前の対話内容を把握しにくいと考えられる。したがって、このような複雑な対話が発生する操作カテゴリに対しては、履歴生成方法として「要約生成」が設定される。
これに対して、操作カテゴリが「住所検索」の場合、運転者は音声認識コントローラ105からのガイダンスにしたがって、県、市、町、番地といった情報を順番に入力して住所を絞り込んでいく。このため、運転者と音声認識コントローラ105との対話は単純なものとなる。音声入力の中断前にこのような単純な対話が行われた場合、運転者に対して中断前にどこまで音声入力が完了しているかを提示して「続きをどうぞ」等のガイダンスを出力するだけで、運転者は音声入力を再開することができる。したがって、このような単純な対話が発生する操作カテゴリに対しては、履歴生成方法として「最終発話抽出」が設定される。
以下、操作カテゴリが「交通情報確認」の場合に、履歴生成部105b−1が「要約生成」によって対話履歴の要約を生成する場合の具体例について説明する。運転者が音声入力操作スイッチ102を押下することにより音声入力が開始される。そして、音声認識コントローラ105は、スピーカー103、およびモニタ104を介して、運転者に対して発話を促すガイダンス、例えば「コマンドを入力してください」を出力して、音声入力待受け状態となる。運転者が、交通情報を確認するためのコマンドとして「交通情報を見たい」と発話すると、運転者の発話はマイク101を介して入力され、音声信号がメモリ105aに一時的に格納される。
メモリ105aに格納された音声信号と、音声認識用辞書105a−1に格納された待受け単語とが、音声認識コントローラ105によってマッチング処理され、最も一致度の高い待受け単語、例えば「交通情報確認」が音声認識結果として決定される。そして、認識された単語「交通情報確認」は、運転者による発話の履歴として対話履歴記憶部105a−2に格納される。また、履歴生成部105b−1は現在の操作カテゴリは「交通情報確認」であると判断する。
音声認識コントローラ105は、運転者に引き続き確認する交通情報を絞り込むための発話を促すガイダンス、例えば「どの交通情報を見ますか?」をスピーカー103、およびモニタ104を介して出力する。運転者がナビゲーション装置200によって経路誘導されている経路上の交通情報を見るためのコマンドとして「ルート上の渋滞情報」と発話すると、運転者の発話はマイク101を介して入力され、音声信号がメモリ105aに一時的に格納される。
メモリ105aに格納された音声信号と、音声認識用辞書105a−1に格納された待受け単語とが、音声認識コントローラ105によってマッチング処理され、最も一致度の高い待受け単語、例えば「ルート上」が音声認識結果として決定される。そして、認識された単語「ルート上」は、運転者による発話の履歴として対話履歴記憶部105a−2に格納される。
ナビゲーション装置200は、運転者に対してルート上の交通情報を提供するために、不図示の情報センターへ接続して交通情報を取得する必要がある。このため、音声認識コントローラ105は、運転者に対して情報センターへ接続することに同意を求めるガイダンス、例えば「ネットワークにつないで情報を取得しますか?」をスピーカー103、およびモニタ104を介して出力する。
ここで、運転者は都合により音声入力を中断したいと考え、音声入力を中断するためのコマンドとして「ちょっと待って」と発話したとする。運転者の発話はマイク101を介して入力され、音声信号がメモリ105aに一時的に格納される。そして、メモリ105aに格納された音声信号と、音声認識用辞書105a−1に格納された待受け単語とが、音声認識コントローラ105によってマッチング処理され、最も一致度の高い待受け単語が音声認識結果として決定される。
これにより、音声認識コントローラ105は運転者によって音声入力の中断指示が出されたと判断する。この場合、音声認識コントローラ105は、音声入力の中断直前に出力したガイダンスによって運転者に要求した操作を示す単語、すなわち音声入力再開時に運転者に入力を促す必要がある操作を示す単語を対話履歴記憶部105a−2に格納する。ここでは中断直前に運転者に出力したガイダンス「ネットワークにつないで情報を取得しますか?」を示す「要接続確認」が対話履歴記憶部105a−2に格納される。
そして、音声認識コントローラ105は、音声入力を中断し、音声入力を中断した旨のガイダンス、例えば「音声入力を中断します」をスピーカー103、およびモニタ104を介して出力する。続けて音声入力を再開するときの再開方法を案内するガイダンス、例えば「音声入力を再開するときは操作スイッチを押してください」をスピーカー103、およびモニタ104を介して出力する。
その後、運転者によって音声入力操作スイッチ102が押下され、音声入力が再開されると、履歴生成部105b−1は対話履歴記憶部105a−2から音声入力中断前の履歴を読み込む。すなわち、本実施の形態においては、「交通情報確認」、「ルート上」、および「要接続確認」が読み込まれる。そして、履歴生成部105b−1は、操作カテゴリが「交通情報確認」の場合の履歴生成方法をメモリ105aから読み込む。
操作カテゴリが「交通情報確認」の場合、上述したように、音声認識コントローラ105と運転者との対話が複雑であることから、履歴生成方法として「要約生成」が設定されている。したがって、履歴生成部105b−1は、対話履歴記憶部105a−2に格納された中断前の対話履歴に基づいて対話履歴の要約、例えば「ルート上の交通情報を取得するためにネットワークに接続します。よろしいですか?」を生成する。生成した対話履歴の要約はスピーカー103から音声出力され、モニタ104に図2(a)に示すように表示される。
上記ガイダンスに対して、運転者が「はい」もしくは「いいえ」で応答すると、運転者の発話はマイク101を介して入力され、音声認識用辞書105a−1に格納された待受け単語とマッチング処理されることによって音声認識される。運転者の発話内容が「はい」であった場合、ナビゲーション装置200は不図示の情報センターから通信網を介してルート中の交通情報を取得し、運転者に情報を提供する。
次に、操作カテゴリが「住所検索」の場合に、履歴生成部105b−1が「最終発話抽出」によって音声入力中断前の運転者による最後の発話を抽出する場合の具体例について説明する。運転者が音声入力操作スイッチ102を押下することにより音声入力が開始される。そして、音声認識コントローラ105は、スピーカー103、およびモニタ104を介して、運転者に対して発話を促すガイダンス、例えば「コマンドを入力してください」を出力して、音声入力待受け状態となる。運転者が、住所を検索するためのコマンドとして「住所検索」と発話すると、運転者の発話はマイク101を介して入力され、音声信号がメモリ105aに一時的に格納される。
メモリ105aに格納された音声信号と、音声認識用辞書105a−1に格納された待受け単語とが、音声認識コントローラ105によってマッチング処理され、最も一致度の高い待受け単語、例えば「住所検索」が音声認識結果として決定される。そして、認識された単語「住所検索」は、運転者による発話の履歴として対話履歴記憶部105a−2に格納される。また、履歴生成部105b−1は現在の操作カテゴリは「住所検索」であると判断する。
音声認識コントローラ105は、運転者に引き続き住所を絞り込むために都道府県名の入力を促すガイダンス、例えば「都道府県名をどうぞ」をスピーカー103、およびモニタ104を介して出力する。運転者が都道府県名として「神奈川県」と発話すると、運転者の発話はマイク101を介して入力され、音声信号がメモリ105aに一時的に格納される。
メモリ105aに格納された音声信号と、音声認識用辞書105a−1に格納された待受け単語とが、音声認識コントローラ105によってマッチング処理され、最も一致度の高い待受け単語が音声認識結果として決定される。そして、認識された単語「神奈川県」は、運転者による発話の履歴として対話履歴記憶部105a−2に格納される。
音声認識コントローラ105は、さらに住所を絞り込むために市町村名の入力を促すガイダンス、例えば「市町村名をどうぞ」をスピーカー103、およびモニタ104を介して出力する。ここで、運転者は都合により音声入力を中断したいと考え、音声入力を中断するためのコマンドとして「ちょっと待って」と発話したとする。運転者の発話はマイク101を介して入力され、音声信号がメモリ105aに一時的に格納される。そして、メモリ105aに格納された音声信号と、音声認識用辞書105a−1に格納された待受け単語とが、音声認識コントローラ105によってマッチング処理され、最も一致度の高い待受け単語が音声認識結果として決定される。
これにより、音声認識コントローラ105は運転者によって音声入力の中断指示が出されたと判断する。この場合、音声認識コントローラ105は、音声入力の中断直前に出力したガイダンスによって運転者に要求した操作を示す単語を対話履歴記憶部105a−2に格納する。すなわち中断直前に運転者に出力したガイダンス「市町村名をどうぞ」を示す「要市町村名」が対話履歴記憶部105a−2に格納される。
そして、音声認識コントローラ105は、音声入力を中断し、音声入力を中断した旨のガイダンス、例えば「音声入力を中断します」をスピーカー103、およびモニタ104を介して出力する。続けて音声入力を再開するときの再開方法を案内するガイダンス、例えば「音声入力を再開するときは操作スイッチを押してください」をスピーカー103、およびモニタ104を介して出力する。
その後、運転者によって音声入力操作スイッチ102が押下され、音声入力が再開されると、履歴生成部105b−1は、対話履歴記憶部105a−2から音声入力中断前の対話履歴を読み込む。すなわち、本実施の形態においては、「住所検索」、「神奈川県」、および「要市町村名」が読み込まれる。そして、履歴生成部105b−1は、操作カテゴリが「住所検索」の場合の履歴生成方法をメモリ105aから読み込む。
操作カテゴリが「住所検索」の場合、上述したように、音声認識コントローラ105と運転者との対話が単純であることから、履歴生成方法として「最終発話抽出」が設定されている。したがって、履歴生成部105b−1は、対話履歴記憶部105a−2から読み込んだ対話履歴から中断前の運転者による最後の発話、すなわち「神奈川県」を抽出する。また、履歴生成部105b−1は、「要市町村名」から音声入力再開後は運転者に対して市町村名の入力を促す必要があると判断できるため、抽出した最後の発話に運転者の発話を促すガイダンス、例えば「続きをどうぞ」を付加する。抽出した最後の発話とガイダンス、すなわち「神奈川県 続きをどうぞ」は、スピーカー103から音声出力され、モニタ104に図2(b)に示すように表示される。これにより、運転者は市町村名の入力から再開すれば良いことを把握することができ、住所検索を続行することができる。
以上説明した処理の流れを、図3に示すフローチャートにしたがって詳細に説明する。ステップS10において、運転者によって音声入力操作スイッチ102が押下されたか否かが判断される。運転者によって音声入力操作スイッチ102が押下されたと判断された場合、音声認識コントローラ105は音声入力を開始してステップS20へ進む。ステップS20において、音声認識コントローラ105は、スピーカー103、およびモニタ104を介して、運転者に対して発話を促すガイダンスを出力すると、ステップS30で音声待ち受け状態となる。
ステップS40において、音声入力があったか否か、すなわち運転者の発話がマイク101を介して入力されたか否かが判断される。音声入力があったと判断された場合は、ステップS50へ進む。ステップS50において、音声認識コントローラ105は発話派の発話によって入力された音声信号をメモリ105aに格納し、音声認識用辞書105a−1に格納された待受け単語とマッチング処理することにより音声認識を実行する。
ステップS60において、運転者によって音声入力の中断が指示されたか否かが判断される。運転者によって音声入力が指示されないと判断された場合には、ステップS70へ進む。ステップS70において、上記音声認識した単語を対話履歴として対話履歴記憶部105a−2に格納する。
ステップS80において、音声入力が終了したか否かが判断される。すなわち、各操作カテゴリにおけるすべての音声入力が完了したか否かが判断される。例えば、操作カテゴリが「交通情報確認」である場合には、運転者が交通情報取得のために情報センターへ接続することに同意した場合に、すべての音声入力が完了したと判断する。また、操作カテゴリが「住所検索」である場合には、運転者が番地の入力を完了し、目的の住所が特定できた場合に、すべての音声入力が完了したと判断する。
ステップS80において、音声入力が終了しないと判断された場合にはステップS20へ戻り、音声認識コントローラ105は音声入力を継続するために運転者に対して次の発話を促すガイダンスをスピーカー103、およびモニタ104を介して出力して処理を継続する。一方、音声入力が終了したと判断された場合には、処理を終了する。
なお、上記音声入力によって認識されたコマンドは、ナビゲーション装置200へ出力され、ナビゲーション装置200は当該コマンドに基づいて処理を実行する。例えば、音声認識の結果、運転者が交通情報取得のために情報センターへ接続することに同意したことを認識した場合には、ナビゲーション装置200は情報センターに所定の通信網を介して接続し、ルート上の交通情報を取得する。そして、取得した交通情報に基づいて、渋滞区間等を地図上に表示しモニタ104に出力する。
次に、ステップS60で運転者によって音声入力の中断が指示されたと判断された場合の処理について説明する。ステップS60で運転者によって音声入力の中断が指示されたと判断された場合、ステップS90へ進む。ステップS90において、音声認識コントローラ105は、音声入力中断直前に音声認識コントローラ105が出力したガイダンスによって運転者に要求した操作を示す単語、例えば「要接続確認」や「要市町村名」を対話履歴記憶部105a−2に格納する。
ステップS100において、音声入力を中断した旨のガイダンスをスピーカー103、およびモニタ104を介して出力する。続けて音声入力を再開するときの再開方法を案内するガイダンスをスピーカー103、およびモニタ104を介して出力する。その後、ステップS110で運転者によって音声入力操作スイッチ102が押下され、音声入力が再開されたか否かが判断される。音声入力が再開されたと判断した場合には、ステップS120へ進む。
ステップS120において、履歴生成部105b−1は対話履歴記憶部105a−2から音声入力中断前の履歴を読み込み、ステップS130で履歴生成部105b−1は現在の操作カテゴリに対応した履歴生成方法をメモリ105aから読み込む。ステップS140において、読み込んだ履歴生成方法が「要約生成」であるか、あるいは「最終発話抽出」であるかが判断される。
履歴生成方法が「要約生成」であると判断された場合はステップS150へ進む。ステップS150において、履歴生成部105b−1はステップS120で読み込んだ対話履歴に基づいて、対話履歴の要約を生成する。その後ステップS20に戻り、音声認識コントローラ105は、生成した対話履歴の要約をスピーカー103、およびモニタ104を介して出力する。
一方、ステップS140において、履歴生成方法が「最終発話抽出」であると判断された場合は、ステップS160へ進む。ステップS160において、履歴生成部105b−1はステップS120で読み込んだ対話履歴から中断前の運転者による最後の発話を抽出する。そして、音声認識再開時に運転者に対して要求する操作に基づいたガイダンス、例えば「続きをどうぞ」を付加する。その後ステップS20に戻り、音声認識コントローラ105は、抽出した最後の発話と付加したガイダンスをスピーカー103、およびモニタ104を介して出力する。
以上、本実施の形態によれば、以下のような作用効果を得ることができる。
(1)操作カテゴリごとに運転者と音声認識コントローラ105との対話の複雑度に応じて履歴提示方法を予め設定することとした。これにより、音声入力中断前の対話の複雑度に応じて、音声入力再開時に出力する履歴の内容を変化させることができる。
(2)音声入力中断前の対話が複雑な操作カテゴリに対しては、音声入力の再開時に運転者に対して中断前の対話履歴の要約を提示することとした。これにより、運転者は音声入力の再開時において、中断前の対話の内容を的確に把握することができ、音声入力をスムーズに再開することができる。
(3)一方、音声入力中断前の対話が単純な操作カテゴリに対しては、音声入力の再開時に運転者に対して中断前の最後の発話内容を提示することとした。これにより、中断前の対話内容が単純で対話履歴の要約を出力する必要がない場合には、煩雑な要約処理を省略することができ、直ちに音声入力を再開することができる。
(1)操作カテゴリごとに運転者と音声認識コントローラ105との対話の複雑度に応じて履歴提示方法を予め設定することとした。これにより、音声入力中断前の対話の複雑度に応じて、音声入力再開時に出力する履歴の内容を変化させることができる。
(2)音声入力中断前の対話が複雑な操作カテゴリに対しては、音声入力の再開時に運転者に対して中断前の対話履歴の要約を提示することとした。これにより、運転者は音声入力の再開時において、中断前の対話の内容を的確に把握することができ、音声入力をスムーズに再開することができる。
(3)一方、音声入力中断前の対話が単純な操作カテゴリに対しては、音声入力の再開時に運転者に対して中断前の最後の発話内容を提示することとした。これにより、中断前の対話内容が単純で対話履歴の要約を出力する必要がない場合には、煩雑な要約処理を省略することができ、直ちに音声入力を再開することができる。
なお、上述した実施の形態においては、運転者に対するガイダンスをスピーカー103、およびモニタ104を併用して出力することとした。しかし、スピーカー103、およびモニタ104のいずれか一方を用いて出力することとしてもよい。
運転者が音声入力を中断する際、音声で音声入力装置105へ中断の指示を出すこととした。しかし、運転者は音声入力操作スイッチ102を押下することで音声入力を中断してもよい。
上述した実施の形態では、本発明をカーナビゲーションシステムに適用した例を示したが、本発明はカーナビゲーションシステムに限定されず、例えば、オーディオシステム等のあらゆる装置に適用することが可能である。
上述した実施の形態では、音声案内と発話者の音声入力との対話の複雑さに応じて音声入力再開時の対話履歴の提示方法を選択する例を示したが、対話の長さや音声入力による操作の重要度に応じて対話履歴の提示方法を選択するようにしてもよい。
特許請求の範囲の構成要素と実施の形態との対応関係について説明する。音声入力操作スイッチ102は検出手段に、履歴生成部105b−1は要約生成手段、最終音声入力抽出手段、および履歴提示方法選択手段に、スピーカー103、およびモニタ104は出力手段に相当する。なお、本発明の特徴的な機能を損なわない限り、本発明は、上述した実施の形態における構成に何ら限定されない。
100 音声入力装置
101 マイク
102 音声入力操作スイッチ
103 スピーカー
104 モニタ
105 音声認識コントローラ
105a メモリ
105a−1 音声認識用辞書
105a−2 対話履歴記憶部
105b CPU
105b−1 履歴生成部
200 ナビゲーション装置
101 マイク
102 音声入力操作スイッチ
103 スピーカー
104 モニタ
105 音声認識コントローラ
105a メモリ
105a−1 音声認識用辞書
105a−2 対話履歴記憶部
105b CPU
105b−1 履歴生成部
200 ナビゲーション装置
Claims (6)
- 音声案内にしたがって発話者が音声入力を行い、発話者によって入力された音声信号を認識する音声入力装置において、
音声案内と発話者の音声入力との対話履歴を記憶する対話履歴記憶手段と、
発話者からの音声入力の中断指示と再開指示を検出する検出手段と、
前記検出手段によって発話者からの音声入力の中断指示が検出された後、前記検出手段によって発話者からの音声入力の再開指示が検出された場合に、前記対話履歴記憶手段に記憶された前記対話履歴の要約を生成する要約生成手段と、
前記要約生成手段によって生成された前記対話履歴の要約を発話者に出力する出力手段とを有することを特徴とする音声入力装置。 - 請求項1に記載の音声入力装置において、
前記要約生成手段は、前記対話履歴記憶手段に記憶されている対話履歴の中からキーワードを抽出して要約を生成することを特徴とする音声入力装置。 - 請求項1または2に記載の音声入力装置において、
前記検出手段によって発話者からの音声入力の中断指示が検出された後、前記検出手段によって発話者からの音声入力の再開指示が検出された場合に、前記対話履歴記憶手段に記憶された前記対話履歴から発話者による最後の音声入力を抽出する最終音声入力抽出手段と、
前記発話者の音声入力による操作の種類に応じて、前記要約生成手段により前記対話履歴を要約するか、または前記最終音声入力抽出手段により最後の音声入力を抽出するかを選択する履歴提示方法選択手段とをさらに有し、
前記出力手段は、前記履歴提示方法選択手段により選択された前記対話履歴の要約、または前記最後の音声入力を出力することを特徴とする音声入力装置。 - 請求項3に記載の音声入力装置において、
前記履歴提示方法選択手段は、音声案内と発話者の音声入力との対話が複雑な種類の操作に対しては、前記要約生成手段による前記対話履歴の要約を選択し、音声案内と発話者の音声入力との対話が単純な種類の操作に対しては、前記最終音声入力抽出手段による最後の音声入力の抽出を選択することを特徴とする音声入力装置。 - 請求項1〜4のいずれか一項に記載の音声入力装置において、
前記出力手段は、画像を表示するモニタ、および音声を出力するスピーカーのうち、少なくともいずれか一方であることを特徴とする音声入力装置。 - 音声案内にしたがって発話者が音声入力を行い、発話者によって入力された音声信号を認識する音声入力方法において、
音声案内と発話者の音声入力との対話履歴を記憶するとともに、発話者からの音声入力の中断指示と再開指示を検出し、
発話者からの音声入力の中断指示が検出された後、発話者からの音声入力の再開指示が検出された場合に、前記対話履歴の要約を生成し、
生成された前記対話履歴の要約を発話者に出力することを特徴とする音声入力方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004127870A JP2005309185A (ja) | 2004-04-23 | 2004-04-23 | 音声入力装置、および音声入力方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004127870A JP2005309185A (ja) | 2004-04-23 | 2004-04-23 | 音声入力装置、および音声入力方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005309185A true JP2005309185A (ja) | 2005-11-04 |
Family
ID=35438027
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004127870A Withdrawn JP2005309185A (ja) | 2004-04-23 | 2004-04-23 | 音声入力装置、および音声入力方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005309185A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014066790A (ja) * | 2012-09-25 | 2014-04-17 | Mitsubishi Electric Corp | エレベータの音声呼び登録装置 |
KR20140064360A (ko) * | 2012-11-20 | 2014-05-28 | 엘지전자 주식회사 | 이동 단말기 및 그 제어방법 |
US9305555B2 (en) | 2012-06-25 | 2016-04-05 | Mitsubishi Electric Corporation | Onboard information device |
JP2016191740A (ja) * | 2015-03-30 | 2016-11-10 | 株式会社エヌ・ティ・ティ・データ | 音声処理装置、音声処理方法およびプログラム |
WO2023210171A1 (ja) * | 2022-04-27 | 2023-11-02 | 日産自動車株式会社 | 音声対話装置及び音声対話方法 |
-
2004
- 2004-04-23 JP JP2004127870A patent/JP2005309185A/ja not_active Withdrawn
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9305555B2 (en) | 2012-06-25 | 2016-04-05 | Mitsubishi Electric Corporation | Onboard information device |
JPWO2014002128A1 (ja) * | 2012-06-25 | 2016-05-26 | 三菱電機株式会社 | 車載情報装置 |
CN104412323B (zh) * | 2012-06-25 | 2017-12-12 | 三菱电机株式会社 | 车载信息装置 |
JP2014066790A (ja) * | 2012-09-25 | 2014-04-17 | Mitsubishi Electric Corp | エレベータの音声呼び登録装置 |
KR20140064360A (ko) * | 2012-11-20 | 2014-05-28 | 엘지전자 주식회사 | 이동 단말기 및 그 제어방법 |
KR101995428B1 (ko) * | 2012-11-20 | 2019-07-02 | 엘지전자 주식회사 | 이동 단말기 및 그 제어방법 |
JP2016191740A (ja) * | 2015-03-30 | 2016-11-10 | 株式会社エヌ・ティ・ティ・データ | 音声処理装置、音声処理方法およびプログラム |
WO2023210171A1 (ja) * | 2022-04-27 | 2023-11-02 | 日産自動車株式会社 | 音声対話装置及び音声対話方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106030697B (zh) | 车载控制装置及车载控制方法 | |
JP6570651B2 (ja) | 音声対話装置および音声対話方法 | |
JP6400109B2 (ja) | 音声認識システム | |
US5797116A (en) | Method and apparatus for recognizing previously unrecognized speech by requesting a predicted-category-related domain-dictionary-linking word | |
JP2009169139A (ja) | 音声認識装置 | |
JP2004506971A (ja) | 音声入出力の制御方法 | |
JP2005331882A (ja) | 音声認識装置、音声認識方法、および音声認識プログラム | |
JP2014142566A (ja) | 音声認識システムおよび音声認識方法 | |
US7027565B2 (en) | Voice control system notifying execution result including uttered speech content | |
JP2003114698A (ja) | コマンド受付装置及びプログラム | |
JP5217838B2 (ja) | 車載機器の操作装置及び車載機器の操作方法 | |
JP2005309185A (ja) | 音声入力装置、および音声入力方法 | |
JP5074759B2 (ja) | 対話制御装置、対話制御方法及び対話制御プログラム | |
JP2004301875A (ja) | 音声認識装置 | |
JP2006023444A (ja) | 音声対話装置 | |
US20050120046A1 (en) | User interaction and operation-parameter determination system and operation-parameter determination method | |
KR100749088B1 (ko) | 대화형 네비게이션 시스템 및 그 제어방법 | |
JP5446540B2 (ja) | 情報検索装置、制御方法及びプログラム | |
JP2003330488A (ja) | 音声認識装置 | |
JP2007183516A (ja) | 音声対話装置及び音声認識方法 | |
JP2005208198A (ja) | 音声認識装置、および音声認識方法 | |
JP2007272123A (ja) | 音声操作システム | |
JP4624825B2 (ja) | 音声対話装置および音声対話方法 | |
JP2005084589A (ja) | 音声認識装置 | |
JP2005283797A (ja) | 音声認識装置および音声認識方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070402 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20090827 |