JP6828667B2

JP6828667B2 - 音声対話装置、音声対話方法及びプログラム

Info

Publication number: JP6828667B2
Application number: JP2017228235A
Authority: JP
Inventors: 生聖渡部
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2017-11-28
Filing date: 2017-11-28
Publication date: 2021-02-10
Anticipated expiration: 2037-11-28
Also published as: EP3489951A1; US20190164550A1; US10825455B2; EP3489951B1; CN110033762A; JP2019101065A; CN110033762B

Description

本発明は、ユーザと対話を行う音声対話装置、音声対話方法及びプログラムに関する。

ユーザの音声を解析し、該解析結果に基づいて該音声を繰り返すためのオウム返し応答文を生成し、該生成したオウム返し応答文を出力する音声対話装置が知られている（例えば、特許文献１参照）。

特開２００９−１９３４４８号公報

上記音声対話装置は、ユーザの音声に対応するテンプレートを判別し、該テンプレートに対応付けられた文長のオウム返し応答文を生成している。このため、生成されたオウム返し応答文の文長は、テンプレートによって制限されるため、ユーザの音声の文長と、乖離する可能性がある。このような状況を踏まえて、ユーザの音声に合わせた文長のオウム返し応答文を生成し出力できる音声対話装置が望まれている。

本発明は、このような問題点を解決するためになされたものであり、ユーザの音声に合わせた文長のオウム返し応答文を生成できる音声対話装置、音声対話方法及びプログラムを提供することを主たる目的とする。

上記目的を達成するための本発明の一態様は、取得されたユーザの音声を解析し、該解析結果に基づいて該音声を繰り返すためのオウム返し応答文を生成し、該生成したオウム返し応答文を出力する音声対話装置であって、過去のユーザの音声を記憶する記憶手段と、前記記憶手段に記憶された過去のユーザの音声に基づいて、該ユーザの音声の長さを示す音声文長の平均値を算出する平均算出手段と、前記取得されたユーザの音声に含まれる名詞と係り受け関係が成立する係受け語を組み合わせて複数の応答文候補を生成する候補生成手段と、前記平均算出手段により算出された音声文長の平均値に対応付けて、前記候補生成手段により生成された複数の応答文候補の中から、１つの該応答文候補を選択し、該選択した応答文候補をそのまま又は加工して前記オウム返し応答文として生成する繰返生成手段と、を備える、ことを特徴とする音声対話装置である。
上記目的を達成するための本発明の一態様は、取得されたユーザの音声を解析し、該解析結果に基づいて該音声を繰り返すためのオウム返し応答文を生成し、該生成したオウム返し応答文を出力する音声対話装置であって、過去のユーザの音声を記憶する記憶手段と、前記記憶手段に記憶された過去のユーザの音声に基づいて、該ユーザの音声の長さを示す音声文長の平均値を算出する平均算出手段と、前記取得されたユーザの音声に含まれる名詞と係り受け関係が成立する係受け語を組み合わせて複数の応答文候補を生成する候補生成手段と、前記候補生成手段により生成された複数の応答文候補の中から、予め設定された数の係受け語を含む応答文候補を選択し、前記平均算出手段により算出された音声文長の平均値に近付けるように、前記選択した応答文候補に対して係受け語を更に付加する、あるいは、前記選択した応答文候補から係受け語を削除して最終的な応答文候補とし、該応答文候補をそのまま又は加工して前記オウム返し応答文として生成する繰返生成手段と、を備える、ことを特徴とする音声対話装置であってもよい。
この一態様において、前記繰返生成手段は、前記候補生成手段により生成された複数の応答文候補の中から、前記平均算出手段により算出された音声文長の平均値に最も近い音声文長の該応答文候補を選択してもよい。
この一態様において、前記候補生成手段は、前記取得されたユーザの音声に含まれる述語項を抽出し、該抽出した述語項に含まれる名詞と係り受け関係が成立する少なくとも１つの係受け語を、該抽出した述語項に連結して、複数パターンの前記応答文候補を生成してもよい。
この一態様において、前記繰返生成手段は、前記選択した応答文候補の文末に予め設定された付加語を付加することで前記オウム返し応答文を生成してもよい。
上記目的を達成するための本発明の一態様は、取得されたユーザの音声を解析し、該解析結果に基づいて該音声を繰り返すためのオウム返し応答文を生成し、該生成したオウム返し応答文を出力する音声対話方法であって、過去のユーザの音声を記憶するステップと、前記記憶された過去のユーザの音声に基づいて、該ユーザの音声の長さを示す音声文長の平均値を算出するステップと、前記取得されたユーザの音声に含まれる単語を組み合わせて複数の応答文候補を生成するステップと、前記算出された音声文長の平均値に対応付けて、前記生成された複数の応答文候補の中から、１つの該応答文候補を選択し、該選択した応答文候補をそのまま又は加工して前記オウム返し応答文として生成するステップと、を含む、ことを特徴とする音声対話方法であってもよい。
上記目的を達成するための本発明の一態様は、取得されたユーザの音声を解析し、該解析結果に基づいて該音声を繰り返すためのオウム返し応答文を生成し、該生成したオウム返し応答文を出力するプログラムであって、記憶された過去のユーザの音声に基づいて、該ユーザの音声の長さを示す音声文長の平均値を算出する処理と、前記取得されたユーザの音声に含まれる名詞と係り受け関係が成立する係受け語を組み合わせて複数の応答文候補を生成する処理と、前記算出された音声文長の平均値に対応付けて、前記生成された複数の応答文候補の中から、１つの該応答文候補を選択し、該選択した応答文候補をそのまま又は加工して前記オウム返し応答文として生成する処理と、をコンピュータに実行させる、ことを特徴とするプログラムであってもよい。

本発明によれば、ユーザの音声に合わせた文長のオウム返し応答文を生成できる音声対話装置、音声対話方法及びプログラムを提供することができる。

本発明の実施形態１に係る音声対話装置の概略的なシステム構成を示すブロック図である。本発明の実施形態１に係る音声対話方法のフローの一例を示すフローチャートである。

実施形態１
以下、図面を参照して本発明の実施の形態について説明する。
図１は、本発明の実施形態１に係る音声対話装置の概略的なシステム構成を示すブロック図である。本実施形態１に係る音声対話装置１は、取得されたユーザの音声を解析し、該解析結果に基づいて該音声を繰り返すためのオウム返し応答文を生成し、該生成したオウム返し応答文を出力する。

音声対話装置１は、ユーザとの対話において、本来の応答生成までの場つなぎとして、上記オウム返し応答文を出力する。これにより、応答待ちによって生じる対話の違和感を緩和できる。音声対話装置１は、例えば、ロボット、サーバ、ＰＣなどの端末、スマートフォンなどの携帯端末などに搭載され、ユーザとより自然な対話を実現できる。

本実施形態１に係る音声対話装置１は、ユーザの音声を認識する音声認識部２と、音声の構造を解析する構造解析部３と、係り受け関係を解析する係受け解析部４と、記憶部５と、ユーザの音声文長の平均値を算出する平均算出部６と、応答文候補を生成する候補生成部７と、オウム返し応答文を生成する繰返生成部８と、を備えている。

なお、音声対話装置１は、例えば、演算処理等と行うＣＰＵ（Central Processing Unit）、ＣＰＵによって実行される演算プログラム、制御プログラム等が記憶されたＲＯＭ（Read Only Memory）やＲＡＭ（Random Access Memory）からなるメモリ、外部と信号の入出力を行うインターフェイス部（Ｉ／Ｆ）、などからなるマイクロコンピュータを中心にして、ハードウェア構成されている（図２）。ＣＰＵ、メモリ、及びインターフェイス部は、データバスなどを介して相互に接続されている。

音声認識部２は、マイクなどにより取得されたユーザの音声情報に基づいて音声認識処理を行い、ユーザの音声情報をテキスト化し文字列情報として認識する。音声認識部２は、マイクから出力されるユーザの音声情報から発話区間を検出し、検出した発話区間の音声情報に対して、統計言語モデルなどを参照してパターンマッチングを行うことで音声認識を行う。

統計言語モデルは、例えば、単語の出現分布やある単語の次に出現する単語の分布等、言語表現の出現確率を計算するための確率モデルであり、形態素単位で連結確率を学習したものである。統計言語モデルは、記憶部５などに予め記憶されている。なお、音声認識部２は、例えば、ユーザの音声情報の各形態素に対してその品詞種類（名詞、形容詞、動詞、副詞など）を付加した品詞情報付き形態素情報を生成する。音声認識部２は、認識したユーザの音声の文字列情報を構造解析部３に出力する。

構造解析部３は、音声認識部２により認識された音声情報の構造を解析する。構造解析部３は、例えば、一般的な形態素解析器を用いて音声認識されたユーザの音声情報を示す文字列情報に対して形態素解析などを行い、文字列情報の意味解釈を行う。構造解析部３は、文字列情報の解析結果を係受け解析部４に出力する。

係受け解析部４は、構造解析部３から出力されるユーザの音声の文字列情報の解析結果に基づいて、文字列情報の係り受け関係を解析する。係受け解析部４は、例えば、文字列情報「一か月働いて稼いだ大切なお金を落した。」の係り受け関係を解析し、基本形となる述語項「お金を落す」の名詞「お金」と係り受け関係にある修飾語「一か月」、「働いて」、「稼いだ」、「大切な」を抽出する。

ところで、ユーザとの対話において、オウム返しの用途は、本来の応答文生成までの場つなぎとして用いられる。このため、オウム返しは、従来、簡易的なプロセスによって処理されるものが多い。しかし、雑談などの対話において、オウム返しは立派な応答手段であり、対話をより自然にするための重要な一役を担う。特に、オウム返しの文長は、対話のテンポに大きく影響を与えるため、ユーザの音声の文長に合わせた適切な文長のオウム返しを行うのがより好ましい。そこで、ユーザの音声の文長に合わせた文長のオウム返し応答文を生成し出力できる音声対話装置が望まれている。

これに対し、本実施形態１に係る音声対話装置１は、記憶部５に記憶された過去のユーザの音声に基づいて、該ユーザの音声の長さを示す音声文長の平均値を算出し、取得された音声に含まれる名詞と係り受け関係が成立する係受け語を組み合わせて複数の応答文候補を生成し、算出された音声文長の平均値に対応付けて、生成された複数の応答文候補の中から、１つの該応答文候補を選択し、該選択した応答文候補をそのまま又は加工してオウム返し応答文として生成する。

これにより、過去のユーザの音声の平均的な文長に合わせた適切な文長のオウム返し応答文を生成できる。すなわち、ユーザの音声に合わせた文長のオウム返し応答文を生成できる。

記憶部５は、記憶手段の一具体例である。記憶部５は、例えば、メモリなどで構成されている。記憶部５は、例えば、過去の対話におけるユーザの複数の音声（発話）を記憶する。記憶部５は、音声認識部２により音声認識処理された過去のユーザの複数の音声の文字列情報（テキスト情報など）を記憶する。記憶部５は、予め、過去の対話におけるユーザの音声を記憶していてもよく、ユーザとの対話中に逐次、その音声を記憶するようにしてもよい。

平均算出部６は、平均算出手段の一具体例である。平均算出部６は、記憶部５に記憶された過去のユーザの複数の音声の文字列情報に基づいて、ユーザの音声文長の平均値を算出する。ユーザの音声文長は、ユーザの音声文の長さを示すもので、その平均値は、ユーザの音声文の平均の長さを示す。したがって、このユーザの音声文長の平均値に合わせて、オオム返し応答文を生成することで、ユーザの音声文長に合った適切な文長のオウム返し応答文を生成できる。音声文長の平均値とは、例えば、ユーザの音声に含まれる文字や単語の数の平均値である。平均算出部６は、算出したユーザの音声文長の平均値を繰返生成部８に出力する。

候補生成部７は、候補生成手段の一具体例である。候補生成部７は、係受け解析部４から出力された係受け関係に基づいて、ユーザの音声に含まれる名詞と係り受け関係が成立する係受け語を組み合わせて、複数の応答文候補を生成する。

例えば、候補生成部７は、ユーザの音声の文字列情報から述語項を抽出する。候補生成部７は、該抽出した述語項に含まれる名詞と係受け関係が成立する語を、抽出した述語項に連結することで、応答文候補を生成する。これにより、述語中の名詞に係受け関係が存在する語句を結合し、名詞を活用した応答文候補を生成できる。したがって、不完全な語句の選択を低減し、適切な応答文候補を生成できる。

候補生成部７は、抽出した述語項に含まれる名詞と係り受け関係が成立する少なくとも１つの語（以下、係受け語）を、抽出した述語項に連結して、複数パターンの応答文候補を生成する。述語項に連結される係受け語の数及び連結方法は、予め候補生成部７に設定されていてもよい。

候補生成部７は、述語項に連結する係受け語の数を徐々に増やして、段階的に音声文長が長くなる複数パターンの応答文候補を生成してもよい。これにより、音声文長が段階的に異なる複数パターンの応答文候補を容易に生成できる。なお、候補生成部７は、抽出した述語項をそのまま応答文候補としてもよい。

候補生成部７は、１つ係受け語を、抽出した述語項に任意に連結して、予め設定された上限値内で、複数パターンの応答文候補を生成してもよい。これにより、限られた範囲内で多様な応答文候補を生成できる。

より具体的には、候補生成部７は、文字列情報「一か月働いて稼いだ大切なお金を落した。」から述語項「お金を落した。」を抽出する。候補生成部７は、該抽出した述語項「お金を落した。」に含まれる名詞「お金」と係受け関係が成立する語「一か月」、「働いて」、「稼いだ」、「大切な」を、抽出した述語項「お金を落した。」に連結することで、応答文候補「大切なお金を落した。」、「働いて稼いだお金を落した。」、「稼いだ大切なお金を落した。」などを段階的に生成する。あるいは、候補生成部７は、抽出した述語項「お金を落した。」をそのまま応答文候補とする。候補生成部７は、生成した複数の応答文候補を繰返生成部８に出力する。

繰返生成部８は、繰返生成手段の一具体例である。繰返生成部８は、平均算出部６により算出された音声文長の平均値に対応付けて、候補生成部７により生成された複数の応答文候補の中から、１つの応答文候補を選択する。

繰返生成部８は、候補生成部７により生成された複数の応答文候補の中から、例えば、平均算出部６により算出された音声文長の平均値に最も近い音声文長の応答文候補を選択する。これにより、過去のユーザの音声文長の平均値に合わせた適切な文長の応答文候補を選択できる。

繰返生成部８は、候補生成部７により生成された複数の応答文候補の中から、例えば、平均算出部６により算出された音声文長の平均値の差が所定値以内の音声文長の応答文候補を複数選択してもよい。繰返生成部８は、選択した応答文候補のうちで、より多くの係受け語を含む、あるいは、予め設定された係受け語を含む、応答文候補を最終的に選択してもよい。これにより、過去のユーザの音声文長の平均値に合わせた適切な文長の応答文候補を選択できつつ、適切な係受け語を含む応答文候補を最終的に選択できる。

繰返生成部８は、選択した応答文候補をそのまま又は加工してオウム返し応答文として生成する。例えば、繰返生成部８は、選択した応答文候補の文末を調整することでオウム返し応答文を生成する。繰返生成部８は、選択した応答文候補の文末に予め設定された付加語を付加することでオウム返し応答文を生成してもよい。より具体的には、繰返生成部８は、選択した応答文候補「お金を落した」の文末に予め設定された付加語「んだ」を付加することでオウム返し応答文「お金を落したんだ」を生成してもよい。これにより、オウム返し応答文により多様性を持たせることができ、対話の自然性を向上させることができる。

繰返生成部８は、生成したオウム返し応答文をユーザに対して、例えば、スピーカを用いて出力する。なお、繰返生成部８は、生成したオウム返し応答文をユーザに対して、表示装置の表示などを用いて出力してもよい。

次に、本実施形態１に係る音声対話方法について説明する。図２は、本実施形態に係る音声対話方法のフローの一例を示すフローチャートである。

記憶部５は、音声認識部２により音声認識処理された過去のユーザの音声の文字列情報を記憶する（ステップＳ１０１）。平均算出部６は、記憶部５に記憶された過去のユーザの音声の文字列情報に基づいて、ユーザの音声文長の平均値を算出し、繰返生成部８に出力する（ステップＳ１０２）。

音声認識部２は、マイクなどにより取得されたユーザの音声情報に基づいて音声認識処理を行い、ユーザの音声情報をテキスト化し文字列情報として認識し、認識したユーザの音声情報を構造解析部３に出力する（ステップＳ１０３）。

構造解析部３は、音声認識部２により認識された音声の文字列情報を形態素解析し、文字列情報の解析結果を係受け解析部４に出力する（ステップＳ１０４）。係受け解析部４は、構造解析部３から出力される文字列情報の解析結果に基づいて、文字列情報の係り受け関係を解析し、解析した係受け関係を候補生成部７に出力する（ステップＳ１０５）。

候補生成部７は、係受け解析部４から出力された係受け関係に基づいて、複数の応答文候補を生成し、生成した複数の応答文候補を繰返生成部８に出力する（ステップＳ１０６）。

繰返生成部８は、平均算出部６により算出された音声文長の平均値に対応付けて、候補生成部７により生成された複数の応答文候補の中から、１つの応答文候補を選択する（ステップＳ１０７）。

繰返生成部８は、選択した応答文候補をそのまま又は加工してオウム返し応答文として生成する（ステップＳ１０８）。繰返生成部８は、生成したオウム返し応答文をユーザに対して、例えば、スピーカを用いて出力する（ステップＳ１０９）。

以上、本実施形態１に係る音声対話装置１は、過去のユーザの音声を記憶する記憶部５と、記憶部５に記憶された過去のユーザの音声に基づいて、ユーザの音声文長の平均値を算出する平均算出部６と、取得されたユーザの音声に含まれる名詞と係り受け関係が成立する係受け語を組み合わせて複数の応答文候補を生成する候補生成部７と、平均算出部６により算出された音声文長の平均値に対応付けて、候補生成部７により生成された複数の応答文候補の中から、１つの該応答文候補を選択し、該選択した応答文候補をそのまま又は加工してオウム返し応答文として生成する繰返生成部８と、を備えている。

本実施形態１に係る音声対話装置１によれば、過去のユーザの音声の平均的な文長に合わせた適切な文長のオウム返し応答文を生成できるため、ユーザの音声に合わせた文長のオウム返し応答文を生成できる。

実施形態２
本発明の実施形態２において、繰返生成部８は、候補生成部７により生成された複数の応答文候補の中から、予め設定された数の係受け語を含む応答文候補を選択する。さらに、繰返生成部８は、平均算出部６により算出された音声文長の平均値に近付けるように、選択した応答文候補に対して係受け語を更に付加して、あるいは、選択した応答文候補から係受け語を削除して、最終的な応答文候補とする。繰返生成部８は、その最終的な応答文候補をそのまま又は加工して、オウム返し応答文として生成する。係受け語の数は、記憶部５などに設定されている。

例えば、予め設定された係受け語の数が１つだとする。この場合、繰返生成部８は、候補生成部７により生成された複数の応答文候補「大切なお金を落した。」、「働いて稼いだお金を落した。」、「稼いだ大切なお金を落した。」の中から、１つの係受け語「大切な」を含む応答文候補「大切なお金を落した。」を選択する。さらに、繰返生成部８は、平均算出部６により算出された音声の文字数の平均値に近付けるように、選択した応答文候補「大切なお金を落した。」に対して係受け語「稼いだ」を更に付加し、最終的な応答文候補「稼いだ大切なお金を落した」とする。あるいは、繰返生成部８は、平均算出部６により算出された音声の文字数の平均値に近付けるように、選択した応答文候補「大切なお金を落した。」から係受け語「大切な」を削除して、最終的な応答文候補「お金を落した」とする。
本実施形態２に係る繰返生成部８は、上述の如く、設定した最適な数の係受け語を含む応答候補を選択する。さらに、繰返生成部８は、適応的に、過去のユーザの音声文長の平均値に近付けるように、選択した応答文候補の係受け語を増減させ、調整を行う。これにより、過去のユーザの音声の平均的な文長に合わせた適切な文長のオウム返し応答文を生成できる。すなわち、ユーザの音声に合わせた文長のオウム返し応答文を生成できる。
なお、本実施形態２において、他の構成は上記実施形態１と略同一であるため、同一部分には同一符号を付して詳細な説明は省略する。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他のさまざまな形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

本発明は、例えば、図２に示す処理を、ＣＰＵにコンピュータプログラムを実行させることにより実現することも可能である。
プログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（tangible storage medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば光磁気ディスク）、ＣＤ−ＲＯＭ（Read Only Memory）、ＣＤ−Ｒ、ＣＤ−Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM）、フラッシュＲＯＭ、ＲＡＭ（random access memory））を含む。

また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

１音声対話装置、２音声認識部、３構造解析部、４係受け解析部、５記憶部、６平均算出部、７候補生成部、８繰返生成部

Claims

取得されたユーザの音声を解析し、該解析結果に基づいて該音声を繰り返すためのオウム返し応答文を生成し、該生成したオウム返し応答文を出力する音声対話装置であって、
過去のユーザの音声を記憶する記憶手段と、
前記記憶手段に記憶された過去のユーザの音声に基づいて、該ユーザの音声の長さを示す音声文長の平均値を算出する平均算出手段と、
前記取得されたユーザの音声に含まれる名詞と係り受け関係が成立する係受け語を組み合わせて複数の応答文候補を生成する候補生成手段と、
前記平均算出手段により算出された音声文長の平均値に対応付けて、前記候補生成手段により生成された複数の応答文候補の中から、１つの該応答文候補を選択し、該選択した応答文候補をそのまま又は加工して前記オウム返し応答文として生成する繰返生成手段と、を備える、
ことを特徴とする音声対話装置。
取得されたユーザの音声を解析し、該解析結果に基づいて該音声を繰り返すためのオウム返し応答文を生成し、該生成したオウム返し応答文を出力する音声対話装置であって、
過去のユーザの音声を記憶する記憶手段と、
前記記憶手段に記憶された過去のユーザの音声に基づいて、該ユーザの音声の長さを示す音声文長の平均値を算出する平均算出手段と、
前記取得されたユーザの音声に含まれる名詞と係り受け関係が成立する係受け語を組み合わせて複数の応答文候補を生成する候補生成手段と、
前記候補生成手段により生成された複数の応答文候補の中から、予め設定された数の係受け語を含む応答文候補を選択し、前記平均算出手段により算出された音声文長の平均値に近付けるように、前記選択した応答文候補に対して係受け語を更に付加する、あるいは、前記選択した応答文候補から係受け語を削除して最終的な応答文候補とし、該応答文候補をそのまま又は加工して前記オウム返し応答文として生成する繰返生成手段と、
を備える、ことを特徴とする音声対話装置。
請求項１記載の音声対話装置であって、
前記繰返生成手段は、前記候補生成手段により生成された複数の応答文候補の中から、前記平均算出手段により算出された音声文長の平均値に最も近い音声文長の該応答文候補を選択する、
ことを特徴とする音声対話装置。
請求項１又は２に記載の音声対話装置であって、
前記候補生成手段は、前記取得されたユーザの音声に含まれる述語項を抽出し、該抽出した述語項に含まれる名詞と係り受け関係が成立する少なくとも１つの係受け語を、該抽出した述語項に連結して、複数パターンの前記応答文候補を生成する、
ことを特徴とする音声対話装置。
請求項１乃至４のうちいずれか１項記載の音声対話装置であって、
前記繰返生成手段は、前記選択した応答文候補の文末に予め設定された付加語を付加することで前記オウム返し応答文を生成する、
ことを特徴とする音声対話装置。
取得されたユーザの音声を解析し、該解析結果に基づいて該音声を繰り返すためのオウム返し応答文を生成し、該生成したオウム返し応答文を出力する音声対話方法であって、
過去のユーザの音声を記憶するステップと、
前記記憶された過去のユーザの音声に基づいて、該ユーザの音声の長さを示す音声文長の平均値を算出するステップと、
前記取得されたユーザの音声に含まれる単語を組み合わせて複数の応答文候補を生成するステップと、
前記算出された音声文長の平均値に対応付けて、前記生成された複数の応答文候補の中から、１つの該応答文候補を選択し、該選択した応答文候補をそのまま又は加工して前記オウム返し応答文として生成するステップと、
を含む、ことを特徴とする音声対話方法。
取得されたユーザの音声を解析し、該解析結果に基づいて該音声を繰り返すためのオウム返し応答文を生成し、該生成したオウム返し応答文を出力するプログラムであって、
記憶された過去のユーザの音声に基づいて、該ユーザの音声の長さを示す音声文長の平均値を算出する処理と、
前記取得されたユーザの音声に含まれる名詞と係り受け関係が成立する係受け語を組み合わせて複数の応答文候補を生成する処理と、
前記算出された音声文長の平均値に対応付けて、前記生成された複数の応答文候補の中から、１つの該応答文候補を選択し、該選択した応答文候補をそのまま又は加工して前記オウム返し応答文として生成する処理と、
をコンピュータに実行させる、ことを特徴とするプログラム。