[go: up one dir, main page]

JP6828667B2 - 音声対話装置、音声対話方法及びプログラム - Google Patents

音声対話装置、音声対話方法及びプログラム Download PDF

Info

Publication number
JP6828667B2
JP6828667B2 JP2017228235A JP2017228235A JP6828667B2 JP 6828667 B2 JP6828667 B2 JP 6828667B2 JP 2017228235 A JP2017228235 A JP 2017228235A JP 2017228235 A JP2017228235 A JP 2017228235A JP 6828667 B2 JP6828667 B2 JP 6828667B2
Authority
JP
Japan
Prior art keywords
voice
response sentence
sentence
candidate
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017228235A
Other languages
English (en)
Other versions
JP2019101065A (ja
Inventor
生聖 渡部
生聖 渡部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2017228235A priority Critical patent/JP6828667B2/ja
Priority to EP18203267.2A priority patent/EP3489951B1/en
Priority to US16/181,524 priority patent/US10825455B2/en
Priority to CN201811416206.7A priority patent/CN110033762B/zh
Publication of JP2019101065A publication Critical patent/JP2019101065A/ja
Application granted granted Critical
Publication of JP6828667B2 publication Critical patent/JP6828667B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Description

本発明は、ユーザと対話を行う音声対話装置、音声対話方法及びプログラムに関する。
ユーザの音声を解析し、該解析結果に基づいて該音声を繰り返すためのオウム返し応答文を生成し、該生成したオウム返し応答文を出力する音声対話装置が知られている(例えば、特許文献1参照)。
特開2009−193448号公報
上記音声対話装置は、ユーザの音声に対応するテンプレートを判別し、該テンプレートに対応付けられた文長のオウム返し応答文を生成している。このため、生成されたオウム返し応答文の文長は、テンプレートによって制限されるため、ユーザの音声の文長と、乖離する可能性がある。このような状況を踏まえて、ユーザの音声に合わせた文長のオウム返し応答文を生成し出力できる音声対話装置が望まれている。
本発明は、このような問題点を解決するためになされたものであり、ユーザの音声に合わせた文長のオウム返し応答文を生成できる音声対話装置、音声対話方法及びプログラムを提供することを主たる目的とする。
上記目的を達成するための本発明の一態様は、取得されたユーザの音声を解析し、該解析結果に基づいて該音声を繰り返すためのオウム返し応答文を生成し、該生成したオウム返し応答文を出力する音声対話装置であって、過去のユーザの音声を記憶する記憶手段と、前記記憶手段に記憶された過去のユーザの音声に基づいて、該ユーザの音声の長さを示す音声文長の平均値を算出する平均算出手段と、前記取得されたユーザの音声に含まれる名詞と係り受け関係が成立する係受け語を組み合わせて複数の応答文候補を生成する候補生成手段と、前記平均算出手段により算出された音声文長の平均値に対応付けて、前記候補生成手段により生成された複数の応答文候補の中から、1つの該応答文候補を選択し、該選択した応答文候補をそのまま又は加工して前記オウム返し応答文として生成する繰返生成手段と、を備える、ことを特徴とする音声対話装置である。
上記目的を達成するための本発明の一態様は、取得されたユーザの音声を解析し、該解析結果に基づいて該音声を繰り返すためのオウム返し応答文を生成し、該生成したオウム返し応答文を出力する音声対話装置であって、過去のユーザの音声を記憶する記憶手段と、前記記憶手段に記憶された過去のユーザの音声に基づいて、該ユーザの音声の長さを示す音声文長の平均値を算出する平均算出手段と、前記取得されたユーザの音声に含まれる名詞と係り受け関係が成立する係受け語を組み合わせて複数の応答文候補を生成する候補生成手段と、前記候補生成手段により生成された複数の応答文候補の中から、予め設定された数の係受け語を含む応答文候補を選択し、前記平均算出手段により算出された音声文長の平均値に近付けるように、前記選択した応答文候補に対して係受け語を更に付加する、あるいは、前記選択した応答文候補から係受け語を削除して最終的な応答文候補とし、該応答文候補をそのまま又は加工して前記オウム返し応答文として生成する繰返生成手段と、を備える、ことを特徴とする音声対話装置であってもよい。
この一態様において、前記繰返生成手段は、前記候補生成手段により生成された複数の応答文候補の中から、前記平均算出手段により算出された音声文長の平均値に最も近い音声文長の該応答文候補を選択してもよい。
この一態様において、前記候補生成手段は、前記取得されたユーザの音声に含まれる述語項を抽出し、該抽出した述語項に含まれる名詞と係り受け関係が成立する少なくとも1つの係受け語を、該抽出した述語項に連結して、複数パターンの前記応答文候補を生成してもよい。
この一態様において、前記繰返生成手段は、前記選択した応答文候補の文末に予め設定された付加語を付加することで前記オウム返し応答文を生成してもよい。
上記目的を達成するための本発明の一態様は、取得されたユーザの音声を解析し、該解析結果に基づいて該音声を繰り返すためのオウム返し応答文を生成し、該生成したオウム返し応答文を出力する音声対話方法であって、過去のユーザの音声を記憶するステップと、前記記憶された過去のユーザの音声に基づいて、該ユーザの音声の長さを示す音声文長の平均値を算出するステップと、前記取得されたユーザの音声に含まれる単語を組み合わせて複数の応答文候補を生成するステップと、前記算出された音声文長の平均値に対応付けて、前記生成された複数の応答文候補の中から、1つの該応答文候補を選択し、該選択した応答文候補をそのまま又は加工して前記オウム返し応答文として生成するステップと、を含む、ことを特徴とする音声対話方法であってもよい。
上記目的を達成するための本発明の一態様は、取得されたユーザの音声を解析し、該解析結果に基づいて該音声を繰り返すためのオウム返し応答文を生成し、該生成したオウム返し応答文を出力するプログラムであって、記憶された過去のユーザの音声に基づいて、該ユーザの音声の長さを示す音声文長の平均値を算出する処理と、前記取得されたユーザの音声に含まれる名詞と係り受け関係が成立する係受け語を組み合わせて複数の応答文候補を生成する処理と、前記算出された音声文長の平均値に対応付けて、前記生成された複数の応答文候補の中から、1つの該応答文候補を選択し、該選択した応答文候補をそのまま又は加工して前記オウム返し応答文として生成する処理と、をコンピュータに実行させる、ことを特徴とするプログラムであってもよい。
本発明によれば、ユーザの音声に合わせた文長のオウム返し応答文を生成できる音声対話装置、音声対話方法及びプログラムを提供することができる。
本発明の実施形態1に係る音声対話装置の概略的なシステム構成を示すブロック図である。 本発明の実施形態1に係る音声対話方法のフローの一例を示すフローチャートである。
実施形態1
以下、図面を参照して本発明の実施の形態について説明する。
図1は、本発明の実施形態1に係る音声対話装置の概略的なシステム構成を示すブロック図である。本実施形態1に係る音声対話装置1は、取得されたユーザの音声を解析し、該解析結果に基づいて該音声を繰り返すためのオウム返し応答文を生成し、該生成したオウム返し応答文を出力する。
音声対話装置1は、ユーザとの対話において、本来の応答生成までの場つなぎとして、上記オウム返し応答文を出力する。これにより、応答待ちによって生じる対話の違和感を緩和できる。音声対話装置1は、例えば、ロボット、サーバ、PCなどの端末、スマートフォンなどの携帯端末などに搭載され、ユーザとより自然な対話を実現できる。
本実施形態1に係る音声対話装置1は、ユーザの音声を認識する音声認識部2と、音声の構造を解析する構造解析部3と、係り受け関係を解析する係受け解析部4と、記憶部5と、ユーザの音声文長の平均値を算出する平均算出部6と、応答文候補を生成する候補生成部7と、オウム返し応答文を生成する繰返生成部8と、を備えている。
なお、音声対話装置1は、例えば、演算処理等と行うCPU(Central Processing Unit)、CPUによって実行される演算プログラム、制御プログラム等が記憶されたROM(Read Only Memory)やRAM(Random Access Memory)からなるメモリ、外部と信号の入出力を行うインターフェイス部(I/F)、などからなるマイクロコンピュータを中心にして、ハードウェア構成されている(図2)。CPU、メモリ、及びインターフェイス部は、データバスなどを介して相互に接続されている。
音声認識部2は、マイクなどにより取得されたユーザの音声情報に基づいて音声認識処理を行い、ユーザの音声情報をテキスト化し文字列情報として認識する。音声認識部2は、マイクから出力されるユーザの音声情報から発話区間を検出し、検出した発話区間の音声情報に対して、統計言語モデルなどを参照してパターンマッチングを行うことで音声認識を行う。
統計言語モデルは、例えば、単語の出現分布やある単語の次に出現する単語の分布等、言語表現の出現確率を計算するための確率モデルであり、形態素単位で連結確率を学習したものである。統計言語モデルは、記憶部5などに予め記憶されている。なお、音声認識部2は、例えば、ユーザの音声情報の各形態素に対してその品詞種類(名詞、形容詞、動詞、副詞など)を付加した品詞情報付き形態素情報を生成する。音声認識部2は、認識したユーザの音声の文字列情報を構造解析部3に出力する。
構造解析部3は、音声認識部2により認識された音声情報の構造を解析する。構造解析部3は、例えば、一般的な形態素解析器を用いて音声認識されたユーザの音声情報を示す文字列情報に対して形態素解析などを行い、文字列情報の意味解釈を行う。構造解析部3は、文字列情報の解析結果を係受け解析部4に出力する。
係受け解析部4は、構造解析部3から出力されるユーザの音声の文字列情報の解析結果に基づいて、文字列情報の係り受け関係を解析する。係受け解析部4は、例えば、文字列情報「一か月働いて稼いだ大切なお金を落した。」の係り受け関係を解析し、基本形となる述語項「お金を落す」の名詞「お金」と係り受け関係にある修飾語「一か月」、「働いて」、「稼いだ」、「大切な」を抽出する。
ところで、ユーザとの対話において、オウム返しの用途は、本来の応答文生成までの場つなぎとして用いられる。このため、オウム返しは、従来、簡易的なプロセスによって処理されるものが多い。しかし、雑談などの対話において、オウム返しは立派な応答手段であり、対話をより自然にするための重要な一役を担う。特に、オウム返しの文長は、対話のテンポに大きく影響を与えるため、ユーザの音声の文長に合わせた適切な文長のオウム返しを行うのがより好ましい。そこで、ユーザの音声の文長に合わせた文長のオウム返し応答文を生成し出力できる音声対話装置が望まれている。
これに対し、本実施形態1に係る音声対話装置1は、記憶部5に記憶された過去のユーザの音声に基づいて、該ユーザの音声の長さを示す音声文長の平均値を算出し、取得された音声に含まれる名詞と係り受け関係が成立する係受け語を組み合わせて複数の応答文候補を生成し、算出された音声文長の平均値に対応付けて、生成された複数の応答文候補の中から、1つの該応答文候補を選択し、該選択した応答文候補をそのまま又は加工してオウム返し応答文として生成する。
これにより、過去のユーザの音声の平均的な文長に合わせた適切な文長のオウム返し応答文を生成できる。すなわち、ユーザの音声に合わせた文長のオウム返し応答文を生成できる。
記憶部5は、記憶手段の一具体例である。記憶部5は、例えば、メモリなどで構成されている。記憶部5は、例えば、過去の対話におけるユーザの複数の音声(発話)を記憶する。記憶部5は、音声認識部2により音声認識処理された過去のユーザの複数の音声の文字列情報(テキスト情報など)を記憶する。記憶部5は、予め、過去の対話におけるユーザの音声を記憶していてもよく、ユーザとの対話中に逐次、その音声を記憶するようにしてもよい。
平均算出部6は、平均算出手段の一具体例である。平均算出部6は、記憶部5に記憶された過去のユーザの複数の音声の文字列情報に基づいて、ユーザの音声文長の平均値を算出する。ユーザの音声文長は、ユーザの音声文の長さを示すもので、その平均値は、ユーザの音声文の平均の長さを示す。したがって、このユーザの音声文長の平均値に合わせて、オオム返し応答文を生成することで、ユーザの音声文長に合った適切な文長のオウム返し応答文を生成できる。音声文長の平均値とは、例えば、ユーザの音声に含まれる文字や単語の数の平均値である。平均算出部6は、算出したユーザの音声文長の平均値を繰返生成部8に出力する。
候補生成部7は、候補生成手段の一具体例である。候補生成部7は、係受け解析部4から出力された係受け関係に基づいて、ユーザの音声に含まれる名詞と係り受け関係が成立する係受け語を組み合わせて、複数の応答文候補を生成する。
例えば、候補生成部7は、ユーザの音声の文字列情報から述語項を抽出する。候補生成部7は、該抽出した述語項に含まれる名詞と係受け関係が成立する語を、抽出した述語項に連結することで、応答文候補を生成する。これにより、述語中の名詞に係受け関係が存在する語句を結合し、名詞を活用した応答文候補を生成できる。したがって、不完全な語句の選択を低減し、適切な応答文候補を生成できる。
候補生成部7は、抽出した述語項に含まれる名詞と係り受け関係が成立する少なくとも1つの語(以下、係受け語)を、抽出した述語項に連結して、複数パターンの応答文候補を生成する。述語項に連結される係受け語の数及び連結方法は、予め候補生成部7に設定されていてもよい。
候補生成部7は、述語項に連結する係受け語の数を徐々に増やして、段階的に音声文長が長くなる複数パターンの応答文候補を生成してもよい。これにより、音声文長が段階的に異なる複数パターンの応答文候補を容易に生成できる。なお、候補生成部7は、抽出した述語項をそのまま応答文候補としてもよい。
候補生成部7は、1つ係受け語を、抽出した述語項に任意に連結して、予め設定された上限値内で、複数パターンの応答文候補を生成してもよい。これにより、限られた範囲内で多様な応答文候補を生成できる。
より具体的には、候補生成部7は、文字列情報「一か月働いて稼いだ大切なお金を落した。」から述語項「お金を落した。」を抽出する。候補生成部7は、該抽出した述語項「お金を落した。」に含まれる名詞「お金」と係受け関係が成立する語「一か月」、「働いて」、「稼いだ」、「大切な」を、抽出した述語項「お金を落した。」に連結することで、応答文候補「大切なお金を落した。」、「働いて稼いだお金を落した。」、「稼いだ大切なお金を落した。」などを段階的に生成する。あるいは、候補生成部7は、抽出した述語項「お金を落した。」をそのまま応答文候補とする。候補生成部7は、生成した複数の応答文候補を繰返生成部8に出力する。
繰返生成部8は、繰返生成手段の一具体例である。繰返生成部8は、平均算出部6により算出された音声文長の平均値に対応付けて、候補生成部7により生成された複数の応答文候補の中から、1つの応答文候補を選択する。
繰返生成部8は、候補生成部7により生成された複数の応答文候補の中から、例えば、平均算出部6により算出された音声文長の平均値に最も近い音声文長の応答文候補を選択する。これにより、過去のユーザの音声文長の平均値に合わせた適切な文長の応答文候補を選択できる。
繰返生成部8は、候補生成部7により生成された複数の応答文候補の中から、例えば、平均算出部6により算出された音声文長の平均値の差が所定値以内の音声文長の応答文候補を複数選択してもよい。繰返生成部8は、選択した応答文候補のうちで、より多くの係受け語を含む、あるいは、予め設定された係受け語を含む、応答文候補を最終的に選択してもよい。これにより、過去のユーザの音声文長の平均値に合わせた適切な文長の応答文候補を選択できつつ、適切な係受け語を含む応答文候補を最終的に選択できる。
繰返生成部8は、選択した応答文候補をそのまま又は加工してオウム返し応答文として生成する。例えば、繰返生成部8は、選択した応答文候補の文末を調整することでオウム返し応答文を生成する。繰返生成部8は、選択した応答文候補の文末に予め設定された付加語を付加することでオウム返し応答文を生成してもよい。より具体的には、繰返生成部8は、選択した応答文候補「お金を落した」の文末に予め設定された付加語「んだ」を付加することでオウム返し応答文「お金を落したんだ」を生成してもよい。これにより、オウム返し応答文により多様性を持たせることができ、対話の自然性を向上させることができる。
繰返生成部8は、生成したオウム返し応答文をユーザに対して、例えば、スピーカを用いて出力する。なお、繰返生成部8は、生成したオウム返し応答文をユーザに対して、表示装置の表示などを用いて出力してもよい。
次に、本実施形態1に係る音声対話方法について説明する。図2は、本実施形態に係る音声対話方法のフローの一例を示すフローチャートである。
記憶部5は、音声認識部2により音声認識処理された過去のユーザの音声の文字列情報を記憶する(ステップS101)。平均算出部6は、記憶部5に記憶された過去のユーザの音声の文字列情報に基づいて、ユーザの音声文長の平均値を算出し、繰返生成部8に出力する(ステップS102)。
音声認識部2は、マイクなどにより取得されたユーザの音声情報に基づいて音声認識処理を行い、ユーザの音声情報をテキスト化し文字列情報として認識し、認識したユーザの音声情報を構造解析部3に出力する(ステップS103)。
構造解析部3は、音声認識部2により認識された音声の文字列情報を形態素解析し、文字列情報の解析結果を係受け解析部4に出力する(ステップS104)。係受け解析部4は、構造解析部3から出力される文字列情報の解析結果に基づいて、文字列情報の係り受け関係を解析し、解析した係受け関係を候補生成部7に出力する(ステップS105)。
候補生成部7は、係受け解析部4から出力された係受け関係に基づいて、複数の応答文候補を生成し、生成した複数の応答文候補を繰返生成部8に出力する(ステップS106)。
繰返生成部8は、平均算出部6により算出された音声文長の平均値に対応付けて、候補生成部7により生成された複数の応答文候補の中から、1つの応答文候補を選択する(ステップS107)。
繰返生成部8は、選択した応答文候補をそのまま又は加工してオウム返し応答文として生成する(ステップS108)。繰返生成部8は、生成したオウム返し応答文をユーザに対して、例えば、スピーカを用いて出力する(ステップS109)。
以上、本実施形態1に係る音声対話装置1は、過去のユーザの音声を記憶する記憶部5と、記憶部5に記憶された過去のユーザの音声に基づいて、ユーザの音声文長の平均値を算出する平均算出部6と、取得されたユーザの音声に含まれる名詞と係り受け関係が成立する係受け語を組み合わせて複数の応答文候補を生成する候補生成部7と、平均算出部6により算出された音声文長の平均値に対応付けて、候補生成部7により生成された複数の応答文候補の中から、1つの該応答文候補を選択し、該選択した応答文候補をそのまま又は加工してオウム返し応答文として生成する繰返生成部8と、を備えている。
本実施形態1に係る音声対話装置1によれば、過去のユーザの音声の平均的な文長に合わせた適切な文長のオウム返し応答文を生成できるため、ユーザの音声に合わせた文長のオウム返し応答文を生成できる。
実施形態2
本発明の実施形態2において、繰返生成部8は、候補生成部7により生成された複数の応答文候補の中から、予め設定された数の係受け語を含む応答文候補を選択する。さらに、繰返生成部8は、平均算出部6により算出された音声文長の平均値に近付けるように、選択した応答文候補に対して係受け語を更に付加して、あるいは、選択した応答文候補から係受け語を削除して、最終的な応答文候補とする。繰返生成部8は、その最終的な応答文候補をそのまま又は加工して、オウム返し応答文として生成する。係受け語の数は、記憶部5などに設定されている。
例えば、予め設定された係受け語の数が1つだとする。この場合、繰返生成部8は、候補生成部7により生成された複数の応答文候補「大切なお金を落した。」、「働いて稼いだお金を落した。」、「稼いだ大切なお金を落した。」の中から、1つの係受け語「大切な」を含む応答文候補「大切なお金を落した。」を選択する。さらに、繰返生成部8は、平均算出部6により算出された音声の文字数の平均値に近付けるように、選択した応答文候補「大切なお金を落した。」に対して係受け語「稼いだ」を更に付加し、最終的な応答文候補「稼いだ大切なお金を落した」とする。あるいは、繰返生成部8は、平均算出部6により算出された音声の文字数の平均値に近付けるように、選択した応答文候補「大切なお金を落した。」から係受け語「大切な」を削除して、最終的な応答文候補「お金を落した」とする。
本実施形態2に係る繰返生成部8は、上述の如く、設定した最適な数の係受け語を含む応答候補を選択する。さらに、繰返生成部8は、適応的に、過去のユーザの音声文長の平均値に近付けるように、選択した応答文候補の係受け語を増減させ、調整を行う。これにより、過去のユーザの音声の平均的な文長に合わせた適切な文長のオウム返し応答文を生成できる。すなわち、ユーザの音声に合わせた文長のオウム返し応答文を生成できる。
なお、本実施形態2において、他の構成は上記実施形態1と略同一であるため、同一部分には同一符号を付して詳細な説明は省略する。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他のさまざまな形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
本発明は、例えば、図2に示す処理を、CPUにコンピュータプログラムを実行させることにより実現することも可能である。
プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD−ROM(Read Only Memory)、CD−R、CD−R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(random access memory))を含む。
また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
1 音声対話装置、2 音声認識部、3 構造解析部、4 係受け解析部、5 記憶部、6 平均算出部、7 候補生成部、8 繰返生成部

Claims (7)

  1. 取得されたユーザの音声を解析し、該解析結果に基づいて該音声を繰り返すためのオウム返し応答文を生成し、該生成したオウム返し応答文を出力する音声対話装置であって、
    過去のユーザの音声を記憶する記憶手段と、
    前記記憶手段に記憶された過去のユーザの音声に基づいて、該ユーザの音声の長さを示す音声文長の平均値を算出する平均算出手段と、
    前記取得されたユーザの音声に含まれる名詞と係り受け関係が成立する係受け語を組み合わせて複数の応答文候補を生成する候補生成手段と、
    前記平均算出手段により算出された音声文長の平均値に対応付けて、前記候補生成手段により生成された複数の応答文候補の中から、1つの該応答文候補を選択し、該選択した応答文候補をそのまま又は加工して前記オウム返し応答文として生成する繰返生成手段と、を備える、
    ことを特徴とする音声対話装置。
  2. 取得されたユーザの音声を解析し、該解析結果に基づいて該音声を繰り返すためのオウム返し応答文を生成し、該生成したオウム返し応答文を出力する音声対話装置であって、
    過去のユーザの音声を記憶する記憶手段と、
    前記記憶手段に記憶された過去のユーザの音声に基づいて、該ユーザの音声の長さを示す音声文長の平均値を算出する平均算出手段と、
    前記取得されたユーザの音声に含まれる名詞と係り受け関係が成立する係受け語を組み合わせて複数の応答文候補を生成する候補生成手段と、
    前記候補生成手段により生成された複数の応答文候補の中から、予め設定された数の係受け語を含む応答文候補を選択し、前記平均算出手段により算出された音声文長の平均値に近付けるように、前記選択した応答文候補に対して係受け語を更に付加する、あるいは、前記選択した応答文候補から係受け語を削除して最終的な応答文候補とし、該応答文候補をそのまま又は加工して前記オウム返し応答文として生成する繰返生成手段と、
    を備える、ことを特徴とする音声対話装置。
  3. 請求項1記載の音声対話装置であって、
    前記繰返生成手段は、前記候補生成手段により生成された複数の応答文候補の中から、前記平均算出手段により算出された音声文長の平均値に最も近い音声文長の該応答文候補を選択する、
    ことを特徴とする音声対話装置。
  4. 請求項1又は2に記載の音声対話装置であって、
    前記候補生成手段は、前記取得されたユーザの音声に含まれる述語項を抽出し、該抽出した述語項に含まれる名詞と係り受け関係が成立する少なくとも1つの係受け語を、該抽出した述語項に連結して、複数パターンの前記応答文候補を生成する、
    ことを特徴とする音声対話装置。
  5. 請求項1乃至4のうちいずれか1項記載の音声対話装置であって、
    前記繰返生成手段は、前記選択した応答文候補の文末に予め設定された付加語を付加することで前記オウム返し応答文を生成する、
    ことを特徴とする音声対話装置。
  6. 取得されたユーザの音声を解析し、該解析結果に基づいて該音声を繰り返すためのオウム返し応答文を生成し、該生成したオウム返し応答文を出力する音声対話方法であって、
    過去のユーザの音声を記憶するステップと、
    前記記憶された過去のユーザの音声に基づいて、該ユーザの音声の長さを示す音声文長の平均値を算出するステップと、
    前記取得されたユーザの音声に含まれる単語を組み合わせて複数の応答文候補を生成するステップと、
    前記算出された音声文長の平均値に対応付けて、前記生成された複数の応答文候補の中から、1つの該応答文候補を選択し、該選択した応答文候補をそのまま又は加工して前記オウム返し応答文として生成するステップと、
    を含む、ことを特徴とする音声対話方法。
  7. 取得されたユーザの音声を解析し、該解析結果に基づいて該音声を繰り返すためのオウム返し応答文を生成し、該生成したオウム返し応答文を出力するプログラムであって、
    記憶された過去のユーザの音声に基づいて、該ユーザの音声の長さを示す音声文長の平均値を算出する処理と、
    前記取得されたユーザの音声に含まれる名詞と係り受け関係が成立する係受け語を組み合わせて複数の応答文候補を生成する処理と、
    前記算出された音声文長の平均値に対応付けて、前記生成された複数の応答文候補の中から、1つの該応答文候補を選択し、該選択した応答文候補をそのまま又は加工して前記オウム返し応答文として生成する処理と、
    をコンピュータに実行させる、ことを特徴とするプログラム。
JP2017228235A 2017-11-28 2017-11-28 音声対話装置、音声対話方法及びプログラム Active JP6828667B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2017228235A JP6828667B2 (ja) 2017-11-28 2017-11-28 音声対話装置、音声対話方法及びプログラム
EP18203267.2A EP3489951B1 (en) 2017-11-28 2018-10-30 Voice dialogue apparatus, voice dialogue method, and program
US16/181,524 US10825455B2 (en) 2017-11-28 2018-11-06 Voice dialogue apparatus, voice dialogue method, and non-transitory computer readable media
CN201811416206.7A CN110033762B (zh) 2017-11-28 2018-11-26 语音对话设备、语音对话方法和程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017228235A JP6828667B2 (ja) 2017-11-28 2017-11-28 音声対話装置、音声対話方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2019101065A JP2019101065A (ja) 2019-06-24
JP6828667B2 true JP6828667B2 (ja) 2021-02-10

Family

ID=64048717

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017228235A Active JP6828667B2 (ja) 2017-11-28 2017-11-28 音声対話装置、音声対話方法及びプログラム

Country Status (4)

Country Link
US (1) US10825455B2 (ja)
EP (1) EP3489951B1 (ja)
JP (1) JP6828667B2 (ja)
CN (1) CN110033762B (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6828667B2 (ja) * 2017-11-28 2021-02-10 トヨタ自動車株式会社 音声対話装置、音声対話方法及びプログラム
CN111460115B (zh) * 2020-03-17 2023-05-26 深圳市优必选科技股份有限公司 智能人机对话模型训练方法、模型训练装置及电子设备
JP7295828B2 (ja) * 2020-06-23 2023-06-21 Kddi株式会社 対話中の文脈の因果関係に応じた応答文を推定するプログラム、装置及び方法
CN114238607B (zh) * 2021-12-17 2022-11-22 北京斗米优聘科技发展有限公司 深度交互式ai智能求职顾问方法、系统及存储介质

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0962286A (ja) * 1995-08-22 1997-03-07 Sony Corp 音声合成装置および音声合成方法
JP2006039120A (ja) * 2004-07-26 2006-02-09 Sony Corp 対話装置および対話方法、並びにプログラムおよび記録媒体
JP2009193448A (ja) * 2008-02-15 2009-08-27 Oki Electric Ind Co Ltd 対話システム、方法及びプログラム
US20090210411A1 (en) * 2008-02-15 2009-08-20 Oki Electric Industry Co., Ltd. Information Retrieving System
CN102455786B (zh) * 2010-10-25 2014-09-03 三星电子(中国)研发中心 一种对中文句子输入法的优化系统及方法
JP6028556B2 (ja) * 2012-12-19 2016-11-16 富士通株式会社 対話制御方法及び対話制御用コンピュータプログラム
JP6221301B2 (ja) * 2013-03-28 2017-11-01 富士通株式会社 音声処理装置、音声処理システムおよび音声処理方法
JP6295869B2 (ja) 2014-07-23 2018-03-20 トヨタ自動車株式会社 応答生成装置、応答生成方法及びプログラム
JP6122816B2 (ja) * 2014-08-07 2017-04-26 シャープ株式会社 音声出力装置、ネットワークシステム、音声出力方法、および音声出力プログラム
JP6390264B2 (ja) * 2014-08-21 2018-09-19 トヨタ自動車株式会社 応答生成方法、応答生成装置及び応答生成プログラム
JP2016080981A (ja) * 2014-10-21 2016-05-16 トヨタ自動車株式会社 応答生成装置、応答生成方法及び応答生成プログラム
JP6287754B2 (ja) * 2014-10-21 2018-03-07 トヨタ自動車株式会社 応答生成装置、応答生成方法及び応答生成プログラム
WO2016157650A1 (ja) * 2015-03-31 2016-10-06 ソニー株式会社 情報処理装置、制御方法、およびプログラム
JP6731326B2 (ja) * 2016-10-31 2020-07-29 ファーハット ロボティクス エービー 音声対話装置及び音声対話方法
JP6828667B2 (ja) * 2017-11-28 2021-02-10 トヨタ自動車株式会社 音声対話装置、音声対話方法及びプログラム

Also Published As

Publication number Publication date
EP3489951A1 (en) 2019-05-29
US20190164550A1 (en) 2019-05-30
US10825455B2 (en) 2020-11-03
EP3489951B1 (en) 2022-08-17
CN110033762A (zh) 2019-07-19
JP2019101065A (ja) 2019-06-24
CN110033762B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
KR102161579B1 (ko) 응답문 생성 장치, 방법 및 프로그램, 그리고 음성 대화 시스템
JP6696923B2 (ja) 音声対話装置、その処理方法及びプログラム
JP5327054B2 (ja) 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
JP6523893B2 (ja) 学習装置、音声合成装置、学習方法、音声合成方法、学習プログラム及び音声合成プログラム
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
JP6828667B2 (ja) 音声対話装置、音声対話方法及びプログラム
JP6390264B2 (ja) 応答生成方法、応答生成装置及び応答生成プログラム
JP6299563B2 (ja) 応答生成方法、応答生成装置及び応答生成プログラム
Liu et al. The IFLYTEK system for blizzard challenge 2017
JP2014062970A (ja) 音声合成方法、装置、及びプログラム
JP6295869B2 (ja) 応答生成装置、応答生成方法及びプログラム
JP2016080981A (ja) 応答生成装置、応答生成方法及び応答生成プログラム
JP6773074B2 (ja) 応答生成方法、応答生成装置及び応答生成プログラム
Anumanchipalli et al. Accent group modeling for improved prosody in statistical parameteric speech synthesis
JP6176137B2 (ja) 音声対話装置、音声対話システム及びプログラム
JP6287754B2 (ja) 応答生成装置、応答生成方法及び応答生成プログラム
Sarkar et al. Modeling pauses for synthesis of storytelling style speech using unsupervised word features
KR102632872B1 (ko) 음성인식 오류 교정 방법 및 그 시스템
KR102116014B1 (ko) 음성인식엔진과 성대모사용음성합성엔진을 이용한 화자 성대모사시스템
JP2004272134A (ja) 音声認識装置及びコンピュータプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200226

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201215

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201222

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210104

R151 Written notification of patent or utility model registration

Ref document number: 6828667

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151