JP6969491B2 - 音声対話システム、音声対話方法及びプログラム - Google Patents
音声対話システム、音声対話方法及びプログラム Download PDFInfo
- Publication number
- JP6969491B2 JP6969491B2 JP2018092139A JP2018092139A JP6969491B2 JP 6969491 B2 JP6969491 B2 JP 6969491B2 JP 2018092139 A JP2018092139 A JP 2018092139A JP 2018092139 A JP2018092139 A JP 2018092139A JP 6969491 B2 JP6969491 B2 JP 6969491B2
- Authority
- JP
- Japan
- Prior art keywords
- response
- utterance
- learning model
- user
- voice dialogue
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 90
- 230000004044 response Effects 0.000 claims description 391
- 230000007774 longterm Effects 0.000 claims description 28
- 238000000605 extraction Methods 0.000 claims description 26
- 238000010801 machine learning Methods 0.000 claims description 21
- 239000000284 extract Substances 0.000 claims description 13
- 239000013598 vector Substances 0.000 description 77
- 230000000875 corresponding effect Effects 0.000 description 28
- 230000008569 process Effects 0.000 description 28
- 238000010586 diagram Methods 0.000 description 17
- 238000012545 processing Methods 0.000 description 15
- 238000004458 analytical method Methods 0.000 description 14
- 230000002996 emotional effect Effects 0.000 description 12
- 230000006870 function Effects 0.000 description 7
- 230000001755 vocal effect Effects 0.000 description 6
- 238000012360 testing method Methods 0.000 description 4
- 230000001960 triggered effect Effects 0.000 description 4
- 238000002790 cross-validation Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000009118 appropriate response Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
- G06F40/56—Natural language generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/221—Announcement of recognition results
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/227—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Manipulator (AREA)
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
Description
本発明は、このように構成されていることによって、応答の精度がより良くなる学習モデルを選択することが可能となる。
本発明は、このように構成されていることによって、応答誤りを誘発したユーザ発話の特徴ベクトルを複数用いて、新たな学習モデルを選択するように構成されている。このように、複数の特徴ベクトルを用いて学習モデルを評価することで、選択される学習モデルの精度をより向上させることが可能となる。
本発明は、このように構成されていることによって、発話衝突の応答誤りが発生したときに、発話衝突のきっかけとなったユーザ発話の特徴に対して発話応答を出力しないような学習モデルを選択し直すことができる。したがって、本発明は、発話衝突の発生を抑制することができる。
本発明は、このように構成されていることによって、長期沈黙の応答誤りが発生したときに、長期沈黙のきっかけとなったユーザ発話の特徴に対して発話応答を出力するような学習モデルを選択し直すことができる。したがって、本発明は、長期沈黙の発生を抑制することができる。
本発明は、このように構成されていることによって、予め精度のよい学習モデルを複数生成しておくことが可能となる。したがって、学習モデルを選択し直したときに、より応答精度のよい対話を行うことが可能となる。
本発明は、このように構成されていることによって、効率的に学習モデルを生成することが可能となる。
以下、図面を参照して本発明の実施の形態について説明する。なお、各図面において、同一の要素には同一の符号が付されており、必要に応じて重複説明は省略されている。
図4〜図6は、実施の形態1にかかる学習モデルの生成方法を説明するための図である。まず、学習モデルを生成するためのサンプルデータを取得する。図4で示すように、ユーザAの発話に対して、ロボット(音声対話システム1)が応答するといった、ユーザAとロボットとの対話によって、特徴ベクトルと正解ラベルとが対応付けられたサンプルデータを収集する。このとき、オペレータは、ユーザAの発話に対して適切な応答をロボットが実行するように、ロボット(音声対話システム1)を操作する。
次に、実施の形態2について説明する。実施の形態2においては、音声対話システム1が複数の学習モデルを生成する点で、実施の形態1と異なる。なお、実施の形態2にかかる音声対話システム1のハードウェア構成については、図1に示した実施の形態1にかかる音声対話システム1のハードウェア構成と実質的に同様であるので、説明を省略する。
次に、実施の形態3について説明する。実施の形態3においては、音声対話システム1が自律的にサンプルデータを収集する点で、他の実施の形態と異なる。なお、実施の形態3にかかる音声対話システム1のハードウェア構成については、図1に示した実施の形態1にかかる音声対話システム1の構成と実質的に同様であるので、説明を省略する。実施の形態1及び実施の形態2においては、図4に示すように、オペレータの操作によって特徴ベクトルに正解ラベルが付与されていたが、実施の形態3においては、音声対話システム1が、ユーザ発話の特徴ベクトルに自律的に正解ラベルを付与する。ここで、実施の形態3においては、音声対話システム1が、図2に示した構成要素を用いて、自律的にサンプルデータを収集し得る。しかしながら、音声対話システム1とは異なるシステム(自律型ロボット)が、自律的にサンプルデータを収集してもよい。
なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。例えば、上述したフローチャートにおいて、複数の処理の順序は、適宜、変更可能である。また、上述したフローチャートにおいて、複数の処理のうちの1つは、省略されてもよい。
Claims (9)
- ユーザと音声を用いた対話を行う音声対話システムであって、
前記ユーザの発話であるユーザ発話を取得する発話取得部と、
前記取得されたユーザ発話の特徴を抽出する特徴抽出部と、
予め機械学習によって生成された複数の学習モデルのうちのいずれかを用いて、前記抽出された特徴に応じた応答を決定する応答決定部と、
前記決定された応答を実行するための制御を行う応答実行部と、
前記ユーザ発話に対する前記実行された応答のタイミング又は前記実行された応答に対する前記ユーザ発話のタイミングに応じて、前記実行された応答が誤りであるか否かを判定する応答誤り判定部と、
前記応答誤り判定部による判定結果に応じて、前記複数の学習モデルから前記学習モデルを選択する学習モデル選択部と
を有し、
前記応答決定部は、前記学習モデル選択部によって選択された学習モデルを用いて、前記応答を決定する
音声対話システム。 - 前記学習モデル選択部は、前記誤りであると判定されたときの前記応答に対応する特徴を入力した場合に前記誤りと判定された応答を選択しない確率が高い学習モデルを選択する
請求項1に記載の音声対話システム。 - 前記学習モデル選択部は、予め定められた第1の期間の間に予め定められた複数回数以上、前記応答が誤りであると判定されたときに、前記誤りであると判定されたときの前記応答に対応する特徴を入力した場合に前記誤りと判定された応答を選択しない確率が高い学習モデルを選択する
請求項2に記載の音声対話システム。 - 前記応答誤り判定部は、前記ユーザ発話の途中で前記応答実行部によって発話応答が実行された場合、又は、前記応答実行部によって発話応答が実行されている途中で前記ユーザ発話がなされた場合に、前記応答が発話衝突の誤りであると判定し、
前記学習モデル選択部は、前記発話衝突の誤りであると判定されたときの前記応答に対応する特徴を入力した場合に前記発話応答を出力しない確率が高い学習モデルを選択する
請求項3に記載の音声対話システム。 - 前記応答誤り判定部は、前記ユーザ発話が終了してから前記応答実行部によって発話応答が実行されるまでの期間が予め定められた第2の期間以上である場合に、前記応答が長期沈黙の誤りであると判定し、
前記学習モデル選択部は、前記長期沈黙の誤りであると判定されたときの前記応答に対応する特徴を入力した場合に前記発話応答を出力する確率が高い学習モデルを選択する
請求項3又は4に記載の音声対話システム。 - 複数の学習モデルを生成する学習モデル生成部
をさらに有し、
前記学習モデル生成部は、
前記学習モデルの生成に用いるサンプルデータ群を複数の分類法で分類し、
前記複数の分類法それぞれについて、分類されて得られた複数のグループごとに機械学習を行って得られる学習モデルの精度を算出することで、前記複数の分類法それぞれの精度を算出し、
前記精度が最高となる分類法で分類された前記複数のグループそれぞれを用いて、複数の学習モデルを生成する
請求項1〜5のいずれか1項に記載の音声対話システム。 - 前記学習モデルを生成するためのサンプルデータを取得するデータ取得部
をさらに有し、
前記データ取得部が前記サンプルデータを取得する際に、
前記発話取得部は、サンプルデータを取得するための前記ユーザ発話を取得し、
前記特徴抽出部は、前記取得されたユーザ発話の特徴を抽出し、
前記応答決定部は、予め機械学習によって生成された判別モデルを用いて、前記抽出された特徴に応じた応答を決定し、
前記応答実行部は、前記決定された応答を実行するための制御を行い、
前記応答誤り判定部は、前記サンプルデータを取得するためのユーザ発話に対して実行された応答が誤りであるか否かを判定し、
前記データ取得部は、前記サンプルデータを取得するためのユーザの発話に対して実行された応答が誤りである場合に、当該ユーザ発話に対応する特徴に不正解ラベルを付与することで、前記サンプルデータを取得する
請求項1〜6のいずれか1項に記載の音声対話システム。 - ユーザと音声を用いた対話を行う音声対話システムを用いて行われる音声対話方法であって、
前記ユーザの発話であるユーザ発話を取得し、
前記取得されたユーザ発話の特徴を抽出し、
予め機械学習によって生成された複数の学習モデルのうちのいずれかを用いて、前記抽出された特徴に応じた応答を決定し、
前記決定された応答を実行するための制御を行い、
前記ユーザ発話に対する前記実行された応答のタイミング又は前記実行された応答に対する前記ユーザ発話のタイミングに応じて、前記実行された応答が誤りであるか否かを判定し、
前記判定の結果に応じて、前記複数の学習モデルから前記学習モデルを選択し、
前記選択された学習モデルを用いて、前記応答を決定する
音声対話方法。 - ユーザと音声を用いた対話を行う音声対話システムを用いて行われる音声対話方法を実行するプログラムであって、
前記ユーザの発話であるユーザ発話を取得するステップと、
前記取得されたユーザ発話の特徴を抽出するステップと、
予め機械学習によって生成された複数の学習モデルのうちのいずれかを用いて、前記抽出された特徴に応じた応答を決定するステップと、
前記決定された応答を実行するための制御を行うステップと、
前記ユーザ発話に対する前記実行された応答のタイミング又は前記実行された応答に対する前記ユーザ発話のタイミングに応じて、前記実行された応答が誤りであるか否かを判定するステップと、
前記判定の結果に応じて、前記複数の学習モデルから前記学習モデルを選択するステップと、
前記選択された学習モデルを用いて、前記応答を決定するステップと
をコンピュータに実行させるプログラム。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018092139A JP6969491B2 (ja) | 2018-05-11 | 2018-05-11 | 音声対話システム、音声対話方法及びプログラム |
US16/360,238 US10971149B2 (en) | 2018-05-11 | 2019-03-21 | Voice interaction system for interaction with a user by voice, voice interaction method, and program |
EP19165062.1A EP3567586B1 (en) | 2018-05-11 | 2019-03-26 | Voice interaction system, voice interaction method, and program |
CN201910354070.XA CN110473533B (zh) | 2018-05-11 | 2019-04-29 | 语音对话系统、语音对话方法以及程序 |
KR1020190053429A KR102217917B1 (ko) | 2018-05-11 | 2019-05-08 | 음성대화 시스템, 음성대화 방법 및 프로그램 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018092139A JP6969491B2 (ja) | 2018-05-11 | 2018-05-11 | 音声対話システム、音声対話方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019197182A JP2019197182A (ja) | 2019-11-14 |
JP6969491B2 true JP6969491B2 (ja) | 2021-11-24 |
Family
ID=65991549
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018092139A Active JP6969491B2 (ja) | 2018-05-11 | 2018-05-11 | 音声対話システム、音声対話方法及びプログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US10971149B2 (ja) |
EP (1) | EP3567586B1 (ja) |
JP (1) | JP6969491B2 (ja) |
KR (1) | KR102217917B1 (ja) |
CN (1) | CN110473533B (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11568135B1 (en) | 2020-09-23 | 2023-01-31 | Amazon Technologies, Inc. | Identifying chat correction pairs for training models to automatically correct chat inputs |
US11676593B2 (en) | 2020-12-01 | 2023-06-13 | International Business Machines Corporation | Training an artificial intelligence of a voice response system based on non_verbal feedback |
US11798551B2 (en) * | 2021-03-25 | 2023-10-24 | Bank Of America Corporation | System and method for voice controlled automatic information access and retrieval |
WO2022215104A1 (ja) * | 2021-04-05 | 2022-10-13 | 三菱電機株式会社 | 音声対話装置および音声対話方法 |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2003275134A1 (en) * | 2002-09-19 | 2004-04-08 | The Penn State Research Foundation | Prosody based audio/visual co-analysis for co-verbal gesture recognition |
JP2005221679A (ja) * | 2004-02-04 | 2005-08-18 | Advanced Telecommunication Research Institute International | 発話スタイル評価装置及び発話スタイル分類装置 |
US7542903B2 (en) * | 2004-02-18 | 2009-06-02 | Fuji Xerox Co., Ltd. | Systems and methods for determining predictive models of discourse functions |
KR100612839B1 (ko) * | 2004-02-18 | 2006-08-18 | 삼성전자주식회사 | 도메인 기반 대화 음성인식방법 및 장치 |
JP2005352154A (ja) | 2004-06-10 | 2005-12-22 | National Institute Of Information & Communication Technology | 感情状態反応動作装置 |
KR100622019B1 (ko) * | 2004-12-08 | 2006-09-11 | 한국전자통신연구원 | 음성 인터페이스 시스템 및 방법 |
CN100347741C (zh) * | 2005-09-02 | 2007-11-07 | 清华大学 | 移动语音合成方法 |
JP2007072331A (ja) | 2005-09-09 | 2007-03-22 | Matsushita Electric Ind Co Ltd | 音声対話方法および音声対話システム |
JP5051882B2 (ja) | 2007-06-20 | 2012-10-17 | 学校法人早稲田大学 | 音声対話装置、音声対話方法及びロボット装置 |
JP5119055B2 (ja) | 2008-06-11 | 2013-01-16 | 日本システムウエア株式会社 | 多言語対応音声認識装置、システム、音声の切り替え方法およびプログラム |
JP5703491B2 (ja) * | 2010-01-26 | 2015-04-22 | 国立大学法人山梨大学 | 言語モデル・音声認識辞書作成装置及びそれらにより作成された言語モデル・音声認識辞書を用いた情報処理装置 |
JP5431282B2 (ja) * | 2010-09-28 | 2014-03-05 | 株式会社東芝 | 音声対話装置、方法、プログラム |
JP2015087718A (ja) | 2013-11-01 | 2015-05-07 | トヨタ自動車株式会社 | 音声対話システム及び音声対話方法 |
JP2017102247A (ja) | 2015-12-01 | 2017-06-08 | 国立研究開発法人産業技術総合研究所 | 音声対話システム、音声対話制御法およびプログラム |
JP2017125921A (ja) | 2016-01-13 | 2017-07-20 | 日本電信電話株式会社 | 発話選択装置、方法、及びプログラム |
JP6461058B2 (ja) * | 2016-09-06 | 2019-01-30 | 国立大学法人京都大学 | 音声対話装置および音声対話装置を用いた自動対話方法 |
JP6515897B2 (ja) * | 2016-09-28 | 2019-05-22 | トヨタ自動車株式会社 | 音声対話システムおよび発話意図理解方法 |
CN106448670B (zh) * | 2016-10-21 | 2019-11-19 | 竹间智能科技(上海)有限公司 | 基于深度学习和强化学习的自动回复对话系统 |
JP6731326B2 (ja) * | 2016-10-31 | 2020-07-29 | ファーハット ロボティクス エービー | 音声対話装置及び音声対話方法 |
CN108010523B (zh) * | 2016-11-02 | 2023-05-09 | 松下电器(美国)知识产权公司 | 信息处理方法以及记录介质 |
-
2018
- 2018-05-11 JP JP2018092139A patent/JP6969491B2/ja active Active
-
2019
- 2019-03-21 US US16/360,238 patent/US10971149B2/en active Active
- 2019-03-26 EP EP19165062.1A patent/EP3567586B1/en active Active
- 2019-04-29 CN CN201910354070.XA patent/CN110473533B/zh active Active
- 2019-05-08 KR KR1020190053429A patent/KR102217917B1/ko not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
KR20190129731A (ko) | 2019-11-20 |
KR102217917B1 (ko) | 2021-02-19 |
CN110473533B (zh) | 2023-03-10 |
EP3567586A1 (en) | 2019-11-13 |
JP2019197182A (ja) | 2019-11-14 |
EP3567586B1 (en) | 2020-10-14 |
CN110473533A (zh) | 2019-11-19 |
US20190348038A1 (en) | 2019-11-14 |
US10971149B2 (en) | 2021-04-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7063779B2 (ja) | 音声対話システム、音声対話方法、プログラム、学習モデル生成装置及び学習モデル生成方法 | |
US10388279B2 (en) | Voice interaction apparatus and voice interaction method | |
JP6731326B2 (ja) | 音声対話装置及び音声対話方法 | |
JP6969491B2 (ja) | 音声対話システム、音声対話方法及びプログラム | |
US11227584B2 (en) | System and method for determining the compliance of agent scripts | |
US11462213B2 (en) | Information processing apparatus, information processing method, and program | |
JP6436088B2 (ja) | 音声検出装置、音声検出方法及びプログラム | |
CN111901627B (zh) | 视频处理方法、装置、存储介质及电子设备 | |
JP6585733B2 (ja) | 情報処理装置 | |
JP2020064253A (ja) | 学習装置、検出装置、学習方法、学習プログラム、検出方法、および検出プログラム | |
KR20210130024A (ko) | 대화 시스템 및 그 제어 방법 | |
KR102019470B1 (ko) | 음성 발화 양식을 이용한 발화자 감정인식 방법 및 시스템 | |
US11250853B2 (en) | Sarcasm-sensitive spoken dialog system | |
JP2018005122A (ja) | 検出装置、検出方法及び検出プログラム | |
CN113571096B (zh) | 语音情绪分类模型训练方法、装置、计算机设备及介质 | |
JP2018132624A (ja) | 音声対話装置 | |
JP6664359B2 (ja) | 音声処理装置、方法およびプログラム | |
JP2013257418A (ja) | 情報処理装置、および情報処理方法、並びにプログラム | |
JP6772881B2 (ja) | 音声対話装置 | |
US11922927B2 (en) | Learning data generation device, learning data generation method and non-transitory computer readable recording medium | |
KR20230013826A (ko) | 인공 지능 모델을 이용하여 음성 인식 서비스를 제공하는 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201124 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210914 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210928 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211011 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6969491 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |