JP6805112B2 - 対話システム、対話方法および対話プログラム - Google Patents
対話システム、対話方法および対話プログラム Download PDFInfo
- Publication number
- JP6805112B2 JP6805112B2 JP2017215433A JP2017215433A JP6805112B2 JP 6805112 B2 JP6805112 B2 JP 6805112B2 JP 2017215433 A JP2017215433 A JP 2017215433A JP 2017215433 A JP2017215433 A JP 2017215433A JP 6805112 B2 JP6805112 B2 JP 6805112B2
- Authority
- JP
- Japan
- Prior art keywords
- user
- dialogue
- satisfaction
- state
- estimated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
- G06F40/56—Natural language generation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
- Child & Adolescent Psychology (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Signal Processing (AREA)
Description
図1に例示されるように、第1の実施形態に係る対話システム100は、音声認識部101と、満足度推定部102と、意図・検索条件推定部103と、対話状態推定部104と、振る舞い決定部105と、検索部106と、検索データベース(DB:Data Base)107と、応答生成部108と、音声合成部109とを含む。
発話タグは、認識結果テキスト(より一般化すれば入力テキスト)から推定される、ユーザ10の対話システム100に対する行動を大まかに分類する情報である。具体的には、「要求を伝達している(Inform)」、「情報を確認している(Confirm)」、「対話システム100からの質問に対して肯定している(Affirm)/否定している(Negate)」などの発話タグが利用可能である。或いは、より具体的なレベルの行動を示す発話タグ、例えば、「レストランを探したい(Inform−search−restaurant)」、「ホテルを探したい(Inform−search−hotel)」などを必要に応じて定めることもできる。
図8に例示されるように、第2の実施形態に係る対話システム600は、音声認識部101と、満足度推定部102と、意図・検索条件推定部103と、対話状態推定部604と、振る舞い決定部605と、検索部106と、検索DB 107と、応答生成部108と、音声合成部109とを含む。
図9に例示されるように、第3の実施形態に係る対話システム700は、音声認識部101と、満足度推定部102と、意図・検索条件推定部103と、対話状態推定部604と、振る舞い決定部705と、検索部106と、検索DB 107と、応答生成部108と、音声合成部109と、対話打ち切り決定部710とを含む。
101・・・音声認識部
102・・・満足度推定部
103・・・意図・検索条件推定部
104,604・・・対話状態推定部
105,605,705・・・振る舞い決定部
106・・・検索部
107・・・検索DB
108・・・応答生成部
109・・・音声合成部
301・・・入力層
302,304,306・・・畳み込み層
303,305・・・プーリング層
307,308・・・全結合層
309・・・ソフトマックス層
710・・・対話打ち切り決定部
Claims (12)
- ユーザの入力音声を変換することで得られる周波数領域の信号を含む入力データを学習済みの統計モデルに与えることにより、前記ユーザの満足度を推定する満足度推定部と、
前記ユーザの入力および推定された前記ユーザの満足度に基づいて前記ユーザとの対話状態を推定する対話状態推定部と、
推定された前記対話状態に基づいて前記ユーザに対する振る舞いを決定する振る舞い決定部と
を具備し、
前記対話状態は、前記ユーザの意図、検索条件および満足度を含む、対話システム。 - 前記学習済みの統計モデルは、満足度を示すラベルが付与された学習用入力音声を用いて教師付き学習を行うことで作成される、請求項1に記載の対話システム。
- 前記満足度は、確率分布として表現される、請求項1に記載の対話システム。
- 前記振る舞い決定部は、強化学習を行うことで作成された学習済みの統計モデルに、前記対話状態に基づく入力データを与えることで前記ユーザに対する振る舞いを決定する、請求項1に記載の対話システム。
- 前記強化学習における報酬は、学習用入力音声に基づいて推定された前記学習用入力音声を発話したユーザの満足度に応じて設定される、請求項4に記載の対話システム。
- ユーザの入力音声を変換することで得られる周波数領域の信号を含む入力データを学習済みの統計モデルに与えることにより、前記ユーザの満足度を推定する満足度推定部と、
少なくとも前記ユーザの入力に基づいて前記ユーザとの対話状態を推定する対話状態推定部と、
推定された前記対話状態に基づいて前記ユーザに対する振る舞いを決定する振る舞い決定部と、
少なくとも、推定された前記満足度に基づいて前記ユーザとの対話を打ち切るか否かを決定する対話打ち切り決定部と
を具備し、
前記対話状態は、前記ユーザの意図および検索条件を含む、対話システム。 - 前記対話打ち切り決定部は、前記対話状態および前記推定された満足度に基づいて前記ユーザとの対話を打ち切るか否かを決定する、請求項6に記載の対話システム。
- 前記対話打ち切り決定部は、前記ユーザとの対話を打ち切ると決定した時に、前記ユーザとの対話をオペレータに自動的に引き継ぐ、請求項6に記載の対話システム。
- コンピュータが、
ユーザの入力音声を変換することで得られる周波数領域の信号を含む入力データを学習済みの統計モデルに与えることにより、前記ユーザの満足度を推定することと、
前記ユーザの入力および推定された前記ユーザの満足度に基づいて前記ユーザとの対話状態を推定することと、
推定された前記対話状態に基づいて前記ユーザに対する振る舞いを決定することと
を具備し、
前記対話状態は、前記ユーザの意図、検索条件および満足度を含む、対話方法。 - コンピュータが、
ユーザの入力音声を変換することで得られる周波数領域の信号を含む入力データを学習済みの統計モデルに与えることにより、前記ユーザの満足度を推定することと、
少なくとも前記ユーザの入力に基づいて前記ユーザとの対話状態を推定することと、
推定された前記対話状態に基づいて前記ユーザに対する振る舞いを決定することと、
少なくとも、推定された前記満足度に基づいて前記ユーザとの対話を打ち切るか否かを決定することと
を具備し、
前記対話状態は、前記ユーザの意図および検索条件を含む、対話方法。 - コンピュータを、
ユーザの入力音声を変換することで得られる周波数領域の信号を含む入力データを学習済みの統計モデルに与えることにより、前記ユーザの満足度を推定する手段、
前記ユーザの入力および推定された前記ユーザの満足度に基づいて前記ユーザとの対話状態を推定する手段、
推定された前記対話状態に基づいて前記ユーザに対する振る舞いを決定する手段
として機能させるための対話プログラムであって、
前記対話状態は、前記ユーザの意図、検索条件および満足度を含む、対話プログラム。 - コンピュータを、
ユーザの入力音声を変換することで得られる周波数領域の信号を含む入力データを学習済みの統計モデルに与えることにより、前記ユーザの満足度を推定する手段、
少なくとも前記ユーザの入力に基づいて前記ユーザとの対話状態を推定する手段、
推定された前記対話状態に基づいて前記ユーザに対する振る舞いを決定する手段、
少なくとも、推定された前記満足度に基づいて前記ユーザとの対話を打ち切るか否かを決定する手段
として機能させるための対話プログラムであって、
前記対話状態は、前記ユーザの意図および検索条件を含む、対話プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017215433A JP6805112B2 (ja) | 2017-11-08 | 2017-11-08 | 対話システム、対話方法および対話プログラム |
US15/899,885 US10847151B2 (en) | 2017-11-08 | 2018-02-20 | Dialogue system and dialogue method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017215433A JP6805112B2 (ja) | 2017-11-08 | 2017-11-08 | 対話システム、対話方法および対話プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019086679A JP2019086679A (ja) | 2019-06-06 |
JP6805112B2 true JP6805112B2 (ja) | 2020-12-23 |
Family
ID=66327467
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017215433A Active JP6805112B2 (ja) | 2017-11-08 | 2017-11-08 | 対話システム、対話方法および対話プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US10847151B2 (ja) |
JP (1) | JP6805112B2 (ja) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108388926B (zh) * | 2018-03-15 | 2019-07-30 | 百度在线网络技术(北京)有限公司 | 语音交互满意度的确定方法及设备 |
US11416740B2 (en) * | 2018-04-13 | 2022-08-16 | Adtran, Inc. | Artificial intelligence optimized telecommunications systems |
US11227626B1 (en) * | 2018-05-21 | 2022-01-18 | Snap Inc. | Audio response messages |
JP7416053B2 (ja) * | 2019-03-29 | 2024-01-17 | ソニーグループ株式会社 | 情報処理装置および情報処理方法 |
CN110287285B (zh) * | 2019-05-31 | 2023-06-16 | 平安科技(深圳)有限公司 | 一种问题意图识别方法、装置、计算机设备及存储介质 |
US11605378B2 (en) * | 2019-07-01 | 2023-03-14 | Lg Electronics Inc. | Intelligent gateway device and system including the same |
CN110569339B (zh) * | 2019-07-22 | 2022-04-19 | 清华大学 | 对话方法、介质、装置和计算设备 |
CN110413756B (zh) * | 2019-07-29 | 2022-02-15 | 北京小米智能科技有限公司 | 自然语言处理的方法、装置及设备 |
CN110737761B (zh) * | 2019-09-26 | 2023-09-19 | 联想(北京)有限公司 | 一种信息处理方法、电子设备和存储介质 |
JP7373348B2 (ja) * | 2019-10-03 | 2023-11-02 | 日産自動車株式会社 | 音声対話装置、音声対話用学習済みモデル、及び音声対話方法 |
CN112530437B (zh) * | 2020-11-18 | 2023-10-20 | 北京百度网讯科技有限公司 | 语义识别方法、装置、设备以及存储介质 |
JP7505584B2 (ja) | 2020-12-14 | 2024-06-25 | 日本電信電話株式会社 | 話者ダイアライゼーション方法、話者ダイアライゼーション装置および話者ダイアライゼーションプログラム |
CN112579758B (zh) * | 2020-12-25 | 2024-08-09 | 广东智城时代科技服务有限公司 | 模型训练方法、装置、设备、存储介质和程序产品 |
CN115114407B (zh) * | 2022-07-12 | 2024-04-19 | 平安科技(深圳)有限公司 | 意图识别方法、装置、计算机设备及存储介质 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS54106208A (en) | 1978-02-07 | 1979-08-21 | Matsushita Electric Ind Co Ltd | Cleaner for automatic focusing device of optical information recording and reproducing apparatus |
JP3933813B2 (ja) * | 1999-04-08 | 2007-06-20 | 三菱電機株式会社 | 音声対話装置 |
JP4686905B2 (ja) | 2000-07-21 | 2011-05-25 | パナソニック株式会社 | 対話制御方法及びその装置 |
US20060215824A1 (en) * | 2005-03-28 | 2006-09-28 | David Mitby | System and method for handling a voice prompted conversation |
JP2006313287A (ja) * | 2005-05-09 | 2006-11-16 | Toyota Motor Corp | 音声対話装置 |
JP4728868B2 (ja) * | 2006-04-18 | 2011-07-20 | 日本電信電話株式会社 | 応対評価装置、その方法、プログラムおよびその記録媒体 |
JP2010129033A (ja) * | 2008-12-01 | 2010-06-10 | Nippon Telegr & Teleph Corp <Ntt> | 対話心理学習装置とその方法、対話制御装置とその方法、プログラムと記録媒体 |
JP4890585B2 (ja) | 2009-04-30 | 2012-03-07 | 沖電気工業株式会社 | 対話制御システム及びプログラム、並びに、多次元オントロジー処理システム及びプログラム |
US20100332287A1 (en) * | 2009-06-24 | 2010-12-30 | International Business Machines Corporation | System and method for real-time prediction of customer satisfaction |
US9679568B1 (en) * | 2012-06-01 | 2017-06-13 | Google Inc. | Training a dialog system using user feedback |
JP6601069B2 (ja) * | 2015-09-01 | 2019-11-06 | カシオ計算機株式会社 | 対話制御装置、対話制御方法及びプログラム |
US10055403B2 (en) * | 2016-02-05 | 2018-08-21 | Adobe Systems Incorporated | Rule-based dialog state tracking |
JP6477551B2 (ja) * | 2016-03-11 | 2019-03-06 | トヨタ自動車株式会社 | 情報提供装置及び情報提供プログラム |
GB2559408B (en) * | 2017-02-06 | 2020-07-08 | Toshiba Kk | A spoken dialogue system, a spoken dialogue method and a method of adapting a spoken dialogue system |
JP6224857B1 (ja) * | 2017-03-10 | 2017-11-01 | ヤフー株式会社 | 分類装置、分類方法および分類プログラム |
US10360908B2 (en) * | 2017-04-19 | 2019-07-23 | International Business Machines Corporation | Recommending a dialog act using model-based textual analysis |
DK201770431A1 (en) * | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US10424302B2 (en) * | 2017-10-12 | 2019-09-24 | Google Llc | Turn-based reinforcement learning for dialog management |
-
2017
- 2017-11-08 JP JP2017215433A patent/JP6805112B2/ja active Active
-
2018
- 2018-02-20 US US15/899,885 patent/US10847151B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2019086679A (ja) | 2019-06-06 |
US20190139537A1 (en) | 2019-05-09 |
US10847151B2 (en) | 2020-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6805112B2 (ja) | 対話システム、対話方法および対話プログラム | |
CN111028827B (zh) | 基于情绪识别的交互处理方法、装置、设备和存储介质 | |
JP6671020B2 (ja) | 対話行為推定方法、対話行為推定装置及びプログラム | |
JP6538779B2 (ja) | 音声対話システム、音声対話方法、および音声対話システムを適合させる方法 | |
CN111105782B (zh) | 会话交互处理方法、装置、计算机设备和存储介质 | |
JP6448723B2 (ja) | 対話システム、対話方法、および対話システムを適合させる方法 | |
CN113039555B (zh) | 在视频剪辑中进行动作分类的方法、系统及存储介质 | |
US11227581B2 (en) | Systems and methods for generating a response based on task-independent conversational responses or task-specific responses | |
JP7249378B2 (ja) | 対話装置、プログラム、及び対話方法 | |
JP6802958B2 (ja) | 音声合成システム、音声合成プログラムおよび音声合成方法 | |
WO2021000403A1 (zh) | 智能对话系统的语音匹配方法、电子装置、计算机设备 | |
US20200143809A1 (en) | Electronic apparatus and control method thereof | |
US11514894B2 (en) | Adaptively modifying dialog output by an artificial intelligence engine during a conversation with a customer based on changing the customer's negative emotional state to a positive one | |
US11995523B2 (en) | Systems and methods for determining training parameters for dialog generation | |
Casanueva et al. | Knowledge transfer between speakers for personalised dialogue management | |
US11875128B2 (en) | Method and system for generating an intent classifier | |
CN105830058B (zh) | 对话管理器 | |
KR101959292B1 (ko) | 문맥 기반으로 음성 인식의 성능을 향상하기 위한 방법, 컴퓨터 장치 및 컴퓨터 판독가능 기록 매체 | |
JP2020034683A (ja) | 音声認識装置、音声認識プログラムおよび音声認識方法 | |
CA3123387C (en) | Method and system for generating an intent classifier | |
CN115497465A (zh) | 语音交互方法、装置、电子设备和存储介质 | |
CN108053826B (zh) | 用于人机交互的方法、装置、电子设备及存储介质 | |
CN117093684A (zh) | 企业服务领域预训练对话式大语言模型的构建方法及系统 | |
CN113935336B (zh) | 用于语音对话的话术策略确定方法、装置及电子设备 | |
JP6910002B2 (ja) | 対話行為推定方法、対話行為推定装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190816 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200424 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200707 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200904 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201104 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201203 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6805112 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |