JP6468258B2 - 音声対話装置および音声対話方法 - Google Patents
音声対話装置および音声対話方法 Download PDFInfo
- Publication number
- JP6468258B2 JP6468258B2 JP2016151130A JP2016151130A JP6468258B2 JP 6468258 B2 JP6468258 B2 JP 6468258B2 JP 2016151130 A JP2016151130 A JP 2016151130A JP 2016151130 A JP2016151130 A JP 2016151130A JP 6468258 B2 JP6468258 B2 JP 6468258B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- user
- familiarity
- intimacy
- calculating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/227—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Toys (AREA)
- Manipulator (AREA)
Description
ユーザが発した音声を取得および認識する音声入力手段と、前記ユーザとの間の親密度を算出する親密度算出手段と、前記親密度に基づいて、前記認識した音声に対する応答を生成する応答生成手段と、前記応答を音声によって出力する音声出力手段と、を有し、前記親密度算出手段は、前記ユーザが行った発話の内容に基づいて算出された第一の親密度と、前記ユーザとの過去の対話回数に基づいて算出された第二の親密度との合計値に基づいて、前記ユーザとの親密度を算出することを特徴とする。
第一の親密度は、最新の発話の内容のみに基づいて算出されたものであってもよいし、過去になされた発話の内容に基づいて算出されたものであってもよい。また、過去の発話の内容に基づいて算出された値を、最新の発話の内容に基づいて算出された値を用いて更
新してもよい。
また、第二の親密度は、ユーザが過去に装置に対して対話を行った回数に基づいて算出される。例えば、対話を行った回数そのものであってもよいし、所定の期間における対話頻度であってもよい。また、対話を行ってからの経過時間を用いて重み付けを行ってもよい。
かかる構成によると、対話の内容と対話の多さという二つの基準によって親密度を算出するため、より人間に近い親密度を算出することができる。
このように、記憶された親密度に対して、「最新の対話に起因した親密度の変動量」を適用して最新の親密度を算出することで、対話を行うごとに徐々に親密度が変動していくという効果を得ることができる。
特定することができる。また、前記音声対話装置や対話システムが行う音声対話方法として特定することもできる。上記処理や手段は、技術的な矛盾が生じない限りにおいて、自由に組み合わせて実施することができる。
以下、本発明の好ましい実施形態について図面を参照しながら説明する。
本実施形態に係るロボットは、ユーザが発した音声を取得して音声認識を行い、認識結果に基づいて応答文を生成して出力することでユーザとの対話を行う装置である。
図1は、本実施形態に係るロボット10のシステム構成図である。
ロボット10は、外部から音声を取得する機能と、取得した音声を認識する機能と、当該音声に対する返答を取得する機能と、当該返答を音声によって出力する機能を有するロボットである。ロボット10は、例えば、コミュニケーションロボットであるが、必ずしもキャラクターの形をしている必要はない。例えば、ロボットに組み込むことができる汎用のコンピュータであってもよい。
、ユーザから発せられた発話の内容に基づいて算出された親密度(以下、第一の親密度)と、ユーザとロボット10との対話回数に基づいて算出された親密度(以下、第二の親密度)が、ユーザがロボット10と最後に対話した日時および係数とともに記録されている。
第一および第二の親密度の算出方法と、最終対話日時、係数の詳細については後述する。
また、応答生成部14は、親密度算出部13が算出した親密度を加味して応答の生成を行う。具体的には、例えば、親密度が低い場合は丁寧口調の文章を生成し、親密度が高くなると友達口調の文章を生成するなど、入力された親密度に応じて応答を生成する。このため、応答生成部14には、親密度に応じた対話シナリオを持たせてもよい。
応答生成部14が生成した返答は、制御部15へテキスト形式で送信され、その後、合成音声によってユーザに向けて出力される。
次に、親密度の算出方法について説明する。親密度の算出は、ロボット10がユーザから発話を受け取った場合に、親密度算出部13によって行われる。なお、ここでは、図2に示したように、第一の親密度(対話内容に基づく親密度)の値が30、第二の親密度(対話回数に基づく親密度)の値が20であるユーザを例に説明を行う。親密度テーブルに記録されている親密度は、現時点における親密度(すなわち、最後に対話を行った際に算出された親密度)である。
まず、親密度算出部13が、ユーザが行った発話の内容に基づいて、第一の親密度の変動量(以下、変動量α)を算出する。変動量αは、今回のユーザの発話に起因して、親密度がどの程度変動するかを表す値である。変動量αの算出は、以下のような方法で行うことができる。
例えば、親密度算出部13が、音声認識部12から取得したテキストに対して形態素解析を行い、得られた形態素のそれぞれを、予め記憶された親密度辞書と比較する。親密度辞書は、親密度の増減量がキーワードごとに定義されたリストであり、ヒットしたキーワードに対応する親密度の増減量の総和を、第一の親密度の変動量αとする。なお、ユーザの発話に起因した親密度の変動量を算出することができれば、その算出方法は例示したものに限られない。本例では、α=5という値が得られたものとする。
次に、親密度算出部13が、経過時間に基づく親密度の変動量を取得する。本例では、
tを前回対話時からの経過時間、aを親密度テーブルに定義された係数とし、−ta/2を時間の経過に伴う親密度の変動量(以下、変動量β)とする。すなわち、前回対話時からの時間が経過するほど、第一および第二の親密度が共に下がるようになっている。本例では、t=10(時間)、a=0.1とする。すなわち、時間の経過に伴う親密度の変動量βは、−ta/2=−0.5である。
次に、親密度テーブルに記録されている第一の親密度に、前述したαおよびβを加算する。その後、得られた値によって、親密度テーブルに記録されている第一の親密度を更新する。本例では、30+5−0.5=34.5が、最新の第一の親密度となる。
次に、親密度テーブルに記録されている第二の親密度に1およびβを加算する。1という値の加算は、対話回数が一回増えたことを意味する。その後、得られた値によって、親密度テーブルに記録されている第二の親密度を更新する。本例では、20+1−0.5=20.5が、最新の第二の親密度となる。
最後に、第一の親密度と第二の親密度を加算し、トータルの親密度を得る。本例では、34.5+20.5=55が最新の親密度となる。すなわち、ユーザがロボットと対話したことによって、親密度が50から55に上昇する。
次に、ロボット10が行う具体的な処理の内容について説明する。
まず、ロボット10とユーザが音声によって対話する処理について、図3のフローチャートを参照しながら説明する。
そして、ステップS14で、制御部15が、応答文に基づいて音声合成を行い、音声入出力部11を介して出力する。
第二の実施形態は、第一の実施形態におけるロボットの機能を、ロボット10と対話サーバ20に分散させた実施形態である。
図4は、第二の実施形態に係る対話システムのシステム構成図である。なお、第一の実施形態と同様の機能を有する機能ブロックには、同一の符号を付し説明は省略する。
なお、本例では、音声の合成をロボット10側で行うものとしたが、音声の合成は対話サーバ20側で行ってもよい。
上記の実施形態はあくまでも一例であって、本発明はその要旨を逸脱しない範囲内で適宜変更して実施しうる。
例えば、実施形態の説明では、対話回数が1回増えるごとに第二の親密度に1を加算したが、加算する値は1以外の値であってもよい。また、発話内容がネガティブなものであった場合、加算を行わなくてもよいし、任意の値を減算してもよい。
11・・・音声入出力部
12・・・音声認識部
13・・・親密度算出部
14・・・応答生成部
15・・・制御部
Claims (6)
- 音声によってユーザと対話する音声対話装置であって、
ユーザが発した音声を取得および認識する音声入力手段と、
前記ユーザとの間の親密度を算出する親密度算出手段と、
前記親密度に基づいて、前記認識した音声に対する応答を生成する応答生成手段と、
前記応答を音声によって出力する音声出力手段と、
を有し、
前記親密度算出手段は、前記ユーザが行った発話の内容に基づいて算出された第一の親密度と、前記ユーザとの過去の対話回数に基づいて算出された第二の親密度との合計値に基づいて、前記ユーザとの親密度を算出する、
音声対話装置。 - 算出した前記親密度を記憶する記憶手段をさらに有し、
前記親密度算出手段は、前記ユーザから発話を受けた場合に、当該発話に起因する親密度の変動量を算出し、前記第一の親密度および前記第二の親密度を更新する、
請求項1に記載の音声対話装置。 - ユーザを識別するユーザ識別手段をさらに有し、
前記記憶手段は、ユーザごとに前記親密度を記憶する、
請求項2に記載の音声対話装置。 - 前記親密度算出手段は、
前回ユーザと最後に接触してからの経過時間に基づいて、前記第一の親密度または前記第二の親密度の変動量を補正する、
請求項2または3に記載の音声対話装置。 - 音声によってユーザと対話する音声対話装置が行う音声対話方法であって、
ユーザが発した音声を取得および認識する音声入力ステップと、
前記ユーザとの間の親密度を算出する親密度算出ステップと、
前記親密度に基づいて、前記認識した音声に対する応答を生成する応答生成ステップと、
前記応答を音声によって出力する音声出力ステップと、
を含み、
前記親密度算出ステップでは、前記ユーザが行った発話の内容に基づいて算出された第一の親密度と、前記ユーザとの過去の対話回数に基づいて算出された第二の親密度との合計値に基づいて、前記ユーザとの親密度を算出する、
音声対話方法。 - 音声対話装置と、対話サーバと、からなる対話システムであって、
前記音声対話装置は、
ユーザが発した音声を取得し、前記音声を前記対話サーバに送信する音声入力手段と、
前記音声に対する応答を前記対話サーバから取得して音声によって出力する音声出力手段と、
を有し、
前記対話サーバは、
前記ユーザが発した音声を認識する音声認識手段と、
前記ユーザとの親密度を算出する親密度算出手段と、
前記親密度に基づいて、前記認識した音声に対する応答を生成し、前記音声対話装置に送信する応答生成手段と、
を有し、
前記親密度算出手段は、前記ユーザが行った発話の内容に基づいて算出された第一の親密度と、前記ユーザとの過去の対話回数に基づいて算出された第二の親密度とに基づいて、前記ユーザとの親密度を算出する、
対話システム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016151130A JP6468258B2 (ja) | 2016-08-01 | 2016-08-01 | 音声対話装置および音声対話方法 |
US15/658,966 US10269349B2 (en) | 2016-08-01 | 2017-07-25 | Voice interactive device and voice interaction method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016151130A JP6468258B2 (ja) | 2016-08-01 | 2016-08-01 | 音声対話装置および音声対話方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018021953A JP2018021953A (ja) | 2018-02-08 |
JP6468258B2 true JP6468258B2 (ja) | 2019-02-13 |
Family
ID=61011678
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016151130A Active JP6468258B2 (ja) | 2016-08-01 | 2016-08-01 | 音声対話装置および音声対話方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10269349B2 (ja) |
JP (1) | JP6468258B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108228191B (zh) * | 2018-02-06 | 2022-01-25 | 威盛电子股份有限公司 | 语法编译系统以及语法编译方法 |
KR102181583B1 (ko) * | 2018-12-28 | 2020-11-20 | 수상에스티(주) | 음성인식 교감형 로봇, 교감형 로봇 음성인식 시스템 및 그 방법 |
KR20210134741A (ko) | 2019-03-01 | 2021-11-10 | 구글 엘엘씨 | 어시스턴트 응답을 동적으로 적응시키는 방법, 시스템 및 매체 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001188779A (ja) | 1999-12-28 | 2001-07-10 | Sony Corp | 情報処理装置および方法、並びに記録媒体 |
JP4266552B2 (ja) * | 2001-10-16 | 2009-05-20 | 日本電気株式会社 | ロボット装置及びその制御方法 |
JP2004090109A (ja) | 2002-08-29 | 2004-03-25 | Sony Corp | ロボット装置およびロボット装置の対話方法 |
JP5864273B2 (ja) | 2012-01-06 | 2016-02-17 | Kddi株式会社 | ユーザ間親密度推定装置、方法及びプログラム |
JP6069870B2 (ja) | 2012-03-29 | 2017-02-01 | 富士通株式会社 | 親密度算出方法、親密度算出プログラムおよび親密度算出装置 |
JP6257368B2 (ja) * | 2014-02-18 | 2018-01-10 | シャープ株式会社 | 情報処理装置 |
EP2980733A1 (en) * | 2014-07-31 | 2016-02-03 | Samsung Electronics Co., Ltd | Message service providing device and method of providing content via the same |
JP6129134B2 (ja) * | 2014-09-29 | 2017-05-17 | シャープ株式会社 | 音声対話装置、音声対話システム、端末、音声対話方法およびコンピュータを音声対話装置として機能させるためのプログラム |
WO2016157642A1 (ja) * | 2015-03-27 | 2016-10-06 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
-
2016
- 2016-08-01 JP JP2016151130A patent/JP6468258B2/ja active Active
-
2017
- 2017-07-25 US US15/658,966 patent/US10269349B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20180033432A1 (en) | 2018-02-01 |
JP2018021953A (ja) | 2018-02-08 |
US10269349B2 (en) | 2019-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6465077B2 (ja) | 音声対話装置および音声対話方法 | |
JP5753869B2 (ja) | 音声認識端末およびコンピュータ端末を用いる音声認識方法 | |
US10650802B2 (en) | Voice recognition method, recording medium, voice recognition device, and robot | |
JP6464650B2 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
JP6654611B2 (ja) | 成長型対話装置 | |
CN107871503B (zh) | 语音对话系统以及发声意图理解方法 | |
JP5494468B2 (ja) | 状態検出装置、状態検出方法および状態検出のためのプログラム | |
US20150046163A1 (en) | Leveraging interaction context to improve recognition confidence scores | |
WO2016013503A1 (ja) | 音声認識装置及び音声認識方法 | |
JP5431282B2 (ja) | 音声対話装置、方法、プログラム | |
JP2015049254A (ja) | 音声データ認識システム及び音声データ認識方法 | |
CN111986675A (zh) | 语音对话方法、设备及计算机可读存储介质 | |
KR102699035B1 (ko) | 자동 음성 인식을 위한 다언어 리스코어링 모델들 | |
JP6468258B2 (ja) | 音声対話装置および音声対話方法 | |
JP6696803B2 (ja) | 音声処理装置および音声処理方法 | |
JP5803125B2 (ja) | 音声による抑圧状態検出装置およびプログラム | |
CN109155128B (zh) | 声学模型学习装置、声学模型学习方法、语音识别装置和语音识别方法 | |
JP2019101065A (ja) | 音声対話装置、音声対話方法及びプログラム | |
CN113763921B (zh) | 用于纠正文本的方法和装置 | |
JP6176137B2 (ja) | 音声対話装置、音声対話システム及びプログラム | |
JP2019015950A (ja) | 音声認識方法、プログラム、音声認識装置、及びロボット | |
JP5949634B2 (ja) | 音声合成システム、及び音声合成方法 | |
US20230317085A1 (en) | Audio processing device, audio processing method, recording medium, and audio authentication system | |
JP2018132623A (ja) | 音声対話装置 | |
US20200372900A1 (en) | Speech signal processing and evaluation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180611 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180619 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181218 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181231 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6468258 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |