JP6669162B2 - 情報処理装置、制御方法、およびプログラム - Google Patents
情報処理装置、制御方法、およびプログラム Download PDFInfo
- Publication number
- JP6669162B2 JP6669162B2 JP2017509182A JP2017509182A JP6669162B2 JP 6669162 B2 JP6669162 B2 JP 6669162B2 JP 2017509182 A JP2017509182 A JP 2017509182A JP 2017509182 A JP2017509182 A JP 2017509182A JP 6669162 B2 JP6669162 B2 JP 6669162B2
- Authority
- JP
- Japan
- Prior art keywords
- response
- user
- output
- information processing
- utterance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 116
- 238000000034 method Methods 0.000 title claims description 103
- 230000004044 response Effects 0.000 claims description 243
- 230000003993 interaction Effects 0.000 claims 1
- 238000012545 processing Methods 0.000 description 16
- 230000008569 process Effects 0.000 description 15
- 230000006870 function Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- 238000005259 measurement Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000009118 appropriate response Effects 0.000 description 3
- 238000010295 mobile communication Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000001151 other effect Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- WZFUQSJFWNHZHM-UHFFFAOYSA-N 2-[4-[2-(2,3-dihydro-1H-inden-2-ylamino)pyrimidin-5-yl]piperazin-1-yl]-1-(2,4,6,7-tetrahydrotriazolo[4,5-c]pyridin-5-yl)ethanone Chemical compound C1C(CC2=CC=CC=C12)NC1=NC=C(C=N1)N1CCN(CC1)CC(=O)N1CC2=C(CC1)NN=N2 WZFUQSJFWNHZHM-UHFFFAOYSA-N 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000004397 blinking Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
- G06F3/04817—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance using icons
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0487—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- User Interface Of Digital Computer (AREA)
- Telephonic Communication Services (AREA)
Description
1.本開示の一実施形態による音声認識システムの概要
2.構成
3.動作処理
4.応答出力例
4−1.音声および表示による応答
4−2.指向性を用いた同時応答
4−3.外部装置との連携による応答
4−4.発話者の状態に応じた応答
4−5.発話内容に応じた応答
4−6.エラー応答
5.まとめ
本開示の一実施形態による音声認識システムは、ユーザの発話に対して音声認識・意味解析を行い、音声により応答を行う基本機能を有する。以下、図1を参照して本開示の一実施形態による音声認識システムの概要について説明する。
図2は、本実施形態による情報処理装置1の構成の一例を示す図である。図2に示すように、情報処理装置1は、制御部10、通信部11、マイクロホン12、スピーカ13、カメラ14、測距センサ15、投影部16、記憶部17、および発光部18を有する。
制御部10は、情報処理装置1の各構成を制御する。制御部10は、CPU(Central
Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)、および不揮発性メモリを備えたマイクロコンピュータにより実現される。また、本実施形態による制御部10は、図2に示すように、音声認識部10a、意味解析部10b、応答生成部10c、ターゲット決定部10d、応答出力方法決定部10e、および出力制御部10fとしても機能する。
通信部11は、外部装置とデータの送受信を行う。例えば通信部11は、ネットワーク上の所定サーバと接続し、応答生成部10cによる応答生成に必要な情報を受信する。また、通信部11は、周辺の機器と連携し、出力制御部10fの制御に従って対象機器に応答データを送信する。
マイクロホン12は、周辺の音声を収音し、音声信号として制御部10に出力する機能を有する。また、マイクロホン12は、アレイマイクロホンにより実現されていてもよい。
スピーカ13は、出力制御部10fの制御に従って音声信号を音声に変換して出力する機能を有する。
カメラ14は、情報処理装置1に設けられた撮像レンズにより周辺を撮像し、撮像画像を制御部10に出力する機能を有する。また、カメラ14は、360度カメラまたは広角カメラ等により実現されてもよい。
測距センサ15は、情報処理装置1とユーザやユーザの周辺に居る人物との距離を測定する機能を有する。測距センサ15は、例えば光センサ(発光・受光タイミングの位相差情報に基づいて対象物までの距離を測定するセンサ)により実現される。
投影部16は、表示装置の一例であって、壁やスクリーンに画像を(拡大して)投影することで表示する機能を有する。
記憶部17は、情報処理装置1の各構成が機能するためのプログラムを格納する。また、記憶部17は、ターゲット決定部10dが複数ユーザの優先度を算出する際に用いる各種パラメータや、応答出力方法決定部10eが優先度(または優先度に基づいて決定されたターゲット/非ターゲット)に応じて出力方法を決定する際に用いる各種アルゴリズムを格納する。また、記憶部17は、ユーザの登録情報を格納する。ユーザの登録情報には、個人識別用情報(音声の特徴量、顔画像、人画像(身体画像を含む)の特徴量、氏名、識別番号等)、年齢、性別、趣味・嗜好、属性(主婦、会社員、学生等)、およびユーザが所有する通信端末に関する情報等が含まれる。
発光部18は、LED等の発光素子により実現され、全灯、一部点灯、点滅、または点灯位置の制御等が可能である。例えば発光部18は、制御部10の制御にしたがって音声認識部10aにより認識された発話者の方向を一部点灯することで、発話者の方向に視線を向けているように見せることができる。
次に、本実施形態による音声認識システムの動作処理について図3を参照して具体的に説明する。
続いて、本実施形態による複数ユーザに対する応答出力の一例について、図4〜図8を参照して具体的に説明する。
図4は、本実施形態の複数人同時発話に対する音声および表示による応答出力例について説明する図である。図4左に示すように、情報処理装置1は、ユーザAAからの発話30に対して応答31を音声出力している際に、ユーザBBからの発話32を認識した場合、先に対話を開始したユーザAAをターゲットユーザに決定し、応答31の音声出力を継続する。一方、情報処理装置1は、後から発話したユーザBBを非ターゲットユーザに決定し、ユーザBBに対しては待機を促す応答画像21aを表示出力する。
例えばターゲットユーザにより表示応答出力も占有されている場合、情報処理装置1は、情報処理装置1に設けられているサブディスプレイや発光部18を用いて非ターゲットユーザに対して待機指示を出力することが可能である。
また、情報処理装置1は、複数ユーザに対するそれぞれの応答に一定の表示領域が必要である場合、表示領域が足りなくなるため、優先度の低い方への応答(すなわち非ターゲットユーザへの応答)を、アイコンやテキストにして表示し、表示領域を節約する。図6は、非ターゲットユーザへの応答をアイコンで示して表示領域を節約する例について説明する図である。図6に示すように、ユーザAAからの発話34「カレンダー見せて」を認識した情報処理装置1は、応答35「カレンダーですね」を出力し、壁20には対応するカレンダー画像22aを投影する。
次に、情報処理装置1は、スピーカ13が、波面合成のように特定位置のみに音場を生成することができる指向性を持つものである場合、複数ユーザに対して同時に音声応答出力することも可能である。図7は、指向性を用いた音声による同時応答について説明する図である。
また、情報処理装置1は、外部装置と連携し、非ターゲットユーザに対する応答を外部装置から行うよう制御することも可能である。例えばターゲットユーザにより音声および表示応答出力が占有されている場合、情報処理装置1は、非ターゲットユーザが所有する携帯通信端末、ウェアラブル端末、付近や非ターゲットユーザの自室にあるTV、または他の場所にある他の音声UIシステム等から非ターゲットユーザに対する応答を出力するよう制御する。この際、情報処理装置1は、情報処理装置1に設けられているサブディスプレイに外部装置から応答出力を行う旨を表示してもよいし、携帯通信端末やウェアラブル端末から「こちらから応答します」等の音声を出力させたりして応答端末を非ターゲットユーザに通知してもよい。
また、本実施形態による情報処理装置1は、発話者の状態に応じて応答出力方法を決定することも可能である。例えばユーザが情報処理装置1の近くにはおらず、少し離れた所から大声で発話した場合、情報処理装置1からの音声出力や表示出力がユーザまで伝わらない可能性がある。そのため、情報処理装置1は、ユーザが所有する携帯通信端末やウェアラブル装置等、外部装置との連携による応答出力方法に決定してもよい。また、応答内容を情報処理装置1内に一時的に記憶させ、ユーザが情報処理装置1の音声出力や表示出力の有効範囲内に移動した場合に、応答内容を出力するようにしてもよい。
また、本実施形態による情報処理装置1は、応答内容に応じて応答出力方法を決定することも可能である。例えば応答がカレンダー表示といったように情報量が多いものである場合、情報処理装置1は、当該応答には表示出力方法を優先的に割り当てて、音声出力方法は他のユーザが利用可能としてもよい。また、簡単な確認事項(ユーザの発話「山手線遅れてないよね?」に対して、情報処理装置1の応答が「はい」のみ)の場合、音声出力だけで完結し、画像表示は不要であるため、情報処理装置1は、表示出力方法は他のユーザが利用可能としてもよい。また、ユーザの発話が「カレンダー見せて」といったように表示に対する指示だけである場合、情報処理装置1は、音声出力方法は他のユーザが利用可能としてもよい。
また、本実施形態による情報処理装置1は、許容する同時発話者数を超えた場合、エラー表示を行ってもよい。以下、図8を参照して一例を説明する。
上述したように、本開示の実施形態による音声認識システムでは、例えば発話順に応じて音声応答出力の占有を遷移させることで、複数ユーザによるシステムの同時利用を実現し、音声認識システムの利便性を向上することが可能となる。
(1)
複数ユーザからの発話に対して応答を生成する応答生成部と、
前記複数ユーザの発話順に応じた優先度に基づいて各ユーザへの応答出力方法を決定する決定部と、
前記決定された応答出力方法で前記生成された応答を出力するよう制御する出力制御部と、
を備える、情報処理装置。
(2)
前記決定部は、対話中のユーザと異なるユーザからの発話を認識した場合、先に対話を開始したユーザの優先度を、次に対話を開始したユーザの優先度よりも高くする、前記(1)に記載の情報処理装置。
(3)
前記決定部は、最も優先度が高い1のユーザをターゲットユーザ、他の1以上のユーザを非ターゲットユーザに決定する、前記(2)に記載の情報処理装置。
(4)
前記決定部は、音声による応答出力方法を前記ターゲットユーザに占有させ、前記非ターゲットユーザには表示による応答出力方法を割り当てる、前記(3)に記載の情報処理装置。
(5)
前記応答生成部は、前記非ターゲットユーザに対して、待機を促す応答を生成し、
前記出力制御部は、前記非ターゲットユーザに対して待機を促す応答の画像を表示するよう制御する、前記(4)に記載の情報処理装置。
(6)
前記応答生成部は、前記非ターゲットユーザに対して、前記非ターゲットユーザの発話の音声認識結果を示す応答を生成し、
前記出力制御部は、前記非ターゲットユーザの発話の音声認識結果を示す応答の画像を表示するよう制御する、前記(5)に記載の情報処理装置。
(7)
前記出力制御部は、応答待ちの非ターゲットユーザを明示するよう制御する、前記(4)〜(6)のいずれか1項に記載の情報処理装置。
(8)
前記決定部は、前記ターゲットユーザとの対話が終了した後、ターゲットユーザに占有させていた音声応答出力方法を非ターゲットユーザに遷移させる、前記(4)〜(7)のいずれか1項に記載の情報処理装置。
(9)
前記表示による応答出力は、投影による表示である、前記(4)〜(8)のいずれか1項に記載の情報処理装置。
(10)
前記決定部は、前記ターゲットユーザが表示による出力方法と音声による出力方法を占有している場合、前記非ターゲットユーザには、外部装置との連携による応答の出力方法を割り当てる、前記(3)に記載の情報処理装置。
(11)
前記決定部は、前記ターゲットユーザへの応答内容に応じて決定された応答出力方法と異なる応答出力方法を前記非ターゲットユーザに決定する、前記(3)に記載の情報処理装置。
(12)
前記決定部は、前記ターゲットユーザへの応答出力方法が表示を占有するものである場合、非ターゲットユーザには音声による出力方法を割り当てる、前記(11)に記載の情報処理装置。
(13)
前記決定部は、前記ターゲットユーザの状態に応じて応答の出力方法を決定する、前記(3)に記載の情報処理装置。
(14)
前記決定部は、前記ターゲットユーザが前記情報処理装置1から所定値以上離れた場所に居る場合、外部装置との連携による応答の出力方法を割り当てる、前記(13)に記載の情報処理装置。
(15)
前記決定部は、明示的な割込み処理に応じて優先度を変更する、前記(2)〜(14)のいずれか1項に記載の情報処理装置。
(16)
前記決定部は、指向性を有する音声出力部からの応答出力方法を複数ユーザに対して割り当てる、前記(1)に記載の情報処理装置。
(17)
前記出力制御部は、音声認識結果に基づいて許容する発話者数を超えた場合、エラー通知を行うよう制御する、前記(1)〜(16)のいずれか1項に記載の情報処理装置。
(18)
複数ユーザからの発話に対して応答を生成することと、
前記複数ユーザの発話順に応じた優先度に基づいて各ユーザへの応答出力方法を決定することと、
前記決定された応答出力方法で前記生成された応答を出力するよう出力制御部により制御することと、
を含む制御方法。
(19)
コンピュータを、
複数ユーザからの発話に対して応答を生成する応答生成部と、
前記複数ユーザの発話順に応じた優先度に基づいて各ユーザへの応答出力方法を決定する決定部と、
前記決定された応答出力方法で前記生成された応答を出力するよう制御する出力制御部と、
として機能させるためのプログラム。
10 制御部
10a 音声認識部
10b 意味解析部
10c 応答生成部
10d ターゲット決定部
10e 応答出力方法決定部
10f 出力制御部
11 通信部
12 マイクロホン
13 スピーカ
14 カメラ
15 測距センサ
16 投影部
17 記憶部
18 発光部
19 サブディスプレイ
20 壁
Claims (19)
- 複数ユーザからの発話に対して応答を生成する応答生成部と、
前記複数ユーザの発話順に応じた優先度に基づいて各ユーザへの応答出力方法を決定する決定部と、
前記決定された応答出力方法で前記生成された応答を出力するよう制御する出力制御部と、
を備え、
前記応答生成部は、一のユーザの発話に対する回答を示す応答と、他のユーザに対する回答出力待ちを促す応答を生成する、情報処理装置。 - 前記決定部は、一のユーザに専有させる応答出力方法と、当該応答出力方法以外で他のユーザに共有させる応答出力方法とを決定し、
前記出力制御部は、前記決定した各応答出力方法で各ユーザの発話に対する応答をそれぞれ出力するよう制御する、請求項1に記載の情報処理装置。 - 前記出力制御部は、一のユーザの発話に対する回答を示す応答と、回答出力待ちユーザの音声認識結果に関連するアプリケーションアイコンを出力するよう制御する、請求項1または2に記載の情報処理装置。
- 前記出力制御部は、一のユーザの発話に対する応答と、他のユーザの音声認識結果を出力するよう制御する、請求項1から3のいずれか1項に記載の情報処理装置。
- 前記情報処理装置は、
複数ユーザからの発話に対してそれぞれ音声認識を行う音声認識部をさらに備え、
前記応答生成部は、前記複数ユーザの発話順に応じた優先度に基づいて、一のユーザの発話に対する回答を示す応答と、他のユーザに対する回答出力待ちを促す応答と、を生成し、
前記出力制御部は、一のユーザの発話に対する応答終了後、待機させていた他のユーザの発話に対する回答を示す応答を出力するよう制御する、請求項1から4のいずれか1項に記載の情報処理装置。 - 前記決定部は、最も優先度が高い1のユーザをターゲットユーザ、他の1以上のユーザを非ターゲットユーザに決定する、請求項5に記載の情報処理装置。
- 前記決定部は、音声による応答出力方法を前記ターゲットユーザに占有させ、前記非ターゲットユーザには表示による応答出力方法を割り当てる、請求項6に記載の情報処理装置。
- 前記応答生成部は、前記非ターゲットユーザに対して、待機を促す応答を生成し、
前記出力制御部は、前記非ターゲットユーザに対して待機を促す応答の画像を表示するよう制御する、請求項7に記載の情報処理装置。 - 前記応答生成部は、前記非ターゲットユーザに対して、前記非ターゲットユーザの発話の音声認識結果を示す応答を生成し、
前記出力制御部は、前記非ターゲットユーザの発話の音声認識結果を示す応答の画像を表示するよう制御する、請求項8に記載の情報処理装置。 - 前記出力制御部は、応答待ちの非ターゲットユーザを明示するよう制御する、請求項7から9のいずれか1項に記載の情報処理装置。
- 前記決定部は、前記ターゲットユーザとの対話が終了した後、ターゲットユーザに占有させていた音声応答出力方法を非ターゲットユーザに遷移させる、請求項7から10のいずれか1項に記載の情報処理装置。
- 前記表示による応答出力は、投影による表示である、請求項7から11のいずれか1項に記載の情報処理装置。
- 前記決定部は、前記ターゲットユーザが表示による出力方法と音声による出力方法を占有している場合、前記非ターゲットユーザには、外部装置との連携による応答の出力方法を割り当てる、請求項6に記載の情報処理装置。
- 前記決定部は、前記ターゲットユーザへの応答内容に応じて決定された応答出力方法と異なる応答出力方法を前記非ターゲットユーザに決定する、請求項6に記載の情報処理装置。
- 前記決定部は、前記ターゲットユーザへの応答出力方法が表示を占有するものである場合、非ターゲットユーザには音声による出力方法を割り当てる、請求項14に記載の情報処理装置。
- 前記決定部は、前記ターゲットユーザが前記情報処理装置から所定値以上離れた場所に居る場合、外部装置との連携による応答の出力方法を割り当てる、請求項6に記載の情報処理装置。
- 前記決定部は、指向性を有する音声出力部からの応答出力方法を複数ユーザに対して割り当てる、請求項6に記載の情報処理装置。
- プロセッサが、
複数ユーザからの発話に対して、一のユーザの発話に対する回答を示す応答と、他のユーザに対する回答出力待ちを促す応答を生成することと、
前記複数ユーザの発話順に応じた優先度に基づいて各ユーザへの応答出力方法を決定することと、
前記決定された応答出力方法で前記生成された応答を出力するよう出力制御部により制御することと、
を含む、制御方法。 - コンピュータを、
複数ユーザからの発話に対して応答を生成する応答生成部と、
前記複数ユーザの発話順に応じた優先度に基づいて各ユーザへの応答出力方法を決定する決定部と、
前記決定された応答出力方法で前記生成された応答を出力するよう制御する出力制御部と、
として機能させ、
前記応答生成部は、一のユーザの発話に対する回答を示す応答と、他のユーザに対する回答出力待ちを促す応答を生成する、プログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015073896 | 2015-03-31 | ||
JP2015073896 | 2015-03-31 | ||
PCT/JP2015/086544 WO2016157662A1 (ja) | 2015-03-31 | 2015-12-28 | 情報処理装置、制御方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2016157662A1 JPWO2016157662A1 (ja) | 2018-01-25 |
JP6669162B2 true JP6669162B2 (ja) | 2020-03-18 |
Family
ID=57005865
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017509182A Active JP6669162B2 (ja) | 2015-03-31 | 2015-12-28 | 情報処理装置、制御方法、およびプログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US20180074785A1 (ja) |
EP (1) | EP3279790B1 (ja) |
JP (1) | JP6669162B2 (ja) |
CN (1) | CN107408027B (ja) |
WO (1) | WO2016157662A1 (ja) |
Families Citing this family (44)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11100384B2 (en) | 2017-02-14 | 2021-08-24 | Microsoft Technology Licensing, Llc | Intelligent device user interactions |
US11010601B2 (en) | 2017-02-14 | 2021-05-18 | Microsoft Technology Licensing, Llc | Intelligent assistant device communicating non-verbal cues |
US10467509B2 (en) | 2017-02-14 | 2019-11-05 | Microsoft Technology Licensing, Llc | Computationally-efficient human-identifying smart assistant computer |
CN108447471B (zh) * | 2017-02-15 | 2021-09-10 | 腾讯科技(深圳)有限公司 | 语音识别方法及语音识别装置 |
JP6901871B2 (ja) * | 2017-03-01 | 2021-07-14 | 大和ハウス工業株式会社 | インターフェースユニット |
US10438584B2 (en) | 2017-04-07 | 2019-10-08 | Google Llc | Multi-user virtual assistant for verbal device control |
KR101949497B1 (ko) * | 2017-05-02 | 2019-02-18 | 네이버 주식회사 | 사용자 발화의 표현법을 파악하여 기기의 동작이나 컨텐츠 제공 범위를 조정하여 제공하는 사용자 명령 처리 방법 및 시스템 |
US10628570B2 (en) * | 2017-05-15 | 2020-04-21 | Fmr Llc | Protection of data in a zero user interface environment |
WO2018231247A1 (en) * | 2017-06-16 | 2018-12-20 | Hewlett-Packard Development Company, L.P. | Voice assistants with graphical image responses |
US11178280B2 (en) * | 2017-06-20 | 2021-11-16 | Lenovo (Singapore) Pte. Ltd. | Input during conversational session |
CN107564517A (zh) * | 2017-07-05 | 2018-01-09 | 百度在线网络技术(北京)有限公司 | 语音唤醒方法、设备及系统、云端服务器与可读介质 |
US10474417B2 (en) | 2017-07-20 | 2019-11-12 | Apple Inc. | Electronic device with sensors and display devices |
US10475454B2 (en) * | 2017-09-18 | 2019-11-12 | Motorola Mobility Llc | Directional display and audio broadcast |
US20200090663A1 (en) * | 2017-11-07 | 2020-03-19 | Sony Corporation | Information processing apparatus and electronic device |
CN107831903B (zh) * | 2017-11-24 | 2021-02-02 | 科大讯飞股份有限公司 | 多人参与的人机交互方法及装置 |
JP2019101264A (ja) * | 2017-12-04 | 2019-06-24 | シャープ株式会社 | 外部制御装置、音声対話型制御システム、制御方法、およびプログラム |
JP6693495B2 (ja) * | 2017-12-15 | 2020-05-13 | ソニー株式会社 | 情報処理装置、情報処理方法及び記録媒体 |
JPWO2019130399A1 (ja) * | 2017-12-25 | 2020-04-23 | 三菱電機株式会社 | 音声認識装置、音声認識システム及び音声認識方法 |
WO2019142420A1 (ja) * | 2018-01-22 | 2019-07-25 | ソニー株式会社 | 情報処理装置および情報処理方法 |
CN110096251B (zh) * | 2018-01-30 | 2024-02-27 | 钉钉控股(开曼)有限公司 | 交互方法及装置 |
CN108600911B (zh) * | 2018-03-30 | 2021-05-18 | 联想(北京)有限公司 | 一种输出方法及电子设备 |
CN108665900B (zh) | 2018-04-23 | 2020-03-03 | 百度在线网络技术(北京)有限公司 | 云端唤醒方法及系统、终端以及计算机可读存储介质 |
US10878279B2 (en) * | 2018-05-04 | 2020-12-29 | Google Llc | Generating and/or adapting automated assistant content according to a distance between user(s) and an automated assistant interface |
KR20190133100A (ko) * | 2018-05-22 | 2019-12-02 | 삼성전자주식회사 | 어플리케이션을 이용하여 음성 입력에 대한 응답을 출력하는 전자 장치 및 그 동작 방법 |
JP6983118B2 (ja) | 2018-06-26 | 2021-12-17 | 株式会社日立製作所 | 対話システムの制御方法、対話システム及びプログラム |
CN109117737A (zh) * | 2018-07-19 | 2019-01-01 | 北京小米移动软件有限公司 | 洗手机的控制方法、装置和存储介质 |
US12118991B2 (en) | 2018-07-20 | 2024-10-15 | Sony Corporation | Information processing device, information processing system, and information processing method |
CN110874201B (zh) * | 2018-08-29 | 2023-06-23 | 斑马智行网络(香港)有限公司 | 交互方法、设备、存储介质和操作系统 |
US10971160B2 (en) | 2018-11-13 | 2021-04-06 | Comcast Cable Communications, Llc | Methods and systems for determining a wake word |
EP3910447A4 (en) * | 2019-01-07 | 2022-03-09 | Sony Group Corporation | INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD |
CN109841207A (zh) * | 2019-03-01 | 2019-06-04 | 深圳前海达闼云端智能科技有限公司 | 一种交互方法及机器人、服务器和存储介质 |
EP3723354B1 (en) * | 2019-04-09 | 2021-12-22 | Sonova AG | Prioritization and muting of speakers in a hearing device system |
JP7258686B2 (ja) * | 2019-07-22 | 2023-04-17 | Tis株式会社 | 情報処理システム、情報処理方法、及びプログラム |
KR20210042520A (ko) * | 2019-10-10 | 2021-04-20 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
CN110992971A (zh) * | 2019-12-24 | 2020-04-10 | 达闼科技成都有限公司 | 一种语音增强方向的确定方法、电子设备及存储介质 |
JP7474058B2 (ja) * | 2020-02-04 | 2024-04-24 | 株式会社デンソーテン | 表示装置および表示装置の制御方法 |
JP6887035B1 (ja) * | 2020-02-26 | 2021-06-16 | 株式会社サイバーエージェント | 制御システム、制御装置、制御方法及びコンピュータプログラム |
US11128636B1 (en) * | 2020-05-13 | 2021-09-21 | Science House LLC | Systems, methods, and apparatus for enhanced headsets |
WO2021251107A1 (ja) * | 2020-06-11 | 2021-12-16 | ソニーグループ株式会社 | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム |
KR20220000182A (ko) * | 2020-06-25 | 2022-01-03 | 현대자동차주식회사 | 차량용 다중 대화 모드 지원 방법 및 시스템 |
CN112863511B (zh) * | 2021-01-15 | 2024-06-04 | 北京小米松果电子有限公司 | 信号处理方法、装置以及存储介质 |
CN113763968B (zh) * | 2021-09-08 | 2024-05-07 | 北京百度网讯科技有限公司 | 用于识别语音的方法、装置、设备、介质和产品 |
WO2023090057A1 (ja) * | 2021-11-17 | 2023-05-25 | ソニーグループ株式会社 | 情報処理装置、情報処理方法および情報処理プログラム |
CN115017280A (zh) * | 2022-05-17 | 2022-09-06 | 美的集团(上海)有限公司 | 对话管理方法及装置 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01216398A (ja) * | 1988-02-25 | 1989-08-30 | Toshiba Corp | 音声認識方式 |
US6882974B2 (en) * | 2002-02-15 | 2005-04-19 | Sap Aktiengesellschaft | Voice-control for a user interface |
JP2006243555A (ja) * | 2005-03-04 | 2006-09-14 | Nec Corp | 対応決定システム、ロボット、イベント出力サーバ、および対応決定方法 |
CN101282380B (zh) * | 2007-04-02 | 2012-04-18 | 中国电信股份有限公司 | 一名通业务呼叫接续方法、服务器和通信系统 |
CN101291469B (zh) * | 2008-06-02 | 2011-06-29 | 中国联合网络通信集团有限公司 | 语音被叫业务和主叫业务实现方法 |
KR20140004515A (ko) * | 2012-07-03 | 2014-01-13 | 삼성전자주식회사 | 디스플레이 장치, 대화형 시스템 및 응답 정보 제공 방법 |
US9576574B2 (en) * | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9098467B1 (en) * | 2012-12-19 | 2015-08-04 | Rawles Llc | Accepting voice commands based on user identity |
WO2016061309A1 (en) * | 2014-10-15 | 2016-04-21 | Voicebox Technologies Corporation | System and method for providing follow-up responses to prior natural language inputs of a user |
-
2015
- 2015-12-28 CN CN201580078175.7A patent/CN107408027B/zh not_active Expired - Fee Related
- 2015-12-28 US US15/559,940 patent/US20180074785A1/en not_active Abandoned
- 2015-12-28 WO PCT/JP2015/086544 patent/WO2016157662A1/ja active Application Filing
- 2015-12-28 JP JP2017509182A patent/JP6669162B2/ja active Active
- 2015-12-28 EP EP15887804.1A patent/EP3279790B1/en active Active
Also Published As
Publication number | Publication date |
---|---|
CN107408027A (zh) | 2017-11-28 |
EP3279790A1 (en) | 2018-02-07 |
CN107408027B (zh) | 2020-07-28 |
JPWO2016157662A1 (ja) | 2018-01-25 |
WO2016157662A1 (ja) | 2016-10-06 |
US20180074785A1 (en) | 2018-03-15 |
EP3279790B1 (en) | 2020-11-11 |
EP3279790A4 (en) | 2018-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6669162B2 (ja) | 情報処理装置、制御方法、およびプログラム | |
JP6669073B2 (ja) | 情報処理装置、制御方法、およびプログラム | |
US11853648B2 (en) | Cognitive and interactive sensor based smart home solution | |
KR102551715B1 (ko) | Iot 기반 알림을 생성 및 클라이언트 디바이스(들)의 자동화된 어시스턴트 클라이언트(들)에 의해 iot 기반 알림을 자동 렌더링하게 하는 명령(들)의 제공 | |
WO2016157658A1 (ja) | 情報処理装置、制御方法、およびプログラム | |
EP3179474B1 (en) | User focus activated voice recognition | |
JP6516585B2 (ja) | 制御装置、その方法及びプログラム | |
WO2017134935A1 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
EP3419020B1 (en) | Information processing device, information processing method and program | |
WO2019107145A1 (ja) | 情報処理装置、及び情報処理方法 | |
US20230176813A1 (en) | Graphical interface for speech-enabled processing | |
CN115917477A (zh) | 使用可穿戴设备数据的助理设备仲裁 | |
US20180367669A1 (en) | Input during conversational session | |
JP2018036902A (ja) | 機器操作システム、機器操作方法および機器操作プログラム | |
JP6973380B2 (ja) | 情報処理装置、および情報処理方法 | |
CN112106016A (zh) | 信息处理装置、信息处理方法和记录介质 | |
JP6950708B2 (ja) | 情報処理装置、情報処理方法、および情報処理システム | |
US11818820B2 (en) | Adapting a lighting control interface based on an analysis of conversational input | |
JP2020061050A (ja) | コミュニケーションシステム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A524 | Written submission of copy of amendment under article 19 pct |
Free format text: JAPANESE INTERMEDIATE CODE: A527 Effective date: 20170602 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181105 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181105 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20190208 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20190214 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20190222 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20190515 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20190522 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200128 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200210 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6669162 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |