CN111210814B - 控制装置、智能体装置以及计算机可读存储介质 - Google Patents
控制装置、智能体装置以及计算机可读存储介质 Download PDFInfo
- Publication number
- CN111210814B CN111210814B CN201911058787.6A CN201911058787A CN111210814B CN 111210814 B CN111210814 B CN 111210814B CN 201911058787 A CN201911058787 A CN 201911058787A CN 111210814 B CN111210814 B CN 111210814B
- Authority
- CN
- China
- Prior art keywords
- unit
- user
- information
- agent
- message
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/59—Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
- G06V20/597—Recognising the driver's state or behaviour, e.g. attention or drowsiness
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/013—Eye tracking input arrangements
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/59—Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Ophthalmology & Optometry (AREA)
- User Interface Of Digital Computer (AREA)
- Position Input By Displaying (AREA)
Abstract
一种控制装置、智能体装置以及计算机可读存储介质,解决一旦对话引擎被启动后,用户无法容易地判断智能体装置的对话引擎是否正在启动中的课题。该控制装置控制作为请求处理装置的用户界面发挥功能的智能体装置,所述请求处理装置获取由用户的语音以及姿态的至少一方表示的请求,并执行与该请求对应的处理。控制装置具备确定用户的注视点的注视点确定部、控制向用户传递信息时所利用的智能体的面部或视线的朝向的面部控制部。在注视点位于(i)智能体的一部分、或(ii)对智能体的图像进行显示或投影的图像输出部的一部分的情况下,面部控制部以使得智能体的面部或视线朝向用户的方向的方式,控制智能体的面部或视线的朝向。
Description
技术领域
本发明涉及控制装置、智能体装置以及计算机可读存储介质。
背景技术
已知有基于经由被拟人化的智能体(agent)的与用户的交互,执行各种处理的智能体装置。(例如,参照专利文献1~2)。
专利文献1:日本特开平05-199996号公报
专利文献2:日本特开2006-189394号公报
发明内容
现有的智能体装置在对话引擎启动时,输出表示对话引擎已启动的语音。但是,一旦对话引擎被启动后,用户无法容易地判断智能体装置的对话引擎是否正在启动中。
在本发明的第1方式中,提供一种控制装置。上述的控制装置例如控制智能体装置。上述的智能体装置例如作为请求处理装置的用户界面发挥功能。上述的请求处理装置例如获取由用户的语音以及姿态的至少一方表示的请求,并执行与该请求对应的处理。上述的控制装置例如具备确定用户的注视点的注视点确定部。上述的控制装置例如具备控制向用户传递信息时所利用的智能体的面部或视线的朝向的面部控制部。在上述的控制装置中,在注视点位于(i)智能体的一部分、或(ii)对智能体的图像进行显示或投影的图像输出部的一部分的情况下,面部控制部以使得智能体的面部或视线朝向用户的方向的方式,控制智能体的面部或视线的朝向。
上述的控制装置可以具备控制智能体的表情的表情控制部。在上述的控制装置中,表情控制部在注视点位于智能体的面部的一部分的情况下,可以决定变更智能体的表情。
上述的控制装置可以具备决定向用户传递消息的消息控制部。在上述的控制装置中,在智能体装置搭载于移动体,用户是移动体的驾驶者的情况下,当注视点的位置满足预先设定的注意提醒条件时,消息控制部可以决定传递用于督促集中驾驶的消息。
上述的控制装置可以具备判定移动体的同乘者的有无的同乘者判定部。在上述的控制装置中,消息控制部在判定为存在同乘者的情况下,当注视点的位置满足注意提醒条件时,可以决定向同乘者传递表示驾驶者的集中力有可能降低的消息。
上述的控制装置可以具备获取表示用户的心理状态的信息的心理信息获取部。上述的控制装置可以具备将表示消息的内容的信息、和表示该消息被传递时的用户的心理状态的信息对应起来进行保存的历史保存部。在上述的控制装置中,消息控制部可以参照历史保存部中保存的、表示消息被传递时的用户的心理状态的信息,决定向用户传递消息,还是向同乘者传递消息。
在本发明的第2方式中,提供一种智能体装置。上述的智能体装置例如作为请求处理装置的用户界面发挥功能。上述的请求处理装置例如获取由用户的语音以及姿态的至少一方表示的请求,并执行与该请求对应的处理。上述的智能体装置例如具备上述的控制装置。上述的智能体装置例如具备(i)作为智能体发挥功能的机器人、或(ii)图像输出部。
在本发明的第3方式中,提供一种程序。也可以提供一种保存上述的程序的非暂时性的计算机可读介质。上述的程序可以是用于使计算机作为上述的控制装置发挥功能的程序。上述的程序可以是用于使计算机执行上述的控制装置中的信息处理方法的程序。
另外,上述的发明的概要并未例举本发明的所有必要技术特征。另外,这些特征组的子组合也可以成为发明。
附图说明
图1简要示出对话型智能体系统100的系统构成的一例。
图2简要示出车辆110的内部构成的一例。
图3简要示出输入输出控制部272的内部构成的一例。
图4简要示出事件检测部340的内部构成的一例。
图5简要示出启动事件检测部430的内部构成的一例。
图6简要示出响应管理部350的内部构成的一例。
图7简要示出智能体信息保存部360的内部构成的一例。
图8简要示出辅助服务器120的内部构成的一例。
图9简要示出请求决定部842的内部构成的一例。
图10简要示出响应信息生成部846的内部构成的一例。
具体实施方式
以下,通过发明的实施方式对本发明进行说明,但以下的实施方式不对权利要求书涉及的发明进行限定。另外,实施方式中说明的所有特征的组合对于发明的解决手段未必是必须的。另外,在附图中,对相同或类似的部分赋予相同的附图标记,有时省略重复的说明。
[对话型智能体系统100的概要]
图1简要示出对话型智能体系统100的系统构成的一例。在本实施方式中,对话型智能体系统100具备车辆110和辅助服务器120。在本实施方式中,车辆110具有响应系统112和通信系统114。
对话型智能体系统100可以是请求处理装置的一例。搭载于车辆110或车辆110的信息输出设备可以是智能体装置的一例。响应系统112可以是智能体装置的一例。辅助服务器120可以是中继装置的一例。
在本实施方式中,车辆110以及辅助服务器120能够经由通信网络10相互收发信息。另外,车辆110和车辆110的用户20所利用的通信终端30可以经由通信网络10收发信息,辅助服务器120和通信终端30可以经由通信网络10收发信息。
在本实施方式中,通信网络10可以是有线通信的传输路径,可以是无线通信的传输路径,也可以是无线通信的伝送路径以及有线通信的传输路径的组合。通信网络10可以包含无线分组通信网、互联网、P2P网络、专用线路、VPN、电线通信线路等。通信网络10可以包含(i)手机线路网等移动通信网,也可以包含(ii)无线MAN(例如,是WiMAX(注册商标)。)、无线LAN(例如,是WiFi(注册商标)。)、Bluetooth(注册商标)、Zigbee(注册商标)、NFC(NearField Communication)等无线通信网。
在本实施方式中,用户20可以是车辆110的利用者。用户20可以是车辆110的驾驶者,也可以是该驾驶者的同乘者。用户20可以是车辆110的所有者,也可以是车辆110的占有者。车辆110的占有者可以是车辆110的租赁服务或共享服务的利用者。
在本实施方式中,通信终端30只要能够和车辆110以及辅助服务器120的至少一方收发信息即可,对于其细节没有特别的限定。作为通信终端30,例举个人计算机、移动终端等。作为移动终端,例举手机、智能电话、PDA,平板电脑、笔记本电脑或手提计算机、可穿戴计算机等。
通信终端30可以与1个或多个通信方式对应。作为通信方式,例举移动体通信方式、无线MAN方式、无线LAN方式、无线PAN方式等。作为移动体通信方式,例举GSM(注册商标)方式、3G方式、LTE方式、4G方式、5G方式等。作为无线MAN方式,例举WiMAX(注册商标)。作为无线LAN方式,例举WiFi(注册商标)。作为无线PAN方式,例举Bluetooth(注册商标)、Zigbee(注册商标)、NFC(Near Field Communication)等。
在本实施方式中,对话型智能体系统100获取由用户20的语音以及姿态的至少一方表示的请求,执行与该请求对应的处理。作为姿态,例举动作、手势、举止、面部朝向、视线朝向、面部表情等。另外,对话型智能体系统100将上述的处理的结果向用户20传递。对话型智能体系统100可以经由作为对话型智能体系统100的接口发挥功能的智能体和用户20之间的对话型的指令,执行上述的请求的获取以及结果的传递。
智能体被利用于向用户20传递信息。通过用户20和智能体的交互,不仅能够传递语言信息,也能够传递非语言信息。由此,能够实现更加流畅的信息传递。智能体可以是软件智能体,也可以是硬件智能体。另外,智能体有时也称为AI助理。
软件智能体可以是通过计算机实现的拟人化智能体。上述的计算机可以是搭载于通信终端30以及车辆110的至少一方的计算机。拟人化智能体例如能够被显示或投影至计算机的显示装置或投影装置上,实现与用户20的交流。拟人化智能体也可以通过语音,实现与用户20的交流。硬件智能体可以是机器人。机器人可以是人型机器人,也可以是宠物型机器人。
智能体可以具有面部。“面部”中不仅包含人类或动物的面部,还可以包含面部的等同物。面部的等同物可以具有与面部同样的功能。作为面部的功能,例举传递感情的功能、表示注视点的功能等。
智能体可以具有眼部。“眼部”中不仅包含人类或动物的眼,也可以包含眼的等同物。眼的等同物可以具有与眼同样的功能。作为眼的功能,例举传递感情的功能、表示注视点的功能等。
另外,“对话”中不仅包含基于语言信息的交流,也可以包含基于非语言信息的交流。作为基于语言信息的交流,例举(i)会话、(ii)手语、(iii)将姿态和基于该姿态的传递内容预先定义的信号或信号音等。作为基于非语言信息的交流,例举动作、手势、举止、面部的朝向、视线的朝向、面部的表情等。
在本实施方式中,对话型智能体系统100利用安装于辅助服务器120的对话引擎(未图示。有时称为云端型对话引擎。),针对用户20的请求进行响应。另外,在其他的实施方式中,对话型智能体系统100可以具备安装于响应系统112的对话引擎(未图示。有时称为本地型对话引擎。)和安装于辅助服务器120的云端型对话引擎。
本地型对话引擎以及云端型对话引擎可以是在物理上不同的对话引擎。本地型对话引擎以及云端型对话引擎也可以是性能不同的对话引擎。在一个实施方式中,本地型对话引擎能够识别的请求的种类的数量比云端型对话引擎能够识别的请求的种类的数量少。在其他的实施方式中,本地型对话引擎能够处理的请求的种类的数量比云端型对话引擎能够识别的处理的种类的数量少。
对话型智能体系统100可以基于车辆110以及辅助服务器120之间的通信状态,决定利用本地型对话引擎以及云端型对话引擎中的哪一个对话引擎。例如,在通信状态比较良好的情况下,对话型智能体系统100利用云端型对话引擎来响应用户20的请求。另一方面,在通信状态比较差的情况下,对话型智能体系统100利用本地型对话引擎响应用户20的请求。由此,能够根据车辆110以及辅助服务器120之间的通信状态,切换本地型对话引擎和云端型对话引擎。
对话型智能体系统100可以基于响应系统112的状态,决定智能体的模式。由此,能够根据响应系统112的状态来切换智能体的模式。作为响应系统112的状态,例举(i)响应系统112停止的状态(有时称为OFF状态),(ii)响应系统112工作的状态(有时称为ON状态)且等待用于开始基于对话引擎的响应处理的请求(有时称为启动请求。)的状态(有时称为待机状态。),(iii)ON状态且基于对话引擎的响应处理被执行的状态(有时称为启动状态。)等。
待机状态可以是用于受理启动请求并对该启动请求进行处理的状态。启动状态可以是用于经由智能体来处理启动请求以外的请求的状态。
启动请求可以是用于启动智能体的请求,可以是用于开始经由智能体的响应处理的请求,也可以是用于使对话引擎的语音识别功能或姿态识别功能启动或有效化的请求。启动请求可以是用于将响应系统112的状态从待机状态变更成启动状态的请求。启动请求有时被称为启动词、触发短语等。启动请求不限于语音。启动请求可以是预先设定的姿态,也可以是进行了用于输入启动请求的操作。
上述的响应系统112的状态的至少1个也可以被进一步细分化。例如,基于对话引擎的响应处理被执行的状态可以被细分化成本地型对话引擎处理用户20的请求的状态、和云端型对话引擎处理用户20的请求的状态。由此,例如,对话型智能体系统100在本地型对话引擎处理用户20的请求的情况下、和云端型对话引擎处理用户20的请求的情况下,可切换智能体的模式。
作为智能体的模式,例举作为智能体而被利用的角色的种类、该角色的外观、该角色的声音、以及交互模式的至少1个。作为角色,例举将实际存在的人物、动物或物体模型化的角色、将历史上的人物、动物或物体模型化的角色、将幻想的或虚拟的人物、动物或物体模型化的角色等。上述的物体可以是有形物,也可以是无形物。角色可以是将上述的人物、动物或物体的一部分模型化的角色。
作为外观,例举(i)形状、模样、色彩以及它们的组合、(ii)变形、夸张或改装的手法以及程度、以及(iii)图像的画风的至少1个。作为形状,例举容姿、发型、服装、配饰、表情以及姿势的至少1个。作为变形的手法,例举头身比率的变更、零件的配置的变更、零件的简化等。作为画风,例举图像整体的调色、笔触等。作为笔触,例举写实的笔触、插图风格的笔触、漫画风格的笔触、美式漫画风格的笔触、戏剧风格的笔触、严肃的笔触、喜剧风格的笔触等。
例如,即使是同一角色,也存在因年龄的不同而外观不同的情况。在少年期、青年期、壮年期、中年期、老年期以及晩年期的至少2个中,角色的外观也可以不同。另外,即使是同一角色,随着变形的程度的加大,存在外观看起来显幼小的情况。例如,若对同一角色的外观的图像且头身比率不同的2个图像进行比较,则头身比率小的图像中的角色比头身比率大的图像中的角色看起来幼小。
作为声,例举音质、音色(有时称为音调)、以及声音高低(有时称为音高)的至少1个。作为交互模式,例举响应时的说话方式以及举止的至少一方。作为说话方式,例举音量、语气、语速、每1回的说话时长、停顿方式、声调方式、强弱方式、附和方式、语言习惯、以及话题的展开方法的至少1个。另外,在用户20以及智能体之间的交互通过手语实现的情况下的说话方式的具体例可以与用户20以及智能体之间的交互通过会话实现的情况下的说话方式的具体例相同。
另外,在本实施方式中,以响应系统112是安装于车辆110的对话型的车辆用驾驶辅助装置的情况为例,对对话型智能体系统100的细节进行说明。但是,对话型智能体系统100不限于本实施方式。在其他的实施方式中,安装有响应系统112的设备不限于车辆。响应系统112可以安装于固定式的设备、移动式的设备(有时称为移动体)、或便携式以及可搬运式的设备。响应系统112优选安装于具备输出信息的功能和通信功能的设备。例如,响应系统112可以安装于通信终端30。安装有响应系统112的设备可以是智能体装置、控制装置以及请求处理装置的一例。
作为固定式的设备,例举台式机型PC、电视、音响、冰箱等的电气产品。作为移动式的设备,例举车辆、机床、工作设备、飞行器等。作为便携式或可搬运式的设备,例举手机、智能电话、PDA、平板电脑、笔记本电脑或手提计算机、可穿戴计算机、移动电源等。
[对话型智能体系统100的各单元的概要]
在本实施方式中,车辆110被用于用户20的移动。作为车辆110,例举汽车、自动二轮车等。作为自动二轮车,例举(i)摩托车、(ii)三轮摩托车、(iii)摄位车(注册商标)、带有动力单元的脚踏板(注册商标)、带有动力单元的滑板那样的具有动力单元的站立式二轮车等。
在本实施方式中,响应系统112获取由用户20的语音以及姿态的至少一方表示的请求。响应系统112执行与上述的请求对应的处理。另外,响应系统112将上述的处理的结果向用户20传递。
在一实施方式中,响应系统112获取(i)用户20向搭载于车辆110的设备输入的请求、或(ii)用户20向搭载于通信终端30的设备输入的请求。响应系统112可以经由通信系统114获取用户20向搭载于通信终端30的设备输入的请求。响应系统112经由搭载于车辆110的信息输出设备,将针对上述的请求的响应向用户20提示。
在其他的实施方式中,响应系统112获取(i)用户20向搭载于车辆110的设备输入的请求,或(ii)用户20向搭载于通信终端30的设备输入的请求。响应系统112可以经由通信系统114获取用户20向搭载于通信终端30的设备输入的请求。响应系统112将针对上述的请求的响应经由通信系统114向通信终端30发送。通信终端30将从响应系统112获取的信息向用户20提示。
响应系统112可以利用本地型对话引擎以及云端型对话引擎的至少一方对来自用户20的请求进行响应。响应系统112可以决定利用本地型对话引擎以及云端型对话引擎的哪一个对话引擎对上述的请求进行响应。例如,响应系统112基于车辆110以及辅助服务器120之间的通信状态,决定利用本地型对话引擎以及云端型对话引擎的哪一个对话引擎。
响应系统112可以作为本地型对话引擎的用户界面发挥功能。响应系统112可以作为云端型对话引擎的用户界面发挥功能。
在本实施方式中,通信系统114经由通信网络10在车辆110和辅助服务器120之间收发信息。通信系统114也可以通过有线通信或近距离无线通信,在车辆110和通信终端30之间收发信息。
例如,通信系统114将响应系统112从用户20获取的用户20相关的信息向辅助服务器120发送。通信系统114可以将通信终端30从用户20获取的用户20相关的信息向辅助服务器120发送。通信系统114可以从搭载于车辆110的设备获取车辆110相关的信息,将车辆110相关的信息向辅助服务器120发送。通信系统114也可以从通信终端30获取通信终端30相关的信息,将通信终端30相关的信息向辅助服务器120发送。
另外,通信系统114从辅助服务器120接收云端型对话引擎输出的信息。通信系统114将云端型对话引擎输出的信息转送至响应系统112。通信系统114也可以将响应系统112输出的信息向通信终端30发送。
在本实施方式中,辅助服务器120执行用于使辅助服务器120的计算机作为云端型对话引擎发挥功能的程序。由此,在辅助服务器120上,云端型对话引擎进行动作。
在本实施方式中,辅助服务器120经由通信网络10,获取由用户20的语音以及姿态的至少一方表示的请求。辅助服务器120执行与上述的请求对应的处理。另外,辅助服务器120经由通信网络10,将上述的处理的结果向响应系统112通知。
[对话型智能体系统100的各单元的具体的构成]
对话型智能体系统100的各单元可以由硬件实现,可以由软件实现,也可以由硬件以及软件实现。对话型智能体系统100的各单元的至少一部分可以由单一的服务器实现,也可以由多个服务器实现。对话型智能体系统100的各单元的至少一部分可以在虚拟机上或云端系统上实现。对话型智能体系统100的各单元的至少一部分可以由个人计算机或移动终端实现。作为移动终端,例举手机、智能电话、PDA、平板电脑、笔记本电脑或手提计算机、可穿戴计算机等。对话型智能体系统100的各单元可以利用区块链等的分散型记账技术或分散型网络来保存信息。
在构成对话型智能体系统100的构成要素的至少一部分由软件实现的情况下,由该软件实现的构成要素在通常构成的信息处理装置中,可以通过启动规定了与该构成要素相关的动作的程序来实现。上述的信息处理装置例如具备:(i)具有CPU、GPU等处理器、ROM、RAM、通信接口等的数据处理装置、(ii)键盘、触摸屏、摄像头、麦克风、各种传感器、GPS接收器等的输入装置、(iii)显示装置、扬声器、振动装置等的输出装置、(iv)存储器、HDD等的存储装置(包含外部存储装置。)。
在上述的信息处理装置中,上述的数据处理装置或存储装置可以存储程序。上述的程序可以存储在非挥发性计算机可读记录介质中。上述的程序通过被处理器执行,而使上述的信息处理装置执行由该程序规定的动作。
程序可以被存储至CD-ROM、DVD-ROM、存储器、硬盘等计算机可读的介质中,也可以存储至与网络连接的存储装置中。程序可以从计算机可读的介质或与网络连接的存储装置安装至构成对话型智能体系统100的至少一部分的计算机中。通过执行程序,计算机可以作为对话型智能体系统100的各单元的至少一部分发挥功能。
使计算机作为对话型智能体系统100的各单元的至少一部分发挥功能的程序可以具备规定对话型智能体系统100的各单元的动作的模块。这些程序或模块在数据处理装置、输入装置、输出装置、存储装置等中工作,使计算机作为对话型智能体系统100的各单元发挥功能,或者使计算机执行对话型智能体系统100的各单元中的信息处理方法。
对于程序中记述的信息处理而言,通过将该程序读入计算机,作为该程序相关联的软件和对话型智能体系统100的各种硬件资源协作的具体的手段发挥功能。并且,通过由上述的具体的手段实现与本实施方式中的计算机的使用目的对应的信息的运算或加工,而构建与该使用目的对应的对话型智能体系统100。
[车辆110的各单元的概要]
图2简要示出车辆110的内部构成的一例。在本实施方式中,车辆110具备输入部210、输出部220、通信部230、传感部240、驱动部250、附属装置260、控制部270。在本实施方式中,控制部270具有输入输出控制部272、车辆控制部274、通信控制部276。在本实施方式中,响应系统112由输入部210、输出部220以及输入输出控制部272构成。另外,通信系统114由通信部230以及通信控制部276构成。
输出部220可以是图像输出部的一例。通信部230可以是请求发送部的一例。控制部270可以是控制装置以及求处理装置的一例。输入输出控制部272可以是控制装置的一例。
在本实施方式中,输入部210受理信息的输入。例如,输入部210受理来自用户20的请求。输入部210可以经由通信终端30,受理来自用户20的请求。
在一个实施方式中,输入部210受理车辆110的操作相关的请求。作为车辆110的操作相关的请求,例举传感部240的操作或设定相关的请求、驱动部250的操作或设定相关的请求、附属装置260的操作或设定相关的请求等。作为设定相关的请求,例举用于变更设定的请求、用于确认设定的请求等。在其他的实施方式中,输入部210受理由用户20的语音以及姿态的至少一方表示的请求。
作为输入部210,例举键盘、指针设备、触摸屏、操作按钮、麦克风、摄像头、传感器、三维扫描仪、视线计测器、方向盘、加速器、制动器、换挡杆等。输入部210可以构成导航装置的一部分。
在本实施方式中,输出部220输出信息。输出部220例如将针对来自用户20的请求的对话型智能体系统100的响应向用户20提示。输出部220可以经由通信终端30,将上述的响应向用户20提示。作为输出部220,例举图像输出装置、语音输出装置、振动产生装置、超声波产生装置等。输出部220可以构成导航装置的一部分。
图像输出装置对智能体的图像进行显示或投影。图像可以是静止图像,也可以是动态图像(有时成为影像。)。图像可以是平面图像,也可以是立体图像。立体图像的方式没有特别的限定,例举2眼立体方式、积分方式、全息方式等。
作为图像输出装置,例举显示装置、投影装置、打印装置等。作为语音输出装置,例举扬声器、头戴式耳机、耳塞等。扬声器可以具有指向性,可以具有对指向性的朝向进行调整或变更的功能。
在本实施方式中,通信部230经由通信网络10,在车辆110和辅助服务器120之间收发信息。通信部230可以通过有线通信或近距离无线通信,在车辆110和通信终端30之间收发信息。通信部230可以与1个或多个通信方式对应。
在本实施方式中,传感部240包含对车辆110的状态进行检测或监视的1个或多个传感器。1个或多个传感器分别可以是任意的内部传感器,也可以是任意的外部传感器。1个或多个传感部240的至少一部分可以被利用为输入部210。例如,传感部240包含拍摄车辆110的内部的摄像头、收集车辆110的内部的语音的麦克风、拍摄车辆110的外部的摄像头、以及收集车辆110的外部的语音的麦克风的至少1个。上述的摄像头或麦克风可以被利用为输入部210。
作为车辆110的状态,例举速度、加速度、倾斜、振动、噪音、驱动部250的工作状况、附属装置260的工作状况、安全装置的工作状况、自动驾驶装置的工作状况、异常的产生状况、当前位置、移动路径、外部环境的温度、外部环境的湿度、外部环境的压力、内部空间的温度、内部空间的湿度、内部空间的压力、与周围的物体的相对位置、与周围的物体的相对速度等。作为安全装置,例举ABS(Antilock Brake System)、安全气囊、自动制动、避撞装置等。
在本实施方式中,驱动部250驱动车辆110。驱动部250可以根据来自控制部270的指令,驱动车辆110。驱动部250可以由内燃机来产生动力,也可以由电动机来产生动力。
在本实施方式中,附属装置260可以是搭载于车辆110的设备中的驱动部250以外的设备。附属装置260可以按照来自控制部270的指令工作。附属装置260也可以按照用户20的操作进行工作。作为附属装置260,例举保安设备、座席调整设备、锁门管理设备、车窗开闭设备、照明设备、空调设备、导航设备、音响设备、影像设备等。
在本实施方式中,控制部270控制车辆110的各单元。控制部270可以控制响应系统112。控制部270也可以控制通信系统114。控制部270可以控制输入部210、输出部220、通信部230、传感部240、驱动部250以及附属装置260的至少1个。另外,控制部270的各单元可以相互收发信息。
在本实施方式中,输入输出控制部272控制车辆110中的信息的输入输出。例如,输入输出控制部272控制用户20和车辆110之间的信息的传递。输入输出控制部272可以控制输入部210以及输出部220的至少一方的动作。输入输出控制部272可以控制响应系统112的动作。
例如,输入输出控制部272经由输入部210,获取包含来自用户20的请求的信息。输入输出控制部272决定针对上述的请求的响应。输入输出控制部272可以决定响应的内容以及方式的至少一方。输入输出控制部272输出与上述的响应有关的信息。在一个实施方式中,输入输出控制部272经由输出部220,将包含上述的响应的信息向用户20提示。在其他的实施方式中,输入输出控制部272经由通信部230,将包含上述的响应的信息向通信终端30发送。通信终端30将包含上述的响应的信息向用户20提示。
输入输出控制部272可以利用本地型对话引擎以及云端型对话引擎的至少一方,决定针对上述的请求的响应。由此,输入输出控制部272能够使响应系统112作为本地型对话引擎的用户界面发挥功能。另外,输入输出控制部272能够使响应系统112作为云端型对话引擎的用户界面发挥功能。
输入输出控制部272可以基于表示车辆110以及辅助服务器120之间的通信状态的信息(有时称为通信信息。),决定基于本地型对话引擎以及云端型对话引擎中的哪一个对话引擎中的处理的执行结果进行响应。另外,输入输出控制部272可以利用多个本地型对话引擎,也可以利用多个云端型对话引擎。此时,输入输出控制部272可以至少基于通信信息,决定基于哪个对话引擎中的处理的执行结果进行响应。输入输出控制部272也可以根据说话者或驾驶者,决定基于哪个对话引擎中的处理的执行结果进行响应。输入输出控制部272也可以根据同乘者的有无,决定基于哪个对话引擎中的处理的执行结果进行响应。
输入输出控制部272例如从通信控制部276获取通信信息。另外,通信信息可以是(i)表示通信部230、输入输出控制部272或通信控制部276与辅助服务器120之间的通信状态的信息,可以是(ii)表示通信部230、输入输出控制部272或通信控制部276与通信网络10之间的通信状态的信息,可以是(iii)表示通信网络10的通信状态的信息,可以是(iv)表示通信网络10和辅助服务器120之间的通信状态的信息,也可以是(v)表示车辆110以及辅助服务器120的至少一方中的通信故障的有无的信息。
输入输出控制部272可以对1个或多个事件的产生进行检测,基于检测出的事件的种类,控制响应系统112的动作。在一个实施方式中,输入输出控制部272检测启动请求的输入。在检测到启动请求的输入的情况下,输入输出控制部272例如决定将响应系统112的状态从待机状态向启动状态变更。
在其他的实施方式中,输入输出控制部272检测要向用户20的通信终端30发送消息的事件(有时称为留言事件。)的产生。在检测出留言事件的产生的情况下,输入输出控制部272例如决定经由通信网络10向用户20的通信终端30发送语音消息。
在一个实施方式中,利用语音通话服务或IP电话服务向通信终端30发送语音消息。在其他的实施方式中,利用电子邮件服务、社交网络服务、信使服务等,将语音消息作为语音数据的电子文件向通信终端30发送。
输入输出控制部272可以控制对来自用户20的请求进行响应时的智能体的模式。在一个实施方式中,输入输出控制部272基于通信信息控制智能体的模式。例如,输入输出控制部272在车辆110以及辅助服务器120之间的通信状态满足预先设定的条件的情况下、和车辆110以及辅助服务器120之间的通信状态不满足上述的条件的情况下,切换智能体的模式。预先设定的条件可以是通信状态比预先设定的特定的状态好这样的条件。
在其他的实施方式中,输入输出控制部272基于表示对来自用户20的请求进行处理的对话引擎的信息,控制智能体的模式。例如,输入输出控制部272在基于本地型对话引擎中的处理的执行结果进行响应的情况下、和基于云端型对话引擎中的处理的执行结果进行响应的情况下,切换智能体的模式。另外,如上所述,也可以基于通信信息,决定基于哪个对话引擎中的处理的执行结果进行响应。
在其他的实施方式中,输入输出控制部272基于(i)表示基于用户20的请求的传递手段的信息、(ii)表示基于用户20的请求的传递方式的信息、以及(iii)表示请求传递时的用户20的心理状态、清醒状态以及健康状态的至少1个的信息的至少1个,控制智能体的模式。作为请求的传递手段,例举说话、手语、手语以外的姿态等。作为手语以外的姿态,例举通过手或手指的动作定义的信号、通过头部的动作定义的信号、通过视线定义的信号、通过面部表情定义的信号等。
作为请求的传递方式,例举请求传递时的用户20的样子、请求的传递所需的时长、请求的明确性的程度等。作为请求传递时的用户20的样子,例举(i)说话或手语的语气、习惯、语速、以及停顿方式,(ii)说话的口音、语调、以及音量,(iii)智能体或输出部220与用户的相对位置,以及(iv)注视点的位置的至少1个。作为请求的明确性的程度,例举是否简要地传递请求,用于传递请求的消息是否冗长等。
另外,在其他的实施方式中,输入输出控制部272基于表示车辆110的状态的信息,控制智能体的模式。车辆110的状态可以是车辆110的移动状态、车辆110的各单元的动作状态、以及车辆110的内部空间的状态的至少1个。
作为车辆110的移动状态,例举当前位置、移动路径、速度、加速度、倾斜、振动、噪音、拥堵的有无或程度、连续驾驶时间、急加速的有无或频度、急减速的有无或频度等。作为车辆110的各单元的动作状态,例举驱动部250的工作状况、附属装置260的工作状况、安全装置的工作状况、自动驾驶装置的工作状况等。作为工作状况,例举正常动作中、停止中、维护中、异常产生中等。工作状况中可以包含特定功能的工作的有无或频度。作为车辆110的内部空间的状态,例举内部空间的温度、湿度、压力、特定的化学物质的浓度、存在于内部空间的用户20的人数、存在于内部空间的多个用户20的人际关系等。表示存在于内部空间的用户20的人数的信息可以是表示同乘者的有无的信息的一例。
在本实施方式中,车辆控制部274控制车辆110的动作。例如,车辆控制部274获取传感部240输出的信息。车辆控制部274可以控制驱动部250以及附属装置260的至少一方的动作。车辆控制部274可以基于传感部240输出的信息,控制驱动部250以及附属装置260的至少一方的动作。
在本实施方式中,通信控制部276控制车辆110和外部的设备之间的通信。通信控制部276可以控制通信部230的动作。通信控制部276可以是通信接口。通信控制部276可以与1个或多个通信方式对应。通信控制部276可以对车辆110以及辅助服务器120之间的通信状态进行检测或监视。通信控制部276可以基于上述的检测或监视的结果,生成通信信息。例如,在由通信信息表示的通信状态满足预先设定的条件的情况下,可以判定为通信状态良好。另一方面,在由通信信息表示的通信状态不满足上述的预先设定的条件的情况下,可以判定为通信状态不良。作为预先设定的条件,例举能够通信这样的条件、电波状况比特定的状况好这样的条件、通信品质比特定的品质好这样的条件等。
作为通信信息,例举可否通信、电波状况、通信品质、通信方式的种类、以及通信载体的种类等相关的信息。作为电波状况,例举电波接收等级、电波強度、RSCP(ReceivedSignal Code Power)、CID(Cell ID)等。作为通信品质,例举通信速度、数据通信的通信量、数据通信的延迟时间等。
对于可否通信,例如在通信网络10、通信系统114以及辅助服务器120的至少1个中产生了通信故障的情况下,判断为无法通信(有时称为不可通信。)。在电波接收等级小于预先设定的等级的情况下(例如,在通信范围外的情况),判断为不可通信。对于可否通信,也可以基于对获取特定的电波状况或通信品质相关的信息的处理(有时称为试行。)反复进行多次的结果来判断。
根据一个实施方式,在进行预先设定的次数的试行中,电波状况或通信品质比预先设定的第1阈值好的试行的比例大于预先设定的第2阈值的情况下,判断为能够通信(有时称为可通信。)。除此之外的情况下,判断为不可通信。根据其他的实施方式,在进行预先设定的次数的试行中,电波状况或通信品质比预先设定的第1阈值差的试行的比例大于预先设定的第2阈值的情况下,判断为不可通信。除此之外的情况下,判断为可通信。
[输入输出控制部272的各单元的概要]
图3简要示出输入输出控制部272的内部构成的一例。在本实施方式中,输入输出控制部272具备语音信息获取部312、图像信息获取部314、操作信息获取部316、车辆信息获取部318、通信信息获取部322、转送部330、事件检测部340、响应管理部350和智能体信息保存部360。
事件检测部340可以是注视点确定部的一例。事件检测部340可以是事件检测部的一例。响应管理部350可以是状态决定部、消息控制部、面部控制部以及相对位置信息获取部的一例。响应管理部350可以是表情控制部、同乘者确定部、以及心理信息获取部的一例。响应管理部350可以是传递决定部、以及内容决定部的一例。响应管理部350可以是特征信息获取部、模式决定部、以及移动体信息获取部的一例。
在本实施方式中,语音信息获取部312从输入部210获取向输入部210输入的语音相关的信息(有时称为语音信息。)。语音信息获取部312也可以经由通信部230,获取向通信终端30的输入装置输入的语音相关的信息(有时称为语音信息。)。例如,语音信息获取部312获取用户20的语音相关的信息。作为语音信息,例举记录了语音的语音数据、表示记录该语音的时刻的信息等。语音信息获取部312可以将语音信息向转送部330输出。
在本实施方式中,图像信息获取部314从输入部210获取输入部210获取的图像相关的信息(有时称为图像信息。)。图像信息获取部314也可以经由通信部230,获取通信终端30的输入装置获取的图像相关的信息(有时称为图像信息。)。例如,图像信息获取部314获取对用户20拍摄得到的图像相关的信息。作为图像信息,例举记录了图像的图像数据、表示记录该图像的时刻的信息等。图像信息获取部314可以将图像信息向转送部330输出。
在本实施方式中,操作信息获取部316从输入部210获取基于用户20的车辆110的操作相关的信息(有时称为操作信息。)。作为车辆110的操作,例举驱动部250相关的操作、以及附属装置260相关的操作的至少一方。在一个实施方式中,操作信息获取部316将操作信息向转送部330输出。在其他的实施方式中,操作信息获取部316将操作信息向车辆控制部274输出。
作为驱动部250相关的操作,例举转向操作、加速操作、制动操作、驾驶模式的变更相关的操作等。作为附属装置260相关的操作,例举附属装置260的ON/OFF相关的操作、附属装置260的设定相关的操作、附属装置260的动作相关的操作等。更具体而言,例举方向指示器相关的操作、雨刮器相关的操作、车窗清洗液的排出相关的操作、车门上锁相关的操作、车窗开闭相关的操作、空调设备或照明设备的ON/OFF相关的操作,空调设备或照明设备的设定相关的操作、导航设备、音响设备或影像设备的ON/OFF相关的操作、导航设备、音响设备或影像设备的设定相关的操作、导航设备、音响设备或影像设备的动作的开始或结束相关的操作等。
在本实施方式中,车辆信息获取部318从传感部240获取表示车辆110的状态的信息(有时称为车辆信息。)。在一个实施方式中,车辆信息获取部318将车辆信息向转送部330输出。在其他的实施方式中,车辆信息获取部318可以将车辆信息向车辆控制部274输出。
在本实施方式中,通信信息获取部322从通信控制部276获取通信信息。在一个实施方式中,通信信息获取部322将通信信息向响应管理部350输出。在其他的实施方式中,通信信息获取部322可以将通信信息向转送部330或事件检测部340输出。
在本实施方式中,转送部330将语音信息、图像信息、操作信息以及车辆信息的至少1个向事件检测部340以及辅助服务器120的至少一方转送。转送部330可以按照来自响应管理部350的指令,决定各种信息的转送目的地。转送部330可以将操作信息向车辆控制部274转送。转送部330可以将操作信息以及车辆信息向车辆控制部274转送。
另外,在本实施方式中,以通信信息获取部322向响应管理部350输出通信信息,响应管理部350基于通信信息,决定语音信息、图像信息、操作信息、车辆信息等的转送目的地的情况为例,对输入输出控制部272的细节进行说明。但是,输入输出控制部272不限于本实施方式。在其他的实施方式中,也可以通信信息获取部322向转送部330输出通信信息,转送部330基于通信信息,决定语音信息、图像信息、操作信息、车辆信息等的转送目的地。
在本实施方式中,事件检测部340检测1个或多个事件的发生。事件检测部340可以检测预先设定的种类的事件的发生。在检测出事件的发生的情况下,事件检测部340可以将表示检测到的事件的种类的信息向响应管理部350输出。事件检测部340的细节后述。
在本实施方式中,响应管理部350管理针对来自用户20的请求的响应。响应管理部350可以管理本地型对话引擎以及云端型对话引擎的利用。例如,响应管理部350控制转送部330的动作,对本地型对话引擎以及云端型对话引擎的利用进行管理。响应管理部350可以管理响应的内容以及模式的至少一方。
例如,在来自用户20的请求是检索或调査相关的请求的情况下,响应管理部350对从输出部220输出的响应消息的内容进行管理。响应管理部350可以管理智能体输出响应消息时的智能体的模式。响应管理部350可以参照智能体信息保存部360中保存的信息,生成从输出部220输出的语音以及图像的至少一方。另外,在来自用户20的请求是车辆110的控制相关的请求的情况下,响应管理部350可以根据该请求将用于控制车辆110的指令向车辆控制部274输出。响应管理部350的细节后述。
在本实施方式中,智能体信息保存部360保存智能体相关的各种的信息。智能体信息保存部360的细节后述。
图4简要示出输入部210的一部分和事件检测部340的内部构成的一例。在本实施方式中,输入部210具备视线计测部412和校正部414。在本实施方式中,事件检测部340具备注视点检测部420、启动事件检测部430、用户数检测部440、留言事件检测部450。
注视点检测部420可以是注视点确定部的一例。用户数检测部440可以是同乘者判定部以及相对位置信息获取部的一例。留言事件检测部450可以是发送事件检测部的一例。
在本实施方式中,视线计测部412计测1个或多个用户20的视线。视线计测部412可以利用公知的眼球追踪技术或将来开发的任意的眼球追踪技术来计测视线。眼球追踪技术可以是探查线圈法、眼球电位法等的接触型技术,也可以是强膜反射法、角膜反射法等的非接触型技术。
视线计测部412优选是非接触型的视线计测装置。此时,视线计测部412例如具备向被验者的眼照射弱光(例如红外光。)的光照射部(未图示。)和拍摄被验者的眼的拍摄部(未图示。)。拍摄部也可以拍摄被验者的头部。视线计测部412例如配置于输出部220的附近。由此,在用户20注视智能体的情况下,用户20的注视点被高精度地测定。视线计测部412将被验者的视线相关的信息(有时称为眼球追踪数据。)向注视点检测部420输出。
在本实施方式中,校正部414校正视线计测部412。更具体而言,校正部414与被验者相匹配地调整视线计测部412的设定。在一个实施方式中,视线计测部412具有与追踪被验者的视线的工序或动作模式不同的、由校正部414与被验者相匹配地调整视线计测部412的设定的工序或动作模式。在其他的实施方式中,校正部414在视线计测部412追踪用户20的视线的期间,自动校正视线计测部412。
在本实施方式中,注视点检测部420从输入部210的视线计测部412获取眼球追踪数据。注视点检测部420可以对眼球追踪数据进行解析来确定用户20的注视点。注视点检测部420可以将表示确定的注视点的位置的信息向启动事件检测部430以及留言事件检测部450的至少一方输出。
在本实施方式中,启动事件检测部430检测各种启动请求。启动事件检测部430的细节后述。
在本实施方式中,用户数检测部440检测在智能体或输出部220的周围存在的用户20的人数。上述的周围的范围可以具有响应系统112能够判别在该范围内存在的用户的语音或姿态的程度的大小。用户数检测部440可以将表示用户20的人数的信息向响应管理部350输出。
用户数检测部440例如从输入部210的拍摄装置(未图示。)获取用户20拍摄的图像的图像数据。用户数检测部440可以对图像数据进行解析,检测在智能体或输出部220的周围存在的1个或多个用户20。由此,用户数检测部440能够检测在智能体或输出部220的周围存在的用户20的人数。
在本实施方式中,响应系统112搭载于作为移动体的一例的车辆110。于是,用户数检测部440可以将检测出的1个或多个用户20区分成车辆110的驾驶者和同乘者。由此,用户数检测部440能够判定车辆110的同乘者的有无。用户数检测部440可以将表示车辆110的同乘者的有无的信息向响应管理部350以及留言事件检测部450的至少一方输出。
另外,用户数检测部440也可以对图像数据进行解析,确定(i)智能体或(ii)输出部220与1个或多个用户20的各个的相对位置。智能体或输出部220和输入部210的拍摄装置的相对位置是已知的,因此注视点检测部420能够基于(i)对上述的图像数据进行解析得到的、输入部210的拍摄装置与用户20的相对位置、和(ii)智能体或输出部220与输入部210的拍摄装置的相对位置,确定或获取(i)智能体或(ii)输出部220和用户20的相对位置。用户数检测部440可以将表示(i)智能体或(ii)输出部220与用户20的相对位置的信息(有时称为相对位置信息。)向响应管理部350输出。
在本实施方式中,留言事件检测部450检测要向用户20的通信终端30发送消息的事件(有时称为留言事件。)的产生。留言事件检测部450可以在要向用户20传递消息且判定为难以利用输出部220向用户20传递消息的情况下,检测出留言事件的产生。
例如,留言事件检测部450从操作信息获取部316获取操作信息。留言事件检测部450监视操作信息,判定预先设定的种类的操作相关的信息的有无。在检测到预先设定的种类的操作的情况下,留言事件检测部450判定为要向用户20传递消息。
作为上述的操作,例举用于对车辆110的车门上锁或开门的动作,使车辆110起动的动作等。由此,例如,在对车辆110进行了不当的操作的情况下,可以向位于从车辆110在物理上离开的位置的用户20的通信终端30通知表示该意思的消息。
例如,留言事件检测部450从车辆信息获取部318获取车辆信息。留言事件检测部450监视车辆信息,判定车辆110是否处于预先设定的种类的状态。在判定为车辆110处于预先设定的种类的状态的情况下,留言事件检测部450判定为要向用户20传递消息。
作为上述的状态,例举车辆110的功能产生了异常的状态、车辆110的消耗品的替换时期接近的状态、特定的用户20以外的人物操作了车辆110的状态、车内的温度超过了预先设定的值的状态、与在车内人或动物是否存在无关而车内的温度超过了预先设定的值的状态等。由此,例如,在车辆110产生了某些异常的情况下,可以向位于从车辆110在物理上离开的位置的用户20的通信终端30通知表示该意思的消息。
例如,留言事件检测部450从用户数检测部440获取表示智能体或输出部220的周围的用户20的检测结果的信息。在用户数检测部440在智能体或输出部220的周围未检测出用户20的情况下,留言事件检测部450判定为难以利用输出部220向用户20传递消息。
例如,留言事件检测部450从通信控制部276获取表示能否在通信部230和通信终端30之间建立有线通信或近距离无线通信的信息。当在通信部230以及通信终端30之间无法建立有线通信或近距离无线通信时,留言事件检测部450判定为难以利用输出部220向用户20传递消息。
另外,在本实施方式中,以事件检测部340检测启动事件和留言事件的情况为例,对事件检测部340的细节进行了说明。但是,事件检测部340不限于本实施方式。在其他的实施方式中,事件检测部340可以检测启动事件或留言事件,或者代替启动事件或留言事件而检测其他的种类的事件。例如,检测用于中止或中断响应系统112中的响应处理的请求(有时称为中止请求)的输入。
图5简要示出启动事件检测部430的内部构成的一例。在本实施方式中,启动事件检测部430具备眼神交流检测部520、启动短语检测部530、启动操作检测部540。
在本实施方式中,眼神交流检测部520检测基于视线的启动请求。眼神交流检测部520从注视点检测部420获取表示用户20的注视点的位置的信息。眼神交流检测部520可以基于用户20的注视点的位置,检测启动请求。例如,在注视点位于(i)智能体的一部分或(ii)输出部220的一部分的情况下,眼神交流检测部520检测启动请求。在注视点位于(i)智能体的一部分或(ii)输出部220的一部分的时长大于预先设定的值的情况下,眼神交流检测部520可以检测出启动请求。
由此,用户20能够通过姿态输入启动请求。因此,即使在周围存在他人的情况下,用户20也不会感到犹豫,能够启动响应系统112或智能体来开始与智能体的交互。
智能体的一部分可以是智能体的面部的一部分。智能体的面部的一部分可以是眼部。由此,用户20能够通过用户20以及智能体的眼神交流,启动响应系统112或智能体。
在本实施方式中,启动短语检测部530通过语音检测启动请求。基于语音的启动请求可以是预先设定的启动词或启动短语。在本实施方式中,启动操作检测部540检测基于操作按钮或操作面板的操作的启动请求。操作面板可以是触摸面板。
图6简要示出响应管理部350的内部构成的一例。在本实施方式中,响应管理部350具备转送控制部620、响应决定部630、语音合成部642、图像生成部644、指令生成部650、留言管理部660。在本实施方式中,响应决定部630具有启动管理部632和响应信息获取部638。
启动管理部632可以是状态决定部的一例。响应信息获取部638可以是面部控制部、相对位置信息获取部的一例。响应信息获取部638可以是表情控制部的一例。语音合成部642可以是语音消息生成部的一例。留言管理部660可以是传递决定部、内容决定部以及请求发送部的一例。
在本实施方式中,转送控制部620控制转送部330的动作。转送控制部620可以生成用于控制转送部330的动作的指令,将该指令向转送部330发送。转送控制部620也可以生成用于变更转送部330的设定的指令,将该指令向转送部330发送。
例如,在本实施方式中,若响应系统112启动而转移至待机状态,则启动管理部632以使得事件检测部340能够检测启动请求的方式控制转送部330。具体而言,启动管理部632将表示响应系统112转移至待机状态的信息向转送控制部620输出。
转送控制部620若获取到表示响应系统112转移至待机状态的信息,将指示将语音信息、图像信息、操作信息以及车辆信息的至少1个向事件检测部340转送的指令向转送部330发送。转送控制部620也可以将指示将(i)语音信息以及图像信息的一方、(ii)语音信息以及图像信息的另一方、操作信息以及车辆信息的至少1个向事件检测部340转送的指令向转送部330发送。
另外,在启动事件检测部430检测到启动请求的情况下,转送控制部620将指示将语音信息、图像信息、操作信息以及车辆信息的至少1个向辅助服务器120转送的指令向转送部330发送。转送控制部620也可以将指示将(i)语音信息以及图像信息的一方、(ii)语音信息以及图像信息的另一方、操作信息以及车辆信息的至少1个向事件检测部340转送的指令向转送部330发送。
转送控制部620可以在操作信息被输入至转送部330的情况下,以使得该操作信息向车辆控制部274转送的方式,生成上述的指令。由此,针对车辆110的操作的响应得到提高。
在本实施方式中,响应决定部630管理基于响应系统112的响应处理。例如,响应决定部630决定响应处理开始或结束的时间点。另外,响应决定部630决定针对来自用户20的请求的响应。响应决定部630也可以经由转送控制部620来控制转送部330的动作。
在本实施方式中,启动管理部632管理基于响应系统112的响应处理开始或结束的时间点。具体而言,启动管理部632从启动事件检测部430获取表示检测出启动请求的信息。启动管理部632若获取到表示检测到启动请求的信息,则决定为将响应系统112的状态从待机状态变更至启动状态。
由此,在一个实施方式中,在智能体具有面部的情况下,在用户20的注视点位于智能体的面部的一部分时,启动管理部632能够决定为将响应系统112的状态从待机状态变更至启动状态。在其他的实施方式中,在智能体具有面部的情况下,当注视点位于智能体的面部的一部分的时长大于预先设定的值时,启动管理部632能够决定为将响应系统112的状态从待机状态变更至启动状态。面部的一部分可以是眼部。
同样,启动管理部632从启动事件检测部430获取表示检测出中止请求的信息。启动管理部632若获取到表示检测出启动请求的信息,则决定为将响应系统112的状态从启动状态变更至待机状态。
在本实施方式中,响应信息获取部638从辅助服务器120获取针对用户20的请求的响应相关的信息。响应相关的信息可以包含表示响应的内容的信息、以及表示响应的模式的信息的至少一方。表示响应的内容的信息可以包含表示从输出部220输出的信息的内容的信息、以及表示车辆110的操作的内容的信息的至少一方。
响应信息获取部638例如将上述的响应相关的信息中的、经由输出部220输出的信息相关的信息向语音合成部642以及图像生成部644的至少一方输出。响应信息获取部638例如将上述的响应相关的信息中的、车辆110的操作相关的信息向指令生成部650输出。
语音合成部642生成响应用户20的请求的语音消息。语音合成部642从响应信息获取部638获取针对用户20的请求的响应相关的信息。例如,语音合成部642基于表示响应的内容的信息,生成语音消息。语音合成部642也可以基于表示响应的内容的信息和表示响应的模式的信息,生成语音消息。语音合成部642可以将生成的语音消息向输出部220输出。
图像生成部644生成对用户20的请求进行响应的图像(有时称为响应图像。)。图像生成部644可以生成对用户20的请求进行响应的智能体的动画图像。图像生成部644从响应信息获取部638获取针对用户20的请求的响应相关的信息。例如,图像生成部644基于表示响应的内容的信息,生成响应图像。图像生成部644也可以基于表示响应的内容的信息和表示响应的模式的信息,生成响应图像。图像生成部644可以将生成的响应图像向输出部220输出。
另外,在本实施方式中,以智能体是软件智能体,图像生成部644生成智能体的动画图像的情况为例,对响应管理部350的细节进行了说明。但是,响应管理部350不限于本实施方式。在其他的实施方式中,在智能体是硬件智能体的情况下,响应管理部350可以具有控制智能体的各单元的驱动的驱动控制部,驱动控制部可以基于响应信息获取部638获取的表示响应的内容以及模式的至少一方的信息来驱动智能体。
指令生成部650生成用于操作车辆110的指令。指令生成部650从响应信息获取部638获取针对用户20的请求的响应相关的信息。例如,指令生成部650基于表示响应的内容的信息,决定车辆110的操作的种类。指令生成部650可以基于表示响应的模式的信息,界定操作量或操作模式。指令生成部650可以将生成的指令向车辆控制部274输出。
在本实施方式中,留言管理部660管理从车辆110或响应系统112向用户20的通信终端30发送的消息。例如,留言管理部660从留言事件检测部450获取表示检测到留言事件的信息。在检测到留言事件的产生的情况下,留言管理部660决定经由通信网络10向用户20的通信终端30发送语音消息。
留言管理部660可以决定上述的消息的内容。留言管理部660可以基于检测的留言事件的种类来决定消息的内容的至少一部分。
例如,留言管理部660具有将表示留言事件的种类的信息、和表示检测到该事件时发送的消息的内容的信息建立对应的数据库。留言管理部660可以参照上述的数据库中保存的信息,决定上述的消息的内容。留言管理部660可以利用内容被预先设定的1个或多个定型消息来决定上述的消息的内容。
在一个实施方式中,定型消息构成为能够对其一部分的内容进行动态编辑。留言管理部660对定型消息的一部分进行编辑,决定上述的消息的内容。在其他的实施方式中,留言管理部660组合多个定型消息来决定上述的消息的内容。可以将一些定型消息构成为能够对其一部分的内容进行动态编辑。
若决定了消息的内容,留言管理部660利用与车辆110或响应系统112建立了对应的角色的声音的语音信息来生成语音消息。例如,留言管理部660将表示消息的内容的信息向语音合成部642发送,请求将该消息转换成语音消息。
表示消息的内容的信息可以是表示消息的内容的文本信息,也可以是用于分别识别内容被预先设定的1个或多个定型消息的识别信息。语音合成部642例如对上述的角色的声音的语音信息和表示消息的内容的信息进行合成来生成语音消息。角色的声音的语音信息例如保存至智能体信息保存部360。
留言管理部660可以决定生成的语音消息的传递方法。作为语音消息的传递方法,例举(i)利用车辆110的通信部230以及通信终端30之间的有线通信或近距离无线通信进行传递的方法、(ii)经由辅助服务器120进行传递的方法等。
在语音消息经由辅助服务器120被传递的情况下,在一个实施方式中,留言管理部660将请求语音消息的发送的中继请求向辅助服务器120发送。留言管理部660可以将上述的中继请求和消息的语音数据一起向辅助服务器120发送。在其他的实施方式中,留言管理部660将请求语音消息的生成以及发送的中继请求向辅助服务器120发送。留言管理部660可以将上述的中继请求、表示消息的内容的信息和用于确定角色的信息一起向辅助服务器120发送。
留言管理部660可以决定为利用语音通话服务或IP电话服务来将语音消息向通信终端30发送。留言管理部660也可以决定利用电子邮件服务、社交网络服务、信使服务等的数据通信服务,将语音消息作为语音数据的电子文件向通信终端30发送。
图7简要示出智能体信息保存部360的内部构成的一例。在本实施方式中,智能体信息保存部360具备设定数据保存部722、语音数据保存部732、图像数据保存部734。语音数据保存部732可以是语音信息保存部的一例。
在本实施方式中,设定数据保存部722保存各智能体的设定相关的信息。作为设定,例举年龄、性別、性格、给予用户20的印象等。在本实施方式中,语音数据保存部732保存用于合成各智能体的语音的信息(有时称为语音信息。)。例如,语音数据保存部732按照每个角色,保存用于计算机利用该角色的声音读取消息的数据。在本实施方式中,图像数据保存部734保存用于生成各智能体的图像的信息。例如,图像数据保存部734按照每个角色,保存用于计算机动态生成该角色的动画图像的数据。
[辅助服务器120的各单元的概要]
图8简要示出辅助服务器120的内部构成的一例。在本实施方式中,辅助服务器120具备通信部820、通信控制部830、请求处理部840。在本实施方式中,请求处理部840具有请求决定部842、执行部844、响应信息生成部846、设定信息保存部848、留言服务提供部850。
响应信息生成部846可以是消息控制部的一例。设定信息保存部848可以是用户信息保存部以及历史保存部的一例。留言服务提供部850可以是中继装置的一例。
根据本实施方式的辅助服务器120,通过硬件和软件的协作,实现云端型对话引擎。另外,在本实施方式中,辅助服务器120提供对从智能体向用户20的留言进行中继的留言服务。
在本实施方式中,通信部820经由通信网络10,在车辆110以及通信终端30的至少一方和辅助服务器120之间收发信息。通信部820可以具有与通信部230相同的构成。
在本实施方式中,通信控制部830控制辅助服务器120和外部的设备之间的通信。通信控制部830可以控制通信部820的动作。通信控制部830可以具有与通信控制部276相同的构成。
在本实施方式中,请求处理部840获取来自用户20的请求,执行与该请求对应的处理。请求处理部840决定针对上述的请求的响应。例如,请求处理部840决定响应的内容以及模式的至少一方。请求处理部840基于上述的决定结果来生成响应相关的信息。请求处理部840可以将响应相关的信息向车辆110的响应管理部350输出。
在本实施方式中,请求处理部840提供对从车辆110的智能体向用户20的消息进行中继的留言服务。上述的消息可以通过被利用为车辆110的智能体的角色的声音进行读取。由此,在用户20受理了消息的情况下,用户20能够直观地判断是来自哪个设备的消息。例如,单一的用户20具有多个设备,在按照每个设备作为智能体设定了不同的角色的情况下,上述的特征实现了更大的效果。
在本实施方式中,请求决定部842经由通信网络10,从车辆110获取向车辆110的转送部330输入的信息的至少一部分。请求决定部842对从车辆110获取的信息进行解析,识别用户20的请求。请求决定部842可以在被识别的请求中留言请求被识别的情况下,将该留言请求向留言服务提供部850输出。请求决定部842在其他的请求被识别的情况下,可以将该请求向执行部844输出。请求决定部842的细节后述。
在本实施方式中,执行部844从请求决定部842获取表示被识别的请求的种类的信息。执行部844可以执行与被识别的请求的种类对应的处理。执行部844可以参照设定信息保存部848中保存的信息来决定上述的处理。执行部844例如将表示执行结果的信息向响应信息生成部846输出。执行部844也可以将表示处理被执行的信息向响应信息生成部846输出。
在本实施方式中,响应信息生成部846决定针对来自用户20的请求的响应。响应信息生成部846可以决定响应的内容以及模式的至少一方。响应信息生成部846可以生成表示决定的响应的内容以及模式的至少一方的信息(有时被称为响应信息。)。响应信息生成部846可以将生成的响应信息向车辆110的响应管理部350输出。
作为响应的内容,例举从输出部220输出的响应消息的种类或内容、向车辆控制部274发送的指令的种类或内容等。作为响应消息,在准备了1个或多个定型消息的情况下,响应消息的种类可以是用于识别1个或多个定型消息的各个的识别信息。指令的种类可以是用于识别在车辆控制部274中可执行的1个或多个指令的各个的识别信息。
作为响应的方式,例举输出部220输出响应消息时的智能体的模式、基于车辆控制部274的车辆110的控制的模式等。如上所述,作为智能体的模式,例举被利用为智能体的角色的种类、该角色的外观、该角色的声音、以及交互模式的至少1个。作为车辆110的控制的模式,例举抑制急加速、急减速、急转向等的急速操作的模式等。
在本实施方式中,设定信息保存部848保存在请求处理部840的各单元的处理中利用的各种的信息。在一个实施方式中,设定信息保存部848将用于识别用户20的请求的种类的识別信息和表示用于识别该请求的特征的特征信息对应起来进行保存对应起来进行保存。设定信息保存部848也可以将表示用户20的请求的种类以及内容的至少一方的信息、和表示与该请求对应的处理的内容以及模式的至少一方的信息对应起来进行保存对应起来进行保存。设定信息保存部848也可以将用于识别用户20的请求的种类的识別信息、表示用于识别该请求的特征的特征信息、和表示与该请求对应的处理的内容以及模式的至少一方的信息对应起来进行保存对应起来进行保存。
在其他的实施方式中,设定信息保存部848将(i)用于识别各用户的用户识別信息、和(ii)向各用户传递信息时利用的智能体的角色的声音的语音信息或用于确定该语音信息的信息对应起来进行保存对应起来进行保存。设定信息保存部848也可以将(i)用于识别各用户的用户识別信息、(ii)用于识别搭载有各智能体或响应系统112的各设备的设备识別信息、(iii)各智能体的角色的声音或各设备向用户传递信息时利用的智能体的角色的声音的语音信息或用于确定该语音信息的信息对应起来进行保存对应起来进行保存。
另外,在其他的实施方式中,设定信息保存部848将(i)表示消息的内容的信息、(ii)表示该消息被传递时的各用户的心理状态的信息对应起来进行保存对应起来进行保存。设定信息保存部848也可以将(i)用于识别各用户的用户识別信息、(ii)表示消息的内容的信息、(iii)表示该消息被传递时的各用户的心理状态的信息对应起来进行保存对应起来进行保存。
在本实施方式中,留言服务提供部850提供对从车辆110的智能体向用户20的消息进行中继的留言服务。
图9简要示出请求决定部842的内部构成的一例。在本实施方式中,请求决定部842具备输入信息获取部920、语音识别部932、姿态识别部934和推定部940。在本实施方式中,推定部940具有请求推定部942、用户状态推定部944、车辆状态推定部946。
用户状态推定部944可以是心理信息获取部以及特征信息获取部的一例。车辆状态推定部946可以是移动体信息获取部的一例。
在本实施方式中,输入信息获取部920获取成为请求处理部840的输入的信息。例如,输入信息获取部920获取语音信息获取部312所获取的语音信息、以及图像信息获取部314所获取的图像信息的至少一方。输入信息获取部920也可以获取语音信息获取部312所获取的语音信息、图像信息获取部314所获取的图像信息、操作信息获取部316所获取的操作信息、以及车辆信息获取部318所获取的车辆信息的至少1个。输入信息获取部920也可以获取(i)语音信息以及图像信息的一方、(ii)语音信息以及图像信息的另一方、操作信息以及车辆信息的至少1个。
在本实施方式中,输入信息获取部920将获取的语音信息向语音识别部932转送。输入信息获取部920将获取的图像信息向姿态识别部934转送。输入信息获取部920将获取的操作信息向推定部940转送。输入信息获取部920将获取的车辆信息向推定部940转送。输入信息获取部920也可以将获取的操作信息以及车辆信息的至少一方向语音识别部932以及姿态识别部的至少一方转送。
在本实施方式中,语音识别部932对语音信息进行解析,确定用户20的说话内容。语音识别部932将表示用户20的说话内容的信息向推定部940输出。语音识别部932可以执行对说话内容进行解析来识别请求的处理,也可以不执行该处理。
在本实施方式中,姿态识别部934对图像信息进行解析,提取由用户20表示的1个或多个姿态。姿态识别部934将表示提取出的姿态的信息向推定部940输出。姿态识别部934可以执行对提取的姿态进行解析来识别请求的处理,也可以不执行该处理。
在本实施方式中,推定部940对来自用户20的请求进行识别或推定。推定部940可以对用户20的状态进行识别或推定。推定部940可以对车辆110的状态进行识别或推定。
在本实施方式中,请求推定部942对来自用户20的请求进行识别或推定。在一个实施方式中,请求推定部942从语音识别部932获取表示用户20的说话内容的信息。请求推定部942对用户20的说话内容进行解析,来识别或推定用户20的请求。在其他的实施方式中,请求推定部942从姿态识别部934提取表示通过图像信息的解析提取的姿态的信息。请求推定部942对提取的姿态进行解析来识别或推定用户20的请求。
除了语音信息或图像信息之外,请求推定部942也可以利用语音信息以及图像信息以外的信息,对来自用户20的请求进行识别或推定。例如,请求推定部942从输入信息获取部920获取操作信息以及车辆信息的至少一方。请求推定部942也可以从用户状态推定部944获取表示用户20的状态的信息。请求推定部942也可以从车辆状态推定部946获取表示车辆110的状态的信息。通过利用这些信息,能够提高请求推定部942的识别或推定的精度。
请求推定部942可以将表示被识别的请求的种类的信息向执行部844输出。请求推定部942在即使解析了语音信息或图像信息也无法识别请求的情况下,可以将表示无法识别请求的信息向响应信息生成部846输出。
在本实施方式中,用户状态推定部944对用户20的状态进行识别或推定。用户状态推定部944基于语音信息、图像信息、操作信息以及车辆信息的至少1个,对用户20的状态进行识别或推定。由此,用户状态推定部944能够获取表示用户20的状态的信息。作为用户20的状态,例举用户20的心理状态、清醒状态以及健康状态的至少1个。
用户状态推定部944可以将表示用户20的状态的信息向请求推定部942输出。由此,请求推定部942例如能够缩小请求的候补的范围,因此可以提高请求推定部942的推定精度。
用户状态推定部944也可以将表示用户20的状态的信息向响应信息生成部846输出。例如,用户状态推定部944对语音信息、图像信息等进行解析,提取表示用户20传递请求时的用户20的样子的特征的信息(有时称为特征信息。)。特征信息可以是表示音量、语气、语速、每1回的说话时长、停顿方式、声调方式、强弱方式、附和方式、习惯、以及话题的展开方法的至少1个的特征的信息。用户状态推定部944可以将特征信息向响应信息生成部846输出。
在本实施方式中,车辆状态推定部946对车辆110的状态进行识别或推定。车辆状态推定部946基于语音信息、图像信息、操作信息以及车辆信息的至少1个,对车辆110的状态进行识别或推定。如上所述,车辆110的状态可以是车辆110的移动状态、车辆110的各单元的动作状态、以及车辆110的内部空间的状态的至少1个。车辆状态推定部946也可以执行与用户数检测部440相同的处理。
车辆状态推定部946可以将表示车辆110的状态的信息向请求推定部942输出。由此,请求推定部942例如能够缩小请求的候补的范围,因此可以提高请求推定部942的推定精度。
车辆状态推定部946可以将表示车辆110的状态的信息向用户状态推定部944输出。由此,用户状态推定部944能够考虑车辆110的状态来推定用户20的状态,因此可以提高推定精度。例如,在急加速、急减速、急转向等的频度大的情况下,推定为注意力不足、发怒、烦躁等的心理状态。另外,在车辆110蛇行的情况下,推定为清醒状态的下降、健康上的问题等。
图10简要示出响应信息生成部846的内部构成的一例。在本实施方式中,响应信息生成部846具备响应内容决定部1034和响应模式决定部1036。
响应内容决定部1034可以是消息控制部的一例。响应模式决定部1036可以是面部控制部、相对位置信息获取部、表情控制部、特征信息获取部、心理信息获取部、移动体信息获取部、以及模式决定部的一例。
在本实施方式中,响应内容决定部1034决定针对来自用户20的请求的响应的内容。作为响应的内容,例举根据请求要执行的处理的种类、交互的内容等。作为交互的内容,例举对话的具体的内容、智能体的动作的具体的内容等。响应内容决定部1034可以将表示响应的内容的信息向响应管理部350输出。
例如,响应内容决定部1034决定向用户20传递消息。响应内容决定部1034可以决定向位于输出部220的附件的1个或多个用户20传递消息。
消息的种类没有限定。作为消息,例举表示通过用户20的姿态表示的启动请求被受理的消息、表示用户20的当前的状态的消息、用于督促用户20注意的消息等。
另外,响应内容决定部1034可以决定(i)经由输出部220向用户20传递消息,或(ii)经由用户20的通信终端30向用户20传递消息。响应内容决定部1034可以决定(i)利用在通信部230以及通信终端30之间建立的有线通信或近距离无线通信向通信终端30发送消息,或(ii)经由通信网络10以及辅助服务器120,向通信终端30发送消息。
响应内容决定部1034在满足了特定的条件的情况下,可以决定向用户20传递消息。在该情况下,设定信息保存部848也可以将表示上述的条件的种类或内容的信息和表示消息的种类或内容的信息对应起来进行保存对应起来进行保存。
例如,响应内容决定部1034从响应系统112的事件检测部340获取表示用户20的注视点的位置的信息。响应内容决定部1034在注视点的位置或该位置的变动满足特定的条件的情况下,决定为将与该条件对应的消息向用户20传递。
在一个实施方式中,在注视点的位置位于智能体的面部的一部分的情况下,响应内容决定部1034决定传递用于督促用户20说话的消息。作为用于督促用户20说话的消息,例举“有什么要事?”、“有什么困难?”、“怎么了?”等的消息。用于督促用户20说话的消息可以是打招呼,也可以是表示受理了启动请求的消息。
如上所述,在注视点的位置位于智能体的面部的一部分的情况下,启动事件检测部430检测启动请求。于是,通过智能体输出用于督促用户20说话的消息,用户20能够理解受理了启动请求这一情况。
在其他的实施方式中,在注视点的位置满足预先设定的条件(有时称为注意提醒条件。)的情况下,响应内容决定部1034决定传递用于督促集中驾驶的消息。作为上述的条件,例举注视点位于特定的范围内这样的条件、在预先设定的期间内注视点停留在特定的范围内这样的条件等。上述的特定的范围可以是输入部210或输出部220的一部分或附近。上述的特定的范围可以是配置于车辆110的车内的显示器或其附近。
例如,在用户20是车辆110的驾驶者的情况下,作为注意提醒条件,例举(i)在车辆110的移动过程中,注视点不位于车辆110的前进方向前方的条件、(ii)在车辆110的移动过程中,注视点不位于车辆110的前进方向前方的时长比预先设定的阈值长的条件、(iii)在车辆110的移动过程中,注视点位于输出部220的显示装置的附近的条件、(iv)在车辆110的移动过程中,注视点位于输出部220的显示装置的附近的时长比预先设定的阈值长的条件等。
在该情况下,响应内容决定部1034可以从用户数检测部440获取表示同乘者的有无的信息。在判定为存在同乘者的情况下,当注视点的位置满足注意提醒条件时,响应内容决定部1034可以决定为将表示存在驾驶者的集中力下降的可能性的消息向同乘者传递。
响应内容决定部1034可以访问设定信息保存部848,获取表示在过去同种的消息被传递时的用户20的心理状态的信息。响应内容决定部1034可以参照表示上述的用户20的心理状态的信息,决定向作为驾驶者的用户20传递消息,或是向作为同乘者的其他的用户20传递消息。
在本实施方式中,响应模式决定部1036决定针对来自用户20的请求的响应的模式。如上所述,例举输出部220输出响应消息时的智能体的模式、基于车辆控制部274的车辆110的控制的模式等。响应模式决定部1036可以与用户20的动作或样子相对应地决定响应的模式。响应模式决定部1036可以将表示响应的模式的信息向响应管理部350输出。
[基于用户20的注视点的智能体的交互]
在本实施方式中,响应模式决定部1036在特定的条件被满足的情况下,决定控制智能体的面部或视线的朝向。同样,响应模式决定部1036在特定的条件被满足的情况下,可以决定控制智能体的表情。
例如,响应模式决定部1036在用户20的注视点的位置或该位置的变动满足特定的条件(有时称为方向变更条件。)的情况下,决定控制智能体的面部或视线的朝向,以使得智能体的面部或视线朝向用户20的方向。另外,响应模式决定部1036也可以在用户20的注视点位于(i)智能体的一部分(例如眼部)、或(ii)对智能体的图像进行显示或投影的输出部220的一部分的情况下,决定控制智能体的面部或视线的朝向,以使得智能体的面部或视线朝向用户的方向。
由此,用户20感到智能体感受到用户20的视线从而朝向了用户20的方向这样的感觉。另外,能够实现用户20以及智能体的眼神交流。并且,例如,即使在用户20通过姿态输入了启动请求的情况下,用户20也能够直观地理解该启动请求被受理这一情况。
同样,响应模式决定部1036在用户20的注视点的位置或该位置的变动满足特定的条件(有时称为表情变更条件。)的情况下,决定变更智能体的表情。另外,响应模式决定部1036也可以在用户20的注视点位于(i)智能体的一部分(例如眼部),或(ii)对智能体的图像进行显示或投影的输出部220的一部分的情况下,决定变更智能体的表情。
由此,例如,即使在用户20通过姿态输入了启动请求的情况下,用户20也能够直观地理解该启动请求被受理这一情况。另外,在启动请求被受理的情况下,响应系统112可以通过声音以及光的至少一方,提示启动请求被受理这一情况。
响应模式决定部1036例如从用户数检测部440获取表示(i)智能体或(ii)输出部220和用户20的相对位置的信息(有时称为相对位置信息。)。响应模式决定部1036可以基于相对位置信息,决定智能体的面部或视线的朝向。由此,响应模式决定部1036能够控制智能体的动作,以使得智能体的面部或视线朝向用户20的方向。
在智能体或输出部220的周围存在多个用户20的情况下,响应模式决定部1036可以按照预先设定的优先级,来决定以使得智能体的面部或视线朝向哪个用户20的方向的方式控制智能体的动作。响应模式决定部1036例如可以从用户数检测部440获取在智能体或输出部220的周围存在的1个或多个用户20相关的信息。
例如,响应模式决定部1036可以基于各用户的音量、各用户的面部的朝向、各用户的视线的朝向、车辆110的状态、以及各用户的座席配置的至少1个来决定上述的优先级。响应模式决定部1036可以决定使声音大的用户优先。响应模式决定部1036也可以决定使面部更朝向智能体的方向的用户优先。
例如,在车辆110处于移动中的情况下,响应模式决定部1036按照位于副驾驶席的用户20、位于驾驶席的用户20、位于后排座席的用户20的顺序决定优先级。另一方面,在车辆110处于停车中的情况下,响应模式决定部1036可以决定使位于驾驶席的用户20优先。
[基于对话时的用户20的样子的智能体的交互]
在本实施方式中,响应模式决定部1036基于用户20传递请求时的用户20的样子,决定响应时的智能体的模式。例如,响应模式决定部1036从用户状态推定部944获取特征信息。响应模式决定部1036可以通过特征信息,基于用户20的特征来决定智能体的模式。
在一个实施方式中,响应模式决定部1036将智能体控制为智能体连续多个会话、或连续一定期间以相同或类似的方式进行响应。在其他的实施方式中,响应模式决定部1036将智能体控制为智能体按照每个请求,以与该请求对应的模式进行响应。
如上所述,智能体的模式可以是响应时的智能体的交互模式。智能体的交互模式可以是音量、语气、语速、每1回的说话时长、停顿方式、声调方式、强弱方式、附和方式、语言习惯、以及话题的展开方法的至少1个。通过智能体以与用户20的样子相匹配的方式进行响应,实现了自然且亲密的会话。
响应模式决定部1036可以将智能体的模式决定为智能体的交互模式与由特征信息表示的用户20的样子相同或类似。例如,若用户20的语气缓慢,则以使得智能体以缓慢的语气进行响应的方式控制智能体。在基于用户20的指示是单词的情况下,或基于用户20的指示的文字数比预先设定的值少的情况下,以使得智能体简要地响应的方式控制智能体。
例如,在用户20请求乐曲ABC的播放时,若用户20有礼貌地请求“能为我播放ABC吗?”,则智能体也以“我知道了。对ABC进行播放。”的方式礼貌地响应。此时,根据用户20的心理状态的不同,存在智能体以“我知道了。对ABC进行播放。另外,最近XYZ这首歌曲也很受欢迎”的方式,推荐与用户20的心理状态对应的乐曲的情况。另一方面,若用户20以“播放ABC”的方式简要地请求,则智能体也以“对ABC进行播放”的方式简要地响应。
响应模式决定部1036也可以从用户状态推定部944获取表示用户20的心理状态的信息。响应模式决定部1036可以基于用户20的心理状态来决定智能体的模式。例如,在用户20发怒、烦躁、焦虑等抱有冷静程度比预先设定的值小的感情的情况下,以智能体冷静地响应的方式控制智能体。在用户20抱有快乐或高兴这样的感情的情况下,以智能体明快地响应的方式控制智能体。
在用户20是车辆110的驾驶者的情况下,响应模式决定部1036可以从车辆状态推定部946获取表示车辆110的动作的状态的信息。响应模式决定部1036也可以基于车辆110的动作的状态,决定智能体的模式。例如,响应模式决定部1036根据车辆110的速度,决定智能体的模式。响应模式决定部1036可以根据拥堵的程度,决定智能体的模式。
以上,利用实施方式对本发明进行了说明,但本发明的技术范围不限于上述实施方式所记载的范围。能够对上述实施方式进行各种各样的变更或改良对于本领域技术人员是显而易见的。另外,在没有技术矛盾的范围中,能够将针对特定的实施方式说明的事项适用于其他的实施方式。进行了这样的变更或改良的方式也能够包含于本发明的技术范围内从权利要求书的记载而言是显而易见的。
对于权利要求书、说明书以及附图中示出的装置、系统、程序以及方法中的动作、流程、步骤以及步骤等的各处理的执行顺序而言,应注意没有特别明示“之前”、“先行”等,另外,只要不是将之前的处理的输出在之后的处理中使用,就可以以任意的顺序实现。对于权利要求书、说明书以及附图中的动作流程而言,即使为了便利而使用了“首先”、“接着”等进行了说明,但并不意味着必须以这样的顺序来实施。
【附图标记的说明】
10通信网络,20用户,30通信终端,100对话型智能体系统,110车辆,112响应系统,114通信系统,120辅助服务器,210输入部,220输出部,230通信部,240传感部,250驱动部,260附属装置,270控制部,272输入输出控制部,274车辆控制部,276通信控制部,312语音信息获取部,314图像信息获取部,316操作信息获取部,318车辆信息获取部,322通信信息获取部,330转送部,340事件检测部,350响应管理部,360智能体信息保存部,412视线计测部,414校正部,420注视点检测部,430启动事件检测部,440用户数检测部,450留言事件检测部,520眼神交流检测部,530启动短语检测部,540启动操作检测部,620转送控制部,630响应决定部,632启动管理部,638响应信息获取部,642语音合成部,644图像生成部,650指令生成部,660留言管理部,722设定数据保存部,732语音数据保存部,734图像数据保存部,820通信部,830通信控制部,840请求处理部,842请求决定部,844执行部,846响应信息生成部,848设定信息保存部,850留言服务提供部,920输入信息获取部,932语音识别部,934姿态识别部,940推定部,942请求推定部,944用户状态推定部,946车辆状态推定部,1034响应内容决定部,1036响应模式决定部。
Claims (6)
1.一种控制装置,控制作为请求处理装置的用户界面发挥功能的智能体装置,所述请求处理装置获取由用户的语音以及姿态的至少一方表示的请求,并执行与该请求对应的处理,其中,
所述控制装置具备:
注视点确定部,其确定所述用户的注视点;
面部控制部,其控制向所述用户传递信息时利用的智能体的面部或视线的朝向;以及
消息控制部,其决定向所述用户传递消息;
在所述注视点位于(i)所述智能体的一部分、或(ii)对所述智能体的图像进行显示或投影的图像输出部的一部分的情况下,所述面部控制部以使得所述智能体的面部或视线朝向所述用户的方向的方式,控制所述智能体的面部或视线的朝向;
在所述智能体装置搭载于移动体,所述用户是所述移动体的驾驶者的情况下,当所述注视点的位置满足预先设定的注意提醒条件时,所述消息控制部决定传递用于督促集中驾驶的消息;
所述注意提醒条件包括以下条件的至少之一:
(i)在所述移动体的移动过程中,注视点不位于所述移动体的前进方向前方的条件、(ii)在所述移动体的移动过程中,注视点不位于所述移动体的前进方向前方的时长比预先设定的阈值长的条件、(iii)在所述移动体的移动过程中,注视点位于所述图像输出部的显示装置的附近的条件、(iv)在所述移动体的移动过程中,注视点位于所述图像输出部的显示装置的附近的时长比预先设定的阈值长的条件。
2.根据权利要求1所述的控制装置,其中,
还具备控制所述智能体的表情的表情控制部,
所述表情控制部在所述注视点位于所述智能体的面部的一部分的情况下,决定变更所述智能体的表情。
3.根据权利要求2所述的控制装置,其中,
还具备判定所述移动体的同乘者的有无的同乘者判定部,
在判定为存在所述同乘者的情况下,当所述注视点的位置满足所述注意提醒条件时,所述消息控制部决定向所述同乘者传递表示所述驾驶者的集中力有可能降低的消息。
4.根据权利要求3所述的控制装置,其中,还具备:
心理信息获取部,其获取表示所述用户的心理状态的信息;以及
历史保存部,其将表示所述消息的内容的信息和表示该消息被传递时的所述用户的心理状态的信息对应起来进行保存,
所述消息控制部参照在所述历史保存部中保存的、表示所述消息被传递时的所述用户的心理状态的所述信息,决定向所述用户传递消息,还是向所述同乘者传递消息。
5.一种智能体装置,作为请求处理装置的用户界面发挥功能,所述请求处理装置获取由用户的语音以及姿态的至少一方表示的请求,并执行与该请求对应的处理,其中,
所述智能体装置具备:
权利要求1至4中任一项所述的控制装置;以及
(i)作为所述智能体发挥功能的机器人、或(ii)所述图像输出部。
6.一种计算机可读的存储介质,存储有程序,在该程序被处理器执行时,执行用于控制智能体装置的控制方法,其特征在于,
所述智能体装置作为获取由用户的语音以及姿态的至少一方表示的请求,并执行与该请求对应的处理的请求处理装置的用户界面发挥功能,
所述控制方法具有:
注视点确定步骤,确定所述用户的注视点;
面部控制步骤,控制向所述用户传递信息时所利用的智能体的面部或视线的朝向;以及
消息控制步骤,决定向所述用户传递消息;所述面部控制步骤包含如下步骤:在所述注视点位于(i)所述智能体的一部分、或(ii)对所述智能体的图像进行显示或投影的图像输出部的一部分的情况下,以使得所述智能体的面部或视线朝向所述用户的方向的方式,控制所述智能体的面部或视线的朝向;
在所述智能体装置搭载于移动体,所述用户是所述移动体的驾驶者的情况下,当所述注视点的位置满足预先设定的注意提醒条件时,所述消息控制步骤决定传递用于督促集中驾驶的消息;
所述注意提醒条件包括以下条件的至少之一:
(i)在所述移动体的移动过程中,注视点不位于所述移动体的前进方向前方的条件、(ii)在所述移动体的移动过程中,注视点不位于所述移动体的前进方向前方的时长比预先设定的阈值长的条件、(iii)在所述移动体的移动过程中,注视点位于所述图像输出部的显示装置的附近的条件、(iv)在所述移动体的移动过程中,注视点位于所述图像输出部的显示装置的附近的时长比预先设定的阈值长的条件。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018209286A JP7084848B2 (ja) | 2018-11-06 | 2018-11-06 | 制御装置、エージェント装置及びプログラム |
JP2018-209286 | 2018-11-06 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111210814A CN111210814A (zh) | 2020-05-29 |
CN111210814B true CN111210814B (zh) | 2023-11-10 |
Family
ID=70459942
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911058787.6A Active CN111210814B (zh) | 2018-11-06 | 2019-11-01 | 控制装置、智能体装置以及计算机可读存储介质 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10997442B2 (zh) |
JP (1) | JP7084848B2 (zh) |
CN (1) | CN111210814B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108428452B (zh) * | 2018-03-14 | 2019-12-13 | 百度在线网络技术(北京)有限公司 | 终端支架和远场语音交互系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010127779A (ja) * | 2008-11-27 | 2010-06-10 | Denso It Laboratory Inc | 情報提供装置、情報提供方法およびプログラム |
CN205720871U (zh) * | 2016-01-08 | 2016-11-23 | 北京乐驾科技有限公司 | 一种智能抬头显示系统 |
CN106335432A (zh) * | 2016-08-29 | 2017-01-18 | 赵谕 | 具有行车辅助系统的智能后视镜、控制系统及处理方法 |
JP2017058318A (ja) * | 2015-09-18 | 2017-03-23 | ヤフー株式会社 | 情報処理装置、情報処理方法及びプログラム |
CN106562793A (zh) * | 2015-10-08 | 2017-04-19 | 松下电器(美国)知识产权公司 | 信息提示装置的控制方法、以及信息提示装置 |
CN107408349A (zh) * | 2015-04-03 | 2017-11-28 | 株式会社电装 | 信息提示装置以及信息提示方法 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3289953B2 (ja) | 1991-05-31 | 2002-06-10 | キヤノン株式会社 | 視線方向検出装置 |
JPH08290725A (ja) * | 1995-04-21 | 1996-11-05 | Hitachi Ltd | 車両用警報装置及び方法 |
JP4380541B2 (ja) | 2005-01-07 | 2009-12-09 | トヨタ自動車株式会社 | 車両用エージェント装置 |
JP5228716B2 (ja) * | 2007-10-04 | 2013-07-03 | 日産自動車株式会社 | 情報提示システム |
US20150249693A1 (en) * | 2012-10-12 | 2015-09-03 | Ankush Gupta | Method and system for enabling communication between at least two communication devices using an animated character in real-time. |
US20150352955A1 (en) * | 2013-04-18 | 2015-12-10 | Mitsubishi Electric Corporation | Moving body state informing apparatus, server system and moving body state informing method |
JP2017084071A (ja) * | 2015-10-27 | 2017-05-18 | 株式会社オートネットワーク技術研究所 | 車載機 |
US10129510B2 (en) * | 2016-02-18 | 2018-11-13 | Samsung Electronics Co., Ltd. | Initiating human-machine interaction based on visual attention |
JP6730096B2 (ja) * | 2016-06-02 | 2020-07-29 | 株式会社Subaru | 乗員状態監視装置 |
JP2018061718A (ja) * | 2016-10-13 | 2018-04-19 | トヨタ自動車株式会社 | コミュニケーション装置 |
JP6686959B2 (ja) * | 2017-04-11 | 2020-04-22 | 株式会社デンソー | 車両用報知装置 |
-
2018
- 2018-11-06 JP JP2018209286A patent/JP7084848B2/ja active Active
-
2019
- 2019-11-01 CN CN201911058787.6A patent/CN111210814B/zh active Active
- 2019-11-06 US US16/675,235 patent/US10997442B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010127779A (ja) * | 2008-11-27 | 2010-06-10 | Denso It Laboratory Inc | 情報提供装置、情報提供方法およびプログラム |
CN107408349A (zh) * | 2015-04-03 | 2017-11-28 | 株式会社电装 | 信息提示装置以及信息提示方法 |
JP2017058318A (ja) * | 2015-09-18 | 2017-03-23 | ヤフー株式会社 | 情報処理装置、情報処理方法及びプログラム |
CN106562793A (zh) * | 2015-10-08 | 2017-04-19 | 松下电器(美国)知识产权公司 | 信息提示装置的控制方法、以及信息提示装置 |
CN205720871U (zh) * | 2016-01-08 | 2016-11-23 | 北京乐驾科技有限公司 | 一种智能抬头显示系统 |
CN106335432A (zh) * | 2016-08-29 | 2017-01-18 | 赵谕 | 具有行车辅助系统的智能后视镜、控制系统及处理方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2020077136A (ja) | 2020-05-21 |
JP7084848B2 (ja) | 2022-06-15 |
US10997442B2 (en) | 2021-05-04 |
CN111210814A (zh) | 2020-05-29 |
US20200143185A1 (en) | 2020-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7146585B2 (ja) | 視線検出装置、プログラム、及び、視線検出方法 | |
US11468888B2 (en) | Control apparatus, control method agent apparatus, and computer readable storage medium | |
CN111192583B (zh) | 控制装置、智能体装置以及计算机可读存储介质 | |
JP6515764B2 (ja) | 対話装置及び対話方法 | |
US20200133630A1 (en) | Control apparatus, agent apparatus, and computer readable storage medium | |
US10395653B2 (en) | Voice dialog device and voice dialog method | |
US11380325B2 (en) | Agent device, system, control method of agent device, and storage medium | |
JP7222938B2 (ja) | インタラクション装置、インタラクション方法、およびプログラム | |
US11014508B2 (en) | Communication support system, communication support method, and storage medium | |
JP2018063486A (ja) | サービス提供装置、サービス提供方法およびサービス提供プログラム | |
CN111144539A (zh) | 控制装置、智能体装置以及计算机可读存储介质 | |
JP2019158975A (ja) | 発話システム | |
CN115171692A (zh) | 一种语音交互方法和装置 | |
US11709065B2 (en) | Information providing device, information providing method, and storage medium | |
CN111210814B (zh) | 控制装置、智能体装置以及计算机可读存储介质 | |
US20200319841A1 (en) | Agent apparatus, agent apparatus control method, and storage medium | |
CN112951216B (zh) | 一种车载语音处理方法及车载信息娱乐系统 | |
JP7340943B2 (ja) | エージェント装置、エージェント装置の制御方法、およびプログラム | |
CN111752235B (zh) | 服务器装置、智能体装置、信息提供方法及存储介质 | |
CN117112633A (zh) | 基于智能座舱主动交互方法、系统及存储介质 | |
JP2021047507A (ja) | 通知システム、通知制御装置、通知制御方法、及び通知制御プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |