CN111007968A

CN111007968A - 智能体装置、智能体提示方法及存储介质

Info

Publication number: CN111007968A
Application number: CN201910862314.5A
Authority: CN
Inventors: 仓持俊克; 远藤航; 田中亮介
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2018-10-05
Filing date: 2019-09-11
Publication date: 2020-04-14
Also published as: US11450316B2; US20200111489A1; JP2020060830A

Abstract

提供一种能够使智能体进行自然的行为的智能体装置、智能体提示方法及存储介质。智能体装置具备：话筒，其收集车室内的声音；扬声器，其向所述车室内输出声音；解释部，其解释由所述话筒收集到的声音的意思；显示部，其设置于所述车室内；以及智能体控制部，其使对乘客搭话的形态的智能体图像显示于所述显示部的一部分区域，并且使所述扬声器输出所述智能体图像朝向所述乘客的至少1名搭话的声音，在所述显示部显示了所述智能体图像之后，在由所述解释部解释了与面部朝向相关的发声的情况下，所述智能体控制部将所述智能体图像的面部朝向变更为与搭话对象的所述乘客的朝向不同的朝向。

Description

智能体装置、智能体提示方法及存储介质

技术领域

本发明涉及智能体(agent)装置、智能体提示方法及存储介质。

背景技术

以往，已知有如下的显示系统，该显示系统在驾驶员座的周围具备多个显示部，基于导航系统的设定、影像等的条目的选择或播放等操作输入，在多个显示部中的预先设定的显示部进行导航系统的地图及引导的显示、影像条目的显示等(例如，日本特开2018-103880号公报)。

然而，在以往的技术中，在乘客为多名的情况下，基于操作输入得到的显示结果有可能不显示于对于进行了该操作的乘客而言容易视认的位置。其结果是，假设在应用于控制智能体图像的装置的情况下，智能体有可能做出不自然的行为。

发明内容

本发明的方案是考虑这样的情形而完成的，其目的之一在于提供一种能够使智能体进行自然的行为的智能体装置、智能体提示方法及存储介质。

用于解决课题的方案

本发明的智能体装置、智能体提示方法及存储介质采用了以下的结构。

(1)：本发明的一方案的智能体装置，其具备：话筒，其收集车室内的声音；扬声器，其向所述车室内输出声音；解释部，其解释由所述话筒收集到的声音的意思；显示部，其设置于所述车室内；以及智能体控制部，其使对乘客搭话的形态的智能体图像以能够识别面部朝向的形态显示于所述显示部的一部分区域，并且使所述扬声器输出声音，在所述显示部显示了所述智能体图像之后，在由所述解释部解释了与面部朝向相关的发声的情况下，所述智能体控制部将所述智能体图像的面部朝向变更为与搭话对象的所述乘客的朝向不同的朝向。

(2)：上述(1)的一方案中，所述智能体装置具备多个所述扬声器，能够通过多个所述扬声器的输出的组合来进行声像定位，所述智能体控制部使所述智能体图像显示于在多个乘客各自的附近存在的一个以上的所述显示部中的、离所述搭话对象近的一部分区域，并控制所述扬声器而使声像定位于所述智能体图像的显示位置。

(3)：在上述(2)的方案中，所述智能体控制部优先选择不是驾驶员的所述乘客作为所述搭话对象。

(4)：在上述(3)的方案中，优先选择为所述搭话对象的所述乘客是就座于所述车室内的副驾驶员座的乘客。

(5)：在上述(2)的方案中，在所述智能体控制部变更了所述智能体图像的面部朝向之后进一步由所述解释部进行了与所述智能体图像的面部朝向相关的所述解释的情况下，所述智能体控制部使所述面部朝向为无指向。

(6)：在上述(1)的方案中，所述智能体控制部在由所述解释部解释为反复接受到所述智能体图像的名称的输入的情况下，变更所述面部朝向。

(7)：在上述(1)的方案中，所述智能体控制部在所述话筒接受到的所述声音的声压的上升率为规定的比例以上的情况下，变更所述面部朝向。

(8)：在上述(1)的方案中，所述智能体控制部在判定为由所述解释部解释了的发声在中途中断了的情况下，变更所述面部朝向。

(9)：在上述(1)的方案中，所述智能体装置还具备对所述乘客进行拍摄的相机，所述解释部还解释由所述相机收集到的图像，所述智能体控制部在识别到所述乘客向智能体图像搭话的情况下，在由所述智能体图像响应所述乘客的搭话之前，所述智能体图像以朝向至少任一所述乘客所在的方向的形态显示，所述解释部解释在所述智能体图像以朝向至少任一所述乘客所在的方向的形态进行显示的前后由所述相机收集到的图像，所述智能体控制部在判定为由于所述智能体图像以朝向至少任一所述乘客所在的方向的形态进行了显示而所述乘客的表情发生了变化时的情况下，变更所述面部朝向。

(10)：在上述(9)的方案中，所述智能体控制部在检测到选择出作为搭话对象的所述乘客的消极的表情变化的情况下，变更所述面部朝向。

(11)：在上述(1)～(10)中的任一方案中，所述智能体控制部使所述智能体图像显示于所述显示部的一端部，并使所述智能体图像的面部朝向朝所述显示部的另一端部的方向显示。

(12)：本发明的一方案的智能体提示方法使计算机进行如下处理：收集车室内的声音；向所述车室内输出声音；解释收集到的声音的意思；使对乘客搭话的形态的智能体图像以能够识别面部朝向的形态显示，并且输出所述声音；以及在显示了所述智能体图像之后，在解释了与面部朝向相关的发声的情况下，将所述智能体图像的面部朝向变更为与搭话对象的所述乘客的朝向不同的朝向。

(13)：本发明的一方案的存储介质存储有如下程序，所述程序使计算机进行如下处理：收集车室内的声音；向所述车室内输出声音；解释收集到的声音的意思；使对乘客搭话的形态的智能体图像以能够识别面部朝向的形态显示，并且输出所述声音；以及在显示了所述智能体图像之后，在解释了与面部朝向相关的发声的情况下，将所述智能体图像的面部朝向变更为与搭话对象的所述乘客的朝向不同的朝向。

发明效果

根据(1)～(13)，能够使智能体进行自然的行为。

附图说明

图1是包括实施方式的智能体装置的智能体系统的结构图。

图2是示意性地示出设置于车辆的显示部及扬声器的图。

图3是用于说明后部座位附近的扬声器的位置的图。

图4是用于说明使声像定位的位置移动的情形的图。

图5是示出显示部中的智能体图像的显示例的图。

图6是说明车辆的显示部与乘客的就座位置的位置关系的图。

图7是示意性地示出智能体图像变更搭话对象的情形的图。

图8是示出由智能体装置检测与面部朝向相关的发言时的处理的流程的一例的流程图。

图9是示出由智能体装置检测表情变化时的处理的流程的一例的流程图。

图10是说明发声者不明时的智能体图像的初始显示位置的图。

图11是示出由智能体装置进行的一系列处理的流程的一例的流程图。

具体实施方式

以下，参照附图，对本发明的智能体装置、智能体提示方法及存储介质的实施方式进行说明。另外，以下，作为智能体装置的一例，对搭载于车辆并具备对话型智能体功能的智能体装置进行说明。所谓智能体装置，例如是一边与车辆的乘客对话一边应对乘客的要求而进行各种信息提供，进行车辆内的设备的控制的装置。另外，智能体装置也可以根据乘客的表情、声音的腔调来判断乘客的状态从而进行驾驶支援，或者学习乘客的生活方式、嗜好而进行与状况相应的备选项的提议。智能体装置为了使乘客视认对话者而例如使拟人化的动物、形象等图像(以下，称作智能体图像)显示于显示部。智能体图像例如至少包括由观看者识别表情、面部朝向的程度的面部图像。例如，智能体图像在面部区域中呈现模仿眼睛、鼻子的部件，使得面部朝向基于面部区域中的部件的位置而被识别。另外，智能体图像也可以通过包含由观看者立体地感受的三维空间中的头部图像而使得面部朝向被识别。智能体装置例如通过除了识别乘客的声音的声音识别处理(将声音文本化的处理)之外，还综合地利用自然语言功能(理解文本的构造、意思的处理)、对话控制处理、检索处理等来实现。另外，这些处理的一部分或全部由AI(Artificial Intelligence)技术来实现。另外，用于进行这些处理的结构的一部分或全部设置于能够与车辆通信的服务器装置等。

<第一实施方式>

[整体结构]

图1是包括第一实施方式的智能体装置的智能体系统1的结构图。智能体系统1具备智能体装置100和服务器装置200。智能体装置100与服务器装置200例如通过互联网、WAN(Wide Area Network)、LAN(Local Area Network)等网络NW而以能够进行数据的收发的状态连接。服务器装置200能够进行与多个智能体装置100的通信，但是，以下，为了便于说明，设为与1个智能体装置100通信。

智能体装置100与车辆M的乘客进行对话，针对来自乘客的通过声音等的询问，向服务器装置200进行请求，将从服务器装置200得到的针对请求的回答以规定的输出形态提示给乘客。在以下的说明中，所谓乘客，例如设为就座于驾驶员座的乘客(以下，驾驶员)，但是，也可以除此之外(或取代此)是就座于副驾驶员座、后部座位的乘客(同乘者)。

智能体装置100例如具备通信装置110、车室内相机112、话筒114、显示部116、扬声器118、操作部120、导航装置130、智能体控制装置150。这些装置、设备通过CAN(ControllerArea Network)通信线等多路通信线、串行通信线、无线通信网等而互相连接。需要说明的是，图1所示的结构终归只是一例，既可以省略结构的一部分，也可以还追加别的结构。

通信装置110例如利用蜂窝网、Wi-Fi网，Bluetooth(注册商标)、DSRC(DedicatedShort Range Communication)等，经由网络NW而与其他车辆、服务器装置200通信。

车室内相机112例如拍摄包括就座于在车辆M的车室内设置的座椅的乘客的面部的图像。车室内相机112例如是利用了CCD(Charge Coupled Device)、CMOS(ComplementaryMetal Oxide Semiconductor)等固体摄像元件的数码相机。车室内相机112例如在规定的时机对乘客进行拍摄。车室内相机112的拍摄图像被向智能体控制装置150输出。

话筒114是收集车室内的声音的声音输入装置。例如，话筒114设置于转向盘。另外，话筒114设置于乘客就座于车室内的座椅时的前方附近。例如，话筒114设置于转向盘、仪表板或座椅。

显示部116设置于就座于车室内的座椅的乘客的前方附近。另外，扬声器118设置于车室内的座椅附近或显示部116附近。显示部116及扬声器118可以在车室内设置多个。

图2是示意性地示出设置于车辆M的显示部及扬声器的图。在图2的车室内设置有显示部116A～116D和扬声器118A～118F。显示部116A例如是HUD(Head-Up Display)装置。HUD装置是使图像重叠于风景而被视认的装置，作为一例，是通过向车辆M的前风窗玻璃、组合器投射包含图像的光而使乘客视认虚像的装置。对基于HUD装置的图像进行视认的对象的乘客主要是就座于驾驶员或副驾驶员座的乘客，但是，也可以是就座于后部座位的乘客。显示部116A例如以不遮挡驾驶员的视野的程度设定于前风窗玻璃的下方区域。显示部116B显示与由导航装置130执行的导航处理对应的图像、其他图像等。

显示部116B设置于仪表板IP中的驾驶员座(例如离转向盘最近的座位)的正面附近，设置于乘客能够从转向盘的间隙或越过转向盘视认的位置。显示部116B例如是LCD(Liquid Crystal Display)、有机EL(Electro Luminescence)显示装置等。在显示部116B例如显示车辆M的速度、发动机转速、燃料剩余量、散热器水温、行驶距离、其他信息的图像。

显示部116C设置于仪表板IP的中央附近。显示部116C例如与显示部116B同样，是LCD、有机EL显示装置等。显示部116C例如显示与由导航装置130执行的导航处理对应的图像、其他图像等。另外，显示部116C也可以显示电视节目，播放DVD，或者显示下载的电影等的条目。

显示部116D设置于仪表板IP中的副驾驶员座(驾驶员座的旁边的座位)的正面附近。在显示部116D显示电视节目、或者播放DVD、或者显示下载的电影等的条目。另外，也可以在车室内设置有通过车外相机取得乘客通过车辆M的侧部后视镜能够视认的信息并显示所取得的信息的显示部。

扬声器118A及扬声器118B例如设置于车辆M的左右的前方的窗柱(所谓的A柱)。另外，扬声器118C设置于驾驶员座侧的车门的下部，扬声器118D设置于副驾驶员座侧的车门的下部。扬声器118E设置于显示部116C附近即仪表板IP的中央附近。扬声器118F设置于车室内的天棚的中央部附近。

另外，也可以在车辆M中在后部座位附近设置有扬声器。图3是用于说明后部座位附近的扬声器的位置的图。在图3的例子中，除了图2所示的扬声器118A～118F之外，还在设置于驾驶员座ST1和副驾驶员座ST2的后方的后部座位ST3附近设置有扬声器118G及扬声器118H。具体而言，扬声器118G及扬声器118H设置于左右的方向车门的下部。另外，扬声器118可以设置于在车辆M的前方车门与后方车门之间设置的窗柱(所谓的B柱)，也可以设置于后部座位的方向。

操作部120接受乘客手动的操作。操作部120例如具备开关、按钮、按键等。操作部120例如设置于转向盘、仪表板。另外，操作部120也可以作为触摸面板而与显示部116一体构成。

导航装置130例如基于从GNSS(Global Navigation Satellite System)卫星接收到的信号，确定车辆M的位置。另外，导航装置130参照地图信息132来决定从确定出的车辆M的位置(或者所输入的任意的位置)到由乘客使用操作部120、显示部116输入的目的地为止的路径(以下，地图上路径)。地图信息132例如是利用表示道路的线路和由线路连接的节点来表现道路形状的信息。地图信息132也可以包括道路的曲率、POI(Point Of Interest)信息等。

导航装置130也可以基于地图上路径而进行使用了显示部116、扬声器118的路径引导。导航装置130例如也可以通过乘客所持有的智能手机、平板终端等终端装置的功能来实现。导航装置130也可以经由通信装置110向服务器装置200或导航服务器发送当前位置和目的地，从服务器装置200、导航服务器取得与地图上路径同等的路径。导航装置130也可以是智能体控制装置150的一功能。

[智能体控制装置]

智能体控制装置150例如具备声音输入部152、车辆状态解析部154、乘客状态解析部156、提示控制部160、图像生成部162、声音生成部164、应用调出部166、存储部170及智能体控制部180。这些构成要素例如通过由CPU(Central Processing Unit)等计算机处理器执行程序(软件)来实现。另外，这些构成要素中的一部分或全部既可以由LSI(Large ScaleIntegration)、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)等硬件(包括电路部：circuitry)来实现，也可以通过软件与硬件的协同配合来实现。程序既可以预先保存于存储部170，也可以保存于DVD、CD-ROM等可装卸的存储介质并通过将存储介质装配于驱动装置而安装于存储部170。

声音输入部152接受基于话筒114的声音的输入。声音输入部152将接受到的声音(声音流)经由通信装置110向服务器装置200发送。

车辆状态解析部154例如基于由导航装置130确定出的车辆M的位置、由搭载于车辆的车辆传感器取得的速度、加速度、绕铅垂轴的角速度、车辆M的朝向等，解析车辆的状态。车辆M的状态例如包括车辆M是处于停止还是处于行驶等的状态、是否正在进行左右转弯、车道变更等的状态。

乘客状态解析部156进行对由车室内相机112拍摄到的图像的解析处理，通过提取人物形状、面部形状等特征信息来取得与就座于车室内的座椅的乘客的位置、乘客的行为、视线、表情变化相关的信息。乘客的行为例如包括乘客的面部的朝向、身体的姿态。另外，乘客状态解析部156也可以通过设置于座椅的压力传感器及其他检测传感器来检测就座于座椅的乘客的位置。

另外，乘客状态解析部156解析由话筒114收集到的声音，根据解析出的声音的腔调可以判断乘客的状态，也可以推定乘客的感情。另外，在乘客为多名的情况下，乘客状态解析部156也可以基于车室内相机112的拍摄结果及由话筒114收集到的声音的解析结果，来确定哪个乘客是发声者。乘客状态解析部156是“解释部”的一例。

提示控制部160基于针对从声音输入部152发送到服务器装置200的声音的回答信息(例如，由服务器装置200生成的对话信息)，控制经由智能体图像向乘客提示的内容。向乘客提示的内容例如包括使显示部116输出的显示内容、由扬声器118输出的声音内容、执行实现车辆内的各功能的应用程序(以下，称作应用)的内容。

另外，提示控制部160也可以基于由乘客状态解析部156解析出的乘客的状态来控制向乘客提示的内容。另外，提示控制部160也可以预先将来自乘客的输入信息、向乘客提示过的内容的履历信息存储于存储部170，根据所存储的履历信息学习乘客的生活方式、嗜好，进行与状况相应的提示内容的控制。

图像生成部162生成智能体图像，并且设定显示所生成的智能体图像的显示部116及画面上的显示位置，使智能体图像显示于所设定的显示部116的显示位置。例如，图像生成部162也可以基于声音的内容、回答信息的内容，生成使智能体的表情变化了的智能体图像。例如，图像生成部162在来自乘客的请求不明确而拜托再输入请求的情况下，生成看起来悲伤的表情的智能体的图像，在被输入了“谢谢”等声音的情况下，生成看起来高兴的表情的智能体图像。另外，图像生成部162生成用于将回答信息显示于显示部116的图像(以下，称作回答图像)，使所生成的回答图像显示于显示部116。

声音生成部164生成向乘客输出的对话用的声音。例如，声音生成部164使用一个以上的扬声器118，生成用于使声像定位于与智能体图像的显示位置对应的位置的声音。所谓声像定位，例如是通过调节从扬声器118输出并向乘客的左右耳传递的声音的大小，确定乘客感到的声源的空间上的位置。声像例如基于声源原本持有的声特性、车室内环境的信息、头部传递函数(HRTF；Head-related transfer function)而确定。声音生成部164利用这样的原理，能够使声像定位于规定的位置。

图4是用于说明使声像定位的位置移动的情形的图。在图4中，为了简化说明，例示了使用上述的扬声器118C～118E使声像定位。另外，在图4的例子中，在声音生成部164与扬声器118C～118E之间具备AMP164A和混声器164B。AMP164A调整通过由声音生成部164进行的控制而从扬声器118C～118E分别输出的声音的大小。例如，AMP164能够在相对于成为基准的声音的大小(最大强度)而言0～100％之间调节声音。另外，混声器164B具备将被输入的多个声音合成的功能。另外，混声器164B具备分配向扬声器118C～118E分别输出的声音的功能。

例如，在使声像定位于图4所示的空间位置MP1的情况下，在AMP164A基于由声音生成部164生成的声音而针对规定的输出对象的声音从扬声器118C进行最大强度的5％的输出、从扬声器118D进行最大强度的80％的输出、且从扬声器118E进行最大强度的15％的输出的情况下，从乘客P1的位置感到声像定位于图4所示的空间位置MP1。

另外，在AMP164A针对输出对象的声音从扬声器118C进行最大强度的45％的输出、从扬声器118D进行最大强度的45％的输出、且从扬声器118E进行最大强度的45％的输出的情况下，从乘客P1的位置能够感到声像定位于图4所示的空间位置MP2。这样，通过调整从立体地设置于车室内的多个扬声器中的被选择的一个以上的扬声器分别输出的声音的大小，能够使声像定位的位置变化。

应用调出部166从存储部170调出由提示控制部160选择的应用，通过在智能体控制部180执行所调出的应用，实现该应用的功能。例如，在由智能体控制部180执行了电话应用172的情况下，经由通信装置110而与具备外部的通话功能的终端通信，使用话筒114、扬声器118实现与终端所持者的通话。另外，在由智能体控制部180执行了收音机应用174的情况下，经由通信装置110而从广播电台取得以乘客指定的频率发送的声音信息，实现将所取得的声音信息从扬声器118输出的功能。另外，在由智能体控制部180执行了导航应用176的情况下，实现与导航装置130协作的路径引导功能等。

存储部170例如通过HDD、闪存器、EEPROM(Electrically Erasable ProgrammableRead Only Memory)、ROM(Read Only Memory)或RAM(Random Access Memory)等来实现。存储部170例如保存电话应用172、收音机应用174、导航应用176等由处理器读出并执行的程序及其他信息等。

智能体控制部180针对智能体控制装置150的各功能部而控制执行及停止。智能体控制部180例如通过API(Application Programming Interface)接受来自各功能部的要求，选择执行基于接受到的要求的处理的功能部，经由API使所选择的功能部执行处理。

[服务器装置]

服务器装置200例如具备通信部210、声音区间检测部220、声音识别部230、自然语言处理部240、对话生成部250及存储部260。这些构成要素例如通过由CPU等计算机处理器执行程序(软件)来实现。另外，这些构成要素中的一部分或全部既可以通过LSI、ASIC、FPGA、GPU等硬件(包括电路部：circuitry)来实现，也可以由软件与硬件的协同配合来实现。程序既可以预先保存于存储部170的HDD、闪存器等存储装置(具备非暂时性的存储介质的存储装置)，也可以保存于DVD、CD-ROM等可装卸的存储介质并通过将存储介质装配于驱动装置而安装于存储部170。

通信部210例如利用蜂窝网、Wi-Fi网、Bluetooth、DSRC等，经由网络NW而与智能体装置100通信。通信部210接收从智能体装置100发送的声音流。另外，通信部210将由对话生成部250生成的声音、文字信息、图像等回答信息向智能体装置100发送。

声音区间检测部220根据从智能体装置100发送的声音流检测声音区间。例如，声音区间检测部220例如基于声音流中的声音波形的振幅和零交叉来检测声音区间。另外，声音区间检测部220也可以通过基于混合高斯分布模型(GMM；Gaussian mixture model)进行的帧单位的声音·非声音识别，来进行区间检测，还可以通过与预先存储于存储部260等的用于检测声音区间的数据库的匹配处理来进行区间检测。

声音识别部230识别基于声音区间检测部220得到的声音区间中的声音，将声音文本化为文字信息。另外，声音识别部230也可以根据声音确定发声者的特征。发声者的特征例如包括性别、年龄、是否是驾驶员、是否是同乘者的信息。另外，声音识别部230与在存储于存储部260的个人资料264中存储的个人的声音的特征信息进行对照，来确定个人。

另外，声音识别部230也可以基于乘客如何称呼其他乘客或如何被其他乘客称呼，来确定特征信息。声音识别部230例如在识别到就座于副驾驶员座的乘客称呼就座于驾驶员座的乘客为“爸爸”的情况下，识别为乘客的“爸爸”这一称呼指的是驾驶员。需要说明的是，该功能也可以由智能体控制装置150的智能体控制部180具备。

自然语言处理部240执行针对由声音识别部230文本化了的文字信息的自然语言处理，解释文字信息的意思。自然语言处理包括词素解析、句法解析，意思解析、上下文解析等。词素解析例如将文字信息分割为具有意思的最小的表达要素的单位，解析每个分割出来的单位(词素)的词类等。句法解析例如基于通过词素解析而得到的词素，解析句子的构造。意思解析例如基于通过句法解析而得到的句法，判别具有意思的总结。上下文解析例如以句子单位、上下文单位来解释意思。

另外，自然语言处理部240生成与解释出的意思对应的指令。例如，作为解释结果，解释出了“距东京站几公里？”、“距东京站行驶多远？”等意思的情况下，自然语言处理部240生成置换为标准文字信息“距东京站的距离是？”的指令。由此，即便是存在文字差异的情况下也能够容易取得回答信息。

另外，自然语言处理部240例如也可以使用利用了概率的机械学习处理等人工智能处理来解释文字信息的意思，生成基于解释结果的指令。自然语言处理部240使用所生成的指令，参照存储于存储部260的回答信息262的指令，取得与相符的指令对应的回答信息。

对话生成部250基于由自然语言处理部240取得的内容生成用于与乘客进行对话的声音。另外，对话生成部250将所生成的声音(声音流)、文字信息、图像等回答信息从通信部210向智能体装置100发送。

存储部260例如通过HDD、闪存器、EEPROM、ROM或RAM等来实现。存储部260例如保存回答信息262、个人资料264及其他信息等。个人资料264例如是将声音的特征信息、性别、年龄、喜欢的流派、过去的服务器装置200的使用履历等与个人的识别信息建立了对应关系的信息。

[智能体图像的初始显示]

图5是示出由显示部116A显示的智能体图像EI1的一例的图。如前所述，智能体图像包括由观看者识别表情、面部朝向的程度的面部图像。在图5所示的例子中，示出了以能够由乘客识别为朝向车室中央方向的方式显示智能体图像EI1的情形。

智能体控制部180在乘客状态解析部156对由声音输入部152检测到的乘客的发声进行解析的结果是解析出包含调出智能体的单词或短语的情况下，首先，在智能体响应乘客的发声之前，将乘客中的至少1人设定为搭话对象，在使面部朝向该搭话对象的形态下，使智能体图像以能够识别面部朝向的形态显示于显示部116A的离搭话对象的乘客近的一部分区域，而且使声像定位于该显示位置。

需要说明的是，智能体控制部180在根据话筒114的集音结果能够确定发声者的方向的情况下，将该确定出的发声者的方向决定为搭话对象。智能体控制部180在根据话筒114的集音结果没能确定发声者的方向的情况下，可以根据车室内相机112的拍摄结果来确定发声者的方向。另外，智能体控制部180在由声音识别部230成功确定了发声者的性别、年代的情况下，可以基于该识别结果和车室内相机112的拍摄结果来确定发声者。

智能体控制部180在乘客仅是就座于驾驶员座ST1的乘客的情况下，将发声者识别为就座于驾驶员座ST1的乘客。另外，乘客状态解析部156在无法确定发声者的情况下，可以优先选择就座于驾驶员座ST1的乘客以外作为搭话对象，在存在就座于副驾驶员座ST2的乘客的情况下，也可以优先选择该乘客作为搭话对象。由此，智能体控制部180能够将就座于副驾驶员座ST2的乘客的反应作为参考，判定是否需要变更搭话对象。需要说明的是，就座于驾驶员座ST1的乘客被认为为了转向而朝向车辆M的行驶方向等的时间长从而注视智能体图像的可能性低。即，关于就座于驾驶员座ST1的乘客，有可能无法充分得到针对是否有智能体图像的面部朝向正面对着的反应。于是，智能体控制部180在无法确定发声者的情况下，优先选择就座于副驾驶员座ST2的乘客作为搭话对象。

图6是说明车辆M的显示部116与乘客的就座位置的位置关系的图。乘客状态解析部156在没能确定发声者的方向的情况下，作为初始显示，使朝向任意的方向的智能体图像EI1显示于显示部116的端部。所谓任意的方向，例如是图6所示的区域Ta的方向，是以显示部116的使智能体图像EI1显示的端部为起点，朝向没有使智能体图像EI1显示的一端部的方向。

[伴随于乘客的发声产生的智能体图像的面部朝向的变更]

智能体控制部180在智能体图像的初始显示之后，在由乘客状态解析部156检测到与乘客的智能体图像的面部朝向相关的发声的情况下，控制显示部116，使得智能体图像的面部朝向朝与搭话对象的乘客的朝向不同的方向。

所谓与智能体图像的面部朝向相关的发声，例如是由发声者发出的“是这里哦。”、“这里哦。”、“不是那里哦。”、“不是那边哦。”等发声、由作为搭话对象而被识别到的乘客发出的“不是我哦。”、“是爸爸哦。”等发声。另外，重复调出智能体图像时的名称(昵称)的情况也可以包含于与智能体图像的面部朝向相关的发声。另外，智能体控制部180也可以在由乘客状态解析部156对车室内相机112的拍摄结果进行解析的结果是检测到乘客挥手、朝向其他乘客指手指的手势的情况下，解释该手势的意思并进行控制以将搭话对象的朝向变更为不同的朝向。

另外，智能体控制部180也可以与将由声音输入部152识别到的智能体的调出时的声压进行比较，在接下来声音输入部152识别到的乘客的声音的声压的上升率为规定的比例以上的情况下，解释为乘客催促智能体引起注意、或者含有乘客焦躁的感情，并进行控制以变更智能体图像的面部朝向。

智能体控制部180在使智能体图像变更搭话对象的情况下，在变更目的地存在由自然语言处理部240解释出的特定的方向的情况下，选择该方向作为搭话对象。所谓由自然语言处理部240解释出的特定的方向，例如是检测到由发声者发出的“是这里哦。”等发声的乘客就座的方向。

智能体控制部180在不存在特定的方向且使智能体图像变更搭话对象的情况下，既可以使智能体图像以朝向当初的搭话对象的相反方向的方式变更，也可以以朝向与搭话对象不同的任意的乘客那一方的方式变更。另外，智能体控制部180也可以在变更智能体图像的面部朝向之后进一步由乘客状态解析部156进行了与智能体图像的面部朝向相关的解释的情况下，使智能体图像的面部朝向为无指向。所谓使智能体图像的面部朝向为无指向，例如是设为朝向驾驶员座ST1与副驾驶员座ST2的中央附近CM那一方、设为朝向车辆M的车室天棚方向、设为不使视线集中于一点而巡视车室内。

需要说明的是，即便乘客P1是发声者的情况下，在乘客P2不作出订正智能体图像的面部朝向的反应而开始了与智能体图像的对话的情况下，智能体控制部180也将乘客P2作为搭话对象而继续应对。

智能体控制部180在由乘客状态解析部156对就座于副驾驶员座ST2的乘客的反应进行解析的结果是识别为就座于副驾驶员座ST2的乘客是搭话对象的情况下，使声音生成部164播放由对话生成部250生成的“有什么事吗？”等响应声音。智能体控制部180在由乘客状态解析部156对就座于副驾驶员座ST2的乘客的反应进行解析的结果是识别为就座于驾驶员座ST1的乘客是搭话对象的情况下，在使智能体的面部朝向变更之后，使声音生成部164播放由对话生成部250生成的响应声音。

图7是示意性地示出智能体图像EI1变更搭话对象的情形的图。智能体控制部180在由就座于驾驶员座ST1的乘客P1和就座于副驾驶员座ST2的乘客P2中的某个乘客要求了智能体图像EI1的显示但是无法由乘客状态解析部156确定哪一个乘客是发声者的情况下，作为初始显示，如图7(a)所示，设定乘客P2作为搭话对象，使智能体图像EI1的面部朝向朝包含副驾驶员座ST2的区域Ta那一方显示。

智能体控制部180将基于乘客P1的“是这里哦。”这一发言解释为与面部朝向相关的发言，如图7(b)所示，决定将搭话对象变更为乘客P1，将智能体图像E11的面部朝向向包含驾驶员座ST1的区域Ta那一方变更。

需要说明的是，智能体控制部180在变更智能体图像EI1的面部朝向时，也可以一并变更智能体图像EI1的显示位置。例如，在乘客P1为转向中的情况下，在如图7(a)及图7(b)所示在显示部116A的左端部显示智能体图像EI1的状态下，有可能感到难以视认智能体图像EI1。于是，也可以如图7(c)所示，使显示智能体图像EI1的位置移动到显示部116A的中央附近。

[处理流程1]

以下，使用流程图对由智能体控制部180进行的一系列处理的流程进行说明。图8是示出由智能体装置100进行的检测与面部朝向相关的发言时的处理的流程的一例的流程图。

首先，自然语言处理部240识别由乘客调出智能体图像的发声(步骤S100)。接着，乘客状态解析部156判别是否能够确定自然语言处理部240识别到的声音的发声者(步骤S102)。在能够确定发声者的情况下，智能体控制部180进行控制以使得智能体图像的面部朝向朝发声者显示(步骤S104)。在无法确定发声者的情况下，智能体控制部180进行控制以使得智能体图像的面部朝向朝就座于副驾驶员座的乘客显示(步骤S106)。

在步骤S104或步骤S106的处理之后，自然语言处理部240判别是否识别到由乘客进行的与智能体图像的面部朝向相关的发言(步骤S108)。在没有识别到与面部朝向相关的发言的情况下，进行针对搭话对象的应对处理(步骤S110)。在识别到与面部朝向相关的发言的情况下，智能体控制部180变更智能体图像的搭话对象(步骤S112)，进行步骤S110的处理。以上，结束本流程图的处理的说明。

[伴随于乘客的表情变化产生的智能体图像的面部朝向的变更]

智能体控制部180在智能体图像的初始显示之后且智能体发言之前的阶段，在乘客状态解析部156解析车室内相机112的拍摄图像而检测到乘客的表情变化的情况下，控制显示部116以使得智能体图像的面部朝向朝与当初的朝向不同的方向。智能体控制部180例如在检测到由车室内相机112拍摄到的、搭话对象的乘客的消极的表情变化的情况下，也同样使智能体图像的面部朝向变更。所谓消极的表情变化，例如是成为被分类为惊讶、焦躁、困惑的表情。需要说明的是，在乘客从智能体图像显示前起就做出该表情的情况下，智能体控制部180不检测为产生了消极的表情变化。

[处理流程2]

图9是示出由智能体装置100进行的检测表情变化时的处理的流程的一例的流程图。需要说明的是，图9所示的流程图的步骤S200～S206、S210～S212与图8所示的流程图的步骤S100～S106、S110～S112对应。

首先，自然语言处理部240识别由乘客调出智能体图像的发声(步骤S200)。接着，乘客状态解析部156判别是否能够确定自然语言处理部240识别到的声音的发声者(步骤S202)。在能够确定发声者的情况下，智能体控制部180进行控制以使得智能体图像的面部朝向朝发声者显示(步骤S204)。在无法确定发声者的情况下，智能体控制部180进行控制以使得智能体图像的面部朝向朝就座于副驾驶员座的乘客显示(步骤S206)。无论哪种情况下，智能体都还不进行发声。

在步骤S204或步骤S206的处理之后，乘客状态解析部156判别是否识别到乘客的表情变化(步骤S208)。在没有识别到乘客的表情变化的情况下，进行针对搭话对象的应对处理(步骤S210)。在识别到乘客的表情变化的情况下，智能体控制部180变更智能体图像的搭话对象(步骤S212)，进行步骤S210的处理。以上，结束本流程图的处理的说明。

[发声者不明时的智能体图像初始显示]

图10是说明发声者不明时的智能体图像EI1的初始显示位置的图。智能体控制部180在没能推定出哪一个乘客发声了的情况下，可以如图10所示，从显示部116A的副驾驶员座侧的端部，将车室内的乘客全员作为搭话对象，朝向包含乘客全员的区域Ta那一方显示智能体图像EI1。另外，在不存在就座于副驾驶员座ST2的乘客但存在就座于后部座位ST3的乘客P3的情况下，也可以将后部座位ST3的乘客P3当作搭话对象，朝向区域Ta那一方设定智能体图像EI1的面部朝向。

[处理流程3]

图11是示出由智能体装置100进行的一系列处理的流程的一例的流程图。需要说明的是，图11所示的流程图的步骤S300～S302、S310、S312与图8所示的流程图的步骤S100～S102、S108、S312对应，图11所示的流程图的步骤S308与图9所示的流程图的步骤S208对应。

首先，自然语言处理部240识别由乘客调出智能体图像的发声(步骤S300)。接着，乘客状态解析部156判别是否能够确定自然语言处理部240识别到的声音的发声者(步骤S302)。在能够确定发声者的情况下，智能体控制部180进行控制以使得智能体图像显示于离发声者近的一部分区域，且进行控制以使得智能体图像的面部朝向朝发声者显示(步骤S304)。在无法确定发声者的情况下，智能体控制部180进行控制以使得智能体图像显示于显示部116的端部(在图10中，进行控制以使得显示于副驾驶员座侧的端部)，且进行控制以使得智能体图像的面部朝向朝全体乘客显示(步骤S306)。

在步骤S304或步骤S306的处理之后，乘客状态解析部156判别是否识别到乘客的表情变化(步骤S308)。在没有识别到乘客的表情变化的情况下，自然语言处理部240判别是否识别到由乘客进行的与智能体图像的面部朝向相关的发言(步骤S310)。在没有识别到与面部朝向相关的发言的情况下，智能体控制部180进行针对搭话对象的应对处理(步骤S312)。在步骤S308中识别到乘客的表情变化的情况下，或者在步骤S310中识别到与面部朝向相关的发言的情况下，智能体控制部180变更智能体图像的搭话对象(步骤S314)，进行步骤S312的处理。以上，结束本流程图的处理的说明。

根据以上说明的第一实施方式，具备：话筒114，其收集车室内的声音；扬声器118，其向车室内输出声音；乘客状态解析部156，其解释由话筒114收集到的声音的意思；显示部116，其设置于车室内；以及智能体控制部180，其使对乘客搭话的形态的智能体图像显示于显示部116的一部分区域，并且使扬声器118输出声音，在显示部116显示智能体图像之后，在由乘客状态解析部156解释了与面部朝向相关的发声的情况下，智能体控制部180将智能体图像的面部朝向变更为与搭话对象的所述乘客的朝向不同的朝向，由此，能够使智能体进行自然的行为。

<第二实施方式>

以下，对第二实施方式涉及的智能体系统1A进行说明。在以下的说明中，关于与第一实施方式相同的结构及功能，标注与第一实施方式相同的标号，省略详细的说明。另外，关于与第一实施方式相同的名称但是结构或功能不同的要素，在标号的末尾标注“A”。

〔智能体图像的初始显示2〕

智能体控制部180A作为初始显示，使智能体图像EI1如图6所示那样显示于显示部116的端部，且使智能体图像EI1的面部朝向朝显示部116的其他端部方向显示。该初始显示也可以在由智能体控制部180A选择智能体图像的搭话对象的乘客之前进行。智能体控制部180A例如在由乘客状态解析部156开始对由话筒114收集到的声音进行解析，在判定为某个乘客的发声是针对智能体的某种声音输入的可能性高的情况下，使智能体图像EI1显示于显示部116的副驾驶员座ST2侧的端部，且使智能体图像EI1的面部朝向朝显示部116的驾驶员座ST1的端部方向显示。

[伴随于乘客的表情变化产生的智能体图像的面部朝向的变更2]

智能体控制部180A在搭话对象的乘客的选择结束之前使初始显示的智能体图像先显示的情况下，在搭话对象的乘客的选择结束且该搭话对象的方向与初始显示的智能体图像的面部朝向的方向不同的情况下，将智能体图像的面部朝向变更为搭话对象的乘客的方向。

智能体控制部180A在智能体图像的初始显示之后且智能体发言之前的阶段，在乘客状态解析部156解析车室内相机112的拍摄图像而检测到乘客的表情变化的情况下，控制显示部116以使得智能体图像的面部朝向朝与当初的朝向不同的方向。智能体控制部180A例如在检测到由车室内相机112拍摄到的、搭话对象的乘客的消极的表情变化的情况下，以使智能体图像的面部朝向朝与当初的朝向不同的方向的方式进行变更。

例如，假设如图7所示，在就座于驾驶员座ST1的乘客P1和就座于副驾驶员座ST2的乘客P2被识别为乘客的状态下，初始显示的智能体图像EI1的面部朝向为就座于副驾驶员座ST2的乘客P2，乘客状态解析部156检测到乘客P2的消极的表情变化。在该情况下，智能体控制部180A将智能体图像EI1的面部朝向变更为就座于驾驶员座ST1的乘客P1。

[与乘客的发声相应的智能体图像的面部朝向的变更]

另外，在由乘客状态解析部156检测到乘客的发声且智能体响应该乘客的发声的情况下，在判定为发声者的发声在中途中断了的情况下，智能体控制部180A也可以解释为搭话对象错误，进行控制以变更搭话对象。

根据以上说明的第二实施方式，除了起到与第一实施方式同样的效果之外，智能体控制部180A将初始显示的智能体图像显示于显示部116的一端部，基于乘客的表情变化或与智能体图像的对话来变更智能体图像的面部朝向，由此，即便在搭话对象不确定的阶段，也能够使智能体进行自然的行为。

以上使用实施方式说明了本发明的具体实施方式，但本发明丝毫不被这样的实施方式限定，在不脱离本发明的主旨的范围内能够施加各种变形及替换。

Claims

1.一种智能体装置，其中，

所述智能体装置具备：

话筒，其收集车室内的声音；

扬声器，其向所述车室内输出声音；

解释部，其解释由所述话筒收集到的声音的意思；

显示部，其设置于所述车室内；以及

智能体控制部，其使对乘客搭话的形态的智能体图像以能够识别面部朝向的形态显示于所述显示部的一部分区域，并且使所述扬声器输出声音，

在所述显示部显示了所述智能体图像之后，在由所述解释部解释了与面部朝向相关的发声的情况下，所述智能体控制部将所述智能体图像的面部朝向变更为与搭话对象的所述乘客的朝向不同的朝向。

2.根据权利要求1所述的智能体装置，其中，

所述智能体装置具备多个所述扬声器，

能够通过多个所述扬声器的输出的组合来进行声像定位，

所述智能体控制部使所述智能体图像显示于在多个乘客各自的附近存在的一个以上的所述显示部中的、离所述搭话对象近的一部分区域，并控制所述扬声器而使声像定位于所述智能体图像的显示位置。

3.根据权利要求2所述的智能体装置，其中，

所述智能体控制部优先选择不是驾驶员的所述乘客作为所述搭话对象。

4.根据权利要求3所述的智能体装置，其中，

优先选择为搭话对象的所述乘客是就座于所述车室内的副驾驶员座的乘客。

5.根据权利要求2所述的智能体装置，其中，

在所述智能体控制部变更了所述智能体图像的面部朝向之后进一步由所述解释部进行了与所述智能体图像的面部朝向相关的所述解释的情况下，所述智能体控制部使所述面部朝向为无指向。

6.根据权利要求1所述的智能体装置，其中，

所述智能体控制部在由所述解释部解释为反复接受到所述智能体图像的名称的输入的情况下，变更所述面部朝向。

7.根据权利要求1所述的智能体装置，其中，

所述智能体控制部在所述话筒接受到的所述声音的声压的上升率为规定的比例以上的情况下，变更所述面部朝向。

8.根据权利要求1所述的智能体装置，其中，

所述智能体控制部在判定为由所述解释部解释了的发声在中途中断了的情况下，变更所述面部朝向。

9.根据权利要求1所述的智能体装置，其中，

所述智能体装置还具备对所述乘客进行拍摄的相机，

所述解释部还解释由所述相机收集到的图像，

所述智能体控制部在识别到所述乘客向智能体图像搭话的情况下，在由所述智能体图像响应所述乘客的搭话之前，所述智能体图像以朝向至少任一所述乘客所在的方向的形态进行显示，

所述解释部解释在所述智能体图像以朝向至少任一所述乘客所在的方向的形态显示的前后由所述相机收集到的图像，

所述智能体控制部在判定为由于所述智能体图像以朝向至少任一所述乘客所在的方向的形态进行了显示而所述乘客的表情发生了变化时的情况下，变更所述面部朝向。

10.根据权利要求9所述的智能体装置，其中，

所述智能体控制部在检测到选择出作为搭话对象的所述乘客的消极的表情变化的情况下，变更所述面部朝向。

11.根据权利要求1～10中任一项所述的智能体装置，其中，

所述智能体控制部使所述智能体图像显示于所述显示部的一端部，并使所述智能体图像的面部朝向朝所述显示部的另一端部的方向显示。

12.一种智能体提示方法，其中，

所述智能体提示方法使计算机进行如下处理：

收集车室内的声音；

向所述车室内输出声音；

解释收集到的声音的意思；

使对乘客搭话的形态的智能体图像以能够识别面部朝向的形态显示，并且输出所述声音；以及

在显示了所述智能体图像之后，在解释了与面部朝向相关的发声的情况下，将所述智能体图像的面部朝向变更为与搭话对象的所述乘客的朝向不同的朝向。

13.一种存储介质，其中，

所述存储介质存储有如下程序，所述程序使计算机进行如下处理：

收集车室内的声音；

向所述车室内输出声音；

解释收集到的声音的意思；