CN110096251B

CN110096251B - 交互方法及装置

Info

Publication number: CN110096251B
Application number: CN201810806493.6A
Authority: CN
Inventors: 朱碧军; 陈志远; 俞静飞
Original assignee: Nail Holding Cayman Co ltd
Current assignee: Nail Holding Cayman Co ltd
Priority date: 2018-01-30
Filing date: 2018-07-20
Publication date: 2024-02-27
Anticipated expiration: 2038-07-20
Also published as: CN110096251A; JP2021533510A; SG11202100352YA; TW202008115A; WO2020015473A1

Abstract

本说明书一个或多个实施例提供一种交互方法及装置，该方法可以包括：检测处于感应区域的用户；向所述感应区域内的用户提供交互内容；当所述交互内容的目标交互对象为所述感应区域内的部分用户时，向所述感应区域内的用户展示所述目标交互对象的信息。

Description

交互方法及装置

技术领域

本说明书一个或多个实施例涉及电子技术领域，尤其涉及一种交互方法及装置。

背景技术

随着智能化技术的不断发展，电子设备所具备的智能化程度越来越高，能够在一定程度上与用户实现交互，并协助用户完成相关事件。例如，电子设备可以通过在屏幕上显示相关内容、语音播放相关内容等形式，与用户完成上述的交互过程。

发明内容

有鉴于此，本说明书一个或多个实施例提供一种交互方法及装置。

为实现上述目的，本说明书一个或多个实施例提供技术方案如下：

根据本说明书一个或多个实施例的第一方面，提出了一种交互方法，包括：

检测处于感应区域的用户；

向所述感应区域内的用户提供交互内容；

当所述交互内容的目标交互对象为所述感应区域内的部分用户时，向所述感应区域内的用户展示所述目标交互对象的信息。

根据本说明书一个或多个实施例的第二方面，提出了一种交互装置，包括：

检测单元，检测处于感应区域的用户；

提供单元，向所述感应区域内的用户提供交互内容；

展示单元，当所述交互内容的目标交互对象为所述感应区域内的部分用户时，向所述感应区域内的用户展示所述目标交互对象的信息。

附图说明

图1是一示例性实施例提供的一种交互系统的架构示意图。

图2是一示例性实施例提供的一种交互方法的流程图。

图3是一示例性实施例提供的一种交互场景的示意图。

图4是一示例性实施例提供的一种针对内部员工进行交互的示意图。

图5是一示例性实施例提供的一种通过交互内容对用户位置进行引导的示意图。

图6是一示例性实施例提供的一种交互设备向用户主动发起交互的示意图。

图7是一示例性实施例提供的另一种通过交互内容对用户位置进行引导的示意图。

图8是一示例性实施例提供的一种正常情况下的交互场景的示意图。

图9是一示例性实施例提供的一种根据关联事件调整交互内容的示意图。

图10是一示例性实施例提供的一种由交互设备指定发言者的示意图。

图11是一示例性实施例提供的另一种由交互设备指定发言者的示意图。

图12是一示例性实施例提供的又一种由交互设备指定发言者的示意图。

图13是一示例性实施例提供的一种指定外部人员的发言顺序的示意图。

图14是一示例性实施例提供的一种标注交互对象的示意图。

图15是一示例性实施例提供的一种标注目标交互对象的示意图。

图16是一示例性实施例提供的一种确定用户语音的来源用户的示意图。

图17是一示例性实施例提供的一种确定音频消息的来源方向的示意图。

图18是一示例性实施例提供的一种标注用户语音的来源用户的示意图。

图19是一示例性实施例提供的一种设备的结构示意图。

图20是一示例性实施例提供的一种交互装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。

需要说明的是：在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中，其方法所包括的步骤可以比本说明书所描述的更多或更少。此外，本说明书中所描述的单个步骤，在其他实施例中可能被分解为多个步骤进行描述；而本说明书中所描述的多个步骤，在其他实施例中也可能被合并为单个步骤进行描述。

在一实施例中，本说明书的交互方案可以应用于交互设备上。该交互设备可以为专用于实现交互功能的电子设备；或者，该交互设备可以为兼具交互功能的多功能电子设备，比如该交互设备可以包括PC、平板设备、笔记本电脑、可穿戴设备（如智能眼镜等）等，本说明书一个或多个实施例并不对此进行限制。在运行过程中，该交互设备可以运行交互系统，以实现交互方案。其中，该交互系统的应用程序可以被预先安装在交互设备上，使其可以在该交互设备上被启动并运行；当然，当采用诸如HTML5技术时，无需在交互设备上安装该应用程序，即可获得并运行上述的交互系统。

在一实施例中，图1是一示例性实施例提供的一种交互系统的架构示意图。如图1所示，该交互系统可以包括服务器11、网络12、交互设备13。其中，服务器11在运行过程中，可以运行交互系统的服务端侧的程序，以实现相关的处理等功能；而交互设备13在运行过程中，可以运行交互系统的客户端侧的程序，以实现相关的信息呈现、人机交互等功能，从而在服务器11与交互设备13之间配合实现该交互系统。

其中，服务器11可以为包含一独立主机的物理服务器，或者该服务器11可以为主机集群承载的虚拟服务器。交互设备13可以为专用于实现交互功能的电子设备；或者，交互设备13可以为兼具交互功能的多功能电子设备，比如该交互设备可以包括PC、平板设备、笔记本电脑、可穿戴设备（如智能眼镜等）等，本说明书一个或多个实施例并不对此进行限制。而对于交互设备13与服务器11之间进行交互的网络12，可以包括多种类型的有线或无线网络。在一实施例中，该网络12可以包括公共交换电话网络（Public Switched TelephoneNetwork，PSTN）和因特网。需要指出的是：交互系统的客户端的应用程序可以被预先安装在交互设备上，使得该客户端可以在该交互设备上被启动并运行；当然，当采用诸如HTML5技术的在线“客户端”时，无需在交互设备上安装相应的应用程序，即可获得并运行该客户端。

在一实施例中，上述的交互系统可以基于移动化团体办公平台而实现。该移动化团体办公平台可以实现通讯功能，还可以作为诸多其他功能的集成化功能平台，比如对于审批事件（如请假、办公物品申领、财务等审批事件）、考勤事件、任务事件、日志事件等团体内部事件的处理，再比如订餐、采购等团体外部事件的处理，本说明书一个或多个实施例并不对此进行限制；类似地，该移动化团体办公平台可以实现上述的交互系统。

较为具体地，移动化团体办公平台可以承载于相关技术中的即时通讯应用，比如企业即时通讯（Enterprise Instant Messaging，EIM）应用，例如Skype For Business^®、Microsoft Teams^®、Yammer^®、Workplace^®、Slack^®、企业微信^®、纷享销客^®、企业飞信^®、企业易信^®等。当然，即时通讯功能仅为移动化团体办公平台支持的通讯功能之一，该移动化团体办公平台还能够实现更多诸如上述的其他功能，此处不再赘述。其中，本说明书中的“团体”可以包括企业、学校、部队、医院、事业单位等各种组织，本申请并不对此进行限制。

在一实施例中，上述交互系统还可以基于其他任意类型的应用而实现，而并不限制于移动化团体办公平台或类似场景中，比如普通的即时通讯应用等，本说明书并不对此进行限制。

图2是一示例性实施例提供的一种交互方法的流程图。如图2所示，该方法可以应用于交互设备，可以包括以下步骤：

步骤202，检测处于感应区域的用户。

在一实施例中，交互设备具有一定的感应距离，该感应距离的覆盖区域构成感应区域，比如半径为3m的扇形（或者其他任意形状）区域等；通过对该感应区域进行检测，可以确定是否存在处于该感应区域内的用户。

在一实施例中，交互设备可以通过任意方式检测该感应区域内的用户。例如，交互设备可以通过实施人脸检测的方式，确定该感应区域内是否存在用户。

步骤204，向所述感应区域内的用户提供交互内容。

在一实施例中，交互设备可以通过任意的一种方式或多种组合方式提供交互内容，本说明书并不对此进行限制。例如，交互设备可以包含一显示屏，并将交互内容展示于该显示屏中，从而将该交互内容提供至感应区域内的用户；再例如，交互设备可以包含一扬声器，并将交互内容通过扬声器进行语音播报，从而将该交互内容提供至感应区域内的用户；又例如，交互设备可以包含若干指示灯，并通过对指示灯的开关状态、颜色、闪烁方式等进行控制，从而将该交互内容提供至感应区域内的用户。

在一实施例中，感应区域可以包括近场感应区域和远场感应区域，近场感应区域相比于远场感应区域更加靠近交互设备，即此处的“近场”与“远场”为相对关系，例如可以将0~1.5m的范围划定为近场感应区域、将1.5~3m的范围划定为远场感应区域。

在一实施例中，交互设备可以向所述近场感应区域内的用户提供交互内容；以及，交互设备可以向所述远场感应区域内的用户发出引导信息，以引导用户从所述远场感应区域进入所述近场感应区域，使得该用户成为近场感应区域内的用户，从而向该用户提供交互内容。当用户处于远场感应区域时，该用户具有一定概率希望与交互设备进行交互，那么由于远场感应区域可能由于距离较远而无法提供较好的交互效果，因而可以通过向用户发出引导信息，一方面可以甄别该用户是否确实希望实施交互，另一方面可以使其进入近场感应区域后获得更佳的交互效果。其中，交互设备可以通过任意的一种方式或多种组合方式发出引导信息，本说明书并不对此进行限制；例如该交互设备可以通过在显示屏上展示引导信息，再例如该交互设备可以通过扬声器对引导信息进行语音播报，又例如该交互设备可以点亮提示灯或使得提示灯发出闪烁，从而引导用户进入近场感应区域。

在一实施例中，当交互设备可以实施考勤操作时，通过对感应区域内的用户进行身份识别，可以在考勤时间段内对处于感应区域且尚未考勤的用户自动实施考勤操作，而无论其是否位于近场感应区域或远场感应区域。其中，当用户在远场感应区域内的停留时长达到第一预设时长，或者该用户在近场感应区域内的停留时长达到第二预设时长时，交互设备可以判定为该用户可能需要实施交互操作，从而向该用户提供交互内容；由于用户通常只有在希望与交互设备进行交互的情况下，才会接近交互设备，因而第二预设时长可以适当小于第一预设时长，以缩短用户的等待时间。

在一实施例中，交互设备可以主动向感应区域内的用户提供交互内容，类似于用户之间的“打招呼”行为，比如该交互内容可以包括“有什么可以帮助你”等，从而通过该交互内容对感应区域内的用户进行引导，以协助其完成相关事件。

进一步地，交互设备可以确定感应区域内的用户是否满足预设条件，从而仅向满足该预设条件的用户提供交互内容，比如该预设条件可以包括以下至少之一：在远场感应区域内的停留时长达到第一预设时长、在近场感应区域内的停留时长达到第二预设时长、用户朝向交互设备处观看、用户脸部正对交互设备或两者之间的夹角小于预设角度等，本说明书并不对此进行限制。

在一实施例中，交互设备可以获取所述感应区域内的用户的关联事件，从而当所述交互内容与所述关联事件相关时，根据所述关联事件的状态信息，调整向所述感应区域内的用户提供的交互内容；而当不存在与交互内容相关的关联事件时，可以提供默认的交互内容。例如，当交互内容与考勤相关时，对于在正常情况下的工作时段检测到的感应区域内的用户，交互内容可以为“你确认早退吗？”；而如果感应区域内的用户的关联事件包括病假审批事件，且已经到达该病假审批事件中涉及到的请假时间段，那么即便仍处于正常情况下的工作时段，交互内容也可以调整为“你确认下班吗？”。再例如，当交互内容与外部人员的访问相关时，如果感应区域内的用户为外部人员，且获取到相应的关联事件为访问预约事件，那么交互内容可以为“是否需要帮你接通访问对象？”；而如果不存在相应的访问预约事件，那么交互内容可以为“请说出你的访问对象”。

在一实施例中，交互设备可以确定所述感应区域内的用户的身份类型，然后根据所述身份类型，调整向所述感应区域内的用户提供的交互内容。例如，该身份类型可以包括：感应区域内的用户属于团体内部成员或团体外部人员、感应区域内的用户所归属的部门等，从而向感应区域内的用户提供符合于该身份类型的交互内容。

步骤206，当所述交互内容的目标交互对象为所述感应区域内的部分用户时，向所述感应区域内的用户展示所述目标交互对象的信息。

在一实施例中，当感应区域内存在多个用户时，目标交互对象可以仅为其中的部分用户（该部分用户的数量可以为一个，也可以为多个），通过向感应区域内的用户展示该目标交互对象的信息，可以确保感应区域内的每个用户均能够清楚了解自身是否为该交互内容的目标交互对象。

在一实施例中，可以分别获取感应区域内的每一用户的图像信息，并针对每一用户生成相应的头像图片。然后，在未实施交互时，可以同时示出各个用户的头像图片；而在针对目标交互对象进行交互时，可以仅示出该目标交互对象对应的头像图片、屏蔽其他用户的头像图片，或者对该目标交互对象与其他用户对应的头像图片进行区分展示，例如该区分展示可以包括将目标交互对象的头像图片展示于中心区域、将其他用户的头像图片展示于边缘区域，再例如该区分展示可以包括对目标交互对象的头像图片进行放大展示、将其他用户的头像图片进行正常或缩小展示，又例如该区分展示可以包括对目标交互对象的头像图片进行正常展示（彩色）、对其他用户的头像图片进行灰度化处理后展示等，本说明书并不对此进行限制。

在一实施例中，当交互内容的目标交互对象为感应区域内的所有用户（该所有用户的数量可以为一个，也可以为多个）时，无需向感应区域内的用户展示目标交互对象的信息，这有助于用户更加关注于该交互内容本身；当然，即便在该场景下展示了目标交互对象的信息，也并不影响本说明书技术方案的实施。

在一实施例中，感应区域内的用户可能不断发生变化；其中，当所述交互内容的目标交互对象由所述感应区域内的部分用户变更为所有用户（比如非目标交互对象的用户离开了感应区域）时，可以暂停向所述感应区域内的用户展示所述目标交互对象的信息，从而由“交互内容的目标交互对象为所述感应区域内的部分用户”向“交互内容的目标交互对象为感应区域内的所有用户”实现平滑的场景过渡。

在一实施例中，交互设备可以确定作为所述目标交互对象的用户的身份信息，以作为所述目标交互对象的信息；然后，向所述感应区域内的用户展示所述身份信息。例如，交互设备可以在提供交互内容的同时，向感应区域内的用户展示上述的身份信息；或者，交互设备提供交互内容与展示身份信息的操作也可以不同时实施，本说明书并不对此进行限制。

在一实施例中，交互设备可以对处于所述感应区域的用户进行身份识别，比如该交互设备可以通过人脸识别、指纹识别、虹膜识别、步态识别、声纹识别等生理特征识别方式，或者其他任意方式，本说明书并不对此进行限制。当作为目标交互对象的第一用户的身份被成功识别时，身份信息可以包括该第一用户的称谓（如姓名、职称或其他类型），比如当第一用户的称谓为“小白”时，交互设备可以向该感应区域内的用户展示“小白，你有什么需求”，其中“小白”为上述的目标交互对象的信息、“你有什么需求”为上述的交互内容。当作为目标交互对象的第二用户的身份未被成功识别时，身份信息可以包括针对该第二用户的视觉特征描述信息，比如该视觉特征描述信息可以包括以下至少之一：预估性别、预估身高、预估年龄、皮肤颜色、衣着、配饰、与交互设备之间的距离、向交互设备的朝向角度等，例如交互设备可以向该感应区域内的用户展示“这位穿黑色上衣的男士，你有什么需求”，其中“穿黑色上衣的男士”将预估性别与衣着作为目标交互对象的信息、“你有什么需求”为上述的交互内容。

在一实施例中，交互设备可以展示所述感应区域内的用户对应的用户指代信息；交互设备可以确定作为所述目标交互对象的用户对应的用户指代信息，以作为所述目标交互对象的信息；然后，交互设备可以向所述感应区域内的用户突出展示确定的用户指代信息。例如，交互设备可以对所述感应区域内的用户进行图像采集，以将采集到的用户图像作为所述用户指代信息进行展示；相应地，交互设备可以对目标交互对象对应的用户图像进行视觉效果强化（比如圈出相应的用户图像、在相应的用户图像附近展示箭头图标等）、或者对非目标交互对象对应的用户图像进行视觉效果弱化（比如对相应的用户图像进行内容遮挡等），以便于感应区域内的用户了解上述的目标交互对象。

在一实施例中，交互设备可以获取所述感应区域内的用户发出的事件协助请求，然后响应于所述事件协助请求，以协助完成相应事件。例如，感应区域内的用户可以向交互设备发出“呼叫员工小黑”的交互语音，交互设备可以明确其事件协助请求为针对“员工小黑”的呼叫请求，从而向该“员工小黑”发起呼叫。当然，除了语音形式之外，感应区域内的用户还可以通过其他方式发出事件协助请求，比如在空间中做出预设肢体动作等，本说明书并不对此进行限制。

在一实施例中，交互设备可以接收所述感应区域内的用户针对所述交互内容返回的响应信息，该响应信息包含所述事件协助请求。例如，当交互内容为“小白，有什么可以帮助你的吗”时，感应区域内的用户可以回复“呼叫员工小黑”，交互设备可以明确其事件协助请求为针对“员工小黑”的呼叫请求，从而向该“员工小黑”发起呼叫。其中，交互设备提供交互内容的方式，与感应区域内的用户返回响应信息的方式并不存在必然关联，两者可以相同、也可以不同，本说明书并不对此进行限制。

在一实施例中，当所述感应区域内存在多个用户时，交互设备可以按照预设顺序选取作为协助对象的用户；然后，交互设备依次向被选取的用户发出提示，以使所述被选取的用户发出相应的事件协助请求，从而使得感应区域内的用户可以依次发出事件协助请求，避免多个用户同时发出事件协助请求时产生混乱、造成交互设备无法准确获知各个用户对应的事件协助请求，从而有助于提升交互设备对各个用户的协助效率和成功率。

在一实施例中，交互设备可以对采集到的用户语音进行语义识别，以得到所述事件协助请求；以及，交互设备可以对所述用户语音进行声音特征识别，以确定该用户语音的来源用户。那么，即便感应区域内的多个用户同时发言，交互设备也可以同时分辨出各个用户分别对应的发言内容，并对相应的事件协助请求做出响应，提升对各个用户的协助效率。其中，交互设备可以预先对感应区域内的用户进行身份识别，得到各个用户的身份信息；当所述感应区域内存在多个用户时，交互设备可以根据识别出的这些用户对应的声音特征，对采集到的用户语音进行声音特征识别，从而确定出用户语音的来源用户，相比于用全量的声音特征对用户语音进行声音特征识别，可以极大地缩短声音特征识别所需占用的时长。

在一实施例中，当所述感应区域内的用户为团体内部成员时，交互设备可以响应于所述事件协助请求而协助完成相应的团体管理事件；当所述感应区域内的用户为团体外部人员时，交互设备可以响应于所述事件协助请求而向相关联的团体内部成员发送提醒消息、协助所述团体外部人员与相关联的团体内部成员建立通讯、或将所述团体外部人员引导至访问事件的处理地点；当所述感应区域内的用户为管理员时，交互设备可以响应于所述事件协助请求而协助完成相应的设备管理事件。

在一实施例中，交互设备可以接收所述感应区域内的用户发出的用户语音，并针对该用户语音进行响应。例如，感应区域内的用户可以主动向交互设备发出用户语音，譬如该用户语音用于向交互设备发出事件协助请求、向交互设备进行日常问候、向交互设备发出控制指令等，本说明书并不对此进行限制。再例如，感应区域内的用户可以响应于交互设备实施的交互操作，向该交互设备发出相应的用户语音，以对该交互操作进行回应，譬如交互设备实施的交互操作为询问该感应区域内的用户是否需要帮助时，该用户发出的用户语音可以向交互设备告知其需要何种帮助等，本说明书并不对此进行限制。

在一实施例中，交互设备可以对所述用户语音进行语义识别；由于同一发音可能存在多个对应的字或词，而交互设备对用户语音的拾音过程中也可能存在一定的失真或噪声干扰，使得交互设备对用户语音进行识别后可能得到多个语义识别结果。交互设备根据预定义的语义识别算法，可以对各个语义识别结果进行打分，得到相应的置信度；其中，当置信度达到预设值时，表明相应的语义识别结果的可靠度足够高。进一步地，如果同时存在多个与所述用户语音的匹配度达到预设值的语义识别结果，交互设备可以向所述感应区域内的用户展示相应的多个语义识别结果选项，供用户进行选择，以准确表达出用户的真实意图，然后根据被选中的语义识别结果选项对应的语义识别结果，对所述用户语音进行响应；其中，用户在选取过程中，可以读出希望选取的语义识别结果选项对应的语义识别结果，或者读出希望选取的语义识别结果选项的顺序（如“第一个”、“最左边的这个”等）等，本说明书并不对此进行限制。

在一实施例中，交互设备可以确定所述用户语音的来源方向，并向位于所述用户语音的来源方向的用户进行响应。在一种情况下，交互设备在确定出用户语音的来源方向后，直接默认为该来源方向处仅存在发出该用户语音的用户，因而可以直接朝向该用户语音的来源方向进行响应，比如播放交互语音等。在另一种情况下，交互设备可以确定用户语音的来源方向存在的用户，如果同时存在多个用户，交互设备可以进一步确定所述用户语音的来源用户，从而针对该来源用户进行响应。

在一实施例中，交互设备内置有麦克风阵列，可以通过该麦克风阵列接收所述用户语音，所述麦克风阵列包括相对靠左设置的第一麦克风、相对靠右设置的第二麦克风；根据所述第一麦克风和所述第二麦克风对所述用户语音的接收时间差，确定所述用户语音的来源方向。例如，当感应区域内的用户位于靠左一侧时，第一麦克风能够相比第二麦克风更早接收到用户语音，而当感应区域内的用户位于靠右一侧时，第二麦克风能够相比第一麦克风更早接收到用户语音。其中，关于何如基于接收时间差确定用户语音的来源方向的具体方案，可以参考现有技术中的相关技术方案，此处不再赘述。

在一实施例中，当存在位于所述用户语音的来源方向的多个用户时，交互设备可以根据多个用户中的每一用户的面部动作（例如通过交互设备内置的摄像头进行图像采集而得到），确定出所述用户语音的来源用户，并针对所述来源用户进行响应。其中，用户的面部动作可以包括脸颊、嘴部、下巴等一处或多处部位的动作，本说明书并不对此进行限制。以嘴部动作为例，当用户语音的来源方向存在多个用户，但仅一个用户的嘴部发生了开闭动作，可以将该用户确定为用户语音的来源用户；又例如，虽然多个用户的嘴部都发生了开闭动作，但是只有一个用户的开闭次数、幅度等匹配于用户语音，可以将该用户确定为用户语音的来源用户。

在一实施例中，当交互设备被装配在墙面时，用户通常仅能够从该交互设备前方经过并发出用户语音；而当交互设备采用其他装配方式时，用户可能出现在交互设备的前方或后方，使得交互设备采集到的音频消息可能来自位于前方或后方的用户，如果交互设备的感应区域内存在用户，而其他用户恰好从交互设备的后方经过时说话，那么交互设备可能误认为是感应区域内的用户发出的用户语音。因此，当交互设备接收到音频消息后，可以基于该音频消息的来源方向和感应区域内是否存在用户，确定该音频消息是否为感应区域内的用户发出的用户语音。

例如，交互设备内置有麦克风阵列，该麦克风阵列包括相对靠近所述感应区域的第三麦克风、相对远离所述感应区域的第四麦克风；当通过麦克风阵列接收到音频消息时，可以根据所述第三麦克风和所述第四麦克风对所述音频消息中的高频部分的接收情况，确定所述音频消息的来源方向；其中，当来源方向相对靠近所述感应区域时，音频消息中的高频部分会受到交互设备外壳的吸收影响，使得第四麦克风收到的音频消息的高频部分相比于第三麦克风收到的音频消息的高频部分更小，而当来源方向相对远离所述感应区域时，音频消息中的高频部分同样会受到交互设备外壳的吸收影响，使得第三麦克风收到的音频消息的高频部分相比于第四麦克风收到的音频消息的高频部分更小，因此可以通过第三麦克风和第四麦克风对音频消息中的高频部分的接收情况，准确判定该音频消息的来源方向。

其中，当所述来源方向为相对靠近所述感应区域的一侧，且所述感应区域内存在用户时，交互设备可以判定所述音频消息为所述感应区域内的用户发出的用户语音；否则，譬如当所述来源方向为相对远离所述感应区域的一侧时，或者当所述来源方向为相对靠近所述感应区域的一侧但所述感应区域内不存在用户时，交互设备可以判定所述音频消息并非所述感应区域内的用户发出的用户语音。

对于上述的第一麦克风、第二麦克风、第三麦克风、第四麦克风，需要指出的是：为了在左右方向上对各个麦克风进行区分，因而将不同麦克风区分为第一麦克风和第二麦克风，以及为了在前后方向上对各个麦克风进行区分，因而将不同麦克风区分为第三麦克风和第四麦克风，但是本说明书并不限制麦克风阵列中实际包含的麦克风数量。例如，麦克风阵列中可以包含一个或多个第一麦克风、一个或多个第二麦克风；再例如，麦克风阵列中可以包含一个或多个第三麦克风、一个或多个第四麦克风。同时，当麦克风阵列需要同时在左右方向和前后方向上分辨来源方向时，该麦克风阵列并不一定需要同时包含四个麦克风；换言之，上述的第一麦克风与第二麦克风、第三麦克风与第四麦克风只是麦克风在实现相关功能时所扮演的角色，实际上麦克风阵列中可以包含更少数量的麦克风，譬如麦克风阵列可以包含三个麦克风，其中麦克风1与麦克风2在前后方向上位于一列、在左右方向上分离设置，而麦克风3位于麦克风1和麦克风2的前方或后方，从而使得麦克风1~3形成类似于“品”字型位置关系，其中：麦克风1与麦克风2可以作为第一麦克风与第二麦克风，以用于在左右方向上区分用户语音的来源方向；以及，麦克风1与麦克风2可以作为第三麦克风、麦克风3可以作为第四麦克风（麦克风3位于麦克风1和麦克风2的后方），或者麦克风3可以作为第三麦克风、麦克风1与麦克风2可以作为第四麦克风（麦克风3位于麦克风1和麦克风2的前方），以用于在前后方向上区分音频消息的来源方向。

在一实施例中，交互设备可以对感应区域内的用户数量进行检测，比如通过摄像头进行采集后进行人脸检测和计数等，本说明书并不对此进行限制。当所述感应区域内存在多个用户时，交互设备可以分别展示出对应于各个用户的头像图片，以用于表征这几个用户；当感应区域内的用户出现增加、减少或更换时，交互设备展示的头像图片也可以随之变化。交互设备在接收到音频消息，并且确认该音频消息来源于感应区域内的用户时，可以对该用户语音的来源用户的头像图片与其他用户的头像图片进行区别展示，使得用户通过查看头像图片的变化，即可确定交互设备已经成功接收到用户语音并且分辨出其来源用户，而不必担心交互设备没有接收到用户语音或识别错误。可以通过任意方式对用户语音的来源用户的头像图片与其他用户的头像图片进行区别展示，本说明书并不对此进行限制；例如，可以将用户语音的来源用户的头像图片展示于中心区域、将其他用户的头像图片展示于边缘区域；再例如，可以将用户语音的来源用户的头像图片进行放大展示、将其他用户的头像图片进行正常或缩小展示；又例如，可以将用户语音的来源用户的头像图片进行正常展示（彩色）、对其他用户的头像图片进行灰度化处理后展示等。

为了便于理解，以企业即时通讯应用“企业微信”为例，对本说明书一个或多个实施例的技术方案进行说明。图3是一示例性实施例提供的一种交互场景的示意图；如图3所示，假定在企业AA的办公场所设置有交互设备3，该交互设备3上运行有企业微信客户端，使得该交互设备3可以基于该企业微信客户端实现本说明书的交互方案。

在一实施例中，交互设备3上装配有摄像头31，该摄像头31可以形成相应的拍摄区域32，以作为该交互设备3对应的感应区域；相应地，交互设备3可以根据摄像头31对该拍摄区域32进行拍摄得到的图像，确定进入该拍摄区域32的用户，比如图3中进入该拍摄区域32的用户4等。当然，除了摄像头31之外，交互设备3还可以通过声音检测、红外检测或其他方式来确定进入感应区域内的用户，本说明书并不对此进行限制。

图4是一示例性实施例提供的一种针对内部员工进行交互的示意图。如图4所示，交互设备3可以装配有屏幕33，该屏幕33可用于显示摄像头31采集到的该用户4对应的用户图像41。其中，交互设备3可以对用户4进行身份识别，比如基于摄像头31采集到的人脸图像进行人脸识别等，本说明书并不对此进行限制；假定交互设备3识别出用户4为内部员工“小白”，屏幕33上可以示出相应的身份信息42，比如该身份信息42可以为该用户4的称谓“小白”。

当处于考勤时间段时，交互设备3在识别出用户4为内部员工“小白”后，可以查询该内部员工“小白”的考勤数据，如果尚未考勤则可以自动实施针对该内部员工“小白”的考勤操作。为了使得用户4了解到考勤操作已经完成，交互设备3可以向该用户4提供相应的交互内容，比如该交互内容可以包括在屏幕33上示出的标签43，该标签43包含的信息为“上班”，表明考勤操作的类型为“上班打卡”；交互内容还可以采用其他形式提供至用户4，比如交互设备3包含扬声器34时，可以通过该扬声器34播放诸如“小白，上班打卡成功”等语音信息。类似地，交互设备3可以对企业AA的其他内部员工实施自动化的上班考勤操作，以及该交互设备3还可以对企业AA的内部员工实施自动化的下班考勤操作，此处不再赘述。

在一实施例中，可以根据与交互设备3之间的距离远近，将该交互设备3的感应区域划分为多个子区域，比如图3中将拍摄区域32划分为远场拍摄区域321（与交互设备3的距离为1.5~3.0m）和近场拍摄区域322（与交互设备3的距离为0~1.5m）。其中，如果当前处于考勤时间段，那么不论处于远场拍摄区域321或近场拍摄区域322，交互设备3均可以对用户4实施上述的自动考勤操作。而如果处于考勤时间段但用户4已经完成考勤，或者处于其他时间段，交互设备3可以在用户4位于远场拍摄区域321时，默认为用户4只是暂时经过、并不存在交互意愿，因而可以不主动与用户4发起交互（即不向用户4提供交互内容）；但是，如果用户4在远场拍摄区域321的连续停留时长达到第一预设时长（如3s）时，交互设备3可以判定为用户4存在交互意愿，因而可以向用户4提供交互内容。类似地，如果处于考勤时间段但用户4已经完成考勤，或者处于其他时间段，交互设备3可以在用户4位于近场拍摄区域322时，默认为用户4只是暂时经过、并不存在交互意愿，因而可以不主动与用户4发起交互（即不向用户4提供交互内容）；但是，如果用户4在近场拍摄区域322的连续停留时长达到第二预设时长时，交互设备3可以判定为用户4存在交互意愿，因而可以向用户4提供交互内容。其中，由于近场拍摄区域322相对更加靠近交互设备3，使得用户4主动进入近场拍摄区域322的行为本身就可能包含一定的交互意愿，因而第二预设时长可以适当小于第一预设时长，比如第一预设时长为3s、第二预设时长为1s；在较为特殊的情况下，第二预设时长可以为0，相当于交互设备3默认为进入近场拍摄区域322的用户4具有交互意愿，因而可以无延迟地向用户4提供交互内容。

当用户4处于远场拍摄区域321时，为了确保交互设备3与用户4之间形成有效沟通、提升交互效率，交互设备3可以通过交互内容引导用户4从远场拍摄区域321移动至近场拍摄区域322。例如，图5是一示例性实施例提供的一种通过交互内容对用户位置进行引导的示意图；如图5所示，交互设备3可以通过在屏幕33上的交互展示区域51示出文字形式的交互内容511，比如该交互内容511为“请走近到1.5米内”，引导用户4从远场拍摄区域321移动至近场拍摄区域322。除了文字形式的交互内容511之外，交互设备3还可以通过扬声器34播放语音形式的交互内容，比如“小白，你离我有点远哦”（其中，“小白”为身份信息、“你离我有点远哦”为交互内容），引导用户4从远场拍摄区域321移动至近场拍摄区域322。同时，交互设备3还可以控制指示灯35实现诸如呼吸式闪烁，可以吸引用户4的注意，相当于向用户4传达了交互内容，从而引导用户4从远场拍摄区域321移动至近场拍摄区域322。当然，交互设备3可以采用上述文字形式、语音形式、灯光形式等多种方式之一来传达交互内容，本说明书并不对此进行限制。

当用户4进入近场拍摄区域322（主动进入或者在上述引导下进入）时，交互设备3可以引导用户4说出自己的交互目的。例如，图6是一示例性实施例提供的一种交互设备向用户主动发起交互的示意图；如图6所示，交互设备3可以通过扬声器34播放语音形式的交互内容，比如“小白，有什么可以帮你？” （其中，“小白”为身份信息、“有什么可以帮你”为交互内容），同时交互设备3可以在交互展示区域51示出文字形式的交互内容512，比如该交互内容512为“试试这样说”和“呼叫张三”，以用于引导用户4通过语音形式向交互设备3表达交互目的。

需要指出的是：交互设备3并非必须将用户4从远场拍摄区域321引导至近场拍摄区域322，比如交互设备3也可以直接引导远场拍摄区域321的用户4说出自己的交互目的。例如，交互设备3还可以对周围环境噪音进行检测，当噪音水平大于预设值时首先将用户4从远场拍摄区域321引导至近场拍摄区域322，然后引导用户4说出自己的交互目的，当噪音水平小于该预设值时直接引导远场拍摄区域321的用户4说出自己的交互目的。

在一实施例中，当用户4为企业AA的内部员工时，交互设备3可以获取该用户4的称谓“小白”，因而交互设备3可以通过如图5所示的“小白，你离我有点远哦”引导用户4从远场拍摄区域321引导至近场拍摄区域322，其中称谓“小白”被作为身份信息、“你离我有点远哦”为交互内容。而对于企业AA的外部人员，交互设备3可能无法获取相应的称谓，因而交互过程中采用的身份信息将会区别于图5所示的实施例。例如，图7是一示例性实施例提供的另一种通过交互内容对用户位置进行引导的示意图；如图7所示，假定交互设备3通过摄像头31采集到某一用户的用户图像71，但是该用户为企业AA的外部人员，交互设备3未能成功获取其称谓，因而在引导该用户从远场拍摄区域321移动至近场拍摄区域322时，交互设备3可以在交互展示区域51内示出文字形式的交互内容513，比如该交互内容513为“请走近到1.5米内”，交互设备3还可以通过扬声器34播放语音形式的交互内容，比如“你好，你离我有点远哦”（省略了该用户的身份信息），交互设备3还可以控制指示灯35实现诸如呼吸式闪烁，从而引导该用户从远场拍摄区域321移动至近场拍摄区域322。

在一实施例中，交互设备3可以通过访问企业微信服务端，获知感应区域内的用户的关联事件，并且可能基于该关联事件而改变提供的交互内容。例如，图8是一示例性实施例提供的一种正常情况下的交互场景的示意图；如图8所示，假定交互设备3在工作时间段检测到位于拍摄区域32内的用户4，并识别出该用户4为企业AA的内部员工“小白”，如果交互设备3判定该用户4的交互目的为下班考勤，但是由于仍处于工作时间段，那么当交互设备3并未查询到该用户4存在与下班考勤相关的关联事件时，在交互展示区域51示出的交互内容514可以为“你确定要早退吗？”。图9是一示例性实施例提供的一种根据关联事件调整交互内容的示意图；如图9所示，假定交互设备3在工作时间段检测到位于拍摄区域32内的用户4，并识别出该用户4为企业AA的内部员工“小白”，如果交互设备3查询到该用户4存在已提交的病假审批事件，且已到达该病假审批事件披露的病假时间，在交互展示区域51示出的交互内容515可以为“你确定要下班吗？”。

在一实施例中，交互设备3的拍摄区域32内可能同时存在多个用户，交互设备3可以通过恰当的交互内容，实现与这些用户之间的沟通。图10是一示例性实施例提供的一种由交互设备指定发言者的示意图；如图10所示，假定感应区域32内存在多个用户，分别对应于屏幕33上示出的用户图像81-82等，比如交互设备3可以识别出用户图像81对应的用户为“小白”、用户图像82对应的用户为“小黑”等，并将各个用户的称谓作为身份信息而展示在相应的用户图像附近，比如在用户图像81上方示出相应用户的身份信息91为称谓“小白”、在用户图像82上方示出相应用户的身份信息92为称谓“小黑”等。由于交互设备3的交互能力有限，也为了交互设备3能够清楚地获知各个用户的交互目的，交互设备3可以在同一时刻仅与部分用户进行交互。其中，交互设备3可以按照一定方式来选取目标交互对象（即上述的部分用户），比如按照各个用户与交互设备3之间的间隔距离从小到大的顺序、按照各个用户的正脸与摄像头31的拍摄方向之间的夹角从小到大的顺序、按照各个用户的身高从高到低的顺序等，本说明书并不对此进行限制。假定交互设备3希望与用户图像81对应的用户“小白”进行交互，为了避免感应区域内的其他用户产生误解，交互设备3需要在提供交互内容时，向感应区域内的用户表达该交互内容对应的目标交互对象为用户“小白”，比如交互设备3通过扬声器34播放交互内容“有什么可以帮你？”的同时，可以添加播放该用户“小白”的身份信息，因而实际播放内容可以为“小白，有什么可以帮你？”，使得其他用户均可以明确该交互内容“有什么可以帮你？”的目标交互对象为用户“小白”。

图11是一示例性实施例提供的另一种由交互设备指定发言者的示意图；如图11所示，如果用户“小白”、用户“小黑”等多个用户同时说出自己的交互目的，交互设备3可能由于声音混乱而无法准确获知每个用户的交互目的，或者交互设备3可能无法同时响应多个用户的交互目的，或者基于其他原因，使得交互设备3可以提供交互内容，引导这些用户依次表达自身的交互目的。例如，交互设备3可以在交互展示区域51中示出交互内容516，该交互内容516可以包括“请不要同时发言”；进一步的，当交互设备3按照上述实施例确定出各个用户的发言顺序为用户“小白”先发言、用户“小黑”后发言时，交互设备3可以通过扬声器34播放交互内容“我听不清，要不xx你先说”的同时，添加播放该用户“小白”的身份信息，因而实际播放内容可以为“我听不清，要不小白你先说”，使得其他用户均可以明确该交互内容的目标交互对象为用户“小白”。

除了图10-11所示实施例中，通过语音形式指定多个用户之间的发言顺序之外，还可以采用其他多种方式。例如，图12是一示例性实施例提供的又一种由交互设备指定发言者的示意图；如图12所示，当交互设备3确定出各个用户的发言顺序为用户“小白”先发言、用户“小黑”后发言时，交互设备3可以对用户“小白”对应的用户图像81进行标示，比如在人脸区域添加标示框810等，那么即便交互内容为“有什么可以帮你”、“请发言”等，各个用户也可以明确该交互内容的目标交互对象为用户“小白”。当然，在图12所示的实施例中，交互设备13在交互展示区域51内示出交互文字517时，该交互文字517除了包含交互内容“请xx发言”之外，还包含用户“小白”的身份信息，因而该交互文字517的全部内容为“请小白发言”，同样可以向各个用户表明当前的目标交互对象为用户“小白”。

图13是一示例性实施例提供的一种指定外部人员的发言顺序的示意图；如图13所示，假定用户图像81-82等对应的用户均为企业AA的外部人员，交互设备3无法获得这些用户的称谓，但是可以通过其他方式表达各个用户的身份信息，以便于指明交互信息对应的目标交互对象。例如，当交互设备3确定目标交互对象为用户图像81对应的用户时，如果用户图像81对应于一位女性用户、用户图像82对应于一位男性用户，那么可以通过性别来表达各个用户的身份信息，比如“这位女士”、“这位男士”等；因此，当交互设备3通过扬声器34播放的语音内容为“我听不清，要不请这位女士先说”时，拍摄区域32内的所有用户均可以确定交互内容为“我听不清，要不请xx先说”，并且基于身份信息“这位女士”确定目标交互对象为用户图像81对应的用户。

通过向拍摄区域32内的用户提供交互内容，一些场景下并不需要用户做出响应，比如图4所示实施例中的交互内容“上班打卡成功”等；而另一些场景下可以得到用户的响应，且该响应可能包含了用户发起的事件协助请求，以使得交互设备3协助用户完成相应事件，比如图9所示实施例中的交互内容为“你确定要下班吗？”，当用户“小白”返回的响应为“是的”时，交互设备3基于语义分析可以确定该用户“小白”发起了针对“下班考勤事件”的事件协助请求，因而可以由交互设备3协助完成该“下班考勤事件”。类似地，在多人场景下，比如图13中由交互设备3发出语音“我听不清，要不请这位女士先说”后，如果该女性用户返回的响应为“呼叫白白”时，交互设备3基于语义分析可以确定该用户“小白”发起了针对“呼叫事件”的事件协助请求，且呼叫对象为用户“白白”，因而可以由交互设备3向该用户“白白”发起呼叫，从而协助完成该“呼叫事件”。

当然，除了对交互内容做出响应的情况之外，拍摄区域32内的用户也可以直接向交互设备3发起事件协助请求，而交互设备3可以协助完成相应事件，这与对交互内容做出响应的情况类似，此处不再赘述。

在上述图10-13所示的实施例，交互设备3可以确保拍摄区域32内的多个用户依次发言，使得交互设备3可以分别确定各个用户发起的事件协助请求，以分别协助完成相应事件。而在一实施例中，交互设备3可以同时接收多个用户发出的用户语音，并基于声音特征对各条用户语音进行准确分离，还可以通过声音特征识别（如声纹识别等）确定出每条用户语音与拍摄区域32内的用户之间的映射关系，从而使交互设备3能够同时获知多个用户的事件协助请求，并同时协助完成相应事件，显著提升对多个用户的协助效率。

其中，一种情况下，交互设备3可以将采集到的用户语音直接与声音特征库进行比对，比如该声音特征库可以包括企业AA中所有内部员工的声纹特征，从而基于比对结果确定出采集到的用户语音对应的内部员工。同时，交互设备3可以通过人脸识别等其他方式对拍摄区域32内的用户进行身份识别，并将该身份识别结果与基于声音特征库得到的比对结果进行比较，以避免企业AA的内部员工被冒充。例如，通过声音特征确定用户语音分别来自企业AA中的用户A、用户B，而基于人脸识别确定拍摄区域内的用户为用户A和无法识别的外部人员，那么该外部人员可能冒充使用了用户B的录音，交互设备3可以拒绝完成相应的协助事件，并向用户B发出告警提示。

另一种情况下，交互设备3可以首先通过人脸识别等方式对拍摄区域32内的用户进行身份识别，比如识别出拍摄区域32内的用户为企业AA中的用户A、用户B。那么，当交互设备3采集到两条用户语音时，可以仅将该用户语音与用户A、用户B的声纹特征进行比对，以确定哪条用户语音来自用户A、哪条用户语音来自用户B，而无需与声音特征库中的其他声纹特征进行比对，可以极大地提升比对效率。

此外，拍摄区域32内的用户可以包括管理员，交互设备3可以响应于管理员的事件协助请求，协助完成相应的设备管理事件，比如调整屏幕33上的欢迎语内容、调整扬声器34的音量大小、调整远场拍摄区域321与近场拍摄区域322的区域范围等。

图14是一示例性实施例提供的一种标注交互对象的示意图。交互设备3通过摄像头31对拍摄区域32进行拍摄后，可以对检测到的位于拍摄区域32内的用户进行标注，以使得用户能够清楚地确定自身是否已经被交互设备3检测到、能够与交互设备3实施交互。如图14所示，当交互设备3检测到拍摄区域32内存在某一用户时，可以根据拍摄到的图像为该用户生成相应的头像图片1401，并将该头像图片1401展示于屏幕33上；当另一用户也被交互设备3检测到位于拍摄区域32时，屏幕33上也可以示出该用户对应的头像图片1402；类似地，当其他用户进入拍摄区域32时，交互设备3同样可以在屏幕33上示出相应的头像图片，此处不再赘述。

当诸如头像图片1402对应的用户从拍摄区域32离开时，交互设备3可以将该头像图片1402从屏幕上删除；其他用户的情况类似，此处不再赘述。

因此，当查看到屏幕33上包含头像图片1401-1402时，相应的用户可以确定自身已经被交互设备3检测到、被交互设备3作为交互对象，可以与该交互设备3实施交互；而当其他希望与交互设备3实施交互的用户未在屏幕33上查看到自身对应的头像图片时，表明该用户可能未进入拍摄区域32，或者虽然进入拍摄区域32但并未被交互设备3成功检测到，该用户可以采取进入或重新进入拍摄区域32等措施，直至屏幕33上示出了该用户的头像图片。

图15是一示例性实施例提供的一种标注目标交互对象的示意图。假定交互设备3分别识别到处于拍摄区域32内的用户“小白”和用户“小黑”，且交互设备3将用户“小白”确定为目标交互对象，如图15所示：交互设备3可以将用户“小白”对应的头像图片1401按照正常比例展示于屏幕33的中心区域（相对远离屏幕33的边缘）、将用户“小黑”对应的头像图片1402按照较小比例展示于屏幕33的边缘区域。那么，当交互设备3通过扬声器34发出“请问有什么可以帮你”的交互语音时，根据头像图片1401、1402的展示比例和展示位置，可以确定该交互语音对应的目标交互对象为头像图片1401对应的用户“小白”，而非头像图片1402对应的用户“小黑”。

当然，除了对头像图片的展示比例、展示位置进行配置之外，还可以对头像图片的展示属性进行其他方面的调整，以使得目标交互对象对应的头像图片与其他交互对象对应的头像图片之间相互区分，便于根据头像图片确定相应的目标交互对象，本说明书并不对此进行限制。

除了由交互设备3向拍摄区域32内的用户进行交互之外，该拍摄区域32内的用户也可以向交互设备3进行交互，比如向交互设备3发出用户语音，以使得交互设备3对该用户语音进行响应，从而满足该用户语音的来源用户的需求。其中，该用户语音可以用于对交互设备3发出的交互语音进行回应，也可以由拍摄区域32内的用户主动向交互设备3发出，本说明书并不对此进行限制。

在一实施例中，拍摄区域32内可能同时存在多个用户，使得交互设备3在接收到拍摄区域32内的用户发出的用户语音时，需要确定该用户语音的来源用户，即分辨出究竟是拍摄区域32中的哪个用户发出该用户语音。

例如，图16是一示例性实施例提供的一种确定用户语音的来源用户的示意图；如图16所示，交互设备3中可以内置有麦克风阵列，该麦克风阵列可以包括麦克风36和麦克风37，其中麦克风36的设置位置偏向左侧、麦克风37的设置位置偏向右侧。因此，当拍摄区域32中的某一用户发出诸如“我需要预定一间15人的会议室”的用户语音时，如果麦克风36对该用户语音的接收时刻将早于麦克风37的接收时刻，表明该用户语音的来源用户相对更靠近麦克风36、相对更远离麦克风37，因而可以判定该来源用户位于拍摄区域32中相对更加靠左的位置时，譬如结合图10所采集到的图像可以判定该来源用户为用户“小白”。

类似地，如果麦克风37对该用户语音的接收时刻将早于麦克风36的接收时刻，表明该用户语音的来源用户相对更靠近麦克风37、相对更远离麦克风36，因而可以判定该来源用户位于拍摄区域32中相对更加靠右的位置时，譬如结合图10所采集到的图像可以判定该来源用户为用户“小黑”。或者，如果麦克风36与麦克风37对该用户语音的接收时刻相同或几乎相同，表明该用户语音的来源用户位于麦克风36与麦克风37中间、相当于交互设备3的正前方，因而可以判定该来源用户位于拍摄区域32的中间位置。

在一实施例中，基于交互设备3的安装位置或安装方式，用户可能位于该交互设备3的后方，而非屏幕33和摄像头31所朝向的前方，因而该用户显然也不处于拍摄区域32内，但该用户可能恰好位于交互设备3附近，使得当交互设备3接收到诸如“我需要预定一间15人的会议室”的音频消息时，该音频消息并不一定为拍摄区域32内的用户发出的用户语音，而是后方用户发出的干扰语音。因此，为了避免将干扰语音误判为用户语音，需要对音频消息的来源方向进行判断：来源于前方的音频消息可能是拍摄区域32内的用户发出的用户语音，来源于后方的音频消息为干扰语音。

例如，图17是一示例性实施例提供的一种确定音频消息的来源方向的示意图；如图17所示，交互设备3中可以内置有麦克风阵列，该麦克风阵列可以包括麦克风36、麦克风37和麦克风38，在左右方向上（即图17中的水平方向）麦克风36的设置位置偏向左侧、麦克风37的设置位置偏向右侧，在前后方向上（即图17中的上下方向）麦克风36和麦克风37在交互设备3的前部，相对靠近视频区域32，麦克风38在交互设备3的背部，相对远离视频区域32；其中，麦克风36~38均位于交互设备3中。因此，对于交互设备3附近的某一用户发出的音频消息：如果该用户位于交互设备3的前方，使得音频消息从交互设备3的前方传入并穿过交互设备3，该音频消息的高频部分会被该交互设备3的外壳部分吸收，麦克风36~38在接收该音频消息的高频部分时，会导致位于交互设备3背部的麦克风38接收到的高频信号强度因为交互设备3的外壳的吸收而小于麦克风36-37接收到的高频信号强度；如果该用户位于交互设备3的后方，使得音频消息从交互设备3的后方传入并穿过交互设备3，该音频消息的高频部分会被该交互设备3的外壳部分吸收，麦克风36~38在接收该音频消息的高频部分时，会导致位于交互设备3前部的麦克风36-37接收到的高频信号强度因为交互设备3的外壳的吸收而小于麦克风38接收到的高频信号强度。

因此，可以根据麦克风36~38对音频消息的高频部分的接收情况，判断出该音频信号的来源方向为交互设备3的前方还是后方。当确定音频消息的来源方向为交互设备3的后方时，该音频消息的来源用户必然不是拍摄区域32内的用户，即该音频消息为干扰语音。当确定音频消息的来源方向为交互设备3的前方时，该音频消息的来源用户可能为拍摄区域32内的用户；当然，为了提升准确性、降低误判概率，可以结合其他条件进一步判断：

在一实施例中，可以通过交互设备3上的摄像头31进行图像采集，如果拍摄区域32内存在一个用户，可以判定上述的音频消息来源于该用户。

在一实施例中，可以通过交互设备3上的摄像头31进行图像采集，如果拍摄区域32内存在多个用户，可以结合各个用户的面部动作，比如在收到音频消息的过程中是否存在开闭嘴部的动作、动作发生的时刻与音频消息的信号变化是否一致等，从而将面部动作与音频消息相匹配的用户确定为该音频消息的来源用户。

在一实施例中，可以通过交互设备3上的摄像头31进行图像采集，如果拍摄区域32内存在多个用户，可以结合麦克风36-37识别出的音频消息的来源方向为偏向左侧、右侧还是中间，从而将相应方向对应的用户确定为该音频消息的来源用户。其中，如果同一方向上仍然存在多个用户，可以进一步结合上述的各个用户的面部动作，从中筛选出面部动作与音频消息相匹配的用户，以确定为该音频消息的来源用户。

图18是一示例性实施例提供的一种标注用户语音的来源用户的示意图；如图18所示，假定用户“小白”被确定为用户语音的来源用户，交互设备3可以将头像图片1401保持为原始的彩色模式进行展示，而将其他用户对应的头像图片1402等均灰度化处理后进行展示，使得拍摄区域32内的用户可以快捷地确认交互设备3是否正确识别出了用户语音的来源用户，以确保后续的交互过程不会出现偏差。

在一实施例中，当交互设备3对用户语音进行识别时，如果来源用户存在口音、外部环境过于嘈杂或者存在拾音过程发生失真等不利因素，都可能会影响到交互设备3的语义识别准确度。因此，在识别过程中，交互设备3可以分别对每个备选语义识别结果进行打分；其中，交互设备3可以直接丢弃置信度较低（如低于预设分值）的备选语义识别结果，如果置信度较高（如高于预设分值）的备选语义识别结果的数量为1，可以直接作为语义识别结果，如果置信度较高的备选语义识别结果的数量大于1，交互设备3可以向来源用户展示这些置信度较高的备选语义识别结果对应的备选语义识别结果选项，比如图18所示的选项1801为“1、我需要预定一间15人的会议室”、选项1802为“2、我需要预定一间45人的会议室”，以供作为来源用户的“小白”进行选择确认。

例如，用户“小白”可以通过发出包含“第一个”、“前一个”、“15人的那个”等内容的确认语音，向交互设备3告知其选取选项1801，那么交互设备3可以确定上述的用户语音对应的语义识别结果为“我需要预定一间15人的会议室”，从而进一步做出响应，比如协助用户“小白”完成相关会议室的预定等。

图19是一示例性实施例提供的一种设备的示意结构图。请参考图19，在硬件层面，该设备包括处理器1902、内部总线1904、网络接口1906、内存1908以及非易失性存储器1910，当然还可能包括其他业务所需要的硬件。处理器1902从非易失性存储器1910中读取对应的计算机程序到内存1908中然后运行，在逻辑层面上形成交互装置。当然，除了软件实现方式之外，本说明书一个或多个实施例并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

请参考图20，在软件实施方式中，该交互装置可以包括：

检测单元2001，检测处于感应区域的用户；

提供单元2002，向所述感应区域内的用户提供交互内容；

第一展示单元2003，当所述交互内容的目标交互对象为所述感应区域内的部分用户时，向所述感应区域内的用户展示所述目标交互对象的信息。

可选的，所述第一展示单元2003具体用于：

确定作为所述目标交互对象的用户的身份信息，以作为所述目标交互对象的信息；

向所述感应区域内的用户展示所述身份信息。

可选的，

还包括：识别单元2004，对处于所述感应区域的用户进行身份识别；

其中，当作为所述目标交互对象的第一用户的身份被成功识别时，所述第一用户的身份信息包括所述第一用户的称谓；当作为所述目标交互对象的第二用户的身份未被成功识别时，所述第二用户的身份信息包括针对所述第二用户的视觉特征描述信息。

可选的，

还包括：第二展示单元2005，展示所述感应区域内的用户对应的用户指代信息；

所述第一展示单元2003具体用于：确定作为所述目标交互对象的用户对应的用户指代信息，以作为所述目标交互对象的信息；向所述感应区域内的用户突出展示确定的用户指代信息。

可选的，所述第二展示单元2005具体用于：

对所述感应区域内的用户进行图像采集，以将采集到的用户图像作为所述用户指代信息进行展示。

可选的，还包括：

管理单元2006，当所述交互内容的目标交互对象由所述感应区域内的部分用户变更为所有用户时，暂停向所述感应区域内的用户展示所述目标交互对象的信息。

可选的，还包括：

请求获取单元2007，获取所述感应区域内的用户发出的事件协助请求；

协助单元2008，响应于所述事件协助请求，以协助完成相应事件。

可选的，所述请求获取单元2007具体用于：

接收所述感应区域内的用户针对所述交互内容返回的响应信息，所述响应信息包含所述事件协助请求。

可选的，所述请求获取单元2007具体用于：

当所述感应区域内存在多个用户时，按照预设顺序选取作为协助对象的用户；

依次向被选取的用户发出提示，以使所述被选取的用户发出相应的事件协助请求。

可选的，所述请求获取单元2007具体用于：

对采集到的用户语音进行语义识别，以得到所述事件协助请求；

对所述用户语音进行声音特征识别，以确定所述用户语音的来源用户。

可选的，所述协助单元2008具体用于：

当所述感应区域内的用户为团体内部成员时，响应于所述事件协助请求而协助完成相应的团体管理事件；

当所述感应区域内的用户为团体外部人员时，响应于所述事件协助请求而向相关联的团体内部成员发送提醒消息、协助所述团体外部人员与相关联的团体内部成员建立通讯、或将所述团体外部人员引导至访问事件的处理地点；

当所述感应区域内的用户为管理员时，响应于所述事件协助请求而协助完成相应的设备管理事件。

可选的，所述感应区域包括近场感应区域和远场感应区域；所述提供单元2002具体用于：

向所述近场感应区域内的用户提供交互内容；

向所述远场感应区域内的用户发出引导信息，以引导用户从所述远场感应区域进入所述近场感应区域。

可选的，

还包括：事件获取单元2009，获取所述感应区域内的用户的关联事件；

所述提供单元2002具体用于：当所述交互内容与所述关联事件相关时，根据所述关联事件的状态信息，调整向所述感应区域内的用户提供的交互内容。

可选的，

还包括：确定单元2010，确定所述感应区域内的用户的身份类型；

所述提供单元2002具体用于：根据所述身份类型，调整向所述感应区域内的用户提供的交互内容。

可选的，还包括：

语音接收单元2011，接收所述感应区域内的用户发出的用户语音；

响应单元2012，对所述用户语音进行响应。

可选的，所述响应单元2012具体用于：

对所述用户语音进行语义识别；

当存在多个置信度达到预设值的语义识别结果时，向所述感应区域内的用户展示相应的多个语义识别结果选项；

根据被选中的语义识别结果选项对应的语义识别结果，对所述用户语音进行响应。

可选的，所述响应单元2012具体用于：

确定所述用户语音的来源方向；

向位于所述用户语音的来源方向的用户进行响应。

可选的，所述响应单元2012通过下述方式确定所述用户语音的来源方向：

通过麦克风阵列接收所述用户语音，所述麦克风阵列包括相对靠左设置的第一麦克风、相对靠右设置的第二麦克风；

根据所述第一麦克风和所述第二麦克风对所述用户语音的接收时间差，确定所述用户语音的来源方向。

可选的，所述响应单元2012通过下述方式向位于所述用户语音的来源方向的用户进行响应：

当存在位于所述用户语音的来源方向的多个用户时，根据多个用户中的每一用户的面部动作，确定出所述用户语音的来源用户；

针对所述来源用户进行响应。

可选的，还包括：

音频接收单元2013，通过麦克风阵列接收到音频消息，所述麦克风阵列包括相对靠近所述感应区域的第三麦克风、相对远离所述感应区域的第四麦克风；

方向确定单元2014，根据所述第三麦克风和所述第四麦克风对所述音频消息中的高频部分的接收情况，确定所述音频消息的来源方向；

来源判定单元2015，当所述来源方向为相对靠近所述感应区域的一侧，且所述感应区域内存在用户时，判定所述音频消息为所述感应区域内的用户发出的用户语音。

可选的，还包括：

头像展示单元2016，当所述感应区域内存在多个用户时，分别展示出对应于各个用户的头像图片；

区别展示单元2017，对所述用户语音的来源用户的头像图片与其他用户的头像图片进行区别展示。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

在一个典型的配置中，计算机包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器 (RAM) 和/或非易失性内存等形式，如只读存储器 (ROM) 或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带、磁盘存储、量子存储器、基于石墨烯的存储介质或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

在本说明书一个或多个实施例使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

以上所述仅为本说明书一个或多个实施例的较佳实施例而已，并不用以限制本说明书一个或多个实施例，凡在本说明书一个或多个实施例的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书一个或多个实施例保护的范围之内。

Claims

1.一种交互方法，其特征在于，包括：

检测处于感应区域的用户，并获取所述感应区域内的用户的关联事件；

向所述感应区域内的用户提供交互内容，包括：当所述交互内容与所述关联事件相关时，根据所述关联事件的状态信息，调整向所述感应区域内的用户提供的交互内容，当不存在与交互内容相关的关联事件时，提供默认交互内容；其中，当所述关联事件包括请假审批事件时，根据所述关联事件的状态信息，调整向所述感应区域内的用户提供的交互内容包括：若当前时间段已经到达所述请假审批事件对应的请假时间段，且所述当前时间段为工作时段，则调整向所述感应区域内的用户提供的交互内容为与所述关联事件相匹配的考勤内容；

2.根据权利要求1所述的方法，其特征在于，所述向所述感应区域内的用户展示所述目标交互对象的信息，包括：

向所述感应区域内的用户展示所述身份信息。

3.根据权利要求2所述的方法，其特征在于，

还包括：对处于所述感应区域的用户进行身份识别；

4.根据权利要求1所述的方法，其特征在于，

还包括：展示所述感应区域内的用户对应的用户指代信息；

所述向所述感应区域内的用户展示所述目标交互对象的信息，包括：确定作为所述目标交互对象的用户对应的用户指代信息，以作为所述目标交互对象的信息；向所述感应区域内的用户突出展示确定的用户指代信息。

5.根据权利要求4所述的方法，其特征在于，所述展示所述感应区域内的用户对应的用户指代信息，包括：

6.根据权利要求1所述的方法，其特征在于，还包括：

当所述交互内容的目标交互对象由所述感应区域内的部分用户变更为所有用户时，暂停向所述感应区域内的用户展示所述目标交互对象的信息。

7.根据权利要求1所述的方法，其特征在于，还包括：

获取所述感应区域内的用户发出的事件协助请求；

响应于所述事件协助请求，以协助完成相应事件。

8.根据权利要求7所述的方法，其特征在于，所述获取所述感应区域内的用户发出的事件协助请求，包括：

9.根据权利要求7所述的方法，其特征在于，所述获取所述感应区域内的用户发出的事件协助请求，包括：

10.根据权利要求7所述的方法，其特征在于，所述获取所述感应区域内的用户发出的事件协助请求，包括：

11.根据权利要求7所述的方法，其特征在于，所述响应于所述事件协助请求，以协助完成相应事件，包括：

12.根据权利要求1所述的方法，其特征在于，所述感应区域包括近场感应区域和远场感应区域；所述向所述感应区域内的用户提供交互内容，包括：

向所述近场感应区域内的用户提供交互内容；

13.根据权利要求1所述的方法，其特征在于，

还包括：确定所述感应区域内的用户的身份类型；

所述向所述感应区域内的用户提供交互内容，包括：根据所述身份类型，调整向所述感应区域内的用户提供的交互内容。

14.根据权利要求1所述的方法，其特征在于，还包括：

接收所述感应区域内的用户发出的用户语音；

对所述用户语音进行响应。

15.根据权利要求14所述的方法，其特征在于，所述对所述用户语音进行响应，包括：

对所述用户语音进行语义识别；

16.根据权利要求14所述的方法，其特征在于，所述对所述用户语音进行响应，包括：

确定所述用户语音的来源方向；

向位于所述用户语音的来源方向的用户进行响应。

17.根据权利要求16所述的方法，其特征在于，所述确定所述用户语音的来源方向，包括：

18.根据权利要求16所述的方法，其特征在于，所述向位于所述用户语音的来源方向的用户进行响应，包括：

针对所述来源用户进行响应。

19.根据权利要求14所述的方法，其特征在于，还包括：

通过麦克风阵列接收到音频消息，所述麦克风阵列包括相对靠近所述感应区域的第三麦克风、相对远离所述感应区域的第四麦克风；

根据所述第三麦克风和所述第四麦克风对所述音频消息中的高频部分的接收情况，确定所述音频消息的来源方向；

当所述来源方向为相对靠近所述感应区域的一侧，且所述感应区域内存在用户时，判定所述音频消息为所述感应区域内的用户发出的用户语音。

20.根据权利要求14所述的方法，其特征在于，还包括：

当所述感应区域内存在多个用户时，分别展示出对应于各个用户的头像图片；

对所述用户语音的来源用户的头像图片与其他用户的头像图片进行区别展示。

21.一种交互装置，其特征在于，包括：

检测单元，检测处于感应区域的用户；

事件获取单元，获取所述感应区域内的用户的关联事件；

提供单元，向所述感应区域内的用户提供交互内容，包括：当所述交互内容与所述关联事件相关时，根据所述关联事件的状态信息，调整向所述感应区域内的用户提供的交互内容，当不存在与交互内容相关的关联事件时，提供默认交互内容；其中，当所述关联事件包括请假审批事件时，根据所述关联事件的状态信息，调整向所述感应区域内的用户提供的交互内容包括：若当前时间段已经到达所述请假审批事件对应的请假时间段，且所述当前时间段为工作时段，则调整向所述感应区域内的用户提供的交互内容为与所述关联事件相匹配的考勤内容；

第一展示单元，当所述交互内容的目标交互对象为所述感应区域内的部分用户时，向所述感应区域内的用户展示所述目标交互对象的信息。

22.根据权利要求21所述的装置，其特征在于，所述第一展示单元具体用于：

向所述感应区域内的用户展示所述身份信息。

23.根据权利要求22所述的装置，其特征在于，

还包括：识别单元，对处于所述感应区域的用户进行身份识别；

24.根据权利要求21所述的装置，其特征在于，

还包括：第二展示单元，展示所述感应区域内的用户对应的用户指代信息；

所述第一展示单元具体用于：确定作为所述目标交互对象的用户对应的用户指代信息，以作为所述目标交互对象的信息；向所述感应区域内的用户突出展示确定的用户指代信息。

25.根据权利要求24所述的装置，其特征在于，所述第二展示单元具体用于：

26.根据权利要求21所述的装置，其特征在于，还包括：

管理单元，当所述交互内容的目标交互对象由所述感应区域内的部分用户变更为所有用户时，暂停向所述感应区域内的用户展示所述目标交互对象的信息。

27.根据权利要求21所述的装置，其特征在于，还包括：

请求获取单元，获取所述感应区域内的用户发出的事件协助请求；

协助单元，响应于所述事件协助请求，以协助完成相应事件。

28.根据权利要求27所述的装置，其特征在于，所述请求获取单元具体用于：

29.根据权利要求27所述的装置，其特征在于，所述请求获取单元具体用于：

30.根据权利要求27所述的装置，其特征在于，所述请求获取单元具体用于：

31.根据权利要求27所述的装置，其特征在于，所述协助单元具体用于：

32.根据权利要求21所述的装置，其特征在于，所述感应区域包括近场感应区域和远场感应区域；所述提供单元具体用于：

向所述近场感应区域内的用户提供交互内容；

33.根据权利要求21所述的装置，其特征在于，

还包括：确定单元，确定所述感应区域内的用户的身份类型；

所述提供单元具体用于：根据所述身份类型，调整向所述感应区域内的用户提供的交互内容。

34.根据权利要求21所述的装置，其特征在于，还包括：

语音接收单元，接收所述感应区域内的用户发出的用户语音；

响应单元，对所述用户语音进行响应。

35.根据权利要求34所述的装置，其特征在于，所述响应单元具体用于：

对所述用户语音进行语义识别；

36.根据权利要求34所述的装置，其特征在于，所述响应单元具体用于：

确定所述用户语音的来源方向；

向位于所述用户语音的来源方向的用户进行响应。

37.根据权利要求36所述的装置，其特征在于，所述响应单元通过下述方式确定所述用户语音的来源方向：

38.根据权利要求36所述的装置，其特征在于，所述响应单元通过下述方式向位于所述用户语音的来源方向的用户进行响应：

针对所述来源用户进行响应。

39.根据权利要求34所述的装置，其特征在于，还包括：

音频接收单元，通过麦克风阵列接收到音频消息，所述麦克风阵列包括相对靠近所述感应区域的第三麦克风、相对远离所述感应区域的第四麦克风；

方向确定单元，根据所述第三麦克风和所述第四麦克风对所述音频消息中的高频部分的接收情况，确定所述音频消息的来源方向；

来源判定单元，当所述来源方向为相对靠近所述感应区域的一侧，且所述感应区域内存在用户时，判定所述音频消息为所述感应区域内的用户发出的用户语音。

40.根据权利要求34所述的装置，其特征在于，还包括：

头像展示单元，当所述感应区域内存在多个用户时，分别展示出对应于各个用户的头像图片；

区别展示单元，对所述用户语音的来源用户的头像图片与其他用户的头像图片进行区别展示。