CN119724179A

CN119724179A - 一种基于多模态数据融合的智能助手交互方法、装置和系统

Info

Publication number: CN119724179A
Application number: CN202411900514.2A
Authority: CN
Inventors: 周小文; 李强; 谈海生; 杜皓华
Original assignee: Deqing Alpha Innovation Research Institute
Current assignee: Deqing Alpha Innovation Research Institute
Priority date: 2024-12-23
Filing date: 2024-12-23
Publication date: 2025-03-28

Abstract

本发明为一种基于多模态数据融合的智能助手交互方法、装置和系统，所述方法包括如下步骤：1)多模态感知：用户发出指令，系统通过多模态感知采集数据；2)多模态融合：系统将采集到的多模态数据进行语义融合，生成任务语义表示；3)任务生成与执行：系统根据任务类型分解子任务并分配至相关设备或服务；4)交互反馈：系统将执行结果通过语音播报或显示屏反馈给用户；5）学习以及优化：通过交互反馈后的优质结论进行保存和学习，通过学习使其获得的指令执行更加精准。本发明结合多模态使得系统支持语音、视觉和文本的多种输入方式，提升用户交互体验。

Description

一种基于多模态数据融合的智能助手交互方法、装置和系统

技术领域

本发明涉及人工智能、人机交互及物联网技术领域，具体为一种基于多模态数据融合的智能助手交互方法、装置和系统。

背景技术

目前随着人工智能的发展，现有技术已经能够在特定场景下通过单模态方式实现智能化。例如：

1.基于语音识别技术的智能家居控制，通过语音命令控制灯光、温度等设备，但缺乏对复杂任务的理解能力；

2.基于视觉分析的安防监控系统，能够检测特定场景或事件，但在多模态信息融合及交互性上仍有不足；

3.当前的任务执行系统通常依赖于预先设定的逻辑，难以根据实时环境和用户意图动态调整任务。

然而，这些技术在实际应用中存在以下问题：

1.缺乏多模态融合能力：当前系统对语音、图像、文本等多模态信息无法进行深度融合，导致理解不够准确。

2.任务处理单一：系统缺乏任务分解与协作能力，难以处理复杂多任务场景。

3.交互不够自然：用户需要以特定的方式与系统交互，无法根据用户的行为和环境状态自适应调整。

为此，设计一种基于多模态数据融合的智能助手交互方法、装置和系统，从而克服上述问题。

发明内容

本发明的目的在于克服现有技术存在的不足，而提供基于多模态数据融合的智能助手交互方法、装置和系统，旨在实现自然语言、视觉、语音和环境数据的综合处理，用于多场景下的任务协作和人机交互。

本发明是通过如下的技术方案予以实现的：一种基于多模态数据融合的智能助手交互方法，所述方法包括如下步骤：

1）多模态感知：用户发出指令，系统通过多模态感知采集数据；

2）多模态融合：系统将采集到的多模态数据进行语义融合，生成任务语义表示；

3）任务生成与执行：系统根据任务类型分解子任务并分配至相关设备或服务；

4）交互反馈：系统将执行结果通过语音播报或显示屏反馈给用户；

5）学习以及优化：通过交互反馈后的优质结论进行保存和学习，通过学习使其获得的指令执行更加精准。

作为优选：所述步骤1）中的用户发出的指令包括语音指令、视觉指令、文本指令、环境感知指令，其中语音指令和视觉制定通过识别，文本指令通过分析，环境感知指令通过环境采集后进行融合。

作为优选：所述步骤3）中任务生成与执行具体分为：

A．将任务同时发送给执行设备和交互反馈；

B．执行设备收到任务后进行解析和任务分解

C.任务设备在分解完成后立马开始任务调度和执行，执行完毕后向执行完毕的信号发送给交互反馈

D．交互反馈在接受任务完毕信息后与预设的任务信息进行核对，如果没有预设则将最新的处理结果直接反馈，如果有预设则开始对比，比对后吻合则反馈吻合，不吻合则反馈问题，有人工设置最终结果，输入后作为预设。

作为优选：所述步骤5）学习和优化具体方法为：将步骤4）中的结果进行保存，如与预设吻合一致的，跳过保存，如果不一致或没有预设的直接将最后的结果进行保存，反复操作学习。

一种基于多模态数据融合的智能助手交互装置，所述该装置包括：

（1）多模态感知模块：语音感知单元采集用户语音输入并转录为文本；视觉感知单元通过摄像头采集环境图像，检测用户手势、表情或物体；文本处理单元分析用户输入的文本指令；环境感知单元采集环境数据。

（2）多模态融合模块：基于深度学习的融合模型对语音、视觉和文本数据进行统一编码；同时结合上下文信息，生成多模态语义表示。

（3）任务处理与执行模块：任务解析单元根据语义表示生成任务计划；然后通过任务分解单元将复杂任务分解为子任务；分解后调用任务调度单元动态调整任务执行顺序；最后通过设备接口单元通过IoT协议控制智能设备。

（4）交互反馈模块：通过语音播报、屏幕显示或移动终端反馈任务执行状态和结果。

（5）学习与优化模块：

动态知识库：存储用户偏好、历史交互记录和环境状态；

强化学习单元：基于反馈优化任务分配策略。

一种基于多模态数据融合的助手交互系统，该系统用于智能设备上，所述系统利用上述的方法或上述的装置，通过感知语音指令、光照指令、文本指令、视觉指令实现设备的开启和关闭。

作为优选：所述智能设备用于智能家居场景、智慧办公场景、医疗辅助场景。

本发明的有益效果如下：

与现有的智能助手相关技术相比，本发明所提供的基于多模态数据融合的智能助手交互系统，其有益效果包括：

1.结合多模态使得系统支持语音、视觉和文本的多种输入方式，提升用户交互体验。

2.通过动态任务分解和调度，优化资源利用率，提高任务执行效率。

3.系统可适配智能家居、办公自动化、医疗辅助等多种场景。

4.通过强化学习和知识库，系统能够根据用户行为和环境变化持续优化性能。

附图说明

图1为本发明的系统框架图。

具体实施方式

为使本领域的普通技术人员更加清楚地理解本发明的目的、技术方案和优点，以下结合附图和实施例对本发明做进一步的阐述。

在本发明的描述中，需要理解的是，“上”、“下”、“左”、“右”、“内”、“外”、“横向”、“竖向”等术语所指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明，而不是指示或暗示所指的装置或原件必须具有特定的方位，因此不能理解为对本发明的限制。

下面将结合附图对本发明作详细的介绍：如图1所示，一种基于多模态数据融合的智能助手交互方法，所述方法包括如下步骤：

所述步骤1）中的用户发出的指令包括语音指令、视觉指令、文本指令、环境感知指令，其中语音指令和视觉制定通过识别，文本指令通过分析，环境感知指令通过环境采集后进行融合。

所述步骤3）中任务生成与执行具体分为：

A．将任务同时发送给执行设备和交互反馈；

B．执行设备收到任务后进行解析和任务分解

所述步骤5）学习和优化具体方法为：将步骤4）中的结果进行保存，如与预设吻合一致的，跳过保存，如果不一致或没有预设的直接将最后的结果进行保存，反复操作学习。

（5）学习与优化模块：

动态知识库：存储用户偏好、历史交互记录和环境状态；

强化学习单元：基于反馈优化任务分配策略。

所述智能设备用于智能家居场景、智慧办公场景、医疗辅助场景。

实施例1

智能家居场景

用户需求：用户发出语音指令“打开灯光，播放音乐，并调低室温”。

系统操作：感知用户语音指令，同时检测客厅的环境光照。将任务分解为“调节灯光”、“启动音响播放音乐”、“启动空调降温”三个子任务。系统通过IoT协议分别控制灯光、音响和空调设备。任务完成后，系统语音反馈“灯光已开启，音乐正在播放，空调已调至22度”。

实例 2：智慧办公场景

用户需求：用户通过文本指令请求“投影会议日程，并发送通知”。

系统操作：文本处理单元解析用户指令，同时通过视觉模块检测投影仪状态。

任务处理模块生成“启动投影仪”、“展示日程表”、“通过邮件发送通知”三个子任务。系统通过API完成日程投影和邮件发送。系统语音反馈“会议日程已投影，通知已发送”。

实例 3：医疗辅助场景

用户需求：医护人员通过手势指令请求患者实时健康数据。

系统操作：视觉模块识别“健康数据”手势并查询患者健康数据库。系统根据查询结果生成实时健康报告，通过显示屏呈现。语音模块反馈“健康数据已更新并展示”。

任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，但凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种基于多模态数据融合的智能助手交互方法，其特征在于，所述方法包括如下步骤：

2.根据权利要求1所述的基于多模态数据融合的智能助手交互方法，其特征在于：所述步骤1）中的用户发出的指令包括语音指令、视觉指令、文本指令、环境感知指令，其中语音指令和视觉制定通过识别，文本指令通过分析，环境感知指令通过环境采集后进行融合。

3.根据权利要求1所述的基于多模态数据融合的智能助手交互方法，其特征在于：所述步骤3）中任务生成与执行具体分为：

A．将任务同时发送给执行设备和交互反馈；

B．执行设备收到任务后进行解析和任务分解

4.根据权利要求1所述的基于多模态数据融合的智能助手交互方法，其特征在于：所述步骤5）学习和优化具体方法为：将步骤4）中的结果进行保存，如与预设吻合一致的，跳过保存，如果不一致或没有预设的直接将最后的结果进行保存，反复操作学习。

5.一种基于多模态数据融合的智能助手交互装置，其特征在于：所述该装置包括：

（1）多模态感知模块：语音感知单元采集用户语音输入并转录为文本；视觉感知单元通过摄像头采集环境图像，检测用户手势、表情或物体；文本处理单元分析用户输入的文本指令；环境感知单元采集环境数据；

（2）多模态融合模块：基于深度学习的融合模型对语音、视觉和文本数据进行统一编码；同时结合上下文信息，生成多模态语义表示；

（3）任务处理与执行模块：任务解析单元根据语义表示生成任务计划；然后通过任务分解单元将复杂任务分解为子任务；分解后调用任务调度单元动态调整任务执行顺序；最后通过设备接口单元通过IoT协议控制智能设备；

（4）交互反馈模块：通过语音播报、屏幕显示或移动终端反馈任务执行状态和结果；

（5）学习与优化模块：

动态知识库：存储用户偏好、历史交互记录和环境状态；

强化学习单元：基于反馈优化任务分配策略。

6.一种基于多模态数据融合的助手交互系统，该系统用于智能设备上，其特征在于：所述系统利用权利要求1-4任意一项的方法或权利要求5所述的装置，通过感知语音指令、光照指令、文本指令、视觉指令实现设备的开启和关闭。

7.根据权利要求6所述的基于多模态数据融合的助手交互系统，其特征在于：所述智能设备用于智能家居场景、智慧办公场景、医疗辅助场景。