CN118927246A

CN118927246A - 机器人控制系统、方法及存储介质、控制器、机器人

Info

Publication number: CN118927246A
Application number: CN202411034740.7A
Authority: CN
Inventors: 程冉; 刘力格; 朱骞
Original assignee: Midea Robozone Technology Co Ltd
Current assignee: Midea Robozone Technology Co Ltd
Priority date: 2024-07-30
Filing date: 2024-07-30
Publication date: 2024-11-12

Abstract

本发明公开了一种机器人控制系统、方法及存储介质、控制器、机器人，涉及机器人技术领域。方法包括：感知机器人周围的环境信息，得到多模态感知信息；将多模态感知信息映射到预设语义空间，得到语义场景描述；根据语义场景描述生成全局策略，并根据全局策略和语义场景描述生成控制指令；根据控制指令对机器人进行控制，以完成待执行任务。

Description

机器人控制系统、方法及存储介质、控制器、机器人

技术领域

本发明涉及机器人技术领域，尤其涉及一种机器人控制系统、方法及存储介质、控制器、机器人。

背景技术

相关技术中,室内服务机器人在实现家居服务时，通常采用预定义的任务流程和固化的控制策略,根据预设的流程和控制策略实现家居服务。室内服务机器人虽然可以进行人机交互，但采用的人机交互方式为键盘输入或简单的语音命令,无法充分理解和捕捉用户的真实需求和偏好,导致服务质量难以满足用户期望。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本发明的第一个目的在于提出一种机器人控制方法，以提高服务质量。

本发明的第二个目的在于提出一种机器人控制系统。

本发明的第三个目的在于提出一种存储介质。

本发明的第四个目的在于提出一种控制器。

本发明的第五个目的在于提出一种机器人。

为达到上述目的，本发明第一方面实施例提出了一种机器人控制方法，包括：感知所述机器人周围的环境信息，得到多模态感知信息；将所述多模态感知信息映射到预设语义空间，得到语义场景描述；根据所述语义场景描述生成全局策略，并根据所述全局策略和所述语义场景描述生成控制指令；根据所述控制指令对所述机器人进行控制，以完成待执行任务。

另外，根据本发明实施例的机器人控制方法，还可具有如下附加的技术特征：

在本发明的一个实施例中，所述方法还包括：当所述机器人完成所述任务时，将任务执行结果通过预设交互界面进行展示，并在通过所述预设交互界面接收到针对所述任务执行结果的人机交互指令时，根据所述人机交互指令生成任务改进策略，并本地存储所述任务改进策略。

在本发明的一个实施例中，所述环境信息包括视觉环境信息、语音环境信息和触觉环境信息，所述多模态感知信息的获取方法，还包括：感知所述机器人周围的所述环境信息和第一用户指令，根据所述环境信息和所述第一用户指令得到所述多模态感知信息；所述将所述多模态感知信息映射到预设语义空间，得到语义场景描述，包括：对所述视觉环境数据、所述语音环境数据、所述触觉环境数据和所述第一用户指令进行特征提取，得到所述视觉环境数据的空间特征、所述语音环境数据的第一语义特征、所述触觉环境数据的状态与变化特征和所述第一用户指令的第二语义特征；将所述空间特征、所述第一语义特征、所述状态与变化特征和所述第二语义特征进行时间与空间对齐，并得到对齐后的所述空间特征、所述第一语义特征、所述状态与变化特征、所述第二语义特征之间的相关性权重；根据所述相关性权重对对齐后的所述空间特征、所述第一语义特征、所述状态与变化特征和所述第二语义特征进行融合，并将融合后的所述空间特征、所述第一语义特征、所述状态与变化特征和所述第二语义特征转换为语义向量，以及将转换得到的语义向量映射到预设语义空间；对映射到所述预设语义空间的语义向量进行抽象和结构化表示，得到所述语义场景描述。

在本发明的一个实施例中，所述根据所述第一用户指令生成全局策略，包括：根据第一全局策略网络和所述第一用户指令生成所述全局策略，其中，所述第一全局策略网络为根据奖励函数对预设初始策略网络进行训练得到的网络，所述奖励函数为根据所述语义场景描述、所述任务改进策略和预设服务策略构建的函数。

在本发明的一个实施例中，所述方法还包括：当所述机器人的模式为克隆模式时，根据克隆语义场景描述训练得到第二全局策略网络，其中，所述克隆语义场景描述为所述机器人处于所述克隆模式时，根据接收到的第二用户指令生成的语义场景描述；当所述机器人不处于所述克隆模式，且接收到所述第二用户指令时，根据所述第二全局策略网络生成控制指令。

在本发明的一个实施例中，所述方法还包括：对本地存储的知识进行演化，并将演化结果进行本地存储。

本发明第二方面实施例提出了一种机器人控制系统，所述系统包括：感知装置，用于实时感知所述机器人周围的环境信息，得到多模态感知信息；语义理解装置，与所述感知装置连接，用于将所述多模态感知信息映射到预设语义空间，得到语义场景描述；策略学习装置，与所述语义理解装置连接，用于根据所述语义场景描述生成全局策略，并根据所述全局策略和所述语义场景描述生成控制指令；规划执行装置，与所述策略学习装置连接，用于根据所述控制指令对所述机器人进行控制，以完成待执行任务。

另外，根据本发明实施例的机器人控制系统，还可具有如下附加的技术特征：

在本发明的一个实施例中，所述系统还包括：人机交互装置，包括交互界面，用于在所述机器人完成所述任务后，将任务执行结果通过所述交互界面展示，并在通过所述交互界面接收到针对所述任务执行结果的人机交互指令时，根据所述人机交互指令生成任务改进策略；知识存储装置，与所述人机交互装置连接，用于本地存储所述任务改进策略。

在本发明的一个实施例中，所述感知装置，包括视觉传感器、语音传感器和触觉传感器，所述环境信息包括视觉环境信息、语音环境信息和触觉环境信息，所述感知装置还用于实时感知所述机器人周围的第一用户指令，所述语义理解装置，包括：特征提取模块，与所述感知装置连接，用于对所述视觉环境数据、所述语音环境数据、所述触觉环境数据和所述第一用户指令进行特征提取，得到所述视觉环境数据的空间特征、所述语音环境数据的第一语义特征、所述触觉环境数据的状态与变化特征和所述第一用户指令的第二语义特征；对齐模块，与所述特征提取模块连接，用于将所述空间特征、所述第一语义特征、所述状态与变化特征和所述第二语义特征进行时间与空间对齐；权重计算模块，与所述对齐模块连接，用于计算对齐后的所述空间特征、所述第一语义特征、所述状态与变化特征、所述第二语义特征之间的相关性权重；融合模块，与所述权重计算模块连接，用于根据所述相关性权重对对齐后的所述空间特征、所述第一语义特征、所述状态与变化特征和所述第二语义特征进行融合；映射模块，与所述融合模块连接，用于将融合后的所述空间特征、所述第一语义特征、所述状态与变化特征和所述第二语义特征转换为语义向量，并将转换得到的语义向量映射到预设语义空间；抽象和结构化模块，与所述映射模块连接，用于对映射到所述预设语义空间的语义向量进行抽象和结构化表示，得到所述语义场景描述。

在本发明的一个实施例中，所述策略学习装置包括用于根据所述第一用户指令生成全局策略的全局策略优化层，所述全局策略优化层，包括：奖励函数构建模块，与所述知识存储装置和所述语义理解装置连接，用于根据所述语义场景描述、所述任务改进策略和预设服务策略构建奖励函数；第一全局策略网络训练模块，与所述奖励函数构建模块连接，用于根据所述奖励函数对预设初始策略网络训练，得到第一全局策略网络；策略生成模块，与所述第一全局策略网络训练模块连接，用于根据所述第一全局策略网络和所述第一用户指令生成所述全局策略。

在本发明的一个实施例中，所述策略学习装置还包括用于根据所述全局策略和语义场景描述生成控制指令的本地策略执行层，所述本地策略执行层采用基于自注意力机制的策略网络。

在本发明的一个实施例中，所述系统还包括：模式切换装置，所述模式切换装置包括模式切换开关，用于在所述模式切换开关被打开时将所述机器人的模式切换为克隆模式；所述策略学习装置与所述模式切换装置连接，所述策略学习装置，还用于：在所述模式切换装置将所述机器人的模式切换为克隆模式时，根据克隆语义场景描述训练得到第二全局策略网络，其中，所述克隆语义场景描述为所述机器人处于所述克隆模式时，所述语义理解装置根据所述感知装置接收到的第二用户指令生成的语义场景描述；所述策略学习装置还用于：在所述机器人不处于所述克隆模式，且所述感知装置接收到所述第二用户指令时，根据所述第二全局策略网络生成控制指令。

在本发明的一个实施例中，所述系统还包括：知识演化管理装置，与所述知识存储装置连接，用于获取所述知识存储装置中存储的本地知识，并对所述本地知识进行演化，以及将演化结果存储至所述知识存储装置。

在本发明的一个实施例中，所述系统还包括：知识检索推理装置，与所述知识存储装置和所述策略学习装置连接，用于在获取到所述策略学习装置的知识需求后，根据所述知识需求对所述知识存储装置中存储的本地知识进行检索和推理，将检索和推理结果发送至所述策略学习装置。

本发明第三方面实施例提出了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现上述的机器人控制方法。

本发明第四方面实施例提出了一种控制器，包括存储器、处理器和存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被所述处理器执行时，实现上述的机器人控制方法。

本发明第五方面实施例提出了一种机器人，包括上述的机器人控制系统。

根据本发明实施例的机器人控制系统、方法及存储介质、控制器、机器人，方法包括：感知机器人周围的环境信息，得到多模态感知信息；将多模态感知信息映射到预设语义空间，得到语义场景描述；根据语义场景描述生成全局策略，并根据全局策略和语义场景描述生成控制指令；根据控制指令对机器人进行控制，以完成待执行任务。由此，设置语义理解装置将多模态感知信息映射到预设语义空间，使得机器人控制系统能够形成对环境的整体认知，提高安装该机器人控制系统的机器人的服务质量。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

图1是本发明实施例的机器人控制方法的流程图；

图2是本发明一个示例的机器人控制系统的工作示意图；

图3是本发明一个示例的感知装置的工作示意图；

图4是本发明一个示例的策略学习装置的工作示意图；

图5是本发明另一个示例的机器人控制系统的工作示意图；

图6是本发明实施例的机器人控制系统的结构框图；

图7是本发明一个具体实施例的机器人控制系统的结构框图；

图8是本发明实施例的控制器的结构框图；

图9是本发明实施例的机器人的结构框图。

具体实施方式

下面参考附图描述本发明实施例的机器人控制系统、方法及存储介质、控制器、机器人，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。参考附图描述的实施例是示例性的，不能理解为对本发明的限制。

图1是本发明实施例的机器人控制方法的流程图。

如图1所示，机器人控制方法，包括：

S11，感知机器人周围的环境信息，得到多模态感知信息。

S12，将多模态感知信息映射到预设语义空间，得到语义场景描述。

S13，根据语义场景描述生成全局策略，并根据全局策略和语义场景描述生成控制指令。

S14，根据控制指令对机器人进行控制，以完成待执行任务。

在本发明的一些实施例中，机器人控制方法还包括：当机器人完成任务时，将任务执行结果通过预设交互界面进行展示，并在通过预设交互界面接收到针对任务执行结果的人机交互指令时，根据人机交互指令生成任务改进策略，并本地存储任务改进策略。

在本发明的一些实施例中，环境信息包括视觉环境信息、语音环境信息和触觉环境信息，用户信息包括第一用户指令，多模态感知信息的获取方法，还包括：感知机器人周围的环境信息和第一用户指令，根据环境信息和第一用户指令得到多模态感知信息；将多模态感知信息映射到预设语义空间，得到语义场景描述，包括：对视觉环境数据、语音环境数据、触觉环境数据和第一用户指令进行特征提取，得到视觉环境数据的空间特征、语音环境数据的第一语义特征、触觉环境数据的状态与变化特征和第一用户指令的第二语义特征；将空间特征、第一语义特征、状态与变化特征和第二语义特征进行时间与空间对齐，并得到对齐后的空间特征、第一语义特征、状态与变化特征、第二语义特征之间的相关性权重；根据相关性权重对对齐后的空间特征、第一语义特征、状态与变化特征和第二语义特征进行融合，并将融合后的空间特征、第一语义特征、状态与变化特征和第二语义特征转换为语义向量，以及将转换得到的语义向量映射到预设语义空间；对映射到预设语义空间的语义向量进行抽象和结构化表示，得到语义场景描述。

在本发明的一些实施例中，根据第一用户指令生成全局策略，包括：根据第一全局策略网络和第一用户指令生成全局策略，其中，第一全局策略网络为根据奖励函数对预设初始策略网络进行训练得到的网络，奖励函数为根据语义场景描述、任务改进策略和预设服务策略构建的函数。

在本发明的一些实施例中，机器人控制方法还包括：当机器人的模式为克隆模式时，根据克隆语义场景描述训练得到第二全局策略网络，其中，克隆语义场景描述为机器人处于克隆模式时，根据接收到的第二用户指令生成的语义场景描述；当机器人不处于克隆模式，且接收到第二用户指令时，根据第二全局策略网络生成控制指令。

在本发明的一些实施例中，机器人控制方法还包括：对本地存储的知识进行演化，并将演化结果进行本地存储。

下面结合图2～图5所示的系统对上述机器人控制方法进行说明。需要说明的是，图2～图5所示的系统仅仅为一个具体的示例，在实际应用中可不局限于此。

如图2所示，该示例中的系统，包括：感知装置200，用于实时感知机器人周围的环境信息，得到多模态感知信息；语义理解装置300，与感知装置200连接，用于将多模态感知信息映射到预设语义空间，得到连续的语义场景描述；策略学习装置400，与语义理解装置300连接，用于根据语义场景描述生成全局策略，并根据全局策略和语义场景描述生成控制指令；规划执行装置500，与策略学习装置400连接，用于根据控制指令对机器人进行控制，以完成待执行任务。

具体地，设置机器人控制系统100包括感知装置200、语义理解装置300、策略学习装置400和规划执行装置500。其中，感知装置200的主要作用是通过各种传感器收集环境信息，包括使用视觉传感器(如摄像头和深度相机)来捕捉环境的视觉信息、语音传感器(如麦克风阵列)来捕捉声音信息、触觉传感器(如压力感应器和触摸传感器)来感知触觉信息等。感知装置200负责原始数据的采集和初步处理，例如滤波、去噪、初步特征提取等，以确保传递给系统的数据是准确和可用的。感知装置200中的各传感器可以分布在机器人的不同部位,如头部、四肢、躯干等,通过实时采集多模态感知信息,实现对环境和用户行为的全面感知。

通过设置多种传感器，感知装置200可以对机器人周围的环境信息进行感知。

而且，感知装置200可以进行连续感知，得到连续的多模态感知信息。该连续的多模态感知信息为在时间尺度上连续的信息，也就是说，感知装置200需要在时间尺度上不断地进行感知，并根据感知得到的信息生成多模态感知信息，从而实现根据连续的环境信息对机器人进行控制，实现对机器人的精确控制。

在感知到多模态感知信息后，感知装置200需将多模态感知信息发送至语义理解装置300，语义理解装置300将多模态感知信息映射到预设语义空间，得到连续的语义场景。

语义理解装置300在得到语义场景描述后，将语义场景描述发送至策略学习装置400，策略学习装置400首先根据语义场景描述生成全局策略，再根据全局策略和语义场景描述生成控制指令，从而规划执行装置500可以根据该控制指令对机器人进行控制。

规划执行装置500负责将策略学习装置400输出的控制指令转化为可执行的机器人控制指令。首先,通过任务规划算法将控制指令分解为一系列子任务和行动序列。然后,利用运动规划算法和轨迹优化技术,根据机器人的运动学和动力学约束,生成平滑、高效、无碰撞的运动轨迹。最后,通过机器人底层控制器执行生成的运动指令,实现对机器人关节和执行器的精确控制。该装置还包括异常处理和安全保护机制,通过实时监测和风险评估,确保机器人在执行任务过程中的安全性和鲁棒性。

上述任务规划算法可以采用STRIPS(Stanford Research Institute ProblemSolver，斯坦福研究院问题求解器)、PDDL(Planning Domain Definition Language，规划域定义语言)等，上述运动规划算法可以采用RRT(Rapidly-exploring Random Tree，快速扩展随机树)、PRM(Probabilistic Roadmap Method，概率路线图方法)等，上述机器人底层控制器可以采用PID(Proportional-Integral-Derivative Controller，比例-积分-微分控制器)、MPC(Model Predictive Control，模型预测控制)等。

而且，上述待执行任务可以为根据环境信息、多模态感知信息等信息确定的任务。

由此，设置语义理解装置300将包含用户信息的多模态感知信息映射到预设语义空间，使得机器人控制系统100能够形成对环境的整体认知，从而提高安装机器人控制系统100的机器人的服务质量。

该示例中的系统还可以包括：人机交互装置，包括交互界面，用于在机器人完成任务后，将任务执行结果通过交互界面展示，并在通过交互界面接收到针对任务执行结果的人机交互指令时，根据人机交互指令生成任务改进策略；知识存储装置，与人机交互装置连接，用于本地存储任务改进策略。

具体地，在机器人控制系统100中，还设置人机交互装置，人机交互装置包括交互界面，用于在机器人完成任务后，通过交互界面对任务执行结果进行展示。

在交互界面展示任务执行结果后，用户可以查看任务执行结果，并基于任务执行结果，通过交互界面与人机交互装置进行人机交互，使得人机交互装置获得人机交互指令。由于用户直接下达的指令通常是准确的，因而在接收到人机交互指令后，可以根据人机交互指令生成任务改进策略，进而本地存储任务改进策略，在下次生成控制指令时，可以根据该任务改进策略生成。

上述人机交互装置可提供多种交互方式,如语音识别与合成、手势识别、情感识别等,使用户能够便捷地与机器人进行信息交换和任务协同。还可设置大语言模型,使得人机交互装置可以基于大语言模型准确理解用户的自然语言指令和反馈,并通过多轮对话生成结构化的任务描述和偏好约束。同时,该人机交互装置还具备策略解释和可视化功能,通过自然语言生成技术和图形化界面,向用户展示机器人的决策过程和行为逻辑,提高系统的透明度和可解释性。用户还可以通过自然语言或示教等方式,对全局策略给出针对性的反馈和指导,实现人机协同优化。

上述知识存储装置为了实现知识存储，可以采用基于图谱的知识表示、语义化存储、版本控制，从而实现对包括任务改进策略在内的各种知识进行存储。其中，基于图谱的知识表示，是指利用知识图谱技术，将环境信息、用户偏好、全局策略、行为轨迹等数据进行结构化组织，形成一个相互关联的知识网络。语义化存储，是指通过语义标签和元数据，将知识按语义关联存储，使其可以通过语义检索轻松获取。版本控制，是指对历史数据的版本进行管理，确保知识的完整性和追溯性。

在知识存储装置存储了知识后，还可将其内存储的知识提供给其他装置，比如说，可以根据知识存储装置存储的知识训练得到一个大语言模型，将该大语言模型提供给各装置，再比如说，需要从知识存储装置中获取知识的装置可以直接向知识存储装置提出知识获取申请，以获取知识。

对于上述人机交互装置，其可从语义理解装置300、策略学习装置400、规划执行装置500中获取任务执行结果。

参见图3，人机交互装置600通过语义理解装置300获取上述任务执行结果，知识存储装置700中存储的知识可以直接提供给策略学习装置400。

由此，可以实现根据用户下达的人机交互指令更改生成控制指令的方式，从而进一步提高理解和捕捉用户的真实需求和偏好的能力，提高服务质量。

知识存储装置700不但需要存储用户通过人机交互装置600生成的任务改进策略，还需要存储感知装置200捕获到的环境状态反馈，但是，由于感知装置200中的传感器存在噪声，理解也可能存在偏差，所以需要将环境状态反馈提交给策略学习装置400，驱动机器人对该环境状态反馈进行多次验证，根据验证通过的环境状态反馈生成知识存储装置700存储的知识。

具体地，在将环境状态反馈提交给策略学习装置400后，环境状态反馈会作为临时记忆存放在策略学习装置400的缓存系统中，待机器人在执行类似活动或者进入类似场景的时候进行对比校验，通过对比结果判断是否根据该环境状态反馈生成知识存储装置700存储的知识，若是，则策略学习装置400可根据该知识更新第一全局策略网络。

可以设置感知装置200，包括视觉传感器、语音传感器和触觉传感器，环境信息包括视觉环境信息、语音环境信息和触觉环境信息，感知装置200还用于实时感知机器人周围的第一用户指令，语义理解装置300，包括：特征提取模块，与感知装置200连接，用于对视觉环境数据、语音环境数据、触觉环境数据和第一用户指令进行特征提取，得到视觉环境数据的空间特征、语音环境数据的第一语义特征、触觉环境数据的状态与变化特征和第一用户指令的第二语义特征；对齐模块，与特征提取模块连接，用于将空间特征、第一语义特征、状态与变化特征和第二语义特征进行时间与空间对齐；权重计算模块，与对齐模块连接，用于计算对齐后的空间特征、第一语义特征、状态与变化特征、第二语义特征之间的相关性权重；融合模块，与权重计算模块连接，用于根据相关性权重对对齐后的空间特征、第一语义特征、状态与变化特征和第二语义特征进行融合；映射模块，与融合模块连接，用于将融合后的空间特征、第一语义特征、状态与变化特征和第二语义特征转换为语义向量，并将转换得到的语义向量映射到预设语义空间；抽象和结构化模块，与映射模块连接，用于对映射到预设语义空间的语义向量进行抽象和结构化表示，得到语义场景描述。

具体地，为了实现将连续的多模态感知信息映射到与预设语义空间，设置语义理解装置300对多模态感知信息进行特征提取、对齐、信息融合、统一语义空间映射。由此，将不同模态的感知信息映射到一个统一的语义空间,实现多模态感知信息的协同表示，实现对环境状态、用户意图、任务约束的表示。然后,利用大语言模型的语义理解和逻辑推理能力,对环境状态、用户意图、任务约束等进行抽象和结构化表示,形成层次化的语义场景描述。

其中，上述特征提取，是指针对来自不同传感器的数据，使用适合各自类型的数据处理方法提取特征，例如，对于视觉数据，可以使用卷积神经网络提取图像或视频中的空间特征，对于语音数据，可以使用循环神经网络或预训练的语言模型提取语音或文本的语义特征，对于触觉数据，可以通过统计特征或深度学习模型提取触觉数据的状态和变化特征。

上述对齐，是指为确保多模态感知信息在语义空间内可以协同表示，首先要对特征提取得到的数据进行对齐和转换。比如说，若进行时间对齐，则需同步不同传感器的数据时间戳，确保各模态数据在时间线上匹配一致；若进行空间对齐，则需将各模态的数据转换到统一的参考坐标系中，以确保不同数据都能指向相同的目标。

上述信息融合可以采用注意力机制执行，使用注意力机制(如多头自注意力机制)在对齐与转换后的不同模态数据之间进行信息融合。该机制可以帮助模型关注最相关的部分，通过计算各模态数据之间的相关性权重，决定在不同数据源之间该关注哪部分，以及将相关性权重作为加权系数，将多模态信息进行融合。

上述统一语义空间映射，是指将上述信息融合后的多模态感知信息映射到一个统一的语义空间(即上述预设语义空间)。具体而言，首先使用深度神经网络或预训练的大模型，将各模态特征表示转换为高维的语义向量，其次通过学习共享的语义表示层，使得所有模态数据都可以在这个空间中以统一的形式进行表示和分析。

为了实现上述功能，设置语义理解装置300包括特征提取模块、对齐模块、权重计算模块、融合模块、映射模块、抽象和结构化模块。

其中，特征提取模块用于实现上述特征提取，对齐模块用于实现上述对齐，权重计算模块和融合模块用于实现上述信息融合，映射模块用于实现上述统一语义空间映射。

需要说明的是，语义理解装置300只需要感知装置200向其提供多模态感知信息，即可将其映射到预设语义空间，并不要求改多模态感知信息必须包含用户信息，比如说，若语义理解装置300仅接收到视觉环境信息、语音环境信息和触觉环境信息，则语义理解装置300中的特征提取模块、对齐模块、权重计算模块、融合模块、映射模块、抽象和结构化模块仍然按照上述步骤工作，区别仅在于不需要执行上述对第一用户指令进行处理的步骤，比如说，特征提取模块仅需对视觉环境信息、语音环境信息和触觉环境信息进行特征提取，进而对齐模块对该特征提取结果进行对齐，权重计算模块对该对齐结果进行权重计算。

通过上述分析可知，通过设置多种传感器，感知装置200可以对机器人周围的信息进行感知，且该感知的信息可以为环境信息，也可为环境信息和用户信息，该用户信息包括上述第一用户指令。比如说，假设用户通过移动机器人上的部件(如机械臂等)，则感知装置200上的触觉传感器可以感知到该用户信息；假设用户向机器人发出语音，则感知装置200上的语音传感器可以感知到该用户信息；假设机器人在移动过程中撞击了障碍物，则感知装置200上的触觉传感器可以感知到该环境信息。

可见，感知装置200可以进行连续感知，得到连续的多模态感知信息，明显的，感知装置200感知到的连续的多模态感知信息包括包含第一用户指令的多模态感知信息和不包含第一用户指令的多模态感知信息，即，感知装置200不断感知机器人周围的信息，正常情况下，感知到的多模态感知信息不包含用户信息，若某一时刻，用户向机器人下达了指令，则感知装置200感知到的多模态感知信息包括环境信息和用户信息。

在感知到多模态感知信息后，感知装置200需将多模态感知信息发送至语义理解装置300，语义理解装置300将多模态感知信息映射到预设语义空间，得到连续的语义场景。也就是说，只要是感知装置200发送的多模态感知信息，无论其中是否包含用户信息，语义理解装置300均需要将其映射到预设语义空间，实现在同一个语义空间内处理环境信息和用户信息。由此，通过将用户指令与环境信息映射到同一个语义空间，可以使得机器人控制系统100能够形成对环境的整体认知，并更容易地将用户指令与环境联系起来，从而提高机器人控制系统100对用户指令的理解能力，充分理解和捕捉用户的真实需求和偏好，提高服务质量。

语义理解装置300在得到语义场景描述后，将语义场景描述发送至策略学习装置400，策略学习装置400首先根据第一用户指令生成全局策略，再根据全局策略和语义场景描述生成控制指令，从而规划执行装置500可以根据该控制指令对机器人进行控制。

由此，设置语义理解装置300将包含用户信息的多模态感知信息映射到预设语义空间，使得机器人控制系统100能够形成对环境的整体认知，并更容易地将用户指令与环境联系起来，从而提高机器人控制系统100对用户指令的理解能力，充分理解和捕捉用户的真实需求和偏好，提高服务质量。

当环境信息包括视觉环境信息、语音环境信息和触觉环境信息，且未感知到第一用户指令时，特征提取模块，用于对视觉环境数据、语音环境数据、触觉环境数据进行特征提取，得到视觉环境数据的空间特征、语音环境数据的第一语义特征、触觉环境数据的状态与变化特征；对齐模块，与特征提取模块连接，用于将空间特征、第一语义特征、状态与变化特征进行时间与空间对齐；权重计算模块，与对齐模块连接，用于计算对齐后的空间特征、第一语义特征、状态与变化特征之间的相关性权重；融合模块，与权重计算模块连接，用于根据相关性权重对对齐后的空间特征、第一语义特征、状态与变化特征进行融合；映射模块，与融合模块连接，用于将融合后的空间特征、第一语义特征、状态与变化特征转换为语义向量，并将转换得到的语义向量映射到预设语义空间；抽象和结构化模块，与映射模块连接，用于对映射到预设语义空间的语义向量进行抽象和结构化表示，得到语义场景描述。

而且，还可以设置上述根据环境信息和第一用户指令生成全局策略，根据全局策略和语义场景描述生成控制指令，以根据控制指令对机器人进行连续控制，以完成待执行任务，包括：

根据环境信息和第一用户指令得到多模态感知信息，将多模态感知信息映射到预设语义空间，得到语义场景描述，根据语义场景描述中的用户指令部分生成全局策略，并根据全局策略和语义场景描述中除用户指令外其他部分生成控制指令，从而根据控制指令对机器人进行连续控制，完成待执行任务。

此时，该待执行任务为第一用户指令对应的任务。

根据环境信息生成全局策略，根据全局策略和语义场景描述生成控制指令，以根据控制指令对机器人进行连续控制，以完成待执行任务，包括：

根据环境信息得到多模态感知信息，将多模态感知信息映射到预设语义空间，得到语义场景描述，根据语义场景描述中生成全局策略，并根据全局策略和语义场景描述生成控制指令，从而根据控制指令对机器人进行连续控制，完成待执行任务。

此时，该待执行任务为历史中用户在与当前的环境信息类似的环境信息下下达的用户指令对应的任务。也就是说，当用户在某一环境信息下向机器人下达用户指令时，机器人会保存该环境信息与用户指令的对应关系，当机器人当前所处的环境信息与历史上的某一个历史环境信息相似度超过预设阈值时，机器人会根据保存的对应关系，得到与该历史环境信息对应的历史上的用户指令，并根据该历史上的用户指令确定当前的待执行任务。

而且，上述待执行任务，可以根据实际情况，由语义理解装置300、策略学习装置400、知识存储装置700或其他可能的装置确定。

还可设置策略学习装置400包括用于根据第一用户指令生成全局策略的全局策略优化层，全局策略优化层，包括：奖励函数构建模块，与知识存储装置700和语义理解装置300连接，用于根据语义场景描述、任务改进策略和预设服务策略构建奖励函数；第一全局策略网络训练模块，与奖励函数构建模块连接，用于根据奖励函数对预设初始策略网络训练，得到第一全局策略网络；策略生成模块，与第一全局策略网络训练模块连接，用于根据第一全局策略网络和第一用户指令生成全局策略。

具体地，在全局策略优化层中，将语义理解装置300输出的语义场景描述与用户定义的策略规则(即上述预设服务策略)和知识存储装置700中的任务改进策略相结合，构建语义驱动的奖励函数，随后根据奖励函数，利用深度强化学习算法对预设初始策略网络进行优化训练，生成高层次的任务分解和资源分配策略(即上述全局策略)。

对于上述奖励函数，用户可自定义某些高优先级的策略规则，将其作为预设服务策略，比如优先清理客厅或优先陪护老人，设定不同任务的优先级或目标要求，进而在接收到上述语义理解装置300输出的语义场景描述后，根据语义场景描述得到语义场景描述，进而将语义场景描述、预设服务策略和上述任务改进策略相结合，生成奖励函数。奖励函数的构建包括：基于语义理解装置300提供的数据，设计具体的目标和约束，为不同子任务分配不同的奖励权重，确保全局目标达成。

对于上述第一全局策略网络，可以设置在全局策略优化层使用深度强化学习算法，如近端策略优化算法、柔性动作-评论家算法等。进一步地，利用预设初始策略网络，结合奖励函数开始训练，通过模拟环境中任务的执行，策略网络不断迭代，优化策略。经过多次训练迭代后，第一全局策略网络能够生成高层次的任务分解和资源分配策略，根据第一全局策略网络的输出，将复杂任务分解为多个子任务并确定它们的执行顺序和逻辑关系。上述预设初始策略网络可以为随机初始化的策略网络。

下面结合一个具体示例进行说明。

具体地，假设机器人负责在家中执行清洁和照顾宠物两个主要任务，语义理解装置300提供的语义场景描述包括家中各区域的清洁状况、宠物的位置与行为、用户设定的清洁优先级和时间表等信息。用户定义的策略规则是：宠物活动区域优先清理，其次是厨房，再次是客厅。早上时间段应该多陪宠物，下午进行清洁。奖励函数：在早晨的清洁任务中，完成宠物活动区域的清洁得到高奖励，而清理客厅的奖励较低。对于陪护宠物的任务，陪伴时长越长，奖励越高。

训练和策略生成：第一全局策略网络逐渐学会将早上资源重点分配给宠物的陪伴活动，同时在宠物活动区域保持适度清洁。清洁时间段则重点对厨房和客厅进行清洁，将宠物活动区域放在首位。最终，全局策略优化层确保机器人在执行时可以根据用户需求、环境和任务状态分配资源，并调整任务执行顺序，实现任务分解和优化。

由此，通过结合知识存储装置700中存储的任务改进策略构建奖励函数，从而根据奖励函数训练得到第一全局策略网络，可以实现根据环境变化和任务要求调整其行为策略，提高决策的效率和效果，确保任务按照最优路径完成，利用以往的成功策略和错误避免重复，持续优化执行策略。

还可设置策略学习装置400包括用于根据全局策略和语义场景描述生成控制指令的本地策略执行层，本地策略执行层采用基于自注意力机制的策略网络。

具体地，策略学习装置400采用层次化的深度强化学习框架,包括全局策略优化层和本地策略执行层。本地策略执行层用于根据全局策略优化层输出的全局策略生成控制指令，在本地策略执行层,采用基于自注意力机制的策略网络,结合全局策略和语义场景描述,输出连续的动作控制指令,实现具体任务的实时规划与执行。

需要说明的是，通过将策略学习装置400被分为全局策略优化层和本地策略执行层两层结构，可以实现如下有益效果：

第一，更好的任务分解与协调。具体而言，全局策略优化层：负责将复杂任务分解为可执行的子任务，并分配相应的资源。这一层主要处理高层次的规划、资源调配、任务优先级排序等宏观问题。本地策略执行层：专注于具体子任务的执行，根据全局策略的指令进行实时的决策与控制，确保高效完成任务。

下面结合一个具体示例进行说明。

具体地，在清洁机器人执行清理房间的任务中，全局策略优化层负责将任务分为“扫地”、“拖地”、“擦桌子”等具体子任务，并规划各子任务的执行顺序和优先级。同时，本地策略执行层负责执行这些任务，例如操控扫地刷、吸尘器、拖把等具体工具，根据房间的布局和实时情况进行清洁路径规划，确保在最短时间内清理整个房间。

第二，更好的策略适应性与灵活性。具体而言，全局策略优化层：根据用户偏好、环境状态和长期目标调整全局策略的规则和任务规划。它能适应环境的变化，对整个任务保持全局掌控。本地策略执行层：应对局部环境中的实时变化，如障碍物、动态物体等，确保子任务顺利进行。

下面结合一个具体示例进行说明。

在照顾宠物的任务中，全局策略优化层负责规划一整天的饮食、运动和清洁计划。它根据宠物的习惯调整饮食和锻炼时间。本地策略执行层在执行这些计划时，灵活应对宠物的突然行为，如宠物突然离开食物盆或与玩具互动，将任务适时调整。

第三，更好的学习与泛化能力。具体地，全局策略优化层：使用深度强化学习方法，通过语义驱动的奖励函数，进行策略学习。通过人类示范数据，增强泛化能力。

下面结合一个具体示例进行说明。

在一个复杂的室内导航任务中，全局策略优化层通过强化学习掌握不同区域的导航策略，例如在不同房间之间找到最优路径，或者判断哪些房间需要优先清理。而本地策略执行层则负责在各个房间内执行实际的导航、避障和清理任务，在执行中适应环境，避免障碍并找到目标位置。

可选的，上述系统还包括：模式切换装置，模式切换装置包括模式切换开关，用于在模式切换开关被打开时将机器人的模式切换为克隆模式；策略学习装置400与模式切换装置连接，策略学习装置400，还用于：在模式切换装置将机器人的模式切换为克隆模式时，根据克隆语义场景描述训练得到第二全局策略网络，其中，克隆语义场景描述为机器人处于克隆模式时，语义理解装置300感知装置200接收到的第二用户指令生成的语义场景描述；策略学习装置400还用于：在机器人不处于克隆模式，且感知装置200接收到第二用户指令时，根据第二全局策略网络生成控制指令。

具体地，策略学习装置400还引入模式切换功能，该模式切换功能是否开启由机器人控制系统100中的模式切换开关决定，在模式切换开关开启时，机器人进入克隆模式。

在机器人处于克隆模式时，用户向机器人下达指令，并操控机器人完成任务(如用户手动移动机器人上的机械臂等部位)，策略学习装置400中的本地策略执行层根据接收到的第二用户指令，并根据用户对机器人的操控情况，生成第二全局策略网络。

模式切换开关关闭时，机器人退出克隆模式，此时，若机器人接收到第二用户指令，则本地策略执行层可直接根据第二全局策略网络生成控制指令。由此，本地策略执行层通过行为克隆等技术快速学习并执行局部策略，可以提高应对具体任务的效率。

而且，在策略学习装置400中，不但可以基于行为克隆，还可基于逆强化学习技术帮助学习用户的示范，从而加速策略的学习与泛化。

其中，上述行为克隆是一种监督学习方法，通过模仿用于的示范行为，直接训练一个第二全局策略网络，使机器人在相同情境下采取类似的行动。具体而言，首先通过用户操控机器人完成一系列任务，将传感器数据与用户的动作进行记录，作为训练集，进而训练一个神经网络模型，使其在相同的环境输入下预测与用户示范相似的行为。

作为一个示例，用户手动控制机器人避开各种障碍物，并规划清扫路径，此时，机器人收集用户手动操作的清扫路径和避障行为数据，作为行为克隆训练集。机器人通过模仿学习策略，能够直接复制用户的路径规划和避障行为，提升自主执行任务的效果。

上述逆强化学习是指通过观察用户示范的数据推测奖励函数，找出用户遵循的行为策略背后的目标或动机。具体而言，机器人记录用户执行任务的行为轨迹，包括状态、动作等，进而通过机器学习算法推断出用户的目标和奖励函数，从而基于推测出的奖励函数，使用强化学习算法训练第二全局策略网络。

作为一个示例，用户手动控制机器人在家中避开障碍物、清扫指定区域等一系列复杂任务，系统分析用户行为轨迹，找出可能的目标，如“确保地板上不留任何污渍”、“避开家具”、“优先清扫客厅”等，从而利用推测的奖励函数，机器人通过强化学习方法训练第二全局策略网络，确保最终策略与用户的清扫目标一致，并根据不同房间的情况动态调整策略。

可见，对于上述第一全局策略网络、第二全局策略网络，为机器人用来指导其行动和决策的内部算法或规则集，是根据具体任务要求和环境条件动态生成和调整的。

也就是说，对于上述全局策略网络(包括上述第一全局策略网络、第二全局策略网络)，其包括决策逻辑、行为规则、奖励函数。决策逻辑是指机器人如何在给定的环境和情境下作出决策。行为规则是指具体指导机器人实施的动作序列或行为模式的规则。在强化学习框架中，策略模型会包括评价行为好坏的奖励函数，这帮助模型通过试错学习最优行动。

对于上述全局策略网络，其的形成和优化方法包括：

实时学习：在执行任务时，机器人通过强化学习或监督学习实时调整和优化其策略模型。

模仿学习：从专家行为或先前成功的任务执行中学习策略。

逆强化学习：通过观察外部示范来推断最优的奖励函数和策略。

由此，通过上述行为克隆，可以加速策略的直接复制和模仿，让机器人迅速适应任务环境。而通过上述逆强化学习，可以通过深入理解用户行为背后的目标，为机器人提供合理的奖励函数，使其在执行任务时具有更高的策略合理性和灵活性。这两种技术相结合，有助于机器人在执行任务时迅速获得泛化性策略，提高策略学习的效率。

还可设置知识存储装置700通过采用基于图谱的知识表示方法,将机器人在任务执行过程中获取的环境信息、用户偏好、全局策略网络等异构知识进行语义化组织和存储。由此，可以实现在面对类似任务时可以快速调用之前成功的全局策略网络，在多机器人系统中，有效的全局策略网络可以共享给其他机器人使用，还可以基于新数据不断更新和优化策略模型，增强其执行效果和适应能力。通过这样的方法，机器人不仅能够在单次任务中表现出色，还能持续地学习和适应，提升其长期的操作智能和效率。

上述用户偏好的获取方式包括直接用户输入、人机交互反馈、行为观察与数据挖掘、外部数据整合等。

上述直接用户输入是指直接由用户通过预设方式告知自身的偏好，比如说，用户可以通过语音或文本直接向机器人表达其偏好。例如，“我希望在早上9点前完成厨房的清洁”或“请先清理客厅，再打扫卧室”。再比如，用户在移动应用或控制面板中调整清扫顺序、工作区域、优先事项等设置，机器人据此获取偏好数据。

上述人机交互反馈，是指如果机器人执行任务过程中偏离用户期望，用户可以通过语音、按键或应用程序纠正。例如，用户可能要求机器人停止打扫地毯并转向其他区域。机器人还可主动与用户进行多轮对话，询问特定任务的偏好。例如，“你想先清理哪些房间？”、“清理地毯时，你是否希望使用较高的吸力？”。

上述行为观察与数据挖掘，是指通过记录用户与机器人的互动历史，分析用户习惯。例如，每次清理任务的优先区域、频率、时间段等信息被分析，帮助机器人得出某些常见的用户偏好模式。基于机器人感知的环境信息，自动识别特定情境，例如发现用户早晨经常在客厅活动，而晚上在书房。这类情境识别也可以反映用户的偏好。

上述外部数据整合，是指根据通用的家庭环境、任务类型等预设模板，为不同用户提供标准的偏好模板，并允许用户修改。通过匿名和安全的方式，将不同用户的偏好数据进行分析，推断和共享特定的通用偏好模式。例如，在打扫宠物活动区域时，不同用户通常使用相似的优先设置。

可选地，上述系统还包括：知识演化管理装置，与知识存储装置700连接，用于获取知识存储装置700中存储的本地知识，并对本地知识进行演化，以及将演化结果存储至知识存储装置700。

具体地，知识演化管理装置可以实现知识演化与扩展功能，使机器人能够在长期的使用中不断更新、优化和扩展自身的知识库，以适应变化的环境和用户需求。知识演化管理装置可以主动学习，即通过主动探索新的环境或任务，持续收集新的数据，以丰富知识库；还可以进行持续推理，即利用新的经验数据进行逻辑推理和分析，调整或优化现有的知识结构；还可以进行知识融合，即通过用户示范数据或外部知识库的集成，不断引入新的策略和知识；还可以进行情景识别与更新，即根据新的环境或用户行为模式，识别并更新相关知识内容，使其始终保持与实际情况一致。

上述系统还可包括：知识检索推理装置，与知识存储装置700和策略学习装置400连接，用于在获取到策略学习装置400的知识需求后，根据知识需求对知识存储装置700中存储的本地知识进行检索和推理，将检索和推理结果发送至策略学习装置400。上述知识需求包括策略学习装置400在生成全局策略、控制指令时所需要的所有可能需要的知识需，比如实际投入使用的任务改进策略、不同环境下生成策略或指令的标准、如何根据第二用户指令进行控制、当前环境信息与历史环境信息是否匹配等。

具体地，知识检索推理装置可以实现知识检索功能，知识检索功能允许机器人快速获取知识存储装置700中相关的信息，以解决实际问题并作出合理的决策。为了实现知识检索，可以采用语义搜索、上下文匹配、关键字索引等方式，其中，语义搜索，是指利用自然语言处理和图谱推理技术，机器人可以根据任务目标或用户询问，解析出与当前情境最相关的知识信息。上下文匹配，是指根据当前环境、任务和用户偏好，将上下文信息与知识库中的先前经验进行匹配，从而识别出最符合条件的策略或答案。关键字索引，是指针对知识库中的各类知识，构建索引库，以便在需要时通过关键字或主题快速检索。

上述知识检索推理装置、知识演化与扩展装置均可为上述知识存储装置700的模块，即知识存储装置700不但可以实现知识存储，还可实现知识检索推理、知识演化与扩展。

策略学习装置400还可用于：根据元学习目标生成控制指令。

具体地，元学习目标，是指通过设定某种目标，使机器人能够识别并适应不同的任务情景，提高在新任务中快速学习的能力。元学习目标旨在帮助机器人在有限经验或训练数据的情况下，快速适应不同的任务和环境。通过设定元学习目标，机器人将能掌握适用于广泛任务的策略和技能。

上述元学习目标可以是使机器人在新任务中迅速取得高性能的能力，比如在完成多种家务任务时迅速适应新的工作环境，或者通过有限训练数据迅速掌握新技能。可以根据任务和环境的特点，由人工或机器人自动判断需要哪些元学习目标以快速适应新环境。通过元学习目标，机器人可以在不同任务中识别并适应通用的解决方法。举例来说，打扫房间和整理厨房虽然表面上是不同任务，但可能都需要“找到并集中放置杂物”这一技能，此时，机器人可以根据元学习目标的指引，在新环境中直接从知识存储装置中调用与“找到并集中放置杂物”有关的知识，比如，可以调用有关的第一全局策略网络、全局策略、控制指令等。

通过设定元学习目标，还可支持通过元学习目标让机器人逐步提高自我监控与调整的能力，例如识别出不成功的策略并加以改进，或在执行新任务时提前思考潜在的困难和挑战。比如说，若发现某一策略不合适，则可利用元学习过程中的经验和知识来进行策略改进。元学习目标还可以让机器人将已学到的策略快速适应新环境，例如，机器人在处理新房间的清洁任务时，能够综合使用以前的打扫经验，调整自身策略来应对不同大小的房间、不同种类的杂物等新问题。

对于上述感知装置200、语义理解装置300、策略学习装置400、规划执行装置500、人机交互装置600、知识存储装置700等装置，均可以选择采用统一定义的接口规范和数据交换协议，实现各装置之间的无缝衔接和高效协同,从而提高系统的可维护性和可扩展性。

其中，对于上述接口规范，其采用标准化接口定义，即为所有功能装置定义一个统一的接口规范，例如使用REST API(Representational State Transfer API，表示性状态转移应用程序编程接口)或gRPC(Google Remote Procedure Call，谷歌远程过程调用)框架等来标准化数据请求和响应格式。还对接口进行版本管理，即设立明确的版本控制策略，以支持接口的平滑迭代和向后兼容。

对于上述数据交换协议，其采用统一的数据格式，即规定所有数据交换采用一致的格式，确保数据的一致性和可解析性。而且，需要实现装置间实时数据同步，该效果可通过WebSocket(一种在单个TCP连接上进行全双工通信的协议)、MQTT(Message QueuingTelemetry Transport，遥测传输协议)等技术实现。同时，所有数据都必须加密，保障数据在传输过程中的安全性，该加密方法可以采用SSL(Secure Sockets Layer，安全套接层)、TLS(Transport Layer Security，安全层传输协议)等。

而且，在采用统一定义的接口规范和数据交换协议的同时，还需要定义一套全系统统一的错误代码和对应的错误信息，便于问题诊断和快速响应，并实现一个中央事件日志系统，用于记录和分析各装置间的交互事件，支持故障恢复和性能优化。

由此，通过采用统一定义的接口规范，系统设计允许新的功能装置能够在不需要修改现有系统的前提下，通过预定义的接口规范轻松集成，且新装置的集成变得更快捷，与旧系统的兼容性更好。通过采用统一的数据交换协议，能够在各个装置之间进行快速且安全的数据传输，从而提升系统的响应速度和处理能力，实现了高度的数据同步，使系统能够实时更新状态，提高决策和响应的及时性。通过统一的错误处理和反馈机制，系统可以快速定位问题并进行故障恢复，极大提高了系统的稳定性和可维护性，中央事件日志系统的设计不仅支持故障恢复，也为系统优化提供了数据支持。

而且，还可以设置知识演化与扩展装置还需要获取机器人在运行过程中的原始环境信息、感知装置200感知到的多模态感知信息、语义理解装置300得到的语义场景描述，从而根据原始环境信息、多模态感知信息、语义场景描述进行知识演化与扩展。

需要说明的是，还可以设置大语言模型，以支持用户以自然语言表达任务需求、行为偏好等。具体地，可以将大语言模型作为功能API为上述感知装置200、语义理解装置300、策略学习装置400、规划执行装置500、人机交互装置600、知识存储装置700等装置提供理解交互，比如说，知识演化和扩展用到大语言模型合成新知识，策略学习装置400利用大语言模型进行针对结构化文本信息的决策和推理，人机交互装置600用大语言模型进行自然语言理解，把用户的对话转换成结构化的文本数据以便机器能够理解。

下面再结合图2～图5进行具体说明。

具体地，提供了一种基于深度强化学习、用户规则(即上述预设服务策略)和大语言模型的机器人控制系统100。该系统包括感知装置200、语义理解装置300、策略学习装置400、规划执行装置500、人机交互装置600以及知识存储装置700。

感知装置200配备各种传感器,如视觉传感器、语音传感器、触觉传感器等,用于采集环境和用户行为的多模态感知信息。这些传感器分布在机器人的不同部位,实时获取环境信息和用户反馈。感知装置200还包括前处理单元,对原始感知数据进行滤波、特征提取等预处理,提高数据质量。

语义理解装置300基于大语言模型,对感知装置200输入的多模态感知信息进行语义理解和融合。通过注意力机制和跨模态对齐技术,将不同模态信息映射到统一的语义空间。然后,利用大语言模型的推理能力,生成层次化的语义场景描述,为策略学习提供语义增强的语义场景描述。

策略学习装置400采用层次化的深度强化学习框架,包括全局策略优化层和本地策略执行层。全局策略优化层利用语义理解装置300输出的语义场景描述和用户规则,通过深度强化学习算法生成全局策略。本地策略执行层使用基于自注意力机制的策略网络,结合多模态感知信息和全局策略,输出连续的动作控制指令(即上述控制指令)。

规划执行装置500接收策略学习装置400输出的决策信息,通过任务规划、运动规划和轨迹优化等算法,生成可执行的机器人控制指令。控制指令经机器人控制器处理后,由执行器执行,实现对机器人的运动控制,并对环境产生影响。规划执行装置500还包括异常处理和安全保护机制,确保机器人运行的安全性和鲁棒性。

人机交互装置600提供多种自然交互方式,如语音识别、手势识别、情感识别等,使用户能够便捷地与机器人进行信息交换。用户指令经自然语言理解和对话管理处理,转化为结构化的任务描述，用于指导策略学习。该装置还提供策略解释和可视化功能,向用户展示机器人的决策过程,提高系统透明度。

知识存储装置700采用基于图谱的知识表示方法，对机器人在运行过程中获取的异构信息进行语义化组织和存储。通过知识检索和推理,机器人可高效利用历史经验优化决策。该装置还具备知识演化和自主扩展能力,通过持续学习和主动探索,不断丰富和优化机器人的知识库。

机器人通过感知装置200获取环境和用户信息,经语义理解装置300处理后,形成语义增强的语义场景描述。策略学习装置400根据语义场景描述和用户规则,利用深度强化学习算法生成全局策略和本地策略。规划执行装置500将策略转化为可执行的控制指令,控制机器人执行服务任务。在服务过程中,机器人通过人机交互装置600与用户进行自然交互,获取反馈和指导。知识存储装置700负责对机器人的经验和知识进行管理和优化,支持策略的持续改进。

下面结合一个具体示例进行说明。

在一种可能的应用场景中,用户通过语音指令"请帮我打扫客厅,沙发下面和电视柜附近要重点清洁"来请求机器人执行清洁任务。

机器人的语音传感器接收到用户指令后,将语音信号传递给语义理解装置300。语义理解装置300使用大语言模型对指令进行语义解析,提取出关键信息,如任务类型(打扫)、目标区域(客厅)以及重点清洁的特定位置(沙发下面、电视柜附近)等。解析得到的语义场景描述以语义表征的形式输入到策略学习装置400。

策略学习装置400的全局策略优化层根据语义表征、任务改进策略、预设服务策略，通过深度强化学习算法生成高层的任务分解和资源分配策略，将其作为全局策略。例如,将"打扫客厅"任务分解为"规划清洁路径"、"移动到目标区域"、"执行清洁操作"等子任务,并根据电量、尘盒容量等因素合理分配时间和能源资源。

本地策略执行层接收全局策略后,利用语义场景描述和基于自注意力机制的策略网络，实时生成连续的运动控制指令，如避障、调整清洁力度等。控制指令经规划执行装置500处理后,由机器人的执行器执行,控制其在客厅内自主移动和清洁。

在清洁过程中,机器人通过视觉传感器持续检测环境中的障碍物和污渍分布情况,并动态调整清洁路径和策略。当发现沙发下面和电视柜附近的重点清洁区域时,机器人会相应增加清洁时间和吸力,以达到更好的清洁效果。

清洁完成后,机器人通过人机交互装置600向用户报告任务执行结果,并通过可视化界面展示清洁过程和效果评估。用户可以通过语音或界面交互对服务质量进行评价和反馈,如"沙发下面的清洁效果不够好,下次可以再多清洁一会儿"。这些反馈信息被转化为结构化的策略优化建议，回传给策略学习装置400，用于下一次任务执行的策略改进。

同时,机器人将本次清洁任务的执行数据(如环境地图、污渍分布、策略参数等)上传到知识存储装置700进行语义化存储和组织。这些经验数据可以用于优化未来类似任务的策略生成和执行效率。通过持续的服务实践和学习,机器人的清洁策略会不断升级迭代,提供更加智能和高质量的清洁服务。

需要说明的是，在实际应用中，也可不限于上述的方式，比如说，可以使用不同的传感器组合、机器学习算法、人机交互方式等,或应用于其他类型的室内服务机器人,如护理机器人、教育机器人等。

综上，本发明实施例的机器人控制方法，感知机器人周围的环境信息，得到多模态感知信息；将多模态感知信息映射到预设语义空间，得到语义场景描述；根据语义场景描述生成全局策略，并根据全局策略和语义场景描述生成控制指令；根据控制指令对机器人进行控制，以完成待执行任务，从而提高机器人的服务能力。而且，设置语义理解装置将包含用户信息的多模态感知信息映射到预设语义空间，使得机器人控制系统能够形成对环境的整体认知，并更容易地将用户指令与环境联系起来，从而提高机器人控制系统对用户指令的理解能力，充分理解和捕捉用户的真实需求和偏好，提高服务质量。而且，还设置人机交互装置和知识存储装置，人机交互装置，包括交互界面，用于在机器人完成任务后，将任务执行结果通过交互界面展示，并在通过交互界面接收到针对任务执行结果的人机交互指令时，根据人机交互指令生成任务改进策略；知识存储装置，与人机交互装置连接，用于本地存储任务改进策略。由此，可以实现根据用户下达的人机交互指令更改生成控制指令的方式，从而进一步提高理解和捕捉用户的真实需求和偏好的能力，提高服务质量。而且，可以提升机器人的自主学习能力，具体而言，通过采用层次化的策略学习装置,结合语义驱动的奖励塑形机制,使机器人能够在与环境的持续交互中自适应地优化策略,不断提高服务的智能化水平和个性化程度。相较于传统的预定义控制策略,能够使机器人更加灵活地适应不同家庭环境和用户需求的动态变化,提供更加高效、贴心的服务体验。增强策略的泛化和迁移能力，具体而言，引入了基于示范的行为克隆和逆强化学习技术,通过学习用户的示范数据,加速策略的收敛和泛化。同时,通过跨任务的经验迁移和策略复用,以及元学习方法的应用,使机器人能够在多任务、多环境下快速适应和调整策略,具备更强的知识迁移和泛化能力。这有助于提高机器人面对新任务和环境时的学习效率和适应速度,大大拓展其应用范围和实用性。改善人机交互体验，具体而言，采用自然语言驱动的人机交互模式,用户可以通过语音、手势等自然交互方式与机器人进行信息交换和任务协同。基于大语言模型的语义理解和生成能力,机器人能够准确把握用户意图,并通过多轮对话形成清晰、完备的任务描述。同时,通过对机器人决策过程和行为逻辑的可视化解释,提高了系统的透明度,增强了用户对机器人的信任和控制感。用户还可以使用自然语言对策略提供反馈和指导,实现更加顺畅、高效的人机协同。提高机器人的环境适应性和鲁棒性，具体而言，感知装置集成了多种传感器,并采用多模态融合和语义理解技术,使机器人能够全面、准确地感知和理解复杂的家庭环境。通过持续学习和主动探索,机器人可以不断积累和泛化环境知识,形成更加完备、细粒度的语义场景表征。同时,还引入了异常处理和安全保护机制,通过实时监测和风险评估,提高了机器人在动态、非结构化环境下的执行稳定性和鲁棒性,有效应对各种意外状况和不确定因素。实现知识的持续积累和智能进化，具体而言，设计了专门的知识存储装置,采用基于图谱的知识表示和推理方法,支持异构知识的语义化组织和高效检索。通过持续学习和知识演化机制,机器人可以不断扩充和优化自身的知识库,将历史经验和新获得的知识进行融合,形成更加全面、深入的认知和理解。这种持续积累和进化的能力使机器人能够在长期的服务过程中不断提升智能水平,适应不断变化的用户需求和环境挑战。提供灵活、可扩展的系统架构，具体而言，采用装置化的系统设计,定义清晰的接口规范和数据交换协议,使得各功能装置可以灵活组合、独立优化,大大提高了系统的可维护性和可扩展性。这种松耦合的架构有助于加速新技术、新算法的集成和迭代,使系统能够持续演进和升级,适应智能家居领域的快速发展。同时,分布式计算和并行处理技术的应用提高了系统的实时性和计算效率,使机器人能够及时响应用户需求,提供流畅、高质量的服务体验。

进一步地，本发明提出一种机器人控制系统。

图6是本发明实施例的机器人控制系统的结构框图。

如图6所示，机器人控制系统100，包括：感知装置200，用于实时感知机器人周围的环境信息，得到多模态感知信息；语义理解装置300，与感知装置200连接，用于将多模态感知信息映射到预设语义空间，得到语义场景描述；策略学习装置400，与语义理解装置300连接，用于根据语义场景描述生成全局策略，并根据全局策略和语义场景描述生成控制指令；规划执行装置500，与策略学习装置400连接，用于根据控制指令对机器人进行控制，以完成待执行任务。

在本发明的一些实施例中，参见图7，机器人控制系统100还包括：人机交互装置600，包括交互界面，用于在机器人完成任务后，将任务执行结果通过交互界面展示，并在通过交互界面接收到针对任务执行结果的人机交互指令时，根据人机交互指令生成任务改进策略；知识存储装置700，与人机交互装置600连接，用于本地存储任务改进策略。

在本发明的一些实施例中，感知装置200，包括视觉传感器、语音传感器和触觉传感器，环境信息包括视觉环境信息、语音环境信息和触觉环境信息，感知装置200还用于实时感知机器人周围的第一用户指令，语义理解装置300，包括：特征提取模块，与感知装置200连接，用于对视觉环境数据、语音环境数据、触觉环境数据和第一用户指令进行特征提取，得到视觉环境数据的空间特征、语音环境数据的第一语义特征、触觉环境数据的状态与变化特征和第一用户指令的第二语义特征；对齐模块，与特征提取模块连接，用于将空间特征、第一语义特征、状态与变化特征和第二语义特征进行时间与空间对齐；权重计算模块，与对齐模块连接，用于计算对齐后的空间特征、第一语义特征、状态与变化特征、第二语义特征之间的相关性权重；融合模块，与权重计算模块连接，用于根据相关性权重对对齐后的空间特征、第一语义特征、状态与变化特征和第二语义特征进行融合；映射模块，与融合模块连接，用于将融合后的空间特征、第一语义特征、状态与变化特征和第二语义特征转换为语义向量，并将转换得到的语义向量映射到预设语义空间；抽象和结构化模块，与映射模块连接，用于对映射到预设语义空间的语义向量进行抽象和结构化表示，得到语义场景描述。

在本发明的一些实施例中，策略学习装置400包括用于根据第一用户指令生成全局策略的全局策略优化层，全局策略优化层，包括：奖励函数构建模块，与知识存储装置700和语义理解装置300连接，用于根据语义场景描述、任务改进策略和预设服务策略构建奖励函数；第一全局策略网络训练模块，与奖励函数构建模块连接，用于根据奖励函数对预设初始策略网络训练，得到第一全局策略网络；策略生成模块，与第一全局策略网络训练模块连接，用于根据第一全局策略网络和第一用户指令生成全局策略。

在本发明的一些实施例中，策略学习装置400还包括用于根据全局策略和语义场景描述生成控制指令的本地策略执行层，本地策略执行层采用基于自注意力机制的策略网络。

在本发明的一些实施例中，机器人控制系统100还包括：模式切换装置，模式切换装置包括模式切换开关，用于在模式切换开关被打开时将机器人的模式切换为克隆模式；策略学习装置400与模式切换装置连接，策略学习装置400，还用于：在模式切换装置将机器人的模式切换为克隆模式时，根据克隆语义场景描述训练得到第二全局策略网络，其中，克隆语义场景描述为机器人处于克隆模式时，语义理解装置300根据感知装置200接收到的第二用户指令生成的语义场景描述；策略学习装置400还用于：在机器人不处于克隆模式，且感知装置200接收到第二用户指令时，根据第二全局策略网络生成控制指令。

在本发明的一些实施例中，机器人控制系统100还包括：知识演化管理装置，与知识存储装置700连接，用于获取知识存储装置700中存储的本地知识，并对本地知识进行演化，以及将演化结果存储至知识存储装置700。

在本发明的一些实施例中，机器人控制系统100还包括：知识检索推理装置，与知识存储装置700和策略学习装置400连接，用于在获取到策略学习装置400的知识需求后，根据知识需求对知识存储装置700中存储的本地知识进行检索和推理，将检索和推理结果发送至策略学习装置400。

需要说明的是，本发明实施例的机器人控制系统100的其他具体实施方式，可以参见上述实施例的机器人控制方法。

本发明实施例的机器人控制系统，包括：感知装置，用于实时感知机器人周围的环境信息，得到多模态感知信息；语义理解装置，与感知装置连接，用于将多模态感知信息映射到预设语义空间，得到语义场景描述；策略学习装置，与语义理解装置连接，用于根据语义场景描述生成全局策略，并根据全局策略和语义场景描述生成控制指令；规划执行装置，与策略学习装置连接，用于根据控制指令对机器人进行控制，以完成待执行任务。由此，设置将包含用户信息的多模态感知信息映射到预设语义空间，使得机器人控制系统能够形成对环境的整体认知，并更容易地将用户指令与环境联系起来，从而提高机器人控制系统对用户指令的理解能力，充分理解和捕捉用户的真实需求和偏好，提高服务质量。

进一步地，本发明提出一种存储介质。

在本发明实施例中，存储介质，其上存储有计算机程序，计算机程序被处理器执行时，实现上述实施例的机器人控制方法。

本发明实施例的存储介质，通过实现上述实施例的机器人控制方法，提高机器人控制系统对用户指令的理解能力，充分理解和捕捉用户的真实需求和偏好，提高服务质量。

进一步地，本发明提出一种控制器。

图8是本发明实施例的控制器的结构框图。

如图8所示，控制器800包括：处理器801和存储器803。其中，处理器801和存储器803相连，如通过总线802相连。可选地，控制器800还可以包括收发器804。需要说明的是，实际应用中收发器804不限于一个，该控制器800的结构并不构成对本发明实施例的限定。

处理器801可以是CPU(Central Processing Unit，中央处理器)，通用处理器，DSP(Digital Signal Processor，数字信号处理器)，ASIC(Application SpecificIntegrated Circuit，专用集成电路)，FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明公开内容所描述的各种示例性的逻辑方框、模块和电路。处理器801也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线802可包括一通路，在上述组件之间传送信息。总线802可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。总线802可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器803用于存储与本发明上述实施例的机器人控制方法对应的计算机程序，该计算机程序由处理器801来控制执行。处理器801用于执行存储器803中存储的计算机程序，以实现前述方法实施例所示的内容。

其中，图8示出的控制器800仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

本发明实施例的控制器，通过上述实施例的机器人控制方法，提高机器人控制系统对用户指令的理解能力，充分理解和捕捉用户的真实需求和偏好，提高服务质量。

进一步地，本发明提出一种机器人。

图9是本发明实施例的机器人的结构框图。

如图9所示，机器人10，包括上述实施例的机器人控制系统100。

本发明实施例的机器人，通过上述实施例的机器人控制系统，提高机器人控制系统对用户指令的理解能力，充分理解和捕捉用户的真实需求和偏好，提高服务质量。

需要说明的是，在流程图中表示或在此以其他方式描述的逻辑和/或步骤，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

在本说明书的描述中，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，除非另有说明，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种机器人控制方法，其特征在于，包括：

感知所述机器人周围的环境信息，得到多模态感知信息；

将所述多模态感知信息映射到预设语义空间，得到语义场景描述；

根据所述语义场景描述生成全局策略，并根据所述全局策略和所述语义场景描述生成控制指令；

根据所述控制指令对所述机器人进行控制，以完成待执行任务。

2.根据权利要求1所述的机器人控制方法，其特征在于，所述方法还包括：

当所述机器人完成所述任务时，将任务执行结果通过预设交互界面进行展示，并在通过所述预设交互界面接收到针对所述任务执行结果的人机交互指令时，根据所述人机交互指令生成任务改进策略，并本地存储所述任务改进策略。

3.根据权利要求2所述的机器人控制方法，其特征在于，所述环境信息包括视觉环境信息、语音环境信息和触觉环境信息，所述多模态感知信息的获取方法，还包括：

感知所述机器人周围的所述环境信息和第一用户指令，根据所述环境信息和所述第一用户指令得到所述多模态感知信息；

所述将所述多模态感知信息映射到预设语义空间，得到语义场景描述，包括：

对所述视觉环境数据、所述语音环境数据、所述触觉环境数据和所述第一用户指令进行特征提取，得到所述视觉环境数据的空间特征、所述语音环境数据的第一语义特征、所述触觉环境数据的状态与变化特征和所述第一用户指令的第二语义特征；

将所述空间特征、所述第一语义特征、所述状态与变化特征和所述第二语义特征进行时间与空间对齐，并得到对齐后的所述空间特征、所述第一语义特征、所述状态与变化特征、所述第二语义特征之间的相关性权重；

根据所述相关性权重对对齐后的所述空间特征、所述第一语义特征、所述状态与变化特征和所述第二语义特征进行融合，并将融合后的所述空间特征、所述第一语义特征、所述状态与变化特征和所述第二语义特征转换为语义向量，以及将转换得到的语义向量映射到预设语义空间；

对映射到所述预设语义空间的语义向量进行抽象和结构化表示，得到所述语义场景描述。

4.根据权利要求3所述的机器人控制方法，其特征在于，所述根据所述第一用户指令生成全局策略，包括：

根据第一全局策略网络和所述第一用户指令生成所述全局策略，其中，所述第一全局策略网络为根据奖励函数对预设初始策略网络进行训练得到的网络，所述奖励函数为根据所述语义场景描述、所述任务改进策略和预设服务策略构建的函数。

5.根据权利要求1所述的机器人控制方法，其特征在于，所述方法还包括：

当所述机器人的模式为克隆模式时，根据克隆语义场景描述训练得到第二全局策略网络，其中，所述克隆语义场景描述为所述机器人处于所述克隆模式时，根据接收到的第二用户指令生成的语义场景描述；

当所述机器人不处于所述克隆模式，且接收到所述第二用户指令时，根据所述第二全局策略网络生成控制指令。

6.根据权利要求2所述的机器人控制方法，其特征在于，所述方法还包括：

对本地存储的知识进行演化，并将演化结果进行本地存储。

7.一种机器人控制系统，其特征在于，所述系统包括：

感知装置，用于实时感知所述机器人周围的环境信息，得到多模态感知信息；

语义理解装置，与所述感知装置连接，用于将所述多模态感知信息映射到预设语义空间，得到语义场景描述；

策略学习装置，与所述语义理解装置连接，用于根据所述语义场景描述生成全局策略，并根据所述全局策略和所述语义场景描述生成控制指令；

规划执行装置，与所述策略学习装置连接，用于根据所述控制指令对所述机器人进行控制，以完成待执行任务。

8.根据权利要求7所述的机器人控制系统，其特征在于，所述系统还包括：

人机交互装置，包括交互界面，用于在所述机器人完成所述任务后，将任务执行结果通过所述交互界面展示，并在通过所述交互界面接收到针对所述任务执行结果的人机交互指令时，根据所述人机交互指令生成任务改进策略；

知识存储装置，与所述人机交互装置连接，用于本地存储所述任务改进策略。

9.根据权利要求8所述的机器人控制系统，其特征在于，所述感知装置，包括视觉传感器、语音传感器和触觉传感器，所述环境信息包括视觉环境信息、语音环境信息和触觉环境信息，所述感知装置还用于实时感知所述机器人周围的第一用户指令，所述语义理解装置，包括：

特征提取模块，与所述感知装置连接，用于对所述视觉环境数据、所述语音环境数据、所述触觉环境数据和所述第一用户指令进行特征提取，得到所述视觉环境数据的空间特征、所述语音环境数据的第一语义特征、所述触觉环境数据的状态与变化特征和所述第一用户指令的第二语义特征；

对齐模块，与所述特征提取模块连接，用于将所述空间特征、所述第一语义特征、所述状态与变化特征和所述第二语义特征进行时间与空间对齐；

权重计算模块，与所述对齐模块连接，用于计算对齐后的所述空间特征、所述第一语义特征、所述状态与变化特征、所述第二语义特征之间的相关性权重；

融合模块，与所述权重计算模块连接，用于根据所述相关性权重对对齐后的所述空间特征、所述第一语义特征、所述状态与变化特征和所述第二语义特征进行融合；

映射模块，与所述融合模块连接，用于将融合后的所述空间特征、所述第一语义特征、所述状态与变化特征和所述第二语义特征转换为语义向量，并将转换得到的语义向量映射到预设语义空间；

抽象和结构化模块，与所述映射模块连接，用于对映射到所述预设语义空间的语义向量进行抽象和结构化表示，得到所述语义场景描述。

10.根据权利要求9所述的机器人控制系统，其特征在于，所述策略学习装置包括用于根据所述第一用户指令生成全局策略的全局策略优化层，所述全局策略优化层，包括：

奖励函数构建模块，与所述知识存储装置和所述语义理解装置连接，用于根据所述语义场景描述、所述任务改进策略和预设服务策略构建奖励函数；

第一全局策略网络训练模块，与所述奖励函数构建模块连接，用于根据所述奖励函数对预设初始策略网络训练，得到第一全局策略网络；

策略生成模块，与所述第一全局策略网络训练模块连接，用于根据所述第一全局策略网络和所述第一用户指令生成所述全局策略。

11.根据权利要求10所述的机器人控制系统，其特征在于，所述策略学习装置还包括用于根据所述全局策略和语义场景描述生成控制指令的本地策略执行层，所述本地策略执行层采用基于自注意力机制的策略网络。

12.根据权利要求7所述的机器人控制系统，其特征在于，所述系统还包括：

模式切换装置，所述模式切换装置包括模式切换开关，用于在所述模式切换开关被打开时将所述机器人的模式切换为克隆模式；

所述策略学习装置与所述模式切换装置连接，所述策略学习装置，还用于：

在所述模式切换装置将所述机器人的模式切换为克隆模式时，根据克隆语义场景描述训练得到第二全局策略网络，其中，所述克隆语义场景描述为所述机器人处于所述克隆模式时，所述语义理解装置根据所述感知装置接收到的第二用户指令生成的语义场景描述；

所述策略学习装置还用于：

在所述机器人不处于所述克隆模式，且所述感知装置接收到所述第二用户指令时，根据所述第二全局策略网络生成控制指令。

13.根据权利要求8所述的机器人控制系统，其特征在于，所述系统还包括：

知识演化管理装置，与所述知识存储装置连接，用于获取所述知识存储装置中存储的本地知识，并对所述本地知识进行演化，以及将演化结果存储至所述知识存储装置。

14.根据权利要求8所述的机器人控制系统，其特征在于，所述系统还包括：

知识检索推理装置，与所述知识存储装置和所述策略学习装置连接，用于在获取到所述策略学习装置的知识需求后，根据所述知识需求对所述知识存储装置中存储的本地知识进行检索和推理，将检索和推理结果发送至所述策略学习装置。

15.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1-6中任一项所述的机器人控制方法。

16.一种控制器，其特征在于，包括存储器、处理器和存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被所述处理器执行时，实现如权利要求1-6中任一项所述的机器人控制方法。

17.一种机器人，其特征在于，包括根据权利要求7-14中任一项所述的机器人控制系统。