CN118410873B

CN118410873B - 一种基于人工智能的数据知识库管理系统

Info

Publication number: CN118410873B
Application number: CN202410569852.6A
Authority: CN
Inventors: 张加官; 伍超荣; 雷强; 杨叶; 居红琛
Original assignee: Jiangsu Ampere Information Technology Co ltd
Current assignee: Jiangsu Ampere Information Technology Co ltd
Priority date: 2024-05-09
Filing date: 2024-05-09
Publication date: 2024-11-26
Anticipated expiration: 2044-05-09
Also published as: CN118410873A

Abstract

本发明公开了一种基于人工智能的数据知识库管理系统，具体涉及知识库管理技术领域，包括数据知识库模块、用户预分类模块、智能问答模块、监测模块以及评估模块，根据不同类型的数据，将数据知识库分类成多个大类，使用智能算法构建分类模型，根据用户的提问将用户分类到一个或多个知识库类型中，根据用户提出的问题，系统接收问题并分析问题提供答案，根据用户预分类的结果，在用户被分类的知识库中进行答案检索，设置监测区间，在监测区间内根据用户的提问采集用户的兴趣变化信息，对兴趣变化信息综合性分析，判断是否更换答案提取策略，本发明有助于根据不同用户选择不同的数据知识库，提供更加符合用户需求的答案。

Description

一种基于人工智能的数据知识库管理系统

技术领域

本发明涉及知识库管理技术领域，更具体地说，本发明涉及一种基于人工智能的数据知识库管理系统。

背景技术

现有技术在用户提问后，系统首先通过自然语言处理技术理解用户意图和提取关键信息，然后利用机器学习模型将用户分类到相应的知识库类型，再根据文本相似度匹配或检索模型从知识库中检索或生成最相关的答案，并且系统根据实时更新的知识库和模型确保提供准确和及时的答案，但是导致不容易应对用户兴趣变化带来的检索问题和正确使用适当类型的数据知识库，从而不能够提供更准确、个性化和满足用户需求的答案。

为了解决上述缺陷，现提供一种技术方案。

发明内容

为了克服现有技术的上述缺陷，本发明的实施例提供一种基于人工智能的数据知识库管理系统，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种基于人工智能的数据知识库管理系统，包括数据知识库模块、用户预分类模块、智能问答模块、监测模块以及评估模块，模块之间信号连接；

数据知识库模块，用于对数据知识库进行分类处理，根据不同类型的数据，将数据知识库分类成多个大类；

用户预分类模块，用于使用智能算法构建分类模型，分类模型根据用户的提问将用户分类到一个或多个知识库类型中；

智能问答模块，用于基于人工智能技术，根据用户提出的问题，系统接收问题并分析问题提供答案，根据用户预分类的结果，在用户被分类的知识库中进行答案检索；

监测模块，用于设置监测区间，在监测区间内根据用户的提问采集用户的兴趣变化信息，其中，兴趣变化信息包括通过分析用户提问的差异信息和本身用户兴趣点的周期信息；

评估模块，用于对兴趣变化信息综合性分析，生成兴趣评估系数，根据兴趣评估系数与兴趣评估系数阈值对比，判断是否更换答案提取策略。

在一个优选的实施方式中，在监测区间内根据用户的提问采集用户的兴趣变化信息，包括：

兴趣变化信息从两方面进行考虑，其中，包括通过分析用户提问的差异信息和本身用户兴趣点的周期信息，差异信息通过散度变化系数和频率偏差系数表示，周期信息通过兴趣变化系数表示。

在一个优选的实施方式中，所述散度变化系数的获取逻辑为：

获取监测区间内用户的提问，根据用户每个提问，确定用户每次提问的主题，并确定主题隶属于知识库的类型；

通过利用知识图谱来确定主题隶属于知识库的类型，收集知识库中的主题和知识库类型，构建知识图谱，每个主题作为图谱中的一个节点，每个知识库类型也作为一个节点，边代表主题与知识库类型之间的关联，利用图谱中的路径搜索算法，找到与主题相关的知识库类型节点，确定主题的隶属关系，比较主题在不同类型知识库之间的隶属度，将主题归类为隶属度最高的知识库类型；

根据用户被分到的知识库类型，将被分到的知识库类型记作标记知识库，获得监测区间内隶属于标记知识库的主题数量，并将监测区间内隶属于标记知识库的主题数量标记为：DQ_n，其中，n＝1、2、3、……、N，N为正整数，n为被分类知识库的类型；

获得监测区间内提问的数量，并将监测区间内提问的数量标记为：A，计算监测区间内标记知识库中不同类型知识库的分布，计算公式为：其中，Q_n为当前监测区间内标记知识库中不同类型知识库的分布；

获得预分类期间隶属于标记知识库的主题数量，并将预分类期间隶属于标记知识库的主题数量标记为：ZQ_n，计算预分类期间标记知识库中不同类型知识库的分布，计算公式为：其中，P_n预分类期间标记知识库中不同类型知识库的分布；

通过公式计算散度变化系数，计算公式为：其中，SD_bh为散度变化系数。

在一个优选的实施方式中，所述频率偏差系数的获取逻辑为：

获取监测区间的时间长度，并将用户监测区间的时间长度标记为：SJ_jc，根据监测区间内隶属于标记知识库的主题数量，获得监测区间内隶属于标记知识库中使用不同类型知识库检索答案的频率，并将监测区间内隶属于标记知识库中使用不同类型知识库检索答案的频率标记为：JC_n，其中，

获取预分类期间的时间长度，并将预分类期间的时间长度标记为：SJ_fl，获得预分类期间隶属于标记知识库中使用不同类型知识库检索答案的频率，将预分类期间隶属于标记知识库中使用不同类型知识库检索答案的频率标记为：FL_n，其中，

通过公式计算频率偏差系数，计算公式为：其中，PL_pc为频率偏差系数。

在一个优选的实施方式中，所述兴趣变化系数的获取逻辑为：

根据用户被分到的知识库类型，获得不同类型知识库中包含的主题，根据用户提问的历史记录获得用户关注的主题，并将用户关注的主题记作标记主题；

采集用户对标记主题感兴趣的初始时间，通过采集用户对标记主题不感兴趣的时间，获得用户对标记主题感兴趣的时间间隔，并将用户对标记主题感兴趣的时间间隔标记为：JG_k，其中，k＝1、2、3、……、K，K为正整数，k为标记主题的编号；

获得用户对标记主题感兴趣的时间平均值和标准差，并将用户对标记主题感兴趣的时间平均值和标准差标记为：JG_avg和JG_bzc，其中，

通过公式计算兴趣变化系数，计算公式为：XQ_bh＝JG_bzc×ln(JG_bzc+1)；其中，XQ_bh为兴趣变化系数。

在一个优选的实施方式中，对兴趣变化信息综合性分析，生成兴趣评估系数，包括：

将兴趣变化信息中通过分析用户提问的差异信息和本身用户兴趣点的周期信息综合性分析，将散度变化系数、频率偏差系数以及兴趣变化系数建立数学分析模型，生成兴趣评估系数；

散度变化系数和兴趣变化系数与兴趣评估系数成正相关关系，频率偏差系数与兴趣评估系数成负相关关系。

在一个优选的实施方式中，判断是否更换答案提取策略，包括：

设置兴趣评估系数阈值，将监测区间内的兴趣评估系数与兴趣评估系数阈值对比，若兴趣评估系数大于兴趣评估系数阈值，则基于监测区间用户的提问，重新使用分类模型确定用户被分到的知识库类型，系统根据用户被分到的知识库中存储的数据对用户的提问进行回答，若兴趣评估系数小于兴趣评估系数阈值，则保持使用标记知识库中的数据对用户的提问进行回答。

本发明的技术效果和优点：

本发明通过使用分类模型对用户进行预分类，确定用户初始感兴趣的领域，系统根据用户初始感兴趣的领域，对相关数据知识库进行检索，提供用户可能需要的答案，并根据用户的多次提问，监测用户提问的兴趣变化信息，及时根据用户的兴趣变化更换答案提取策略，有助于根据不同用户选择不同的数据知识库，提供更加符合用户需求的答案。

附图说明

为了便于本领域技术人员理解，下面结合附图对本发明做进一步的说明；

图1为本发明一种基于人工智能的数据知识库管理系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图1给出了本发明一种基于人工智能的数据知识库管理系统的结构示意图，其中包括数据知识库模块、用户预分类模块、智能问答模块、监测模块以及评估模块，模块之间信号连接；

对数据知识库进行分类处理，根据不同类型的数据，将数据知识库分类成多个大类，并基于数据知识库的分类，收集用户的提问历史数据，包括提问的内容、时间戳等，记录每个提问与知识库类型的关联，确定用户提问的主题范围，对用户的提问历史数据进行特征提取，将提取的特征训练为分类模型，用于对用户类型的分类，每个用户会被分类模型分为一个或多个可能的知识库类型，根据用户被分到的知识库类型，系统从被分到的知识库类型中提取用户需要的答案。

需要说明的是，数据知识库按照不同的领域进行分类，每个知识库都专注于特定的领域，当用户提出问题时，系统根据用户初始感兴趣领域选择相应的数据知识库进行检索。

其中，根据用户的提问内容进行特征提取，并将提取的特征用于训练模型，包括以下内容：

将用户的提问内容进行关键词提取，提取提问内容中的关键词，可以使用自然语言处理技术；

将用户的提问内容进行主题提取，利用主题模型或文本分类算法，将提问内容分为不同的主题；

将每个特征提取得到一个向量，获得总特征向量的维度，并将总特征向量作为分类模型的输入。

将用户按照知识库类型进行分类，并且分类结果以概率的形式表现，其中，对用户的提问历史数据进行特征提取，将提取的特征训练为分类模型中，分类模型是基于概率的多类别分类任务，通过使用卷积神经网络输出每个类型的概率分布。

将分类模型的分类结果展示给用户，通过系统界面或其他形式进行展示，让用户了解系统根据其提问历史所推荐的知识库类型，并鼓励用户对预分类结果进行反馈，不断帮助分类模型进行优化。

根据用户提出的问题，系统接收问题并分析问题提供答案，根据用户预分类的结果，在被分类的知识库中进行答案检索，基于被分类的知识库提供合适的答案，并优先搜索与用户分类结果相符的知识库，系统从匹配的知识库中提取相应的答案，并将其提供给用户，这些答案可以是文本、图片、链接等形式，根据用户问题的性质而定。

根据用户对提供答案的反馈，逐步更新答案，若用户对提供的答案满意，系统保持提供答案的方式不变，并将此类答案作为优先提供答案的参考，若用户对提供的答案不满意，则使用其他类型知识库的内容进行回答，并将之前的回答删除，避免再次提供，并防止误导系统识别为正确答案。

其中，回答用户的问题是基于人工智能技术，基于用户提问的内容，使用信息检索技术从知识库中检索相应的答案，包括构建倒排索引来快速定位包含用户关键词的文档或知识库条目，将用户提问和知识库中的文本表示为向量，计算它们之间的相似度，从而找到最相关的答案，基于语义相似度度量技术，如词向量模型，来找到语义上相关的答案等，并利用自然语言生成技术，根据检索到的内容，自动生成符合语法的答案。

监测用户提问的兴趣变化，避免系统每次都重复在被分类的知识库中检索答案，当用户的兴趣发生改变时，导致用户不必要地重复搜索，降低系统的效率，增加了系统不必要的计算和搜索。

设置监测区间，监测区间内包含用户的多次提问，通过监测区间内用户的提问和系统给出的回答，评估用户的兴趣程度变化，并且监测区间能够根据评估结果进行动态调整，例如：当用户兴趣变化较小时，保持监测区间不变，维持一个较大的范围，当用户兴趣变化较大时，及时缩小监测区间，以便更频繁地监测用户的兴趣变化，当用户兴趣变化超过一定大小时，基于用户的提问历史对用户重新分类，重新确定用户被分类的知识库。

需要说明的是，监测区间不是一个时间长度，表示用户提问的数量大小，当用户达到某个提问数量时，系统对监测区间内的提问进行评估，判断用户的兴趣变化，监测区间由专业领域的工作人员设置。

在监测区间内采集用户的兴趣变化信息，兴趣变化信息从两方面进行考虑，其中，包括通过分析用户提问的差异信息和本身用户兴趣点的周期信息，差异信息通过散度变化系数和频率偏差系数表示，散度变化系数表示用户在相同提问数量下兴趣可能发生的变化程度，频率偏差系数表示用户在单位时间下兴趣可能发生的变化程度，周期信息通过兴趣变化系数表示，兴趣变化系数用于衡量用户兴趣的持久程度。

所述散度变化系数的获取逻辑为：获取监测区间内用户的提问，根据用户每个提问，确定用户每次提问的主题，并确定主题隶属于知识库的类型；

其中，对于每次提问的主题，通过利用知识图谱来确定主题隶属于知识库的类型，收集知识库中的主题和知识库类型，构建知识图谱，每个主题作为图谱中的一个节点，每个知识库类型也作为一个节点，边代表主题与知识库类型之间的关联，利用图谱中的路径搜索算法(如最短路径或最小生成树算法)，找到与主题相关的知识库类型节点，确定主题的隶属关系，比较主题在不同类型知识库之间的隶属度，将主题归类为隶属度最高的知识库类型；

需要说明的是，隶属于标记知识库为用户被分类到的知识库类型，用户在监测区间内提问的主题根据知识图谱划分到不同的知识库类型，因此，能够获得隶属于标记知识库的主题数量。

需要说明的是，预分类期间表示初始用户进行提问时，用户提问的主题在不同类型知识库中的分布情况。

计算散度变化系数，计算公式为：其中，SD_bh为散度变化系数；

由公式可知，散度变化系数越大，说明监测区间内用户提问的主题类型与预分类期间用户提问的主题类型相差较大，表示用户的兴趣可能发生较大的变化，因此，使用用户被分到的知识库进行对用户提问的回答可能不合适。

所述频率偏差系数的获取逻辑为：获取监测区间的时间长度，并将用户监测区间的时间长度标记为：SJ_jc，根据监测区间内隶属于标记知识库的主题数量，获得监测区间内隶属于标记知识库中使用不同类型知识库检索答案的频率，并将监测区间内隶属于标记知识库中使用不同类型知识库检索答案的频率标记为：JC_n，其中，

需要说明的是，监测区间是基于用户提问的数量确定，用户在一定时间范围内提问的数量越多，则对用户兴趣变化监测的频率越高。

计算频率偏差系数，计算公式为：其中，PL_pc为频率偏差系数。

由公式可知，频率偏差系数越大，说明用户在监测区间内的提问使用标记知识库进行检索回答的数量可能增加，表示用户的兴趣浓度可能加深，频率偏差系数越小，说明用户在监测区间内的提问使用标记知识库进行检索回答的数量可能减少，表示用户的兴趣发生改变，因此，使用用户被分配的知识库进行对用户提问的回答可能不合适。

所述兴趣变化系数的获取逻辑为：根据用户被分到的知识库类型，获得不同类型知识库中包含的主题，根据用户提问的历史记录获得用户关注的主题，并将用户关注的主题记作标记主题；

采集用户对标记主题感兴趣的初始时间，通过用户关于标记主题的第一次提问作为初始时间，采集用户对标记主题不感兴趣的时间，通过用户对主题的不感兴趣的反馈获得，获得用户对标记主题感兴趣的时间间隔，并将用户对标记主题感兴趣的时间间隔标记为：JG_k，其中，k＝1、2、3、……、K，K为正整数，k为标记主题的编号；

计算兴趣变化系数，计算公式为：XQ_bh＝JG_bzc×ln(JG_bzc+1)；其中，XQ_bh为兴趣变化系数。

由公式可知，兴趣变化系数越大，说明用户的兴趣变化较为频繁或者不稳定，在关注的主题之间的切换比较频繁，因此，使用用户被分到的知识库进行对用户提问的回答可能不合适。

将兴趣变化信息中通过分析用户提问的差异信息和本身用户兴趣点的周期信息综合性分析，将散度变化系数、频率偏差系数以及兴趣变化系数建立数学分析模型，生成兴趣评估系数，兴趣评估系数的计算公式为：其中，pg_xq为兴趣评估系数，α₁、α₂、α₃为散度变化系数、频率偏差系数、兴趣变化系数的比例系数，α₁、α₂、α₃大于0。

由公式可知，频率偏差系数越小、散度变化系数和兴趣变化系数越大，则兴趣评估系数越大，表示用户可能发生了兴趣的更大改变，使用用户被分到的知识库进行对用户提问的回答可能越不合适，反之，频率偏差系数越大、散度变化系数和兴趣变化系数越小，则兴趣评估系数越小，表示用户可能发生了兴趣的更小改变，使用用户被分到的知识库进行对用户提问的回答可能越合适。

设置兴趣评估系数阈值，将监测区间内的兴趣评估系数与兴趣评估系数阈值对比，若兴趣评估系数大于兴趣评估系数阈值，则基于监测区间用户的提问，重新使用分类模型确定用户被分到的知识库类型，系统根据用户被分到的知识库中存储的数据对用户的提问进行回答，若兴趣评估系数小于兴趣评估系数阈值，则保持使用标记知识库中的数据对用户的提问进行回答，即继续使用之前的答案提取策略。

本实施例通过使用分类模型对用户进行预分类，确定用户初始感兴趣的领域，系统根据用户初始感兴趣的领域，对相关数据知识库进行检索，提供用户可能需要的答案，并根据用户的多次提问，监测用户提问的兴趣变化信息，及时根据用户的兴趣变化更换答案提取策略，有助于根据不同用户选择不同的数据知识库，提供更加符合用户需求的答案。

上述公式均是去量纲取其数值计算，公式是由采集大量数据进行软件模拟得到最近真实情况的一个公式，公式中的预设参数由本领域的技术人员根据实际情况进行设置。

上述实施例，可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时，上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质。半导体介质可以是固态硬盘。

应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其他的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其他的形式。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-on l y memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于人工智能的数据知识库管理系统，其特征在于，包括数据知识库模块、用户预分类模块、智能问答模块、监测模块以及评估模块，模块之间信号连接；

评估模块，用于对兴趣变化信息综合性分析，生成兴趣评估系数，根据兴趣评估系数与兴趣评估系数阈值对比，判断是否更换答案提取策略；

其中，在监测区间内根据用户的提问采集用户的兴趣变化信息，包括：

兴趣变化信息从两方面进行考虑，其中，包括通过分析用户提问的差异信息和本身用户兴趣点的周期信息，差异信息通过散度变化系数和频率偏差系数表示，周期信息通过兴趣变化系数表示；

所述散度变化系数的获取逻辑为：

通过公式计算散度变化系数，计算公式为：其中，SD_bh为散度变化系数；

所述频率偏差系数的获取逻辑为：

通过公式计算频率偏差系数，计算公式为：其中，PL_pc为频率偏差系数；

所述兴趣变化系数的获取逻辑为：

通过公式计算兴趣变化系数，计算公式为：XQ_bh＝JG_bzc×ln(JG_bzc+1)；其中，XQ_bh为兴趣变化系数；

对兴趣变化信息综合性分析，生成兴趣评估系数，包括：

2.根据权利要求1所述的一种基于人工智能的数据知识库管理系统，其特征在于，判断是否更换答案提取策略，包括：