CN120849581A - 基于知识图谱的检索增强生成方法、装置及存储介质 - Google Patents
基于知识图谱的检索增强生成方法、装置及存储介质Info
- Publication number
- CN120849581A CN120849581A CN202510795983.0A CN202510795983A CN120849581A CN 120849581 A CN120849581 A CN 120849581A CN 202510795983 A CN202510795983 A CN 202510795983A CN 120849581 A CN120849581 A CN 120849581A
- Authority
- CN
- China
- Prior art keywords
- knowledge
- target
- graph
- sub
- retrieval
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation
- G06F16/33295—Natural language query formulation in dialogue systems
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/041—Abduction
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种基于知识图谱的检索增强生成方法、装置及存储介质,属于人工智能技术领域。方法包括:根据用户的问题从知识图谱中检索得到第一检索结果,以及根据问题从文本向量库中检索得到第二检索结果;对第一检索结果和第二检索结果进行整合得到与问题关联的多个目标知识子图;根据各个目标知识子图的来源可信度和与问题的相关程度对多个目标知识子图进行融合,得到聚合知识图谱;通过大语言模型基于聚合知识图谱生成问题对应的答案信息。本申请通过构建集文本向量库、知识图谱与检索于一体的算法框架,并且引入来源可信度和与问题的相关程度融合知识子图,能够减少冗余信息,强化关键信息,从而优化知识整合效果,提高问答的准确性。
Description
技术领域
本申请属于人工智能技术领域,尤其涉及一种基于知识图谱的检索增强生成方法、装置及存储介质。
背景技术
随着信息技术的飞速发展,信息呈现形式日益多元化,人们面临着海量文本资料的挑战。为了使人工智能系统充分释放潜能,在借助大型语言模型进行持续学习的过程中,需要引入新信息并实现高效的知识更新与利用。
检索增强生成广泛应用于引入新信息以增强语言模型的生成能力。其基本原理是通过检索模块从外部知识库中提取相关信息,并将其作为上下文输入到生成模块中,从而提升生成结果的准确性和丰富性。然而,传统的检索增强生成方法依赖单一的向量检索模式,难以有效处理结构复杂、语义多元的长文档,导致信息定位不精准、结果冗余或关键内容缺失,使得问答的准确性不高。
发明内容
本申请旨在至少解决现有技术中存在的技术问题之一。为此,本申请提出一种基于知识图谱的检索增强生成方法、装置及存储介质,以优化知识整合效果,提高问答的准确性。
第一方面,本申请提供了一种基于知识图谱的检索增强生成方法,包括:
根据用户的问题从知识图谱中检索得到第一检索结果,以及根据所述问题从文本向量库中检索得到第二检索结果;
对所述第一检索结果和第二检索结果进行整合得到与所述问题关联的多个目标知识子图;
根据各个所述目标知识子图的来源可信度和与所述问题的相关程度对多个所述目标知识子图进行融合,得到聚合知识图谱;
通过大语言模型基于所述聚合知识图谱生成所述问题对应的答案信息。
根据本申请的基于知识图谱的检索增强生成方法,通过根据用户的问题从知识图谱中检索得到第一检索结果,以及根据所述问题从文本向量库中检索得到第二检索结果;对所述第一检索结果和第二检索结果进行整合得到与所述问题关联的多个目标知识子图;根据各个所述目标知识子图的来源可信度和与所述问题的相关程度对多个所述目标知识子图进行融合,得到聚合知识图谱;通过大语言模型基于所述聚合知识图谱生成所述问题对应的答案信息。本申请实施例通过构建集文本向量库、知识图谱与检索于一体的算法框架,结合知识图谱和文本向量库的检索内容,为生成答案提供准确的知识框架和丰富的文本细节,并且引入来源可信度和与问题的相关程度融合知识子图,能够减少冗余信息,强化关键信息,从而优化知识整合效果,提高问答的准确性。
根据本申请的一个实施例,所述文本向量库根据以下方式建立:
根据文本标题、段落语义和标点符号将目标文本切分为多个段落单元;
通过文本嵌入模型将多个所述段落单元转换为段落向量并存储在文本向量库中。
在该实施例中,通过依据文本标题、段落语义和标点符号对目标文本进行切分,充分考虑了文本的自然结构和语义边界,使得段落单元在语义上保持相对完整性和独立性,将文本的语义信息转化为可计算的向量形式,使得文本内容能够在高维空间中进行有效的相似性度量和检索,将段落向量存储在文本向量库中,能够快速、准确地从海量文本中检索出与用户问题语义相关的内容,为答案的生成提供丰富的上下文信息。
根据本申请的一个实施例,所述知识图谱根据以下方式建立:
对多个所述段落单元进行语义解析,以提取知识三元组;
根据所述知识三元组创建知识图谱节点、关系和边,得到知识图谱;其中,所述知识图谱节点包括所述知识三元组中的实体和包含实体的段落;在包含实体的段落对应的段落向量之间的相似度大于阈值,则建立表征语义关系的边。
在该实施例中,通过对段落单元进行语义解析以提取知识三元组,将分散的文本信息转化为结构化的知识单元,根据知识三元组创建知识图谱的节点、关系和边,其中节点不仅包括知识三元组中的实体,还涵盖了包含实体的段落,不仅保留了实体的核心信息,还通过段落的引入丰富了知识的语义背景,并且通过计算包含实体的段落向量之间的相似度,并在相似度大于阈值时建立表征语义关系的边,进一步强化了知识图谱中节点之间的语义关联,使得知识图谱能够更准确地反映文本中复杂的语义结构和知识关系。
根据本申请的一个实施例,所述根据用户的问题从知识图谱中检索得到第一检索结果,以及根据所述问题从文本向量库中检索得到第二检索结果,包括:
对用户的问题进行语义解析,将所述问题进行拆解得到多个子问题;
根据多个所述子问题从知识图谱中检索得到第一检索结果,所述第一检索结果包括各个子问题对应的知识子图;
根据多个所述子问题从文本向量库中检索得到第二检索结果,所述第二检索结果包括各个子问题对应的段落向量。
在该实施例中,通过对用户问题进行语义解析并拆解为多个子问题,能够将复杂问题分解为更易于处理的简单问题单元,针对每个子问题分别从知识图谱和文本向量库中进行检索,使得检索结果更加专注于问题的细节,能够更全面地覆盖用户问题的各个方面,提高了检索结果的准确性和丰富性。
根据本申请的一个实施例,所述根据多个所述子问题从知识图谱中检索得到第一检索结果,包括:
通过所述大语言模型评估各个子问题的复杂度;
根据所述复杂度确定对各个子问题进行多跳检索的跳数;
根据所述跳数从知识图谱中进行多跳检索得到第一检索结果。
在该实施例中,通过利用大语言模型对各个子问题的复杂度进行评估,根据评估出的复杂度确定对各个子问题进行多跳检索的跳数,这种动态调整检索深度的方法能够应对不同复杂度的子问题,对于复杂度较高的子问题,增加跳数可以深入挖掘知识图谱中更深层次的语义关联和隐含信息,提高检索结果的全面性和准确性;而对于复杂度较低的子问题,减少跳数则可以提高检索效率,避免计算资源浪费。
根据本申请的一个实施例,所述根据各个所述目标知识子图的来源可信度和与所述问题的相关程度对多个所述目标知识子图进行融合,得到聚合知识图谱,包括:
根据各个所述目标知识子图的来源可信度和与所述问题的相关程度计算各个所述目标知识子图的动态权重;
通过图嵌入算法将各个所述目标知识子图转换为向量并通过聚类算法进行聚类;
根据所述动态权重对聚类得到的相同簇内的所述目标知识子图进行加权融合,得到聚合知识图谱。
在该实施例中,通过根据目标知识子图的来源可信度和与问题的相关程度计算动态权重,能够评估知识子图的质量和重要性,利用图嵌入算法将各个目标知识子图转换为向量形式,使得知识子图能够在高维空间中进行有效的相似性度量和聚类分析,通过聚类算法对向量化的知识子图进行聚类,能够将语义相似或结构相近的知识子图归为同一簇,从而实现对知识的初步整合和分类,根据动态权重对聚类得到的相同簇内的目标知识子图进行加权融合,能够进一步优化知识的组织结构,减少冗余信息,强化关键知识节点和关系,优化了知识整合效果。
根据本申请的一个实施例,所述通过大语言模型基于所述聚合知识图谱生成所述问题对应的答案信息,包括:
根据所述问题和所述聚合知识图谱构建思维导图;包括:将所述问题作为思维导图的中心节点,将所述问题进行拆分得到的多个子问题分别作为一级分支连接至所述中心节点,根据所述聚合知识图谱构建各个一级分支的下级分支,得到所述思维导图;
将所述思维导图转换为目标格式并输入到大语言模型中,得到所述大语言模型输出的初步答案信息;
通过所述大语言模型对所述初步答案信息进行评估,在评估未通过的情况下,根据所述初步答案信息的缺陷生成目标子问题,基于所述目标子问题更新所述思维导图并将更新后的思维导图转换为目标格式并输入到大语言模型中;
在评估通过的情况下,输出所述初步答案信息作为所述问题对应的答案信息。
在该实施例中,通过以问题为中心节点构建思维导图,并将拆分后的子问题作为一级分支连接至中心节点,通过结构化的组织方式呈现问题的多维度需求和逻辑关系,为大语言模型提供了系统化的输入框架,使得大语言模型能够更加准确和高效的输出答案信息,通过大语言模型对初步答案信息进行评估,能够及时发现答案中的缺陷或不足之处。如果评估未通过,可以根据初步答案的缺陷生成新的目标子问题,并更新思维导图,细化和补充问题的语义细节和知识需求,并根据更新后的思维导图重新生成答案,从而逐步优化答案的质量。
第二方面,本申请提供了一种基于知识图谱的检索增强生成装置,包括:
检索模块,用于根据用户的问题从知识图谱中检索得到第一检索结果,以及根据所述问题从文本向量库中检索得到第二检索结果;
整合模块,用于对所述第一检索结果和第二检索结果进行整合得到与所述问题关联的多个目标知识子图;
融合模块,用于根据各个所述目标知识子图的来源可信度和与所述问题的相关程度对多个所述目标知识子图进行融合,得到聚合知识图谱;
生成模块,用于通过大语言模型基于所述聚合知识图谱生成所述问题对应的答案信息。
根据本申请的基于知识图谱的检索增强生成装置,通过根据用户的问题从知识图谱中检索得到第一检索结果,以及根据所述问题从文本向量库中检索得到第二检索结果;对所述第一检索结果和第二检索结果进行整合得到与所述问题关联的多个目标知识子图;根据各个所述目标知识子图的来源可信度和与所述问题的相关程度对多个所述目标知识子图进行融合,得到聚合知识图谱;通过大语言模型基于所述聚合知识图谱生成所述问题对应的答案信息。本申请实施例通过构建集文本向量库、知识图谱与检索于一体的算法框架,结合知识图谱和文本向量库的检索内容,为生成答案提供准确的知识框架和丰富的文本细节,并且引入来源可信度和与问题的相关程度融合知识子图,能够减少冗余信息,强化关键信息,从而优化知识整合效果,提高问答的准确性。
第三方面,本申请提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的基于知识图谱的检索增强生成方法。
第四方面,本申请提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的基于知识图谱的检索增强生成方法。
第五方面,本申请提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如上述第一方面所述的基于知识图谱的检索增强生成方法。
第六方面,本申请提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的基于知识图谱的检索增强生成方法。
本申请实施例中的上述一个或多个技术方案,至少具有如下技术效果之一:
根据本申请的基于知识图谱的检索增强生成方法,通过根据用户的问题从知识图谱中检索得到第一检索结果,以及根据所述问题从文本向量库中检索得到第二检索结果;对所述第一检索结果和第二检索结果进行整合得到与所述问题关联的多个目标知识子图;根据各个所述目标知识子图的来源可信度和与所述问题的相关程度对多个所述目标知识子图进行融合,得到聚合知识图谱;通过大语言模型基于所述聚合知识图谱生成所述问题对应的答案信息。本申请实施例通过构建集文本向量库、知识图谱与检索于一体的算法框架,结合知识图谱和文本向量库的检索内容,为生成答案提供准确的知识框架和丰富的文本细节,并且引入来源可信度和与问题的相关程度融合知识子图,能够减少冗余信息,强化关键信息,从而优化知识整合效果,提高问答的准确性。
进一步地,在一些实施例中,通过依据文本标题、段落语义和标点符号对目标文本进行切分,充分考虑了文本的自然结构和语义边界,使得段落单元在语义上保持相对完整性和独立性,将文本的语义信息转化为可计算的向量形式,使得文本内容能够在高维空间中进行有效的相似性度量和检索,将段落向量存储在文本向量库中,能够快速、准确地从海量文本中检索出与用户问题语义相关的内容,为答案的生成提供丰富的上下文信息。
进一步地,在一些实施例中,通过对段落单元进行语义解析以提取知识三元组,将分散的文本信息转化为结构化的知识单元,根据知识三元组创建知识图谱的节点、关系和边,其中节点不仅包括知识三元组中的实体,还涵盖了包含实体的段落,不仅保留了实体的核心信息,还通过段落的引入丰富了知识的语义背景,并且通过计算包含实体的段落向量之间的相似度,并在相似度大于阈值时建立表征语义关系的边,进一步强化了知识图谱中节点之间的语义关联,使得知识图谱能够更准确地反映文本中复杂的语义结构和知识关系。
进一步地,在一些实施例中,通过对用户问题进行语义解析并拆解为多个子问题,能够将复杂问题分解为更易于处理的简单问题单元,针对每个子问题分别从知识图谱和文本向量库中进行检索,使得检索结果更加专注于问题的细节,能够更全面地覆盖用户问题的各个方面,提高了检索结果的准确性和丰富性。
更进一步地,在一些实施例中,通过利用大语言模型对各个子问题的复杂度进行评估,根据评估出的复杂度确定对各个子问题进行多跳检索的跳数,这种动态调整检索深度的方法能够应对不同复杂度的子问题,对于复杂度较高的子问题,增加跳数可以深入挖掘知识图谱中更深层次的语义关联和隐含信息,提高检索结果的全面性和准确性;而对于复杂度较低的子问题,减少跳数则可以提高检索效率,避免计算资源浪费。
再进一步地,在一些实施例中,通过根据目标知识子图的来源可信度和与问题的相关程度计算动态权重,能够评估知识子图的质量和重要性,利用图嵌入算法将各个目标知识子图转换为向量形式,使得知识子图能够在高维空间中进行有效的相似性度量和聚类分析,通过聚类算法对向量化的知识子图进行聚类,能够将语义相似或结构相近的知识子图归为同一簇,从而实现对知识的初步整合和分类,根据动态权重对聚类得到的相同簇内的目标知识子图进行加权融合,能够进一步优化知识的组织结构,减少冗余信息,强化关键知识节点和关系,优化了知识整合效果。
再进一步地,在一些实施例中,通过以问题为中心节点构建思维导图,并将拆分后的子问题作为一级分支连接至中心节点,通过结构化的组织方式呈现问题的多维度需求和逻辑关系,为大语言模型提供了系统化的输入框架,使得大语言模型能够更加准确和高效的输出答案信息,通过大语言模型对初步答案信息进行评估,能够及时发现答案中的缺陷或不足之处。如果评估未通过,可以根据初步答案的缺陷生成新的目标子问题,并更新思维导图,细化和补充问题的语义细节和知识需求,并根据更新后的思维导图重新生成答案,从而逐步优化答案的质量。
本申请的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请的上述和/或附加的方面和优点结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是本申请实施例提供的基于知识图谱的检索增强生成方法的流程示意图;
图2是本申请实施例提供的场景示例的示意图;
图3是本申请实施例提供的基于知识图谱的检索增强生成装置的结构示意图;
图4是本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的基于知识图谱的检索增强生成方法、装置及存储介质进行详细地说明。
其中,基于知识图谱的检索增强生成方法可应用于终端,具体可由,终端中的硬件或软件执行。
该终端包括但不限于具有触摸敏感表面(例如,触摸屏显示器和/或触摸板)的移动电话或平板电脑等便携式通信设备。还应当理解的是,在某些实施例中,该终端可以不是便携式通信设备,而是具有触摸敏感表面(例如,触摸屏显示器和/或触摸板)的台式计算机。
以下各个实施例中,描述了包括显示器和触摸敏感表面的终端。然而,应当理解的是,终端可以包括诸如物理键盘、鼠标和控制杆的一个或多个其它物理用户接口设备。
本申请实施例提供的基于知识图谱的检索增强生成方法,该基于知识图谱的检索增强生成方法的执行主体可以为电子设备或者电子设备中能够实现该基于知识图谱的检索增强生成方法的功能模块或功能实体,本申请实施例提及的电子设备包括但不限于手机、平板电脑、电脑、相机和可穿戴设备等,下面以电子设备作为执行主体为例对本申请实施例提供的基于知识图谱的检索增强生成方法进行说明。
如图1所示,该基于知识图谱的检索增强生成方法包括:步骤110、步骤120、步骤130和步骤140。
步骤110、根据用户的问题从知识图谱中检索得到第一检索结果,以及根据问题从文本向量库中检索得到第二检索结果。
知识图谱是一种语义网络,它以图形化的方式,通过节点和边的形式将现实世界中的实体以及实体之间的关系进行结构化表示。实体可以是具体的事物,如人名、地名、产品名,也可以是抽象的概念,如学科、理论等;关系描述了实体之间的关联,例如“出生于”“包含”“属于”等。通过这种结构化的数据组织形式,知识图谱能够清晰地呈现知识之间的内在联系。
文本向量库是是将文本内容转换为向量形式进行存储和处理的一种方式。通过自然语言处理技术,如词嵌入(word embedding)或句子嵌入(sentence embedding)等方法,可以将文本中的词汇、句子或段落映射到高维空间中的向量。这些向量能够捕捉文本的语义信息,使得相似语义的文本在向量空间中距离较近。
用户的问题,是用户基于自身需求,以自然语言形式提出的查询请求。用户的问题可能是一个简单的事实性问题,如“中国最大的岛屿是哪个?”,也可能是复杂的分析性问题,如“人工智能对未来就业市场有哪些潜在影响?”。用户的问题中蕴含着关键的关键词和语义信息,这些信息可以作为检索的依据,从知识图谱和文本向量库中获取相关的知识和信息。
在获取用户输入的问题后,可以对问题进行语义分析,提取问题中的关键实体和语义关系。例如,对于“李白的代表作有哪些?”这个问题,“李白”就是关键实体,“代表作”体现了实体与其他内容之间的关系。接着可以在知识图谱中搜索与这些关键实体和关系相匹配的节点和边。以知识图谱的结构特性,能够快速定位到与“李白”相关的节点,并沿着“代表作”这一关系边,找到对应的作品节点,可以将这些相关的节点和边组成的知识子图作为第一检索结果。
从文本向量库中检索得到第二检索结果的过程,需要先对问题进行处理,可以通过文本嵌入模型将问题转化为向量形式,然后在文本向量库中计算问题向量与文本向量库中段落向量的相似度。例如,可以通过余弦相似度、欧氏距离等相似度度量方法计算相似度,筛选出与问题向量相似度较高的段落向量,再将这些段落向量对应的原始文本提取出来,形成第二检索结果。由于文本向量库存储的是大量文本资料,通过这种检索方式能够从丰富的文本细节中获取与问题相关的信息,为后续答案生成提供更全面的内容支撑。
步骤120、对第一检索结果和第二检索结果进行整合得到与问题关联的多个目标知识子图。
在本申请实施例中,第一检索结果中的知识子图以结构化的“实体-关系-实体”三元组为核心表示,例如“李白(实体)-代表作(关系)-《静夜思》(实体)”,包含明确的实体节点、关系类型及属性信息(如作者生卒年、作品创作时间等)。
第二检索结果以非结构化段落单元为主,例如“李白是唐代著名诗人,其代表作包括《静夜思》《将进酒》等,诗歌风格豪放飘逸”。虽然也包含实体信息,但相对零散。
在整合过程中,需要识别第一检索结果和第二检索结果中重复的节点,并将它们合并为一个统一的节点。具体的,可以通过实体识别技术,从段落单元中提取实体,并利用实体链接算法,将这些实体与知识子图中的对应节点进行匹配。若发现重复实体,则保留知识子图中唯一的实体节点,并将文本段落中该实体的属性补充到知识子图的节点属性中。例如,当知识子图中有“杜甫”节点,而文本段落中提及“杜甫,字子美,自号少陵野老”时,可以将“字子美”“自号少陵野老”等属性合并到知识子图的“杜甫”节点上。
对于知识子图中由段落单元构建的段落节点,可以计算各个段落节点的段落向量之间的相似度,当相似度超过预设阈值时,将这些高相似度的段落节点进行合并。合并时,优先保留信息更丰富、描述更全面的段落内容,并去除重复部分,从而减少冗余信息对后续处理的干扰,同时将相似内容整合,使得信息更加精炼、集中。在对段落节点合并后,可以结合第二检索结果对段落节点的“描述”关系进行调整,使得“描述”关系能够准确反应段落节点的特征。
步骤130、根据各个目标知识子图的来源可信度和与问题的相关程度对多个目标知识子图进行融合,得到聚合知识图谱。
在本申请实施例中,来源可信度反映了目标知识子图的可靠程度,来源可信度的判定与数据源头的权威性相关。例如,目标知识子图中的信息来自专业学术数据库、权威机构发布的内容,来源可信度较高;而从普通论坛、用户生成内容中提取的目标知识子图,来源可信度则相对较低。可以为不同来源预先设定权重,例如将学术期刊权重设为0.8,普通网页权重设为0.3,从而量化目标知识子图的可靠程度。
相关程度可以评估目标知识子图与用户提问的关联性确定。具体的,可以通过语义匹配算法,计算目标知识子图中实体、关系和文本描述与问题关键词、语义意图的契合度。例如,对于“人工智能在医疗影像诊断中的应用”这一问题,包含“人工智能”“医疗影像”“诊断算法”等相关实体和关系的目标知识子图,相关程度得分更高;而仅涉及“人工智能发展历史”的目标知识子图,与问题的相关性较弱。
在一些实施例中,可以通过目标知识子图的来源可信度和与问题的相关程度进行加权计算,得到各个目标知识子图的综合价值评分,根据综合评分对目标知识子图进行优先级排序。评分高的目标知识子图在融合过程中占据主导地位,对于评分较低但仍有补充价值的目标知识子图,会进行内容筛选,提取与高评分目标知识子图不冲突且能丰富知识细节的部分进行融合。例如,若高评分目标知识子图包含“人工智能在医疗影像诊断中的基础算法”,低评分目标知识子图中关于“最新研究的优化算法”内容则可补充进来,完善知识体系。在融合具体操作中,对于重复的实体和关系,可以根据目标知识子图的综合评分决定保留或更新。若高评分目标知识子图与低评分目标知识子图存在同一实体的不同属性描述,可以优先采用高评分目标知识子图的属性。通过这种动态调整机制,能够减少冗余信息,强化关键信息,从而优化知识整合效果。
步骤140、通过大语言模型基于聚合知识图谱生成问题对应的答案信息。
在本申请实施例中,大语言模型(Large Language Model,LLM)可以利用聚合知识图谱的知识,结合自身的语言知识和逻辑推理能力,生成问题对应的答案信息。这一过程是一种检索增强(Retrieval-Augmented Generation,RAG)技术的应用。具体的,大语言模型通过检索模块从外部知识源(如聚合知识图谱)中提取与问题相关的知识片段,这些知识片段整合到大语言模型的上下文中,从而增强了大语言模型的知识储备。大语言模型结合这些检索到的知识,以及自身的语言知识和逻辑推理能力,生成自然语言答案。这种检索增强技术能够使生成的答案更加准确和丰富。
根据本申请的基于知识图谱的检索增强生成方法,通过根据用户的问题从知识图谱中检索得到第一检索结果,以及根据问题从文本向量库中检索得到第二检索结果;对第一检索结果和第二检索结果进行整合得到与问题关联的多个目标知识子图;根据各个目标知识子图的来源可信度和与问题的相关程度对多个目标知识子图进行融合,得到聚合知识图谱;通过大语言模型基于聚合知识图谱生成问题对应的答案信息。本申请实施例通过构建集文本向量库、知识图谱与检索于一体的算法框架,结合知识图谱和文本向量库的检索内容,为生成答案提供准确的知识框架和丰富的文本细节,并且引入来源可信度和与问题的相关程度融合知识子图,能够减少冗余信息,强化关键信息,从而优化知识整合效果,提高问答的准确性。
在一些实施例中,文本向量库根据以下方式建立:
根据文本标题、段落语义和标点符号将目标文本切分为多个段落单元;
通过文本嵌入模型将多个段落单元转换为段落向量并存储在文本向量库中。
在该实施例中,目标文本可以是任意类型的文档,如新闻文章、学术论文、网页内容等。
文本切分的过程可以综合考虑多个因素,如文本标题、段落语义和标点符号等,从而使得切分后的段落单元具有清晰的语义边界。
其中,文本标题通常概括了文本的主要内容,可以帮助识别文本的结构。例如,一个新闻文章的标题可能指明了文章的核心主题,而每个小标题则可能对应一个具体的段落。段落语义通常是围绕一个中心思想展开的,因此在切分时,可以识别出这些语义上的转折点。例如,当文本从一个主题转向另一个主题时,可以将其划分为不同的段落单元。标点符号如句号、分号和换行符等通常标志着句子的结束或段落的分隔。通过综合考虑文本标题、段落语义和标点符号,可以将目标文本切分为多个具有独立语义的段落单元。
文本嵌入模型是实现文本向量化的核心工具,它基于深度学习架构,如BERT(BidirectionalEncoder Representations from Transformers)、GPT(Generative Pre-trained Transformer)系列模型的变体等,能够捕捉文本的语义特征并映射为向量空间中的点。
在一些实施例中,在将段落单元转换为向量之前,可以对每个段落单元进行预处理,如分词、去除停用词、词性标注等操作。然后,将预处理后的段落单元输入到文本嵌入模型中,文本嵌入模型会输出一个高维向量,即段落单元的语义表示。
生成的段落向量可以存储在文本向量库中。存储时,可以为每个段落向量分配唯一的标识,便于后续检索。此外,为了提高检索效率,还可以采用一些索引技术,如倒排索引、向量索引(如FAISS库支持的多种索引结构)等。这些索引能够快速定位与查询相关的段落向量,使得在需要从文本向量库中检索信息时,可以迅速找到与用户问题语义相近的段落。
在该实施例中,通过依据文本标题、段落语义和标点符号对目标文本进行切分,充分考虑了文本的自然结构和语义边界,使得段落单元在语义上保持相对完整性和独立性,将文本的语义信息转化为可计算的向量形式,使得文本内容能够在高维空间中进行有效的相似性度量和检索,将段落向量存储在文本向量库中,能够快速、准确地从海量文本中检索出与用户问题语义相关的内容,为答案的生成提供丰富的上下文信息。
在一些实施例中,知识图谱根据以下方式建立:
对多个段落单元进行语义解析,以提取知识三元组;
根据知识三元组创建知识图谱节点、关系和边,得到知识图谱;其中,知识图谱节点包括知识三元组中的实体和包含实体的段落;在包含实体的段落对应的段落向量之间的相似度大于阈值,则建立表征语义关系的边。
在该实施例中,知识三元组可以包括实体、关系和属性,或者实体、关系和特征,或者实体、关系和另一个实体,或者实体、属性和属性值等。例如,例如在“故宫博物院收藏了大量珍贵文物”这个段落中,可以提取到知识三元组:故宫博物院(实体)-收藏(关系)-珍贵文物(实体)。
具体的,可以通过自然语言处理技术,如命名实体识别(Named EntityRecognition,NER)、关系抽取(Relation Extraction,RE)等,对段落单元进行语义解析。命名实体识别技术可以从段落单元中找出具有特定意义的实体,这些实体可以是人名、地名、机构名、概念术语等。例如在“故宫博物院收藏了大量珍贵文物”这个段落单元中,通过命名实体识别能够提取出“故宫博物院”和“珍贵文物”两个实体。
关系抽取技术可以进一步挖掘实体之间的语义关系,分析实体在句子中的语法结构和语义角色,从而确定它们之间的关联。在上述例子中,通过关系抽取可以明确“故宫博物院”和“珍贵文物”之间存在“收藏”关系。将识别出的两个实体与它们之间的关系组合起来,就形成了“故宫博物院-收藏-珍贵文物”这样的知识三元组。通过对各个段落单元进行语义解析,可以提取出大量的知识三元组。
节点是知识图谱的基本组成单元,代表着现实世界中的具体事物或抽象概念。在该实施例中,知识图谱的节点可以包括实体节点和段落节点。
实体节点对应知识三元组中的实体,根据知识三元组中的实体可以创建实体节点,知识三元组中的关系可以作为连接实体节点的桥梁,创建知识图谱的关系和边。例如,“故宫博物院-收藏-珍贵文物”这个知识三元组中,“收藏”关系会在“故宫博物院”实体节点和“珍贵文物”实体节点之间建立一条有向边,明确指示关系的方向和类型。通过将多个知识三元组转化为节点、关系和边,从而搭建知识图谱。
由于段落单元承载着对实体更详细的描述和解释信息,可以将包含实体的段落单元作为段落节点加入到知识图谱中,以丰富知识图谱中的知识。具体的,可以计算段落单元对应的段落向量之间的相似度,在任意两个包含实体的段落单元对应的段落向量之间的相似度大于阈值的情况下,说明这些段落单元虽然表述不同,但在语义上高度相关,可以为这两个段落单元对应的段落节点之间建立表征语义关系的边。例如,一个段落单元描述“故宫博物院的文物涵盖书画、青铜器等多个类别”,另一个段落单元阐述“故宫博物院收藏的书画作品具有极高的艺术价值”,这两个段落单元对应的段落向量相似度若高于阈值,就可以在它们对应的段落节点之间建立一条边,并标注相应的语义关系,如“相关描述”。通过这种方式,知识图谱不仅包含了实体间的直接关系,还拓展了段落间的语义关联,使整个图谱的知识网络更加丰富和完善。
在该实施例中,通过对段落单元进行语义解析以提取知识三元组,将分散的文本信息转化为结构化的知识单元,根据知识三元组创建知识图谱的节点、关系和边,其中节点不仅包括知识三元组中的实体,还涵盖了包含实体的段落,不仅保留了实体的核心信息,还通过段落的引入丰富了知识的语义背景,并且通过计算包含实体的段落向量之间的相似度,并在相似度大于阈值时建立表征语义关系的边,进一步强化了知识图谱中节点之间的语义关联,使得知识图谱能够更准确地反映文本中复杂的语义结构和知识关系。
在一个场景示例中,文本向量库和知识图谱的建立过程如图2所示。
在该场景示例中,可以对获取的文本进行文本分段处理。具体的,可以基于文本中的大小标题、段落的语义内容以及标点符号,将文本切分成多个主题明确、内容相对独立的段落单元。
在该场景示例中,可以使用文本嵌入模型,如text-embedding-v3,将分段后的每个段落单元转化为嵌入特征向量,并存储在向量数据库中,形成段落向量库,支持快速检索。
在该场景示例中,可以使用大语言模型,如GPT-4,对各段落单元进行深度语义解析,从中提取实体、关系及属性,形成“实体-关系-实体”或“实体-属性-属性值”的知识三元组。
在完成知识三元组的抽取后,可以将知识三元组中的实体作为知识图谱的实体节点,并补充每个实体节点的名称、类型及属性信息。对于包含实体的段落,也创建相应的段落节点,并存储段落向量与原文,以便后续的语义分析和检索。
在实体节点间根据关系类型建立边。对于段落节点,可以通过“描述”关系连接相关的实体节点,并与文本关联。此外,还可以计算段落节点对应的段落向量之间的相似度,如果相似度超过设定的阈值,则在这些段落节点间建立“语义相关”边。将构建的知识图谱存入Neo4j等图数据库,融合文本段落与语义信息。
在一些实施例中,根据用户的问题从知识图谱中检索得到第一检索结果,以及根据问题从文本向量库中检索得到第二检索结果,包括:
对用户的问题进行语义解析,将问题进行拆解得到多个子问题;
根据多个子问题从知识图谱中检索得到第一检索结果,第一检索结果包括各个子问题对应的知识子图;
根据多个子问题从文本向量库中检索得到第二检索结果,第二检索结果包括各个子问题对应的段落向量。
在该实施例中,当用户提出问题后,直接进行检索可能难以准确获取全面且合适的信息。因为用户问题可能复杂多样,包含多个语义重点或子主题。所以需要先对问题进行处理,拆解为更细粒度的子问题。具体的,对于用户输入的问题q,可以利用大语言模型对问题q进行语义解析,提取问题q中的关键实体、关系、动作等,将问题q拆解为子问题集合{q1,q2,...,qN,},其中N表示子问题的数量。例如,对于用户的问题“人工智能在医疗影像诊断中的应用优势和发展趋势”,可以拆解为“人工智能在医疗影像诊断中有哪些应用优势?”和“人工智能在医疗影像诊断中的发展趋势是怎样的?”两个子问题。
知识图谱是一个结构化的语义网络,包含实体、关系和属性等丰富信息。可以根据子问题中的关键词和实体,在知识图谱中进行实体识别和关系匹配,找到相关的节点和关系。例如,对于上述子问题“人工智能在医疗影像诊断中有哪些应用优势?”,在检索过程中,可以从知识图谱中找出“人工智能”和“医疗影像诊断”这两个实体节点和相关的段落节点,然后,沿着实体节点之间的关系边,寻找与“应用优势”相关的关系。比如在知识图谱中,可能存在“人工智能-应用优势-提高诊断效率”、“人工智能-应用优势-降低误诊率”等类似的知识三元组,可以将这些与子问题相关的知识三元组组合起来,形成知识子图,多个子问题对应的知识子图共同构成了第一检索结果。
在该实施例中,文本向量库中的段落向量是通过文本嵌入模型将段落单元转化而来的,每个段落向量都蕴含着对应段落单元的语义信息。可以通过文本嵌入模型将各个子问题转化为向量形式,然后利用向量相似度计算方法,如余弦相似度算法计算相似度,根据相似度从文本向量库中筛选与子问题相关性高的段落向量。以“人工智能在医疗影像诊断中的发展趋势是怎样的?”这个子问题为例,转化为向量后,在文本向量库中寻找与该子问题对应的向量相似度较高的段落向量。当某个段落向量与子问题向量的相似度超过预设阈值时,说明对应的段落单元与子问题相关,可以筛选出这些与子问题相关的段落向量,并提取段落向量对应的段落单元,从而形成第二检索结果。
在该实施例中,通过对用户问题进行语义解析并拆解为多个子问题,能够将复杂问题分解为更易于处理的简单问题单元,针对每个子问题分别从知识图谱和文本向量库中进行检索,使得检索结果更加专注于问题的细节,能够更全面地覆盖用户问题的各个方面,提高了检索结果的准确性和丰富性。
在一些实施例中,根据多个子问题从知识图谱中检索得到第一检索结果,包括:
通过大语言模型评估各个子问题的复杂度;
根据复杂度确定对各个子问题进行多跳检索的跳数;
根据跳数从知识图谱中进行多跳检索得到第一检索结果。
在从知识图谱中检索与子问题相关信息时,不同子问题的复杂程度差异很大。简单的子问题可能直接能在知识图谱中找到明确答案,而复杂的子问题往往需要经过多步推理、关联多个知识节点才能得到答案。因此,先评估子问题复杂度,再据此确定检索策略,能更高效准确地获取所需知识,避免检索过度或不足。
在该实施例中,可以通过大语言模型评估各个子问题的复杂度。大语言模型可以对问题进行深度语义剖析,从词汇、语法、语义等多个层面理解子问题的内涵。例如对于子问题“人工智能在医疗影像诊断中的算法原理是什么?”,大语言模型可以识别出“人工智能”、“医疗影像诊断”、“算法原理”等概念,分析它们之间的语义关联以及问题的整体意图,大语言模型会基于自身学到的语言知识和模式,结合对大量不同复杂度问题的理解经验,对该子问题的复杂度进行评估。例如,上述子问题涉及人工智能技术领域和医疗影像诊断专业领域,且要深入到算法原理层面,大语言模型会判定该子问题具有较高复杂度。通过这种方式,大语言模型为每个子问题给出一个相对合理的复杂度评估结果。
在多跳检索中,跳数是在知识图谱中从一个实体跳转到另一个相关实体的次数,跳数决定了在知识图谱中沿着关系边进行检索的步数。在该实施例中,跳数可以根据子问题的复杂度确定,复杂度高的子问题对应的跳数大于复杂度低的子问题对应的跳数,因为复杂度较高的子问题可能需要更多的跳数来获取足够的信息。对于复杂度较低的子问题,例如“人工智能在医疗影像诊断中有哪些常见应用?”,可能涉及简单的实体-关系查询,可以对应较少的跳数,比如1-2跳。对于复杂度较高的子问题“人工智能在医疗影像诊断中的算法原理是什么?”,由于需要深入到算法层面,可能涉及多个中间概念和关系,可以对应较多的跳数,比如3-5跳甚至更多,检索过程中需要在知识图谱中多次跳转,从“人工智能”节点出发,可能先跳到“机器学习算法”节点,再从“机器学习算法”节点跳到“卷积神经网络”节点,逐步逼近最终答案所在的知识节点。
确定好跳数后,可以在知识图谱中进行多跳检索。以某个子问题为例,从与子问题相关的起始节点出发,按照确定的跳数沿着知识图谱的关系边进行遍历,每一跳都会访问到新的知识节点,获取到相关的实体、关系和属性信息。
在该实施例中,通过利用大语言模型对各个子问题的复杂度进行评估,根据评估出的复杂度确定对各个子问题进行多跳检索的跳数,这种动态调整检索深度的方法能够应对不同复杂度的子问题,对于复杂度较高的子问题,增加跳数可以深入挖掘知识图谱中更深层次的语义关联和隐含信息,提高检索结果的全面性和准确性;而对于复杂度较低的子问题,减少跳数则可以提高检索效率,避免计算资源浪费。
在一些实施例中,根据各个目标知识子图的来源可信度和与问题的相关程度对多个目标知识子图进行融合,得到聚合知识图谱,包括:
根据各个目标知识子图的来源可信度和与问题的相关程度计算各个目标知识子图的动态权重;
通过图嵌入算法将各个目标知识子图转换为向量并通过聚类算法进行聚类;
根据动态权重对聚类得到的相同簇内的目标知识子图进行加权融合,得到聚合知识图谱。
由于各个目标知识子图来源不同、与问题相关程度有差异,存在信息分散、质量参差不齐等情况。为了能给后续应用提供更优质、整合的知识资源,可以对这些目标知识子图进行融合,形成聚合知识图谱。
在该实施例中,可以根据目标知识子图的来源可信度和与问题的相关程度来确定各个目标知识子图的重要性,为重要性高的目标知识子图赋予更高的动态权重。具体的,像来自权威学术文档、专业机构发布资料的目标知识子图,可靠性高,可以将权重设为1.5,而普通文档来源的目标知识子图,权重设可以设为1。
与问题的相关程度可以通过余弦相似度等算法来衡量。具体的,可以计算每个目标知识子图与问题在语义层面的相似度,与问题语义契合度高,相关程度得分就高。综合来源可信度和相关程度,可以为每个目标知识子图计算出对应的动态权重。
在该实施例中,为了便于对目标知识子图进行处理和分析,可以将目标知识子图转化为向量形式。具体的,可以采用图嵌入算法,如GraphSAGE(Graph Sample andAggregation,图采样与聚合)、GAT(Graph Attention Network,图注意力网络)等,捕捉目标知识子图的结构特征和语义信息,将目标知识子图中的节点、边及其关系映射到低维向量空间中,得到各个目标知识子图的向量表示。
在该实施例中,可以使用聚类算法对各个目标知识子图的向量表示进行聚类。聚类算法可以根据各个目标知识子图的向量之间的相似度,将相似的目标知识子图划分到同一个簇中。
在完成聚类后,对于每个簇内的目标知识子图,可以根据目标知识子图对应的动态权重进行加权融合。动态权重高的目标知识子图在融合过程中会占据更大比重,所包含的实体、关系和属性等信息可以更多地被保留和整合。例如,在一个簇中有两个目标知识子图,目标知识子图A动态权重为1.5,目标知识子图B动态权重为1,在融合时,目标知识子图A的信息会相对更多地融入到新的知识结构中。
融合过程中,可以整合节点属性,减少重要信息的稀释。例如两个目标知识子图中都有“人工智能”实体节点,但属性描述不同,可以根据动态权重考虑保留的属性,例如可以保留动态权重高的目标知识子图中的属性。融合过程中,还会合并相似的段落节点,优化段落节点之间的关联关系。经过对所有簇内的目标知识子图的加权融合,可以得到一个聚合知识图谱。聚合知识图谱整合了多个目标知识子图的精华信息,结构更清晰、知识更全面。
在该实施例中,通过根据目标知识子图的来源可信度和与问题的相关程度计算动态权重,能够评估知识子图的质量和重要性,利用图嵌入算法将各个目标知识子图转换为向量形式,使得知识子图能够在高维空间中进行有效的相似性度量和聚类分析,通过聚类算法对向量化的知识子图进行聚类,能够将语义相似或结构相近的知识子图归为同一簇,从而实现对知识的初步整合和分类,根据动态权重对聚类得到的相同簇内的目标知识子图进行加权融合,能够进一步优化知识的组织结构,减少冗余信息,强化关键知识节点和关系,优化了知识整合效果。
在一些实施例中,通过大语言模型基于聚合知识图谱生成问题对应的答案信息,包括:
根据问题和聚合知识图谱构建思维导图;包括:根据问题和聚合知识图谱构建思维导图;包括:将问题作为思维导图的中心节点,将问题进行拆分得到的多个子问题分别作为一级分支连接至中心节点,根据聚合知识图谱构建各个一级分支的下级分支,得到思维导图;
将思维导图转换为目标格式并输入到大语言模型中,得到大语言模型输出的初步答案信息;
通过大语言模型对初步答案信息进行评估,在评估未通过的情况下,根据初步答案信息的缺陷生成目标子问题,基于目标子问题更新思维导图并将更新后的思维导图转换为目标格式并输入到大语言模型中;
在评估通过的情况下,输出初步答案信息作为问题对应的答案信息。
在该实施例中,可以将聚合知识图谱和用户问题构建为思维导图,以可视化的方式组织信息,为大语言模型提供清晰的推理路径。
具体的,可以将用户的问题作为思维导图的中心节点,后续的知识扩展和推理都围绕这个中心节点展开。接着可以将问题拆分得到的多个子问题分别作为一级分支连接至中心节点,从而更清晰地展示问题的各个维度,形成思维导图的基本框架。
进一步的,可以通过扩展二级分支或者以下分支对各个子问题对应的一级分支进行细化。具体的,可以从各子问题出发,选取聚合知识图谱中的关键实体节点、段落节点作为二级分支。对于实体节点,可以根据属性和子实体进行扩展;对于段落节点,可以根据内容摘要或关键信息进行展开。这样,每个子问题都通过二级分支与聚合知识图谱中的相关信息相连,形成一个结构化的信息网络。
为了使大语言模型能够更清晰、全面地理解聚合知识图谱的结构与内容,以及问题推理过程中的关键信息,可以将思维导图转换为XML(Extensible Markup Language)格式。
在XML格式中,以<思维导图>作为根标签,围绕中心问题、子问题构建整体框架。根标签下包含中心问题标签和多个子问题标签,每个子问题标签又包含节点、关系等基础信息标签。
子问题标签下的各个信息标签都有特定的作用。其中,<节点>标签用于描述实体节点或段落节点的详细信息,包括节点类型、名称、属性以及段落内容摘要等。<关系>标签记录了节点之间的关联,明确了知识之间的逻辑联系。<子图权重>标签记录了知识子图融合时的权重,体现了不同来源知识的可信度和与问题的相关性。<时间戳>标签标记了检索时间,让大语言模型了解知识的时效性。<用户标记>标签标识了用户类型或行为特征,有助于大语言模型根据用户特点调整回答策略。<总结节点>标签用于存放子问题相关汇总信息,为大语言模型提供了对该子问题的综合理解。<最终问题>标签记录了经迭代优化后的最终推理问题,使得大语言模型处理的是最准确的问题表述。<大模型思考过程>标签记录了推理步骤与关键判断,便于大语言模型理解推理逻辑并生成更准确的答案。
具体XML格式如下:
<思维导图>
<中心问题>原始问题文本</中心问题>
<子问题>
<问题文本>子问题文本</问题文本>
<节点>
<类型>实体节点/段落节点</类型>
<名称>节点名称</名称>
<属性>
<属性名>属性值</属性名>
<!--可按需添加多个属性-->
</属性>
<内容摘要>段落内容摘要(仅段落节点有)</内容摘要>
</节点>
<关系>
<源节点>源节点名称</源节点>
<目标节点>目标节点名称</目标节点>
<关系类型>关系描述</关系类型>
</关系>
<子图权重>子图权重数值</子图权重>
<时间戳>检索时间</时间戳>
<用户标记>用户类型/行为标记</用户标记>
<总结节点>用于汇总子问题相关实体、段落及初步答案的总结内容</总结节点>
</子问题>
<最终问题>经迭代优化后确定的最终用于大模型推理的完整问题表述</最终问题>
<大模型思考过程>
<推理步骤>大模型基于输入信息进行推理的具体步骤及依据</推理步骤>
<关键判断>推理过程中的关键决策点及判断逻辑</关键判断>
</大模型思考过程>
<!--可添加多个子问题-->
</思维导图>
在该实施例中,可以将XML格式的思维导图输入到大语言模型中。对于每个子问题,可以汇总展开的实体、段落等信息至各子问题对应的<总结节点>,大语言模型在推理过程中,会结合这些信息生成初步答案,并将答案填入相应的位置。
大语言模型生成初步答案后,可以利用大语言模型自身对初步答案的完整性与准确性进行评估。评估过程中,可以通过大语言模型检查初步答案是否涵盖了所有关键要点,是否与已知的知识相矛盾,是否能够合理回答用户的问题。
若评估发现初步答案存在不足,可以通过大语言模型分析知识缺口,确定哪些信息是生成完整准确答案所必需的。例如,如果初步答案未能充分解释“人工智能在医疗影像诊断中的应用挑战”,可以识别出这一知识缺口,并生成相应的目标子问题,如“当前人工智能医疗影像诊断技术面临的主要技术瓶颈是什么?”。生成目标子问题后,可以重复步骤110-步骤130,并对思维导图进行更新。具体的,可以将目标子问题添加到思维导图中,作为新的一级分支或对现有分支的补充,然后从聚合知识图谱中获取相关信息,扩展思维导图的二级及以下分支,以及将更新后的思维导图转换为XML格式并输入到大语言模型中进行推理,得到新的初步答案,再次评估新的初步答案,直到答案满足要求为止。
当初步答案通过评估后,可以将该答案作为最终答案输出。
在一些实施例中,还可以会输出XML格式的思维导图,该思维导图记录了整个推理过程,包括中心问题、子问题、节点、关系、子图权重等信息。输出的最终答案是经过多次迭代优化后的回答。XML格式的思维导图可以被可视化,帮助用户理解答案的生成逻辑。用户可以通过查看思维导图,清晰地看到问题是如何被分解的,各个子问题之间的关系是什么,以及答案是如何基于这些知识推理出来的。这种可视化的推理过程不仅增强了用户对答案的信任度,还能帮助用户更深入地理解相关知识。
在该实施例中,通过以问题为中心节点构建思维导图,并将拆分后的子问题作为一级分支连接至中心节点,通过结构化的组织方式呈现问题的多维度需求和逻辑关系,为大语言模型提供了系统化的输入框架,使得大语言模型能够更加准确和高效的输出答案信息,通过大语言模型对初步答案信息进行评估,能够及时发现答案中的缺陷或不足之处。如果评估未通过,可以根据初步答案的缺陷生成新的目标子问题,并更新思维导图,细化和补充问题的语义细节和知识需求,并根据更新后的思维导图重新生成答案,从而逐步优化答案的质量。
本申请实施例提供的基于知识图谱的检索增强生成方法,执行主体可以为基于知识图谱的检索增强生成装置。本申请实施例中以基于知识图谱的检索增强生成装置执行基于知识图谱的检索增强生成方法为例,说明本申请实施例提供的基于知识图谱的检索增强生成装置。
本申请实施例还提供一种基于知识图谱的检索增强生成装置。
如图3所示,该基于知识图谱的检索增强生成装置包括:
检索模块310,用于根据用户的问题从知识图谱中检索得到第一检索结果,以及根据问题从文本向量库中检索得到第二检索结果;
整合模块320,用于对第一检索结果和第二检索结果进行整合得到与问题关联的多个目标知识子图;
融合模块330,用于根据各个目标知识子图的来源可信度和与问题的相关程度对多个目标知识子图进行融合,得到聚合知识图谱;
生成模块340,用于通过大语言模型基于聚合知识图谱生成问题对应的答案信息。
根据本申请的基于知识图谱的检索增强生成装置,通过根据用户的问题从知识图谱中检索得到第一检索结果,以及根据问题从文本向量库中检索得到第二检索结果;对第一检索结果和第二检索结果进行整合得到与问题关联的多个目标知识子图;根据各个目标知识子图的来源可信度和与问题的相关程度对多个目标知识子图进行融合,得到聚合知识图谱;通过大语言模型基于聚合知识图谱生成问题对应的答案信息。本申请实施例通过构建集文本向量库、知识图谱与检索于一体的算法框架,结合知识图谱和文本向量库的检索内容,为生成答案提供准确的知识框架和丰富的文本细节,并且引入来源可信度和与问题的相关程度融合知识子图,能够减少冗余信息,强化关键信息,从而优化知识整合效果,提高问答的准确性。
在一些实施例中,检索模块310,还用于:
对用户的问题进行语义解析,将问题进行拆解得到多个子问题;
根据多个子问题从知识图谱中检索得到第一检索结果,第一检索结果包括各个子问题对应的知识图谱;
根据多个子问题从文本向量库中检索得到第二检索结果,第二检索结果包括各个子问题对应的段落向量。
在一些实施例中,检索模块310,还用于:
通过大语言模型评估各个子问题的复杂度;
根据复杂度确定对各个子问题进行多跳检索的跳数;
根据跳数从知识图谱中进行多跳检索得到第一检索结果。
在一些实施例中,融合模块330,还用于:
根据各个目标知识子图的来源可信度和与问题的相关程度计算各个目标知识子图的动态权重;
通过图嵌入算法将各个目标知识子图转换为向量并通过聚类算法进行聚类;
根据动态权重对聚类得到的相同簇内的目标知识子图进行加权融合,得到聚合知识图谱。
在一些实施例中,生成模块340,还用于:
根据问题和聚合知识图谱构建思维导图;包括:将问题作为思维导图的中心节点,将问题进行拆分得到的多个子问题分别作为一级分支连接至中心节点,根据聚合知识图谱构建各个一级分支的下级分支,得到思维导图;
将思维导图转换为目标格式并输入到大语言模型中,得到大语言模型输出的初步答案信息;
通过大语言模型对初步答案信息进行评估,在评估未通过的情况下,根据初步答案信息的缺陷生成目标子问题,基于目标子问题更新思维导图并将更新后的思维导图转换为目标格式并输入到大语言模型中;
在评估通过的情况下,输出初步答案信息作为问题对应的答案信息。
本申请实施例中的基于知识图谱的检索增强生成装置可以是电子设备,也可以是电子设备中的部件,例如集成电路或芯片。该电子设备可以是终端,也可以为除终端之外的其他设备。示例性的,电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(Mobile Internet Device,MID)、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本或者个人数字助理(personal digitalassistant,PDA)等,还可以为服务器、网络附属存储器(Network Attached Storage,NAS)、个人计算机(personalcomputer,PC)、电视机(television,TV)、柜员机或者自助机等,本申请实施例不作具体限定。
本申请实施例中的基于知识图谱的检索增强生成装置可以为具有操作系统的装置。该操作系统可以为微软(Windows)操作系统,可以为安卓(Android)操作系统,可以为IOS操作系统,还可以为其他可能的操作系统,本申请实施例不作具体限定。
在一些实施例中,如图4所示,本申请实施例还提供一种电子设备400,包括处理器401、存储器402及存储在存储器402上并可在处理器401上运行的计算机程序,该程序被处理器401执行时实现上述基于知识图谱的检索增强生成方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,本申请实施例中的电子设备包括上述的移动电子设备和非移动电子设备。
本申请实施例还提供一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述基于知识图谱的检索增强生成方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,处理器为上述实施例中的电子设备中的处理器。可读存储介质,包括计算机可读存储介质,如计算机只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等。
本申请实施例还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述基于知识图谱的检索增强生成方法。
其中,处理器为上述实施例中的电子设备中的处理器。可读存储介质,包括计算机可读存储介质,如计算机只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等。
本申请实施例另提供了一种芯片,芯片包括处理器和通信接口,通信接口和处理器耦合,处理器用于运行程序或指令,实现上述基于知识图谱的检索增强生成方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
应理解,本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本申请的实施例,本领域的普通技术人员可以理解:在不脱离本申请的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本申请的范围由权利要求及其等同物限定。
Claims (10)
1.一种基于知识图谱的检索增强生成方法,其特征在于,包括:
根据用户的问题从知识图谱中检索得到第一检索结果,以及根据所述问题从文本向量库中检索得到第二检索结果;
对所述第一检索结果和所述第二检索结果进行整合得到与所述问题关联的多个目标知识子图;
根据各个所述目标知识子图的来源可信度和与所述问题的相关程度对多个所述目标知识子图进行融合,得到聚合知识图谱;
通过大语言模型基于所述聚合知识图谱生成所述问题对应的答案信息。
2.根据权利要求1所述的方法,其特征在于,所述文本向量库根据以下方式建立:
根据文本标题、段落语义和标点符号将目标文本切分为多个段落单元;
通过文本嵌入模型将多个所述段落单元转换为段落向量并存储在文本向量库中。
3.根据权利要求2所述的方法,其特征在于,所述知识图谱根据以下方式建立:
对多个所述段落单元进行语义解析,以提取知识三元组;
根据所述知识三元组创建知识图谱节点、关系和边,得到知识图谱;其中,所述知识图谱节点包括所述知识三元组中的实体和包含实体的段落;在包含实体的段落对应的段落向量之间的相似度大于阈值,则建立表征语义关系的边。
4.根据权利要求1所述的方法,其特征在于,所述根据用户的问题从知识图谱中检索得到第一检索结果,以及根据所述问题从文本向量库中检索得到第二检索结果,包括:
对用户的问题进行语义解析,将所述问题进行拆解得到多个子问题;
根据多个所述子问题从知识图谱中检索得到第一检索结果,所述第一检索结果包括各个子问题对应的知识图谱;
根据多个所述子问题从文本向量库中检索得到第二检索结果,所述第二检索结果包括各个子问题对应的段落向量。
5.根据权利要求4所述的方法,其特征在于,所述根据多个所述子问题从知识图谱中检索得到第一检索结果,包括:
通过所述大语言模型评估各个子问题的复杂度;
根据所述复杂度确定对各个子问题进行多跳检索的跳数;
根据所述跳数从知识图谱中进行多跳检索得到第一检索结果。
6.根据权利要求1所述的方法,其特征在于,所述根据各个所述目标知识子图的来源可信度和与所述问题的相关程度对多个所述目标知识子图进行融合,得到聚合知识图谱,包括:
根据各个所述目标知识子图的来源可信度和与所述问题的相关程度计算各个所述目标知识子图的动态权重;
通过图嵌入算法将各个所述目标知识子图转换为向量并通过聚类算法进行聚类;
根据所述动态权重对聚类得到的相同簇内的所述目标知识子图进行加权融合,得到聚合知识图谱。
7.根据权利要求1所述的方法,其特征在于,所述通过大语言模型基于所述聚合知识图谱生成所述问题对应的答案信息,包括:
根据所述问题和所述聚合知识图谱构建思维导图;包括:将所述问题作为思维导图的中心节点,将所述问题进行拆分得到的多个子问题分别作为一级分支连接至所述中心节点,根据所述聚合知识图谱构建各个一级分支的下级分支,得到所述思维导图;
将所述思维导图转换为目标格式并输入到大语言模型中,得到所述大语言模型输出的初步答案信息;
通过所述大语言模型对所述初步答案信息进行评估,在评估未通过的情况下,根据所述初步答案信息的缺陷生成目标子问题,基于所述目标子问题更新所述思维导图并将更新后的思维导图转换为目标格式并输入到大语言模型中;
在评估通过的情况下,输出所述初步答案信息作为所述问题对应的答案信息。
8.一种基于知识图谱的检索增强生成装置,其特征在于,包括:
检索模块,用于根据用户的问题从知识图谱中检索得到第一检索结果,以及根据所述问题从文本向量库中检索得到第二检索结果;
整合模块,用于对所述第一检索结果和所述第二检索结果进行整合得到与所述问题关联的多个目标知识子图;
融合模块,用于根据各个所述目标知识子图的来源可信度和与所述问题的相关程度对多个所述目标知识子图进行融合,得到聚合知识图谱;
生成模块,用于通过大语言模型基于所述聚合知识图谱生成所述问题对应的答案信息。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7任一项所述的基于知识图谱的检索增强生成方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-7任一项所述的基于知识图谱的检索增强生成方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202510795983.0A CN120849581A (zh) | 2025-06-13 | 2025-06-13 | 基于知识图谱的检索增强生成方法、装置及存储介质 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202510795983.0A CN120849581A (zh) | 2025-06-13 | 2025-06-13 | 基于知识图谱的检索增强生成方法、装置及存储介质 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN120849581A true CN120849581A (zh) | 2025-10-28 |
Family
ID=97426823
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202510795983.0A Pending CN120849581A (zh) | 2025-06-13 | 2025-06-13 | 基于知识图谱的检索增强生成方法、装置及存储介质 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN120849581A (zh) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN121278069A (zh) * | 2025-12-09 | 2026-01-06 | 重庆大学 | 一种基于GraphRAG的智能问答方法、装置、设备及介质 |
-
2025
- 2025-06-13 CN CN202510795983.0A patent/CN120849581A/zh active Pending
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN121278069A (zh) * | 2025-12-09 | 2026-01-06 | 重庆大学 | 一种基于GraphRAG的智能问答方法、装置、设备及介质 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US11379548B2 (en) | Analyzing concepts over time | |
| CN112199511A (zh) | 跨语言多来源垂直领域知识图谱构建方法 | |
| US20170286835A1 (en) | Concept Hierarchies | |
| US20170161619A1 (en) | Concept-Based Navigation | |
| US20170262783A1 (en) | Team Formation | |
| CN108717408A (zh) | 一种敏感词实时监控方法、电子设备、存储介质及系统 | |
| KR102421904B1 (ko) | 재난사고 원인분석의 고도화 방법 | |
| Sandhiya et al. | A review of topic modeling and its application | |
| CN120124594B (zh) | 一种档案数字化存储管理方法 | |
| Yang et al. | User story clustering in agile development: a framework and an empirical study | |
| CN120144845A (zh) | 基于大语言模型的科技快讯情报感知系统 | |
| CN120849581A (zh) | 基于知识图谱的检索增强生成方法、装置及存储介质 | |
| CN111949781B (zh) | 一种基于自然语句句法分析的智能交互方法及装置 | |
| CN113505889B (zh) | 图谱化知识库的处理方法、装置、计算机设备和存储介质 | |
| Kömeçoğlu et al. | Event graph-based news clustering: The role of named entity-centered subgraphs | |
| CN118964639A (zh) | 一种金融事件预测系统、方法及服务器 | |
| KR20120070713A (ko) | 자연어 및 수식 색인화 방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체 | |
| Mouthami et al. | Political sentiment analysis on twitter using deep learning and Llm models | |
| Gong et al. | VB-PTC: Visual Block Multi-Record Text Extraction Based on Sensor Network Page Type Conversion | |
| KR102856336B1 (ko) | 온라인 동영상 자동 요약 및 텍스트 컨텐츠 생성방법 | |
| Xiong et al. | OBSKP: oracle bone studies knowledge pyramid model with applications | |
| KR102625347B1 (ko) | 동사와 형용사와 같은 품사를 이용한 음식 메뉴 명사 추출 방법과 이를 이용하여 음식 사전을 업데이트하는 방법 및 이를 위한 시스템 | |
| KR20240041468A (ko) | 인공지능 기반 뉴스 분류 시스템 | |
| CN120873137A (zh) | 一种基于结构化文档检索增强的问答方法 | |
| CN119691549A (zh) | 资源时效性识别方法、装置、电子设备及存储介质 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination |