[go: up one dir, main page]

CN115995085A - 一种复杂版面图文识别学科类知识图谱嵌入学习方法 - Google Patents

一种复杂版面图文识别学科类知识图谱嵌入学习方法 Download PDF

Info

Publication number
CN115995085A
CN115995085A CN202111215955.5A CN202111215955A CN115995085A CN 115995085 A CN115995085 A CN 115995085A CN 202111215955 A CN202111215955 A CN 202111215955A CN 115995085 A CN115995085 A CN 115995085A
Authority
CN
China
Prior art keywords
knowledge graph
text recognition
layout image
knowledge
learning method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111215955.5A
Other languages
English (en)
Inventor
余海涛
沙龙
洪鹏宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lanking Information Technology Nanjing Co ltd
Original Assignee
Lanking Information Technology Nanjing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lanking Information Technology Nanjing Co ltd filed Critical Lanking Information Technology Nanjing Co ltd
Priority to CN202111215955.5A priority Critical patent/CN115995085A/zh
Publication of CN115995085A publication Critical patent/CN115995085A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种复杂版面图文识别学科类知识图谱嵌入学习方法,属于人工智能技术领域,包括以下步骤:S1、构建知识图谱嵌入学习模型,创建图谱单元并通过三元组存储;S2、整理知识图谱数据流整理成为大规模三元组;S3、对关系r之间存在的超关系对应的进行算法设计,并对算法学习的参数进行统计;S4、进行模型学习和训练,并对训练之后的模型进行验证;S5、知识图谱嵌入学习模型进行神经网络训练,在模型收敛后对过拟合进行验证,该复杂版面图文识别学科类知识图谱嵌入方法,提升了图嵌入算法的表征学习质量,解决了独热编码和随机游走等方法本身造成的内在限制,使得图嵌入对于各类的图元素之间的关系类型可以有效的差异化学习。

Description

一种复杂版面图文识别学科类知识图谱嵌入学习方法
技术领域
本发明属于人工智能技术领域,具体涉及复杂版面图文识别学科类知识图谱嵌入方法。
背景技术
现有教育复杂版面图文识别知识图谱在构建后需要进行有效的图嵌入学习来完成初步表征学习(representation learning),更好的表征学习可以有效提升下游算法例如推荐算法,分类算法的表现。通常初步图嵌入学习使用独热编码(one-hotrepresentation)或随机游走算法,由于算法本身的限制,没有考虑到对于不同关系r之间可能存在的反演对称性,组合对称性等性质,表征学习会造成信息瓶颈效应,使得下游算法表现不佳;
因此,需要研发一种新的知识图谱嵌入方法来解决现有的问题。
发明内容
本发明的目的在于提供一种复杂版面图文识别学科类知识图谱嵌入方法,以解决表征学习造成信息瓶颈效应,使得下游算法表现不佳的问题。
为实现上述目的,本发明提供如下技术方案:一种复杂版面图文识别学科类知识图谱嵌入学习方法,包括以下步骤:
S1、构建知识图谱嵌入学习模型,创建图谱单元并通过三元组存储;所述图谱单元包括:知识点kp和关系r;
S2、整理知识图谱数据流整理成为大规模三元组,整合后的知识图谱嵌入学习模型包括复杂的层级和相互关联的关系;
S3、对关系r之间存在的超关系对应的进行算法设计,并对算法学习的参数进行统计;
S4、通过GPU硬件对知识图谱嵌入学习模型进行模型学习和训练,并对训练之后的模型进行验证;
S5、知识图谱嵌入学习模型进行神经网络训练,在模型收敛后对过拟合进行验证,如果验证通过则图谱嵌入学习完成,同时对下游接口设定嵌入表征存取接口需求,并发和功耗需求,完成下游接口开发。
优选的,所述步骤S1中,并通过神经网络对知识点kp和关系r进行分别表征,所述知识点kp包括头知识点kp1、尾知识点kp2,其中,关系r定义为从头知识点到尾知识点的运算参数。
优选的,所述步骤S3中,使用三维特殊正交群对知识点kp和关系r进行参数化和运算,所述统计包括总体知识点数量、关系类型数量、嵌入维度参数。
优选的,所述知识点kp使用n个三维坐标参数(xi,yi,zi);关系r使用欧拉角参数(φi,θi,ψi),n是超参数,所述知识点kp和关系r的运算转化为通过群运算约束的向量运算。
优选的,所述向量运算,使关系r满足对角矩阵运算,其中Mi是3x3的块矩阵:
优选的,所述步骤S5中,所述下游接口包括向量读写接口、支持高并发批量读取和对于低功耗需求端设备运行的压缩支持接口。
优选的,所述关系r为导数的应用和极值。
优选的,所述关系r为知识点kp在知识树不同节点之间的相互关联关系,包括二次函数的性质和三次函数的性质。
优选的,所述步骤S4中,所述验证包括但不限于三元组补全验证、下游分类模型验证。
本发明的技术效果和优点:该复杂版面图文识别学科类知识图谱嵌入方法,提升了图嵌入算法的表征学习质量,解决了独热编码和随机游走等方法本身造成的内在限制,使得图嵌入对于各类的图元素之间的关系类型可以有效的差异化学习;同时,对于图嵌入的学习效率进行有效提升,使得在同样的训练集上可以取得更好的学习效果,并且提升下游算法的表现,另外提高嵌入表征学习的质量让知识图谱嵌入学习在使用该表征进行分类或实体拾取目标模型上提高准确度。
附图说明
图1为本发明的流程图;
图2为本发明Mi的块矩阵图;
图3为本发明的向量运算公式。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供了如图1-3中所示的一种复杂版面图文识别学科类知识图谱嵌入学习方法,包括以下步骤:
S1、构建知识图谱嵌入学习模型,创建图谱单元并通过三元组存储;所述图谱单元包括:知识点kp和关系r;所述步骤S1中,并通过神经网络对知识点kp和关系r进行分别表征,所述知识点kp包括头知识点kp1、尾知识点kp2,其中,关系r定义为从头知识点到尾知识点的运算参数。本实施例中,关系r为导数的应用和极值,或者关系r为知识点kp在知识树不同节点之间的相互关联关系,包括二次函数的性质和三次函数的性质;
通过特定学科的学科专家构建知识图谱,图谱单元通过三元组(triplet)存储,即(kp1,r,kp2);kp1和kp2代表头知识点(Head KnowledgePoint)和尾知识点(TailKnowledgePoint),r代表两者的关系,通过学科专家整理验证,整理成为涵盖整体学科的大规模三元组,并进行知识图谱可视化模块开发,可视化模块用来验证并整合不同知识点之间的相互关系;
S2、整理知识图谱数据流整理成为大规模三元组,整合后的知识图谱嵌入学习模型包括复杂的层级和相互关联的关系;
S3、对关系r之间存在的超关系对应的进行算法设计,并对算法学习的参数进行统计;所述步骤S3中,使用三维特殊正交群对知识点kp和关系r进行参数化和运算,一些模型比如随机游走(Random Walk),平移群嵌入算法(TransE)等,由于算法本身的运算没有考虑到对于不同关系r之间可能存在的反演对称性,组合对称性等性质,通过该类算法进行嵌入学习会存在信息丢失或造成神经网络收敛困难,所述统计包括总体知识点数量、关系类型数量、嵌入维度参数。所述知识点kp使用n个三维坐标参数(xi,yi,zi);关系r使用欧拉角参数(φi,θi,ψi),n是超参数,所述知识点kp和关系r的运算转化为通过群运算约束的向量运算。所述向量运算,使关系r满足对角矩阵运算,其中Mi是3x3的块矩阵。
S4、通过GPU硬件对知识图谱嵌入学习模型进行模型学习和训练,并对训练之后的模型进行验证;所述步骤S4中,所述验证包括但不限于三元组补全验证、下游分类模型验证。
S5、知识图谱嵌入学习模型进行神经网络训练,在模型收敛后对过拟合进行验证,如果验证通过则图谱嵌入学习完成,同时对下游接口设定嵌入表征存取接口需求,并发和功耗需求,完成下游接口开发;下游接口包括向量读写接口、支持高并发批量读取和对于低功耗需求端设备运行的压缩支持接口;在下游算法中会使用到相应的表征,例如下游学情分析的推荐算法会使用到知识点kp的向量表征,该模块建立高效的向量读写接口,支持高并发批量读取和对于低功耗需求端设备运行的压缩支持。
工作原理:该复杂版面图文识别学科类知识图谱嵌入方法,提升了图嵌入算法的表征学习质量,解决了独热编码和随机游走等方法本身造成的内在限制,使得图嵌入对于各类的图元素之间的关系类型可以有效的差异化学习;同时,对于图嵌入的学习效率进行有效提升,使得在同样的训练集上可以取得更好的学习效果,并且提升下游算法的表现,另外提高嵌入表征学习的质量让知识图谱嵌入学习在使用该表征进行分类或实体拾取目标模型上提高准确度。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种复杂版面图文识别学科类知识图谱嵌入学习方法,其特征在于:包括以下步骤:
S1、构建知识图谱嵌入学习模型,创建图谱单元并通过三元组存储;所述图谱单元包括:知识点kp和关系r;
S2、整理知识图谱数据流整理成为大规模三元组,整合后的知识图谱嵌入学习模型包括复杂的层级和相互关联的关系;
S3、对关系r之间存在的超关系对应的进行算法设计,并对算法学习的参数进行统计;
S4、通过GPU硬件对知识图谱嵌入学习模型进行模型学习和训练,并对训练之后的模型进行验证;
S5、知识图谱嵌入学习模型进行神经网络训练,在模型收敛后对过拟合进行验证,如果验证通过则图谱嵌入学习完成,同时对下游接口设定嵌入表征存取接口需求,并发和功耗需求,完成下游接口开发。
2.根据权利要求1所述的一种复杂版面图文识别学科类知识图谱嵌入学习方法,其特征在于:所述步骤S1中,并通过神经网络对知识点kp和关系r进行分别表征,所述知识点kp包括头知识点kp1、尾知识点kp2,其中,关系r定义为从头知识点到尾知识点的运算参数。
3.根据权利要求1所述的一种复杂版面图文识别学科类知识图谱嵌入学习方法,其特征在于:所述步骤S3中,使用三维特殊正交群对知识点kp和关系r进行参数化和运算,所述统计包括总体知识点数量、关系类型数量、嵌入维度参数。
4.根据权利要求3所述的一种复杂版面图文识别学科类知识图谱嵌入学习方法,其特征在于:所述知识点kp使用n个三维坐标参数(xi,yi,zi);关系r使用欧拉角参数(φi,θi,ψi),n是超参数,所述知识点kp和关系r的运算转化为通过群运算约束的向量运算。
5.根据权利要求4所述的一种复杂版面图文识别学科类知识图谱嵌入学习方法,其特征在于:所述向量运算,使关系r满足对角矩阵运算,其中Mi是3x 3的块矩阵。
6.根据权利要求1所述的一种复杂版面图文识别学科类知识图谱嵌入学习方法,其特征在于:所述步骤S5中,所述下游接口包括向量读写接口、支持高并发批量读取和对于低功耗需求端设备运行的压缩支持接口。
7.根据权利要求2所述的一种复杂版面图文识别学科类知识图谱嵌入学习方法,其特征在于:所述关系r为导数的应用和极值。
8.根据权利要求2所述的一种复杂版面图文识别学科类知识图谱嵌入学习方法,其特征在于:所述关系r为知识点kp在知识树不同节点之间的相互关联关系,包括二次函数的性质和三次函数的性质。
9.根据权利要求1所述的一种复杂版面图文识别学科类知识图谱嵌入学习方法,其特征在于:所述步骤S4中,所述验证包括但不限于三元组补全验证、下游分类模型验证。
CN202111215955.5A 2021-10-19 2021-10-19 一种复杂版面图文识别学科类知识图谱嵌入学习方法 Pending CN115995085A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111215955.5A CN115995085A (zh) 2021-10-19 2021-10-19 一种复杂版面图文识别学科类知识图谱嵌入学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111215955.5A CN115995085A (zh) 2021-10-19 2021-10-19 一种复杂版面图文识别学科类知识图谱嵌入学习方法

Publications (1)

Publication Number Publication Date
CN115995085A true CN115995085A (zh) 2023-04-21

Family

ID=85990669

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111215955.5A Pending CN115995085A (zh) 2021-10-19 2021-10-19 一种复杂版面图文识别学科类知识图谱嵌入学习方法

Country Status (1)

Country Link
CN (1) CN115995085A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116684687A (zh) * 2023-08-01 2023-09-01 蓝舰信息科技南京有限公司 基于数字孪生技术的增强可视化教学方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116684687A (zh) * 2023-08-01 2023-09-01 蓝舰信息科技南京有限公司 基于数字孪生技术的增强可视化教学方法
CN116684687B (zh) * 2023-08-01 2023-10-24 蓝舰信息科技南京有限公司 基于数字孪生技术的增强可视化教学方法

Similar Documents

Publication Publication Date Title
CN110580501B (zh) 一种基于变分自编码对抗网络的零样本图像分类方法
CN107229757B (zh) 基于深度学习和哈希编码的视频检索方法
CN114913379B (zh) 基于多任务动态对比学习的遥感图像小样本场景分类方法
CN112417289A (zh) 一种基于深度聚类的资讯信息智能推荐方法
CN112819689B (zh) 人脸属性编辑模型的训练方法、人脸属性编辑方法及设备
CN111738435B (zh) 一种基于移动设备的在线稀疏训练方法及系统
CN111310918B (zh) 一种数据处理方法、装置、计算机设备及存储介质
CN117690178B (zh) 一种基于计算机视觉的人脸图像识别方法与系统
CN114757864B (zh) 一种基于多尺度特征解耦的多层级细粒度图像生成方法
CN113408721A (zh) 神经网络结构搜索方法、装置、计算机设备和存储介质
CN113822953A (zh) 图像生成器的处理方法、图像生成方法及装置
CN113255701B (zh) 一种基于绝对-相对学习架构的小样本学习方法和系统
CN113836319B (zh) 融合实体邻居的知识补全方法及系统
CN116050478A (zh) 基于注意力机制的时间序列填补方法
CN111914772A (zh) 识别年龄的方法、年龄识别模型的训练方法和装置
CN112199884B (zh) 物品分子生成方法、装置、设备及存储介质
CN110033034B (zh) 一种非均匀纹理的图片处理方法、装置和计算机设备
CN118982047B (zh) 基于图模式的有向图神经网络模型的训练方法和装置
CN115995085A (zh) 一种复杂版面图文识别学科类知识图谱嵌入学习方法
CN117971354B (zh) 基于端到端学习的异构加速方法、装置、设备及存储介质
WO2022127603A1 (zh) 一种模型处理方法及相关装置
CN115544307A (zh) 基于关联矩阵的有向图数据特征提取与表达方法和系统
CN115620082A (zh) 模型训练方法、头部姿态估计方法、电子设备及存储介质
CN114387524A (zh) 基于多层级二阶表征的小样本学习的图像识别方法和系统
CN112132230A (zh) 图像分类方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination