CN114462384B

CN114462384B - 一种面向数字对象建模的元数据自动生成装置

Info

Publication number: CN114462384B
Application number: CN202210380242.2A
Authority: CN
Inventors: 黄罡; 杨婧如; 姜海鸥; 景翔; 柳熠; 蔡华谦; 郭京申; 刁兴春
Original assignee: Beijing Big Data Advanced Technology Research Institute; Peking University
Current assignee: Beijing Big Data Advanced Technology Research Institute; Peking University
Priority date: 2022-04-12
Filing date: 2022-04-12
Publication date: 2022-07-12
Anticipated expiration: 2042-04-12
Also published as: CN114462384A

Abstract

本发明公开了一种面向数字对象建模的元数据自动生成装置，涉及数字对象技术领域，该装置支持从用于数字对象建模的数据资源相关描述文档或数据资源原始文件中自动提取出符合相关标准（如都柏林核心标准）的元数据，形成数字对象中的元数据部分，从而用于数字对象的自动化建模，本装置能满足数字对象自动化批量建模的需求。其中，该装置不仅设置有用于自动生成数字对象公共属性元数据的自动分类模块、关键词提取模块、摘要提取模块、数据属性提取模块、时间信息提取模块、地域信息提取模块，还设置有用于自动生成数字对象其他扩展属性元数据的其它元数据提取模块。

Description

一种面向数字对象建模的元数据自动生成装置

技术领域

本发明涉及数字对象技术领域，具体涉及一种面向数字对象建模的元数据自动生成装置。

背景技术

数字对象体系通过数字对象统一规范互联网的数据资源，采用数字对象接口协议（Digital Object Interface Protocol，简称DOIP）和DO-IRP标识与解析协议（Identifier/Resolution Protocol，简称IRP）两个协议规范数据交互行为，基于三个核心系统所形成的开放式软件体系结构，实现异构、异地、异主数据的互联互通。数字对象体系的基本模型指数字对象模型，即每个数字对象由三部分组成：标识、元数据、数据本体。其中元数据是对数据本体的内容和属性特征的结构化描述，用于对数字对象进行发现、评估和管理。生成元数据是数字对象建模的关键性工作。三个核心系统包括数字对象仓库系统、数字对象注册表系统与数字对象标识系统。其中数字对象注册表系统主要负责管理接入资源的元数据，提供对元数据的检索、分类、目录等功能。资源在接入后，需要为其填写/生成元数据，以完成数字对象建模。

然而，一方面，为了提升发现数字对象的能力，各个领域在进行数字对象建模时往往要求填录详尽繁多的元数据信息；另一方面，随着数字对象体系系统在各业务部门、领域应用的推广，系统数据量剧增，数字对象的批量建模需求不断提升，因此，面向数字对象建模的元数据自动化生成的需求也日益增加。同时，不同业务场景及业务需求采用的元数据标准也各不相同。这对面向数字对象建模的元数据自动化生成技术的通用性、可扩展性和自适应能力提出了新的要求。

发明内容

本发明实施例提供一种面向数字对象建模的元数据自动生成装置，以实现用于数字对象建模的元数据部分的自动生成，进而克服上述的一个或多个问题。

为了解决上述问题，本发明实施例公开了一种面向数字对象建模的元数据自动生成装置，装置包括：

自动分类模块，用于基于预先确定的标准，从数字对象的原始数据中提取元数据项为类型的元数据；其中，原始数据为预先接收的用于数字对象建模的数据资源相关描述文档和/或数据资源原始文件；

关键词提取模块，用于从原始数据中提取元数据项为主题的元数据；

摘要提取模块，用于从原始数据中提取元数据项为描述的元数据；

数据属性提取模块，用于从原始数据中提取元数据项为格式和日期的元数据；

时间信息提取模块，用于从原始数据中提取元数据项为覆盖范围的时间类元数据；

地域信息提取模块，用于从原始数据中提取元数据项为覆盖范围的地域类元数据；

其它元数据提取模块，用于从原始数据中提取其它元数据项的元数据。

可选的，元数据项为类型的元数据包括数字对象的类目名称；自动分类模块包括：

文本向量化子模块，用于将预先获得的用户定义的每个分类选项与原始数据中的数字对象描述摘要映射到统一的向量空间中，生成维数相同的多个分类选项的嵌入；

相似度计算子模块，用于计算每个分类选项的嵌入与数字对象描述摘要的嵌入的余弦相似度，并取余弦相似度最高的分类选项作为数字对象的类目名称。

可选的，关键词提取模块包括：

第一关键词提取子模块，用于基于词频-逆向文档频率算法从原始数据中提取用于描述数字对象的主题的多个第一候选关键词以及计算每个第一候选关键词的权重；

第二关键词提取子模块，用于基于文本排序算法从原始数据中提取用于描述数字对象的主题的多个第二候选关键词以及计算每个第二候选关键词的权重；

关键词计算子模块，用于对第一候选关键词和第一候选关键词的权重以及第二候选关键词以及第二候选关键词的权重进行加权平均，将权重最大的前K个关键词作为用于描述数字对象的主题的元数据。

可选的，地域信息提取模块包括：

数据集构建子模块，用于通过爬虫技术从预先选取的地理信息服务应用接口中获取地理信息，构建地理信息数据集；

词性识别子模块，用于对原始数据中的文本进行分词，再从分词后的文本中识别出词性为地名和音译地名的目标词语；

语义匹配子模块，用于将目标词语与地理信息数据集中的多个地理信息进行语义匹配，从目标词语中确定数字对象的地域信息，并将地域信息作为数字对象的地域类元数据。

可选的，其它元数据提取模块包括语义功能提取子模块和自定义规则提取子模块，其中：

语义功能提取子模块，用于从原始数据中提取与目标其它元数据项语义相似的第一信息，并将第一信息作为目标其它元数据项的元数据；

自定义规则提取子模块，用于基于用户预先自定义的规则，从原始数据中提取与目标其它元数据项语义或结构特征相似的第二信息，并将第二信息作为目标其它元数据项的元数据。

可选的，语义功能提取子模块包括：

键-值格式文档提取单元，用于从原始数据中提取出键-值格式文档；

语义相似度计算单元，用于针对键-值格式文档，计算目标其它元数据项的中文名称、英文名称、别名、定义与键-值格式文档中的每个键的语义相似度，取语义相似度大于预设阈值且最大的键作为与目标其它元数据项匹配的项，并将该键对应的值作为目标其它元数据项的元数据。

可选的，键-值格式文档提取单元包括：

直接提取子单元，用于直接提取原始数据中的键-值格式文档；

表格提取子单元，用于针对数据资源相关描述文档中的表格，对表格的行名和/或列名进行识别，并将识别得到的行名和/或列名作为键，将行名和/或列名对应的单元格内容作为值，得到键-值格式文档；

非结构化文本提取子单元，用于针对数据资源相关描述文档中的非结构化文本，先对非结构化文本进行分词，再利用语义模板在分词后的非结构化文本中匹配出多个键-值对，得到键-值格式文档。

可选的，自定义规则提取子模块包括：

语义特征提取单元，用于根据用户自定义的语义特征提取规则，确定目标其它元数据项对应的值为原始数据中的键为目标单词对应的值，将目标单词对应的值从原始数据中提出，并作为目标其它元数据项的元数据；

结构特征提取单元，用于根据用户自定义的视觉特征提取规则和文字特征提取规则，确定目标其它元数据项对应的值为原始数据中的键为目标文字且具有目标字体格式对应的值，将目标文字且具有目标字体格式对应的值从原始数据中提出，并作为目标其它元数据项的元数据；

知识提取单元，用于根据由用户上传的知识库，生成知识提取规则，并基于该知识提取规则，对原始数据中指定的元数据项信息进行提取。

可选的，装置还包括：

扩展元数据项自适应模块，用于向用户提供数字对象的配置文件的可操作界面，并在可操作界面中获取用户增添或扩展的元数据项及相关定义，将增添或扩展的元数据项及相关定义以配置文件的形式进行保存。

可选的，装置还包括：

可扩展元数据存储模块，可扩展元数据存储模块包括基于元数据项标识外键关联的元数据模式存储表和元数据存储表，元数据模式存储表用于存储数字对象的元数据项；其中，在元数据模式存储表中，元数据项标识和元数据项父类标识采用哈夫曼前缀编码；元数据存储表用于存储数字对象的各个元数据项的元数据；

其中，可扩展元数据存储模块用于将针对数字对象当前所新增的目标元数据项写入该元数据模式存储表中，并通过目标元数据项的元数据项标识，自动在元数据存储表中填充该目标元数据项的元数据。

本发明实施例包括以下优点：

本发明的面向数字对象建模的元数据自动生成装置，该装置支持从用于数字对象建模的数据资源相关描述文档或数据资源原始文件中自动提取出符合相关标准（如都柏林核心标准）的元数据，形成数字对象中的元数据部分，从而用于数字对象的自动化建模。其中，本装置可用于数字对象公共属性元数据的自动生成和数字对象其他扩展属性元数据的自动生成，通过设置自动分类模块、关键词提取模块、摘要提取模块、数据属性提取模块、时间信息提取模块、地域信息提取模块能生成数字对象的公共属性元数据，通过设置如基于语义的元数据提取模块（即语义功能提取子模块）和基于自定义规则的元数据提取模块（即自定义规则提取子模块）的其它元数据提取模块能生成数字对象其他扩展属性元数据，如此可以满足面向数字对象建模的元数据自动化生成技术的通用性、可扩展性和自适应能力要求，可实现数字对象自动化批量建模。

进一步的，本装置还包括扩展元数据项自适应模块和可扩展元数据存储模块，因此，本发明还可通过扩展元数据项自适应模块实现用户对数字对象元数据项的新增和自适应存储、数字对象元数据的分布式存储划分与数字对象元数据的XML描述形式转换。

附图说明

图1是本发明实施例面向数字对象建模的元数据自动生成装置的功能模块图；

图2是本发明实施例自动分类模块中的文本向量化模型的示意图；

图3是本发明实施例地域信息提取模块进行地理信息匹配的原理示意图；

图4是本发明实施例语义功能提取子模块进行元数据提取的原理示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

针对本发明的技术问题，本发明提出了一种面向数字对象建模的元数据自动生成装置，参考图1，示出了面向数字对象建模的元数据自动生成装置的功能模块图，该装置可以包括：

关键词提取模块，用于从该原始数据中提取元数据项为主题的元数据；

摘要提取模块，用于从该原始数据中提取元数据项为描述的元数据；

数据属性提取模块，用于从该原始数据中提取元数据项为格式和日期的元数据；

时间信息提取模块，用于从该原始数据中提取元数据项为覆盖范围的时间类元数据；

地域信息提取模块，用于从该原始数据中提取元数据项为覆盖范围的地域类元数据；

其它元数据提取模块，用于从该原始数据中提取其它元数据项的元数据。

在本发明中，提出了一种面向数字对象建模的元数据自动生成装置，该装置支持从用户提供的用于数字对象建模的数据资源相关描述文档和/或数据资源原始文件中提取出符合相关标准（如都柏林标准）的数字对象的公共属性元数据。其中，该装置支持解析json、txt、csv、xml、pdf格式的数据资源相关描述文档，从中提取元数据信息。本发明可以提供关系型数据库表和json以及xml文档两种可选输出形式，其中，json以及xml格式的元数据文档可方便计算机系统自动读取。

由于都柏林标准是公认的应用最广泛、最通用的元数据标准，因此，以预先确定的标准为都柏林标准为例，接下来对本发明的面向数字对象建模的元数据自动生成装置的各个功能模块（即自动分类模块、关键词提取模块、摘要提取模块、数据属性提取模块、时间信息提取模块、地域信息提取模块以及其它元数据提取模块）的可实现方式进行说明。其中，参考表1，都柏林标准包含如下元数据项：

表1

元数据项	定义	注释
			题名（title）	赋予资源的名称	一般指资源对象正式公开的名称
创建者（Creator）	创建资源内容的主要责任人	用创建者的名称标识
			主题（Subject）	资源内容的主题描述	描述特定资源的某一主题，可采用关键词、分类号等
描述（Description）	资源内容说明	描述内容：文摘、目录、对图形的文字说明等
			出版者（Publisher）	使资源成为可以获得并可用的责任者	可包括个体、组织或服务
其他责任（Contributor）	对资源的内容作出贡献的其他实体	可包括个体、组织或服务
			日期（date）	与资源生命周期中的一个事件相关的时间	日期应与资源的创建或出版日期相关
类型（Type）	资源内容的特征或类型	包括描述资源内容的一般范畴、功能、种属或聚类层次的术语
			格式（format）	资源的物理或数字表现形式	包括资源的媒体类型或资源的大小，用于决定展示或操作资源的软硬件或其他设备
标识符（Identifier）	在特定的范围内给予资源的一个明确标识	建议采用符合某种正式标识体系的字符串及数字组合
			来源（Source）	对当前资源来源的参照	当前资源可能部分或全部源自该元素所标识的资源
语种（Language）	描述资源内容的语种	建议本元素的值采用RFC3066
			关联（Relation）	对相关资源的参照	最好使用符合规范标识体系的字符串或数字标识所要参照的资源
覆盖范围（Coverage）	资源内容涉及的外延与覆盖范围	空间位置、时间区间或行政辖区的范围
			权限（rights）	有关资源本身所有或被赋予的权限信息	包括知识产权（IPR），版权或其他各种产权

各功能模块与都柏林标准的对应关系为：1）自动分类模块用于提取元数据项为“类型”的元数据信息；2）关键词提取模块用于提取元数据项为“主题”的元数据信息；3）摘要提取模块用于提取元数据项为“描述”的元数据信息；4）数据属性提取模块用于提取元数据项为“格式”和“日期”的元数据信息；5）时间信息提取模块用于提取元数据项为“覆盖范围”的时间类元数据信息；6）地域信息提取模块用于提取元数据项为“覆盖范围”的地域类元数据信息；7）其它元数据提取模块可以用于提取都柏林标准中的其它元数据信息，即其它元数据项可以为题名、创建者、其他责任者、标识符、来源、语种、关联、权限；当然，其它元数据提取模块还可用于提取都柏林标准之外的元数据信息，如提取新增的如“保密等级”这一元数据项的元数据信息。

需要说明的是，在本发明的装置中，各功能模块没有顺序依存关系，仅是对都柏林标准的对应。

在本发明一实施例中，元数据项为类型的元数据包括该数字对象的类目名称；自动分类模块可以包括：

相似度计算子模块，用于计算每个分类选项的嵌入与该数字对象描述摘要的嵌入的余弦相似度，并取余弦相似度最高的分类选项作为该数字对象的类目名称。

如表1所示，在都柏林标准中，元数据项为“类型”的元数据为数字对象内容的特征或类型，可理解为数字对象的类目，例如：在行业分类体系下，数字对象可分的类目有：能源'，原材料'，'工业'，'可选消费'，'主要消费'，'医药卫生'，'金融地产'，'信息技术'，'电信业务'，'公用事业'等。

本实施例的自动分类模块采用无监督的多分类方法，方法框架如图2所示，即首先将用户定义的每个分类选项与原始数据中的数字对象描述摘要输入至预先训练得到的文本向量化模型中，在该文本向量化模型中，首先将每个分类选项与数字对象描述摘要映射到统一的向量空间中，生成维数相同的embedding，接着计算每个分类选项embedding与数字对象描述摘要embedding的cos相似值，取相似值对高的选项作为该数字对象的“类目名称”。

需要说明的是，传统的BERT（预训练语言表征模型，全称Bidirectional EncoderRepresentation from Transformers）模型判断两个句子语义是否相似，需要将两个句子拼起来传入到模型中，不适合多句子相似度判断。如果从句子数量为n的集合中，找出最近似的两个句子，则需要n*(n-1)/2次比较，并且每次比较均需要传入到BERT模型中进行计算，这个开销是很大的。BERT惯用的表征一个句子的方式是取第一个[CLS] token的输出或所有输出取平均来表示一个句子，经过试验证明，这些方式经常会产生质量很差的嵌入embedding。而本实施例的文本向量化模型采用SBert（句向量生成模型，全英：Sentence-BERT）实现，SBert采用图2中的双重网络结构对预训练的BERT进行微调，更新模型参数，使得调整后的模型可以很好的从语义上表征一个句子，产生的句子embedding可直接通过cos计算余弦相似度，这使得语义越相似的句子在向量空间中的embedding向量距离越近。

在本发明一实施例中，关键词提取模块可以包括：

第一关键词提取子模块，用于基于词频-逆向文档频率算法(TF-IDF，termfrequency–inverse document frequency)从原始数据中提取用于描述数字对象的主题的多个第一候选关键词以及计算每个第一候选关键词的权重；

第二关键词提取子模块，用于基于文本排序算法Text Rank从原始数据中提取用于描述该数字对象的主题的多个第二候选关键词以及计算每个第二候选关键词的权重；

关键词计算子模块，用于对所述第一候选关键词和所述第一候选关键词的权重以及所述第二候选关键词以及所述第二候选关键词的权重进行加权平均，将权重最大的前K个关键词作为用于描述所述数字对象的主题的元数据。

如表1所示，在都柏林标准中，元数据项为“主题”的定义为资源内容的主题描述，其中，描述特定资源的某一主题可以采用关键词、分类号等。因此，元数据项为“主题”的元数据为数字对象的公共属性元数据中的关键词，关键词提取模块可用于从描述目标数字对象的标题及摘要中提取用户指定个数的关键词。相关技术中，一般仅采用基于统计特征的关键词提取算法TF-IDF或仅采用基于词图模型的关键词提取算法Text Rank来确定关键词以及各个关键词的权重，但在实际应用中，因为应用环境的复杂性，对于不同类型的文本，例如长文本和短文本，用同一种文本关键词提取方法得到的效果并不相同，因此，本实施例将两种算法的权重结果进行加权平均，来弥补单算法的不足。即本实施例的第一关键词提取子模块采用基于统计特征的关键词提取算法TF-IDF来从原始数据中提取用于描述数字对象的主题的多个第一候选关键词以及计算每个第一候选关键词的权重，第二关键词提取子模块采用基于词图模型的关键词提取算法Text Rank从原始数据中提取用于描述数字对象的主题的多个第二候选关键词以及计算每个第二候选关键词的权重，最后由关键词计算子模块针对所有的第一候选关键词和第二候选关键词，对每个关键词的权重加权平均计算，实现对权重最大的前K个关键词的选取。由于基于统计特征的关键词提取算法TF-IDF和基于词图模型的关键词提取算法Text Rank均属于现有技术，其技术实现原理本实施例在此不多赘述。

如表1所示，在都柏林标准中，元数据项为“描述”的定义为数字对象的资源内容说明，因此，元数据项为“描述”的元数据为描述目标数字对象的资源内容，如文摘、目录、对图形的文字说明等，由此可概括为摘要信息，即本发明可以从原始数据中提取用于描述数字对象的摘要信息，如此可得到元数据项为描述的元数据。在本发明一实施例中，摘要提取模块可采用无监督的抽取式摘要生成方法，即直接从原始数据中选择若干条重要的句子，并对它们进行排序和重组而形成摘要的方法，具体可采用以下步骤：第一步：对原始文件中的现有的句子进行扩增，采用的方法是从语料集中随机采样一部分的短语或单词进行打乱，然后加入到现有的句子中，组成较长的句子；第二步：按照编码器-解码器框架对长句子进行压缩，在编码器-解码器框架中，采用RNN解码器：h_t=RNN(h_t−1, x_t,T_dec−t)，其中T_dec是摘要信息的指定长度，h_t是编码器-解码器框架的第t层的隐藏状态，h_t-1是第t层上一层的隐藏状态，x_t是外部输入，通常是之前解码的token嵌入；3）构建损失函数，使得第一步中的句子与第二步压缩后的句子尽量相同，在典型的RNN编码器-解码器架构中，编码器的最终隐藏状态用作解码器的初始隐藏状态，即h₀ ^dec=h_Tenc ^enc，训练一个全连接层h₀ ^dec=f(h_Tenc ^enc,s)，其中h₀ ^dec表示解码器的初始隐藏状态，h_Tenc ^enc表示编码器的最终隐藏状态。h₀ ^dec=f(h_Tenc ^enc,s)，其中f表示全连接层函数，s是预训练的句子InferSent嵌入。

如表1所示，在都柏林标准中，元数据项为“格式”的定义为资源的物理或数字表现形式，如文件的类型、格式、尺寸、视频时长和清晰度、数据库记录数等；元数据项为“日期”的定义为与资源生命周期中的一个事件相关的时间，由此可概括为数字对象元数据的“数据属性”信息。在本发明一实施例中，数据属性提取模块可以采用python中的os模块获取原始数据中的文件类型、格式、尺寸等元数据，可以采用多媒体视频处理工具ffmpeg获取视频时长和清晰度等元数据，可以采用pymysql、psycopg2获取数据库记录数等元数据。

如表1所示，在都柏林标准中，元数据项为“覆盖范围”的定义为资源内容涉及的外延与覆盖范围，具体可以为空间位置、时间区间或行政辖区的其他范围。因此，时间类元数据可以用时间信息进行表示。在本发明一实施例中，时间信息提取模块可以从原始数据中的中英文文本中提取时间信息，并将提取结果规范化表示为日期时间形式，如此可以作为该时间类元数据。具体可以使用python中的datefinder模块提取英文文本中的时间信息，使用正则表达式匹配中文文本中的时间信息。

在本发明一实施例中，地域信息提取模块包括：

语义匹配子模块，用于将目标词语与地理信息数据集中的多个地理信息进行语义匹配，从目标词语中确定数字对象的地域信息，并将所述地域信息作为该数字对象的地域类元数据。

其中，预先选取的地理信息服务应用接口（API，Application ProgrammingInterface）可以为Nominatim、百度、高德、谷歌等。首先，本实施例的数据集构建子模块可以采用单机的地域信息提取方法，利用爬虫技术，从这些API中爬取了分别针对与国际国内地址的地理信息，形成了一个包含230个国家2,790,951个地区及城市的地理信息数据集，包含每个国家、地区、城市的地理坐标，国内地址精确到村镇，国外地址精确到城市。

其次，如图3所示，为提升匹配效率，本实施例的词性识别子模块首先对文本进行分词，接着利用词性识别技术，识别出词性为地名和音译地名的目标词语。最后，语义匹配子模块可以采用基于语义匹配的算法模型匹配出符合“地域信息”实体定义的相关地域信息，即得到该数字对象的地域类元数据。

如表1所示，都柏林标准中的其它元数据项的元数据信息，如题名、创建者、其他责任者、标识符、来源、语种、关联、权限等可以通过语义功能提取子模块和自定义规则提取子模块进行提取。即其它元数据提取模块可以包括语义功能提取子模块和自定义规则提取子模块，其中：

在本发明一实施例中，语义功能提取子模块包括：

具体而言，键-值格式文档提取单元可以包括：直接提取子单元，用于直接提取原始数据中的键-值格式文档；表格提取子单元，用于针对数据资源相关描述文档中的表格，对表格的行名和/或列名进行识别，并将识别得到的行名和/或列名作为键，将行名和/或列名对应的单元格内容作为值，得到键-值格式文档；非结构化文本提取子单元，用于针对数据资源相关描述文档中的非结构化文本，先对非结构化文本进行分词，再利用语义模板在分词后的非结构化文本中匹配出多个键-值对，得到键-值格式文档。

对于json、xml、csv等键-值格式文档，本实施例可以采用直接提取子单元直接进行提取，如图4所示，然后采用语义相似度计算单元分别计算元数据项的中文名称、英文名称、别名、定义与数据资源相关描述文档中每个键的语义相似度，取相似度最大且相似度值大于阈值的键作为与该元数据项匹配的项，将该键对应的值作为该元数据项的值。而对于pdf文档中的表格，如图4所示，本实施例可以采用表格提取子单元首先对表格进行解析，识别出表格的行名/列名，将其作为键，将行名/列名对应的单元格作为值，接着用相同方法进行键-元数据项匹配。对于txt及pdf段落等非结构化文本，如图4所示，本实施例可以采用非结构化文本提取子单元首先对文本进行分词，接着利用语义模板，匹配出候选键所在的句子中于键对应的值，在符合语义模板能够成功返回值的键-值对范围内，用上文相同方法进行键-元数据项匹配。

在本发明一实施例中，自定义规则提取子模块可以包括：

语义特征提取单元，用于根据用户自定义的自定义语义特征提取规则，确定目标其它元数据项对应的值为原始数据中的键为目标单词对应的值，将目标单词对应的值从原始数据中提出，并作为目标其它元数据项的元数据；

自定义规则提取子模块可以支持用户为原有的或新增的元数据项自定义基于语义特征或者结构特征的提取规则，或支持根据用户上传的知识库，自定义知识提取规则。其中，语义特征提取单元基于自定义的语义特征提取规则，在原始数据中进行元数据的提取。例如，对于json格式的数据资源相关描述文档，制定语义特征提取规则：“元数据项‘创建者’对应的值为描述文档中键‘研发单位’对应的值”，利用该规则可提取出元数据项‘创建者’的信息。

结构特征提取单元基于自定义的结构特征提取规则，在原始数据中进行元数据的提取。结构特征提取规则可以包括视觉特征和文字特征的提取规则，包括位置坐标、颜色、字体大小、字间距、是否加粗、色调等，提取原始数据中的元数据信息。例如，对于pdf表格形式的数据资源相关描述文档，制定结构特征提取规则：“行名为‘单位名称’且字体加粗的单元格中的值即为元数据项‘名称’对应的值”，利用该规则可提取出元数据项为‘名称’的信息。

知识提取规则是基于用户上传的知识库生成的提取规则，具体通过知识提取单元实现。例如，用户上传的知识库中包含（员工A，工作单位，公司A），（员工A，同事，员工B）两个知识三元组，分别解析员工A在公司A工作，员工A与员工B属于同事，那么即可根据这个知识提取规则，提取出员工B的工作单位为公司A这一信息。本实施例支持用户上传三元组格式的一个或多个知识库，并制定规则模板指导用户制定知识提取规则。

为了实现对用户自定义规则的解析，如表2所示，本发明实施例定义了一套抽取规则模板，用户可按照模板的指导来定义基于语义特征或者结构特征的提取规则或基于用户上传的知识库生成知识提取规则。表2列出了模板中定义的部分语法。

表2

语法	释义
		元数据项缩写名：[规则1内容;规则1标签，规则2内容; 规则2标签，……]	为特定元数据项定义抽取规则的语法，规则标签有+1和-1两种，分别表示符合规则内容的值是否为该元数据项的值。
key	表示键
		value	表示值
==	表示符号两端文本内容相同
		has_en()	表示括号内内容存在英文字母
has_zh()	表示括号内内容存在汉字
		has_digit ()	表示括号内内容存在数字

在本发明一实施例中，装置还可以包括：

扩展元数据项自适应模块，用于向用户提供所述数字对象的配置文件的可操作界面，并在可操作界面中获取用户增添或扩展的元数据项及相关定义，将增添或扩展的元数据项及相关定义以配置文件的形式进行保存。

扩展元数据是当各业务部门发现基于都柏林标准的公共属性元数据已无法满足特定的业务场景及业务需求时，新增的元数据项。本实施例的扩展元数据项自适应模块支持对业务部门制定的扩展元数据的自适应提取，工具依据的元数据标准（如都柏林标准）以配置文件的形式作为输入，当需要对现有标准进行扩展，用户仅需通过扩展元数据项自适应模块在该配置文件中增添扩展的元数据项及相关定义。例如：在保密单位，可能需要扩展如“保密等级”等元数据项。本装置的语义特征提取单元或结构特征提取单元可用于支持提取扩展的元数据项。

在本发明中，可将该装置的所有功能模块设置为可插拔，即将自动分类模块、关键词提取模块、摘要提取模块、数据属性提取模块、时间信息提取模块、地域信息提取模块以及其它元数据提取模块均设置为可插拔的模块，各个模块之间相互独立，且通过扩展元数据项自适应模块的设置，即通过配置文件支持用户对功能参数的配置，使元数据提取更加灵活。

另外，对于元数据信息的关系型数据库表的输出形式，针对元数据模式的可扩展需求，以及随着注册表系统的推广使用产生的元数据数据量扩张问题，本发明还设计了一种支持元数据模式（元数据模式是元数据项定义的集合）扩展与元数据分布式存储的元数据在关系数据库中的存储方案。具体的，本发明的装置还包括：

其中，可扩展元数据存储模块用于将针对数字对象当前所新增的目标元数据项写入元数据模式存储表中，并通过目标元数据项的元数据项标识，自动在元数据存储表中填充目标元数据项的元数据。

本发明的可扩展元数据存储模块采用一种可扩展元数据存储策略，可扩展元数据存储模块的可扩展性体现在，通过元数据模式存储表与元数据存储表的表结构设计，当有新增元数据项时，仅需在元数据模式存储表中写一条入该元数据项的记录，通过元数据项标识外键关联，在元数据存储表中增加该元数据项对应的元数据记录，无须改变表结构。简而言之，可扩展性体现在当有新增元数据项时，无需对任何表结构进行修改，具有支持元数据项扩展、支持元数据分布式存储等优势。

实现时，是元数据项的存储，本工具利用一张关系表ItemDO作为元数据模式存储表来存储预先确定的标准（如都柏林标准）中原有的元数据项或新增的目标元数据项，如基于都柏林核心标准采用的ISO/IEC11179标准对于元数据项的定义，设计了该表的一种可实施模式：（SDID，ItemDOID，PID，nodeType，nodeName，zhName，enName，alias，zhDec，enDec，dataType，minOccurs，maxOccurs，remarks），其中各项的释义如表3所示：

表3

列名	释义
		SDID	元数据项所在的元数据模式的版本ID，指示该元数据项为公共属性元数据项或其它各版本扩展元数据。
ItemDOID	元数据项标识。
		PID	包含元数据项的元数据实体的标识，即元数据项父类标识。
nodeType	指示元数据项是否包含子项，即是否为元数据实体，1表示是，0表示否。
		nodeName	元数据项的缩写名。
zhName	元数据项的中文名称。
		enName	元数据项的英文名称。
alias	元数据项的别名。
		zhDec	元数据项的中文定义。
enDec	元数据项的英文定义。
		minOccurs	指示元数据项的可选性，1表示必选，0表示非必选。
maxOccurs	元数据项的最大使用频率，-1表示不限使用次数。
		remarks	元数据项的备注。

对于元数据的存储，本工具利用一张关系表MetaDO作为元数据存储表来存储各个数字对象的元数据，元数据项定义信息已经存储在元数据项表中，不必再将这些信息进行重复存储，只需将元数据的值信息存储到数据库中。因此元数据表的设计为（MetaDOID，ItemDOID，PID，Value），其中各项的释义如表4所示：

表4

列名	释义
		MetaDOID	数字对象标识或数字对象的元数据标识
ItemDOID	元数据项标识
		PID	元数据项父类，即元数据实体标识
Value	元数据项的值

这种表结构设计可满足元数据模式的可扩展需求，当需要增添一个元数据项，只需在元数据模式存储表中增加一条记录，元数据模式存储表的SDID将维护扩展元数据项的版本信息，无需对元数据表结构进行修改。其中，SDID是元数据项所属元数据模式的版本的ID。例如，包含公共属性的元数据模式（都柏林标准）中的所有元数据项对应的SDID为0，保密单位制定的保密元数据模式中的所有元数据项对应的SDID为1。

该表与三元表的结构相似，不同的是，以上存储方案通过在两表中设置一列用于存储元数据项父类，即元数据实体标识，为元数据建立了关于元数据项结构的索引，该索引的建立有以下几方面用途：1）为基础的模式查询提供查询效率的优化：三元表存储的最主要弊端是查询时会产生大量的自连接，影响查询效率，通过建立哈夫曼前缀编码的模式结构索引，可为基于模式分类的上下位关系查询减少自连接数量，从而优化查询效率；2）为分布式存储提供更丰富的数据划分方案：三元表的存储结构可支持特定数据划分方案下的分布式存储，例如基于数据类型的划分，基于关系类型的划分等，通过建立模式结构索引，可为数据划分提供更多基于模式的划分方案，例如基于元数据实体划分，基于特定层次的元数据实体划分等；3）支持以XML文档形式与其它外部系统进行元数据共享与互操作，通过建立模式结构索引，支持由关系表生成符合元数据模式定义的XML Schema文档及元数据XML文档。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。“和/或”表示可以选择两者之中的任意一个，也可以两者都选择。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种面向数字对象建模的元数据自动生成装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种面向数字对象建模的元数据自动生成装置，其特征在于，所述装置包括：

自动分类模块，用于基于预先确定的标准，从数字对象的原始数据中提取元数据项为类型的元数据，所述元数据项为类型的元数据包括所述数字对象的类目名称；其中，所述原始数据为预先接收的用于数字对象建模的数据资源相关描述文档和/或数据资源原始文件；

关键词提取模块，用于从所述原始数据中提取元数据项为主题的元数据；

摘要提取模块，用于从所述原始数据中提取元数据项为描述的元数据；

数据属性提取模块，用于从所述原始数据中提取元数据项为格式和日期的元数据；

时间信息提取模块，用于从所述原始数据中提取元数据项为覆盖范围的时间类元数据；

地域信息提取模块，用于从所述原始数据中提取元数据项为覆盖范围的地域类元数据；

其它元数据提取模块，用于从所述原始数据中提取其它元数据项的元数据；

其中，所述自动分类模块包括：

文本向量化子模块，用于将预先获得的用户定义的每个分类选项与所述原始数据中的数字对象描述摘要映射到统一的向量空间中，生成维数相同的多个分类选项的嵌入；

相似度计算子模块，用于计算每个分类选项的嵌入与所述数字对象描述摘要的嵌入的余弦相似度，并取余弦相似度最高的分类选项作为所述数字对象的类目名称。

2.根据权利要求1所述的面向数字对象建模的元数据自动生成装置，其特征在于，所述关键词提取模块包括：

第一关键词提取子模块，用于基于词频-逆向文档频率算法从所述原始数据中提取用于描述所述数字对象的主题的多个第一候选关键词以及计算每个第一候选关键词的权重；

第二关键词提取子模块，用于基于文本排序算法从所述原始数据中提取用于描述所述数字对象的主题的多个第二候选关键词以及计算每个第二候选关键词的权重；

3.根据权利要求1所述的面向数字对象建模的元数据自动生成装置，其特征在于，所述地域信息提取模块包括：

词性识别子模块，用于对所述原始数据中的文本进行分词，再从分词后的所述文本中识别出词性为名词的地名和音译地名的目标词语；

语义匹配子模块，用于将所述目标词语与所述地理信息数据集中的多个地理信息进行语义匹配，从所述目标词语中确定所述数字对象的地域信息，并将所述地域信息作为所述数字对象的地域类元数据。

4.根据权利要求1所述的面向数字对象建模的元数据自动生成装置，其特征在于，所述其它元数据提取模块包括语义功能提取子模块和自定义规则提取子模块，其中：

所述语义功能提取子模块，用于从所述原始数据中提取与目标其它元数据项语义相似的第一信息，并将所述第一信息作为所述目标其它元数据项的元数据；

所述自定义规则提取子模块，用于基于用户预先自定义的规则，从所述原始数据中提取与目标其它元数据项语义或结构特征相似的第二信息，并将所述第二信息作为所述目标其它元数据项的元数据。

5.根据权利要求4所述的面向数字对象建模的元数据自动生成装置，其特征在于，所述语义功能提取子模块包括：

键-值格式文档提取单元，用于从所述原始数据中提取出键-值格式文档；

语义相似度计算单元，用于针对所述键-值格式文档，计算所述目标其它元数据项的中文名称、英文名称、别名、定义与所述键-值格式文档中的每个键的语义相似度，取所述语义相似度大于预设阈值且最大的键作为与所述目标其它元数据项匹配的项，并将该键对应的值作为所述目标其它元数据项的元数据。

6.根据权利要求5所述的面向数字对象建模的元数据自动生成装置，其特征在于，所述键-值格式文档提取单元包括：

直接提取子单元，用于直接提取所述原始数据中的键-值格式文档；

表格提取子单元，用于针对所述数据资源相关描述文档中的表格，对所述表格的行名和/或列名进行识别，并将识别得到的行名和/或列名作为键，将所述行名和/或列名对应的单元格内容作为值，得到所述键-值格式文档；

非结构化文本提取子单元，用于针对所述数据资源相关描述文档中的非结构化文本，先对所述非结构化文本进行分词，再利用语义模板在分词后的所述非结构化文本中匹配出多个键-值对，得到所述键-值格式文档。

7.根据权利要求4所述的面向数字对象建模的元数据自动生成装置，其特征在于，所述自定义规则提取子模块包括：

语义特征提取单元，用于根据用户自定义的语义特征提取规则，确定所述目标其它元数据项对应的值为所述原始数据中的键为目标单词对应的值，将所述目标单词对应的值从所述原始数据中提出，并作为所述目标其它元数据项的元数据；

结构特征提取单元，用于根据用户自定义的视觉特征提取规则和文字特征提取规则，确定所述目标其它元数据项对应的值为所述原始数据中的键为目标文字且具有目标字体格式对应的值，将所述目标文字且具有目标字体格式对应的值从所述原始数据中提出，并作为所述目标其它元数据项的元数据；

知识提取单元，用于根据由用户上传的知识库，生成知识提取规则，并基于所述知识提取规则，对所述原始数据中指定的元数据项信息进行提取。

8.根据权利要求1所述的面向数字对象建模的元数据自动生成装置，其特征在于，所述装置还包括：

扩展元数据项自适应模块，用于向用户提供所述数字对象的配置文件的可操作界面，并在所述可操作界面中获取用户增添或扩展的元数据项及相关定义，将所述增添或扩展的元数据项及相关定义以配置文件的形式进行保存。

9.根据权利要求1所述的面向数字对象建模的元数据自动生成装置，其特征在于，所述装置还包括：

可扩展元数据存储模块，所述可扩展元数据存储模块包括基于元数据项标识外键关联的元数据模式存储表和元数据存储表，所述元数据模式存储表用于存储所述数字对象的元数据项；其中，在所述元数据模式存储表中，元数据项标识和元数据项父类标识采用哈夫曼前缀编码；所述元数据存储表用于存储所述数字对象的各个元数据项的元数据；

其中，所述可扩展元数据存储模块用于将针对所述数字对象当前所新增的目标元数据项写入所述元数据模式存储表中，并通过所述目标元数据项的元数据项标识，自动在所述元数据存储表中填充所述目标元数据项的元数据。