[go: up one dir, main page]

CN117194428A - 一种基于结构化数据构建权威数据源的通用方法 - Google Patents

一种基于结构化数据构建权威数据源的通用方法 Download PDF

Info

Publication number
CN117194428A
CN117194428A CN202311192270.2A CN202311192270A CN117194428A CN 117194428 A CN117194428 A CN 117194428A CN 202311192270 A CN202311192270 A CN 202311192270A CN 117194428 A CN117194428 A CN 117194428A
Authority
CN
China
Prior art keywords
business
data
constructing
authoritative
sources based
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311192270.2A
Other languages
English (en)
Inventor
王清源
吴宏伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CHINA REALTIME DATABASE CO LTD
Original Assignee
CHINA REALTIME DATABASE CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CHINA REALTIME DATABASE CO LTD filed Critical CHINA REALTIME DATABASE CO LTD
Priority to CN202311192270.2A priority Critical patent/CN117194428A/zh
Publication of CN117194428A publication Critical patent/CN117194428A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于结构化数据构建权威数据源的通用方法,包括以下步骤:(1)业务实体提取;(2)业务模型构建;(3)变化敏感列标识及数据加载;(4)关系模型构建;本发明通过设置变化敏感列从而减少因非关注字段变化而造成的数据无效存储问题,数据操作模式更为精简;因的分离,新增的业务主体间关系不再需要重新设计,而只需增加一张业务主体关系即可,具有更高的扩展性。

Description

一种基于结构化数据构建权威数据源的通用方法
技术领域
本发明涉及数据业务化建模分析技术领域,具体涉及一种基于结构化数据构建权威数据源的通用方法。
背景技术
随着企业规模发展,业务逐渐涵盖人财物等企业管理各领域,覆盖建设、生产、营销等多个专业,具有数据类型多、业务跨度大、专业性强等特点。随着企业数字化转型发展,数据分析、跨专业应用等需求层出不穷,数据冗余、数据质量不高、数据问题认责不清、数据链路监测能力不足等问题也愈发凸显,影响数据价值进一步发挥。企业在权威数据构建过程中数据大量冗余存储、历史状态不可溯、模型扩展困难、误操作数据难恢复等技术难题。在企业权威数据源构建领域,引入新的数据存储模型分析模式来解决上述问题是当前的研究热点之一。
发明内容
发明目的:本发明的目的是提供一种基于结构化数据构建权威数据源的通用方法,针对企业业务数据在各阶段、各部门数据口径不一、同一数据重复存储、外部数据各自接入等常见问题,既解决了数据质量问题,又解决了数据应用问题,满足了企业对数据管理需求。
技术方案:本发明所述的一种基于结构化数据构建权威数据源的通用方法,包括以下步骤:
(1)业务实体提取;
(2)业务模型构建;
(3)变化敏感列标识及数据加载;
(4)关系模型构建。
进一步的,所述步骤(1)具体为:对业务基表中属性进行数据抽象,提炼出若干个业务实体。
进一步的,所述步骤(2)具体如下:以业务实体提为核心建模,包括:主键、相关列和时间戳。
进一步的,所述步骤(3)具体如下:首先,标识出各业务实体中变化敏感列;敏感列作为ETL判断数据是插入还是更新的依据;敏感列数据发生变化时更新记录,否则插入新记录;然后使用ETL工具将业务基表数据导入各业务实体。
进一步,所述步骤(4)具体如下:根据业务实体间的业务关系构建关系模型;关系模型描述各业务实体间的关联关系,可随业务需求变化而不断变化。
本发明所述的一种基于结构化数据构建权威数据源的通用系统,其特征在于,包括以下模块:
提取模块:用于业务实体提取;
业务模型构建模块:用于业务模型构建;
标识及加载模块:用于变化敏感列标识和数据加载;
关系模型构建模块:用于关系模型构建。
进一步的,提取模块中,对业务基表中属性进行数据抽象,提炼出若干个业务实体。
进一步的,业务模型构建模块中,以业务实体提为核心建模,包括:主键、相关列和时间戳。
进一步额,标识及加载模块中,首先,标识出各业务实体中变化敏感列;敏感列作为ETL判断数据是插入还是更新的依据;敏感列数据发生变化时更新记录,否则插入新记录;然后使用ETL工具将业务基表数据导入各业务实体。
进一步的,关系模型构建模块中,根据业务实体间的业务关系构建关系模型;关系模型描述各业务实体间的关联关系,可随业务需求变化而不断变化。
有益效果:与现有技术相比,本发明具有如下显著优点:通过设置变化敏感列从而减少因非关注字段变化而造成的数据无效存储问题,数据操作模式更为精简;因的分离,新增的业务主体间关系不再需要重新设计,而只需增加一张业务主体关系即可,具有更高的扩展性。
附图说明
图1为本发明的示意图。
具体实施方式
下面结合附图对本发明的技术方案作进一步说明。
如图1所示,本发明实施例提供了一种基于结构化数据构建权威数据源的通用方法,包括以下步骤:
(1)业务实体提取;具体为:对业务基表中属性进行数据抽象,提炼出若干个业务实体。
(2)业务模型构建;具体如下:以业务实体提为核心建模,包括:主键、相关列和时间戳。
(3)变化敏感列标识及数据加载;具体如下:首先,标识出各业务实体中变化敏感列;敏感列作为ETL判断数据是插入还是更新的依据;敏感列数据发生变化时更新记录,否则插入新记录;然后使用ETL工具将业务基表数据导入各业务实体。
(4)关系模型构建。具体如下:根据业务实体间的业务关系构建关系模型;关系模型描述各业务实体间的关联关系,可随业务需求变化而不断变化。
本实施例以电网项目管理业务场景中某一应用实例来描述本方法的具体实施方式。
假设有如下原始数据表:表1
(1)业务主体提取
对于项目执行信息基表,提取出项目、设备、承建方三个业务主体;
(2)主体建模
分别以项目、设备、承建方三个业务主体为核心建模,不妨命名为项目信息表表2、设备信息表表3和承建方表表4;模型列包括主键、相关列和时间戳。.
表2:
表3:
表4:
(3)标识变化敏感列
不妨选择项目属性1、设备属性1和承建方属性1为变化敏感列,将这些列作为判断数据变化的依据。
(4)实体数据加载
此处选择ETL工具Kettle设置数据抽取源为项目执行基表,数据接收表为项目信息表、设备信息表、承建方信息表。对于存量数据的时间戳列有两种方案:一是项目执行信息基表中有可用的时间列,则选择该时间列作为时间戳,二是执行信息基表中没有可用的时间列,则选择抽取时间作为时间戳;对于同批次增量数据时间戳列设置为同一批次时间;对于实时数据则以插入时间作为时间戳。
对于编码列相同的数据,则判断新数据变化敏感列值是否发生变化,若变化,则新增一条记录;若未发生变化则更新。
(5)实体关系构建
根据业务可知项目、设备、供应商之间的关系为项目包含采购的若干设备,设备由若干供应商提供。因此,根据业务主体间的关系建模。新建项目采购关系表表5和设备供应表表6,如下:
表5:
表6:
(6)权威数据源应用
根据业务应用需求,基于权威数据源,构建业务宽表。
本发明实施例还提供了一种基于结构化数据构建权威数据源的通用系统,其特征在于,包括以下模块:
提取模块:用于业务实体提取;对业务基表中属性进行数据抽象,提炼出若干个业务实体。
业务模型构建模块:用于业务模型构建;以业务实体提为核心建模,包括:主键、相关列和时间戳。
标识及加载模块:用于变化敏感列标识和数据加载;首先,标识出各业务实体中变化敏感列;敏感列作为ETL判断数据是插入还是更新的依据;敏感列数据发生变化时更新记录,否则插入新记录;然后使用ETL工具将业务基表数据导入各业务实体。
关系模型构建模块:用于关系模型构建。根据业务实体间的业务关系构建关系模型;关系模型描述各业务实体间的关联关系,可随业务需求变化而不断变化。

Claims (10)

1.一种基于结构化数据构建权威数据源的通用方法,其特征在于,包括以下步骤:
(1)业务实体提取;
(2)业务模型构建;
(3)变化敏感列标识及数据加载;
(4)关系模型构建。
2.根据权利要求1所述的一种基于结构化数据构建权威数据源的通用方法,其特征在于,所述步骤(1)具体为:对业务基表中属性进行数据抽象,提炼出若干个业务实体。
3.根据权利要求1所述的一种基于结构化数据构建权威数据源的通用方法,其特征在于,所述步骤(2)具体如下:以业务实体提为核心建模,包括:主键、相关列和时间戳。
4.根据权利要求1所述的一种基于结构化数据构建权威数据源的通用方法,其特征在于,所述步骤(3)具体如下:首先,标识出各业务实体中变化敏感列;敏感列作为ETL判断数据是插入还是更新的依据;敏感列数据发生变化时更新记录,否则插入新记录;然后使用ETL工具将业务基表数据导入各业务实体。
5.根据权利要求1所述的一种基于结构化数据构建权威数据源的通用方法,其特征在于,所述步骤(4)具体如下:根据业务实体间的业务关系构建关系模型;关系模型描述各业务实体间的关联关系,可随业务需求变化而不断变化。
6.一种基于结构化数据构建权威数据源的通用系统,其特征在于,包括以下模块:
提取模块:用于业务实体提取;
业务模型构建模块:用于业务模型构建;
标识及加载模块:用于变化敏感列标识和数据加载;
关系模型构建模块:用于关系模型构建。
7.根据权利要求6所述的一种基于结构化数据构建权威数据源的通用系统,其特征在于,提取模块中,对业务基表中属性进行数据抽象,提炼出若干个业务实体。
8.根据权利要求6所述的一种基于结构化数据构建权威数据源的通用系统,其特征在于,业务模型构建模块中,以业务实体提为核心建模,包括:主键、相关列和时间戳。
9.根据权利要求6所述的一种基于结构化数据构建权威数据源的通用系统,其特征在于,标识及加载模块中,首先,标识出各业务实体中变化敏感列;敏感列作为ETL判断数据是插入还是更新的依据;敏感列数据发生变化时更新记录,否则插入新记录;然后使用ETL工具将业务基表数据导入各业务实体。
10.根据权利要求6所述的一种基于结构化数据构建权威数据源的通用系统,其特征在于,关系模型构建模块中,根据业务实体间的业务关系构建关系模型;关系模型描述各业务实体间的关联关系,可随业务需求变化而不断变化。
CN202311192270.2A 2023-09-15 2023-09-15 一种基于结构化数据构建权威数据源的通用方法 Pending CN117194428A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311192270.2A CN117194428A (zh) 2023-09-15 2023-09-15 一种基于结构化数据构建权威数据源的通用方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311192270.2A CN117194428A (zh) 2023-09-15 2023-09-15 一种基于结构化数据构建权威数据源的通用方法

Publications (1)

Publication Number Publication Date
CN117194428A true CN117194428A (zh) 2023-12-08

Family

ID=88983171

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311192270.2A Pending CN117194428A (zh) 2023-09-15 2023-09-15 一种基于结构化数据构建权威数据源的通用方法

Country Status (1)

Country Link
CN (1) CN117194428A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101281466A (zh) * 2008-05-27 2008-10-08 北京中企开源信息技术有限公司 基于业务本体特征的业务对象建模方法
CN105574667A (zh) * 2015-12-15 2016-05-11 中广核工程有限公司 核电设计数据集成方法及系统
CN108037916A (zh) * 2017-11-29 2018-05-15 福州市智捷信息科技有限公司 一种基于web的图形化业务建模方法
CN113407681A (zh) * 2021-08-18 2021-09-17 国网浙江省电力有限公司信息通信分公司 一种能源行业公共数据模型构建方法
CN114281795A (zh) * 2021-11-19 2022-04-05 国网物资有限公司 一种基于业务数据标准表的数据模型构建方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101281466A (zh) * 2008-05-27 2008-10-08 北京中企开源信息技术有限公司 基于业务本体特征的业务对象建模方法
CN105574667A (zh) * 2015-12-15 2016-05-11 中广核工程有限公司 核电设计数据集成方法及系统
CN108037916A (zh) * 2017-11-29 2018-05-15 福州市智捷信息科技有限公司 一种基于web的图形化业务建模方法
CN113407681A (zh) * 2021-08-18 2021-09-17 国网浙江省电力有限公司信息通信分公司 一种能源行业公共数据模型构建方法
CN114281795A (zh) * 2021-11-19 2022-04-05 国网物资有限公司 一种基于业务数据标准表的数据模型构建方法

Similar Documents

Publication Publication Date Title
CN109344133B (zh) 一种数据治理驱动数据共享交换系统及其工作方法
CN102750406B (zh) 一种基于模型集和差异模型的电网模型多版本管理方法
CN102023983B (zh) 一种统计时空数据库管理方法
CN101025805A (zh) 基于产品的物料清单生成方法
CN101599146A (zh) 一种模具制造信息的管理方法及系统
CN105045869A (zh) 基于多数据中心的自然资源地理空间数据组织方法和系统
CN114218218A (zh) 基于数据仓库的数据处理方法、装置、设备及存储介质
CN114004587B (zh) 一种整机型号自动管控的设计系统及方法
CN114880405A (zh) 一种基于数据湖的数据处理方法及系统
CN103927402A (zh) 一种控制逻辑图模块化设计管理系统实现方法
CN110196849B (zh) 基于大数据治理技术实现用户画像构建处理的系统及其方法
CN115905313A (zh) 一种MySQL大表关联查询系统及方法
CN107451222A (zh) 车型数据管理系统
CN117194428A (zh) 一种基于结构化数据构建权威数据源的通用方法
CN118210800A (zh) 一种自适应的数据表结构优化方法及装置
TW200417884A (en) System and method for automatically classifying bill of material
CN118625709A (zh) 一种自动化控制系统io信号的快速双向传输处理方法
TW200419388A (en) System and method for automatically comparing and recoding difference between bills of material (BOM)
CN113094861B (zh) 数据存储方法、装置、设备和存储介质
CN116680445A (zh) 基于知识图谱的电力光通信系统多源异构数据融合方法及系统
Martire et al. Open systems and databases (power system control)
CN110826151A (zh) 电动汽车模型设计方法
US20240330258A1 (en) Method, apparatus, electronic device, and storage medium of data management
CN116882408B (zh) 变压器图模型的构建方法、装置、计算机设备和存储介质
JP2001067251A (ja) 電子データ統合化データ管理システムおよびデータベースシステム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Country or region after: China

Address after: No. 19 Chengxin Avenue, Moling Street, Jiangning District, Nanjing City, Jiangsu Province, 211106

Applicant after: Nanjing Nanrui Ruizhong Data Co.,Ltd.

Address before: No.180 software Avenue, Yuhuatai District, Nanjing City, Jiangsu Province, 210012

Applicant before: CHINA REALTIME DATABASE Co.,Ltd.

Country or region before: China