[go: up one dir, main page]

CN106254313B - 一种通用的大数据采集字节流解析系统及其实现方法 - Google Patents

一种通用的大数据采集字节流解析系统及其实现方法 Download PDF

Info

Publication number
CN106254313B
CN106254313B CN201610565549.4A CN201610565549A CN106254313B CN 106254313 B CN106254313 B CN 106254313B CN 201610565549 A CN201610565549 A CN 201610565549A CN 106254313 B CN106254313 B CN 106254313B
Authority
CN
China
Prior art keywords
data
byte stream
bivariate table
column
data segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201610565549.4A
Other languages
English (en)
Other versions
CN106254313A (zh
Inventor
吴建州
季统凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panming Technology Guangdong Co ltd
Original Assignee
G Cloud Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by G Cloud Technology Co Ltd filed Critical G Cloud Technology Co Ltd
Priority to CN201610565549.4A priority Critical patent/CN106254313B/zh
Publication of CN106254313A publication Critical patent/CN106254313A/zh
Application granted granted Critical
Publication of CN106254313B publication Critical patent/CN106254313B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/18Multiprotocol handlers, e.g. single devices capable of handling multiple protocols
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • H04L63/0428Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/12Applying verification of the received information
    • H04L63/123Applying verification of the received information received data contents, e.g. message integrity

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明涉及计算机应用技术领域,特别是一种通用的大数据采集字节流解析系统及其实现方法。本发明由字节流预处理器和二维表解析器构成。字节流预处理器根据约定自动校验数据并根据压缩和加密方式自动选择相应的解压和解密方法对数据进行预处理;二维表解析器按照字节流格式定义二维表,用行和行组存储数据信息,用列标明每个字段的名称、数据类型和长度,读入数据字节流后,根据每一列定义的比特长度将字节流分割成多个字段,再根据数据类型将分割好的字节流解析成相应的信息;通过读取行或者行组里的多个行获取数据或者集合信息,通过列的字段名称读取数据行的具体字段信息。本发明避免重复定义和编写解析过程;可以适用于大数据采集中对结构复杂多样的数据进行统一的解析。

Description

一种通用的大数据采集字节流解析系统及其实现方法
技术领域
本发明涉及计算机应用技术领域,特别是一种通用的大数据采集字节流解析系统及其实现方法。
背景技术
解析数据是数据采集中至关重要的一个环节,在大数据时代,数据分布广泛、结构复杂多样,给解析带来很大的困难,每次采集都需要按照不同的数据结构编写解析代码,这种重复工作对采集者来说是一种很大的浪费。
发明内容
本发明解决的技术问题之一在于提供一种通用的大数据采集字节流解析系统,使字节流解析过程更加标准化、更加可控。
本发明解决的技术问题之二在于提供一种通用的大数据采集字节流解析系统的实现方法,通过字节流预处理器和二维表解析器对不同结构的数据进行统一的解析,避免重复定义解析过程,能够大大提高数据采集的工作效率。
本发明解决上述技术问题之一的技术方案是:
所述的系统由字节流预处理器和二维表解析器两部份构成;
所述的字节流预处理器是根据约定自动校验数据并根据压缩和加密方式自动选择相应的解压和解密方法对数据进行预处理;
所述的二维表解析器按照字节流格式定义二维表,用行和行组存储数据信息,其中用行组存储集合数据;用列标明每个字段的名称、数据类型和长度;
二维表解析器读入数据字节流,根据每一列定义的长度将字节流分割成多个字段,再根据数据类型将分割好的字节流解析成相应的信息;通过读取行或者行组里的多个行获取数据或者集合信息,通过列的字段名称读取数据行的具体字段信息。
所述的字节流预处理器包括数据安全校验、数据解压中心和数据解密中心三部分;由数据安全校验实现自动校验数据;数据解压中心、数据解密中心,根据数据需求进行解压或解密。
所述的二维表解析器包括二维表封装器、二维表数据段分割和二维表数据段解析三部分;
所述的实现按照字节流格式定义二维表,用行和行组存储数据信息,其中用行组存储集合数据;用列标明每个字段的名称、数据类型和长度;
所述的二维表数据段分割实现根据每一列定义的长度将字节流分割成多个字段;
所述的二维表数据段解析对分割好的字节流解析成相应的信息。
所述的数据类型可以是二进制、十进制、十六进制或者字符,长度单位是比特。
本发明解决上述技术问题之二的技术方案是:
所述的方法按照以下流程步骤处理:
第一步,接收到字节流后,根据约定自动校验数据安全性和完整性,检查在传输过程中数据是否被篡改;
第二步,根据约定的标记位自动选择解压和解密方法进行预处理,生成完整的明文字节流;
第三步,根据字节流包含数据段、每个数据段的长度以及数据类型定义二维表,生成二维表解析器;
第四步,将字节流读入二维表解析器,根据定义的列及长度分割成数据段,判断字段是否是集合数据;
(一)非集合字段:创建数据段行,将数据段存储到行中,并用列定义的字段名称标明数据段含义;
(二)集合字段:创建行组,用列定义的字段名称标明行组数据段含义,根据集合的大小创建数据段行,每个行存储集合的一个元素;
第五步,根据列定义的数据类型将数据段解析转换成相应的数据信息,生成结构化数据信息;
第六步,获取结构化信息,通过读取行或者行组里的多个行获取数据或者集合信息,通过列的字段名称读取数据行的具体字段信息,完成字节流的解析。
本发明使字节流解析过程更加标准化、更加可控。而且,通过字节流预处理器和二维表解析器对不同结构的数据进行统一的解析;不用重复定义和编写解析流程代码,并且对使用者是透明的,使用者只需根据数据的结构定义好二维表,不用关心其实现方式。
附图说明
下面结合附图对本发明进一步说明:
图1是本发明的架构示意图。
具体实施方式
如图1所示,本发明的字节流解析组件由字节流预处理器和二维表解析器两部份构成。字节流预处理器根据约定自动校验数据并根据压缩和加密方式自动选择相应的解压和解密方法对数据进行预处理;二维表解析器按照字节流格式定义二维表,用行和行组存储数据信息,其中用行组存储集合数据,用列标明字节流的数据结构;二维表解析器将字节流分割成多个字段,再根据数据类型将分割好的字节流解析成相应的信息,通过二维表读取解析后的结构化信息。
所述的字节流预处理器根据约定自动校验数据安全性和完整性,检查在传输过程中数据是否被篡改,然后根据约定的标记位自动选择解压和解密方法进行预处理,生成完整的明文字节流。
所述的二维表解析器按照字节流格式定义二维表,用行和行组存储数据信息,其中用行组存储集合数据,用列标明每个字段的名称、数据类型和长度,数据类型可以是二进制、十进制、十六进制或者字符,长度单位是比特;二维表解析器读入数据字节流,根据每一列定义的比特长度将字节流分割成多个字段,再根据数据类型将分割好的字节流解析成相应的信息;通过读取行或者行组里的多个行获取数据或者集合信息,通过列的字段名称读取数据行的具体字段信息。
所述的字节流解析组件,不用重复定义和编写解析流程代码,并且对使用者是透明的,使用者只需根据数据的结构定义好二维表,不用关心其实现方式。
如图1所示,大数据采集字节流解析组件及方法的详细实施流程为:
第一步,接收到字节流后,根据约定自动校验数据安全性和完整性,检查在传输过程中数据是否被篡改。
第二步,根据约定的标记位自动选择解压和解密方法进行预处理,生成完整的明文字节流;
第三步,根据字节流包含数据段、每个数据段的长度以及数据类型定义二维表,生成二维表解析器;
第四步,将字节流读入二维表解析器,根据定义的列及长度分割成数据段,判断字段是否是集合数据。
(一)非集合字段:创建数据段行,将数据段存储到行中,并用列定义的字段名称标明数据段含义。
(二)集合字段:创建行组,用列定义的字段名称标明行组数据段含义,根据集合的大小创建数据段行,每个行存储集合的一个元素。
第五步,根据列定义的数据类型将数据段解析转换成相应的数据信息,生成结构化数据信息;
第六步,获取结构化信息,通过读取行或者行组里的多个行获取数据或者集合信息,通过列的字段名称读取数据行的具体字段信息,完成字节流的解析。

Claims (7)

1.一种通用的大数据采集字节流解析系统,其特征在于:所述的系统由字节流预处理器和二维表解析器两部份构成;
所述的字节流预处理器实现根据约定自动校验数据并根据压缩和加密方式自动选择相应的解压和解密方法对数据进行预处理;
所述的二维表解析器实现按照字节流格式定义二维表,用行和行组存储数据信息,其中用行组存储集合数据;用列标明每个字段的名称、数据类型和长度;
二维表解析器读入数据字节流,根据每一列定义的长度将字节流分割成多个字段,再根据数据类型将分割好的字节流解析成相应的信息;通过读取行或者行组里的多个行获取数据或者集合信息,通过列的字段名称读取数据行的具体字段信息。
2.根据权利要求1所述的大数据采集字节流解析系统,其特征在于:所述的字节流预处理器包括数据安全校验、数据解压中心和数据解密中心三部分;由数据安全校验实现自动校验数据;数据解压中心、数据解密中心,根据数据需求进行解压或解密。
3.根据权利要求1所述的大数据采集字节流解析系统,其特征在于:所述的二维表解析器包括二维表封装器、二维表数据段分割和二维表数据段解析三部分;
所述的二维表封装器实现按照字节流格式定义二维表,用行和行组存储数据信息,其中用行组存储集合数据;用列标明每个字段的名称、数据类型和长度;
所述的二维表数据段分割实现根据每一列定义的长度将字节流分割成多个字段;
所述的二维表数据段解析对分割好的字节流解析成相应的信息。
4.根据权利要求2所述的大数据采集字节流解析系统,其特征在于:所述的二维表解析器包括二维表封装器、二维表数据段分割和二维表数据段解析三部分;
所述的二维表封装器实现按照字节流格式定义二维表,用行和行组存储数据信息,其中用行组存储集合数据;用列标明每个字段的名称、数据类型和长度;
所述的二维表数据段分割实现根据每一列定义的长度将字节流分割成多个字段;
所述的二维表数据段解析对分割好的字节流解析成相应的信息。
5.根据权利要求1、2、3或4所述的大数据采集字节流解析系统,其特征在于:所述的数据类型可以是二进制、十进制、十六进制或者字符,长度单位是比特。
6.一种权利要求1至4任一项所述大数据采集字节流解析系统的实现方法,其特征在于:所述的方法按照以下流程步骤处理:
第一步,接收到字节流后,根据约定自动校验数据安全性和完整性,检查在传输过程中数据是否被篡改;
第二步,根据约定的标记位自动选择解压和解密方法进行预处理,生成完整的明文字节流;
第三步,根据字节流包含数据段、每个数据段的长度以及数据类型定义二维表,生成二维表解析器;
第四步,将字节流读入二维表解析器,根据定义的列及长度分割成数据段,判断字段是否是集合数据;
(一)非集合字段:创建数据段行,将数据段存储到行中,并用列定义的字段名称标明数据段含义;
(二)集合字段:创建行组,用列定义的字段名称标明行组数据段含义,根据集合的大小创建数据段行,每个行存储集合的一个元素;
第五步,根据列定义的数据类型将数据段解析转换成相应的数据信息,生成结构化数据信息;
第六步,获取结构化信息,通过读取行或者行组里的多个行获取数据或者集合信息,通过列的字段名称读取数据行的具体字段信息,完成字节流的解析。
7.一种权利要求5所述大数据采集字节流解析系统的实现方法,其特征在于:所述的方法按照以下流程步骤处理:
第一步,接收到字节流后,根据约定自动校验数据安全性和完整性,检查在传输过程中数据是否被篡改;
第二步,根据约定的标记位自动选择解压和解密方法进行预处理,生成完整的明文字节流;
第三步,根据字节流包含数据段、每个数据段的长度以及数据类型定义二维表,生成二维表解析器;
第四步,将字节流读入二维表解析器,根据定义的列及长度分割成数据段,判断字段是否是集合数据;
(一)非集合字段:创建数据段行,将数据段存储到行中,并用列定义的字段名称标明数据段含义;
(二)集合字段:创建行组,用列定义的字段名称标明行组数据段含义,根据集合的大小创建数据段行,每个行存储集合的一个元素;
第五步,根据列定义的数据类型将数据段解析转换成相应的数据信息,生成结构化数据信息;
第六步,获取结构化信息,通过读取行或者行组里的多个行获取数据或者集合信息,通过列的字段名称读取数据行的具体字段信息,完成字节流的解析。
CN201610565549.4A 2016-07-15 2016-07-15 一种通用的大数据采集字节流解析系统及其实现方法 Expired - Fee Related CN106254313B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610565549.4A CN106254313B (zh) 2016-07-15 2016-07-15 一种通用的大数据采集字节流解析系统及其实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610565549.4A CN106254313B (zh) 2016-07-15 2016-07-15 一种通用的大数据采集字节流解析系统及其实现方法

Publications (2)

Publication Number Publication Date
CN106254313A CN106254313A (zh) 2016-12-21
CN106254313B true CN106254313B (zh) 2019-06-21

Family

ID=57613713

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610565549.4A Expired - Fee Related CN106254313B (zh) 2016-07-15 2016-07-15 一种通用的大数据采集字节流解析系统及其实现方法

Country Status (1)

Country Link
CN (1) CN106254313B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108256045A (zh) * 2018-01-12 2018-07-06 福建星瑞格软件有限公司 实时流数据的结构化解析、流计算的方法及计算机设备
CN108460006A (zh) * 2018-02-06 2018-08-28 福建星瑞格软件有限公司 一种文件数据表结构的自动生成的方法及计算机设备
CN110851400B (zh) * 2018-07-25 2023-01-17 北京国双科技有限公司 文本数据的处理方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1426551A (zh) * 2000-04-14 2003-06-25 皮克塞(研究)有限公司 用于操作和查看数字文档的用户界面系统和方法
CN1783881A (zh) * 2004-12-03 2006-06-07 微软公司 绑定结构化数据协议至提供字节流协议的机制
CN102566521A (zh) * 2010-12-23 2012-07-11 北京北方微电子基地设备工艺研究中心有限责任公司 工厂自动化系统、自动化消息处理方法和装置
CN102981882A (zh) * 2011-09-05 2013-03-20 北京旋极信息技术股份有限公司 解析方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1426551A (zh) * 2000-04-14 2003-06-25 皮克塞(研究)有限公司 用于操作和查看数字文档的用户界面系统和方法
CN1783881A (zh) * 2004-12-03 2006-06-07 微软公司 绑定结构化数据协议至提供字节流协议的机制
CN102566521A (zh) * 2010-12-23 2012-07-11 北京北方微电子基地设备工艺研究中心有限责任公司 工厂自动化系统、自动化消息处理方法和装置
CN102981882A (zh) * 2011-09-05 2013-03-20 北京旋极信息技术股份有限公司 解析方法和装置

Also Published As

Publication number Publication date
CN106254313A (zh) 2016-12-21

Similar Documents

Publication Publication Date Title
CN106254313B (zh) 一种通用的大数据采集字节流解析系统及其实现方法
CN103988212A (zh) 用于在状态机中路由的方法及系统
CN104011736A (zh) 用于状态机中的检测的方法及系统
EP1717719A1 (en) Application conversion of source data
CN101526963A (zh) 网页编码识别方法、装置和终端设备
CN104751024A (zh) 一种对核心源代码进行加密的方法及装置
CN104113390A (zh) 一种移动网络数据序列化方法
CN110263502A (zh) 基于区块链的图片处理方法及装置
CN103543980A (zh) 数字数据处理的方法及装置
CN115080651A (zh) Excel数据导入方法、装置、电子设备及存储介质
CN103761095B (zh) 一种生成通用的升级文件头部数据信息的方法
CN103036641A (zh) 数据交换方法、系统及反序列化方法
CN101105807A (zh) 用于导航数据库的格式描述
CN102880690A (zh) 一种精简电子书字库的方法及电子书处理装置
CN105335156B (zh) 一种java对象序列化的方法以及系统
KR100673313B1 (ko) 코드조각 번호 매김을 이용한 프로그램 간의 코드조각결합방법
CN110377561A (zh) 一种文件管理方法及装置
CN101833608A (zh) Pcb数据的处理方法及装置
CN114239535A (zh) 一种基于网页页面的Word文档自动生成方法及系统
CN103646121A (zh) 一种标识码及使用方法和装置
CN110008281A (zh) 一种基于Redis数据库可视化数据的处理方法及装置
CN103338104A (zh) 记录仪实时采集数据的加密方法
CN106600206A (zh) 实现核电厂剂量数据从管理网单向传输至工业网的方法
CN105389295A (zh) 一种卡片个人化的数据处理方法及系统
CN107016112A (zh) 一种异构存储系统地图发布的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 523808 19th Floor, Cloud Computing Center, Chinese Academy of Sciences, No. 1 Kehui Road, Songshan Lake Hi-tech Industrial Development Zone, Dongguan City, Guangdong Province

Applicant after: G-CLOUD TECHNOLOGY Co.,Ltd.

Address before: 523808 No. 14 Building, Songke Garden, Songshan Lake Science and Technology Industrial Park, Dongguan City, Guangdong Province

Applicant before: G-CLOUD TECHNOLOGY Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200212

Address after: Room 1901, building 1, No.1 Kehui Road, Songshanhu Park, Dongguan City, Guangdong Province

Patentee after: Panming Technology (Guangdong) Co.,Ltd.

Address before: 523808 19th Floor, Cloud Computing Center, Chinese Academy of Sciences, No. 1 Kehui Road, Songshan Lake Hi-tech Industrial Development Zone, Dongguan City, Guangdong Province

Patentee before: G-CLOUD TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190621

CF01 Termination of patent right due to non-payment of annual fee