[go: up one dir, main page]

CN103092840A - 多源自增海量数据文件实时采集方法 - Google Patents

多源自增海量数据文件实时采集方法 Download PDF

Info

Publication number
CN103092840A
CN103092840A CN2011103348516A CN201110334851A CN103092840A CN 103092840 A CN103092840 A CN 103092840A CN 2011103348516 A CN2011103348516 A CN 2011103348516A CN 201110334851 A CN201110334851 A CN 201110334851A CN 103092840 A CN103092840 A CN 103092840A
Authority
CN
China
Prior art keywords
data
file
time
source
data file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011103348516A
Other languages
English (en)
Other versions
CN103092840B (zh
Inventor
王志海
麦菁
辛炜博
徐卸土
王智博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Posts & Telecommunication Designing Consulting Institute Co Ltd
Original Assignee
Shanghai Posts & Telecommunication Designing Consulting Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Posts & Telecommunication Designing Consulting Institute Co Ltd filed Critical Shanghai Posts & Telecommunication Designing Consulting Institute Co Ltd
Priority to CN201110334851.6A priority Critical patent/CN103092840B/zh
Publication of CN103092840A publication Critical patent/CN103092840A/zh
Application granted granted Critical
Publication of CN103092840B publication Critical patent/CN103092840B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种多源自增海量数据文件实时采集方法,采用多线程技术并行采集数据源上的自增数据文件,采用文件切片技术和文件续传技术对所述的自增数据文件按时间切片,每次采集自增数据文件的增量部分。根据数据生成周期、预估数据文件大小及业务需求设定采集时间间隔,按设定的采集时间间隔,以定期轮询的方式检查服务器数据源当前周期的数据文件,采用文件切片技术和文件续传技术采集增量数据,以小数据文件的形式存储到本地,并且记录当前时刻文件字节大小作为下次轮询采集的起始位置。本发明每次采集增量部分,实现多源自增海量数据文件实时采集,解决了现有技术中采集电信数据延迟时间长、实时性差、影响服务器负载和稳定性的技术问题。

Description

多源自增海量数据文件实时采集方法
技术领域:
本发明涉及物理领域,尤其涉及计算机应用系统中海量数据采集技术,特别是一种多源自增海量数据文件实时采集方法。
背景技术:
电信业务涉及到的数据量非常巨大。在电信大型应用系统中,一般有多个数据源同时提供海量实时自增数据文件,应用系统每天需要采集几十到上百GB的海量数据,如PCMD和ROP数据。这类数据以文件形式存储在多个服务器数据源上,每个数据源一般是一个固定的时间周期生成一个文件,如一小时生成一个数据文件或者一天生成一个数据文件,文件在周期内会实时自增,直到下一周期开始,对应的数据文件会自动创建并实时自增。如何确保第一时间将海量数据文件准确完整地采集到并提供给应用系统成为一个技术难题。
现有技术是在一个数据文件完全写入并不再自增后采集入库,这就会带来两个弊端:一是数据延迟时间长,实时性差。上一周期的数据文件需要等到下一周期开始才能采集,这样对于上一周期初期的数据来说可能就会延迟一个周期才能采集,而且采集本身也会花去较长一段时间,大大降低了数据的实时性。二是服务器负载失衡,稳定性差。一次性采集入库海量的数据,服务器处理时间集中在较长一段时间内,一旦入库过程出现异常,回滚的代价很高,也会严重影响到客户对服务器的查询访问速度。
发明内容:
本发明的目的在于提供一种多源自增海量数据文件实时采集方法,所述的这种多源自增海量数据文件实时采集方法要解决现有技术采集电信数据延迟时间长、实时性差、影响服务器负载和稳定性的技术问题。
本发明的这种多源自增海量数据文件实时采集方法,包括从一个以上数目的服务器数据源上采集自增数据文件的过程,其中,在所述的从一个以上数目的服务器数据源上采集自增数据文件的过程中,采用多线程技术并行采集一个以上数目的服务器数据源上的自增数据文件,采用文件切片技术和文件续传技术对所述的自增数据文件按时间切片,每次采集自增数据文件的增量部分。
进一步的,所述的从一个以上数目的服务器数据源上采集自增数据文件的过程包括以下步骤:
步骤1,明确数据生成周期、命名规则和采集方式,并预估每个数据文件的大小,
步骤2,根据数据生成周期、预估数据文件大小及业务需求设定采集时间间隔,
步骤3,按设定的采集时间间隔,以定期轮询的方式检查服务器数据源当前周期的数据文件,采用文件切片技术和文件续传技术采集增量数据,并按步骤1中设定的命名规则以小数据文件的形式存储到本地,并且记录本次采集过程中当前时刻文件字节大小作为下次轮询采集的起始位置,第一次轮询中采集从0字节位置到第一次轮询时刻的数据文件字节位置的数据,
步骤4,采集从上一次轮询中记录的字节位置到当前轮询时刻的数据文件字节位置的数据,循环读取,直到下一个周期数据文件生成,
步骤5,在步骤4中所述的周期数据文件的生成时刻,进行最后一次轮询采集,
步骤6,将采集到的文件按设定的命名规则以小数据文件存储到指定目录,并直接加载数据库或者备份至服务器,
步骤7,对于N个服务器数据源,采用多线程技术,按照步骤3-步骤6进行并行采集,
步骤8,对于多个数据类别,按照步骤1-步骤7,采用多线程技术或多进程技术实现并行采集。
进一步的,所述的步骤1中的数据源包括:
有N个数据源对应N台服务器,
数据以文件形式分别存储在N个服务器上,
数据在一个周期生成一个数据文件,
数据文件在周期内实时写入增长,直到下一周期数据文件创建,
数据文件命名包括唯一标识规则,按照YYYYMMDDHHMMSS.XXXX格式命名,YYYYMMDDHHMMSS是时间周期特征,XXXX数据类别特征。
进一步的,根据所述的步骤2中的采集时间间隔定义文件切片的粒度。
进一步的,所述的步骤3中的文件切片技术是将文件按照等时间间隔切割成一个个文件切片,每次记录切割的字节位置作为下次切片采集的起始字节位置,文件续传技术是在文件每次切割的时间点,采集从上次采集记录的字节位置到当前时间文件最大字节位置的数据切片。
进一步的,所述的步骤6中的命名规则包括:数据文件命名包括唯一标识的要素,按照YYYYMMDDHHMMSSECPN_HHMMSS.XXXX格式命名,YYYYMMDDHHMMSS为数据时间周期特征,XXXX为数据类别特征,ECPN为数据源特征,_HHMMSS为采集时间特征,数据时间周期特征和数据类别特征来源于数据源。
本发明和已有技术相比较,其效果是积极和明显的。本发明通过采用多线程技术同时采集多个数据服务器上的数据文件,采用文件切片技术和文件续传技术对一个数据文件按时间切片,每次采集增量部分,实现多源自增海量数据文件实时采集,解决了现有技术中采集电信数据延迟时间长、实时性差、影响服务器负载和稳定性的技术问题。
附图说明:
图1是本发明的多源自增海量数据文件实时采集方法的原理图。
具体实施方式:
实施例1:
如图1所示,本发明的多源自增海量数据文件实时采集方法,包括从一个以上数目的服务器数据源上采集自增数据文件的过程,其中,在所述的从一个以上数目的服务器数据源上采集自增数据文件的过程中,采用多线程技术并行采集一个以上数目的服务器数据源上的自增数据文件,采用文件切片技术和文件续传技术对所述的自增数据文件按时间切片,每次采集自增数据文件的增量部分。
进一步的,所述的从一个以上数目的服务器数据源上采集自增数据文件的过程包括以下步骤:
步骤1,明确数据生成周期、命名规则和采集方式,并预估每个数据文件的大小。数据源特征主要包括:
A、有N个数据源对应N台服务器;
B、数据以文件形式分别存储在N个服务器上;
C、数据在一个周期(T)生成一个数据文件(如1小时/1天);
D、数据文件在周期内实时写入增长,直到下一周期数据文件创建;
E、数据文件命名包括唯一标识规则,按照YYYYMMDDHHMMSS.XXXX格式命名。如10040711.PCMD:其中,10040711是时间周期特征;PCMD是数据类别特征。
步骤2,根据数据生成周期、预估数据文件大小及业务需求设定采集时间间隔,
步骤3,按设定的采集时间间隔,以定期轮询的方式检查服务器数据源当前周期的数据文件,采用文件切片技术和文件续传技术采集增量数据,并按步骤1中设定的命名规则以小数据文件的形式存储到本地,并且记录本次采集过程中当前时刻文件字节大小作为下次轮询采集的起始位置,第一次轮询中采集从0字节位置到第一次轮询时刻的数据文件字节位置的数据,
步骤4,采集从上一次轮询中记录的字节位置到当前轮询时刻的数据文件字节位置的数据,循环读取,直到下一个周期数据文件生成,
步骤5,在步骤4中所述的周期数据文件的生成时刻,进行最后一次轮询采集,最后一次轮询采集时间要保证在下个周期数据文件生成后并且是刚生成后,以保证上一周期数据文件采集的完整性和下一数据采集的实时性。
步骤6,将采集到的文件按设定的命名规则以小数据文件存储到指定目录,并直接加载数据库或者备份至服务器,
步骤7,对于N个服务器数据源,采用多线程技术,按照步骤3-步骤6进行并行采集,
步骤8,对于多个数据类别,按照步骤1-步骤7,采用多线程技术或多进程技术实现并行采集。
进一步的,根据所述的步骤2中的采集时间间隔定义文件切片的粒度。
进一步的,所述的步骤3中的文件切片技术是将文件按照等时间间隔切割成一个个文件切片,每次记录切割的字节位置作为下次切片采集的起始字节位置,文件续传技术是在文件每次切割的时间点,采集从上次采集记录的字节位置到当前时间文件最大字节位置的数据切片。
进一步的,所述的步骤6中的命名规则包括:数据文件命名包括唯一标识的要素,按照YYYYMMDDHHMMSSECPN_HHMMSS.XXXX格式命名,YYYYMMDDHHMMSS为数据时间周期特征,XXXX为数据类别特征,ECPN为数据源特征,_HHMMSS为采集时间特征,数据时间周期特征和数据类别特征来源于数据源。
在本发明的一个实施例中,PCMD数据以文件形式存储在7个OMP服务器数据源上,每个数据源每小时生成一个数据文件,文件在当前小时内实时写入,直到下一小时的数据文件创建并实时写入,每小时每个文件记录数达上百万级数据量。
传统方法是在一个PCMD数据文件完全写入后在采集,这就会带来两个严重弊端:一是数据延迟时间长,实时性差。上一周期的数据文件需要等到下一周期开始才能采集(10点至11点的数据文件要在11点以后才能采集入库),这样对于上一周期初期的数据来说可能就会延迟一个周期才能采集,而且采集本身也会花去较长一段时间,大大降低了数据的实时性。二是服务器负载失衡,稳定性差。一次性采集入库海量的数据,服务器处理时间集中在较长一段时间内,一旦入库过程出现异常,回滚的代价很高,也会严重影响到客户对服务器的查询访问速度。
采用本发明采集PCMD数据,设置每1分钟时间间隔,每小时每个文件切割成60次采集,每次采集增量,7个OMP并行采集,实现了海量PCMD数据及时完整的采集入库。对比传统方法,优势如下:一是克服了传统方法数据延迟时间长的弊端,数据延迟从1小时降低到1分钟,提高数据采集的实时性。二是有利于服务器负载均衡,避免了集中在一段时间内采集处理一个大数据文件带来的稳定性上的隐患,提高PCMD数据采集和处理的稳定性。

Claims (6)

1.一种多源自增海量数据文件实时采集方法,包括从一个以上数目的服务器数据源上采集自增数据文件的过程,其特征在于:在所述的从一个以上数目的服务器数据源上采集自增数据文件的过程中,采用多线程技术并行采集一个以上数目的服务器数据源上的自增数据文件,采用文件切片技术和文件续传技术对所述的自增数据文件按时间切片,每次采集自增数据文件的增量部分。
2.如权利要求1所述的多源自增海量数据文件实时采集方法,其特征在于:所述的从一个以上数目的服务器数据源上采集自增数据文件的过程包括以下步骤:
步骤1,明确数据生成周期、命名规则和采集方式,并预估每个数据文件的大小,
步骤2,根据数据生成周期、预估数据文件大小及业务需求设定采集时间间隔,
步骤3,按设定的采集时间间隔,以定期轮询的方式检查服务器数据源当前周期的数据文件,采用文件切片技术和文件续传技术采集增量数据,并按步骤1中设定的命名规则以小数据文件的形式存储到本地,并且记录本次采集过程中当前时刻文件字节大小作为下次轮询采集的起始位置,第一次轮询中采集从0字节位置到第一次轮询时刻的数据文件字节位置的数据,
步骤4,采集从上一次轮询中记录的字节位置到当前轮询时刻的数据文件字节位置的数据,循环读取,直到下一个周期数据文件生成,
步骤5,在步骤4中所述的周期数据文件的生成时刻,进行最后一次轮询采集,
步骤6,将采集到的文件按设定的命名规则以小数据文件存储到指定目录,并直接加载数据库或者备份至服务器,
步骤7,对于N个服务器数据源,采用多线程技术,按照步骤3-步骤6进行并行采集,
步骤8,对于多个数据类别,按照步骤1-步骤7,采用多线程技术或多进程技术实现并行采集。
3.如权利要求2所述的多源自增海量数据文件实时采集方法,其特征在于:
所述的步骤1中的数据源包括:
有N个数据源对应N台服务器,
数据以文件形式分别存储在N个服务器上,
数据在一个周期生成一个数据文件,
数据文件在周期内实时写入增长,直到下一周期数据文件创建,
数据文件命名包括唯一标识规则,按照YYYYMMDDHHMMSS.XXXX格式命名,YYYYMMDDHHMMSS是时间周期特征,XXXX数据类别特征。
4.如权利要求2所述的多源自增海量数据文件实时采集方法,其特征在于:根据所述的步骤2中的采集时间间隔定义文件切片的粒度。
5.如权利要求2所述的多源自增海量数据文件实时采集方法,其特征在于:所述的步骤3中的文件切片技术是将文件按照等时间间隔切割成一个个文件切片,每次记录切割的字节位置作为下次切片采集的起始字节位置,文件续传技术是在文件每次切割的时间点,采集从上次采集记录的字节位置到当前时间文件最大字节位置的数据切片。
6.如权利要求2所述的多源自增海量数据文件实时采集方法,其特征在于:
所述的步骤6中的命名规则包括:
数据文件命名包括唯一标识的要素,按照YYYYMMDDHHMMSSECPN_HHMMSS.XXXX格式命名,YYYYMMDDHHMMSS为数据时间周期特征,XXXX为数据类别特征,ECPN为数据源特征,_HHMMSS为采集时间特征,数据时间周期特征和数据类别特征来源于数据源。
CN201110334851.6A 2011-10-28 2011-10-28 多源自增海量数据文件实时采集方法 Active CN103092840B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110334851.6A CN103092840B (zh) 2011-10-28 2011-10-28 多源自增海量数据文件实时采集方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110334851.6A CN103092840B (zh) 2011-10-28 2011-10-28 多源自增海量数据文件实时采集方法

Publications (2)

Publication Number Publication Date
CN103092840A true CN103092840A (zh) 2013-05-08
CN103092840B CN103092840B (zh) 2015-09-16

Family

ID=48205423

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110334851.6A Active CN103092840B (zh) 2011-10-28 2011-10-28 多源自增海量数据文件实时采集方法

Country Status (1)

Country Link
CN (1) CN103092840B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103685559A (zh) * 2013-12-27 2014-03-26 乐视网信息技术(北京)股份有限公司 服务器中的数据处理方法及系统
CN103678699A (zh) * 2013-12-27 2014-03-26 乐视网信息技术(北京)股份有限公司 服务器中的数据合并方法及系统
CN103699666A (zh) * 2013-12-27 2014-04-02 乐视网信息技术(北京)股份有限公司 数据切分的传输方法及装置
CN103701907A (zh) * 2013-12-27 2014-04-02 乐视网信息技术(北京)股份有限公司 服务器中的数据续传的处理方法及系统
CN104111983A (zh) * 2014-06-30 2014-10-22 中国科学院信息工程研究所 一种开放式的多源数据采集系统及方法
CN104376082A (zh) * 2014-11-18 2015-02-25 中国建设银行股份有限公司 一种把数据源文件中的数据导入到数据库中的方法
CN105183585A (zh) * 2015-08-27 2015-12-23 北京金山安全软件有限公司 一种数据备份方法及装置
CN105843935A (zh) * 2016-03-30 2016-08-10 乐视控股(北京)有限公司 一种数据采集方法以及etl组件
CN105893529A (zh) * 2016-03-30 2016-08-24 乐视控股(北京)有限公司 一种数据采集方法以及etl组件
CN106164867A (zh) * 2014-04-01 2016-11-23 谷歌公司 数据的增量并行处理
CN107993696A (zh) * 2017-12-25 2018-05-04 东软集团股份有限公司 一种数据采集方法、装置、客户端及系统
CN110347661A (zh) * 2019-07-05 2019-10-18 北京红山信息科技研究院有限公司 数据源准实时入库的方法、装置、服务器和存储介质
CN111159118A (zh) * 2019-12-20 2020-05-15 东软集团股份有限公司 轮询监听方法、装置、存储介质和电子设备
CN112669148A (zh) * 2020-12-22 2021-04-16 深圳市富途网络科技有限公司 一种处理订单的方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1756108A (zh) * 2004-09-29 2006-04-05 华为技术有限公司 主备系统数据同步方法
US20080010322A1 (en) * 2006-07-06 2008-01-10 Data Domain, Inc. File system replication
CN101719143A (zh) * 2009-12-01 2010-06-02 北京中科创元科技有限公司 并行处理比对式增量数据抽取方法
CN102110121A (zh) * 2009-12-24 2011-06-29 阿里巴巴集团控股有限公司 一种数据处理方法及其系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1756108A (zh) * 2004-09-29 2006-04-05 华为技术有限公司 主备系统数据同步方法
US20080010322A1 (en) * 2006-07-06 2008-01-10 Data Domain, Inc. File system replication
CN101719143A (zh) * 2009-12-01 2010-06-02 北京中科创元科技有限公司 并行处理比对式增量数据抽取方法
CN102110121A (zh) * 2009-12-24 2011-06-29 阿里巴巴集团控股有限公司 一种数据处理方法及其系统

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678699A (zh) * 2013-12-27 2014-03-26 乐视网信息技术(北京)股份有限公司 服务器中的数据合并方法及系统
CN103699666A (zh) * 2013-12-27 2014-04-02 乐视网信息技术(北京)股份有限公司 数据切分的传输方法及装置
CN103701907A (zh) * 2013-12-27 2014-04-02 乐视网信息技术(北京)股份有限公司 服务器中的数据续传的处理方法及系统
CN103685559A (zh) * 2013-12-27 2014-03-26 乐视网信息技术(北京)股份有限公司 服务器中的数据处理方法及系统
CN106164867A (zh) * 2014-04-01 2016-11-23 谷歌公司 数据的增量并行处理
US10628212B2 (en) 2014-04-01 2020-04-21 Google Llc Incremental parallel processing of data
CN106164867B (zh) * 2014-04-01 2020-01-14 谷歌有限责任公司 数据的增量并行处理
CN104111983B (zh) * 2014-06-30 2017-12-19 中国科学院信息工程研究所 一种开放式的多源数据采集系统及方法
CN104111983A (zh) * 2014-06-30 2014-10-22 中国科学院信息工程研究所 一种开放式的多源数据采集系统及方法
CN104376082B (zh) * 2014-11-18 2019-06-18 中国建设银行股份有限公司 一种把数据源文件中的数据导入到数据库中的方法
CN104376082A (zh) * 2014-11-18 2015-02-25 中国建设银行股份有限公司 一种把数据源文件中的数据导入到数据库中的方法
CN105183585A (zh) * 2015-08-27 2015-12-23 北京金山安全软件有限公司 一种数据备份方法及装置
CN105183585B (zh) * 2015-08-27 2019-03-26 北京金山安全软件有限公司 一种数据备份方法及装置
CN105893529A (zh) * 2016-03-30 2016-08-24 乐视控股(北京)有限公司 一种数据采集方法以及etl组件
CN105843935A (zh) * 2016-03-30 2016-08-10 乐视控股(北京)有限公司 一种数据采集方法以及etl组件
CN107993696A (zh) * 2017-12-25 2018-05-04 东软集团股份有限公司 一种数据采集方法、装置、客户端及系统
CN110347661A (zh) * 2019-07-05 2019-10-18 北京红山信息科技研究院有限公司 数据源准实时入库的方法、装置、服务器和存储介质
CN111159118A (zh) * 2019-12-20 2020-05-15 东软集团股份有限公司 轮询监听方法、装置、存储介质和电子设备
CN111159118B (zh) * 2019-12-20 2024-01-26 东软集团股份有限公司 轮询监听方法、装置、存储介质和电子设备
CN112669148A (zh) * 2020-12-22 2021-04-16 深圳市富途网络科技有限公司 一种处理订单的方法及装置

Also Published As

Publication number Publication date
CN103092840B (zh) 2015-09-16

Similar Documents

Publication Publication Date Title
CN103092840B (zh) 多源自增海量数据文件实时采集方法
CN107544984B (zh) 一种数据处理的方法和装置
CN101436207B (zh) 一种基于日志快照的数据恢复和同步方法
CN103605805A (zh) 一种海量时序数据的存储方法
CN105512336A (zh) 一种基于Hadoop的海量数据处理方法和装置
CN103678042B (zh) 一种基于数据分析的备份策略信息生成方法
CA2871313C (en) Method and system for managing power grid data
US20210279227A1 (en) System and methods for capturing and storing metadata from access logs and storage systems and improving storage efficiency of data and method therefor
CN108268565B (zh) 基于数据仓库处理用户浏览行为数据的方法及系统
CN106709012A (zh) 一种大数据分析方法及装置
CN103914485A (zh) 一种远程收集和检索展示应用系统日志的系统及方法
CN110019200B (zh) 一种索引的建立、使用方法及装置
CN104090889A (zh) 数据处理方法及系统
CN102722584B (zh) 数据存储系统及方法
CN102779138B (zh) 实时数据的硬盘存取方法
US20140214767A1 (en) Delta partitions for backup and restore
CN105490854A (zh) 实时日志收集方法、系统和应用服务器集群
CN102200979A (zh) 一种分布式并行信息检索系统及其方法
CN102291269A (zh) 一种数据归并处理方法
CN102231673A (zh) 用于监控业务服务器的系统和方法
CN105260452A (zh) 离线日志收集查询和分析系统及方法
CN105242873B (zh) 云计算系统的性能数据的采集与存储方法及装置
Ramesh et al. Data modelling for discrete time series data using Cassandra and MongoDB
CN103840969A (zh) 云计算系统中告警日志的管理方法和系统
CN103020169A (zh) 一种电力数据的有效性及唯一性处理方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant