CN104376082B - 一种把数据源文件中的数据导入到数据库中的方法 - Google Patents
一种把数据源文件中的数据导入到数据库中的方法 Download PDFInfo
- Publication number
- CN104376082B CN104376082B CN201410658208.2A CN201410658208A CN104376082B CN 104376082 B CN104376082 B CN 104376082B CN 201410658208 A CN201410658208 A CN 201410658208A CN 104376082 B CN104376082 B CN 104376082B
- Authority
- CN
- China
- Prior art keywords
- data
- queue
- database
- pretreatment
- thread
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种把数据源文件中的数据导入到数据库中的方法,包括以下步骤:A.读取所述数据源文件中的数据;B.把所述数据逐行存入至原始数据队列中;C.设定多个数据处理入库线程;D.通过所述多个数据处理入库线程对所述原始数据队列中的数据进行预处理,并通过所述多个数据处理入库线程把所述预处理后的数据并行地写入到所述数据库中。本发明通过多线程实现数据并行导入,充分利用了硬件资源,从而提高存储效率,使得数据导入的速度大大提高。
Description
技术领域
本发明涉及数据存储领域,具体地,本发明涉及一种把数据源文件中的数据导入到数据库中的方法。
背景技术
随着应用系统数量的不断增长,大量的数据导入需求随之而生,而现有数据库(例如,INFORMIX,MYSQL等)仅提供简单的按顺序规则的导数工具,其效率和扩展性上不尽如人意。
目前各家银行所使用的数据库大多为INFORMIX数据库,其官方提供的常用数据导入方法有load和dbload两种,但这两种方法在数据处理方面都存在着很大的局限性:
首先,这两种方法的导入速度较慢。以100万行每行27列的数据文件为例:通过load方式把该数据文件导入到数据库中时,任何导入过程中的报错都会造成因数据量过大导致数据库锁资源耗尽而回滚。通过dbload方式把该数据文件导入到数据库中时,其需要耗时184440毫秒。
其次,这两种方法只能对文本文件实施线性读取导入。load和dbload由于是官方提供的工具,因此不可扩展,只能按每行的顺序线性地进行数据导入。
第三,这两种方法的错误输出格式不可自定义。load方法的出错信息被输出在屏幕上,并且一旦发生出错,整批数据均视为出错,程序不再继续处理数据导入。dbload虽然可以自定义错误日志名,但格式是固定的,无法实现自定义。
基于以上原因,急需一种具有较高存储效率的,并且能够克服上述缺陷的,数据导入方法,从而满足大数据量导入的需求。
发明内容
随着大数据时代的企业级应用系统,数据迁移或处理变得越发频繁,传统的数据导入方式已经不能满足现有的需求。千万级数据量的导入动辄需要花费几个小时,因此数据的导入效率亟待提高。鉴于此,本发明提供了一种把数据源文件中的数据导入到数据库中的方法。
本发明公开了一种把数据源文件中的数据导入到数据库中的方法,包括以下步骤:A.读取所述数据源文件中的数据;B.把所述数据逐行存入至原始数据队列中;C.设定多个数据处理入库线程;D.通过所述多个数据处理入库线程对所述原始数据队列中的数据进行预处理,并通过所述多个数据处理入库线程把所述预处理后的数据并行地写入到所述数据库中。
特别的,所述步骤D具体包括:a.各个所述数据处理入库线程分别从所述原始数据队列中读取预定数量的数据,并逐条进行预处理;b.各个所述数据处理入库线程分别把所述预处理后的数据存入至各自的预处理队列中;c.各个所述数据处理入库线程把所述预处理队列中的数据并行地写入到所述数据库中;d.各个所述数据处理入库线程清空所述预处理队列中的数据;e.各个所述数据处理入库线程分别确认所述原始数据队列中是否还有未处理过的数据:如果存在未处理过的数据,则执行步骤a。
特别的,在所述步骤c具体包括:I.依次从所述预处理队列中提取所述数据;II.确认所述被提取的数据是否存在错误;当存在错误时,实施步骤:
vi.确定所述错误数据在所述预处理队列中的位置;
vii.把所述位置之前的数据写入到所述数据库中;
viii.把所述位置上的错误数据的对象信息写入到出错队列中;
ix.在所述预处理队列中删除所述位置上和之前的数据;
x.执行步骤I;
当不存在错误时:把提取的所述数据写入到所述数据库中。
特别的,所述对象信息包括:位置信息、内容、错误原因。
特别的,还包括步骤:通过出错处理线程来处理所述出错队列。
特别的,根据用户定义的格式输出所述出错队列中的信息。
特别的,所述原始数据队列的深度和所述预处理队列的深度是可配置化的。
特别的,在步骤a中,基于所述预处理队列的深度来确定所述预定数量。
特别的,所述预处理队列的深度是50。
特别的,所述数据库是符合JDBC规范的数据库。
特别的,所述数据库是INFORMIX数据库或者MYSQL数据库。
综上所述,根据本发明所公开的方法具有如下优点:
1)本发明通过多线程实现数据并行导入,充分利用了硬件资源,从而提高存储效率,使得数据导入的速度大大提高。以100万行每行27列的数据文件为例,通过本发明所公开的方法完成数据导入仅需59473毫秒;
2)本发明可适用于所有符合JDBC规范的数据库,从而实现跨数据库统一的数据导入处理;
3)本发明可按需求个性化对每一行数据进行处理,摆脱数据库自带工具的逐列读取不可扩展的弊端;并且本发明可自定义输出结果,例如直接输出屏幕、保存文件、保存数据库等。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更加明显:
图1示出了根据本发明所公开的把数据源文件中的数据导入到数据库中的方法流程图;
图2示出了根据本发明所公开的把数据源文件中的数据导入到数据库中的过程示意图;
图3示出了根据本发明所公开的数据处理线程把预处理后的数据写入到数据库中的示意图;以及
图4示出了根据本发明所公开的处理数据导入出错的方法流程图。
具体实施方式
在以下优选的实施例的具体描述中,将参考构成本发明一部分的所附的附图。所附的附图通过示例的方式示出了能够实现本发明的特定的实施例。示例的实施例并不旨在穷尽根据本发明的所有实施例。可以理解,在不偏离本发明的范围的前提下,可以利用其他实施例,也可以进行结构性或者逻辑性的修改。因此,以下的具体描述并非限制性的,且本发明的范围由所附的权利要求所限定。
以下将结合附图1-4,说明一种把数据源文件中的数据导入到数据库中的方法。需要说明的是,尽管附图中以特定顺序描述了方法的步骤,但是这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果,相反,流程图中描绘的步骤可以改变执行顺序。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
如图1、2所示,在步骤110中,文件读取模块中的文件读取线程210通过逐行读取的方式从数据源文件200中读取数据。其中,由于在此步骤中的文件读取速度远远大于在后续步骤中数据处理和存储的速度,因此本方案中只设定了一个文件读取线程用以读取数据源文件200中的数据。
在步骤120中,文件读取线程210把从数据源文件200中读取到的数据写入到同时启动的原始数据队列220中。该队列220的深度可以由用户自定义。在一个优选的实施例中,该原始数据队列220的深度可以是根据数据源文件和导入装置的硬件配置来决定的。当数据源文件较大和/或者导入装置的内存较大时,该原始数据队列220的深度可以设定的比较深。在一个具体的实施例中,该原始数据队列220的深度为5000,即:该原始数据队列可以保存5000条行数据。
当原始数据队列220中的数据被后续的线程(数据处理入库线程230)读取之后,该数据将被删除,并且文件读取线程210将从数据源文件200中获取新的数据放入至原始数据队列220中,该过程将被反复实施直至数据源文件200的数据被全部读取完毕。
在步骤130中,在批量入库模块中设定多个数据处理入库线程230,该多个数据处理入库线程230的功能都是相同的。该数据处理入库线程230用于从原始数据队列220中读取数据,并把数据在预处理后写入到数据库240中,该过程将被反复实施直至原始数据队列220中数据都被导入完毕。在本发明中,该数据库240是符合JDBC规范的数据库,例如:INFORMIX数据库或者MYSQL数据库。
参见图3,每个数据处理入库线程230中分别设有一个预处理队列330。由于数据处理入库线程230的处理速度较慢,因此预处理队列330的深度远小于原始数据队列220的深度。
在一个优选的实施例中,预处理队列330的深度和/或数据处理入库线程230的数量可以根据系统性能进行配置。例如,预处理队列330的深度和/或数据处理入库线程230的数量可以根据数据处理入库线程230的数据处理速度来设定。当数据处理入库线程230的数据处理速度较快时,预处理队列330的深度较深,数据处理入库线程230的数量较少;当数据处理入库线程230的数据处理速度较慢时,预处理队列330的深度较浅,数据处理入库线程230的数量较多。
需要指出的是步骤110和步骤130之间并没有特定的先后顺序,两者可以同时实施,也可以先后实施。
在步骤140中,各个数据处理入库线程230分别从原始数据队列220中读取预定数量的数据,并逐条进行预处理。其中,所述预定数量可以根据预处理队列330的深度来确定,在本实施例中所述预定数量等于预处理队列330的深度。所述预处理包括根据预处理接口把从原始数据队列220中读取的数据转化成所需要的格式。在本实施例中,所述预处理可以把数据拼装成JDBC中PreparedStatement所需要的参数列表。预处理后的数据将更加易于导入至JDBC数据库中。
在步骤150中,各个数据处理入库线程230分别把预处理后的数据存入至各自的预处理队列330中。并且当该预处理队列330满了之后,在步骤160中,数据处理入库线程230会把所述预处理队列中的数据写入到所述数据库240中。其中,多个数据处理入库线程230之间是并行地把预处理后的数据写入到数据库240中的,通过该并行写入的方式,数据处理和写入的时间得到了压缩,从而提高了数据导入的效率。
在步骤170中,当把各自预处理队列330中的数据导入到数据库240之后,数据处理入库线程230分别清空该预处理队列330中的数据。并且在步骤180中,数据处理入库线程230确认原始数据队列220中是否还有未处理过的数据:如果存在未处理过的数据,则重复执行步骤140至180,直至原始数据队列220中的数据全部被导入到数据库240中。
在步骤160中,当各个数据处理入库线程230把数据写入到数据库240中时,有时会发生写入出错的情况。对于该情况,图4示出了根据本发明所公开的处理数据导入出错的方法流程图,所述步骤160具体包括以下步骤:
在步骤161中,各个数据处理入库线程230会从各自的预处理队列330中提取已经预处理且需要被写入数据库240中的数据。
在步骤162中确认该数据是否存在错误。
当发现该被提取的数据存在错误时实施以下步骤:在步骤163中,确认该错误在预处理队列330中的位置;在步骤164中,把该位置之前的没有出错的数据写入到数据库240中;在步骤165中,把该出错数据的对象信息写入到出错队列340中,其中,该对象信息包括:位置信息(例如:该数据在数据源文件200中的行号,或者该错误数据在预处理队列330中的位置号)、内容、出错原因等任何与该错误数据相关的信息;在步骤166中,把已经记录过的数据清除,即:在预处理队列330中删除错误位置上和之前的数据。最后返回至步骤161中,以继续提取剩余的数据。
在一个具体的实施例中,该出错队列340由后续的出错处理线程进行处理,该处理方式包括:把所述对象信息写入到指定的文件、数据库或JMS中,或者根据用户定义的格式输出所述出错队列中的信息。
当发现该被提取的数据不存在错误时,则实施步骤167:把提取的数据写入到数据库240中。
最后,所述数据写入的结果和出错信息的结果可以通过自定义的方式输出,例如直接输出屏幕、保存文件、保存数据库等。
以下通过一个具体示例来说明数据处理入库线程对错误数据的处理:例如,在一个深度为50的预处理队列中,在队列中的第20个位置上的数据存在错误,则数据处理入库线程会从预处理队列中依次提取数据,当提取到第20个数据时,数据处理入库线程发现该数据存在错误,那么该线程会停止继续提取数据,而是把之前第1-19位置上的数据写入到数据库中,并把第20个位置上的数据的对象信息写入到出错队列,然后把第1-20个位置上的数据删除。之后数据处理入库线程从第21个位置上开始继续提取数据,直至所有数据提取完毕并写入到数据库中。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论如何来看,均应将实施例看作是示范性的,而且是非限制性的。此外,明显的,“包括”一词不排除其他元素和步骤,并且措辞“一个”不排除复数。装置权利要求中陈述的多个元件也可以由一个元件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
Claims (10)
1.一种把数据源文件中的数据导入到数据库中的方法,包括以下步骤:
A.经由一个文件读取线程,读取所述数据源文件中的数据;
B.把所述数据逐行存入至原始数据队列中;
C.设定多个功能相同的数据处理入库线程;
D.各个所述数据处理入库线程分别从所述原始数据队列中读取预定数量的数据,并逐条进行预处理,然后把所述预处理后的数据存入至各自的预处理队列中,再分别把所述预处理队列中的数据并行地写入到所述数据库中,其中所述预处理队列的深度远小于所述原始数据队列的深度,并且根据所述数据处理入库线程的数据处理速度而设定所述预处理队列的深度;以及
响应于所述原始数据队列中的数据被所述多个数据处理入库线程读取,删除所述原始数据队列中的所述数据;经由文件读取线程读取所述数据源文件中的新的数据;
其中所述步骤D中所述把所述预处理队列中的数据并行地写入到所述数据库中具体包括:
I.依次从所述预处理队列中提取数据,其中被提取的数据是由所述数据处理入库线程存入至所述预处理队列中的;
II.确认所述被提取的数据是否存在错误;
当存在错误时,实施步骤:
i.确定所述错误数据在所述预处理队列中的位置;
ii.把所述位置之前的数据写入到所述数据库中;
iii.把所述位置上的错误数据的对象信息写入到出错队列中;
iv.在所述预处理队列中删除所述位置上和之前的数据;
v.执行步骤I;
当不存在错误时:把提取的所述数据写入到所述数据库中。
2.根据权利要求1所述的方法,其中,所述步骤D还具体包括:
各个所述数据处理入库线程清空所述预处理队列中的数据;以及各个所述数据处理入库线程分别确认所述原始数据队列中是否还有未处理过的数据:如果存在未处理过的数据,则各个所述数据处理入库线程分别从所述原始数据队列中读取预定数量的数据,并逐条进行预处理。
3.根据权利要求1所述的方法,其中,所述对象信息包括:位置信息、内容、错误原因。
4.根据权利要求1所述的方法,其中,还包括步骤:通过出错处理线程来处理所述出错队列。
5.根据权利要求1所述的方法,其中,根据用户定义的格式输出所述出错队列中的信息。
6.根据权利要求1所述的方法,其中,所述原始数据队列的深度和所述预处理队列的深度是可配置化的。
7.根据权利要求6所述的方法,其中所述步骤D中的从所述原始数据队列中读取预定数量的数据,并逐条进行预处理包括:
基于所述预处理队列的深度来确定所述预定数量。
8.根据权利要求6所述的方法,其中,所述预处理队列的深度是50。
9.根据权利要求1所述的方法,其特征在于,所述数据库是符合JDBC规范的数据库。
10.根据权利要求9所述的方法,其特征在于,所述数据库是INFORMIX数据库或者MYSQL数据库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410658208.2A CN104376082B (zh) | 2014-11-18 | 2014-11-18 | 一种把数据源文件中的数据导入到数据库中的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410658208.2A CN104376082B (zh) | 2014-11-18 | 2014-11-18 | 一种把数据源文件中的数据导入到数据库中的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104376082A CN104376082A (zh) | 2015-02-25 |
CN104376082B true CN104376082B (zh) | 2019-06-18 |
Family
ID=52554989
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410658208.2A Active CN104376082B (zh) | 2014-11-18 | 2014-11-18 | 一种把数据源文件中的数据导入到数据库中的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104376082B (zh) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106469152A (zh) * | 2015-08-14 | 2017-03-01 | 阿里巴巴集团控股有限公司 | 一种基于etl的文件处理方法及系统 |
CN105045917B (zh) * | 2015-08-20 | 2019-06-18 | 北京百度网讯科技有限公司 | 一种基于实例的分布式数据恢复方法和装置 |
CN105279261B (zh) * | 2015-10-23 | 2019-07-02 | 北京京东尚科信息技术有限公司 | 动态可扩展数据库归档方法和系统 |
CN105468705A (zh) * | 2015-11-18 | 2016-04-06 | 广东南方通信建设有限公司 | 一种移动通信后台数据文件导入方法 |
CN106909554B (zh) * | 2015-12-22 | 2020-08-04 | 亿阳信通股份有限公司 | 一种数据库文本表数据的加载方法及装置 |
CN107665195A (zh) * | 2016-07-27 | 2018-02-06 | 北京京东尚科信息技术有限公司 | 导入大数量数据的方法、装置及系统 |
CN106354788A (zh) * | 2016-08-23 | 2017-01-25 | 无锡天脉聚源传媒科技有限公司 | 一种文件读取方法及装置 |
CN106599222B (zh) * | 2016-12-19 | 2020-09-04 | 广州四三九九信息科技有限公司 | 一种流式并行处理日志的方法和设备 |
CN108959292B (zh) * | 2017-05-19 | 2021-03-30 | 北京京东尚科信息技术有限公司 | 一种数据上传方法、系统和计算机可读存储介质 |
CN107357868A (zh) * | 2017-07-03 | 2017-11-17 | 华通信安(北京)科技发展有限公司 | 一种matlab数据格式的快速转换方法和装置 |
CN107862095B (zh) * | 2017-12-07 | 2021-06-01 | 中国银行股份有限公司 | 一种数据处理方法及装置 |
CN108228730A (zh) * | 2017-12-11 | 2018-06-29 | 深圳市买买提信息科技有限公司 | 数据导入方法、装置、计算机设备及可读存储介质 |
CN109033184B (zh) * | 2018-06-27 | 2021-08-17 | 中国建设银行股份有限公司 | 数据处理方法及装置 |
CN109857832A (zh) * | 2019-01-03 | 2019-06-07 | 中国银行股份有限公司 | 一种支付数据的预处理方法和装置 |
CN110362617B (zh) * | 2019-06-24 | 2023-06-13 | 北京人大金仓信息技术股份有限公司 | 基于多并发技术从数据库快速导出批量数据方法和系统 |
CN114077640A (zh) * | 2020-08-20 | 2022-02-22 | 北京金山云网络技术有限公司 | 一种实现增量数据同步的系统、方法、设备及存储介质 |
CN112328542A (zh) * | 2020-11-25 | 2021-02-05 | 天津凯发电气股份有限公司 | 一种把异构数据文件中的数据导入到数据库的方法 |
US12175282B2 (en) * | 2021-02-24 | 2024-12-24 | Huawei Technologies Co., Ltd. | System, method, and apparatus for selecting a CPU or an accelerator to preprocess data based on monitored information |
CN115510020A (zh) * | 2021-06-23 | 2022-12-23 | 比亚迪股份有限公司 | 一种数据归档方法、电子设备及可读存储介质 |
CN113901122A (zh) * | 2021-10-14 | 2022-01-07 | 南方电网大数据服务有限公司 | 数据入库方法、装置、计算机设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6477535B1 (en) * | 1998-11-25 | 2002-11-05 | Computer Associates Think Inc. | Method and apparatus for concurrent DBMS table operations |
CN101515291A (zh) * | 2009-03-26 | 2009-08-26 | 北京泰合佳通信息技术有限公司 | 一种将数据批量导入数据库的方法及系统 |
CN103049533A (zh) * | 2012-12-23 | 2013-04-17 | 北京人大金仓信息技术股份有限公司 | 一种快速向数据库加载数据的方法 |
CN103092840A (zh) * | 2011-10-28 | 2013-05-08 | 上海邮电设计咨询研究院有限公司 | 多源自增海量数据文件实时采集方法 |
-
2014
- 2014-11-18 CN CN201410658208.2A patent/CN104376082B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6477535B1 (en) * | 1998-11-25 | 2002-11-05 | Computer Associates Think Inc. | Method and apparatus for concurrent DBMS table operations |
CN101515291A (zh) * | 2009-03-26 | 2009-08-26 | 北京泰合佳通信息技术有限公司 | 一种将数据批量导入数据库的方法及系统 |
CN103092840A (zh) * | 2011-10-28 | 2013-05-08 | 上海邮电设计咨询研究院有限公司 | 多源自增海量数据文件实时采集方法 |
CN103049533A (zh) * | 2012-12-23 | 2013-04-17 | 北京人大金仓信息技术股份有限公司 | 一种快速向数据库加载数据的方法 |
Non-Patent Citations (1)
Title |
---|
"Oracle中如何定位报错的行";lianjie1229;《Linux公社》;20120805;第1-2页 * |
Also Published As
Publication number | Publication date |
---|---|
CN104376082A (zh) | 2015-02-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104376082B (zh) | 一种把数据源文件中的数据导入到数据库中的方法 | |
US11755628B2 (en) | Data relationships storage platform | |
CN111712809B (zh) | 通过示例来学习etl规则 | |
CN103886011B (zh) | 一种基于索引文件的社会关系网络创建与检索系统及方法 | |
CN106844682B (zh) | 数据交换方法、装置及系统 | |
US9037525B2 (en) | Correlating data from multiple business processes to a business process scenario | |
CN106547918B (zh) | 一种统计数据的整合方法及系统 | |
EP3182304A1 (en) | Computer-implemented method for storing unlimited amount of data as a mind map in relational database systems | |
CN106164865A (zh) | 用于数据复制的依赖性感知的事务批处理 | |
CN106354817B (zh) | 一种日志的处理方法及装置 | |
CN103778239B (zh) | 一种多数据库数据管理方法及系统 | |
CN102982186B (zh) | 基于oracle数据库系统的range分区表的维护方法和系统 | |
CN107784026A (zh) | 一种etl数据处理方法及装置 | |
CN103092997B (zh) | 用于报表分析的联动查询系统和联动查询方法 | |
US20140280218A1 (en) | Techniques for data integration | |
CN104778179A (zh) | 一种数据迁移测试方法和系统 | |
CN106557307A (zh) | 业务数据的处理方法及处理系统 | |
CN103440265A (zh) | 基于MapReduce的MYSQL数据库的变化数据捕获方法 | |
US20180196858A1 (en) | Api driven etl for complex data lakes | |
CN102930036B (zh) | 用于bsm安全审计日志的冗余及无用数据删减方法 | |
CN104298671A (zh) | 数据统计分析方法及装置 | |
US20150178367A1 (en) | System and method for implementing online analytical processing (olap) solution using mapreduce | |
CN113779343B (zh) | 一种海量数据处理方法、装置、介质及电子设备 | |
CN108073705B (zh) | 一种分布式海量数据聚合采集方法 | |
KR20190124195A (ko) | 개량된 k-익명성 모델 이용 데이터 셋 비식별화 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |