CN108268529A

CN108268529A - 一种基于业务抽象和多引擎调度的数据汇总方法和系统

Info

Publication number: CN108268529A
Application number: CN201611264647.0A
Authority: CN
Inventors: 尹犊; 王春生; 葛劲文; 程思
Original assignee: Bright Oceans Inter Telecom Co Ltd
Current assignee: Bright Oceans Inter Telecom Co Ltd
Priority date: 2016-12-30
Filing date: 2016-12-30
Publication date: 2018-07-10
Anticipated expiration: 2036-12-30
Also published as: CN108268529B

Abstract

本发明提供了一种基于业务抽象和多引擎调度的数据汇总方法和系统，该方法的核心是业务需求与具体大数据实现解耦，在底层自适应多种大数据引擎。首先配置用户的汇总业务需求，在接收到数据源数据和业务需求后，适配所述业务需求特征的一个特定大数据分析引擎，并将所述业务需求转换为所选择的特定大数据分析引擎的原语；将汇总指示和原语发送给大数据分析单元进行数据汇总处理，得到汇总结果后输出。本发明的技术方案不需要用户了解具体的大数据分析引擎的实现细节，而通过业务抽象配置和多引擎自适应调度来为数据源选择合适的汇总引擎，从而大幅降低了大数据技术的门槛，具有很高的通用性。

Description

一种基于业务抽象和多引擎调度的数据汇总方法和系统

技术领域

本发明涉及大数据处理，特别地，涉及一种基于业务抽象和多引擎调度的数据汇总方法和系统。

背景技术

目前随着大数据技术各行业越来越广泛的应用，大数据引擎，包括流行的大数据和流式计算技术，比较多，业界主要的几种大数据技术包括hadoop,impala,hbase,hive,spark等，主要的集中流式计算技术包括sparkstreaming,storm；上述各种大数据和流式计算技术各有所长，但是学习曲线都比较长；在各个细分的应用领域也都能看到很多相关的专利，但是这些专利都有类似的特点，就是使用某一种大数据技术，在某一个特定的应用上。

而且，在目前的市场环境下，一个熟悉某种大数据技术的开发团队是比较贵的，一个熟悉多种大数据技术，并能根据业务需求快速选定最合适的技术引擎开发的团队就很少了，能把这种选择过程智能化，以可视化、自适应方式实现的产品还没有。

对于比较大型的公司来说，以前都有很多业务系统在线上运行，现在想用大数据技术对这些系统进行改造，希望能把业务抽象和具体的分析计算实现脱离开，上层用户只需要描述抽象的业务需求，由底层根据业务特征自动选用最合适的大数据引擎实现，即用一种带有通用特征的框架，在业务层不太懂大数据技术细节的人也能进行抽象配置，由底层自动适用最合适的大数据引擎进行实现；从而在上层应用的具体实现环节，最大程度的屏蔽技术细节，通过可视化配置，模块化的方式来实现具体的业务。

目前还没有看到有针对大数据应用进行业务层抽象，并且屏蔽大数据底层大部分细节，通过配置方式实现的技术，需要一种以较低的成本，较快的速度引入大数据技术改造现有系统，这是本发明的目的。

发明内容

为了实现移动大数据性能汇总功能和移动大数据流式汇总功能，本发明提供一种基于业务抽象和多引擎调度的数据汇总方法和系统。

根据本发明的实施方式，提出一种基于业务抽象和多引擎调度的数据汇总系统，该系统包括数据导入模块、通用多引擎汇总管理模块、数据导出模块、大数据分析单元和配置模块；

所述数据导入模块，用于从指定的外部数据源定期读取数据，经过格式转换后，将数据导入大数据分析单元，然后通知通用多引擎汇总管理模块已完成数据导入；

所述通用多引擎汇总管理模块，收到数据导入模块发来的数据导入完成通知后，根据配置模块设置的汇总业务需求，选择适配所述业务需求的一个特定大数据分析引擎，并将所述业务需求转换为所选择的特定大数据分析引擎的原语，所述原语是大数据分析引擎理解的语言；将汇总指示和所述特定大数据分析引擎的原语发送给大数据分析单元；当从大数据分析单元得到汇总完成的通知后，再将汇总完成通知发给数据导出模块；

所述数据导出模块，从通用多引擎汇总管理模块得到汇总完成的通知后，从大数据分析单元中读取汇总结果数据，经过格式转换后，输出给外部应用；

所述大数据分析单元，用于存储导入数据，当接收到通用多引擎汇总管理模块发来的汇总指示和原语后，进行大数据查询分析计算汇总；汇总完成后存储汇总结果数据，并通知通用多引擎汇总管理模块已完成数据汇总；

所述配置模块，用于配置外部数据源、外部应用的连接信息，配置用户的汇总业务需求。

进一步地，所述大数据分析单元，还包括导入数据存储区、导出数据存储区和多种大数据分析引擎，其中，

导入数据存储区用于保存从数据导入模块导入的数据，供大数据分析引擎使用；

导出数据存储区用于保存大数据分析引擎统计分析的结果数据，供输出给外部应用使用；

所述多种大数据分析引擎中的任意一种分析引擎，当接收到通用多引擎汇总管理模块发来的汇总指示和原语后，根据导入数据存储区的数据，进行大数据查询分析计算，将统计分析的结果数据保存到导出数据存储区。

进一步地，所述的多种大数据分析引擎可以包括impala分析引擎，hbase分析引擎，storm分析引擎，spark分析引擎。

进一步地，所述配置模块，包括数据导入配置子模块、包括数据导出配置子模块和业务需求配置子模块；其中，

数据导入配置子模块，用于配置与外部数据源链接的IP地址、端口，外部数据源的登录帐号、以及导入数据的存储位置，将已配置好的参数发给数据导入模块；

数据导出配置子模块，用于配置与外部应用链接的IP地址、端口，外部应用的登录帐号、以及导出数据的存储位置，将已配置好的参数发给数据导出模块；

业务需求配置子模块，用于配置汇总业务类型、汇总算法和汇总数据指标，将所述设置的需求发给通用多引擎汇总管理模块；所述的汇总业务类型包括非实时大数据计算类和实时流式计算类，所述的汇总算法包括sql描述汇总算法和非sql描述汇总算法。

进一步地，所述的通用多引擎汇总管理模块包括引擎适配模块和引擎接口连接模块；

所述引擎适配模块用于接收数据导入模块发来的数据导入完成通知，根据配置模块设置的汇总业务需求，选择适配所述业务需求特征的一个特定大数据分析引擎，并将所述需求转换为所选择的特定大数据分析引擎的原语，向引擎接口连接模块发送汇总指示通知；

引擎接口连接模块，收到所述引擎适配模块发来的汇总指示后，连接所选择的特定大数据分析引擎的外部接口，将汇总指示和所选择的特定大数据分析引擎的原语发送给大数据分析单元中的所述特定大数据分析引擎。

进一步地，所述引擎适配模块中选择适配所述业务需求特征的一个特定大数据分析引擎，具体为：

如果配置的汇总业务类型为实时流式计算类，则选择适合实时汇总的大数据分析引擎storm；否则配置的汇总业务类型为非实时大数据计算类，则选择适合非实时汇总的大数据分析引擎，如果同时配置为sql描述汇总算法，则选择适合非实时汇总的sql描述算法的大数据分析引擎impala；否则选择适合非实时汇总的非sql描述算法的大数据分析引擎hbase。

根据本发明的另一实施方式，还提出一种基于业务抽象和多引擎调度的数据汇总方法，所述方法用于采用上述系统方案执行以下步骤：

步骤1，配置外部数据源、外部应用的连接信息，，

步骤2，配置用户的汇总业务需求，包括配置汇总业务类型、汇总算法和汇总数据指标；

步骤3，根据配置信息连接外部数据源，从的外部数据源定期读取数据，经过格式转换后，将数据导入大数据分析单元，并保存；

步骤4，根据配置的汇总业务需求，选择适配所述业务需求的一个特定大数据分析引擎，并将所述业务需求转换为所选择的特定大数据分析引擎的原语；将汇总指示和所述特定大数据分析引擎的原语发送给大数据分析单元；

步骤5，大数据分析单元进行大数据查询分析计算汇总；存储汇总结果数据，

步骤6，对汇总结果进行格式转换和数据聚合，输出给外部应用。

进一步地，所述大数据分析单元，包括导入数据存储区、导出数据存储区和多种大数据分析引擎，其中，

导入数据存储区用于保存导入的数据，供大数据分析引擎使用；

所述多种大数据分析引擎中的任意一种分析引擎，当接收到汇总指示和原语后，根据导入数据存储区的数据，进行大数据查询分析计算，将统计分析的结果数据保存到导出数据存储区。

进一步地，所述的步骤2中所述的汇总业务类型包括非实时大数据计算类和实时流式计算类，所述的汇总算法包括sql描述汇总算法和非sql描述汇总算法。

进一步地，所述的步骤4中选择适配所述需求的一个特定大数据分析引擎，具体为：

本发明系统替代传统业务处理系统中Oracle存储的海量基础业务数据能力，借助当前流行的大数据分析引擎提供的汇总分析计算能力，提出了一种基于业务抽象和多引擎调度的汇总方法和系统，用户只需要对汇总业务需求进行预配置，则执行本发明方法的系统可以实现调度多种大数据分析技术引擎，根据用户配置的汇总业务类型、汇总算法和汇总数据指标，自动适配出最适合的大数据分析引擎，从而具有很高的通用性和便捷的实用性，大大节省了开发成本，加快了开发进度，迅速交付满足用户需求的大数据分析开发项目。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

附图1示出了本发明的基于业务抽象和多引擎调度的数据汇总系统图；

附图2本发明的基于业务抽象和多引擎调度的数据汇总系统图；

附图3本发明的基于业务抽象和多引擎调度的数据汇总系统图；

附图3A示出了本发明对sql算法类大数据汇总算法的通用配置图；

附图3B示出了本发明中的批量导入汇总算法示意图；

附图3C示出了对具体汇总算法的编辑页面；

附图3D示出了完成编辑后的汇总算法配置文件；

附图4示出了本发明的基于业务抽象和多引擎调度的数据汇总方法示意图；

附图5示出了本发明的基于Impala实现非实时大数据汇总的示意图；

附图6示出了本发明的基于storm实现实时汇总的示意图；

附图7示出了本发明大数据非实时多级汇总业务流程配置图；

附图8示出了本发明大数据非实时汇总业务输入输出表通用配置图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了一种基于业务抽象和多引擎调度的数据汇总系统结构图的实施例，该系统包括数据导入模块100、通用多引擎汇总管理模块200、数据导出模块300、大数据分析单元400和配置模块500。

所述数据导入模块100，用于从指定的外部数据源定期读取数据，经过格式转换后，将数据导入大数据分析单元，然后通知通用多引擎汇总管理模块已完成数据导入。

所述通用多引擎汇总管理模块200，收到数据导入模块发来的数据导入完成通知后，根据配置模块设置的汇总业务需求，选择适配所述业务需求的一个特定大数据分析引擎，并将所述业务需求转换为所选择的特定大数据分析引擎的原语；将汇总指示和所述特定大数据分析引擎的原语发送给大数据分析单元；当从大数据分析单元得到汇总完成的通知后，再将汇总完成通知发给数据导出模块。

所述数据导出模块300，从通用多引擎汇总管理模块得到汇总完成的通知后，从大数据分析单元中读取汇总结果数据，经过格式转换后，输出给外部应用。

所述大数据分析单元400，用于存储导入数据，当接收到通用多引擎汇总管理模块发来的汇总指示和原语后，进行大数据查询分析计算汇总；汇总完成后存储汇总结果数据，并通知通用多引擎汇总管理模块已完成数据汇总。

所述配置模块500，用于配置外部数据源、外部应用的连接信息，，配置用户的汇总业务需求。

所述原语是大数据分析引擎理解的语言。比如，如果将某个业务需求用hbase引擎实现，则需要将其业务需求转换成一系列hbase api调用。

图2示出了一种基于业务抽象和多引擎调度的数据汇总系统结构图的另一实施例，所述大数据分析单元400，还包括导入数据存储区410、导出数据存储区420和多种大数据分析引擎4301……430n，其中，

导入数据存储区410用于保存从数据导入模块导入的数据，供大数据分析引擎使用。

导出数据存储区420用于保存大数据分析引擎统计分析的结果数据，供输出给外部应用使用。

所述多种大数据分析引擎中的任意一种分析引擎430x，当接收到通用多引擎汇总管理模块发来的汇总指示和原语后，根据导入数据存储区的数据，进行大数据查询分析计算，将统计分析的结果数据保存到导出数据存储区。

例如，所述的多种大数据分析引擎可以包括impala分析引擎，hbase分析引擎，storm分析引擎，spark分析引擎。图6中示出了本发明的基于storm实现实时汇总的示意图。图3示出了一种基于业务抽象和多引擎调度的数据汇总系统结构图的另一实施例，所述配置模块，包括数据导入配置子模块510、数据导出配置子模块530和业务需求配置子模块520；其中，

数据导入配置子模块510，用于配置与外部数据源链接的IP地址、端口，外部数据源的登录帐号、以及导入数据的存储位置，将已配置好的参数发给数据导入模块。

业务需求配置子模块520，用于配置汇总业务类型、汇总算法和汇总数据指标，生成配置文件，将所述设置的需求生成的配置文件，发给通用多引擎汇总管理模块；所述的汇总业务类型包括非实时大数据计算类和实时流式计算类，所述的汇总算法包括sql描述汇总算法和非sql描述汇总算法。

其中对于大数据的sql类汇总算法通用配置图如下图3A所示，其汇总配置包括impala连接参数配置、汇总条件的配置等；若需要批量导入汇总算法，则点击批量导入键后，出现如图3B所示的批量导入汇总算法示意图，对于具体的汇总算法可通过编辑按钮在具体算法的配置页面进行编辑；而点击编辑进入具体的编辑页面如图3C所示，其界面包含了原始指标组id、指标组名称、目标指标组id，以及字段名、输入表字段及对应算法、输出表字段，可动态选择的输入表属性字段以及输出表属性信息；最后完成编辑后的配置文件部分示例如图3D所示，其包含了根据算法等配置生成的完整的sql的XML字符串。

数据导出配置子模块530，用于配置与外部应用链接的IP地址、端口，外部应用的登录帐号、以及导出数据的存储位置，将已配置好的参数发给数据导出模块。

其中的通用多引擎汇总管理模块包括引擎适配模块和引擎接口连接模块。

所述引擎适配模块用于接收数据导入模块发来的数据导入完成通知，根据配置模块设置的汇总业务需求，比如配置文件形式的，选择适配所述业务需求特征的一个特定大数据分析引擎，并将所述需求转换为所选择的特定大数据分析引擎的原语，比如关于引擎impala的一系列impala API调用，向引擎接口连接模块发送汇总指示通知。

在选择适配所述业务需求特征的一个特定大数据分析引擎中，如果配置的汇总业务类型为实时流式计算类，则选择适合实时汇总的大数据分析引擎storm；否则配置的汇总业务类型为非实时大数据计算类，则选择适合非实时汇总的大数据分析引擎，如果同时配置为sql描述汇总算法，则选择适合非实时汇总的sql描述算法的大数据分析引擎impala；否则选择适合非实时汇总的非sql描述算法的大数据分析引擎hbase。

另外，本发明还提出一种基于业务抽象和多引擎调度的数据汇总方法，实施例如图4所示，具体包括以下步骤：

S101，配置外部数据源、外部应用的连接信息，S102，配置用户的汇总业务需求，包括配置汇总业务类型、汇总算法和汇总数据指标。

所述的汇总业务类型包括非实时大数据计算类和实时流式计算类，所述的汇总算法包括sql描述汇总算法和非sql描述汇总算法。

S103，从配置的外部数据源定期读取数据，经过格式转换后，将数据导入大数据分析单元，并保存。

S104，根据配置的汇总业务需求，选择适配所述业务需求的一个特定大数据分析引擎，并将所述业务需求转换为所选择的特定大数据分析引擎的原语；将汇总指示和所述特定大数据分析引擎的原语发送给大数据分析单元。

S105，大数据分析单元进行大数据查询分析计算汇总；存储汇总结果数据，

S106，对汇总结果进行格式转换和数据聚合，输出给外部应用。

其中的大数据分析单元，包括导入数据存储区、导出数据存储区和多种大数据分析引擎，其中，

下面实施例以impala引擎为例说明，用户的业务需求是，从hdfs外部数据源每5分钟采集一批数据200万条，每条数据包含时间戳，区域信息，指标组信息，以及几十个原始指标值。经过大数据分析引擎进行汇总后，汇总结果以标准pb格式输出到上层应用的消息队列。汇总算法是，将新采集数据与历史数据一起，首先按时间和空间维度筛选数据，然后对筛选出来的数据进行汇总，计算公式为将原始指标经过加、减、乘、除、求和、求平均，求最大、求最小等，得出一个KPI结果值。

在本系统中实现上述过程如下：

1，首先配置数据导入的预置参数，描述外部数据源的地址，访问账号，密码等信息，并配置数据导入到大数据存储的目的表地址，表名，账号，密码等信息。

2，然后配置数据导出的预置参数，描述导出组件从大数据存储的汇总表获取汇总结果，并配置外部应用接收消息队列的地址，topic等信息。

3，配置大数据分析单元的底层数据存储部分，这里需要描述两个大数据存储表，一个用于接收导入的数据，一个用于存储汇总的结果；

4，配置大数据分析单元进行汇总业务的业务类型，包括实时计算，非实时计算，sql算法类，非sql算法类。

5，配置大数据分析单元进行汇总计算的业务算法部分，选取原始指标字段，编辑算法(加、减、乘、除，求和、求平均，求最大、求最小)，配置对应的汇总目的数据字段。

6，配置完成后，开始执行，从数据导入模块开始工作，先将外部数据导入到大数据分析单元存储区-原始表，然后通用多引擎汇总管理模块选取出最适合的大数据引擎接口，先将汇总业务算法翻译成该引擎对应的一系列操作原语，一系列的impala复合sql语句，然后将原语通过该引擎的标准接口传给impala大数据引擎服务器执行数据汇总。汇总原语会完成汇总并将结果存入汇总结果表。然后数据导出模块开始工作，从汇总结果表读取数据，封装成标准的pb格式，然后写入配置好的外部应用的消息队列。

7，至此完成用户的汇总业务需求。

图5中示出了本发明的基于Impala实现非实时大数据汇总的示意图。其中在数据导入文本文件后，通过文本处理得到Hdfs目录文件，进行impala表操作后即可得到impala表数据，也就是impala的原始数据，将该impala原始数据划分为多个汇总任务进行数据汇总，并按照粒度进行分区存放，输出到临时结果表，接着进行数据封装后输出汇总任务的汇总结果。

接下来，以impala为例介绍基于业务抽象的非实时大数据汇总的具体实现，图7示出了大数据非实时多级汇总业务流程配置图，具体可根据具体业务需求将汇总流程配置为多级汇总。

图8示出了大数据非实时汇总业务输入输出表通用配置图，具体地，用户可在元件属性配置中，设置输入表和输出表，其中输入表中的选择项作为算法配置页面中的输入表，输出表中的选择项作为汇总结果的输出表。

本发明不需要用户了解具体的大数据底层的数据分析统计的细节，底层各种不同的大数据引擎通过用户界面配置业务需求找到适合的引擎来汇总计算，从而大幅降低了引入大数据技术的门槛，具有很高的通用性。

本领域普通技术人员可以理解实现上述实施例中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准，依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种基于业务抽象和多引擎调度的数据汇总系统，其特征在于，该系统包括数据导入模块、通用多引擎汇总管理模块、数据导出模块、大数据分析单元和配置模块；

所述配置模块，用于配置外部数据源、配置外部应用的连接信息，配置用户的汇总业务需求。

2.如权利要求1所述的系统，其特征在于，所述大数据分析单元包括导入数据存储区、导出数据存储区和多种大数据分析引擎，其中，

3.如权利要求2所述的系统，其特征在于，所述的多种大数据分析引擎包括impala分析引擎，hbase分析引擎，storm分析引擎，spark分析引擎。

4.如权利要求1所述的系统，其特征在于，所述配置模块，包括数据导入配置子模块、数据导出配置子模块和业务需求配置子模块；其中，

5.如权利要求4所述的系统，其特征在于，所述的通用多引擎汇总管理模块包括引擎适配模块和引擎接口连接模块；

6.如权利要求5所述的系统，其特征在于，所述引擎适配模块选择适配所述业务需求特征的一个特定大数据分析引擎，具体为：

7.一种基于业务抽象和多引擎调度的数据汇总系统的汇总方法，其特征在于，所述方法包括以下步骤：

步骤1，配置外部数据源、外部应用的连接信息；

步骤4，根据配置的汇总业务需求，选择适配所述业务需求的一个特定大数据分析引擎，并将所述业务需求转换为所选择的特定大数据分析引擎的原语；将汇总指示和所述特定大数据分析引擎的原语发送给大数据分析单元；所述原语是大数据分析引擎理解的语言；

步骤5，大数据分析单元进行大数据查询分析计算汇总；存储汇总结果数据；

8.如权利要求7所述的方法，其特征在于，所述大数据分析单元，包括导入数据存储区、导出数据存储区和多种大数据分析引擎，其中，

9.如权利要求8所述的方法，其特征在于，所述的步骤2中所述的汇总业务类型包括非实时大数据计算类和实时流式计算类，所述的汇总算法包括sql描述汇总算法和非sql描述汇总算法。

10.如权利要求9所述的方法，其特征在于，所述的步骤4中选择适配所述需求的一个特定大数据分析引擎，具体为：