CN115391427A

CN115391427A - Impala自动化伸缩的系统、方法、介质及设备

Info

Publication number: CN115391427A
Application number: CN202211055551.9A
Authority: CN
Inventors: 潘熙文; 罗俊; 罗煜辉; 刘家闰; 王�锋; 周飞; 鲍玲; 王良杰
Original assignee: Industrial Bank Co Ltd; CIB Fintech Services Shanghai Co Ltd
Current assignee: Industrial Bank Co Ltd; CIB Fintech Services Shanghai Co Ltd
Priority date: 2022-08-31
Filing date: 2022-08-31
Publication date: 2022-11-25

Abstract

本发明提供了一种Impala自动化伸缩的系统、方法、介质及设备，包括：配置管理模块：对工作空间、实例和模板进行管理；应用控制模块：接收配置管理模块提交的信息，并翻译成容器化平台可以接受的格式，对Impala的各组件进行编排生成API信息；容器平台模块：根据API信息生成Impala内部组件的实例初始化，通过监控组件收集Impala组件资源信息并根据预设配置规则自动伸缩实例。本发明通过采用容器化impala大数据计算服务组件，从而解决了应对高并发大数据量查询过慢无法自动扩缩容问题。

Description

Impala自动化伸缩的系统、方法、介质及设备

技术领域

本发明涉及Impala自动化伸缩技术领域，具体地，涉及一种Impala自动化伸缩的系统、方法、介质及设备。

背景技术

Impala作为主流的大数据查询组件，在大数据即席查询、实时数仓等场景有着广泛的应用。但是随着数据量与使用客群的增加，如何应对高并发访问与租户管理等问题愈发明显。

专利文献CN113138976A(申请号：CN202010064306.9)公开了一种提升Impala查询容量的实现方案，将从数据源收集，处理后的数据存储到Hadoop集群中，Impala关联Hadoop集群，通过将元数据缓存入Redis中，在用户首次提交查询请求，SQL引擎创建执行计划时，从Redis中获取元数据，反序列化后存入Lrucache中，后续请求创建执行计划直接从Lrucache中获取元数据。该专利主要在于Impala节点的纵向提升，却不能够在横向节点扩展方向发挥作用。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种Impala自动化伸缩的系统、方法、介质及设备。

根据本发明提供的Impala自动化伸缩的系统，包括：

配置管理模块：对工作空间、实例和模板进行管理；

应用控制模块：接收配置管理模块提交的信息，并翻译成容器化平台可以接受的格式，对Impala的各组件进行编排生成API信息；

容器平台模块：根据API信息生成Impala内部组件的实例初始化，通过监控组件收集Impala组件资源信息并根据预设配置规则自动伸缩实例。

优选的，所述配置管理模块包括：工作空间管理模块，为不同租户建立不同的资源隔离空间逻辑规划，通过Kubernates接口创建一个工作空间，工作空间对应k8s集群中的Namespace命名空间，并且通过接口打上标签和污点。

优选的，所述配置管理模块包括：实例管理模块，提供在k8s集群不同工作空间中通过前端或API在指定的工作空间中进行Impala实例的创建、变更、回收以及查询功能。

优选的，所述配置管理模块包括：模板管理模块，保存工作空间管理模块与实例管理模块的信息，并将用户所提交的信息进行封装，通过接口提交到应用控制模块。

优选的，通过日志收集器收集各组件的运行日志到日志存储平台，并进行审计分析。

优选的，根据应用控制模块提交的租户信息配置内容启动Impala实例运行到指定节点中，进行多租户资源隔离，并监控Impala集群状态。

优选的，所述应用控制模块包括：对支持Impala类型的组件进行定义，用于资源控制，并根据配置管理模块提交的租户生成权限与资源隔离内容生成具体的配置文件信息，最后提交容器平台模块生成Impala集群并将配置最终写入生成的实例中。

根据本发明提供的Impala自动化伸缩的方法，包括：

步骤1：对工作空间、实例和模板进行管理；

步骤2：接收配置管理模块提交的信息，并翻译成容器化平台可以接受的格式，对Impala的各组件进行编排生成API信息；

步骤3：根据API信息生成Impala内部组件的实例初始化，通过监控组件收集Impala组件资源信息并根据预设配置规则自动伸缩实例。

根据本发明提供的存储有计算机程序的计算机可读存储介质，所述计算机程序被处理器执行时实现所述的方法的步骤。

根据本发明提供的Impala自动化伸缩的设备，包括：控制器；

所述控制器包括所述的存储有计算机程序的计算机可读存储介质，所述计算机程序被处理器执行时实现所述的Impala自动化伸缩的方法的步骤；或者，所述控制器包括所述的Impala自动化伸缩的系统。

与现有技术相比，本发明具有如下的有益效果：

(1)本发明通过采用容器化impala大数据计算服务组件，从而解决了应对高并发大数据量查询过慢无法自动扩缩容问题；

(2)本发明通过采用租户实例管理模式，针对不同部门与使用者，建立起不同的租户与权限，解决了子集群与资源使用的管理问题，同时也简化了作业任务调度与运行的监控管理难度。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为系统架构图；

图2为部署方案图；

图3为租户隔离架构图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

实施例：

本发明提出了一种大数据组件Impala自动伸缩化系统，包括：

配置管理模块，其包含了工作空间管理、实例管理、模板管理等功能。

工作空间管理为不同租户(可按照部门或小组用户来划分)建立起不同的资源隔离空间逻辑规划，通过Kubernates接口创建一个工作空间，工作空间对应k8s集群中的Namespace命名空间，并且通过接口打上标签和污点。

实例管理提供在k8s集群不同工作空间中通过前端或API在指定的工作空间中进行Impala实例的创建、变更、回收以及查询功能。

模板管理可保存工作空间管理与实例管理等信息，为以后的再次部署、启动Impala集群提供快速便捷的功能。配置管理模块将用户所提交的信息进行封装，通过接口提交到应用控制模块。

应用控制模块，基于模板引擎接收配置管理模块提交的信息翻译成容器化平台可以接受的格式对Impala的各组件进行编排文件的生成，其中包括元数据信息Catalog、状态信息Statestore与计算组件Impala等模块。

根据Impala的模块定义抽象Impala控制资源为支持Impala类型组件定义的对象，并且会根据配置管理模块提交的租户生成权限与资源隔离内容生成具体的配置文件信息，最后提交底层容器平台模块来生成Impala集群并将配置最终写入生成的实例中。

容器平台模块，该模块是容器化平台底座。其根据API信息生成具体的Impala内部组件Statestore、Catalog、Impala等模块的实例初始化，以及监控impala集群状态等功能，并且根据应用控制模块提交的租户信息配置内容启动Impala实例到运行到指定节点中，从而起到多租户资源隔离的作用。通过日志收集器，收集各组件的运行日志到日志存储平台，为日后的审计分析提供依据。通过监控组件收集Impala组件资源信息并根据配置规则来自动伸缩实例。

根据本发明提供的Impala自动化伸缩的方法，包括：步骤1：对工作空间、实例和模板进行管理；步骤2：接收配置管理模块提交的信息，并翻译成容器化平台可以接受的格式，对Impala的各组件进行编排生成API信息；步骤3：根据API信息生成Impala内部组件的实例初始化，通过监控组件收集Impala组件资源信息并根据预设配置规则自动伸缩实例。

根据本发明提供的Impala自动化伸缩的设备，包括：控制器；所述控制器包括所述的存储有计算机程序的计算机可读存储介质，所述计算机程序被处理器执行时实现所述的Impala自动化伸缩的方法的步骤；或者，所述控制器包括所述的Impala自动化伸缩的系统。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种Impala自动化伸缩的系统，其特征在于，包括：

配置管理模块：对工作空间、实例和模板进行管理；

2.根据权利要求1所述的Impala自动化伸缩的系统，其特征在于，所述配置管理模块包括：工作空间管理模块，为不同租户建立不同的资源隔离空间逻辑规划，通过Kubernates接口创建一个工作空间，工作空间对应k8s集群中的Namespace命名空间，并且通过接口打上标签和污点。

3.根据权利要求1所述的Impala自动化伸缩的系统，其特征在于，所述配置管理模块包括：实例管理模块，提供在k8s集群不同工作空间中通过前端或API在指定的工作空间中进行Impala实例的创建、变更、回收以及查询功能。

4.根据权利要求1所述的Impala自动化伸缩的系统，其特征在于，所述配置管理模块包括：模板管理模块，保存工作空间管理模块与实例管理模块的信息，并将用户所提交的信息进行封装，通过接口提交到应用控制模块。

5.根据权利要求1所述的Impala自动化伸缩的系统，其特征在于，通过日志收集器收集各组件的运行日志到日志存储平台，并进行审计分析。

6.根据权利要求1所述的Impala自动化伸缩的系统，其特征在于，根据应用控制模块提交的租户信息配置内容启动Impala实例运行到指定节点中，进行多租户资源隔离，并监控Impala集群状态。

7.根据权利要求1所述的Impala自动化伸缩的系统，其特征在于，所述应用控制模块包括：对支持Impala类型的组件进行定义，用于资源控制，并根据配置管理模块提交的租户生成权限与资源隔离内容生成具体的配置文件信息，最后提交容器平台模块生成Impala集群并将配置最终写入生成的实例中。

8.一种Impala自动化伸缩的方法，其特征在于，采用权利要求1-7中任一项所述的Impala自动化伸缩的系统，包括：

步骤1：对工作空间、实例和模板进行管理；

9.一种存储有计算机程序的计算机可读存储介质，其特征在于，所述计算机程序被处理器执行时实现权利要求8所述的方法的步骤。

10.一种Impala自动化伸缩的设备，其特征在于，包括：控制器；

所述控制器包括权利要求9所述的存储有计算机程序的计算机可读存储介质，所述计算机程序被处理器执行时实现权利要求8所述的Impala自动化伸缩的方法的步骤；或者，所述控制器包括权利要求1至7中任一项所述的Impala自动化伸缩的系统。