CN111813846A

CN111813846A - 一种数据分析处理系统和数据处理方法

Info

Publication number: CN111813846A
Application number: CN202010611247.2A
Authority: CN
Inventors: 焦悦光; 胡宗星; 邱剑生; 郭璐; 崔静
Original assignee: Beijing Zetyun Tech Co ltd
Current assignee: Beijing Zetyun Tech Co ltd
Priority date: 2020-06-29
Filing date: 2020-06-29
Publication date: 2020-10-23
Anticipated expiration: 2040-06-29
Also published as: CN111813846B

Abstract

本发明提供一种数据分析处理系统和数据处理方法，该方法包括：获取流任务的第一数据结构的输入数据；将所述第一数据结构的输入数据转换为第二数据结构的中间数据；使用所述流任务的算子对所述中间数据进行计算，输出计算结果；其中，所述第二数据结构包括静态数据区域和动态数据区域。本发明实施例中的数据分析处理系统能够处理动态数据或者复杂数据，提高了数据处理效率。

Description

一种数据分析处理系统和数据处理方法

技术领域

本发明涉及数据处理技术领域，尤其涉及一种数据分析处理系统和数据处理方法。

背景技术

近年来，大数据处理与分析已经成为全球性问题，随着经济社会信息化和自动化水平不断提高，在政府管理、公共服务、科学研究、商业应用等许多领域面临大数据问题，需要有各种针对性和经济有效的解决方案。大数据平台为行业大数据提供处理能力，集数据接入、数据处理、数据存储、查询检索、分析挖掘、应用接口等功能为一体。

现有的数据分析处理系统仅能处理单层的数据或者静态数据，不能处理动态数据或者复杂数据(嵌套数据)，现有的数据分析处理系统数据处理效率低，处理数据类型单一。

发明内容

本发明实施例提供一种数据分析处理系统和数据处理方法，解决现有的数据分析处理系统数据处理效率低，处理数据类型单一的问题。

为解决上述技术问题，本发明提供一种数据处理方法，应用于数据分析处理系统，所述方法包括：

获取流任务的第一数据结构的输入数据；

将所述第一数据结构的输入数据转换为第二数据结构的中间数据；

使用所述流任务的算子对所述中间数据进行处理，输出处理结果；

其中，所述第二数据结构包括静态数据区域和动态数据区域。

优选的，上述方法中，所述将所述第一数据结构的输入数据转换为第二数据结构的中间数据包括：

获取所述输入数据的数据类型；

根据所述数据类型，将所述第一数据结构的输入数据转换为第二数据结构的中间数据。

优选的，上述方法中，所述根据所述数据类型，将所述第一数据结构的输入数据转换为第二数据结构的中间数据包括：

根据所述输入数据的各字段的原数据类型，确定所述各字段在所述第二数据结构中对应的目标数据类型，所述目标数据类型包括静态数据类型和动态数据类型；

对所述第二数据结构中对应的静态数据和动态数据统一进行顺序编号，得到静态区域索引，以及，对所述动态数据单独进行顺序编号，得到动态区域索引；

根据所述静态区域索引、动态区域索引，以及所述各字段在所述第二数据结构中对应的目标数据类型，将所述第一数据结构的输入数据转换为第二数据结构的中间数据。

优选的，上述方法中，所述根据所述输入数据的各字段的原数据类型，确定所述各字段在所述第二数据结构中对应的目标数据类型的步骤包括：

子步骤a：若所述输入数据的字段的原数据类型为静态，且所述数据类型是标量，将所述字段标记为静态数据；

子步骤b：若所述输入数据的字段的原数据类型为静态，且所述数据类型为非标量，对所述字段的各个子字段递归重复子步骤a，b；

子步骤c：若所述输入数据的字段的原数据类型为动态，所述字段包含的子字段的个数和名称是确定的，则对所述字段的各个子字段递归重复子步骤a，b，c；

子步骤d：若所述输入数据的字段的原数据类型为动态，且所述字段的子字段的个数或名称不确定，则标记为动态数据。

优选的，上述方法中，在所述根据所述静态区域索引、动态区域索引，以及所述各字段在所述第二数据结构中对应的数据类型，将所述第一数据结构的输入数据转换为第二数据结构的中间数据的步骤之前，所述方法还包括：

根据所述静态区域索引的个数建立相应长度的静态数据区域；

根据所述动态区域索引的个数建立相应长度的动态数据区域。

优选的，上述方法中，所述静态数据区域为变长数组，所述动态数据区域为变长数组。

优选的，上述方法中，所述根据所述静态区域索引、动态区域索引，以及所述各字段在所述第二数据结构中对应的数据类型，将所述第一数据结构的输入数据转换为第二数据结构的中间数据的步骤包括：

将标记为静态数据的字段的值映射为所述静态数据区域中，与所述静态数据的字段对应的静态区域索引为下标的数组元素；

将标记为动态数据的字段的值映射为所述动态数据区域中，与所述动态数据的字段对应的动态区域索引为下标的数组元素；

将所述静态数据区域中，与所述动态数据的字段对应的静态区域索引为下标的数组元素的值设置为所述动态区域索引。

优选的，上述方法中，所述获取所述输入数据的数据类型包括：

基于用户配置输入获取所述输入数据的数据类型；或

基于预先建立的数据类型预测模型确定所述输入数据的数据类型。

优选的，上述方法中，所述输入数据包括嵌套数据和/或动态数据。

优选的，上述方法中，所述将所述第一数据结构的输入数据转换为第二数据结构的中间数据的步骤之后，所述方法还包括：

基于所述目标数据类型确定所述流任务的计算方式；

所述使用所述流任务的算子对所述中间数据进行处理，输出处理结果的步骤包括：

基于所述计算方式使用所述流任务的算子对所述中间数据进行处理，输出处理结果。

优选的，上述方法中，所述获取流任务的第一数据结构的输入数据的步骤之前，所述方法还包括：获取所述流任务的输入数据，对所述输入数据进行反序列化处理。

优选的，上述方法中，所述使用流任务的算子对所述中间数据进行处理，输出处理结果的步骤包括：

使用所述流任务的算子通过所述数组元素的下标访问中间数据对应的值；

使用所述值进行计算，得到计算结果；

将所述计算结果转换为所述第一数据结构的数据，得到输出数据。

优选的，上述方法中，所述将所述计算结果转换为所述第一数据结构的数据，获得得到输出数据的步骤之后，所述方法还包括：

将所述输出数据进行序列化处理；

输出序列化处理后的输出数据。

优选的，上述方法中，所述流任务以分布式方式运行，所述使用流任务的算子对所述中间数据进行处理，输出处理结果的步骤包括：

使用所述流任务的第一算子对所述中间数据进行计算，并将计算数据进行序列化处理得到字节流；

将所述字节流输入到第二算子，将所述字节流反序列得到计算数据；使用第二算子对所述计算数据进行处理，输出计算结果。

优选的，上述方法中，所述第二数据结构还包括内秉属性。

若所述输入数据的字段为所述第一数据结构中至少两种数据结构公共的字段，将所述字段映射到内秉属性。

本发明实施例还提供了一种数据分析处理系统，所述数据分析处理系统包括：

获取模块，用于获取流任务的第一数据结构的输入数据；

转换模块，用于将所述第一数据结构的输入数据转换为第二数据结构的中间数据；

处理模块，用于使用所述流任务的算子对所述中间数据进行处理，输出处理结果；

优选的，上述数据分析处理系统中，所述转换模块包括：

获取子单元，用于获取所述输入数据的数据类型；

转换子单元，用于根据所述数据类型，将所述第一数据结构的输入数据转换为第二数据结构的中间数据。

优选的，上述数据分析处理系统中，所述转换子单元具体用于：

优选的，上述数据分析处理系统中，所述根据所述输入数据的各字段的原数据类型，获取所述各字段在所述第二数据结构中对应的目标数据类型的步骤包括：

子步骤d：若所述输入数据的字段的原数据类型为动态，且所述字段的子字段的个数或名称不确定，则将所述字段标记为动态数据。

优选的，上述数据分析处理系统中，在所述根据所述静态区域索引、动态区域索引，以及所述各字段在所述第二数据结构中对应的数据类型，将所述第一数据结构的输入数据转换为第二数据结构的中间数据的步骤之前，还包括：

优选的，上述数据分析处理系统中，所述静态数据区域为变长数组，所述动态数据区域为变长数组。

优选的，上述数据分析处理系统中，所述根据所述静态区域索引、动态区域索引，以及所述各字段在所述第二数据结构中对应的数据类型，将所述第一数据结构的输入数据转换为第二数据结构的中间数据的步骤包括：

优选的，上述数据分析处理系统中，所述获取子单元具体用于：

基于用户配置输入获取所述输入数据的数据类型；或

优选的，上述数据分析处理系统中，所述输入数据包括嵌套数据和/或动态数据。

优选的，上述数据分析处理系统中，所述将所述第一数据结构的输入数据转换为第二数据结构的中间数据的步骤之后，还包括：

基于所述目标数据类型确定所述流任务的计算方式；

所述处理模块具体用于：

优选的，上述数据分析处理系统中，还包括：

反序列化模块，用于获取所述流任务的输入数据，对所述输入数据进行反序列化处理。

优选的，上述数据分析处理系统中，所述处理模块还具体用于：

使用所述值进行计算，得到计算结果；

将所述输出数据进行序列化处理；

输出序列化处理后的输出数据。

优选的，上述数据分析处理系统中，所述流任务以分布式方式运行，所述处理模块还具体用于：

优选的，上述数据分析处理系统中，所述第二数据结构还包括内秉属性。

优选的，上述数据分析处理系统中，所述根据所述输入数据的各字段的原数据类型，确定所述各字段在所述第二数据结构中对应的目标数据类型的步骤包括：

本发明实施例还提供了一种数据分析处理系统，所述数据分析处理系统包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上述数据处理方法的步骤。

本发明实施例还提供了一种可读存储介质，所述可读存储介质存储有计算机程序，所述计算机程序被执行时实现如上述数据处理方法的步骤。

本发明提供一种数据分析处理系统和数据处理方法，该方法包括：获取流任务的第一数据结构的输入数据；将所述第一数据结构的输入数据转换为第二数据结构，得到中间数据；使用所述流任务的算子对所述中间数据进行计算，输出计算结果；其中，所述第二数据结构包括静态数据区域和动态数据区域。本发明实施例中通过输入数据的第一数据结构转换为第二数据结构，使得数据分析处理系统能够处理动态数据或者复杂数据，提高了数据处理效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获取其他的附图。

图1是本发明实施例提供的数据处理方法的流程图；

图2是本发明实施例提供的定义数据结构的图形用户界面示意图；

图3是本发明实施例提供的又一定义数据结构的图形用户界面示意图；

图4是本发明实施例提供的数据处理方法的步骤102的流程图；

图5是本发明实施例提供的一个流任务的示意图；

图6是本发明实施例提供的一个流任务算子的图形化配置界面；

图7是本发明实施例提供的又一个流任务算子的图形化配置界面；

图8是本发明实施例提供的数据分析处理系统的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获取的所有其他实施例，都属于本发明保护的范围。

参见图1，图1是本发明实施例提供的数据处理方法的流程图，所述数据处理方法应用于数据分析处理系统，如图1所示，所述数据处理方法包括以下步骤：

步骤101，获取流任务的第一数据结构的输入数据。

可选的，所述输入数据包括实时数据，该输入数据可以是嵌套数据，此外，所述输入数据还可以是动态数据。其中，嵌套数据是指包括至少两层数据结构的数据，嵌套数据的字段为非标量。

其中，第一数据结构包括字段名称和值的类型。本发明实施例中第一数据结构包括下述至少之一：动态数据结构、静态数据结构、嵌套数据结构。如果该第一数据结构中的各字段信息是预知，即可以确定字段的名称、类型和个数，并且每个字段的类型要么是标量，要么是静态的，则称这个数据结构为静态数据结构，反之，如果该第一数据结构中的各字段信息是不可预知的，则称这个数据结构为动态数据结构。

示例性的，下面以“学生成绩”为了，具体说明单层数据结构和嵌套数据结构。下面定义一个数据结构来表示学生的成绩记录，称为“学生成绩”，其中第一行是数据结构的名称，其后各行为字段名，冒号后是字段的类型：

学生成绩

学号：字符串

姓名：字符串

成绩：整数

上述数据结构中每个字段的值的类型都是标量(即不需要分解，且能直接进行处理的值，例如整数、浮点数、字符串等)，称这种数据结构为单层的(扁平的)数据结构。

修改以上数据结构中的“成绩”字段类型为另外一个数据结构“各科成绩”：

各科成绩

语文：整数

数学：整数

英语：整数

“学生成绩”的整体数据结构定义变为：

学生成绩

学号：字符串

姓名：字符串

成绩：各科成绩

语文：整数

数学：整数

英语：整数

此时“成绩”字段的类型不再是一个标量，这种数据结构(“学生成绩”的整体数据结构)称为嵌套(即多层)的数据结构。

下面结合上述示例进一步说明静态数据结构和动态数据结构。

上述示例中“学生成绩”包括字段的字段名称、类型、以及字段个数是固定的，也即，该数据结构的字段信息是可预知的，因此，上述示例中的“学生成绩”为静态数据结构。如果上述“各科成绩”数据结构还包含一个字段“其他科目”，其类型是一个动态数据结构(比如可以用键-值对的方式存储其他科目的成绩，键为科目的名称，值为其对应的成绩，这里键的数量和名称是无法预知的)，则“各科成绩”数据结构是动态的，从而导致包含“各科成绩”的“学生成绩”数据结构也是动态的。

可选的，获取流任务的第一数据结构的输入数据现具体包括：根据待处理的输入数据定义数据结构，基于定义好的数据结构对该输入数据进行处理，从而得到第一数据结构的输入数据。其中，定义数据结构可以是用户通过某种数据结构描述语言(例如，通过Json代码定义的方式)或通过图形用户界面(GUI)的方式对流任务中用到的数据结构进行定义。图2是一个对“各科成绩”数据结构进行定义的图形用户界面示意图。图2所示的“各科成绩”数据结构有三个类型为整数的字段“语文”、“数学”和“英语”，一个类型为字段-值型动态数据的字段“其他科目”。

图3所示是一个对“学生成绩”数据结构进行定义的图形界面示意图。其中引用了已定义的“各科成绩”类型，形成了嵌套定义。最终得到的“学生成绩”整体的数据结构定义为：

学生成绩

学号：字符串

姓名：字符串

成绩：各科成绩

语文：整数

数学：整数

英语：整数

其他科目：键-值型动态数据。

可选的，在步骤101基于获取流任务的输入数据的第一数据结构，所述数据处理方法还包括：获取所述流任务的输入数据，对所述输入数据进行反序列化处理。

具体的，流任务的输入数据通常是字节流的形式，数据分析处理系统无法直接处理，需要将其反序列化为第一数据结构的数据。

步骤102，将所述第一数据结构的输入数据转换为第二数据结构中间数据。

这里，静态数据区域：为不定长的数组，数组的值为标量，该数据的值的类型包括但不限于下述至少之一：整数、字符串、布尔值等。动态数据区域：为不定长的数组，数组的值为各种动态数据结构，如数组的值可以是字段-值型动态数据等。动态数据区域可以用指针开辟存储空间(例如通过链表的方式实现动态增长的数组，通过哈希表的方式实现动态增长的字段-值型数据)，可以动态增长存储空间。

步骤103，使用所述流任务的算子对所述中间数据进行处理，输出处理结果。

本申请中采用第二数据结构来适配可能的动态/嵌套数据结构，通过将动态数据结构、嵌套数据结构等数据结构的数据转换成数据分析处理系统支持运行的第二数据结构的数据，从而实现对动态数据结构的数据、嵌套数据结构的数据的实时处理。

下面针对上述方法中的各步骤，具体详细阐述上述方法各步骤的实现：

可选的，如图4所示，步骤102包括：

步骤1021，获取所述输入数据的数据类型。

其中，所述步骤1021获取所述第一数据结构的输入数据的数据类型具体包括：基于用户配置输入获取所述输入数据的数据类型；或者，基于数据分析处理系统中预先建立的数据类型预测模型对输入数据进行处理，从而确定所述输入数据的数据类型。

具体的，基于用户配置输入获取所述输入数据的数据类型包括：显示用于配置数据类型的用户界面，获取用户在该用户界面上的配置操作，从而获取所述第一数据结构的输入数据的数据类型。

具体的，基于数据分析处理系统中数据类型预测模型对输入数据进行处理，从而确定所述输入数据的数据类型包括：由用户输入样本数据，数据分析处理系统根据用户输入的样本数据，利用预先训练好的数据类型预测模型，自动推断数据类型。进一步的，用户可以对数据分析处理系统自动推断出的数据类型进行自定义调整修改，得到最终的数据类型。

步骤1022，根据所述数据类型，将所述第一数据结构的输入数据转换为第二数据结构的中间数据。

具体的，将所述第一数据结构的输入数据转换为第二数据结构的中间数据包括两个过程，标记数据类型和建立索引。其中，建立索引的过程如下所示：

所述步骤1022所述根据所述数据类型，将所述输入数据转换为第二数据结构的中间数据包括：

其中标记数据类型的过程如下所示：

所述根据所述输入数据的各字段的原数据类型，确定所述各字段在所述第二数据结构中对应的目标数据类型的步骤包括：

上述标记过程是用于确定将各字段放到第二数据结构的静态数据区域或动态数据区域。

在完成标记数据类型和建立索引之后，将所述第一数据结构的输入数据转换为第二数据结构的中间数据还包括建立数据区域和映射数据两个过程。其中，建立数据区域的过程如下所示：

在所述根据所述静态区域索引、动态区域索引，以及所述各字段在所述第二数据结构中对应的数据类型，将所述输入数据转换为第二数据结构的中间数据的步骤之前，所述方法还包括：

其中，所述静态数据区域为变长数组，所述动态数据区域为变长数组。

映射数据的过程如下所示：

所述根据所述静态区域索引、动态区域索引，以及所述各字段在所述第二数据结构中对应的数据类型，将所述输入数据转换为第二数据结构的中间数据的步骤包括：

进一步的，第二数据结构还包括内秉属性。其中，内秉属性是指所适配的至少两种数据结构具有的一些共同的字段，所述数据结构包括流任务的第一数据结构。具体的，例如数据分析处理系统的流任务中的事件都有一个时间戳，该时间戳即可以认为是内秉属性。内秉属性的字段是静态的，其存储方式在数据分析处理系统的源码设计阶段确定。

进一步，第二数据结构包括内秉属性，上述步骤：根据所述输入数据的各字段的原数据类型，获取所述各字段在所述第二数据结构中对应的目标数据类型的步骤还包括：

由于将第一数据结构中至少两种数据结构公共的字段映射到内秉属性，不用标记数据类型中的步骤b、c、d、e，因此通过内秉属性的数据类型可以提高数据结构转换的速度。

示例一：以学生“学生成绩”数据结构为例，在“各科成绩”数据结构中增加一个字段“其他科目”，其类型为键-值方式存储的动态数据结构，键名为科目名称，值为该科目成绩。“学生成绩”数据结构的整体定义变为：

学生成绩

学号：字符串

姓名：字符串

成绩：各科成绩

语文：整数

数学：整数

英语：整数

其他科目：键-值型动态数据。

表1是对“学生成绩”数据结构中的字段进行标记与建立索引的示意。

表1

其中的“学号”、“姓名”和“成绩”字段由于是标量，被标记为“静态数据”；

“成绩”字段由于是一个复合类型没有被标记，但其内的“语文”、“数学”和“英语”被标记为“静态数据”，“其他科目”的类型是一个字段-值型动态数据，故标记为“动态数据”。然后对“静态数据”和“动态数据”进行编号。

由此得到的第二数据结构示意如下表2所示：

表2

其中对应的“学生成绩”字段中的“成绩.语文”表示“成绩”字段中的“语文”字段，其余字段类似。

示例性的，一条JSON格式(第一数据结构)的“学生成绩”数据如下：

解析为第二数据结构以后数据如下所示：

静态数据区域："2020001","张三",88,92,59,0

动态数据区域：{"物理":70,"化学":78}。

示例二：再定义流任务中用到的两个数据结构如下：

学生不及格科目分项计数

学号：字符串

姓名：字符串

不及格科目计数：

语文：整数

数学：整数

英语：整数

其他科目：整数

学生不及格科目总数

学号：字符串

姓名：字符串

不及格科目数：整数

对“学生不及格科目分项计数”数据结构的标记与建立索引过程示意如下表3所示。

表3

对“学生不及格科目分项计数”数据结构对应的第二数据结构如下表4所示：

表4

对“学生不及格科目总数”数据结构的标记与建立索引过程示意如下表5所示：

表5

学生不及格科目总数”数据结构对应的第二数据结构如下表6所示：

表6

可选的是，本发明实施例针对步骤103，提供了以下可行的实施过程，步骤103，使用所述流任务的算子，对所述中间数据进行处理，输出处理结果的步骤的实施具体包括：

使用所述值进行计算，得到计算结果；

由于在将第一数据结构的数据转换成第二数据结构的中间数据过程中，通过构建索引，并且以该索引作为与第二数据结构对应的数组元素的下标，从而便可通过数组元素的下标直接获取数据，不需要通过字段名逐级查找，从而能快速得到数据，减少等待时间，提升流任务算子的计算速度。

进一步的，需要说明的是，流任务中的算子对第二数据结构的中间数据处理，得到计算结果的过程中，会基于算子对输入和输出数据的要求，对第二数据结构的中间数据进行多次序列化和反序列处理，以使得上游算子输出的数据能够通过网络传送给下游算子作为输入。

具体的，第二数据结构的内秉属性的序列化和反序列化在源码级别完成。

第二数据结构的静态数据区域为一个变长数组，其序列化的方式可以是：首先输出一个序列化的整型值，表示数组中的元素个数，然后顺序输出序列化的各个元素的值。各个元素为标量型，沿用编程语言下其原有的相应数据类型的序列化方式(例如Java语言下，整数直接输出四个字节、字符串每个字符编码输出)。反序列化时，先反序列化一个整型值，得知数组的长度，然后根据预知的数据类型顺序反序列化每个元素的值。

第二数据结构的动态数据区域为一个变长数组，其序列化的方式可以是：首先输出一个序列化的整型值，表示数组中的元素个数，然后顺序输出序列化的各个元素的值。对各个元素的序列化方式可以是：首先输出一个序列化的整型值，表示该元素的值本身序列化后的字节串长度(因其长度不定)，然后输出序列化的该元素的值。反序列化时，先反序列化一个整型值，得知数组的长度，然后顺序反序列化每个元素。反序列化每个元素时，先反序列化一个整型值，得知需要读取的字节串的长度，然后读取这个长度的字节串并反序列化成这个元素的值。

进一步的，在将所述计算结果转换为所述第一数据结构的数据，获得得到输出数据的步骤之后，所述方法还包括：

将所述输出数据进行序列化处理；

输出序列化处理后的输出数据。

具体的，基于用户配置操作获取的流任务的输入数据的第一数据结构中的输入/输出字段均可以得到其对应的第二数据结构中的静态区域索引和动态区域索，因而在流任务运行时，流任务的算子通过数组元素的下标直接访问对应的值。流任务的算子对值进行计算，得到计算结果。计算结果基于第二数据结构以及静态区域索引和动态区域索，将所述计算结果转换为第一数据结构的计算数据，将计算数据序列化为字节流，即获得字段-值类型的数据作为输出数据。

可选的，本发明实施例，在步骤102所述将所述第一数据结构的输入数据转换为第二数据结构的中间数据之后，所述方法还包括：

基于所述目标数据类型确定所述流任务的计算方式；

所述使用所述流任务的算子对所述中间数据进行处理，输出处理结果的步骤包括：基于所述计算方式使用所述流任务的算子对所述中间数据进行处理，输出处理结果。

其中，基于第二数据结构的目标数据类型可以优化计算方法，基于数据结构中值的类型可以事先确定计算方法，从而数据分析处理系统便可以基于确定出的计算方法直接对数据进行处理，提高运算速度。例如对两个数据进行求和，若预知两个数据都是整数时，运行时可以直接使用整数加法得出结果；如果两个数据的类型都不能预知，则运行时需要对两个数据可能出现的类型组合逐个进行判断以对原数据进行合适的类型转换操作和使用相应类型的加法操作，这会降低运行速度。

可选的，所述流任务以分布式方式运行，步骤103所述使用流任务的算子对所述中间数据进行处理，输出处理结果还可以包括：

具体的，当流任务运行在分布式平台上时，各个算子的实例可能运行在不同的主机上，上游算子的输出数据需要序列化为字节流，通过网络传输到下游算子所在的主机，再进行反序列化操作把字节流恢复为原有的数据。由于第二数据结构的中间数据，为数组结构的数据，该数组结构的下标为该中间数据字段对应的索引，因此在对基于中间数据进行计算得到的计算数据进行序列化处理时不需要保存数据的字段名，可以减小产生的字节流的大小，节约数据传输时的网络带宽，进而可以提高数据处理效率。

示例性的，定义一个流任务来对上述“学生成绩”数据结构以及“学生不及格科目总数”数据结构进行处理。

流任务如图5所示，其中，输入数据格式和输出数据格式指定为JSON格式。输入数据经过“解析成RT Event”算子后变为RT Event(RT Event为第二数据结构的中间数据),对应的数据结构为“学生成绩”；再经过“字段值映射”算子，对应的数据结构变为“学生不及格科目分项计数”；再经过“求和”算子，对应的数据结构变为“学生不及格科目总数”；最后由“构造输出”算子转化为JSON格式的数据输出。

流任务的各算子进行的具体操作可由用户输入代码进行定义的方式(例如，通过Java、Python或R等编程语言进行定义的方式)或通过图形用户界面的方式进行配置。下图6所示是对“字段值映射”算子的操作的一个图形化配置界面。

在图6所示图形化配置界面中，配置输出数据的“学号”和“姓名”字段直接取输入数据的同名字段的值，输出字段“不及格科目计数”下的子字段“语文”，“数学”和“英语”由输入数据的“各科成绩”字段下对应的同名字段进行条件取值计算产生，计算方式为当原字段值小于60时，结果值为1，否则为0。输出字段“不及格科目计数”下的子字段“其他科目”由输入数据的“各科成绩”字段下对应的同名字段进行条件计数计算产生，计算方式为统计原字段(本身是一个字段-值型动态数据)的各个动态子字段的值中小于60的个数。

图7是对“求和”算子进行图形化配置的界面示意图

本发明实施例中通过输入数据的第一数据结构转换为第二数据结构，使得数据分析处理系统能够处理动态数据或者复杂数据，提高了数据处理效率。

在图7所示图形化配置界面中，配置输出数据的“学号”和“姓名”字段直接取输入数据的同名字段的值，输出数据的“不及格科目数”字段为输入的“不及格科目计数”下的所有子字段的和。

以一条具体的输入数据为例，说明数据经过各个算子之后的变化。

JSON格式的输入数据：

经过“解析为RT Event”算子以后的数据如下：

静态数据区域："2020001","张三",88,92,59,0

动态数据区域：{"物理":70,"化学":78}

经过“字段值映射”算子以后的数据如下：

静态数据区域："2020001","张三",0,0,1,0

动态数据区域：空

经过“求和”算子以后的数据如下：

静态数据区域："2020001","张三",1

动态数据区域：空

经过“构造输出”算子后输出的JSON格式数据如下：

本发明通过输入数据的第一数据结构转换为第二数据结构，使得数据分析处理系统能够处理动态数据或者复杂数据，提高了数据处理效率。同时用户操作简单便捷，降低了用户操作门槛。

基于以上实施例提供的模型运行方法，本发明实施例还提供了实施上述方法的数据分析处理系统，请参照图8，本发明实施例提供的数据分析处理系统800包括：

获取模块801，获取流任务的第一数据结构的输入数据。

转换模块802，用于将所述第一数据结构的输入数据转换为第二数据结构的中间数据。

处理模块803，用于使用所述流任务的算子对所述中间数据进行处理，输出处理结果。其中，所述第二数据结构包括静态数据区域和动态数据区域。

可选的，上述数据分析处理系统中，所述转换模块包括：

获取子单元，用于获取所述输入数据的数据类型；

转换子单元，用于根据所述第一数据结构的数据类型，将所述第一数据结构的输入数据转换为第二数据结构的中间数据。

可选的，上述数据分析处理系统中，所述转换子单元具体用于：根据所述输入数据的各字段的原数据类型，确定所述各字段在所述第二数据结构中对应的目标数据类型，所述目标数据类型包括静态数据类型和动态数据类型；

可选的，上述数据分析处理系统中，所述根据所述输入数据的各字段的原数据类型，确定所述各字段在所述第二数据结构中对应的目标数据类型的步骤包括：

子步骤a：若所述输入数据的字段的原数据类型为静态，且所述类型是标量，将所述字段标记为静态数据；

可选的，上述数据分析处理系统中，所述第一数据结构包括字段名称和值的类型。

可选的，上述数据分析处理系统中，所述根据所述静态区域索引、动态区域索引，以及所述各字段在所述第二数据结构中对应的数据类型，将所述第一数据结构的输入数据转换为第二数据结构的中间数据的步骤之前，还包括：

可选的，所述静态数据区域为变长数组，所述动态数据区域为变长数组。

可选的，上述数据分析处理系统中，所述根据所述静态区域索引、动态区域索引，以及所述各字段在所述第二数据结构中对应的数据类型，将所述第一数据结构的输入数据转换为第二数据结构的中间数据的步骤包括：

将标记为静态数据的字段的值映射为所述静态数据区域中与所述静态数据的字段对应的静态区域索引为下标的数组元素；

可选的，上述数据分析处理系统中，所述获取子单元具体用于：

基于用户配置输入获取所述输入数据的数据类型；或

可选的，上述数据分析处理系统中，所述输入数据包括嵌套数据和/或动态数据。

可选的，上述数据分析处理系统中，所述将所述第一数据结构的输入数据转换为第二数据结构的中间数据的步骤之后，还包括：

基于所述目标数据类型确定所述流任务的计算方式；

所述处理模块具体用于：

可选的，上述数据分析处理系统中，还包括：反序列化模块，用于获取所述流任务的输入数据，对所述输入数据进行反序列化处理。

可选的，上述数据分析处理系统中，所述处理模块803还具体用于：

使用所述值进行计算，得到计算结果；

将所述输出数据进行序列化处理；

输出序列化处理后的输出数据。

可选的，上述数据分析处理系统中，所述流任务以分布式方式运行，所述处理模块803还具体用于：

可选的，上述数据分析处理系统中，所述第二数据结构还包括内秉属性。

可选的，上述数据分析处理系统中，所述根据所述输入数据的各字段的原数据类型，确定所述各字段在所述第二数据结构中对应的目标类型包括：

本发明的数据分析处理系统通过输入数据的第一数据结构转换为第二数据结构，使得数据分析处理系统能够处理动态数据或者复杂数据，提高了数据处理效率。同时用户操作简单便捷，降低了用户操作门槛。

本发明实施例提供一种数据分析处理系统，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上述实施例所述的数据处理方法的步骤。

本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如上述实施例所述的数据处理方法的步骤。

本发明实施例还提供一种可读存储介质，可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述数据处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种数据处理方法，应用于数据分析处理系统，其特征在于，包括：

获取流任务的第一数据结构的输入数据；

2.根据权利要求1所述的方法，其特征在于，所述将所述第一数据结构的输入数据转换为第二数据结构的中间数据包括：

获取所述输入数据的数据类型；

3.根据权利要求2所述的方法，其特征在于，所述根据所述数据类型，将所述第一数据结构的输入数据转换为第二数据结构的中间数据包括：

4.根据权利要求1所述的方法，其特征在于，所述输入数据包括嵌套数据和/或动态数据。

5.根据权利要求3所述的方法，其特征在于，所述将所述第一数据结构的输入数据转换为第二数据结构的中间数据的步骤之后，所述方法还包括：

基于所述目标数据类型确定所述流任务的计算方式；

6.一种数据分析处理系统，其特征在于，所述数据分析处理系统包括：

获取模块，用于获取流任务的第一数据结构的输入数据；

7.根据权利要求6所述的数据分析处理系统，其特征在于，所述转换模块包括：

获取子单元，用于获取所述输入数据的数据类型；

转换子单元，用于根据第一数据结构的所述数据类型，将所述第一数据结构的输入数据转换为第二数据结构的中间数据。

8.根据权利要求7所述的数据分析处理系统，其特征在于，所述转换子单元具体用于：根据所述输入数据的各字段的原数据类型，确定所述各字段在所述第二数据结构中对应的目标数据类型，所述目标数据类型包括静态数据类型和动态数据类型；

9.根据权利要求6所述的数据分析处理系统，其特征在于，所述输入数据包括嵌套数据和/或动态数据。

10.根据权利要求8所述的数据分析处理系统，其特征在于，所述将所述第一数据结构的输入数据转换为第二数据结构的中间数据的步骤之后，还包括：

基于所述目标数据类型确定所述流任务的计算方式；

所述处理模块具体用于：