CN114202123A

CN114202123A - 业务数据预测方法、装置、电子设备及存储介质

Info

Publication number: CN114202123A
Application number: CN202111524379.2A
Authority: CN
Inventors: 李洁
Original assignee: OneConnect Financial Technology Co Ltd Shanghai
Current assignee: OneConnect Financial Technology Co Ltd Shanghai
Priority date: 2021-12-14
Filing date: 2021-12-14
Publication date: 2022-03-18

Abstract

本发明的业务数据预测方法、装置、电子设备及存储介质，通过基础指标的时序样本数据计算得到衍生指标的数据，基础指标和衍生指标共同形成业务因子；分别利用多个预测模型对业务因子的历史数据进行预测，根据预测结果获取多个目标预测模型；基于矩阵画像算法根据目标指标的关联指标的时序样本数据获取目标时间长度；根据预测结果得到每个模型的权重，最终预测值；通过上述方式，充分挖掘了不同的业务因子；根据关联指标的时序样本数据挖掘与目标指标变化周期接近的目标时间长度，有利于寻找输入的历史数据的时间长度与预测结果的最佳匹配模式以提高拟合效果；筛选出多个目标预测模型进行融合，有利于提高预测的准确性。

Description

业务数据预测方法、装置、电子设备及存储介质

技术领域

本发明涉及计算机领域，尤其涉及一种业务数据预测方法、装置、电子设备及存储介质。

背景技术

现有技术中利用各业务因子的时序样本数据进行目标指标预测时，一般采用单一的回归分析模型进行预测，并且没有充分挖掘用于预测的业务因子，不利于提高预测的准确性。

发明内容

本发明的目的在于提供一种业务数据预测方法、装置、电子设备及存储介质，以解决现有技术中预测准确性不高的技术问题。

本发明的技术方案如下：提供一种业务数据预测方法，包括：

获取目标区域的多个基础指标的第一历史时间段的时序样本数据，根据至少一个所述基础指标的第一历史时间段的时序样本数据获取衍生指标的第一历史时间段的时序样本数据，将所述基础指标和所述衍生指标作为业务因子；

利用矩阵画像算法，根据所述目标指标的关联指标的时序样本数据获取目标时间长度，根据所述目标时间长度获取各业务因子的第二历史时间段的时序样本数据；

分别将各所述业务因子的不同第二历史时间段的时序样本数据输入至预先训练好的多个预测模型中，获取每个所述预测模型输出的目标指标在不同目标历史时间的预测值，所述目标历史时间与所述第二历史时间段一一对应，所述第二历史时间段早于所述目标历史时间；

根据每个所述预测模型输出的所述目标历史时间的预测值从所述多个预测模型中获取预设数量个目标预测模型；

根据所述目标指标在所述目标历史时间的真实值以及各所述目标预测模型在所述目标历史时间的预测值进行多元线性回归计算，得到每个所述目标预测模型的权重；

分别将各所述业务因子的第三历史时间段的时序样本数据输入至多个所述目标预测模型中，获取每个所述目标预测模型输出的目标指标在待预测时间的模型预测值，根据各所述目标预测模型的模型预测值以及各所述目标预测模型的权重获取所述目标指标在待预测时间的最终预测值。

本发明的另一技术方案如下：提供一种业务数据预测装置，包括：

因子构建模块，用于获取目标区域的多个基础指标的第一历史时间段的时序样本数据，根据至少一个所述基础指标的第一历史时间段的时序样本数据获取衍生指标的第一历史时间段的时序样本数据，将所述基础指标和所述衍生指标作为业务因子；

时长模块，用于利用矩阵画像算法，根据所述目标指标的关联指标的时序样本数据获取目标时间长度，根据所述目标时间长度获取各业务因子的第二历史时间段的时序样本数据；

第一预测模块，用于分别将各所述业务因子的不同第二历史时间段的时序样本数据输入至预先训练好的多个预测模型中，获取每个所述预测模型输出的目标指标在不同目标历史时间的预测值，所述目标历史时间与所述第二历史时间段一一对应，所述第二历史时间段早于所述目标历史时间；

模型筛选模块，用于根据每个所述预测模型输出的所述目标历史时间的预测值从所述多个预测模型中获取预设数量个目标预测模型；

权重计算模块，用于根据所述目标指标在所述目标历史时间的真实值以及各所述目标预测模型在所述目标历史时间的预测值进行多元线性回归计算，得到每个所述目标预测模型的权重；

第二预测模块，用于分别将各所述业务因子的第三历史时间段的时序样本数据输入至多个所述目标预测模型中，获取每个所述目标预测模型输出的目标指标在待预测时间的模型预测值，根据各所述目标预测模型的模型预测值以及各所述目标预测模型的权重获取所述目标指标在待预测时间的最终预测值。

本发明的另一技术方案如下：提供一种电子设备，包括处理器、以及与所述处理器耦接的存储器，所述存储器存储有可被所述处理器执行的程序指令；所述处理器执行所述存储器存储的所述程序指令时上述的业务数据预测方法。

本发明的另一技术方案如下：提供一种存储介质，所述存储介质内存储有程序指令，所述程序指令被处理器执行时实现上述的业务数据预测方法。

本发明的业务数据预测方法、装置、电子设备及存储介质，通过基础指标的时序样本数据计算得到衍生指标的数据，基础指标和衍生指标共同形成业务因子；分别利用多个预测模型对业务因子的历史数据进行预测，根据预测结果获取多个目标预测模型；基于矩阵画像算法根据目标指标的关联指标的时序样本数据获取目标时间长度，根据目标时间长度确定用于预测的历史数据的时序样本的时间长度；根据预测结果对多个目标预测模型进行多元线性回归计算，得到每个模型的权重；根据权重将多个目标预测模型的模型结果进行融合得到最终预测值；通过上述方式，充分挖掘了不同的业务因子；根据关联指标的时序样本数据挖掘与目标指标变化周期接近的目标时间长度，有利于寻找输入的历史数据的时间长度与预测结果的最佳匹配模式以提高拟合效果；筛选出多个目标预测模型进行融合，有利于提高预测的准确性。

附图说明

图1为本发明第一实施例的业务数据预测方法的流程示意图；

图2为本发明第二实施例的业务数据预测装置的结构示意图；

图3为本发明第三实施例的电子设备的结构示意图；

图4为本发明第四实施例的存储介质的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明中的术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

图1是本发明第一实施例的业务数据预测方法的流程示意图。需注意的是，若有实质上相同的结果，本发明的方法并不以图1所示的流程顺序为限。如图1所示，该业务数据预测方法包括步骤S101～S106：

S101，获取目标区域的多个基础指标的第一历史时间段的时序样本数据，根据至少一个所述基础指标的第一历史时间段的时序样本数据获取衍生指标的第一历史时间段的时序样本数据，将所述基础指标和所述衍生指标作为业务因子。

其中，以房价预测为具体应用场景对本实施例进行说明，具体地，在房价预测应用场景中，基础指标为可以直接采集的指标，例如，目标区域的常住人口、目标区域的户籍人口、产业GDP、人均GDP、一般预算收入、出清周期等。衍生指标为无法直接采集的指标，需要根据基础指标进行计算获取，例如，衍生指标可以包括房屋换手率、开工面积与销售面积的比例、空置率、租金收益率、房价收入比等。在本实施例中，通过对衍生指标的计算，可以丰富业务因子，提高预测的准确性。

其中，第一历史时间段是数据采集所得历史数据的长度，时间跨度较大，例如，第一历史时间段可以为2007年11月至2021年10月、2005年1月至2021年10月或2007年11月至2019年10月。

在一个可选的实施方式中，步骤S101之后还包括：

S201，获取每两个所述业务因子的第一历史时间段的时序样本数据的相似度，根据所述相似度对所述业务因子进行筛选。

其中，两个业务因子的时序样本数据相似度越大说明二者变化趋势越接近，对预测的贡献接近，当二者相似度超过相似度阈值，说明这两个业务因子的变化趋势高度相似，为了降低输入预测模型的数据的维度，对高度相似的业务因子进行筛选，保留其中一个，于是，步骤S201中对业务因子进行筛选的方式如下：获取所述相似度大于或等于预设相似度阈值的业务因子对；将所述业务因子对中任意一个所述业务因子的时序样本数据删除。

在第一个可选的实施方式中，可以基于互信息进行相似度计算，具体地，将每两个业务因子的第一历史段的时序样本数据分别进行离散化，得到离散化的各所述时序样本数据；计算每两个业务因子的离散化的所述时序样本数据之间的互信息；当所述互信息大于或等于预设相似度阈值时，将其中一个所述业务因子的时序样本数据删除。其中，从时间序列预测的角度看，两个序列之间互信息越大，两个序列越接近。

在第二个可选的实施方式中，可以基于皮尔逊系数进行相似度计算，具体地，计算每两个业务因子的第一历史段的时序样本数据之间的皮尔逊相关系数；根据所述皮尔逊相关系数，当所述皮尔逊相关系数大于或等于预设相似度阈值时，将其中一个所述业务因子的时序样本数据删除。其中，从时间序列预测的角度看，两个序列之间皮尔逊相关系数越大，两个序列越接近。

S102，利用矩阵画像算法，根据所述目标指标的关联指标的时序样本数据获取目标时间长度，根据所述目标时间长度获取各业务因子的第二历史时间段的时序样本数据。

在本实施例中，由于输入的时序样本数据对应的历史时间段的长度不同，会导致在目标历史时间进行预测拟合的效果不同，由于目标指标的波动具有周期性，根据目标指标的时序样本数据构建目标指标的关联指标，例如，构建目标指标的变化率作为选择较佳历史时段的长度的对象，以上述房价预测为例，构建的相关指标为房价变化率(如房价月涨幅)，步骤S102具体包括如下步骤：

S301，获取所述目标指标对应的关联指标的第一历史时间段的时序样本数据。

其中，关联指标为目标指标的衍生变形，若待预测的目标指标本身周期性较强，则直接根据自身确定目标时间长度，例如，股票的换手率；若待预测的目标指标本身不能直接体现周期性，例如，房价，则构建能够体现周期性的关联指标，例如，关联指标为目标指标的变化率，目标指标的时序样本数据为K＝k₁，k₂，k_i，…，k_M，关联指标的时序样本数据为T＝t₂，t_i，…，t_M，其中，t_i＝(k_i-k_i-1)/k_i-1。

S302，根据所述关联指标的第一历史时间段的时序样本数据获取不同待选时间长度的时序子集，其中，每个所述时序子集中包括多个时序数据片段，所述时序数据片段是从所述关联指标的时序样本数据中截取的，所述时序数据片段的长度为对应时序子集的待选时间长度。

其中，时序数据片段表示在关联指标的时序样本数据中截取的一定长度的一段序列，即待选时间长度表征的是时间段的长度，待选时间长度可以为3个月、4个月、5个月、10个月、12个月、18个月、36个月等，在本实施例中，根据关联指标的时序样本数据构建多个分别对应不同待选时间长度的时序子集。

具体地，假设计算所得的关联指标的时序样本数据为T，当待选时间长度为x₁时，对应的时序子集中的时序数据片段T_i，x1，表示从中第i个位置开始的长度为x₁的连续片段，在形式上，T_i，x1＝t_i，t_i+1，…，t_i+x1-1，其中1≤i≤n-x1+1；当待选时间长度为x₂时，对应的时序子集中的时序数据片段T_i，x2，表示从中第i个位置开始的长度为x₂的连续片段，在形式上，T_i，x2＝t_i，t_i+1，…，t_i+x2-1，其中1≤i≤n-x2+1。

在一个可选的实施方式中，构建滑动窗口在关联指标的时序样本数据中截取时序数据片段，步骤S302具体包括如下步骤：S3021，构建不同长度的滑动窗口，其中，所述滑动窗口的长度与待选时间长度一一对应；S3022，将每个所述滑动窗口在所述关联指标的时序样本数据上以预设滑动步长进行滑动，将位于所述滑动窗口内的片段进行截取得到时序数据片段，将同一滑动窗口截取的多个所述时序数据片段组合形成对应待选时间长度下的所述时序子集；其中，一方面，为了避免相邻的两个时序数据片段中片段重叠太多，影响后续相似度计算，假设滑动窗口的长度为x，一般滑动步长应该大于x/2；另一方面，为了保证时序数据片段对关联指标的时序样本数据T中的覆盖范围，预设滑动步长小于或等于x，预设滑动步长不能超过滑动窗口的大小。

S303，获取每个所述时序子集的矩阵画像，其中，所述矩阵画像包括每个所述时序数据片段与所述时序子集中的其他每个时序数据片段之间距离中的最小距离值。

其中，矩阵画像(Matrix Profile，MP)中的元素为最小距离值，是每个时序数据片段与时序子集中余所有时序数据片段之间的距离中的最小距离值，矩阵画像为每个时序数据片段与其最相似时序数据片段之间的距离组成的向量。

在一个可选的实施方式中，步骤S303中获取每个所述时序子集的矩阵画像具体包括如下步骤：

S3031，获取所述时序子集中每个时序数据片段与其他时序数据片段之间的距离，根据所述距离构建每个时序数据片段的距离矩阵。

其中，当待选时间长度为t时，时序子集中时序数据片段的数量为n，对应的时序子集中的时序数据片段T_i，t，时序数据片段T_i，t的距离矩阵D_i，t＝[d_i，1，d_i，2，…，d_i，n-1]，其中，d_i，j是时序数据片段T_i，t与其他时序数据片段T_j，t之间的距离，其中，1≤j≤n-1。

其中，距离d_i，j为时序数据片段T_i，t与其他时序数据片段T_j，t之间的欧式距离，计算公式如下：

其中，m表示时序数据片段的长度，μ_i表示时序数据片段T_i，t的均值，δ_i表示时序数据片段T_i，t的标准差，μ_j表示其他时序数据片段T_j，t的均值，δ_j表示其他时序数据片段T_j，t的标准差，QT_i，j表示时序数据片段T_i，t与其他时序数据片段T_j，t之间的点积。具体地，时序数据片段T_i，t＝[a₁，a₂，…，a_t]，其他时序数据片段T_j，t＝[b₁，b₂，…，b_t]，

其中，两个时序数据片段之间的欧式距离越小，该两个时序数据片段之间的相似度越高，时序子集中每个时序数据片段与其他时序数据片段之间的距离，该时序数据片段的距离矩阵表征该时序数据片段与其他每个时序数据片段的相似度。

S3032，从所述时序数据片段的距离矩阵获取最小距离值，根据每个所述时序数据片段的最小值获取对应待选时间长度的矩阵画像。

其中，时序数据片段T_i，t的距离矩阵D_i，t＝[d_i，1，d_i，2，…，d_i，n-1]，最小距离值MP_i，t为d_i，1，d_i，2，…，d_i，n-1中的最小值，即为min(d_i，1，d_i，2，…，d_i，n-1)，该MP_i，t是时序数据片段T_i，t与其他时序数据片段T_k，t之间的距离，其他时序数据片段T_k，t为时序子集中与时序数据片段T_i，t最相似的序列，获取用于计算出该距离最小值的时序数据片段T_i，t和其他时序数据片段T_k，t，将T_k，t作为T_i，t的最相似时序数据片段。

S304，获取不同待选时间长度对应的矩阵画像中各距离最小值的平均值，将所述平均值最小的待选时间长度作为目标时间长度。

其中，每个矩阵画像对应一个待选时间长度，当矩阵画像中各距离最小值的平均值越小，说明该待选时间长度对应的时序子集中各时序数据片段整体上相似度更大进而体现的周期性越强，该待选时间长度下的关联指标的时序样本数据能够体现一个完整的波动周期，该待选时间长度至少包含了关联指标的时序样本数据的一个波动周期。

在另一个可选的实施方式中，也可以将所述平均值小于预设阈值的待选时间长度分别作为目标时间长度。进一步地，当所述平均值均大于或等于所述预设阈值时，首先，获取所述平均值的最小值，然后，根据所述最小值获取调整阈值，最后，将所述平均值小于所述调整阈值的待选时间长度分别作为目标时间长度。具体地，所述调整阈值为所述最小值与预设经验值之和。

S305，根据所述目标时间长度获取各业务因子的第二历史时间段的时序样本数据。

其中，第二历史时间段的长度为目标时间长度的整数倍，例如，可以为目标时间长度、目标时间长度*2或目标时间长度*3，第二历史时间段的起始位置和终止位置可以根据待预测的目标历史时间确定，例如，假设目标时间长度为18个月，目标历史时间为2020年12月，于是第二历史时间段为2019年4月至2020年9月、2019年5月至2020年10月或2019年6月至2020年11月。

S103，分别将各所述业务因子的不同第二历史时间段的时序样本数据输入至预先训练好的多个预测模型中，获取每个所述预测模型输出的目标指标在不同目标历史时间的预测值，所述目标历史时间与所述第二历史时间段一一对应，所述第二历史时间段早于所述目标历史时间。

其中，一般情况下，无需使用所有数据进行特点时间点的预测，第二历史时间段为从第一历史时间段中截取的，各业务因子在第二历史时间段的时序样本数据用于预测目标历史时间的预测值。各预测模型分别根据历史数据训练所得，多个预测模型可以包括Xgboost模型、RF模型、SVM模型、LR模型、GBM模型、DT模型以及KNN模型，每个预测模型的训练步骤包括：

S401，确定所述预测模型中各参数的取值范围；

S402，从对应的所述取值范围内随机选择所述参数的初始值，将各参数的初始值代入所述预测模型的策略函数中，得到初始化的预测模型；

S403，获取训练集，所述训练集包括各业务因子的第二历史时间段的时序样本数据以及目标历史时间的真实值；

S404，将所述训练集输入至所述初始化的预测模型中，得到所述策略函数输出的目标历史时间的预测值；

S405，以所述预测值和所述真实值的均方根误差作为目标函数，使用贝叶斯优化算法从对应的所述取值范围内选择所述参数的最优值，得到训练完成的预测模型；

其中，贝叶斯优化通过基于目标函数的过去评估结果建立替代函数(概率模型)，来找到最小化目标函数的值。贝叶斯优化方法与随机或网格搜索的不同之处在于，它在尝试下一组超参数时，会参考之前的评估结果，因此可以省去很多无用功。

S104，根据每个预测模型输出的所述目标历史时间的预测值从所述多个预测模型中获取预设数量个目标预测模型。

其中，获取所述目标指标在所述目标历史时间的真实值，针对每个预测模型，计算该预测模型输入的预测值与对应真实值的均方根误差(Root-Mean-Square Error，RMSE)，再根据各预测模型的均方根误差进行选择，于是，步骤S103具体包括如下步骤：

S501，获取所述目标指标在所述目标历史时间的真实值，根据所述预测模型的预测值和对应的所述真实值计算每个预测模型的均方根误差；

S502，按照所述均方根误差从小到大的顺序对所述预测模型进行排序；

S503，选择前预设数量个预测模型作为目标预测模型；

其中，均方根误差是用来衡量真实值与预测值之间的偏差。具体公式为：

RMSE模型

其中，y_predict，i为该预测模型的第i个预测值，y_real，i为第i个预测值对应的真实值，n为预测值或真实值的个数。RMSE的值越小，说明预测效果越好，预测值与真实值之间的偏差越小。

S105，根据所述目标指标在所述目标历史时间的真实值以及各所述目标预测模型在所述目标历史时间的预测值进行多元线性回归计算，得到每个所述目标预测模型的权重。

具体地，步骤S105具体包括：

S601，将预设数量个所述目标预测模型的预测值作为数据点，构建利用所述数据点计算所述真实值的预设多元线性回归的表达函数。

其中，以四元线性回归直线为例进行说明，预设多元线性回归的表达函数为y_i＝a₁*y_1i+a₂*y_2i+a₃*y_3i+a₄*y_4i，其中，y_i为第i个真实值，a₁为第一个回归系数，同时也是第一个预测模型的权重，y_1i为第一个预测模型的第i个预测值，a₂为第二个回归系数，同时也是第二个预测模型的权重，y_2i为第二个预测模型的第i个预测值，a₃为第三个回归系数，同时也是第三个预测模型的权重，y_3i为第三个预测模型的第i个预测值，a₄为第四个回归系数，同时也是第四个预测模型的权重，y_4i为第四个预测模型的第i个预测值，i为自然数。

S602，计算所述真实值与数据点的多元线性回归的拟合值之间的距离。

其中，假设所有真实值的关系是线性的，在实际拟合过程中，每个真实值与对应数据点的拟合值之间的距离d_i＝|y_i-(a₁*y_1i+a₂*y_2i+a₃*y_3i+a₄*y_4i)|，其中，数据点为(y_1i，y_2i，y_3i，y_4i)，y_i为真实值，拟合值为a₁*y_1i+a₂*y_2i+a₃*y_3i+a₄*y_4i。

S603，对所述距离进行求和，得到求和损失。

其中，对所有距离进行求和可以基于最小二乘法进行，求和损失

S604，根据所述求和损失计算平均损失。

其中，平均损失为求和损失Loss除以数据点数量，即：

S605，以所述平均损失最小为目标计算所述多元线性回归的表达函数中各回归系数，将所述回归系数作为对应预测模型的权重。

其中，目标是使得多元线性回归的表达函数能够以最小的平均损失去拟合各个数据点(y_1i，y_2i，y_3i，y_4i)，得到回归系数a₁，a₂，a₃，a₄，分别为第一个预测模型、第二个预测模型、第三个预测模型和第四个预测模型的权重。

S106，分别将各所述业务因子的第三历史时间段的时序样本数据输入至多个所述目标预测模型中，获取每个所述目标预测模型输出的目标指标在待预测时间的模型预测值，根据各所述目标预测模型的模型预测值以及各所述目标预测模型的权重获取所述目标指标在待预测时间的最终预测值。

其中，第三历史时间段与待预测时间对应，第三历史时间段的长度与第二历史时间段的长度相同，假设第三历史时间段为一个目标时间长度，例如，为18个月，待预测时间为2021年12月，于是第三历史时间段为2020年4月至2021年9月、2020年5月至2021年10月或2020年6月至2021年11月。最终预测值为各目标预测模型的模型预测值与对应权重的乘积之和，即为y_最终＝a₁*y_1i+a₂*y_2i+a₃*y_3i+a₄*y_4i。

图2是本发明第二实施例的业务数据预测装置的结构示意图。如图2所示，该业务数据预测装置20包括因子构建模块21、时长模块22、第一预测模块23、模型筛选模块24、权重计算模块25以及第二预测模块26，其中，因子构建模块21，用于获取目标区域的多个基础指标的第一历史时间段的时序样本数据，根据至少一个所述基础指标的第一历史时间段的时序样本数据获取衍生指标的第一历史时间段的时序样本数据，将所述基础指标和所述衍生指标作为业务因子；时长模块22，用于利用矩阵画像算法，根据所述目标指标的关联指标的时序样本数据获取目标时间长度，根据所述目标时间长度获取各业务因子的第二历史时间段的时序样本数据；第一预测模块23，用于分别将各所述业务因子的不同第二历史时间段的时序样本数据输入至预先训练好的多个预测模型中，获取每个所述预测模型输出的目标指标在不同目标历史时间的预测值，所述目标历史时间与所述第二历史时间段一一对应，所述第二历史时间段早于所述目标历史时间；模型筛选模块24，用于根据每个所述预测模型输出的所述目标历史时间的预测值从所述多个预测模型中获取预设数量个目标预测模型；权重计算模块25，用于根据所述目标指标在所述目标历史时间的真实值以及各所述目标预测模型在所述目标历史时间的预测值进行多元线性回归计算，得到每个所述目标预测模型的权重；第二预测模块26，用于分别将各所述业务因子的第三历史时间段的时序样本数据输入至多个所述目标预测模型中，获取每个所述目标预测模型输出的目标指标在待预测时间的模型预测值，根据各所述目标预测模型的模型预测值以及各所述目标预测模型的权重获取所述目标指标在待预测时间的最终预测值。

进一步地，该因子构建模块21还用于获取每两个所述业务因子的第一历史时间段的时序样本数据的相似度，根据所述相似度对所述业务因子进行筛选。

进一步地，该时长模块22还用于获取所述目标指标对应的关联指标的第一历史时间段的时序样本数据；根据所述关联指标的第一历史时间段的时序样本数据获取不同待选时间长度的时序子集，其中，每个所述时序子集中包括多个时序数据片段，所述时序数据片段是从所述关联指标的时序样本数据中截取的，所述时序数据片段的长度为对应时序子集的待选时间长度；获取每个所述时序子集的矩阵画像，其中，所述矩阵画像包括每个所述时序数据片段与所述时序子集中的其他每个时序数据片段之间距离中的最小距离值；获取不同待选时间长度对应的矩阵画像中各距离最小值的平均值，根据所述平均值获取所述目标时间长度。

更进一步地，该时长模块22还用于获取所述平均值小于预设阈值的待选时间长度；若获取成功，则将所获取的待选时间长度分别作为目标时间长度；若获取失败，则获取所述平均值的最小值，根据所述最小值获取调整阈值，将所述平均值小于所述调整阈值的待选时间长度分别作为目标时间长度。

进一步地，该第一预测模块23还用于确定所述预测模型中各参数的取值范围；从对应的所述取值范围内随机选择所述参数的初始值，将各参数的初始值代入所述预测模型的策略函数中，得到初始化的预测模型；获取训练集，所述训练集包括各业务因子的第二历史时间段的时序样本数据以及目标历史时间的真实值；将所述训练集输入至所述初始化的预测模型中，得到所述策略函数输出的目标历史时间的预测值；以所述预测值和所述真实值的均方根误差作为目标函数，使用贝叶斯优化算法从对应的所述取值范围内选择所述参数的最优值，得到训练完成的预测模型。

进一步地，该模型筛选模块24还用于获取所述目标指标在所述目标历史时间的真实值，根据所述预测模型的预测值和对应的所述真实值计算每个预测模型的均方根误差；按照所述均方根误差从小到大的顺序对所述预测模型进行排序；选择前预设数量个预测模型作为目标预测模型。

进一步地，该权重计算模块25还用于将预设数量个所述目标预测模型的预测值作为数据点，构建利用所述数据点计算所述真实值的预设多元线性回归的表达函数；计算所述真实值与数据点的多元线性回归的拟合值之间的距离；对所述距离进行求和，得到求和损失；根据所述求和损失计算平均损失；以所述平均损失最小为目标计算所述多元线性回归的表达函数中各回归系数，将所述回归系数作为对应预测模型的权重。

进一步地，可以基于人工智能进行构建上述预测装置，基于人工智能技术对相关的数据进行获取和处理，实现无人值守的人工智能数据预测。其中，人工智能(ArtificialIntelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

图3是本发明第三实施例的电子设备的结构示意图。如图3所示，该电子设备30包括处理器31及和处理器31耦接的存储器32。

存储器32存储有用于实现上述任一实施例的所述业务数据预测方法的程序指令。

处理器31用于执行存储器32存储的程序指令以进行业务数据预测。

其中，处理器31还可以称为CPU(Central Processing Unit，中央处理单元)。处理器31可能是一种集成电路芯片，具有信号的处理能力。处理器31还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

参阅图4，图4为本发明第四实施例的存储介质的结构示意图。本发明实施例的存储介质存储有能够实现上述所有方法的程序指令41，所述存储介质可以是非易失性，也可以是易失性。其中，该程序指令41可以以软件产品的形式存储在上述存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等终端设备。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。以上仅为本发明的实施方式，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围。

以上所述的仅是本发明的实施方式，在此应当指出，对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出改进，但这些均属于本发明的保护范围。

Claims

1.一种业务数据预测方法，其特征在于，包括：

2.根据权利要求1所述的业务数据预测方法，其特征在于，所述利用矩阵画像算法，根据所述目标指标的关联指标的时序样本数据获取目标时间长度之前，还包括：

获取每两个所述业务因子的第一历史时间段的时序样本数据的相似度，根据所述相似度对所述业务因子进行筛选。

3.根据权利要求1所述的业务数据预测方法，其特征在于，所述利用矩阵画像算法，根据所述目标指标的关联指标的时序样本数据获取目标时间长度，包括：

获取所述目标指标对应的关联指标的第一历史时间段的时序样本数据；

根据所述关联指标的第一历史时间段的时序样本数据获取不同待选时间长度的时序子集，其中，每个所述时序子集中包括多个时序数据片段，所述时序数据片段是从所述关联指标的时序样本数据中截取的，所述时序数据片段的长度为对应时序子集的待选时间长度；

获取每个所述时序子集的矩阵画像，其中，所述矩阵画像包括每个所述时序数据片段与所述时序子集中的其他每个时序数据片段之间距离中的最小距离值；

获取不同待选时间长度对应的矩阵画像中各距离最小值的平均值，根据所述平均值获取所述目标时间长度。

4.根据权利要求3所述的业务数据预测方法，其特征在于，所述根据所述平均值获取所述目标时间长度，包括：

获取所述平均值小于预设阈值的待选时间长度；

若获取成功，则将所获取的待选时间长度分别作为目标时间长度；

若获取失败，则获取所述平均值的最小值，根据所述最小值获取调整阈值，将所述平均值小于所述调整阈值的待选时间长度分别作为目标时间长度。

5.根据权利要求1所述的业务数据预测方法，其特征在于，每个所述预测模型的训练步骤包括：

确定所述预测模型中各参数的取值范围；

从对应的所述取值范围内随机选择所述参数的初始值，将各参数的初始值代入所述预测模型的策略函数中，得到初始化的预测模型；

获取训练集，所述训练集包括各业务因子的第二历史时间段的时序样本数据以及目标历史时间的真实值；

将所述训练集输入至所述初始化的预测模型中，得到所述策略函数输出的目标历史时间的预测值；

以所述预测值和所述真实值的均方根误差作为目标函数，使用贝叶斯优化算法从对应的所述取值范围内选择所述参数的最优值，得到训练完成的预测模型。

6.根据权利要求1所述的业务数据预测方法，其特征在于，所述根据每个所述预测模型输出的所述目标历史时间的预测值从所述多个预测模型中获取预设数量个目标预测模型，包括：

获取所述目标指标在所述目标历史时间的真实值，根据所述预测模型的预测值和对应的所述真实值计算每个预测模型的均方根误差；

按照所述均方根误差从小到大的顺序对所述预测模型进行排序；

选择前预设数量个预测模型作为目标预测模型。

7.根据权利要求1所述的业务数据预测方法，其特征在于，所述根据所述目标指标在所述目标历史时间的真实值以及各所述目标预测模型在所述目标历史时间的预测值进行多元线性回归计算，得到每个所述目标预测模型的权重，包括：

将预设数量个所述目标预测模型的预测值作为数据点，构建利用所述数据点计算所述真实值的预设多元线性回归的表达函数；

计算所述真实值与数据点的多元线性回归的拟合值之间的距离；

对所述距离进行求和，得到求和损失；

根据所述求和损失计算平均损失；

以所述平均损失最小为目标计算所述多元线性回归的表达函数中各回归系数，将所述回归系数作为对应预测模型的权重。

8.一种业务数据预测装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括处理器、以及与所述处理器耦接的存储器，所述存储器存储有可被所述处理器执行的程序指令；所述处理器执行所述存储器存储的所述程序指令时实现如权利要求1～7中任一项所述的业务数据预测方法。

10.一种存储介质，其特征在于，所述存储介质内存储有程序指令，所述程序指令被处理器执行时实现如权利要求1～7中任一项所述的业务数据预测方法。