[go: up one dir, main page]

CN111967616B - 自动时间序列回归方法和装置 - Google Patents

自动时间序列回归方法和装置 Download PDF

Info

Publication number
CN111967616B
CN111967616B CN202010832356.7A CN202010832356A CN111967616B CN 111967616 B CN111967616 B CN 111967616B CN 202010832356 A CN202010832356 A CN 202010832356A CN 111967616 B CN111967616 B CN 111967616B
Authority
CN
China
Prior art keywords
time
time sequence
window
data set
sequence data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010832356.7A
Other languages
English (en)
Other versions
CN111967616A (zh
Inventor
陈海波
罗志鹏
王锦
姚灿美
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenyan Technology Beijing Co ltd
Original Assignee
Shenyan Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyan Technology Beijing Co ltd filed Critical Shenyan Technology Beijing Co ltd
Priority to CN202010832356.7A priority Critical patent/CN111967616B/zh
Publication of CN111967616A publication Critical patent/CN111967616A/zh
Application granted granted Critical
Publication of CN111967616B publication Critical patent/CN111967616B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Testing And Monitoring For Control Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种自动时间序列回归方法和装置,所述方法包括以下步骤:获取时序数据集,并对所述时序数据集进行预处理;对预处理后的时序数据集进行自动时序特征工程处理和数据采样;建立不同类型的机器学习模型;根据预处理、自动时序特征工程处理和数据采样后的时序数据集计算基于时间滑窗的动态权重,以对不同类型的机器学习模型进行融合。本发明在涉及时序数据的机器学习应用中,无需依赖数据科学家的经验和知识积累,便能够方便地得到应用模型,并且使用该模型能够得到较准确的输出结果。

Description

自动时间序列回归方法和装置
技术领域
本发明涉及机器学习技术领域,具体涉及一种自动时间序列回归方法、一种自动时间序列回归装置、一种计算机设备、一种非临时性计算机可读存储介质和一种计算机程序产品。
背景技术
随着数据时代的来临,数据量正在以指数级的方式增长,而这样的增长速度迫使科学界面临着各种各样的挑战,在这些数据中有一种重要的数据表现形式是时间序列,时间序列是以时间为主自变量的函数,生活中有很多序列数据都属于时间序列的范畴,比如股票指数、心脑电图,甚至语音信号、草原某地的风速等等,都是有其内在特征的变化。时间序列回归就是在大量看起来随机和无序的数据中所蕴含的确定和有序的规律性。这种规律的思想并非是形而上的,在不同的时段、不同的地点甚至更改其中一个很小的因素都会产生不同的变化,因此这种规律是动态的、有限的。
时间序列关系型数据在经济金融、保险、在线广告、推荐系统、医疗等应用场景中非常常见,人们往往需要利用这样的数据去构建机器学习模型,并应用机器学习模型提升对应业务的效果。时间序列数据是机器学习解决行业场景,尤其是大数据场景的最重要的一种数据,因为数据输入的特殊性,时间序列存储的方式和数据库的设计方式也和普通的关系型数据库有很大的区别。对于时间序列模式识别目前的方法主要涉及到两个方向:一个叫做复杂系统,另外一个是机器学习。复杂系统是需要将数据拟合到已知的模型当中,比如古典的AR(Auto Regressive Model,自回归模型)、MA(Moving Average Model,移动平均模型)、ARMA(Auto Regressive and Moving Average Model,自回归移动平均模型)、ARIMA(Auto Regressive Integrate Moving Average Model,差分自回归移动平均模型)。而机器学习在用一类通用模型,例如神经网络,进行“暴力”拟合。
在传统的机器学习应用中,需要经验丰富的专家才能从时间序列数据中挖掘出有效的特征信息,并加以利用来提升机器学习模型的效果。即使具备较深的知识储备,专家也需要通过不断的尝试和试错,才能构建出有价值的时序特征,并且利用好多个相关联表来提升机器学习模型的性能。此外,选择合适的机器学习模型和超参数也需要强大的机器学习专业知识作为支撑。
发明内容
本发明为解决上述技术问题,提供了一种自动时间序列回归方法和装置,在涉及时序数据的机器学习应用中,无需依赖数据科学家的经验和知识积累,便能够方便地得到应用模型,并且使用该模型能够得到较准确的输出结果。
本发明采用的技术方案如下:
一种自动时间序列回归方法,包括以下步骤:获取时序数据集,并对所述时序数据集进行预处理;对预处理后的时序数据集进行自动时序特征工程处理和数据采样;建立不同类型的机器学习模型;根据预处理、自动时序特征工程处理和数据采样后的时序数据集计算基于时间滑窗的动态权重,以对不同类型的机器学习模型进行融合。
对所述时序数据集进行预处理,包括:对所述时序数据集中的异常点进行平滑处理。
对预处理后的时序数据集进行自动时序特征工程处理所得到的特征包括基于时间滑窗的target特征、基于时间滑窗的target统计特征、基于时间滑窗的target趋势特征、基于时间滑窗的重要原始特征、基于时间滑窗的统计特征。
对预处理后的时序数据集进行数据采样,包括:对所述时序数据集中的ID进行随机采样,其中,对于不同大小的数据量使用不同的采样比率。
不同类型的机器学习模型包括线性回归和LightGBM模型。
根据预处理、自动时序特征工程处理和数据采样后的时序数据集计算基于时间滑窗的动态权重,以对不同类型的机器学习模型进行融合,包括:通过验证集确定初始的融合权重;设置测试集的时间窗口,并在第一个时间窗口以所述初始的融合权重进行测试;在每个时间窗口结束后,均根据该时间窗口的测试结果得到相应的最优融合权重;以设定的规则更新该时间窗口的最优融合权重,并在下一时间窗口以更新后的融合权重进行测试。
一种自动时间序列回归装置,包括:预处理模块,所述预处理模块用于获取时序数据集,并对所述时序数据集进行预处理;特征工程和采样模块,所述特征工程和采样模块用于对预处理后的时序数据集进行自动时序特征工程处理和数据采样;模型建立模块,所述模型建立模块用于建立不同类型的机器学习模型;融合模块,所述融合模块用于根据预处理、自动时序特征工程处理和数据采样后的时序数据集计算基于时间滑窗的动态权重,以对不同类型的机器学习模型进行融合。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现上述自动时间序列回归方法。
一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述自动时间序列回归方法。
一种计算机程序产品,当所述计算机程序产品中的指令由处理器执行时,执行上述自动时间序列回归方法。
本发明的有益效果:
本发明通过对时序数据集进行预处理、自动时序特征工程处理和数据采样,并通过计算基于时间滑窗的动态权重对不同类型的机器学习模型进行融合,由此,在涉及时序数据的机器学习应用中,无需依赖数据科学家的经验和知识积累,便能够方便地得到应用模型,并且使用该模型能够得到较准确的输出结果。
附图说明
图1为本发明实施例的自动时间序列回归方法的流程图;
图2为本发明实施例的自动时间序列回归装置的方框示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例的自动时间序列回归方法包括以下步骤:
S1,获取时序数据集,并对时序数据集进行预处理。
时间序列数据是同一统一指标按时间顺序记录的数据列。在本发明的一个实施例中,可对时序数据集中的异常点进行平滑处理,降低数据集本身对模型精度的影响。在时间序列数据任务中,通常都会出现一些异常值点,而异常值的处理也比较影响效果,相对于非时序数据来说处理时序数据的异常点具有更大的挑战。时序数据一般和时间有很强的关联性,也可能随着时间的推移目标值也漂移到了另外一个值域范围,那么如果直接采用全局均值标准差来处理可能会导致一些非异常点被处理了。考虑到这个问题的存在,本发明实施例采用了全局与局部的异常点平滑处理方式。
该方式在考虑全局均值标准差的同时考虑当前点临近时间窗口的均值标准差以及相邻点的值,为了避免正常值被处理这里对偏离全局标准差的倍数设置的比较大。这里还需要特别注意的地方是对训练集和测试集的处理有一些不同,因为测试集的数据是按照时间步慢慢获取的,那么当前时间点的后面的时间步是不可见的,因此对测试数据集的处理是根据当前点之前的临近时间窗口数据进行处理的。通过全局与局部的方式检测出异常点后,可根据当前点的局部均值标准差与左右临近值计算出一个相对较正常范围内的值重新赋值作为当前点新的值。
S2,对预处理后的时序数据集进行自动时序特征工程处理和数据采样。
在时间序列相关的任务中,过去一定时间窗口内发生的事情对未来的结果预测影响很大。对于不同级别的时间粒度的数据,通常受作用的时间窗口有些不同。因此,本发明实施例基于时间序列本身,主要做关于时间滑窗的特征。自动时序特征工程处理得到的特征包括基于时间滑窗的target特征、基于时间滑窗的target统计特征、基于时间滑窗的target趋势特征、基于时间滑窗的重要原始特征、基于时间滑窗的统计特征以及其他特征。
其中,对于基于时间滑窗的target特征,在时间序列数据中target一般不会和临近的时间步值偏离太大,并且它们具有很强的相关性,因此首先可把过去临近的target作为特征。另外还识别出了数据集的时间步间隔,可以判断数据集是按照小时、分钟、天、月或者周作为时间步,根据时间间隔再用模型验证搜索来确定特征窗口大小。
对于基于时间滑窗的target统计特征,对target做完滑窗之后,还会进一步对它做统计。有两种统计方式,第一种是对过去最近的N天进行统计,根据时间步的差异有一些不同,对于时间间隔为天的一般取最近2、3、5、7天进行统计,同时这里也会考虑到内存的限制。第二种是把一个大的时间窗口分成N段,分别对每段做统计。统计的计算有最大值、最小值、均值、标准差等。
对于基于时间滑窗target趋势特征,计算target的变化率,可以反映出变化趋势。
其中,ri表示target当前时间的变化率,ti-1表示上一个时间节点的target,ti-2表示上上个时间节点的target。
对于基于时间滑窗的重要原始特征,首先可使用原始特征训练模型并获得特征的重要性,然后根据特征重要性进行排序。相对于历史target来说,其他原始特征的重要性更低,因此可选择比target更小的时间窗口,然后根据时间窗口和系统限制的资源来确定使用的特征数量。
对于基于时间滑窗的统计特征,这里分别对分类特征和数值型特征进行统计特征的计算。对于分类特征,在时间窗口内统计特征值出现得频次与比率。对于数值型特征,计算方式与基于target的统计一样,统计最大值、最小值、均值、标准差,只是时间窗口会控制的更小一些。
对于其它特征,除以上特征,还尝试用训练集统计的特征直接作为全部数据的特征。例如,对分类特征在训练集全局统计频率与比率,对两个特征重要性高的分类特征做组合在统计频率与比率,以及对一个特征重要性高的分类特征与一个特征重要性高的数值特征做组合,基于分类特征对数值特征做统计。也可考虑历史target与其他特征的交叉组合,例如target与其他重要性较高的数值特征进行乘或除等交叉方式。
在自动特征工程和自动特征选择阶段通常会比较耗时、耗内存,为了加快这个过程,可对数据进行采样。时间序列的采样需要注意采样方式,如果直接对数据进行随机采样,这样会导致同一个ID的不同时间戳的数据丢失,使得数据不够完整,这样效果比较差和全量数据的效果就没有了可比性。考虑到这个问题,本发明实施例对时序数据集中的ID进行随机采样,并且,对于不同大小的数据量使用不同的采样比率,数据越大采样比率越小,当数据量比较大的时候,按照时间步对数据进行截断,保留后面的时间步数据,这样的采样方式和用全量的采样基本效果一致,最后的特征选择效果也比较稳定。
S3,建立不同类型的机器学习模型。
在本发明的实施例中,可建立两个差异性较大的线性模型和树模型。具体地,可建立线性回归和LightGBM模型。
S4,根据预处理、自动时序特征工程处理和数据采样后的时序数据集计算基于时间滑窗的动态权重,以对不同类型的机器学习模型进行融合。
上述的线性回归和LightGBM模型,在不同的时间序列数据集上这个两个模型的效果有比较大的不同,有些数据集效果接近,有些线性回归效果更好,有些LightGBM模型效果更好。经过分析发现这些数据集随着时间变化的规律有很大的差异性,有些任务的target随着时间不断的增大,这样的数据通常不适合树模型。此外对于同一个数据集,不同模型在不同的时间段的效果表现差异也会有较大变化。
时间序列数据与时间关系较大,因此为了降低模型受时间因素的影响,可通过计算基于时间滑窗的动态权重对模型进行融合。
具体地,首先可通过验证集确定初始的融合权重w0,然后设置测试集的时间窗口,并在第一个时间窗口以初始的融合权重w0进行测试。在每个时间窗口结束后,均根据该时间窗口的测试结果得到相应的最优融合权重,然后以设定的规则更新该时间窗口的最优融合权重,并在下一时间窗口以更新后的融合权重进行测试。也就是说,在第一个时间窗口以初始的融合权重w0进行测试,当第一个时间窗口结束后,可根据第一个时间窗口的测试结果得到该窗口的最优融合权重w1,然后采用以下公式更新w1
w′1=r×w0+(1-r)×w1
其中,r为记忆因子,即上一时间窗口权重对当前时间窗口权重更新过程所占的比重。
第二个窗口的测试结果就使用w′1作为融合权重,依此类推进行迭代更新。这样随着时间的变化,过去时间更久的结果对融合影响会变得更小。
根据本发明实施例的自动时间序列回归方法,通过对时序数据集进行预处理、自动时序特征工程处理和数据采样,并通过计算基于时间滑窗的动态权重对不同类型的机器学习模型进行融合,由此,在涉及时序数据的机器学习应用中,无需依赖数据科学家的经验和知识积累,便能够方便地得到应用模型,并且使用该模型能够得到较准确的输出结果。
对应上述实施例的自动时间序列回归方法,本发明还提出一种自动时间序列回归装置。
如图2所示,本发明实施例的自动时间序列回归装置包括预处理模块10、特征工程和采样模块20、模型建立模块30、融合模块40。其中,预处理模块10用于获取时序数据集,并对时序数据集进行预处理;特征工程和采样模块20用于对预处理后的时序数据集进行自动时序特征工程处理和数据采样;模型建立模块30用于建立不同类型的机器学习模型;融合模块40用于根据预处理、自动时序特征工程处理和数据采样后的时序数据集计算基于时间滑窗的动态权重,以对不同类型的机器学习模型进行融合。
时间序列数据是同一统一指标按时间顺序记录的数据列。在本发明的一个实施例中,预处理模块10可对时序数据集中的异常点进行平滑处理,降低数据集本身对模型精度的影响。在时间序列数据任务中,通常都会出现一些异常值点,而异常值的处理也比较影响效果,相对于非时序数据来说处理时序数据的异常点具有更大的挑战。时序数据一般和时间有很强的关联性,也可能随着时间的推移目标值也漂移到了另外一个值域范围,那么如果直接采用全局均值标准差来处理可能会导致一些非异常点被处理了。考虑到这个问题的存在,本发明实施例采用了全局与局部的异常点平滑处理方式。
该方式在考虑全局均值标准差的同时考虑当前点临近时间窗口的均值标准差以及相邻点的值,为了避免正常值被处理这里对偏离全局标准差的倍数设置的比较大。这里还需要特别注意的地方是对训练集和测试集的处理有一些不同,因为测试集的数据是按照时间步慢慢获取的,那么当前时间点的后面的时间步是不可见的,因此对测试数据集的处理是根据当前点之前的临近时间窗口数据进行处理的。通过全局与局部的方式检测出异常点后,可根据当前点的局部均值标准差与左右临近值计算出一个相对较正常范围内的值重新赋值作为当前点新的值。
在时间序列相关的任务中,过去一定时间窗口内发生的事情对未来的结果预测影响很大。对于不同级别的时间粒度的数据,通常受作用的时间窗口有些不同。因此,本发明实施例的特征工程和采样模块20基于时间序列本身,主要做关于时间滑窗的特征。自动时序特征工程处理得到的特征包括基于时间滑窗的target特征、基于时间滑窗的target统计特征、基于时间滑窗的target趋势特征、基于时间滑窗的重要原始特征、基于时间滑窗的统计特征以及其他特征。
其中,对于基于时间滑窗的target特征,在时间序列数据中target一般不会和临近的时间步值偏离太大,并且它们具有很强的相关性,因此首先可把过去临近的target作为特征。另外还识别出了数据集的时间步间隔,可以判断数据集是按照小时、分钟、天、月或者周作为时间步,根据时间间隔再用模型验证搜索来确定特征窗口大小。
对于基于时间滑窗的target统计特征,对target做完滑窗之后,还会进一步对它做统计。有两种统计方式,第一种是对过去最近的N天进行统计,根据时间步的差异有一些不同,对于时间间隔为天的一般取最近2、3、5、7天进行统计,同时这里也会考虑到内存的限制。第二种是把一个大的时间窗口分成N段,分别对每段做统计。统计的计算有最大值、最小值、均值、标准差等。
对于基于时间滑窗target趋势特征,计算target的变化率,可以反映出变化趋势。
其中,ri表示target当前时间的变化率,ti-1表示上一个时间节点的target,ti-2表示上上个时间节点的target。
对于基于时间滑窗的重要原始特征,首先可使用原始特征训练模型并获得特征的重要性,然后根据特征重要性进行排序。相对于历史target来说,其他原始特征的重要性更低,因此可选择比target更小的时间窗口,然后根据时间窗口和系统限制的资源来确定使用的特征数量。
对于基于时间滑窗的统计特征,这里分别对分类特征和数值型特征进行统计特征的计算。对于分类特征,在时间窗口内统计特征值出现得频次与比率。对于数值型特征,计算方式与基于target的统计一样,统计最大值、最小值、均值、标准差,只是时间窗口会控制的更小一些。
对于其它特征,除以上特征,还尝试用训练集统计的特征直接作为全部数据的特征。例如,对分类特征在训练集全局统计频率与比率,对两个特征重要性高的分类特征做组合在统计频率与比率,以及对一个特征重要性高的分类特征与一个特征重要性高的数值特征做组合,基于分类特征对数值特征做统计。也可考虑历史target与其他特征的交叉组合,例如target与其他重要性较高的数值特征进行乘或除等交叉方式。
在自动特征工程和自动特征选择阶段通常会比较耗时、耗内存,为了加快这个过程,可通过特征工程和采样模块20对数据进行采样。时间序列的采样需要注意采样方式,如果直接对数据进行随机采样,这样会导致同一个ID的不同时间戳的数据丢失,使得数据不够完整,这样效果比较差和全量数据的效果就没有了可比性。考虑到这个问题,本发明实施例的特征工程和采样模块20对时序数据集中的ID进行随机采样,并且,对于不同大小的数据量使用不同的采样比率,数据越大采样比率越小,当数据量比较大的时候,按照时间步对数据进行截断,保留后面的时间步数据,这样的采样方式和用全量的采样基本效果一致,最后的特征选择效果也比较稳定。
在本发明的实施例中,模型建立模块30可建立两个差异性较大的线性模型和树模型。具体地,可建立线性回归和LightGBM模型。
上述的线性回归和LightGBM模型,在不同的时间序列数据集上这个两个模型的效果有比较大的不同,有些数据集效果接近,有些线性回归效果更好,有些LightGBM模型效果更好。经过分析发现这些数据集随着时间变化的规律有很大的差异性,有些任务的target随着时间不断的增大,这样的数据通常不适合树模型。此外对于同一个数据集,不同模型在不同的时间段的效果表现差异也会有较大变化。
时间序列数据与时间关系较大,因此为了降低模型受时间因素的影响,融合模块40可通过计算基于时间滑窗的动态权重对模型进行融合。
具体地,融合模块40首先可通过验证集确定初始的融合权重w0,然后设置测试集的时间窗口,并在第一个时间窗口以初始的融合权重w0进行测试。在每个时间窗口结束后,融合模块40均根据该时间窗口的测试结果得到相应的最优融合权重,然后以设定的规则更新该时间窗口的最优融合权重,并在下一时间窗口以更新后的融合权重进行测试。也就是说,融合模块40在第一个时间窗口以初始的融合权重w0进行测试,当第一个时间窗口结束后,可根据第一个时间窗口的测试结果得到该窗口的最优融合权重w1,然后采用以下公式更新w1
w′1=r×w0+(1-r)×w1
其中,r为记忆因子,即上一时间窗口权重对当前时间窗口权重更新过程所占的比重。
第二个窗口的测试结果就使用w′1作为融合权重,依此类推进行迭代更新。这样随着时间的变化,过去时间更久的结果对融合影响会变得更小。
根据本发明实施例的自动时间序列回归装置,通过对时序数据集进行预处理、自动时序特征工程处理和数据采样,并通过计算基于时间滑窗的动态权重对不同类型的机器学习模型进行融合,由此,在涉及时序数据的机器学习应用中,无需依赖数据科学家的经验和知识积累,便能够方便地得到应用模型,并且使用该模型能够得到较准确的输出结果。
对应上述实施例,本发明还提出一种计算机设备。
本发明实施例的计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行该计算机程序时,可实现根据本发明上述实施例所述的自动时间序列回归方法。
根据本发明实施例的计算机设备,处理器执行存储在存储器上的计算机程序时,对时序数据集进行预处理、自动时序特征工程处理和数据采样,并通过计算基于时间滑窗的动态权重对不同类型的机器学习模型进行融合,由此,在涉及时序数据的机器学习应用中,无需依赖数据科学家的经验和知识积累,便能够方便地得到应用模型,并且使用该模型能够得到较准确的输出结果。
对应上述实施例,本发明还提出一种非临时性计算机可读存储介质。
本发明实施例的非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时可实现根据本发明上述实施例所述的自动时间序列回归方法。
根据本发明实施例的非临时性计算机可读存储介质,处理器执行存储在其上的计算机程序时,首先对时序数据集进行预处理、自动时序特征工程处理和数据采样,并通过计算基于时间滑窗的动态权重对不同类型的机器学习模型进行融合,由此,在涉及时序数据的机器学习应用中,无需依赖数据科学家的经验和知识积累,便能够方便地得到应用模型,并且使用该模型能够得到较准确的输出结果。
对应上述实施例,本发明还提出一种计算机程序产品。
当本发明实施例的计算机程序产品中的指令由处理器执行时,可执行根据本发明上述实施例所述的自动时间序列回归方法。
根据本发明实施例的计算机程序产品,处理器执行其中的指令时,首先对时序数据集进行预处理、自动时序特征工程处理和数据采样,并通过计算基于时间滑窗的动态权重对不同类型的机器学习模型进行融合,由此,在涉及时序数据的机器学习应用中,无需依赖数据科学家的经验和知识积累,便能够方便地得到应用模型,并且使用该模型能够得到较准确的输出结果。
在本发明的描述中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必针对相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (7)

1.一种自动时间序列回归方法,其特征在于,包括以下步骤:
获取时序数据集,并对所述时序数据集进行预处理,其中,所述时序数据集中的时序数据为股票指数、心脑电图、语音信号或风速;
对预处理后的时序数据集进行自动时序特征工程处理和数据采样;
建立不同类型的机器学习模型;
根据预处理、自动时序特征工程处理和数据采样后的时序数据集计算基于时间滑窗的动态权重,以对不同类型的机器学习模型进行融合,
对预处理后的时序数据集进行自动时序特征工程处理所得到的特征包括基于时间滑窗的target特征、基于时间滑窗的target统计特征、基于时间滑窗的target趋势特征、基于时间滑窗的重要原始特征、基于时间滑窗的统计特征,
根据预处理、自动时序特征工程处理和数据采样后的时序数据集计算基于时间滑窗的动态权重,以对不同类型的机器学习模型进行融合,包括:通过验证集确定初始的融合权重;设置测试集的时间窗口,并在第一个时间窗口以所述初始的融合权重进行测试;在每个时间窗口结束后,均根据该时间窗口的测试结果得到相应的最优融合权重;以设定的规则更新该时间窗口的最优融合权重,并在下一时间窗口以更新后的融合权重进行测试。
2.根据权利要求1所述的自动时间序列回归方法,其特征在于,对所述时序数据集进行预处理,包括:
对所述时序数据集中的异常点进行平滑处理。
3.根据权利要求2所述的自动时间序列回归方法,其特征在于,对预处理后的时序数据集进行数据采样,包括:
对所述时序数据集中的ID进行随机采样,其中,对于不同大小的数据量使用不同的采样比率。
4.根据权利要求3所述的自动时间序列回归方法,其特征在于,不同类型的机器学习模型包括线性回归和LightGBM模型。
5.一种自动时间序列回归装置,其特征在于,包括:
预处理模块,所述预处理模块用于获取时序数据集,并对所述时序数据集进行预处理,其中,所述时序数据集中的时序数据为股票指数、心脑电图、语音信号或风速;
特征工程和采样模块,所述特征工程和采样模块用于对预处理后的时序数据集进行自动时序特征工程处理和数据采样;
模型建立模块,所述模型建立模块用于建立不同类型的机器学习模型;
融合模块,所述融合模块用于根据预处理、自动时序特征工程处理和数据采样后的时序数据集计算基于时间滑窗的动态权重,以对不同类型的机器学习模型进行融合,
对预处理后的时序数据集进行自动时序特征工程处理所得到的特征包括基于时间滑窗的target特征、基于时间滑窗的target统计特征、基于时间滑窗的target趋势特征、基于时间滑窗的重要原始特征、基于时间滑窗的统计特征,
所述融合模块具体用于:通过验证集确定初始的融合权重;设置测试集的时间窗口,并在第一个时间窗口以所述初始的融合权重进行测试;在每个时间窗口结束后,均根据该时间窗口的测试结果得到相应的最优融合权重;以设定的规则更新该时间窗口的最优融合权重,并在下一时间窗口以更新后的融合权重进行测试。
6.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时,实现根据权利要求1-4中任一项所述的自动时间序列回归方法。
7.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现根据权利要求1-4中任一项所述的自动时间序列回归方法。
CN202010832356.7A 2020-08-18 2020-08-18 自动时间序列回归方法和装置 Active CN111967616B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010832356.7A CN111967616B (zh) 2020-08-18 2020-08-18 自动时间序列回归方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010832356.7A CN111967616B (zh) 2020-08-18 2020-08-18 自动时间序列回归方法和装置

Publications (2)

Publication Number Publication Date
CN111967616A CN111967616A (zh) 2020-11-20
CN111967616B true CN111967616B (zh) 2024-04-23

Family

ID=73388391

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010832356.7A Active CN111967616B (zh) 2020-08-18 2020-08-18 自动时间序列回归方法和装置

Country Status (1)

Country Link
CN (1) CN111967616B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113297481A (zh) * 2021-05-08 2021-08-24 武汉卓尔数字传媒科技有限公司 基于流数据处理的信息推送方法、信息推送装置及服务器
CN114860802B (zh) * 2022-04-26 2024-08-02 上海分泽时代软件技术有限公司 时序人流量数据和标量标签数的融合方法及系统
CN119030799A (zh) * 2024-10-28 2024-11-26 南京中新赛克科技有限责任公司 用于工业互联网安全异常行为挖掘与分析的方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6115406A (en) * 1999-09-10 2000-09-05 Interdigital Technology Corporation Transmission using an antenna array in a CDMA communication system
CN108302329A (zh) * 2018-01-25 2018-07-20 福建双环能源科技股份有限公司 一种露点数据异常检测方法
CN108777873A (zh) * 2018-06-04 2018-11-09 江南大学 基于加权混合孤立森林的无线传感网络异常数据检测方法
CN109255506A (zh) * 2018-11-22 2019-01-22 重庆邮电大学 一种基于大数据的互联网金融用户贷款逾期预测方法
CN109299185A (zh) * 2018-10-18 2019-02-01 上海船舶工艺研究所(中国船舶工业集团公司第十研究所) 一种针对时序流数据的卷积神经网络提取特征的分析方法
CN110348622A (zh) * 2019-07-02 2019-10-18 创新奇智(成都)科技有限公司 一种基于机器学习的时间序列预测方法、系统及电子设备
CN110443373A (zh) * 2019-07-12 2019-11-12 清华大学 线性模型稳定学习方法和装置
CN110705692A (zh) * 2019-09-25 2020-01-17 中南大学 一种基于空间和时间注意力的长短期记忆网络对工业非线性动态过程产品质量预测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7620204B2 (en) * 2006-02-09 2009-11-17 Mitsubishi Electric Research Laboratories, Inc. Method for tracking objects in videos using covariance matrices

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6115406A (en) * 1999-09-10 2000-09-05 Interdigital Technology Corporation Transmission using an antenna array in a CDMA communication system
CN108302329A (zh) * 2018-01-25 2018-07-20 福建双环能源科技股份有限公司 一种露点数据异常检测方法
CN108777873A (zh) * 2018-06-04 2018-11-09 江南大学 基于加权混合孤立森林的无线传感网络异常数据检测方法
CN109299185A (zh) * 2018-10-18 2019-02-01 上海船舶工艺研究所(中国船舶工业集团公司第十研究所) 一种针对时序流数据的卷积神经网络提取特征的分析方法
CN109255506A (zh) * 2018-11-22 2019-01-22 重庆邮电大学 一种基于大数据的互联网金融用户贷款逾期预测方法
CN110348622A (zh) * 2019-07-02 2019-10-18 创新奇智(成都)科技有限公司 一种基于机器学习的时间序列预测方法、系统及电子设备
CN110443373A (zh) * 2019-07-12 2019-11-12 清华大学 线性模型稳定学习方法和装置
CN110705692A (zh) * 2019-09-25 2020-01-17 中南大学 一种基于空间和时间注意力的长短期记忆网络对工业非线性动态过程产品质量预测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
An Isolation-Based Distributed Outlier Detection Framework Using Nearest Neighbor Ensembles for Wireless Sensor Networks;Zhong-Min Wang等;《IEEE Access》;96319-96333 *
Combining LSTM Network Ensemble via Adaptive Weighting for Improved Time Series Forecasting;Jae Young Choi等;《Mathematical Problems in Engineering》;1-8 *
基于深度表征的视觉理解关键技术研究;王景文;《中国博士学位论文全文数据库 (信息科技辑)》(第12期);I138-114 *
基于非线性动力学的金融时间序列预测技术研究;卢山;《中国博士学位论文全文数据库 (经济与管理科学辑)》(第04期);J160-3 *

Also Published As

Publication number Publication date
CN111967616A (zh) 2020-11-20

Similar Documents

Publication Publication Date Title
CN111967616B (zh) 自动时间序列回归方法和装置
US9047559B2 (en) Computer-implemented systems and methods for testing large scale automatic forecast combinations
CN110717535B (zh) 一种基于数据分析处理系统的自动建模方法及系统
US20210081798A1 (en) Neural network method and apparatus
CN108960269B (zh) 数据集的特征获取方法、装置及计算设备
US20080071764A1 (en) Method and an apparatus to perform feature similarity mapping
CN113642938B (zh) 一种智能化生产管理方法及系统
JPWO2019146189A1 (ja) ニューラルネットワークのランク最適化装置および最適化方法
Matuszny Building decision trees based on production knowledge as support in decision-making process
CN106264545A (zh) 步伐识别方法及装置
CN117314492A (zh) 销量预测方法、装置、计算机设备及存储介质
CN113722997A (zh) 一种基于静态油气田数据的新井动态产量预测方法
CN109283169A (zh) 一种鲁棒的拉曼光谱峰识别方法
CN112148942A (zh) 基于数据聚类的业务指标数据分类方法及装置
CN107203916B (zh) 一种用户信用模型建立方法及装置
DE112021000251T5 (de) Verfahren zum auswählen von datensätzen zum aktualisieren eines moduls mit künstlicher intelligenz
JP6929260B2 (ja) 時系列特徴抽出装置、時系列特徴抽出方法及びプログラム
CN110855519A (zh) 一种网络流量预测方法
JP5826893B1 (ja) 変化点予測装置、変化点予測方法、及びコンピュータプログラム
CN115860141A (zh) 一种自动化机器学习交互式黑箱可视建模方法及系统
CN113610350A (zh) 复杂工况故障诊断方法、设备、存储介质及装置
CN112906768A (zh) 一种无线行为感知模型跨场景预选择方法
CN113577777B (zh) 一种游戏数据处理的方法和装置
CN117804639B (zh) 一种胶装机温控传感器的温度校准方法及系统
US20240303543A1 (en) Model training method and model training apparatus

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant