CN107436954B - 一种在线流数据近似处理质量控制方法及装置 - Google Patents
一种在线流数据近似处理质量控制方法及装置 Download PDFInfo
- Publication number
- CN107436954B CN107436954B CN201710701336.4A CN201710701336A CN107436954B CN 107436954 B CN107436954 B CN 107436954B CN 201710701336 A CN201710701336 A CN 201710701336A CN 107436954 B CN107436954 B CN 107436954B
- Authority
- CN
- China
- Prior art keywords
- error
- current
- data
- approximate processing
- sampling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000003908 quality control method Methods 0.000 title claims abstract description 20
- 238000003672 processing method Methods 0.000 title 1
- 238000012545 processing Methods 0.000 claims abstract description 243
- 238000005070 sampling Methods 0.000 claims abstract description 127
- 238000004458 analytical method Methods 0.000 claims abstract description 60
- 238000012937 correction Methods 0.000 claims abstract description 22
- 238000000034 method Methods 0.000 claims abstract description 15
- 238000012544 monitoring process Methods 0.000 claims description 25
- 230000000694 effects Effects 0.000 abstract description 2
- 238000002474 experimental method Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000001960 triggered effect Effects 0.000 description 3
- 238000011217 control strategy Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24568—Data stream processing; Continuous queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种在线流数据近似处理质量控制方法,该方法包括以下步骤:确定针对当前数据处理窗口的流数据的采样策略,根据采样策略,对流数据进行采样,获得采样数据;对采样数据进行近似处理,获得当前近似处理结果,根据预先获得的用户需求和当前近似处理结果,进行误差分析,得到误差值;判断误差值是否小于或等于预设误差阈值;如果是,则输出当前近似处理结果,如果否,则进行误差校正。应用本发明实施例所提供的技术方案,可以提高流数据的近似处理结果的质量。本发明还公开了一种在线流数据近似处理质量控制装置,具有相应技术效果。
Description
技术领域
本发明涉及流数据处理技术领域,特别是涉及一种在线流数据近似处理质量控制方法及装置。
背景技术
随着流数据的数据量出现井喷式的增长,近似处理已成为流数据处理中不可或缺的关键技术。
通过近似处理可以不断提高对流数据处理的速度。例如,近似处理技术中的采样算法用样本集数据特征替代整个流数据的数据特征的处理方式,以提升流数据的处理速度。但是,近似处理在提高流数据的近似处理速度时,往往以牺牲流数据的近似处理结果的质量,作为快速处理数据的代价。
在实际应用中,用户在提交近似处理请求时,常常对近似处理结果的质量提出要求。例如:在一个在线查询流量的应用中,接收到用户发送的查询请求中要求近似处理结果的误差在±10%以内。
综上所述,如何有效地提高流数据的近似处理结果的质量等问题,是目前本领域技术人员急需解决的问题。
发明内容
本发明的目的是提供一种在线流数据近似处理质量控制方法及装置,以提高对流数据进行近似处理时所得到的近似处理结果的质量。
为解决上述技术问题,本发明提供如下技术方案:
一种在线流数据近似处理质量控制方法,包括:
确定针对当前数据处理窗口的流数据的采样策略;
根据所述采样策略,对所述流数据进行采样,获得采样数据;
对所述采样数据进行近似处理,获得当前近似处理结果;
根据预先获得的用户需求和所述当前近似处理结果,进行误差分析,得到误差值;
判断所述误差值是否小于或等于预设误差阈值;
如果是,则输出所述当前近似处理结果;
如果否,则进行误差校正。
优选地,所述根据预先获得的用户需求和所述当前近似处理结果,进行误差分析,得到误差值,包括:
若所述用户需求为针对最大误差的需求,则针对所述当前数据处理窗口对应的近似处理结果进行误差分析,得到误差值。
优选地,所述根据预先获得的用户需求和所述当前近似处理结果,进行误差分析,得到误差值,包括:
若所述用户需求为针对平均误差的需求,则获得所述当前数据处理窗口临近的N个数据处理窗口对应的历史近似处理结果,所述N为正整数;
根据所述历史近似处理结果和所述当前近似处理结果,进行误差分析,得到误差值。
优选地,所述进行误差校正,包括:
判断所述误差值是否为针对所述当前数据处理窗口进行第一次误差分析所得的误差值;
如果是,则重复执行所述根据所述采样策略,对所述流数据进行采样,获得采样数据的步骤。
优选地,在判断所述误差值非针对所述当前数据处理窗口进行第一次误差分析所得的误差值时,还包括:
调整所述采样策略。
优选地,在所述根据预先获得的用户需求和所述当前近似处理结果,进行误差分析,得到误差值之前,还包括:
判断当前时刻是否在预设的质量监控时间段内;
如果是,则执行所述根据预先获得的用户需求和所述当前近似处理结果,进行误差分析,得到误差值的步骤。
优选地,在所述当前时刻不在所述质量监控时间段内时,还包括:
直接输出所述当前近似处理结果。
一种在线流数据近似处理质量控制装置,包括:
采样策略确定模块,用于确定针对当前数据处理窗口的流数据的采样策略;
采样数据获得模块,用于根据所述采样策略,对所述流数据进行采样,获得采样数据;
近似处理结果获得模块,用于对所述采样数据进行近似处理,获得当前近似处理结果;
误差分析模块,用于根据预先获得的用户需求和所述当前近似处理结果,进行误差分析,得到误差值;
误差判断模块,用于判断所述误差值是否小于或等于预设误差阈值;
输出模块,用于当所述误差值小于或等于预设误差阈值时,输出所述当前近似处理结果;
误差校正模块,用于当所述误差值大于预设误差阈值时,进行误差校正。
优选地,还包括质量监控判断模块,用于:
在所述根据预先获得的用户需求和所述当前近似处理结果,进行误差分析,得到误差值之前,判断当前时刻是否在预设的质量监控时间段内;如果是,则触发所述误差分析模块。
优选地,所述质量监控判断模块,还用于:在所述当前时刻不在所述质量监控时间段内时,直接输出所述当前近似处理结果。
应用本发明实施例所提供的技术方案,首先确定针对当前数据处理窗口的流数据的采样策略,根据采样策略,对流数据进行采样,获得采样数据,然后对采样数据进行近似处理,获得当前近似处理结果,根据预先获得的用户需求和当前近似处理结果,进行误差分析,得到误差值,判断误差值是否小于或等于预设误差阈值,如果是,则输出当前近似处理结果,如果否,则进行误差校正。在输出当前近似处理结果之前,先对当前近似处理结果进行误差分析,当近似处理结果的误差大于误差阈值时,进行误差校正,当近似处理结果小于或等于误差阈值时,输出当前近似处理结果,提高了流数据的近似处理结果的质量。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中在线流数据近似处理质量控制方法的一种实施流程图;
图2为本发明实施例中在线流数据近似处理质量控制方法的另一种实施流程图;
图3为本发明实施例中一种在线流数据近似处理质量控制装置的结构示意图;
图4为本发明实施例中一种流数据的数据分布图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,图1为本发明实施例中一种在线流数据近似处理质量控制方法的实施流程图,包括以下步骤:
S101、确定针对当前数据处理窗口的流数据的采样策略。
在本发明实施例中,可以预先设定多种采样策略,从预先设定的多种采样策略中确定针对当前数据处理窗口的流数据的采样策略。具体可以根据流数据的数据分布情况,确定相应的采样策略,或者在预先设定的多种采样策略中随机选择一种采样策略。
采样策略可以包括进行采样时使用的采样算法,以及采样算法之间的采样顺序、采样频率和采样窗口大小等信息。例如,采样策略可以为分别使用随机采样算法和分层随机采样算法对流数据进行采样,或者并行使用分层随机采样算法对流数据进行采样。
确定采样策略后,可以继续执行步骤S102的操作。
S102、根据采样策略,对流数据进行采样,获得采样数据。
确定的采样策略中可以包括采样算法,根据采样策略中的采样算法,可以对当前数据处理窗口的流数据进行采样,获得针对当前数据处理窗口的流数据的采样数据。
其中,为了便于分析,可以将从流数据中获得的采样数据划分为不同的样本集。例如,当采样策略为并行使用随机采样算法和分层随机采样算法进行采样时,可以获得针对两种不同采样算法的样本集,具体的一种采样算法得到多少个样本集可以预先设置,也可以根据实际情况进行确定或调整,本发明实施例并不限定。
S103、对采样数据进行近似处理,获得当前近似处理结果。
对采样数据进行近似处理,获得针对当前数据处理窗口的流数据的当前近似处理结果。当对流数据进行采样得到多个样本集时,对每个样本集中的采样数据进行近似处理,可以获得每个样本集对应的当前近似处理结果。
具体的可以根据当前的需求对采样数据进行近似处理。例如,在流数据为气象信息中的气温数据,需要统计平均气温时,可以对采样数据进行求平均值的近似计算;在流数据为某网站的多个服务器的点击率,需要统计网站的总体点击率时,可以对采样数据进行求和的近似计算。
S104、根据预先获得的用户需求和当前近似处理结果,进行误差分析,得到误差值。
其中,用户需求中可以包含用户对近似处理结果的质量要求,如要求输出的近似处理结果的误差不超出±5%。
根据预先获得的用户需求中对近似处理结果的质量要求和当前近似处理结果,进行误差分析,得到一个误差值。具体的,可以将对流数据采样得到的不同样本集对应的当前近似处理结果的差值的绝对值确定为误差值。
在本发明的一个实施例中,若用户需求为针对最大误差的需求,则针对当前数据处理窗口对应的近似处理结果进行误差分析,得到误差值。
若用户需求为针对最大误差的需求,即用户要求输出当前的近似处理结果的误差不超过最大误差,则针对当前的数据处理窗口对应的近似处理结果进行误差分析,得到误差值。
例如,根据用户需求确定用户要求输出当前的近似处理结果的误差不超过最大误差时,可以设置|window|=1,即在当前数据处理窗口获取当前的近似处理结果后,立即对当前的近似处理结果进行误差分析,得到误差值。
在本发明的一个实施例中,若用户需求为针对平均误差的需求,则获得当前数据处理窗口临近的N个数据处理窗口对应的历史近似处理结果,N为正整数;根据历史近似处理结果和当前近似处理结果,进行误差分析,得到误差值。
若用户需求为针对平均误差的需求,即用户要求输出当前近似处理结果的误差不超过平均误差,则获取当前数据处理窗口临近的N个数据处理窗口对应的历史近似处理结果,根据历史近似处理结果和当前近似处理结果,进行误差分析,得到关于平均误差的误差值。需要说明的是,N为正整数,N可以预先设置,也可以根据实际情况进行确定和调整,本发明实施例并不限定。
例如,根据用户需求,确定用户要求输出当前的近似处理结果的误差不超过平均误差时,可以设置|window|=N+1,即在当前数据处理窗口获取当前近似处理结果后,立即对当前近似处理结果以及历史近似处理结果进行误差分析,得到关于平均误差的误差值。
S105、判断误差值是否小于或等于预设误差阈值。
在本发明实施例中,可以预先设置误差阈值,误差阈值的具体大小可以根据实际情况进行确定和调整,本发明实施例并不限定。得到误差值后,可以将误差值与误差阈值进行比较,判断误差值是否小于或等于误差阈值,如可以利用相减或者相除等方法,判断误差值是否小于或等于预设误差阈值。
具体的,可以预先针对每个样本集设置相应的误差阈值,也可以针对采样窗口设置误差阈值。例如:当有两个样本集时,可以分别设置第一样本误差阈值、第二样本误差阈值为各个样本集对应的理论误差界限值,也可以为采样窗口设置一个误差阈值,具体误差阈值可以根据实际情况进行确定和调整,本发明实施例并不限定。
如果误差值小于或等于预设误差阈值,则执行步骤S106的操作,如果误差值大于预设误差阈值,则执行步骤S107的操作。
S106、输出当前近似处理结果。
如果步骤S105中得到误差值小于或等于预设误差阈值,则表明当前近似处理结果是满足要求的,可以输出当前近似处理结果。
S107、进行误差校正。
如果步骤S105中得到误差值大于预设误差阈值,则表明当前近似处理结果是不满足要求的,可以针对该误差值进行误差校正。
在本发明的一个实施例中,步骤S107包括以下步骤:
判断误差值是否为针对当前数据处理窗口进行第一次误差分析所得的误差值,如果是,则重复执行步骤S102的操作。
首先判断该误差值是否为针对当前数据处理窗口进行第一次误差分析所得的误差值,如果是,则重复执行根据采样策略,对流数据进行采样,获得采样数据的步骤。也就是说,针对当前数据处理窗口的近似处理结果第一次大于或等于误差阈值时,则进行重新采样,即再次执行步骤S102至步骤S105,然后再根据步骤S105的判断结果执行步骤S106或执行步骤S107的操作。
在本发明的另一个实施例中,在判断误差值非针对当前数据处理窗口进行第一次误差分析所得的误差值时,还可以调整采样策略。
在判断误差值非针对当前数据处理窗口进行第一处误差分析所得的误差值时,也就是说此时得到的误差值为经过步骤S107进行误差校正后得到的误差值,在这种情况下,可以对采样策略进行调整。
调整采样策略可以调整采样策略中包含的采样算法、采样窗口大小、采样算法的采样频率等。例如,可以将采样策略中采样算法的采样窗口大小调小,或者将采样策略中的采样算法的采样频率增大,或者将采样策略中的采样算法进行变化。
应用本发明实施例所提供的方法,首先确定针对当前数据处理窗口的流数据的采样策略,根据采样策略,对流数据进行采样,获得采样数据,然后对采样数据进行近似处理,获得当前近似处理结果,根据预先获得的用户需求和当前近似处理结果,进行误差分析,得到误差值,判断误差值是否小于或等于预设误差阈值,如果是,则输出当前近似处理结果,如果否,则进行误差校正。在输出当前近似处理结果之前,先对当前近似处理结果进行误差分析,当近似处理结果的误差大于误差阈值时,进行误差校正,当近似处理结果小于或等于误差阈值时,输出当前近似处理结果,提高了流数据的近似处理结果的质量。
为便于理解,以图2为例对本发明实施例所提供的技术方案进行举例说明:
假设根据实际情况,对流数据进行的近似处理为对流数据进行AVG操作,也就是对流数据进行求平均操作,使用的采样策略可以为分别使用分层随机采样算法SRS和随机采样算法RS对流数据进行采样,或者并行使用分层随机采样算法SRS对流数据进行采样,获得样本数据,该样本数据为两个样本集,分别记作S1、S2。两个样本集估计的平均值分别为即当前数据处理窗口的流数据的当前近似处理结果。采样策略中包含的采样算法可以基于预设的分层策略对流数据进行分层处理得到的分层结构获得的数据分布情况来确定。
假设流数据的真实平均值为则当前近似处理结果与真实平均值的差值的绝对值分别为:
其中,分别为各个样本集对应的理论误差界限值,将理论误差界限值之和设定为误差阈值Δ,判断误差值是否小于或等于误差阈值:
需要说明的是,若样本集数目n>2,则误差值可以表示为:
其中,分别为每个样本集对应的当前近似处理结果,其中n为正整数。
根据误差值与误差阈值Δ的大小判断结果继续执行后续步骤。
由于对流数据的处理通常是以窗口模式实现,为了便于理解,将上式转换为其中window为针对用户需求而确定的正整数。
当用户需求为针对最大误差的需求时,即此时的|window|=1,则将当前数据处理窗口对应的误差值与预设误差阈值Δ进行比较,即通过以下式子判断是否满足用户需求:
当用户需求为针对平均误差的需求时,可以确定历史数据处理窗口的数目,获得每个历史数据处理窗口对应的历史近似处理结果。根据当前近似处理结果和历史近似处理结果计算针对平均误差的误差值:
其中,计算所得的数值为针对当前数据处理窗口对应的当前近似处理结果和N个历史数据处理窗口对应的历史近似处理结果的平均误差的误差值。N为正整数。|window|=N+1。
根据误差值与预设误差阈值的比较结果,确定是输出当前近似处理结果,还是进行误差校正。如果则输出当前近似处理结果,如果则误差值判断是否为针对当前数据处理窗口进行第一次误差分析所得的误差值,如果是,则对当前数据处理窗口的流数据进行重新采样,否则,调整采样策略,如可以通过对流数据的分层结构的叶节点进行删除操作来实现,以便对后一数据处理窗口的流数据进行采样时使用。
在本发明的一个实施例中,在执行步骤S104,在根据预先获得的用户需求和当前近似处理结果,进行误差分析,得到误差值之前,还包括以下步骤:
判断当前时刻是否在预设的质量监控时间段内;如果是,则执行步骤S104的操作。
在本实施例中,可以预先设置一个质量监控时间段,该时间段可以根据实际情况进行确定和调整,本发明实施例并不限定。
判断当前时刻是否在预设的质量监控时间段内,如果是,则执行步骤S104根据预先获得的用户需求和当前近似处理结果,进行误差分析,得到误差值。也就是说,当前时刻在预设的质量监控时间段内,则继续执行步骤S104和步骤S105,并根据步骤S105判断执行步骤S106还是执行步骤S107。
在本实施例中,如果当前时刻在预设的质量监控时间段内,则对当前近似处理结果进行误差分析,可以提高在质量监控时间段内的当前近似处理结果的质量。
在本发明的另一个实施例中,在当前时刻不在质量监控时间段内时,还可以直接输出当前近似处理结果。
在当前时刻不在质量监控时间段内时,直接输出当前近似处理的结果,不再执行其他的步骤。
如果当前时刻不在质量监控时间段内,则直接输出当前近似处理结果,而不必执行其他步骤,可以减少流数据近似处理的开销。
相应于上面的方法实施例,本发明实施例还提供了一种在线流数据近似处理质量控制装置,下文描述的一种在线流数据近似处理质量控制装置与上文描述的一种在线流数据近似处理质量控制方法可相互对应参照。
请参考图3,该装置包括以下模块:
采样策略确定模块201,用于确定针对当前数据处理窗口的流数据的采样策略;
采样数据获得模块202,用于根据采样策略,对流数据进行采样,获得采样数据;
近似处理结果获得模块203,用于对采样数据进行近似处理,获得当前近似处理结果;
误差分析模块204,用于根据预先获得的用户需求和当前近似处理结果,进行误差分析,得到误差值;
误差判断模块205,用于判断误差值是否小于或等于预设误差阈值;
输出模块206,用于当误差值小于或等于预设误差阈值时,输出当前近似处理结果;
误差校正模块207,用于当误差值大于预设误差阈值时,进行误差校正。
应用本发明实施例所提供的装置,首先确定针对当前数据处理窗口的流数据的采样策略,根据采样策略,对流数据进行采样,获得采样数据,然后对采样数据进行近似处理,获得当前近似处理结果,根据预先获得的用户需求和当前近似处理结果,进行误差分析,得到误差值,判断误差值是否小于或等于预设误差阈值,如果是,则输出当前近似处理结果,如果否,则进行误差校正。在输出当前近似处理结果之前,先对当前近似处理结果进行误差分析,当近似处理结果的误差大于误差阈值时,进行误差校正,当近似处理结果小于或等于误差阈值时,输出当前近似处理结果,提高了流数据的近似处理结果的质量。
在本发明的一种具体实施方式中,误差分析模块204,具体用于:
若用户需求为针对最大误差的需求,则针对当前数据处理窗口对应的近似处理结果进行误差分析,得到误差值。
在本发明的一种具体实施方式中,误差分析模块204,具体用于:
若用户需求为针对平均误差的需求,则获得当前数据处理窗口临近的N个数据处理窗口对应的历史近似处理结果,N为正整数;
根据历史近似处理结果和当前近似处理结果,进行误差分析,得到误差值。
在本发明的一种具体实施方式中,误差校正模块207,具体用于:
判断误差值是否为针对当前数据处理窗口进行第一次误差分析所得的误差值;
如果是,则触发采样数据获得模块202。
在本发明的一种具体实施方式中,还包括采样策略调整模块,用于:
在判断误差值非针对当前数据处理窗口进行第一次误差分析所得的误差值时,调整采样策略。
在本发明的一种具体实施方式中,还包括质量监控判断模块,用于:
判断当前时刻是否在预设的质量监控时间段内;
如果是,则触发误差分析模块204。
在本发明的一种具体实施方式中,质量监控判断模块,还用于:
在当前时刻不在质量监控时间段内时,直接输出当前近似处理结果。
为便于理解,以利用本发明实施例所提供的技术方案进行的系列实验进行说明。
在本系列实验中,使用在线误差检测程序进行误差控制,误差检测策略可以参照本发明实施例提供的一种在线流数据近似处理质量控制方法的步骤S104至步骤S107。
通过预先获得的数据集模拟在线流数据处理应用,图4为本发明实施例中一种流数据的数据分布图,该数据文件以bzip2压缩类型存储,大小为12.6GB。该数据集以XML(eXtensible Markup Language,可扩展标记语言)形式记录了网页信息,读入该文件流,对数据集中网页的长度大小(字节bytes)进行分析。在每个数据处理窗口中设置在线误差检测程序。
本系统实验根据用户不同种类的需求,分别测试在平均和最大误差要求下各数据处理窗口采样计算的误差值。数据处理窗口大小分为2000和4000,数据处理窗口大小具体指每次处理的数据项数。由于系统会为用户实时返回查询结果,因此在对数据进行在线处理时,统计整体的误差和每个数据处理窗口下的误差。
实验一、分别利用随机采样算法和分层随机采样算法的采样策略,得到最后整体的误差大小如表1所示:
采样率 | 0.01 | 0.05 | 0.1 | 0.2 | 0.3 |
分层随机采样算法2000(%) | 5.6385 | 1.8278 | 0.6881 | 0.3030 | 0.1887 |
随机采样算法2000(%) | 6.6861 | 2.5303 | 1.0745 | 0.4727 | 0.3406 |
表1
从上表1中,可以得知,在相同条件下,分层随机采样算法的误差比随机分层采样算法的误差小,可以推出,分层随机采样算法明显优于随机采样算法。
在接下来的实验中,在采样阶段并行使用分层随机采样算法产生两个样本集进行比较。
实验二、对于平均误差需求,首先设置|window|=5,比较多个数据处理窗口处理的结果的平均误差如表2所示:
误差阈值(Δ) | 30 | 50 | 80 | 100 | 200 |
窗口大小2000(%) | 8.5272 | 9.6209 | 10.9134 | 11.2466 | 12.2904 |
窗口大小4000(%) | 7.4944 | 8.9266 | 9.3936 | 9.9036 | 11.2858 |
表2
当误差阈值Δ设置较小时,对误差的要求就很高,相对应产生的结果精度就越高。如上表所示,当误差阈值Δ=30、数据处理窗口大小为2000时,平均误差约为8.5272%;而当增加误差阈值Δ到200时,计算网页平均值的误差约为12.2904%。
当误差阈值Δ从30增加到200时,最后统计出所产生的平均误差也在逐渐增大,这种现象验证了近似输出误差控制策略的效果。每次检测最近五个数据处理窗口的结果,当两个样本集的近似值大于误差阈值Δ时,则会重新进行采样。因此,越小的Δ则说明对输出结果的要求越严格,最终产生的结果则会越精确。
实验三、假设用户提出返回的实时结果要满足一定的最大误差约束,设置误差阈值Δ分别为30,50,80,100,200,令,|window|=1,即比较当前数据处理窗口的流数据的当前近似处理结果与误差阈值,得到如表3所示的针对最大误差的误差:
误差阈值(Δ) | 30 | 50 | 80 | 100 | 200 |
窗口大小2000(%) | 8.7729 | 9.2060 | 10.0202 | 11.5643 | 14.5708 |
窗口大小4000(%) | 7.7994 | 8.3757 | 9.3527 | 10.5840 | 13.2013 |
表3
在对当前数据处理窗口的流数据进行采样计算后,误差控制策略便会输出对比结果即误差值。如果当前数据处理窗口输出的误差值超过预设阈值Δ,则需对该当前数据处理窗口的流数据进行重新采样来校正误差。与测量平均误差需求结果相似,当放宽误差检测的标准,即将误差阈值Δ的具体数值从30增加到200的过程中,统计结果的平均误差精度也随之逐渐减小。
表3中同一行数据,反映了误差检测方法对计算结果精度的提高,同一列数据则体现不同数据处理窗口大小对近似处理结果的影响。从表3中的两组数据可得出,本发明提出的技术方案能够提高输出结果的质量,对近似计算产生的较大误差可以做出误差校正。
实验四、为进一步验证本发明实施例的技术方案,测试不同采样率下的数据处理窗口产生的平均误差大小。分别设置采样率为0.05和0.1,数据处理窗口大小为2000,比较不同条件下的误差,具体实验数据如表4所示:
表4
从上表4中可以看出,当采样率越大时,计算的结果越准确。不同采样率,在误差阈值的变化趋势相同时,得到的误差值具有相同的变化趋势,数据处理窗口产生的平均误差随着误差阈值Δ的增大而增大。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的技术方案及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
Claims (9)
1.一种在线流数据近似处理质量控制方法,其特征在于,包括:
确定针对当前数据处理窗口的流数据的采样策略;
根据所述采样策略,对所述流数据进行采样,获得采样数据;
对所述采样数据进行近似处理,获得当前近似处理结果;
根据预先获得的用户需求和所述当前近似处理结果,进行误差分析,得到误差值;
判断所述误差值是否小于或等于预设误差阈值;
如果是,则输出所述当前近似处理结果;
如果否,则进行误差校正;
其中,所述进行误差校正,包括:
判断所述误差值是否为针对所述当前数据处理窗口进行第一次误差分析所得的误差值;
如果是,则重复执行所述根据所述采样策略,对所述流数据进行采样,获得采样数据的步骤。
2.根据权利要求1所述的在线流数据近似处理质量控制方法,其特征在于,所述根据预先获得的用户需求和所述当前近似处理结果,进行误差分析,得到误差值,包括:
若所述用户需求为针对最大误差的需求,则针对所述当前数据处理窗口对应的近似处理结果进行误差分析,得到误差值。
3.根据权利要求1所述的在线流数据近似处理质量控制方法,其特征在于,所述根据预先获得的用户需求和所述当前近似处理结果,进行误差分析,得到误差值,包括:
若所述用户需求为针对平均误差的需求,则获得所述当前数据处理窗口临近的N个数据处理窗口对应的历史近似处理结果,所述N为正整数;
根据所述历史近似处理结果和所述当前近似处理结果,进行误差分析,得到误差值。
4.根据权利要求3所述的在线流数据近似处理质量控制方法,其特征在于,在判断所述误差值非针对所述当前数据处理窗口进行第一次误差分析所得的误差值时,还包括:
调整所述采样策略。
5.根据权利要求1至4之中任一项所述的在线流数据近似处理质量控制方法,其特征在于,在所述根据预先获得的用户需求和所述当前近似处理结果,进行误差分析,得到误差值之前,还包括:
判断当前时刻是否在预设的质量监控时间段内;
如果是,则执行所述根据预先获得的用户需求和所述当前近似处理结果,进行误差分析,得到误差值的步骤。
6.根据权利要求5所述的在线流数据近似处理质量控制方法,其特征在于,在所述当前时刻不在所述质量监控时间段内时,还包括:
直接输出所述当前近似处理结果。
7.一种在线流数据近似处理质量控制装置,其特征在于,包括:
采样策略确定模块,用于确定针对当前数据处理窗口的流数据的采样策略;
采样数据获得模块,用于根据所述采样策略,对所述流数据进行采样,获得采样数据;
近似处理结果获得模块,用于对所述采样数据进行近似处理,获得当前近似处理结果;
误差分析模块,用于根据预先获得的用户需求和所述当前近似处理结果,进行误差分析,得到误差值;
误差判断模块,用于判断所述误差值是否小于或等于预设误差阈值;
输出模块,用于当所述误差值小于或等于预设误差阈值时,输出所述当前近似处理结果;
误差校正模块,用于当所述误差值大于预设误差阈值时,判断所述误差值是否为针对所述当前数据处理窗口进行第一次误差分析所得的误差值;如果是,则重复执行所述根据所述采样策略,对所述流数据进行采样,获得采样数据的步骤。
8.根据权利要求7所述的在线流数据近似处理质量控制装置,其特征在于,还包括质量监控判断模块,用于:
在所述根据预先获得的用户需求和所述当前近似处理结果,进行误差分析,得到误差值之前,判断当前时刻是否在预设的质量监控时间段内;
如果是,则触发所述误差分析模块。
9.根据权利要求8所述的在线流数据近似处理质量控制装置,其特征在于,所述质量监控判断模块,还用于:
在所述当前时刻不在所述质量监控时间段内时,直接输出所述当前近似处理结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710701336.4A CN107436954B (zh) | 2017-08-16 | 2017-08-16 | 一种在线流数据近似处理质量控制方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710701336.4A CN107436954B (zh) | 2017-08-16 | 2017-08-16 | 一种在线流数据近似处理质量控制方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107436954A CN107436954A (zh) | 2017-12-05 |
CN107436954B true CN107436954B (zh) | 2018-10-02 |
Family
ID=60461371
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710701336.4A Expired - Fee Related CN107436954B (zh) | 2017-08-16 | 2017-08-16 | 一种在线流数据近似处理质量控制方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107436954B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110782550B (zh) * | 2019-09-20 | 2021-08-31 | 腾讯科技(深圳)有限公司 | 一种数据采集方法、装置及设备 |
CN114325553A (zh) * | 2021-12-22 | 2022-04-12 | 杭州明特科技有限公司 | 一种电能表自热误差校正方法、装置、电能表和存储介质 |
CN114708096A (zh) * | 2022-03-30 | 2022-07-05 | 蚂蚁区块链科技(上海)有限公司 | 基于智能合约的计算、更新、读取方法及装置、电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1263327A (zh) * | 1999-02-09 | 2000-08-16 | 索尼公司 | 数据处理方法和装置 |
CN101247526A (zh) * | 2008-03-18 | 2008-08-20 | 天津大学 | 基于数字电视码流的音量均衡调整及其应用方法 |
CN102798384A (zh) * | 2012-07-03 | 2012-11-28 | 天津大学 | 一种基于压缩采样的海洋遥感图像水色水温监测方法 |
CN103236825A (zh) * | 2013-03-22 | 2013-08-07 | 中国科学院光电技术研究所 | 一种用于高精度数据采集系统的数据校正方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101908065B (zh) * | 2010-07-27 | 2012-05-23 | 浙江大学 | 一种支持动态更新的在线属性异常点检测方法 |
US9152688B2 (en) * | 2013-03-08 | 2015-10-06 | International Business Machines Corporation | Summarizing a stream of multidimensional, axis-aligned rectangles |
CN106997303B (zh) * | 2017-04-10 | 2020-07-17 | 中国人民解放军国防科学技术大学 | 基于MapReduce的大数据近似处理方法 |
-
2017
- 2017-08-16 CN CN201710701336.4A patent/CN107436954B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1263327A (zh) * | 1999-02-09 | 2000-08-16 | 索尼公司 | 数据处理方法和装置 |
CN101247526A (zh) * | 2008-03-18 | 2008-08-20 | 天津大学 | 基于数字电视码流的音量均衡调整及其应用方法 |
CN102798384A (zh) * | 2012-07-03 | 2012-11-28 | 天津大学 | 一种基于压缩采样的海洋遥感图像水色水温监测方法 |
CN103236825A (zh) * | 2013-03-22 | 2013-08-07 | 中国科学院光电技术研究所 | 一种用于高精度数据采集系统的数据校正方法 |
Non-Patent Citations (1)
Title |
---|
面向时间序列的阈值近似压缩处理技术;赵阳;《中国优秀硕士学位论文全文数据库》;20140715(第2014年第07期);I136-103 * |
Also Published As
Publication number | Publication date |
---|---|
CN107436954A (zh) | 2017-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109558295B (zh) | 一种性能指标异常检测方法及装置 | |
CN107436954B (zh) | 一种在线流数据近似处理质量控制方法及装置 | |
CN104102836B (zh) | 一种电力系统快速抗差状态估计方法 | |
CN114567396B (zh) | 无线通信方法、非线性函数的拟合方法、终端及设备 | |
CN109460775B (zh) | 一种基于信息熵的数据填充方法及装置 | |
CN103970879B (zh) | 一种调整数据块存储位置的方法及系统 | |
CN107509155B (zh) | 一种阵列麦克风的校正方法、装置、设备及存储介质 | |
CN109886736A (zh) | 用于dsp平台的预算数据处理方法及装置、存储介质、终端 | |
CN115086060A (zh) | 一种流量检测方法、装置、设备及可读存储介质 | |
CN108205713B (zh) | 一种区域风电功率预测误差分布确定方法和装置 | |
CN117336216A (zh) | 一种基于滑动窗口的流基数测量方法及系统 | |
CN110287048A (zh) | 数据异常检测方法和装置 | |
CN109614074B (zh) | 基于概率转移矩阵模型的近似加法器可靠度计算方法 | |
WO2019214204A1 (zh) | 灯丝电流控制方法及装置 | |
CN109388858B (zh) | 基于头脑风暴优化算法的非线性传感器校正方法 | |
CN112346867B (zh) | 一种滑动窗口的配置方法、装置、计算机设备及存储介质 | |
WO2021115039A1 (zh) | Fpga平台及其性能评估与设计优化的方法、存储介质 | |
CN110231772B (zh) | 一种获取过程模型的方法、装置及设备 | |
CN108614841A (zh) | 时间间隔的调整方法和装置 | |
WO2021238521A1 (zh) | 基于非易失存储器的存储和数据处理方法、装置及设备 | |
CN110020000B (zh) | 判定异常风速数据的方法和装置 | |
CN107517273B (zh) | 数据迁移的方法、系统、计算机可读存储介质及服务器 | |
KR20210075361A (ko) | 초음파 가스미터 특성 커브 교정 방법 | |
CN106961398B (zh) | 一种分布式文件系统的带宽控制方法及装置 | |
CN102801624B (zh) | 一种网络数据流抽样方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20181002 Termination date: 20190816 |