CN107480249B - 海量信息的评级方法、设备以及系统 - Google Patents
海量信息的评级方法、设备以及系统 Download PDFInfo
- Publication number
- CN107480249B CN107480249B CN201710687143.8A CN201710687143A CN107480249B CN 107480249 B CN107480249 B CN 107480249B CN 201710687143 A CN201710687143 A CN 201710687143A CN 107480249 B CN107480249 B CN 107480249B
- Authority
- CN
- China
- Prior art keywords
- information
- data
- rating
- mass information
- mass
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Fuzzy Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种海量信息的评级方法、设备以及系统,涉及数据处理技术领域。所述方法包括获取待评级的海量信息;根据预先设定的标志位对所述海量信息进行数据清洗;对数据清洗后的海量信息计算特征值、置信区间、平滑度以及异常点聚集度;根据计算结果确定出所述海量信息的评级结果。本发明运用了各类数学统计工具,对数据进行综合计算,并量化分析结果,完成信息的自动化评级,最终实现有效的针对海量数据进行自动化评级,评级得分较高的信息将更加具有分析价值。
Description
技术领域
本发明关于数据处理技术领域,特别是关于海量数据的分析挖掘技术,具体的讲是一种海量信息的评级方法、海量信息的评级设备、海量信息的评级系统、计算机设备以及计算机可读存储介质。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
在信息化时代的高速发展下,各企业的数据信息急剧膨胀。因此,如何对海量数据进行利用成为一个十分重要的课题,诸如如何准确高效的从丰富而膨胀的海量数据中筛选出对企业风险评估、经营决策等有指导意义的信息。
但是,由于企业的数据信息量极大,人为对数据进行分析已经无法满足数据量的急剧膨胀。目前,一般对全量的数据进行数据挖掘分析,或者根据一定的区间或其它属性选择一个子集来进行数据挖掘分析。对全量数据进行挖掘分析需要消耗大量的资源与时间,而对一个数据子集进行数据挖掘分析必定不能得到全面的有价值信息或分析获得的信息准确性有偏差。
因此,如何提供一种新的方案,其能够解决上述技术问题是本领域亟待解决的技术难题。
发明内容
有鉴于此,本发明提供了一种海量信息的评级方法、海量信息的评级设备、海量信息的评级系统、计算机设备以及计算机可读存储介质,实现了有效的针对海量数据进行自动化评级,评级得分较高的信息将更加具有分析价值,后续分析人员可以仅查看信息评级分数较高的信息,或者对信息评分较高的信息再利用数据挖掘分析工具进行分析获取所需加工信息,而忽略信息评级分数较低的信息,从而大大提高了系统的处理效率。
为了实现上述目的,本发明提供了一种海量信息的评级方法,所述方法包括:
获取待评级的海量信息;
根据预先设定的标志位对所述海量信息进行数据清洗;
对数据清洗后的海量信息计算特征值、置信区间、平滑度以及异常点聚集度;
根据计算结果确定出所述海量信息的评级结果;
在根据预先设定的标志位对所述海量信息进行数据清洗之后,所述方法还包括:根据标志位的情况,修改状态机的状态;所述状态机用于存储当前数据的清洗状态,所述状态机的状态包括可被读取和修改。
在本发明的优选实施方式中,所述标志位为数据特征的阈值集合,根据预先设定的标志位对所述海量信息进行数据清洗包括:根据所述数据特征的阈值集合对所述海量信息中的数据行进行判断,筛选出满足所述阈值集合的信息,形成数据清洗后的海量信息。
在本发明的优选实施方式中,对数据清洗后的海量信息计算特征值、置信区间、平滑度以及异常点聚集度包括:
对数据清洗后的海量信息中缺失时刻的值补零;
对数据清洗后的海量信息中的报警信息从值域维度进行标准化预处理;
计算所述海量信息的特征值,所述特征值包括极值、期望值以及标准差;
计算所述海量信息中报警信息的置信区间;
利用一阶震荡能量泛函计算所述海量信息的平滑度;
计算置信区间之外的所述海量信息中异常点的聚集度。
在本发明的优选实施方式中,根据计算结果确定出所述海量信息的评级结果包括:
分别对所述特征值、置信区间、平滑度以及聚集度进行信息评级,输出所述海量信息的评级结果。
在本发明的优选实施方式中,所述方法还包括:
展示所述海量信息的评级结果;存储所述评级结果以及所述海量信息。
本发明的目的之一是,提供了一种海量信息的评级设备,所述设备包括:
信息获取装置,用于获取待评级的海量信息;
信息清洗装置,用于根据预先设定的标志位对所述海量信息进行数据清洗;
信息计算装置,用于对数据清洗后的海量信息计算特征值、置信区间、平滑度以及异常点聚集度;
信息评级装置,用于根据计算结果确定出所述海量信息的评级结果;
其中,所述信息清洗装置还用于根据标志位的情况,修改状态机的状态;所述状态机用于存储当前数据的清洗状态,所述状态机的状态包括可被读取和修改。
在本发明的优选实施方式中,所述标志位为数据特征的阈值集合,所述信息清洗装置用于根据所述数据特征的阈值集合对所述海量信息中的数据行进行判断,筛选出满足所述阈值集合的信息,形成数据清洗后的海量信息。
在本发明的优选实施方式中,所述信息计算装置包括:缺失时刻补零模块,用于对数据清洗后的海量信息中缺失时刻的值补零;
信息预处理模块,用于对数据清洗后的海量信息中的报警信息从值域维度进行标准化预处理;
特征值计算模块,用于计算所述海量信息的特征值,所述特征值包括极值、期望值以及标准差;
置信区间计算模块,用于计算所述海量信息中报警信息的置信区间;
平滑度计算模块,用于利用一阶震荡能量泛函计算所述海量信息的平滑度;
聚集度计算模块,用于计算置信区间之外的所述海量信息中异常点的聚集度。
在本发明的优选实施方式中,所述信息评级装置用于分别对所述特征值、置信区间、平滑度以及聚集度进行信息评级,输出所述海量信息的评级结果。
在本发明的优选实施方式中,所述设备还包括:评级结果展示装置,用于展示所述海量信息的评级结果;信息存储装置,用于存储所述评级结果以及所述海量信息。
本发明的目的之一是,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述海量信息的评级方法。
本发明的目的之一是,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有执行所述海量信息的评级方法。
本发明的有益效果在于,提供了一种海量信息的评级方法、海量信息的评级设备、海量信息的评级系统、计算机设备以及计算机可读存储介质,运用了各类数学统计工具,对数据进行综合计算,并量化分析结果,完成信息的自动化评级,最终实现有效的针对海量数据进行自动化评级,评级得分较高的信息将更加具有分析价值。利用此系统,分析人员可以仅查看信息评级分数较高的信息,或者对信息评分较高的信息再利用数据挖掘分析工具进行分析获取所需加工信息,而忽略信息评级分数较低的信息,从而大大提高了系统的处理效率。
为让本发明的上述和其他目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附图式,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种海量信息的评级设备的结构示意图;
图2为本发明实施例提供的一种海量信息的评级设备中信息计算装置的结构框图;
图3为本发明实施例提供的一种海量信息的评级设备的实施方式二的结构框图;
图4为本发明实施例提供的一种海量信息的评级方法的流程图;
图5为图4中的步骤S103的具体流程图;
图6为本发明实施例提供的一种海量信息的评级方法的实施方式二的流程图;
图7为本发明提供的具体实施例中海量数据的自动化评级的流程示意图;
图8位本发明提供的具体实施例中信息分布的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本领域技术技术人员知道,本发明的实施方式可以实现为一种系统、装置、方法或计算机程序产品。因此,本发明公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
下面参考本发明的若干代表性实施方式,详细阐释本发明的原理和精神。
现有技术中企业的数据信息量极大,一般对全量的数据进行数据挖掘分析,或者根据一定的区间或其它属性选择一个子集来进行数据挖掘分析。对全量数据进行挖掘分析需要消耗大量的资源与时间,而对一个数据子集进行数据挖掘分析必定不能得到全面的有价值信息或分析获得的信息准确性有偏差。
有鉴于此,本发明提供一种海量信息的评级方法、海量信息的评级设备、海量信息的评级系统、计算机设备以及计算机可读存储介质,最终实现对海量信息的评级,后续信息处理人员重点关注有价值的数据,摒弃数据价值较低的数据,实现快速化的海量数据分析,快速获取数据价值。
图1为本发明实施例提供的一种海量信息的评级设备的结构示意图,请参阅图1,本发明提供的评级设备包括:
信息获取装置100,用于获取待评级的海量信息;
信息清洗装置200,用于根据预先设定的标志位对所述海量信息进行数据清洗。在本发明的一种实施方式中,所述标志位为数据特征的阈值集合,因此信息清洗装置200根据所述数据特征的阈值集合对所述海量信息中的数据行进行判断,筛选出满足所述阈值集合的信息,形成数据清洗后的海量信息。也即,根据事先定义好的标志位,对海量信息中的数据行进行判断,符合条件的数据行将保留,标志位即为对应该数据特征的阈值集合,超过阈值的数据被过滤掉。
在本发明的其他实施方式中,信息清洗装置200还可用于根据标志位的情况,修改状态机的状态。状态机用于存储当前数据的清洗状态,状态机的状态包括可被读取和修改。
在本发明的其他实施方式中,信息清洗装置200还可用于根据预定的规则,将需要修改的数据行内容进行修改。
信息计算装置300,用于对数据清洗后的海量信息计算特征值、置信区间、平滑度以及异常点聚集度。图2为信息计算装置的结构框图,请参阅图2,信息计算装置300包括:
缺失时刻补零模块301,用于对数据清洗后的海量信息中缺失时刻的值补零,即将读取的数据进行预处理,补齐缺失时刻的值,缺失值默认补零。
信息预处理模块302,用于对数据清洗后的海量信息中的报警信息从值域维度进行标准化预处理。
特征值计算模块303,用于计算所述海量信息的特征值,所述特征值包括极值、期望值以及标准差。在具体的实施方式中,可以计算某类信息在时域范围的平均发生次数(期望值),计算某类信息在时域范围的发生次数的振幅均值(标准差)。
置信区间计算模块304,用于计算所述海量信息中报警信息的置信区间。
在具体的实施方式中,在给定时域范围内,计算报警信息的置信区间。一般取95%的置信区间。假定报警信息服从正态分布,其95%置信区间为[μ-2σ,μ+2σ]。这里μ为报警信息的期望,σ为计算所得的标准差。
平滑度计算模块305,用于利用一阶震荡能量泛函计算所述海量信息的平滑度。
基于一阶偏差,计算某类信息在时域范围内发生次数的震荡能量泛函。该能量刻画了某一报警信息在时域范围内的震荡情况。假定某信息经过预处理与标准化之后,其分布列为X=[x1,x2,...,xn],其一阶震荡能量泛函定义为:直观上看,在分布曲线比较平滑的时候该值相对较小,如果振幅较大,则该值相对较大。
聚集度计算模块306,用于计算置信区间之外的所述海量信息中异常点的聚集度。由于置信区间计算模块304计算出置信区间,提取出分布在置信区间之外的异常点信息,对异常点进行聚集度分析,分析其聚集程度。对于不同的聚集度,分别对其进行评级。
请参阅图1,海量信息的评级设备还包括:信息评级装置400,用于根据计算结果确定出所述海量信息的评级结果。该装置实现了对于信息评级模型的建立,分别对所述特征值、置信区间、平滑度以及聚集度进行信息评级,输出所述海量信息的评级结果。
在本发明的具体实施例中,数据价值较高的数据(也即评级结果分数较高的数据)应当满足下面几个条件:
1.数据极值和数据期望的比值越大,则说明数据波动较大,信息评级分数应相应提高。
2.一阶震荡能量泛函结果越小,说明数据在整体区间范围内的平滑性越好,信息评级分数应相应提高。
3.在95%置信区间外的信息量在大于0的前提下,信息量越少,说明信息的偶发现象越严重,信息评级分数应相应提高。
4.在95%置信区间外的信息量密集程度越高,说明信息在整体空间分布上越不均匀,信息凭积分数应相应提高。
信息分布的一个示例如图8所示。
图3为本发明实施例提供的一种海量信息的评级设备的实施方式二的结构框图,请参阅图3,所述海量信息的评级设备在实施方式二中还包括:
评级结果展示装置500,用于展示所述海量信息的评级结果。在具体的实施方式中,评级结果展示装置500可将获取的海量信息的评级结果缓存,以便集中展示输出。后续相关工作人员根据展示出的评级结果则可集中分析评级分数较高的数据。
信息存储装置600,用于存储所述评级结果以及所述海量信息。在具体的实施方式中,信息存储装置600可根据具体数据分配物理存储方案。具体的,首先确定数据的读取与写入权限是否合法,然后负责分布式数据的写入以及读取。优选的,信息存储装置还可以存储分布式数据的数据字典,统计分布式存储中的数据、容量、速度等信息。
如上即是本发明提供的一种海量信息的评级设备,信息存储装置主要完成数据的分布式存放与IO操作,权限控制的功能,信息清洗装置完成数据分类标志位的判定,数据缓存、修改与数据输出,信息计算装置主要完成数据的计算工作,信息评级装置主要完成数据的自动化评级工作,评级结果展示装置主要完成信息的输出展示等功能,最终完成信息的自动化评级,后续信息处理人员可以根据评级结果重点关注有价值的数据,摒弃数据价值较低的数据,实现快速化的海量数据分析,快速获取数据价值。
此外,尽管在上文详细描述中提及了系统的若干单元模块,但是这种划分仅仅并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。同样,上文描述的一个单元的特征和功能也可以进一步划分为由多个单元来具体化。以上所使用的术语“模块”和“单元”,可以是实现预定功能的软件和/或硬件。尽管以下实施例所描述的模块较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
在介绍了本发明示例性实施方式的设备以及客户端的海量信息的评级系统之后,接下来,参考附图对本发明示例性实施方式的方法进行介绍。该方法的实施可以参见上述整体的实施,重复之处不再赘述。
图4为本发明实施例提供的一种海量信息的评级方法的流程图,请参阅图4,该方法包括:
S101:获取待评级的海量信息。
S102:根据预先设定的标志位对所述海量信息进行数据清洗。
在本发明的一种实施方式中,所述标志位为数据特征的阈值集合,因此该步骤根据所述数据特征的阈值集合对所述海量信息中的数据行进行判断,筛选出满足所述阈值集合的信息,形成数据清洗后的海量信息。也即,根据事先定义好的标志位,对海量信息中的数据行进行判断,符合条件的数据行将保留,标志位即为对应该数据特征的阈值集合,超过阈值的数据被过滤掉。
在本发明的其他实施方式中,该步骤还可用于根据标志位的情况,修改状态机的状态。状态机用于存储当前数据的清洗状态,状态机的状态包括可被读取和修改。
在本发明的其他实施方式中,还步骤还可用于根据预定的规则,将需要修改的数据行内容进行修改。
S103:对数据清洗后的海量信息计算特征值、置信区间、平滑度以及异常点聚集度。
图5为步骤S103的具体流程图,请参阅图5,该步骤包括:
S201:对数据清洗后的海量信息中缺失时刻的值补零,即将读取的数据进行预处理,补齐缺失时刻的值,缺失值默认补零。
S202:对数据清洗后的海量信息中的报警信息从值域维度进行标准化预处理。
S203:计算所述海量信息的特征值,所述特征值包括极值、期望值以及标准差。在具体的实施方式中,可以计算某类信息在时域范围的平均发生次数(期望值),计算某类信息在时域范围的发生次数的振幅均值(标准差)。
S204:计算所述海量信息中报警信息的置信区间。
在具体的实施方式中,在给定时域范围内,计算报警信息的置信区间。一般取95%的置信区间。假定报警信息服从正态分布,其95%置信区间为[μ-2σ,μ+2σ]。这里μ为报警信息的期望,σ为计算所得的标准差。
S205:利用一阶震荡能量泛函计算所述海量信息的平滑度。
基于一阶偏差,计算某类信息在时域范围内发生次数的震荡能量泛函。该能量刻画了某一报警信息在时域范围内的震荡情况。假定某信息经过预处理与标准化之后,其分布列
曲线比较平滑的时候该值相对较小,如果振幅较大,则该值相对较大。
S206:计算置信区间之外的所述海量信息中异常点的聚集度。由于步骤S204计算出置信区间,提取出分布在置信区间之外的异常点信息,对异常点进行聚集度分析,分析其聚集程度。对于不同的聚集度,分别对其进行评级。
请参阅图4,海量信息的评级方法还包括:
S104:根据计算结果确定出所述海量信息的评级结果。该步骤在本发明的具体实施例中,实现了对于信息评级模型的建立,分别对所述特征值、置信区间、平滑度以及聚集度进行信息评级,输出所述海量信息的评级结果。
数据价值较高的数据(也即评级结果分数较高的数据)应当满足下面几个条件:
1.数据极值和数据期望的比值越大,则说明数据波动较大,信息评级分数应相应提高。
2.一阶震荡能量泛函结果越小,说明数据在整体区间范围内的平滑性越好,信息评级分数应相应提高。
3.在95%置信区间外的信息量在大于0的前提下,信息量越少,说明信息的偶发现象越严重,信息评级分数应相应提高。
4.在95%置信区间外的信息量密集程度越高,说明信息在整体空间分布上越不均匀,信息凭积分数应相应提高。信息分布的一个示例如图8所示。
图6为本发明实施例提供的一种海量信息的评级方法的实施方式二的流程图,请参阅图6,所述海量信息的评级方法在实施方式二中还包括:
S105:展示所述海量信息的评级结果。在具体的实施方式中,该步骤可将获取的海量信息的评级结果缓存,以便集中展示输出。后续相关工作人员根据展示出的评级结果则可集中分析评级分数较高的数据。
S106:存储所述评级结果以及所述海量信息。在具体的实施方式中,该步骤可根据具体数据分配物理存储方案。具体的,首先确定数据的读取与写入权限是否合法,然后负责分布式数据的写入以及读取。优选的,信息存储装置还可以存储分布式数据的数据字典,统计分布式存储中的数据、容量、速度等信息。
如上即是本发明提供的一种海量信息的评级方法,实现了信息的自动化评级,后续信息处理人员可以根据评级结果重点关注有价值的数据,摒弃数据价值较低的数据,实现快速化的海量数据分析,快速获取数据价值。
本发明还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述海量信息的评级方法。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有执行所述海量信息的评级方法。
下面通过本发明提供的具体实施例,结合本发明的附图,详细介绍本发明的技术方案。图7为本发明提供的具体实施例中海量信息的评级方法的流程示意图,请参阅图7,在本发明中:
步骤S1,评级任务输入:得到新的信息评级任务。
步骤S2,评级任务:建立新的评级任务,首先进行评级任务所需信息的数据请求。
步骤S3,数据提供:将评级任务所需数据读出,进行数据筛选,筛选后的数据进入数据清洗步骤。
步骤S4,数据清洗:判断是否需要进行数据清洗,需要清洗的数据在清洗后传输至数据标准化。
步骤S5,数据标准化:下送的数据,首先进行标准化,将数据的振幅进行标准化后,下送给各计算单元分别计算。
步骤S6,特征计算:对数据的基本特征进行计算,包括极值,期望,标准差等内容。计算结果存储至信息评级。
步骤S7,置信区间计算:对数据分布的置信区间范围进行计算,明确95%置信区间范围。计算结果存储至信息评级。
步骤S8,平滑度计算:利用一阶震荡能量泛函对曲线的平滑程度进行计算。计算结果存储至信息评级。
步骤S9,异常点聚集度计算:对置信区间外异常点的聚集程度进行计算。计算结果存储至信息评级。
步骤S10,信息评级:对上述计算进行信息评级,给出评级结果,并将结果下送。
步骤S11,输出展示:将分析输出展示。
本发明解决了在海量数据的最初分析阶段,需要投入大量人力物力来进行底层的基础数据筛选的问题,利用大量数学统计模型对数据进行量化分析,给出量化后的评级结果。向数据分析人员展现哪些数据的分析价值较高,显著减少了海量数据的分析时间和人力成本。海量数据的价值在最短的时间内得到了最大的发挥。
本发明建立了较为完善的信息评级数学模型,利用分布式计算等功能,能廉价、快速的对数据进行初筛选。和分析人员的经验相互配合,达到了快速进行海量数据分析的目标。
对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(ProgrammableLogic Device,PLD)(例如现场可编程门阵列(Field Programmable Gate Array,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logiccompiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware DescriptionLanguage,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced BooleanExpression Language)、AHDL(Altera Hardware Description Language)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java HardwareDescriptionLanguage)、Lava、Lola、MyHDL、PALASM、RHDL(Ruby Hardware DescriptionLanguage)等,目前最普遍使用的是VHDL(Very-High-Speed Integrated CircuitHardware Description Language)与Verilog2。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。
本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机系统(可以是个人计算机,服务器,或者网络系统等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持系统或便携式系统、平板型系统、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子系统、网络PC、小型计算机、大型计算机、包括以上任何系统或系统的分布式计算环境等等。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理系统来执行任务。在分布式计算环境中,程序模块可以位于包括存储系统在内的本地和远程计算机存储介质中。
虽然通过实施例描绘了本申请,本领域普通技术人员知道,本申请有许多变形和变化而不脱离本申请的精神,希望所附的权利要求包括这些变形和变化而不脱离本申请的精神。
Claims (10)
1.一种海量信息的评级方法,其特征是,所述方法包括:
获取待评级的海量信息;
根据预先设定的标志位对所述海量信息进行数据清洗,所述标志位为数据特征的阈值集合;
对数据清洗后的海量信息计算特征值、置信区间、平滑度以及异常点聚集度;
根据计算结果确定出所述海量信息的评级结果;
在根据预先设定的标志位对所述海量信息进行数据清洗之后,所述方法还包括:根据标志位的情况,修改状态机的状态;所述状态机用于存储当前数据的清洗状态,所述状态机的状态包括可被读取和修改;
对数据清洗后的海量信息计算特征值、置信区间、平滑度以及异常点聚集度包括:
对数据清洗后的海量信息中缺失时刻的值补零;
对数据清洗后的海量信息中的报警信息从值域维度进行标准化预处理;
计算所述海量信息的特征值,所述特征值包括极值、期望值以及标准差;
计算所述海量信息中报警信息的置信区间;
利用一阶震荡能量泛函计算所述海量信息的平滑度;
计算置信区间之外的所述海量信息中异常点的聚集度。
2.根据权利要求1所述的方法,其特征是,根据预先设定的标志位对所述海量信息进行数据清洗包括:根据所述数据特征的阈值集合对所述海量信息中的数据行进行判断,筛选出满足所述阈值集合的信息,形成数据清洗后的海量信息。
3.根据权利要求1所述的方法,其特征是,根据计算结果确定出所述海量信息的评级结果包括:
分别对所述特征值、置信区间、平滑度以及聚集度进行信息评级,输出所述海量信息的评级结果。
4.根据权利要求3所述的方法,其特征是,所述方法还包括:展示所述海量信息的评级结果;存储所述评级结果以及所述海量信息。
5.一种海量信息的评级设备,其特征是,所述设备包括:
信息获取装置,用于获取待评级的海量信息;
信息清洗装置,用于根据预先设定的标志位对所述海量信息进行数据清洗,所述标志位为数据特征的阈值集合;
信息计算装置,用于对数据清洗后的海量信息计算特征值、置信区间、平滑度以及异常点聚集度;
信息评级装置,用于根据计算结果确定出所述海量信息的评级结果;
其中,所述信息清洗装置还用于根据标志位的情况,修改状态机的状态;所述状态机用于存储当前数据的清洗状态,所述状态机的状态包括可被读取和修改;
所述信息计算装置包括:
缺失时刻补零模块,用于对数据清洗后的海量信息中缺失时刻的值补零;
信息预处理模块,用于对数据清洗后的海量信息中的报警信息从值域维度进行标准化预处理;
特征值计算模块,用于计算所述海量信息的特征值,所述特征值包括极值、期望值以及标准差;
置信区间计算模块,用于计算所述海量信息中报警信息的置信区间;
平滑度计算模块,用于利用一阶震荡能量泛函计算所述海量信息的平滑度;
聚集度计算模块,用于计算置信区间之外的所述海量信息中异常点的聚集度。
6.根据权利要求5所述的设备,其特征是,所述信息清洗装置用于根据所述数据特征的阈值集合对所述海量信息中的数据行进行判断,筛选出满足所述阈值集合的信息,形成数据清洗后的海量信息。
7.根据权利要求5所述的设备,其特征是,所述信息评级装置用于分别对所述特征值、置信区间、平滑度以及聚集度进行信息评级,输出所述海量信息的评级结果。
8.根据权利要求7所述的设备,其特征是,所述设备还包括:评级结果展示装置,用于展示所述海量信息的评级结果;信息存储装置,用于存储所述评级结果以及所述海量信息。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4任一所述方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行权利要求1至4任一所述方法的计算机程序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710687143.8A CN107480249B (zh) | 2017-08-08 | 2017-08-08 | 海量信息的评级方法、设备以及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710687143.8A CN107480249B (zh) | 2017-08-08 | 2017-08-08 | 海量信息的评级方法、设备以及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107480249A CN107480249A (zh) | 2017-12-15 |
CN107480249B true CN107480249B (zh) | 2020-09-11 |
Family
ID=60600114
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710687143.8A Active CN107480249B (zh) | 2017-08-08 | 2017-08-08 | 海量信息的评级方法、设备以及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107480249B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108897832B (zh) * | 2018-06-22 | 2021-09-03 | 申报家(广州)智能科技发展有限公司 | 一种自动分析价值信息的方法与装置 |
CN110322349B (zh) * | 2019-06-25 | 2023-08-22 | 创新先进技术有限公司 | 一种数据的处理方法、装置及设备 |
CN110457293A (zh) * | 2019-06-27 | 2019-11-15 | 国网新疆电力有限公司信息通信公司 | 基于标志位的数据处理方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202891A (zh) * | 2016-06-30 | 2016-12-07 | 电子科技大学 | 一种面向医疗质量评价的大数据挖掘方法 |
CN106778908A (zh) * | 2017-01-11 | 2017-05-31 | 湖南文理学院 | 一种新异类检测方法与装置 |
-
2017
- 2017-08-08 CN CN201710687143.8A patent/CN107480249B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202891A (zh) * | 2016-06-30 | 2016-12-07 | 电子科技大学 | 一种面向医疗质量评价的大数据挖掘方法 |
CN106778908A (zh) * | 2017-01-11 | 2017-05-31 | 湖南文理学院 | 一种新异类检测方法与装置 |
Also Published As
Publication number | Publication date |
---|---|
CN107480249A (zh) | 2017-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110708204B (zh) | 一种基于运维知识库的异常处理方法、系统、终端及介质 | |
CN106708016B (zh) | 故障监控方法和装置 | |
CN110351150B (zh) | 故障根源确定方法及装置、电子设备和可读存储介质 | |
CN107908672B (zh) | 基于Hadoop平台的应用报表实现方法、设备及存储介质 | |
US20180285417A1 (en) | Intelligent query parameterization of database workloads | |
CN110389842B (zh) | 一种动态资源分配方法、装置、存储介质及设备 | |
CN107480249B (zh) | 海量信息的评级方法、设备以及系统 | |
CN106354817B (zh) | 一种日志的处理方法及装置 | |
US9823298B2 (en) | Critical path architect | |
CN108171617A (zh) | 一种电网大数据分析方法及装置 | |
US20220391672A1 (en) | Multi-task deployment method and electronic device | |
CN113220551A (zh) | 指标趋势预测及预警方法、装置、电子设备及存储介质 | |
CN116827950A (zh) | 云资源的处理方法、装置、设备及存储介质 | |
CN107391365A (zh) | 一种面向软件缺陷预测的混合特征选择方法 | |
CN110908870A (zh) | 一种大型机的资源监控方法、装置、存储介质及设备 | |
WO2021067385A1 (en) | Debugging and profiling of machine learning model training | |
CN106407246B (zh) | Sql执行计划管理的方法及装置 | |
CN106649344A (zh) | 一种网络日志压缩方法和装置 | |
CN110543426A (zh) | 一种软件性能风险检测方法及装置 | |
CN105824279A (zh) | 机房监控系统构建灵活有效cmdb的方法 | |
CN117135034B (zh) | 一种用于告警智能收敛的规则分析筛选方法及装置 | |
CN117540718A (zh) | 一种基于文档对象模型的巡检结果智能统计方法 | |
CN114661571B (zh) | 模型评测方法、装置、电子设备和存储介质 | |
CN108780416B (zh) | 对复发处理的分析 | |
CN107247804B (zh) | 运维大数据分析方法、装置及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |