CN101782976A

CN101782976A - 一种云计算环境下机器学习自动选择方法

Info

Publication number: CN101782976A
Application number: CN201010017918A
Authority: CN
Inventors: 王汝传; 孔强; 任勋益; 付雄; 邓松; 易侃; 杨明慧; 蒋凌云; 邓勇
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University
Priority date: 2010-01-15
Filing date: 2010-01-15
Publication date: 2010-07-21
Anticipated expiration: 2030-01-15
Also published as: CN101782976B

Abstract

本发明是一种基于云计算环境的机器学习自主选择方法。通过使用云计算平台，用户无需搭建机器学习的运行环境，也无需选择机器学习算法，更不用调整纷繁复杂的机器学习函数及其附带的参数，只需使用Web方式上传样本数据，就能自动智能的建立符合实际问题的机器学习数学模型。本发明使机器学习的使用摆脱了环境的束缚，发挥了云计算平台的优势，使得机器学习建模针对用户透明，最大程度的降低了机器学习的使用门槛。解决了在实际应用机器学习时，建模选择的难以预测性、参数调整的人工经验性、普通用户困难等缺点。

Description

一种云计算环境下机器学习自动选择方法

技术领域

本发明是一种基于云计算环境的机器学习自主选择方法。通过使用云计算平台，使得用户无需搭建机器学习的运行环境，也无需学习机器学习算法，更不用调整纷繁复杂的机器学习函数及其参数，只需在云计算平台下，使用Web方式上传训练数据和预测测试数据，以及确定包括使用范围、期望域等很少的信息，就能得到所需要的多种机器学习模型及具体描述，以便解决实际问题。

背景技术

机器学习是继专家系统应用、人工智能应用后的又一重要应用，同时也是人工智能的一种核心研究课题。其目的是使计算机能够模拟或者实验人类的学习行为，从而获得知识或技能，同时可以不断根据新的信息改善性能。机器学习的能力是非常重要的特征，H.A.Simon认为，学习是系统所作的适应性变化，使得系统在下一次完成同样或类似的任务时获得更好的完成效果。R.s.Michalski认为，学习是构造或修改对于所经历事物的表示。从事专家系统研制的人们则认为学习是知识的获取。这些观点各有侧重，第一种观点强调学习的外部行为效果，第二种则强调学习的内部过程，而第三种主要是从知识工程的实用性角度出发的。

机器学习的研究方法是借鉴生理学、心理学、认知学等对人类本身自我学习机理的了解，建立对人类学习过程的计算模型或认识模型，从而形成各种学习理论和学习方法，建立面向任务的具有特定应用的学习系统。这些研究目标相互影响相互促进。自从1980年在卡内基-梅隆大学召开第一届机器学术研讨会以来，机器学习发展很快，已成为中心课题之一。

而机器学习的历史发展过程分为四个阶段：(1)50年代中期到60年代中期的热烈时期；(2)60年代中期至70年代中期的冷静时期；(3)70年代中期至80年代中期的复兴时期；(4)1986年开始则是机器学习的最新阶段。而目前这个时期，最显著的特点是机器学习已经演变成了一门新兴的边缘学科，融合了各种各样学习方法，应用范围也越来越大，相关学术活动十分活跃。

机器学习发展到现阶段，应用已经十分广泛，诞生了很多优秀的算法，基本上可以概括为基于符号的学习和基于非符号学习，也就是连接学习。而前者基于符号的学习，一般包括机械式学习、指导式学习、示例式学习、类比式学习、基于解释的学习等等。

其中较为常见算法有：决策树算法、遗传算法、贝叶斯统计算法、人工神经网络算法、支持向量机算法、关联规则算法等等。本文设计的方法中自带了这些常见算法的建模模块，并且使用EM算法来对参数进行最大似然估计。

但是使用机器学习技术处理具体任务，主要面临三个问题：(1)在针对某一具体任务时，建立机器学习模型费时费力，由于具体任务细节的差别性，难以直接借鉴其他已经构建好的系统模型，需要根据个人经验来选择。(2)即使某次任务，正确选择了比较符合客观事实本质的机器学习算法，其复杂的参数如何设置也是个必须解决的问题，需要根据经验或者用户机长时间的运算得到，单用户的计算能力难以快速的解决问题(3)用户需要学习和使用具体的机器学习软件，机器学习算法纷繁复杂，自主学习需要花费大量时间，同时用户自主学习的某一些算法也不一定能合适用户需要解决的每一个遇到任务。

而新兴出现的云计算技术，却能很好的解决以上问题，使机器学习更加方便的应用到实际中，更快更好的创造价值。

云计算是在分布式系统、网格计算等发展的基础上提出的一种新型计算模型，是一种新兴的共享基础架构的方法，它面对的是超大规模的分布式环境，核心是提供数据存储和网络服务。这是一种指服务的交付和使用模式，指通过网络以按需、易扩展的方式获得所需的服务。这种服务可以是IT和软件、互联网相关的，也可以是任意其他的服务。云计算提供了最可靠、最安全的数据存储中心，用户不用再担心数据丢失、病毒入侵等麻烦，同时云计算对用户端的设备要求达到了最低。云计算中提到的“云”是一些可以自我维护和管理的虚拟计算资源，通常为一些大型服务器集群，包括计算服务器、存储服务器、宽带资源等等。云计算通过提供各种云，将所有的计算资源集中起来，并由软件实现自动管理，无需人为参与。这使得应用提供者无需为繁琐的细节而烦恼，能够更加专注于自己的业务，有利于创新和降低成本。应用到机器学习上，云计算可以建立好机器学习模型及相关模块供用户选择，使得用户快速的享用机器学习技术的成果来解决问题。

现有云计算平台基本是基于理论计算及存储服务的，未发现有专门为机器学习的建立云计算方法，本发明结合机器学习技术及云计算技术的优点和特性，提供了一种可行的实现方法。

发明内容

技术问题：本发明的目的是提供是一种云计算环境下机器学习自动选择方法。通过使用云计算平台，解决了机器学习建模不便的问题，提供了一种结合云计算技和机器学习技术处理现实问题提供了方便快捷的方法。从而使用户无需为繁琐的细节而烦恼，能够更加专注于自己的业务，有利于创新和降低成本。

技术方案：本发明使机器学习的使用摆脱了环境的束缚，充分发挥了云计算平台高效的计算能力和透明性，最大程度的降低了机器学习的使用门槛，使得用户无需从众多机器学习方法中通过反复实验寻找合适的机器学习方法，解决了在实际应用机器学习时，建模选择的难以预测性、参数调整的人工经验性、普通用户学习困难等缺点。

本发明目的是组建提供机器学习服务的云计算平台的方法。在云计算平台下，通过以下三方面进行系统构建：一方面建立以云形式存在的大量计算机组成的各种机器学习云，包括决策树算法云、遗传算法云、贝叶斯统计算法云、人工神经网络算法云、支持向量机算法云、关联规则算法云，使得云计算平台默认自带了常见的机器学习算法；另一方面通过同样由计算机群组成的初始建模云、搜索空间概估云、方法发现云、EM算法支撑云、评估函数云、计算云、机器学习算法扩充云，从而体现出云的优势，由大量的计算资源计算出普通用户难以或需要长时间计算出的机器学习使用的合适的参数；最后一方面是云计算平台与用户进行交互的必须的模块，包括Web交互界面，机器学习输入输出模块及云管理模块，用以支撑云计算平台的运行。

步骤1)在云管理模块的统一调度下，首先通过Web交互界面，得到用户所需要解决问题的粗略描述，包括问题种类，即选择所属大类，从专家系统、认知模拟、规划和问题求解、数据挖掘、网络信息服务、图象识别、故障诊断、自然语言理解、机器人和博弈、其它类别中选择，

步骤2)启用初始建模云，通过步骤1)中的用户提供的大类，进入不同的子类界面，填写相应更加详细的信息，包括进行样本上传、选择表示方法、确定结果分析方法、使用范围、期望域，

步骤3)启动方法发现云，根据用户提供的信息同历史典型事例进行比对，确定因采取哪种或哪几种的机器学习算法；此云模块伴随着后续步骤运行，从而根据各阶段计算结果时刻进行调整，

步骤4)然后将步骤2种用户输入的信息，输入机器学习输入输出模块，得统一化、数据化后，依次进行缺失值处理、噪声数据处理、数据清理、数据集成、数据变换、数据归约等操作，以便得到一般算法能够使用的中间结果，

步骤5)启动评估函数云，根据用户在步骤2)输入的信息建立评估函数，对机器学习解的优劣判断做准备，从而对具体算法性能进行预测，

步骤6)同时调用EM算法支撑云，对解空间进行最大似然估计，计算最优解或较优解的在解空间的大致位置，增加搜索效率，

步骤7)到达此步骤后，说明准备工作已经完成，即将进行机器学习的训练过程，通过以上步骤的自动判断，分别调用一个或者几个具体的机器学习云模块进行学习，包括决策树算法云、遗传算法云、贝叶斯统计算法云、人工神经网络算法云、支持向量机算法云、关联规则算法云；如用户自定义了机器学习算法扩充云，则优先调用机器学习算法扩充云，

步骤8)经过以上步骤计算，选择一个或若干个算法云，将其启动，同时通过Web交互界面向用户反馈信息，包括计算运行的步骤，得到的中间结果，当前最优解变化，

步骤9)在EM算法支撑云的反复迭代过程中，不断返回到步骤6，步骤7进行计算，同时判断是否达到终止条件，如果达到终止条件则跳转步骤10，否则使用步骤5制定的性能预测算法进行判断解的优秀程度，此步骤需要大量计算资源，因而需要利用云计算的计算优势，尽可能得计算出优秀解，

步骤10)在终止条件满足时，如计算时间到，无更优解或算法本身迭代结束，通过机器学习输入输出模块将计算结果转换为具有可读性的信息，再通过Web交互界面交还客户，并提供详细数据下载，同时保存机器学习结果，以便再次使用，避免重复计算。

一、体系结构

整个方案包括了决策树算法云、遗传算法云、贝叶斯统计算法云、人工神经网络算法云、支持向量机算法云、关联规则算法云、初始建模云、搜索空间概估云、方法发现云、EM算法支撑云、评估函数云、计算云、机器学习算法扩充云以及Web交互界面模块、机器学习输入输出模块、云管理模块。相互关系如图2所示。

下面给出具体模块的说明：

决策树算法云：此云的主要功能是提供的决策树算法建模服务及预测服务。决策树是一种用于分类、聚类、预测的预测型建模的方法，采用的思想是“分而治之”，它将搜索空间分割为若干子集从而建立决策树。目前此算法是应用最广泛的归纳推理算法之一，是一种逼近离散函数的算法，以实例为基础，通常用来作为分类器。而基本的决策树算法可以说是一种贪心算法，现有的已大规模应用的算法都是基本决策树算法的改进和功能加强。此算法云同样包括以下常见改进的决策树算法：C4.5方法、CART方法、SLIQ方法、SPRINT方法等。

C4.5算法增加了对连续型属性、属性值空缺的处理，同样改进了决策树的剪裁能力。CART算法采用一种二分递归分割的技术，将样本分割为两个子集，使得决策树的每个非叶子节点都有两个分枝，从而得到结构简洁的二叉决策树。SLIQ算法主要采用了广度优先算法声称决策树；SPRINT算法则很好的解决了内存容量的限制，处理了其他算法不能适用的超大规模训练集，并且有效的深层了决策树。

决策树算法云的功能一方面是提供基本的决策树算法建模训练服务及预测服务，另一方面智能的根据输入数据的特性选择具体改进的决策树算法进行运算处理。

遗传算法云：此云的主要功能是提供的遗传算法建模服务及预测服务。遗传算法是模拟自然界中按“优胜劣汰”法则进行进化过程而设计的算法。Bagley和Rosengerg于1967年在他们的博士论文中首先提出了遗传算法的概念。1975年Holland出版的专著奠定了遗传算法的理论基础。如今遗传算法不但给出了清晰的算法描述，而且也建立了一些定量分析的结果，在众多领域得到了广泛的应用，当用户提出的问题描述类似于生产任务规划、通信网络设计、TSP问题、背包问题以及图像处理和信号处理等时，可采用此算法云。

遗传算法云的主要目的是使用遗传算法思想，及对用户的目标进行逐渐进化模拟求得最终解。通过初始解进行迭代，不断的从旧的解中按照一定规则产生新解，并且期望新的解要比旧的解优秀。新解如果通过评估函数计算得到的价值越高，它保留的机会也就越大。遗传算法只用编码表示问题，以评估函数得到的价值为依据，不要求明确的解析表达式，因此可以解决任意高度非线性寻优问题。并且易与其他算法结合，取其长处，获得更优效果。

贝叶斯统计算法云：此云的主要功能是提供的贝叶斯建模服务及预测服务。贝叶斯是统计算法可以预测类成员之间的可能关系，如给定某样本数属于某类的可能值。贝叶斯算法主要基于贝叶斯定律，通过计算样本属于特定类概率来进行分类。与其它方法相比，贝叶斯可结合样本信息和先验概率，特别适用于样本难以获得的情况。同时由于需要计算先验概率，随着样本的增多使得计算时间明显增长，更加适合小规模机器学习。当用户的问题描述类似于信息恢复及诊断、经济领域、自动分类、产品质量控制等方面时，可采用此算法云。

贝叶斯统计算法云的主要目的是使用贝叶斯统计方法，计算出属于某一类的对象的概率，具有最大概率的类及是该对象所属类。其处理的对象可以是离散的、连续的，也可以是混合类型的。基于贝叶斯方法，常见的有朴素贝叶斯方法及贝叶斯网络方法。此算法云包括常见的贝叶斯方法模型建立方法并不断得以升级扩充。

人工神经网络算法云：此云的主要功能是提供的人工神经网络建模服务及预测服务。人工神经网络利用计算机技术模拟人脑的智能活动，模拟生物神经网络的结构和信息传导方式，并用数学形式表达出来。人工神经网络是当今智能科技中的一门基础技术，采用的连接机制与人工智能的符号推理机制并列成为智能科技的两大阵营。人工神经网络模拟人脑的解剖生理学特征，用许多并行的简单的神经元，在一定的拓扑结构连下，接受外界信息，同时相互刺激，从而达到分布存储，联想记忆，反馈求精，黑箱映射，权值平衡，动态逼近，全息存录，容错防失的效果。同时由于模拟神经元互连，在数量达到一定级别时，可形成强大的自学习、自适应、自组织、自诊断、自修复能力，通过节点间不断反馈，可在一定程度上模拟人脑的逻辑推理，因此有着广泛的应用范围。特别是在模式识别，函数逼近及贷款风险评估时，可优先采用此算法云。

人工神经网络算法云的主要目的使用人工神经网络技术，采用模拟大脑神经网络的方法，人工构造了一种能够实现某种功能的神经网络。此算法云可产生人脑神经网络的数学模型，形成一种基于模仿大脑神经网络结构和功能而建立的模型。这种模型由大量简单元件及神经元相互连接，形成的一种复杂网络，具有高度的非线性，能够进行复杂的逻辑操作和非线性关系实现。使用范围十分广泛。

支持向量机算法云：此云的主要功能是提供的支持向量机建模服务及预测服务。支持向量机(Support Vector Machine)是近年来在统计学习理论的基础上发展起来的一种新的模式识别方法，在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势。支持向量机的主要应用领域有模式识别、函数逼近和概率密度估计等等，这些领域可优先采用此算法云。

支持向量机算法云的主要目的是，建立一种模型，将样本向量映射到高纬空间，在高维空间中构造最优分类面，获得线性的最优决策函数。通过控制超平面的间隔度量来抑制函数的过拟合，同时通过使用了核函数巧妙的解决了维数问题，避免了学习方法计算的复杂度直接相关样本维数。其中的最优分类超平面在保证样本无错分类情况下，使得分类距离尽可能大，而且保证在经验风险最小的同时，使得推广性的界中置信范围最小，从而确保真实风险最小。

关联规则算法云：此云的主要功能是提供的关联规则建模服务及预测服务。关联规则算法目的是解决大的事务数据集上挖掘项集之间的关联性的一类问题。关联规则分析是机器学习中一大类任务。它起源于对二分变量的分析，用规则的方式来表达两个二分变量之间的关系，以及多个二分变量之间的关系。当然，后来的发展，也使得关联规则不仅仅局限于二分变量，也可以对多分类变量和连续变量进行分析。所以，关联规则可以看作是分析变量之间关系，并且把这种关系表达成非常容易解释的规则的方法。关联规则分析方法对数据分布不作任何要求，所得的结果是完全基于数据的，没有任何主观假定，客观地反映了数据的本质，有很强的说服力。关联规则对数据分析得到的结果可以看作是对数据中变量间所有规律的总结。因此关联规则在提出之后，在各行各业得到了大量的应用，特别是在市场分析、信誉评估、商品价格分析、入侵检测以及信息量极其庞大的天文气象生物等领域的机器学习建模中，可优先采用此算法云。

关联规则算法云的主要目的是建立模型的模型能够解决以下问题：不同对象间的关联关系的模式或形式的描述；提高关联计算的速率并且减少存储空间；在海量数据中的关联分析等。

初始建模云：此云对用户提供的上传样本、基本表示方法、确定结果分析方法、使用范围、期望域等进行初始化，得到最初的模型。

搜索空间概估云：此云的主要功能是提供可行解及优秀解的估计性位置，既得到可能的空间中与问题描述相匹配的搜索范围，尽可能的排除无法诞生优秀解的空间，从而提高搜索效率，减少计算量。

方法发现云：此云的主要功能是选择合适的机器学习算法建立模型。通过概估和初始计算，预测性选择某种或者某几种机器算法云。

EM算法支撑云：此云的主要功能是提供的支持向量机建模服务及预测服务。机器学习中很多算法都要进行模型的参数估计，也就是要进行极大似然估计或极大后验似然估计。当模型中的变量为可直接观察变量时，极大似然或极大后验似然是显然的。但是当某些变量隐藏时，进行极大似然估计就十分复杂难以直接得到。在存在潜在变量的情况下，对模型参数进行估计的方法有很多种，一种非常流行的极大似然估计方法是Expectation-Maxi2mization算法，通常简称为EM算法。它不是直接对复杂的后验分布进行极大化或者进行模拟计算，而是在观察数据的基础上添加一些潜在数据，从而简化计算并完成一系列简单的极大化或模拟。EM算法是一种从非完全数据中求解模型参数的极大似然估计方法。非完全数据一般分为两种情况：一种是由于观察过程本身的限制或者错误，如人为失误、难以度量等，得到的不完全数据；一种是参数的似然函数直接优化十分困难，而引入额外的参数，如隐含的或丢失的参数。对其优化方法是于是定义原始观察数据加上额外数据组成“完全数据”，原始观察数据自然就成为“不完全数据”。

评估函数云：此云的主要功能是反映建立机器学习模型时与目标的相符程度，以及对已建模型的评估。一方面根据各算法的特性及历史经验规定评估函数，另一方面通过检查在训练数据上表现是否良好，再在独立的测试数据上进行测试。其中的测试数据是必须脱离模型建立算法的，只参与预测判断。

计算云：此云的主要功能是充分发挥云计算的优势，在超大规模的分布式环境下，利用提供的计算性能、数据存储和网络服务来对机器学习需要的海量运算进行计算。云计算充分发挥了并行计算、分布式计算和网格计算的计算优势，可以很好的提供计算服务。

机器学习算法扩充云：此云的主要功能是提供在的机器学习算法无法满足用户需要时，为用户自定义或平台本身自升级预留的接口。一方面机器学习算法扩充云按照一定规则构造新的学习算法，另一方面此云负责联系其它云及模块，从而使得构造的新学习算法可以完整的使用。

Web交互界面模块：此云的主要功能是提供交互界面。云计算支持用户在任意位置、使用各种终端获取应用服务。所请求的资源来自“云”，而不是固定的有形的实体。应用在“云”中某处运行，但实际上用户无需了解、也不用担心应用运行的具体位置，也就是说针对用户是透明的。只需要一台笔记本或者一个手机，就可以通过网络服务来实现我们需要的一切，甚至包括超级计算这样的任务。因此，通过Web界面进行交互是最佳的方式，用户不必关心后台进行的操作和运算，只需关心输入的信息和输出的结果。此模块及处理与用户的交互问题。

机器学习输入输出模块：此云的主要功能是提供的支持向量机建模服务及预测服务。为机器学习的数学建模提供可行的输入样本及参数描述，实际上也包括了纷繁复杂的预处理工作。尽可能的将不同记录形式、不同习惯、不同时间短、不同位置、不同的数据集合度、不同错误形式的数据集中、整合、清理。通常要进行统一化、数据化，格式转换，进行缺失值处理、噪声数据处理、数据清理、数据集成、数据变换、数据归约等操作

云管理模块：此云的主要功能是管理各模块的启动、执行以及监控状态。云计算由于其超大规模性，一般拥有数百上千台服务器，大型企业甚至拥有几十万台服务器，而且针对用户透明，这都需要大量的管理操作，操控各模块有条不紊的运行，调度和分配任务，合理利用存储、计算、带宽资源。

二、方法流程

1、搭建及运行流程

1.用户首先安装和启动云管理模块，然后通过管理模块依次增加决策树算法云、遗传算法云、贝叶斯统计算法云、人工神经网络算法云、支持向量机算法云、关联规则算法云、初始建模云、搜索空间概估云、方法发现云、EM算法支撑云、评估函数云、计算云、机器学习算法扩充云以及Web交互界面模块、机器学习输入输出模块。

2.启动Web交互界面模块，等待用户的使用。当用户通过Web交互界面提交建立机器学习模型请求时，云管理模块就会启动和调用其它云模块，进行机器学习的数学建模。

3.调用初始建模云，对用户提供的上传样本、基本表示方法、确定结果分析方法、使用范围、期望域等进行初始化，得到最初的模型。

4.运行方法发现云，根据用户提供的信息同历史典型事例进行比对，确定因采取哪种或哪几种的机器学习算法。此云模块伴随着后续步骤运行，从而根据各阶段计算结果时刻进行调整。

5.云管理模块通过输入机器学习输入输出模块，将用户通过Web交互界面输入的数据进行统一化、数据化后，依次进行缺失值处理、噪声数据处理、数据清理、数据集成、数据变换、数据归约等操作，以便得到一般算法能够使用的中间结果。

6.启动评估函数云对判断机器学习解的优劣做准备。此步骤主要是制定预测性能的具体算法，是否使用交叉验证及留一法、自引导法等验证方法。

7.调用EM算法支撑云，对解空间进行最大似然估计，计算最优解或较优解的在解空间的大致位置，增加搜索效率。

EM算法的基本原理可以表述如下：可以观察到的数据是y，完全数据x＝(y，z)，z是隐变量，表示缺失数据，θ是模型参数。θ关于的后验分布p(θ|y)很复杂，难以进行各种不同统计计算。假如z已知，则可能得到一个关于θ的简单的添加后验分布p(θ|y，z)，利用p(θ|y，z)的简单性可以进行各种统计计算。然后，又可以对z的假定作检查和改进，从而将一个复杂的极大化或抽样问题简化。

可以看出，EM算法是一种迭代方法，主要用于求后验分布的众数。

8.准备工作完成后，进行机器学习的建模过程，通过以上步骤的自动判断，分别调用一个或者几个具体的机器学习云模块进行学习，包括决策树算法云、遗传算法云、贝叶斯统计算法云、人工神经网络算法云、支持向量机算法云、关联规则算法云。如用户自定义了机器学习算法扩充云，则优先调用机器学习算法扩充云。

2、机器学习建模流程

1.决策树算法建模

决策树可看作一个树状预测模型，它通过把实例从根节点排列到某个叶子节点来分类实例，叶子节点即为实例所属的分类，如图3决策树基本形状图所示。决策树的核心问题是选择分裂属性和决策树的剪枝。决策树的算法有很多，有ID3、C4.5、CART等等。这些算法均采用自顶向下的贪婪算法，每个节点选择分类效果最好的属性将节点分裂为2个或多个子结点，继续这一过程直到这棵树能准确地分类训练集，或所有属性都已被使用过。如其中的分类回归树(CART)是机器学习中的一种分类和回归算法。设训练样本集L＝{X₁，X₂，X₃，…X_n，Y}，其中，X_i(i＝1，2，3…，n)称为属性向量；Y称为标签向量或类别向量。当Y是有序的数量值时，称为回归树；当Y是离散值时，称为分类树。在树的根节点处，搜索问题集(数据集合空间)，找到使得下一代子节点中数据集的非纯度下降最大的最优分裂变量和相应的分裂阈值。

在这里非纯度指标用Gini指数来衡量，它定义为：

其中，i(t)是节点t的Gini指数，p(i/t)表示在节点t中属于i类的样本所占的比例，p(j/t)是节点t中属于j类的样本所占的比例。用该分裂变量和分裂阈值把根节点t₁分裂成t₂和t₃，如果在某个节点ti处，不可能再有进一步非纯度的显著降低，则该节点ti成为叶结点，否则继续寻找它的最优分裂变量和分裂阈值进行分裂。对于分类问题，当叶节点中只有一个类，那么这个类就作为叶节点所属的类，若节点中有多个类中的样本存在，根据叶节点中样本最多的那个类来确定节点所属的类别；对于回归问题，则取其数量值的平均值。很明显，一棵很大的树可能过分拟合数据，但较小的树又可能无法捕获重要的结构。树的最佳大小是控制模型复杂性的调整参数，它应该由数据自适应的选择。一种可取的策略是增长一棵较大的树t₀，仅当达到最小节点大小(比如3)时才停止分裂过程。然后利用剪枝策略和5折或10折交叉验证相结合的方法来修剪这棵树，从而将一些噪声和干扰数据排除，获得最优树。从而建立了决策树的数学模型。

2.遗传算法建模

对于小空间，经典的穷举法就足够了；而对大空间，则需要使用特殊的人工智能技术。遗传算法(Genetic Algorithm)是这些技术中的一种，它是一类模拟生物进化过程而产生的由选择算子、杂交算子和变异算子三个基本算子组成的全局寻优算法。它从一个初始族出发，由选择算子选出性状好的父本，由杂交算子进行杂交运算，变异算子进行少许变异，在一定概率规则控制下随机搜索模型空间。一代代进化，直到最终解对应的误差泛函值达到设定的要求。

在第t次迭代，遗传算法维持一个潜在解的群体

每个解x₁ ^t使用评估函数云得到的评价函数评价评价。然后通过选择更合适个体(t+1次迭代)形成一个新的群体。新的群体的成员通过杂交和变异进行变换，形成新的解。杂交组合了两个亲体染色体(即待求参数的二进制编码串)的特征，通过交换父代相应的片断形成了两个相似的后代。例如父代染色体为(a₁，b₁，c₁，d₁，e₁)和(a₂，b₂，c₂，d₂，e₂)，在第二个基因后杂交，产生的后代为(a₁，b₁，c₂，d₂，e₂)和(a₂，b₂，c₁，d₁，e₁)。杂交算子的目的是在不同潜在解之间进行信息交换。变异是通过用一个等于变异率的概率随机地改变被选择染色体上的一个或多个基因(染色体中的一个二进制位)。变异算子的意图是向群体引入一些额外的变化性。建模过程如图4遗传算法基本过程图所示。由此这个过程建立了遗传算法数学模型。

3.贝叶斯统计建模

贝叶斯即Bayes统计方法建模是一种在已知先验概率与类条件概率的情况下的模式分类方法。其处理的待分样本的分类结果取决于各类域中样本的全体。设

训练样本集分为M类，记为C＝{c₁，c₂，…，c_t，…，c_M}，每类的先验概率为P(c_i)，i＝1，2，…，M。当样本集非常大时，可以认为P(c_i)＝c_i样本数/总样本数。对于一个待分样本X，其归于c_i类的类条件概率是P(X/c_i)，则根据Bayes定理，

可得到c_i类的后验概率P(c_i/X)＝P(X/c_i)P(c_i)/P(X)P(ci/X)。若P(c_i/X)＝MaxjP(c_j/X)，i＝1，2，…，M，j＝1，2，…，M，则有X∈c_i，这就是最大后验概率判决准则。Bayes分类方法在理论上论证得比较充分，在应用上也是非常广泛的。总体的概率分布和各类样本的概率分布函数(或密度函数)常常是不知道的。为了获得它们，就要求样本足够大。此外，当用于文本分类时，Bayes法要求表达文本的主题词相互独立，这样的条件在实际文本中一般很难满足，因此该方法往往在效果上难以达到理论上的最大值。通过建立在统计性的先验概率与类条件概率的这种方法，可以建立贝叶斯统计模型。

4.人工神经网络算法建模

人工神经网络(Artificial Neural Network.简称ANN)正是在人类对其大脑神经网络认识理解的基础上人工构造的能够实现某种功能的神经网络。它是理论化的人脑神经网络的数学模型，是基于模仿大脑神经网络结构和功能而建立的一种信息处理系统。它实际上是由大量简单元件相互连接而成的复杂网络，具有高度的非线性，能够进行复杂的逻辑操作和非线性关系实现的系统。

人工神经网络按层来组织，每一层由多个人工神经元组成，它们之间没有连接线连接，而层与层之间通过连接线进行连接。人工神经网络可以有单层，也可以有多层，目前常用的有单层、二层和三层。

人工神经网络根据人工神经元的数据流向方式分为两种结构方式：前向型和反馈型。如果人工神经元数据从输入到输出单向流动，没有反馈，称之为前向型，如果有反馈(无论是反馈给本神经元还是同层的其它神经元)，则称之为反馈型。

人工神经元是人工神经网络的基本单位，人工神经元可以有多种模型，但有一种基本横型最为常见，其组成如下：

I.输入：一个人工神经元可以有多个输入。

II.输出：一个人工神经元只能有一个输出。

III.内部结构：用加法器将输入相加，然后加上偏差值，然后用激活函数计算它，计算的结果作为的神经元的输出

A.加法器：将输入线性相加，确切地说，是将输入和相应权值的乘积进行加和。

B.偏差值：加法器所产生的值经常会受到外部干扰和影响而产生偏差，因此需要一个偏差来作调整，一般用来θk来表示第k个神经元的偏差值。

C.激活函数：用来限制神经元输出值的范围，一般在-1～+1或0～1。

常用的激活函数有Logistic、Simoid等。

人工神经元之间以连接线相连，每根连接线都有权值，如上所述，连接线的目标神经元内部的加法器在进行加和时会使用到该权值。用ω_ij表示第i个神经元到第j个神经元间连接线的权值。

人工神经网络具有学习功能，这个学习就是用真实的数据样本对其进行训练。一个数据样本有输入和输出数据，用输入数据作为人工神经网络的输入，然后比较人工神经网络的输出和样本的输出，通过调整人工神经网络中的参数(即连接线的权值和神经元的偏差)，使得两者的差值为0或在可以接受的范围之内。

经过训练的人工神经网络具有一定的判断与推理能力，并能进行一定的预测和决策。反射传播模型(BP，Back Propagation)是人工神经网络最常见的一种模型，有超过半数以上的应用采用此模型。它是多层前向型结构，由以下三部分组成：

I.输入层：只有一层，由m个神经元组成，接收外界m个输入xi(i＝1，2，...，m)，每个输入与一个神经元相连。这一层的神经元是非基本的神经元，没有内部结构，其输出的值就是输入的值。

II.隐藏层：可以有多层，每层由n个神经元组成，这些神经元就是前面介绍的基本神经元。

III.输出层：只有一层，由p个神经元组成，也是基本神经元。

上述各层之间(包括多个隐藏层之间)的神经元连接是多对多的连接，而输入和输出层与外界是一对一的连接，如图5人工神经网络基本结构图所示。

基本神经元的激活函数采用Logistic函数，表达式为：

O_{j} = \frac{1}{1 + e^{- I_{j}}}

算法分以下几个步骤：

计算隐藏层及输出层的每个神经元的j的输入值，从而算出输出值：

a)输入：

式中i是前一层所有与神经元j有接的神经元。

b)输出：采用Logistic函数计算输出值。

计算输出层神经元j的误差：

E_rrj＝O_i(1-O_j)(T_j-O_j)

式中T_j为样本类标号。

计算隐藏层每个神经元j的误差：

E_{rrj} = O_{j} (1 - O_{j}) \underset{k}{Σ} E_{rrk} ω_{jk}

式中k是后一层所有与神经元j有连接的神经元，E_rrk则是这些神经元的误差。

计算网络中每个连接线权值ω_ij的修正值：

Δω_ij＝(l)E_rriO_j

式中(l)为算法的学习率，这个值由训练者自行制定。学习率的选择有助于寻找全局最小的权值，选择得太小，学习过程会进行得很慢，太大的话，可能会出现在不适当的解之间摆动。一般可以选择(0，1)之间的一个常量，常用的经验值为1/t，t是已迭代的次数。

然后计算出该连接线新的权值，并修改之：

ω_ij＝ω_ij+Δω_ij

计算网络中隐藏层和输出层中每个神经元偏差值的修正值：

Δθ_j＝(l)E_rrj

然后计算出该神经元新的偏差值：

θ_j＝θ_j+Δθ_j

2)查看终止条件，一般有若干个，如：

a)Δω_i和Δθ_j都已经足够小，小于某一指定值；

b)迭代次数已经达到指定数量。

这个过程建立了人工神经网络的数学模型，通过训练好的神经网络模型，可以对输入样本进行计算，从而得到预测值。

5.支持向量机算法建模

支持向量机最初思想是对于线性可分问题如何寻求最优分类面，对于特征空间中线性可分问题，最优分类面就是间隔γ最大的分界面，根据上述核理论的分析可知，它的确是在保证样本被正确分类前提下，具有最好泛化能力的分界面。对于特征空间中线性不可分问题，可通过一个惩罚因子来综合考虑间隔和松弛因子的影响。

考虑一个用某特征空间的超平面对给定训练数据集做二值分类的问题。对于给定样本点：(x₁，y₁)，...，(x_l，y_l)，x_i∈Rⁿ，y_i∈{-1，+1}其中向量x_i可能是从对象样本集抽取某些特征直接构造的向量，也可能是原始向量通过某个核函数映射到核空间中的映射向量。在特征空间中构造分割平面：

(w·x)+b＝0使得：

\{\begin{matrix} (w \cdot x_{i}) + b &GreaterEqual; 1 & y_{i} = 1 \\ (w \cdot x_{i}) + b \leq - 1 & yi = - 1 \end{matrix} &DoubleLeftRightArrow; y_{i} [(w \cdot x_{i}) + b] &GreaterEqual; (i = 1,2, . . ., l)

可以计算出，训练数据集到一给定的分割平面的最小距离为：

p (w, b) = \min_{{x_{i} | y_{i} = 1}} \frac{w \cdot x_{i} + b}{| w |} - \max_{{x_{i} | y_{i} = - 1}} \frac{w \cdot x_{i} + b}{| w |} = \frac{2}{| w |}

根据SVM对优化分割平面的定义，可以看出对该平面的求解问题可以简化为：在满足条件式(3)的情况下，计算能最大化p(w，b)的分割平面的法向量w和偏移量b。Vapnik等人证明：

分割超平面的法向量w₀是所有训练集向量的线性组合。即w₀可以描述为：

定义判别函数f(x)＝w₀·x+b₀则测试集的分类函数可以描述为：label(x)＝sgn(f(x))＝sign(w₀·x+b₀)

在线性可分的情形下，对所有的训练样本都应该满足|f(x)|≥1，在下文中，我们把满足|f(x)|＜1的区域称为分割超平面所对应的边界区域。

最优分割平面的求解等价于在前者约束下最大化下面的

引入拉格朗日乘子α_i，i＝1，2，...，l，并定义

使用Wolfe对偶定

MaxW (α) = \underset{i}{Σ} α_{i} - \frac{1}{2} w (α) \cdot w (α)

subject to α_{i} &GreaterEqual; 0, \underset{i}{Σ} a_{i} y_{i} = 0

理把上述问题转化为其对偶问题：

对于线性不可分的训练集，可以引入松弛变量ξ_i，改写为下面的：

Min (\frac{1}{2} {| | w | |}^{2} + C \underset{i}{Σ} ξ_{i})

Subject to y_i(w·x_i+b)≥1-ξ_i，ξ_i≥0

类似的可以得到相应的对偶问题：

MaxW (α) = \underset{i}{Σ} α_{i} - \frac{1}{2} w (α) \cdot w (α)

subject to 0 \leq α_{i} \leq C, \underset{i}{Σ} a_{i} y_{i} = 0,

这种形式的求解是一个典型的有约束的二次型优化问题，已经有了很多成熟的求解算法，近年来，V.Vapnik，C.Burges，E.Osuna，T.Joachims，J.Platt等人的一系列工作使得对大规模训练集的支持向量机算法实现成为可能。

通过以上描述建立的数学模型，可以自动寻找出那些对分类有较好区分能力的支持向量，由此构造出的分类器可以最大化类与类的间隔，因而有较好的适应能力和较高的区分率。该方法只需要由各类域的边界样本的类别来决定最后的分类结果，最终建立了支持向量机数学模型。

6.关联规则算法建模

关联规则挖掘是在大的事务数据集上挖掘项集之间的关联性的一类问题。关联规则分析是机器学习中一大类任务。它起源于对二分变量的分析，用规则的方式来表达两个二分变量之间的关系，以及多个二分变量之间的关系。当然，后来的发展，也使得关联规则不仅仅局限于二分变量，也可以对多分类变量和连续变量进行分析。所以，关联规则可以看作是分析变量之间关系，并且把这种关系表达成非常容易解释的规则的方法。

关联规则分析方法对数据分布不作任何要求，所得的结果是完全基于数据的，没有任何主观假定，客观地反映了数据的本质，有很强的说服力。关联规则对数据分析得到的结果可以看作是对数据中变量间所有规律的总结。因此关联规则在提出之后，在各行各业得到了大量的应用。

关联规则的算法就是由输入向输出的一个求解过程。设I＝{i₁，i₂，…，i_m}是m个不同项目的集合，其中的元素称为项(Item)。记D为交易T(Transaction)的集合，这里交易T是项的集合，并且

对应每一个交易有唯一的标识，如交易号，记作TID。一个关联规则是形如

的蕴涵式，这里，

并且X∩Y＝θ。X称为规则的前提，Y是结果。规则在交易集D中的支持度(Support)是指包含X和Y的交易数与所有交易数之比，记为

即

规则

在交易集D中的可信度(confidence)是指包含X和Y的交易数与包含X的交易数之比，即

给定一个交易集D，挖掘关联规则问题就是产生支持度和可信度分别大于用户给定的最小支持度(Minsupp)和最小可信度(Minconf)的关联规则，称为强规则。

关联规则挖掘的任务就是要挖掘出数据集D中所有的强规则。强规则X]Y对应的项目集(X∪Y)必定是频集，频集(∪Y)导出的关联规则

的置信度可以以频集X和(X∪Y)的支持度计算。

通过以上过程得到的含有描述规则的数学模型，即为关联规则建模。

有益效果：由于网络的发展，信息呈爆炸性增长，如何有效利用这些信，并使用这些信息提高生产率成为迫切需要解决的问题。目前的现状是大量可以有效获得的信息中只有极少部分可以被正确的使用，消耗了大量资源的信息不仅未能够被有效地使用，而且由于有用的信息正在更深地被掩埋在无用信息之中，变得更难以利用。机器学习是解决这类问题的有效方法之一。随着机器学习研究的深入和具体应用领域的扩展，带来了大量的机器学习建模任务需求。同样由于机器学习种类繁多，针对具体的问题描述需要相适应的机器学习算法才能建立较好的复合问题本质特征的数学模型，往往花费了大量时间寻找的机器学习模型不能很好的反映客观实际。

针对具体任务来建立在机器学习基础上的模型费时费力，由于具体任务细节的差别性，难以直接借鉴其他已经构建好的机器学习模型，需要根据个人经验来选择。即使正确选择了比较符合客观事实本质的机器学习算法，如何设置复杂的参数，也需要根据经验或者用户机长时间的运算得到，单用户的计算能力难以快速的解决问题。同时，用户需要学习和使用具体的机器学习软件，机器学习算法纷繁复杂，用户自主学习需要花费大量时间，而用户自主学习的某一些算法也不一定能合适用户需要解决的每一个任务。

本方案提供的解决途径一方面充分利用计算能力强的云计算平台，解决机器学习时复杂的计算问题，另一方面利用云计算针对用户的简易使用性、透明性，解决了普通用户难以选择符合客观实际的机器学习算法，从而快速建立能够解决实际问题的机器学习模型，并尽可能自动的发现合适的参数。

附图说明

图1机器学习建模云计算执行流程图，

图2模块关系图，

图3决策树基本形状图，

图4遗传算法基本过程图，

图5人工神经网络基本结构图，

具体实施方式

本发明是一种基于云计算环境的机器学习自主选择方法。通过使用云计算平台，用户无需搭建机器学习的运行环境，也无需选择机器学习算法，更不用调整纷繁复杂的机器学习函数及其附带的参数，只需使用Web方式上传样本数据，就能自动智能的建立符合实际问题的机器学习数学模型。本发明使机器学习的使用摆脱了环境的束缚，发挥了云计算平台的优势，使得机器学习建模针对用户透明，最大程度的降低了机器学习的使用门槛。解决了在实际应用机器学习时，建模选择的难以预测性、参数调整的人工经验性、普通用户困难等缺点。最终建立的平台能够充分结合云计算优势，即可将所有的计算资源集中起来，由软件实现自动管理。在数据分析过程中，它将历史数据与现有数据进行整合，使收集到的信息更加精确，可以为机器学习提供智能服务。用户不再需要关心如何根据自己的业务需求来购买服务器、机器学习软件，只要根据自己的需求就能通过云计算平台获得机器学习成果，得到机器学习数学模型，用于解决实际问题。

具体步骤为：

1.在云管理模块的统一调度下，首先通过Web交互界面，得到用户所需要解决问题的粗略描述，包括问题种类，即选择所属大类，如可从专家系统、认知模拟、规划和问题求解、数据挖掘、网络信息服务、图象识别、故障诊断、自然语言理解、机器人和博弈、其它类别中选择；

2.启用初始建模云，通过步骤1中的用户提供的大类，进入不同的子类界面，填写相应更加详细的信息，包括进行样本上传、选择表示方法、确定结果分析方法、使用范围、期望域等。

3.启动方法发现云，根据用户提供的信息同历史典型事例进行比对，确定因采取哪种或哪几种的机器学习算法。此云模块伴随着后续步骤运行，从而根据各阶段计算结果时刻进行调整。

4.然后将步骤2种用户输入的信息，输入机器学习输入输出模块，得统一化、数据化后，依次进行缺失值处理、噪声数据处理、数据清理、数据集成、数据变换、数据归约等操作，以便得到一般算法能够使用的中间结果。

5.启动评估函数云，根据用户在步骤2输入的信息建立评估函数，对机器学习解的优劣判断做准备。此步骤主要是制定预测性能的具体算法，是否使用交叉验证及留一法、自引导法等验证方法。

6.同时调用EM算法支撑云，对解空间进行最大似然估计，计算最优解或较优解的在解空间的大致位置，增加搜索效率。

7.到达此步骤后，说明准备工作已经完成，即将进行机器学习的训练过程，通过以上步骤的自动判断，分别调用一个或者几个具体的机器学习云模块进行学习，包括决策树算法云、遗传算法云、贝叶斯统计算法云、人工神经网络算法云、支持向量机算法云、关联规则算法云。如用户自定义了机器学习算法扩充云，则优先调用机器学习算法扩充云。

8.决策树算法云、遗传算法云、贝叶斯统计算法云、人工神经网络算法云、支持向量机算法云、关联规则算法云及机器学习算法扩充云启动后，不断像云管理模块、计算云、EM算法支撑云反馈结果和获得中间成果，从而自动调整自身策略，逼近优秀解。同时通过Web交互界面向用户反馈信息，包括计算运行的步骤，得到的中间结果，当前最优解变化等。

9.在EM算法支撑云的反复迭代过程中，不断返回到步骤6，步骤7进行计算，使用步骤5制定的评估函数得到性能评估，从而预测算法进行判断解的优秀程度，此步骤需要大量计算资源，因而需要利用云计算的计算优势，尽可能得计算出优秀解。

10.在终止条件满足时，如计算时间到、若干代迭代无更优解或算法本身迭代结束，通过机器学习输入输出模块将计算结果转换为具有可读性的信息，再通过Web交互界面交还客户，并提供详细数据下载，同时保存机器学习结果，以便再次使用，避免重复计算。

Claims

1.一种云计算环境下机器学习自动选择方法，其特征在于该方法所包含的步骤为：