CN101782976A - 一种云计算环境下机器学习自动选择方法 - Google Patents
一种云计算环境下机器学习自动选择方法 Download PDFInfo
- Publication number
- CN101782976A CN101782976A CN201010017918A CN201010017918A CN101782976A CN 101782976 A CN101782976 A CN 101782976A CN 201010017918 A CN201010017918 A CN 201010017918A CN 201010017918 A CN201010017918 A CN 201010017918A CN 101782976 A CN101782976 A CN 101782976A
- Authority
- CN
- China
- Prior art keywords
- cloud
- machine learning
- algorithm
- data
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010801 machine learning Methods 0.000 title claims abstract description 127
- 238000010187 selection method Methods 0.000 title claims abstract description 5
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 196
- 230000006870 function Effects 0.000 claims abstract description 61
- 230000008901 benefit Effects 0.000 claims abstract description 11
- 238000000034 method Methods 0.000 claims description 89
- 238000013528 artificial neural network Methods 0.000 claims description 36
- 238000003066 decision tree Methods 0.000 claims description 32
- 230000002068 genetic effect Effects 0.000 claims description 25
- 230000008569 process Effects 0.000 claims description 22
- 238000012706 support-vector machine Methods 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 20
- 230000002452 interceptive effect Effects 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 16
- 238000004458 analytical method Methods 0.000 claims description 8
- 238000004088 simulation Methods 0.000 claims description 8
- 230000009467 reduction Effects 0.000 claims description 7
- 238000007476 Maximum Likelihood Methods 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 6
- 230000010354 integration Effects 0.000 claims description 6
- 230000001149 cognitive effect Effects 0.000 claims description 5
- 238000007726 management method Methods 0.000 claims description 5
- 238000003745 diagnosis Methods 0.000 claims description 4
- 238000007418 data mining Methods 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 2
- 238000012896 Statistical algorithm Methods 0.000 claims 1
- 238000013501 data transformation Methods 0.000 claims 1
- 238000012804 iterative process Methods 0.000 claims 1
- 238000013178 mathematical model Methods 0.000 abstract description 12
- 210000002569 neuron Anatomy 0.000 description 33
- 239000013598 vector Substances 0.000 description 12
- 238000013477 bayesian statistics method Methods 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 11
- 230000000694 effects Effects 0.000 description 10
- 238000011161 development Methods 0.000 description 7
- 230000018109 developmental process Effects 0.000 description 7
- 238000012360 testing method Methods 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 6
- 238000013459 approach Methods 0.000 description 5
- 210000004556 brain Anatomy 0.000 description 5
- 238000009826 distribution Methods 0.000 description 5
- 210000005036 nerve Anatomy 0.000 description 5
- 238000003909 pattern recognition Methods 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 4
- 230000002490 cerebral effect Effects 0.000 description 4
- 210000000349 chromosome Anatomy 0.000 description 4
- 238000009396 hybridization Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000005201 scrubbing Methods 0.000 description 4
- 238000002790 cross-validation Methods 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000035772 mutation Effects 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000005520 cutting process Methods 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- 230000016507 interphase Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000035479 physiological effects, processes and functions Effects 0.000 description 2
- 108090000623 proteins and genes Proteins 0.000 description 2
- 238000013138 pruning Methods 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- OYPRJOBELJOOCE-UHFFFAOYSA-N Calcium Chemical compound [Ca] OYPRJOBELJOOCE-UHFFFAOYSA-N 0.000 description 1
- 235000012364 Peperomia pellucida Nutrition 0.000 description 1
- 240000007711 Peperomia pellucida Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000012098 association analyses Methods 0.000 description 1
- 238000013398 bayesian method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013529 biological neural network Methods 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 230000010429 evolutionary process Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000004992 fission Effects 0.000 description 1
- 238000001093 holography Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000035800 maturation Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 231100000572 poisoning Toxicity 0.000 description 1
- 230000000607 poisoning effect Effects 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 238000012113 quantitative test Methods 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000004092 self-diagnosis Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明是一种基于云计算环境的机器学习自主选择方法。通过使用云计算平台,用户无需搭建机器学习的运行环境,也无需选择机器学习算法,更不用调整纷繁复杂的机器学习函数及其附带的参数,只需使用Web方式上传样本数据,就能自动智能的建立符合实际问题的机器学习数学模型。本发明使机器学习的使用摆脱了环境的束缚,发挥了云计算平台的优势,使得机器学习建模针对用户透明,最大程度的降低了机器学习的使用门槛。解决了在实际应用机器学习时,建模选择的难以预测性、参数调整的人工经验性、普通用户困难等缺点。
Description
技术领域
本发明是一种基于云计算环境的机器学习自主选择方法。通过使用云计算平台,使得用户无需搭建机器学习的运行环境,也无需学习机器学习算法,更不用调整纷繁复杂的机器学习函数及其参数,只需在云计算平台下,使用Web方式上传训练数据和预测测试数据,以及确定包括使用范围、期望域等很少的信息,就能得到所需要的多种机器学习模型及具体描述,以便解决实际问题。
背景技术
机器学习是继专家系统应用、人工智能应用后的又一重要应用,同时也是人工智能的一种核心研究课题。其目的是使计算机能够模拟或者实验人类的学习行为,从而获得知识或技能,同时可以不断根据新的信息改善性能。机器学习的能力是非常重要的特征,H.A.Simon认为,学习是系统所作的适应性变化,使得系统在下一次完成同样或类似的任务时获得更好的完成效果。R.s.Michalski认为,学习是构造或修改对于所经历事物的表示。从事专家系统研制的人们则认为学习是知识的获取。这些观点各有侧重,第一种观点强调学习的外部行为效果,第二种则强调学习的内部过程,而第三种主要是从知识工程的实用性角度出发的。
机器学习的研究方法是借鉴生理学、心理学、认知学等对人类本身自我学习机理的了解,建立对人类学习过程的计算模型或认识模型,从而形成各种学习理论和学习方法,建立面向任务的具有特定应用的学习系统。这些研究目标相互影响相互促进。自从1980年在卡内基-梅隆大学召开第一届机器学术研讨会以来,机器学习发展很快,已成为中心课题之一。
而机器学习的历史发展过程分为四个阶段:(1)50年代中期到60年代中期的热烈时期;(2)60年代中期至70年代中期的冷静时期;(3)70年代中期至80年代中期的复兴时期;(4)1986年开始则是机器学习的最新阶段。而目前这个时期,最显著的特点是机器学习已经演变成了一门新兴的边缘学科,融合了各种各样学习方法,应用范围也越来越大,相关学术活动十分活跃。
机器学习发展到现阶段,应用已经十分广泛,诞生了很多优秀的算法,基本上可以概括为基于符号的学习和基于非符号学习,也就是连接学习。而前者基于符号的学习,一般包括机械式学习、指导式学习、示例式学习、类比式学习、基于解释的学习等等。
其中较为常见算法有:决策树算法、遗传算法、贝叶斯统计算法、人工神经网络算法、支持向量机算法、关联规则算法等等。本文设计的方法中自带了这些常见算法的建模模块,并且使用EM算法来对参数进行最大似然估计。
但是使用机器学习技术处理具体任务,主要面临三个问题:(1)在针对某一具体任务时,建立机器学习模型费时费力,由于具体任务细节的差别性,难以直接借鉴其他已经构建好的系统模型,需要根据个人经验来选择。(2)即使某次任务,正确选择了比较符合客观事实本质的机器学习算法,其复杂的参数如何设置也是个必须解决的问题,需要根据经验或者用户机长时间的运算得到,单用户的计算能力难以快速的解决问题(3)用户需要学习和使用具体的机器学习软件,机器学习算法纷繁复杂,自主学习需要花费大量时间,同时用户自主学习的某一些算法也不一定能合适用户需要解决的每一个遇到任务。
而新兴出现的云计算技术,却能很好的解决以上问题,使机器学习更加方便的应用到实际中,更快更好的创造价值。
云计算是在分布式系统、网格计算等发展的基础上提出的一种新型计算模型,是一种新兴的共享基础架构的方法,它面对的是超大规模的分布式环境,核心是提供数据存储和网络服务。这是一种指服务的交付和使用模式,指通过网络以按需、易扩展的方式获得所需的服务。这种服务可以是IT和软件、互联网相关的,也可以是任意其他的服务。云计算提供了最可靠、最安全的数据存储中心,用户不用再担心数据丢失、病毒入侵等麻烦,同时云计算对用户端的设备要求达到了最低。云计算中提到的“云”是一些可以自我维护和管理的虚拟计算资源,通常为一些大型服务器集群,包括计算服务器、存储服务器、宽带资源等等。云计算通过提供各种云,将所有的计算资源集中起来,并由软件实现自动管理,无需人为参与。这使得应用提供者无需为繁琐的细节而烦恼,能够更加专注于自己的业务,有利于创新和降低成本。应用到机器学习上,云计算可以建立好机器学习模型及相关模块供用户选择,使得用户快速的享用机器学习技术的成果来解决问题。
现有云计算平台基本是基于理论计算及存储服务的,未发现有专门为机器学习的建立云计算方法,本发明结合机器学习技术及云计算技术的优点和特性,提供了一种可行的实现方法。
发明内容
技术问题:本发明的目的是提供是一种云计算环境下机器学习自动选择方法。通过使用云计算平台,解决了机器学习建模不便的问题,提供了一种结合云计算技和机器学习技术处理现实问题提供了方便快捷的方法。从而使用户无需为繁琐的细节而烦恼,能够更加专注于自己的业务,有利于创新和降低成本。
技术方案:本发明使机器学习的使用摆脱了环境的束缚,充分发挥了云计算平台高效的计算能力和透明性,最大程度的降低了机器学习的使用门槛,使得用户无需从众多机器学习方法中通过反复实验寻找合适的机器学习方法,解决了在实际应用机器学习时,建模选择的难以预测性、参数调整的人工经验性、普通用户学习困难等缺点。
本发明目的是组建提供机器学习服务的云计算平台的方法。在云计算平台下,通过以下三方面进行系统构建:一方面建立以云形式存在的大量计算机组成的各种机器学习云,包括决策树算法云、遗传算法云、贝叶斯统计算法云、人工神经网络算法云、支持向量机算法云、关联规则算法云,使得云计算平台默认自带了常见的机器学习算法;另一方面通过同样由计算机群组成的初始建模云、搜索空间概估云、方法发现云、EM算法支撑云、评估函数云、计算云、机器学习算法扩充云,从而体现出云的优势,由大量的计算资源计算出普通用户难以或需要长时间计算出的机器学习使用的合适的参数;最后一方面是云计算平台与用户进行交互的必须的模块,包括Web交互界面,机器学习输入输出模块及云管理模块,用以支撑云计算平台的运行。
步骤1)在云管理模块的统一调度下,首先通过Web交互界面,得到用户所需要解决问题的粗略描述,包括问题种类,即选择所属大类,从专家系统、认知模拟、规划和问题求解、数据挖掘、网络信息服务、图象识别、故障诊断、自然语言理解、机器人和博弈、其它类别中选择,
步骤2)启用初始建模云,通过步骤1)中的用户提供的大类,进入不同的子类界面,填写相应更加详细的信息,包括进行样本上传、选择表示方法、确定结果分析方法、使用范围、期望域,
步骤3)启动方法发现云,根据用户提供的信息同历史典型事例进行比对,确定因采取哪种或哪几种的机器学习算法;此云模块伴随着后续步骤运行,从而根据各阶段计算结果时刻进行调整,
步骤4)然后将步骤2种用户输入的信息,输入机器学习输入输出模块,得统一化、数据化后,依次进行缺失值处理、噪声数据处理、数据清理、数据集成、数据变换、数据归约等操作,以便得到一般算法能够使用的中间结果,
步骤5)启动评估函数云,根据用户在步骤2)输入的信息建立评估函数,对机器学习解的优劣判断做准备,从而对具体算法性能进行预测,
步骤6)同时调用EM算法支撑云,对解空间进行最大似然估计,计算最优解或较优解的在解空间的大致位置,增加搜索效率,
步骤7)到达此步骤后,说明准备工作已经完成,即将进行机器学习的训练过程,通过以上步骤的自动判断,分别调用一个或者几个具体的机器学习云模块进行学习,包括决策树算法云、遗传算法云、贝叶斯统计算法云、人工神经网络算法云、支持向量机算法云、关联规则算法云;如用户自定义了机器学习算法扩充云,则优先调用机器学习算法扩充云,
步骤8)经过以上步骤计算,选择一个或若干个算法云,将其启动,同时通过Web交互界面向用户反馈信息,包括计算运行的步骤,得到的中间结果,当前最优解变化,
步骤9)在EM算法支撑云的反复迭代过程中,不断返回到步骤6,步骤7进行计算,同时判断是否达到终止条件,如果达到终止条件则跳转步骤10,否则使用步骤5制定的性能预测算法进行判断解的优秀程度,此步骤需要大量计算资源,因而需要利用云计算的计算优势,尽可能得计算出优秀解,
步骤10)在终止条件满足时,如计算时间到,无更优解或算法本身迭代结束,通过机器学习输入输出模块将计算结果转换为具有可读性的信息,再通过Web交互界面交还客户,并提供详细数据下载,同时保存机器学习结果,以便再次使用,避免重复计算。
一、体系结构
整个方案包括了决策树算法云、遗传算法云、贝叶斯统计算法云、人工神经网络算法云、支持向量机算法云、关联规则算法云、初始建模云、搜索空间概估云、方法发现云、EM算法支撑云、评估函数云、计算云、机器学习算法扩充云以及Web交互界面模块、机器学习输入输出模块、云管理模块。相互关系如图2所示。
下面给出具体模块的说明:
决策树算法云:此云的主要功能是提供的决策树算法建模服务及预测服务。决策树是一种用于分类、聚类、预测的预测型建模的方法,采用的思想是“分而治之”,它将搜索空间分割为若干子集从而建立决策树。目前此算法是应用最广泛的归纳推理算法之一,是一种逼近离散函数的算法,以实例为基础,通常用来作为分类器。而基本的决策树算法可以说是一种贪心算法,现有的已大规模应用的算法都是基本决策树算法的改进和功能加强。此算法云同样包括以下常见改进的决策树算法:C4.5方法、CART方法、SLIQ方法、SPRINT方法等。
C4.5算法增加了对连续型属性、属性值空缺的处理,同样改进了决策树的剪裁能力。CART算法采用一种二分递归分割的技术,将样本分割为两个子集,使得决策树的每个非叶子节点都有两个分枝,从而得到结构简洁的二叉决策树。SLIQ算法主要采用了广度优先算法声称决策树;SPRINT算法则很好的解决了内存容量的限制,处理了其他算法不能适用的超大规模训练集,并且有效的深层了决策树。
决策树算法云的功能一方面是提供基本的决策树算法建模训练服务及预测服务,另一方面智能的根据输入数据的特性选择具体改进的决策树算法进行运算处理。
遗传算法云:此云的主要功能是提供的遗传算法建模服务及预测服务。遗传算法是模拟自然界中按“优胜劣汰”法则进行进化过程而设计的算法。Bagley和Rosengerg于1967年在他们的博士论文中首先提出了遗传算法的概念。1975年Holland出版的专著奠定了遗传算法的理论基础。如今遗传算法不但给出了清晰的算法描述,而且也建立了一些定量分析的结果,在众多领域得到了广泛的应用,当用户提出的问题描述类似于生产任务规划、通信网络设计、TSP问题、背包问题以及图像处理和信号处理等时,可采用此算法云。
遗传算法云的主要目的是使用遗传算法思想,及对用户的目标进行逐渐进化模拟求得最终解。通过初始解进行迭代,不断的从旧的解中按照一定规则产生新解,并且期望新的解要比旧的解优秀。新解如果通过评估函数计算得到的价值越高,它保留的机会也就越大。遗传算法只用编码表示问题,以评估函数得到的价值为依据,不要求明确的解析表达式,因此可以解决任意高度非线性寻优问题。并且易与其他算法结合,取其长处,获得更优效果。
贝叶斯统计算法云:此云的主要功能是提供的贝叶斯建模服务及预测服务。贝叶斯是统计算法可以预测类成员之间的可能关系,如给定某样本数属于某类的可能值。贝叶斯算法主要基于贝叶斯定律,通过计算样本属于特定类概率来进行分类。与其它方法相比,贝叶斯可结合样本信息和先验概率,特别适用于样本难以获得的情况。同时由于需要计算先验概率,随着样本的增多使得计算时间明显增长,更加适合小规模机器学习。当用户的问题描述类似于信息恢复及诊断、经济领域、自动分类、产品质量控制等方面时,可采用此算法云。
贝叶斯统计算法云的主要目的是使用贝叶斯统计方法,计算出属于某一类的对象的概率,具有最大概率的类及是该对象所属类。其处理的对象可以是离散的、连续的,也可以是混合类型的。基于贝叶斯方法,常见的有朴素贝叶斯方法及贝叶斯网络方法。此算法云包括常见的贝叶斯方法模型建立方法并不断得以升级扩充。
人工神经网络算法云:此云的主要功能是提供的人工神经网络建模服务及预测服务。人工神经网络利用计算机技术模拟人脑的智能活动,模拟生物神经网络的结构和信息传导方式,并用数学形式表达出来。人工神经网络是当今智能科技中的一门基础技术,采用的连接机制与人工智能的符号推理机制并列成为智能科技的两大阵营。人工神经网络模拟人脑的解剖生理学特征,用许多并行的简单的神经元,在一定的拓扑结构连下,接受外界信息,同时相互刺激,从而达到分布存储,联想记忆,反馈求精,黑箱映射,权值平衡,动态逼近,全息存录,容错防失的效果。同时由于模拟神经元互连,在数量达到一定级别时,可形成强大的自学习、自适应、自组织、自诊断、自修复能力,通过节点间不断反馈,可在一定程度上模拟人脑的逻辑推理,因此有着广泛的应用范围。特别是在模式识别,函数逼近及贷款风险评估时,可优先采用此算法云。
人工神经网络算法云的主要目的使用人工神经网络技术,采用模拟大脑神经网络的方法,人工构造了一种能够实现某种功能的神经网络。此算法云可产生人脑神经网络的数学模型,形成一种基于模仿大脑神经网络结构和功能而建立的模型。这种模型由大量简单元件及神经元相互连接,形成的一种复杂网络,具有高度的非线性,能够进行复杂的逻辑操作和非线性关系实现。使用范围十分广泛。
支持向量机算法云:此云的主要功能是提供的支持向量机建模服务及预测服务。支持向量机(Support Vector Machine)是近年来在统计学习理论的基础上发展起来的一种新的模式识别方法,在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势。支持向量机的主要应用领域有模式识别、函数逼近和概率密度估计等等,这些领域可优先采用此算法云。
支持向量机算法云的主要目的是,建立一种模型,将样本向量映射到高纬空间,在高维空间中构造最优分类面,获得线性的最优决策函数。通过控制超平面的间隔度量来抑制函数的过拟合,同时通过使用了核函数巧妙的解决了维数问题,避免了学习方法计算的复杂度直接相关样本维数。其中的最优分类超平面在保证样本无错分类情况下,使得分类距离尽可能大,而且保证在经验风险最小的同时,使得推广性的界中置信范围最小,从而确保真实风险最小。
关联规则算法云:此云的主要功能是提供的关联规则建模服务及预测服务。关联规则算法目的是解决大的事务数据集上挖掘项集之间的关联性的一类问题。关联规则分析是机器学习中一大类任务。它起源于对二分变量的分析,用规则的方式来表达两个二分变量之间的关系,以及多个二分变量之间的关系。当然,后来的发展,也使得关联规则不仅仅局限于二分变量,也可以对多分类变量和连续变量进行分析。所以,关联规则可以看作是分析变量之间关系,并且把这种关系表达成非常容易解释的规则的方法。关联规则分析方法对数据分布不作任何要求,所得的结果是完全基于数据的,没有任何主观假定,客观地反映了数据的本质,有很强的说服力。关联规则对数据分析得到的结果可以看作是对数据中变量间所有规律的总结。因此关联规则在提出之后,在各行各业得到了大量的应用,特别是在市场分析、信誉评估、商品价格分析、入侵检测以及信息量极其庞大的天文气象生物等领域的机器学习建模中,可优先采用此算法云。
关联规则算法云的主要目的是建立模型的模型能够解决以下问题:不同对象间的关联关系的模式或形式的描述;提高关联计算的速率并且减少存储空间;在海量数据中的关联分析等。
初始建模云:此云对用户提供的上传样本、基本表示方法、确定结果分析方法、使用范围、期望域等进行初始化,得到最初的模型。
搜索空间概估云:此云的主要功能是提供可行解及优秀解的估计性位置,既得到可能的空间中与问题描述相匹配的搜索范围,尽可能的排除无法诞生优秀解的空间,从而提高搜索效率,减少计算量。
方法发现云:此云的主要功能是选择合适的机器学习算法建立模型。通过概估和初始计算,预测性选择某种或者某几种机器算法云。
EM算法支撑云:此云的主要功能是提供的支持向量机建模服务及预测服务。机器学习中很多算法都要进行模型的参数估计,也就是要进行极大似然估计或极大后验似然估计。当模型中的变量为可直接观察变量时,极大似然或极大后验似然是显然的。但是当某些变量隐藏时,进行极大似然估计就十分复杂难以直接得到。在存在潜在变量的情况下,对模型参数进行估计的方法有很多种,一种非常流行的极大似然估计方法是Expectation-Maxi2mization算法,通常简称为EM算法。它不是直接对复杂的后验分布进行极大化或者进行模拟计算,而是在观察数据的基础上添加一些潜在数据,从而简化计算并完成一系列简单的极大化或模拟。EM算法是一种从非完全数据中求解模型参数的极大似然估计方法。非完全数据一般分为两种情况:一种是由于观察过程本身的限制或者错误,如人为失误、难以度量等,得到的不完全数据;一种是参数的似然函数直接优化十分困难,而引入额外的参数,如隐含的或丢失的参数。对其优化方法是于是定义原始观察数据加上额外数据组成“完全数据”,原始观察数据自然就成为“不完全数据”。
评估函数云:此云的主要功能是反映建立机器学习模型时与目标的相符程度,以及对已建模型的评估。一方面根据各算法的特性及历史经验规定评估函数,另一方面通过检查在训练数据上表现是否良好,再在独立的测试数据上进行测试。其中的测试数据是必须脱离模型建立算法的,只参与预测判断。
计算云:此云的主要功能是充分发挥云计算的优势,在超大规模的分布式环境下,利用提供的计算性能、数据存储和网络服务来对机器学习需要的海量运算进行计算。云计算充分发挥了并行计算、分布式计算和网格计算的计算优势,可以很好的提供计算服务。
机器学习算法扩充云:此云的主要功能是提供在的机器学习算法无法满足用户需要时,为用户自定义或平台本身自升级预留的接口。一方面机器学习算法扩充云按照一定规则构造新的学习算法,另一方面此云负责联系其它云及模块,从而使得构造的新学习算法可以完整的使用。
Web交互界面模块:此云的主要功能是提供交互界面。云计算支持用户在任意位置、使用各种终端获取应用服务。所请求的资源来自“云”,而不是固定的有形的实体。应用在“云”中某处运行,但实际上用户无需了解、也不用担心应用运行的具体位置,也就是说针对用户是透明的。只需要一台笔记本或者一个手机,就可以通过网络服务来实现我们需要的一切,甚至包括超级计算这样的任务。因此,通过Web界面进行交互是最佳的方式,用户不必关心后台进行的操作和运算,只需关心输入的信息和输出的结果。此模块及处理与用户的交互问题。
机器学习输入输出模块:此云的主要功能是提供的支持向量机建模服务及预测服务。为机器学习的数学建模提供可行的输入样本及参数描述,实际上也包括了纷繁复杂的预处理工作。尽可能的将不同记录形式、不同习惯、不同时间短、不同位置、不同的数据集合度、不同错误形式的数据集中、整合、清理。通常要进行统一化、数据化,格式转换,进行缺失值处理、噪声数据处理、数据清理、数据集成、数据变换、数据归约等操作
云管理模块:此云的主要功能是管理各模块的启动、执行以及监控状态。云计算由于其超大规模性,一般拥有数百上千台服务器,大型企业甚至拥有几十万台服务器,而且针对用户透明,这都需要大量的管理操作,操控各模块有条不紊的运行,调度和分配任务,合理利用存储、计算、带宽资源。
二、方法流程
1、搭建及运行流程
1.用户首先安装和启动云管理模块,然后通过管理模块依次增加决策树算法云、遗传算法云、贝叶斯统计算法云、人工神经网络算法云、支持向量机算法云、关联规则算法云、初始建模云、搜索空间概估云、方法发现云、EM算法支撑云、评估函数云、计算云、机器学习算法扩充云以及Web交互界面模块、机器学习输入输出模块。
2.启动Web交互界面模块,等待用户的使用。当用户通过Web交互界面提交建立机器学习模型请求时,云管理模块就会启动和调用其它云模块,进行机器学习的数学建模。
3.调用初始建模云,对用户提供的上传样本、基本表示方法、确定结果分析方法、使用范围、期望域等进行初始化,得到最初的模型。
4.运行方法发现云,根据用户提供的信息同历史典型事例进行比对,确定因采取哪种或哪几种的机器学习算法。此云模块伴随着后续步骤运行,从而根据各阶段计算结果时刻进行调整。
5.云管理模块通过输入机器学习输入输出模块,将用户通过Web交互界面输入的数据进行统一化、数据化后,依次进行缺失值处理、噪声数据处理、数据清理、数据集成、数据变换、数据归约等操作,以便得到一般算法能够使用的中间结果。
6.启动评估函数云对判断机器学习解的优劣做准备。此步骤主要是制定预测性能的具体算法,是否使用交叉验证及留一法、自引导法等验证方法。
7.调用EM算法支撑云,对解空间进行最大似然估计,计算最优解或较优解的在解空间的大致位置,增加搜索效率。
EM算法的基本原理可以表述如下:可以观察到的数据是y,完全数据x=(y,z),z是隐变量,表示缺失数据,θ是模型参数。θ关于的后验分布p(θ|y)很复杂,难以进行各种不同统计计算。假如z已知,则可能得到一个关于θ的简单的添加后验分布p(θ|y,z),利用p(θ|y,z)的简单性可以进行各种统计计算。然后,又可以对z的假定作检查和改进,从而将一个复杂的极大化或抽样问题简化。
可以看出,EM算法是一种迭代方法,主要用于求后验分布的众数。
具体实现步骤如下:假设y是服从某一分布的非完全观测数据集,且存在一个完全数据集x=(y,z),则x的密度函数为:p(x|θ)=p(y,z|θ)=p(z|y,θ)p(y|θ)从中可以看出,密度函数p(x|θ)是由边际密度函数p(θ|y)、隐变量z的假设、参数θ初始估计值以及隐变量z与观测变量y之间的关系决定。
8.准备工作完成后,进行机器学习的建模过程,通过以上步骤的自动判断,分别调用一个或者几个具体的机器学习云模块进行学习,包括决策树算法云、遗传算法云、贝叶斯统计算法云、人工神经网络算法云、支持向量机算法云、关联规则算法云。如用户自定义了机器学习算法扩充云,则优先调用机器学习算法扩充云。
2、机器学习建模流程
1.决策树算法建模
决策树可看作一个树状预测模型,它通过把实例从根节点排列到某个叶子节点来分类实例,叶子节点即为实例所属的分类,如图3决策树基本形状图所示。决策树的核心问题是选择分裂属性和决策树的剪枝。决策树的算法有很多,有ID3、C4.5、CART等等。这些算法均采用自顶向下的贪婪算法,每个节点选择分类效果最好的属性将节点分裂为2个或多个子结点,继续这一过程直到这棵树能准确地分类训练集,或所有属性都已被使用过。如其中的分类回归树(CART)是机器学习中的一种分类和回归算法。设训练样本集L={X1,X2,X3,…Xn,Y},其中,Xi(i=1,2,3…,n)称为属性向量;Y称为标签向量或类别向量。当Y是有序的数量值时,称为回归树;当Y是离散值时,称为分类树。在树的根节点处,搜索问题集(数据集合空间),找到使得下一代子节点中数据集的非纯度下降最大的最优分裂变量和相应的分裂阈值。
在这里非纯度指标用Gini指数来衡量,它定义为:其中,i(t)是节点t的Gini指数,p(i/t)表示在节点t中属于i类的样本所占的比例,p(j/t)是节点t中属于j类的样本所占的比例。用该分裂变量和分裂阈值把根节点t1分裂成t2和t3,如果在某个节点ti处,不可能再有进一步非纯度的显著降低,则该节点ti成为叶结点,否则继续寻找它的最优分裂变量和分裂阈值进行分裂。对于分类问题,当叶节点中只有一个类,那么这个类就作为叶节点所属的类,若节点中有多个类中的样本存在,根据叶节点中样本最多的那个类来确定节点所属的类别;对于回归问题,则取其数量值的平均值。很明显,一棵很大的树可能过分拟合数据,但较小的树又可能无法捕获重要的结构。树的最佳大小是控制模型复杂性的调整参数,它应该由数据自适应的选择。一种可取的策略是增长一棵较大的树t0,仅当达到最小节点大小(比如3)时才停止分裂过程。然后利用剪枝策略和5折或10折交叉验证相结合的方法来修剪这棵树,从而将一些噪声和干扰数据排除,获得最优树。从而建立了决策树的数学模型。
2.遗传算法建模
对于小空间,经典的穷举法就足够了;而对大空间,则需要使用特殊的人工智能技术。遗传算法(Genetic Algorithm)是这些技术中的一种,它是一类模拟生物进化过程而产生的由选择算子、杂交算子和变异算子三个基本算子组成的全局寻优算法。它从一个初始族出发,由选择算子选出性状好的父本,由杂交算子进行杂交运算,变异算子进行少许变异,在一定概率规则控制下随机搜索模型空间。一代代进化,直到最终解对应的误差泛函值达到设定的要求。
在第t次迭代,遗传算法维持一个潜在解的群体每个解x1 t使用评估函数云得到的评价函数评价评价。然后通过选择更合适个体(t+1次迭代)形成一个新的群体。新的群体的成员通过杂交和变异进行变换,形成新的解。杂交组合了两个亲体染色体(即待求参数的二进制编码串)的特征,通过交换父代相应的片断形成了两个相似的后代。例如父代染色体为(a1,b1,c1,d1,e1)和(a2,b2,c2,d2,e2),在第二个基因后杂交,产生的后代为(a1,b1,c2,d2,e2)和(a2,b2,c1,d1,e1)。杂交算子的目的是在不同潜在解之间进行信息交换。变异是通过用一个等于变异率的概率随机地改变被选择染色体上的一个或多个基因(染色体中的一个二进制位)。变异算子的意图是向群体引入一些额外的变化性。建模过程如图4遗传算法基本过程图所示。由此这个过程建立了遗传算法数学模型。
3.贝叶斯统计建模
贝叶斯即Bayes统计方法建模是一种在已知先验概率与类条件概率的情况下的模式分类方法。其处理的待分样本的分类结果取决于各类域中样本的全体。设
训练样本集分为M类,记为C={c1,c2,…,ct,…,cM},每类的先验概率为P(ci),i=1,2,…,M。当样本集非常大时,可以认为P(ci)=ci样本数/总样本数。对于一个待分样本X,其归于ci类的类条件概率是P(X/ci),则根据Bayes定理,
可得到ci类的后验概率P(ci/X)=P(X/ci)P(ci)/P(X)P(ci/X)。若P(ci/X)=MaxjP(cj/X),i=1,2,…,M,j=1,2,…,M,则有X∈ci,这就是最大后验概率判决准则。Bayes分类方法在理论上论证得比较充分,在应用上也是非常广泛的。总体的概率分布和各类样本的概率分布函数(或密度函数)常常是不知道的。为了获得它们,就要求样本足够大。此外,当用于文本分类时,Bayes法要求表达文本的主题词相互独立,这样的条件在实际文本中一般很难满足,因此该方法往往在效果上难以达到理论上的最大值。通过建立在统计性的先验概率与类条件概率的这种方法,可以建立贝叶斯统计模型。
4.人工神经网络算法建模
人工神经网络(Artificial Neural Network.简称ANN)正是在人类对其大脑神经网络认识理解的基础上人工构造的能够实现某种功能的神经网络。它是理论化的人脑神经网络的数学模型,是基于模仿大脑神经网络结构和功能而建立的一种信息处理系统。它实际上是由大量简单元件相互连接而成的复杂网络,具有高度的非线性,能够进行复杂的逻辑操作和非线性关系实现的系统。
人工神经网络按层来组织,每一层由多个人工神经元组成,它们之间没有连接线连接,而层与层之间通过连接线进行连接。人工神经网络可以有单层,也可以有多层,目前常用的有单层、二层和三层。
人工神经网络根据人工神经元的数据流向方式分为两种结构方式:前向型和反馈型。如果人工神经元数据从输入到输出单向流动,没有反馈,称之为前向型,如果有反馈(无论是反馈给本神经元还是同层的其它神经元),则称之为反馈型。
人工神经元是人工神经网络的基本单位,人工神经元可以有多种模型,但有一种基本横型最为常见,其组成如下:
I.输入:一个人工神经元可以有多个输入。
II.输出:一个人工神经元只能有一个输出。
III.内部结构:用加法器将输入相加,然后加上偏差值,然后用激活函数计算它,计算的结果作为的神经元的输出
A.加法器:将输入线性相加,确切地说,是将输入和相应权值的乘积进行加和。
B.偏差值:加法器所产生的值经常会受到外部干扰和影响而产生偏差,因此需要一个偏差来作调整,一般用来θk来表示第k个神经元的偏差值。
C.激活函数:用来限制神经元输出值的范围,一般在-1~+1或0~1。
常用的激活函数有Logistic、Simoid等。
人工神经元之间以连接线相连,每根连接线都有权值,如上所述,连接线的目标神经元内部的加法器在进行加和时会使用到该权值。用ωij表示第i个神经元到第j个神经元间连接线的权值。
人工神经网络具有学习功能,这个学习就是用真实的数据样本对其进行训练。一个数据样本有输入和输出数据,用输入数据作为人工神经网络的输入,然后比较人工神经网络的输出和样本的输出,通过调整人工神经网络中的参数(即连接线的权值和神经元的偏差),使得两者的差值为0或在可以接受的范围之内。
经过训练的人工神经网络具有一定的判断与推理能力,并能进行一定的预测和决策。反射传播模型(BP,Back Propagation)是人工神经网络最常见的一种模型,有超过半数以上的应用采用此模型。它是多层前向型结构,由以下三部分组成:
I.输入层:只有一层,由m个神经元组成,接收外界m个输入xi(i=1,2,...,m),每个输入与一个神经元相连。这一层的神经元是非基本的神经元,没有内部结构,其输出的值就是输入的值。
II.隐藏层:可以有多层,每层由n个神经元组成,这些神经元就是前面介绍的基本神经元。
III.输出层:只有一层,由p个神经元组成,也是基本神经元。
上述各层之间(包括多个隐藏层之间)的神经元连接是多对多的连接,而输入和输出层与外界是一对一的连接,如图5人工神经网络基本结构图所示。
基本神经元的激活函数采用Logistic函数,表达式为:
算法分以下几个步骤:
计算隐藏层及输出层的每个神经元的j的输入值,从而算出输出值:
b)输出:采用Logistic函数计算输出值。
计算输出层神经元j的误差:
Errj=Oi(1-Oj)(Tj-Oj)
式中Tj为样本类标号。
计算隐藏层每个神经元j的误差:
式中k是后一层所有与神经元j有连接的神经元,Errk则是这些神经元的误差。
计算网络中每个连接线权值ωij的修正值:
Δωij=(l)ErriOj
式中(l)为算法的学习率,这个值由训练者自行制定。学习率的选择有助于寻找全局最小的权值,选择得太小,学习过程会进行得很慢,太大的话,可能会出现在不适当的解之间摆动。一般可以选择(0,1)之间的一个常量,常用的经验值为1/t,t是已迭代的次数。
然后计算出该连接线新的权值,并修改之:
ωij=ωij+Δωij
计算网络中隐藏层和输出层中每个神经元偏差值的修正值:
Δθj=(l)Errj
然后计算出该神经元新的偏差值:
θj=θj+Δθj
2)查看终止条件,一般有若干个,如:
a)Δωi和Δθj都已经足够小,小于某一指定值;
b)迭代次数已经达到指定数量。
这个过程建立了人工神经网络的数学模型,通过训练好的神经网络模型,可以对输入样本进行计算,从而得到预测值。
5.支持向量机算法建模
支持向量机最初思想是对于线性可分问题如何寻求最优分类面,对于特征空间中线性可分问题,最优分类面就是间隔γ最大的分界面,根据上述核理论的分析可知,它的确是在保证样本被正确分类前提下,具有最好泛化能力的分界面。对于特征空间中线性不可分问题,可通过一个惩罚因子来综合考虑间隔和松弛因子的影响。
考虑一个用某特征空间的超平面对给定训练数据集做二值分类的问题。对于给定样本点:(x1,y1),...,(xl,yl),xi∈Rn,yi∈{-1,+1}其中向量xi可能是从对象样本集抽取某些特征直接构造的向量,也可能是原始向量通过某个核函数映射到核空间中的映射向量。在特征空间中构造分割平面:
(w·x)+b=0使得:
可以计算出,训练数据集到一给定的分割平面的最小距离为:
根据SVM对优化分割平面的定义,可以看出对该平面的求解问题可以简化为:在满足条件式(3)的情况下,计算能最大化p(w,b)的分割平面的法向量w和偏移量b。Vapnik等人证明:
分割超平面的法向量w0是所有训练集向量的线性组合。即w0可以描述为:
在线性可分的情形下,对所有的训练样本都应该满足|f(x)|≥1,在下文中,我们把满足|f(x)|<1的区域称为分割超平面所对应的边界区域。
最优分割平面的求解等价于在前者约束下最大化下面的
理把上述问题转化为其对偶问题:
对于线性不可分的训练集,可以引入松弛变量ξi,改写为下面的:
Subject to yi(w·xi+b)≥1-ξi,ξi≥0
类似的可以得到相应的对偶问题:
这种形式的求解是一个典型的有约束的二次型优化问题,已经有了很多成熟的求解算法,近年来,V.Vapnik,C.Burges,E.Osuna,T.Joachims,J.Platt等人的一系列工作使得对大规模训练集的支持向量机算法实现成为可能。
通过以上描述建立的数学模型,可以自动寻找出那些对分类有较好区分能力的支持向量,由此构造出的分类器可以最大化类与类的间隔,因而有较好的适应能力和较高的区分率。该方法只需要由各类域的边界样本的类别来决定最后的分类结果,最终建立了支持向量机数学模型。
6.关联规则算法建模
关联规则挖掘是在大的事务数据集上挖掘项集之间的关联性的一类问题。关联规则分析是机器学习中一大类任务。它起源于对二分变量的分析,用规则的方式来表达两个二分变量之间的关系,以及多个二分变量之间的关系。当然,后来的发展,也使得关联规则不仅仅局限于二分变量,也可以对多分类变量和连续变量进行分析。所以,关联规则可以看作是分析变量之间关系,并且把这种关系表达成非常容易解释的规则的方法。
关联规则分析方法对数据分布不作任何要求,所得的结果是完全基于数据的,没有任何主观假定,客观地反映了数据的本质,有很强的说服力。关联规则对数据分析得到的结果可以看作是对数据中变量间所有规律的总结。因此关联规则在提出之后,在各行各业得到了大量的应用。
关联规则的算法就是由输入向输出的一个求解过程。设I={i1,i2,…,im}是m个不同项目的集合,其中的元素称为项(Item)。记D为交易T(Transaction)的集合,这里交易T是项的集合,并且对应每一个交易有唯一的标识,如交易号,记作TID。一个关联规则是形如的蕴涵式,这里, 并且X∩Y=θ。X称为规则的前提,Y是结果。规则在交易集D中的支持度(Support)是指包含X和Y的交易数与所有交易数之比,记为即规则在交易集D中的可信度(confidence)是指包含X和Y的交易数与包含X的交易数之比,即给定一个交易集D,挖掘关联规则问题就是产生支持度和可信度分别大于用户给定的最小支持度(Minsupp)和最小可信度(Minconf)的关联规则,称为强规则。
通过以上过程得到的含有描述规则的数学模型,即为关联规则建模。
有益效果:由于网络的发展,信息呈爆炸性增长,如何有效利用这些信,并使用这些信息提高生产率成为迫切需要解决的问题。目前的现状是大量可以有效获得的信息中只有极少部分可以被正确的使用,消耗了大量资源的信息不仅未能够被有效地使用,而且由于有用的信息正在更深地被掩埋在无用信息之中,变得更难以利用。机器学习是解决这类问题的有效方法之一。随着机器学习研究的深入和具体应用领域的扩展,带来了大量的机器学习建模任务需求。同样由于机器学习种类繁多,针对具体的问题描述需要相适应的机器学习算法才能建立较好的复合问题本质特征的数学模型,往往花费了大量时间寻找的机器学习模型不能很好的反映客观实际。
针对具体任务来建立在机器学习基础上的模型费时费力,由于具体任务细节的差别性,难以直接借鉴其他已经构建好的机器学习模型,需要根据个人经验来选择。即使正确选择了比较符合客观事实本质的机器学习算法,如何设置复杂的参数,也需要根据经验或者用户机长时间的运算得到,单用户的计算能力难以快速的解决问题。同时,用户需要学习和使用具体的机器学习软件,机器学习算法纷繁复杂,用户自主学习需要花费大量时间,而用户自主学习的某一些算法也不一定能合适用户需要解决的每一个任务。
本方案提供的解决途径一方面充分利用计算能力强的云计算平台,解决机器学习时复杂的计算问题,另一方面利用云计算针对用户的简易使用性、透明性,解决了普通用户难以选择符合客观实际的机器学习算法,从而快速建立能够解决实际问题的机器学习模型,并尽可能自动的发现合适的参数。
附图说明
图1机器学习建模云计算执行流程图,
图2模块关系图,
图3决策树基本形状图,
图4遗传算法基本过程图,
图5人工神经网络基本结构图,
具体实施方式
本发明是一种基于云计算环境的机器学习自主选择方法。通过使用云计算平台,用户无需搭建机器学习的运行环境,也无需选择机器学习算法,更不用调整纷繁复杂的机器学习函数及其附带的参数,只需使用Web方式上传样本数据,就能自动智能的建立符合实际问题的机器学习数学模型。本发明使机器学习的使用摆脱了环境的束缚,发挥了云计算平台的优势,使得机器学习建模针对用户透明,最大程度的降低了机器学习的使用门槛。解决了在实际应用机器学习时,建模选择的难以预测性、参数调整的人工经验性、普通用户困难等缺点。最终建立的平台能够充分结合云计算优势,即可将所有的计算资源集中起来,由软件实现自动管理。在数据分析过程中,它将历史数据与现有数据进行整合,使收集到的信息更加精确,可以为机器学习提供智能服务。用户不再需要关心如何根据自己的业务需求来购买服务器、机器学习软件,只要根据自己的需求就能通过云计算平台获得机器学习成果,得到机器学习数学模型,用于解决实际问题。
具体步骤为:
1.在云管理模块的统一调度下,首先通过Web交互界面,得到用户所需要解决问题的粗略描述,包括问题种类,即选择所属大类,如可从专家系统、认知模拟、规划和问题求解、数据挖掘、网络信息服务、图象识别、故障诊断、自然语言理解、机器人和博弈、其它类别中选择;
2.启用初始建模云,通过步骤1中的用户提供的大类,进入不同的子类界面,填写相应更加详细的信息,包括进行样本上传、选择表示方法、确定结果分析方法、使用范围、期望域等。
3.启动方法发现云,根据用户提供的信息同历史典型事例进行比对,确定因采取哪种或哪几种的机器学习算法。此云模块伴随着后续步骤运行,从而根据各阶段计算结果时刻进行调整。
4.然后将步骤2种用户输入的信息,输入机器学习输入输出模块,得统一化、数据化后,依次进行缺失值处理、噪声数据处理、数据清理、数据集成、数据变换、数据归约等操作,以便得到一般算法能够使用的中间结果。
5.启动评估函数云,根据用户在步骤2输入的信息建立评估函数,对机器学习解的优劣判断做准备。此步骤主要是制定预测性能的具体算法,是否使用交叉验证及留一法、自引导法等验证方法。
6.同时调用EM算法支撑云,对解空间进行最大似然估计,计算最优解或较优解的在解空间的大致位置,增加搜索效率。
7.到达此步骤后,说明准备工作已经完成,即将进行机器学习的训练过程,通过以上步骤的自动判断,分别调用一个或者几个具体的机器学习云模块进行学习,包括决策树算法云、遗传算法云、贝叶斯统计算法云、人工神经网络算法云、支持向量机算法云、关联规则算法云。如用户自定义了机器学习算法扩充云,则优先调用机器学习算法扩充云。
8.决策树算法云、遗传算法云、贝叶斯统计算法云、人工神经网络算法云、支持向量机算法云、关联规则算法云及机器学习算法扩充云启动后,不断像云管理模块、计算云、EM算法支撑云反馈结果和获得中间成果,从而自动调整自身策略,逼近优秀解。同时通过Web交互界面向用户反馈信息,包括计算运行的步骤,得到的中间结果,当前最优解变化等。
9.在EM算法支撑云的反复迭代过程中,不断返回到步骤6,步骤7进行计算,使用步骤5制定的评估函数得到性能评估,从而预测算法进行判断解的优秀程度,此步骤需要大量计算资源,因而需要利用云计算的计算优势,尽可能得计算出优秀解。
10.在终止条件满足时,如计算时间到、若干代迭代无更优解或算法本身迭代结束,通过机器学习输入输出模块将计算结果转换为具有可读性的信息,再通过Web交互界面交还客户,并提供详细数据下载,同时保存机器学习结果,以便再次使用,避免重复计算。
Claims (1)
1.一种云计算环境下机器学习自动选择方法,其特征在于该方法所包含的步骤为:
步骤1)在云管理模块的统一调度下,首先通过Web交互界面,得到用户所需要解决问题的粗略描述,包括问题种类,即选择所属大类,从专家系统、认知模拟、规划和问题求解、数据挖掘、网络信息服务、图象识别、故障诊断、自然语言理解、机器人和博弈、其它类别中选择,
步骤2)启用初始建模云,通过步骤1)中的用户提供的大类,进入不同的子类界面,填写相应更加详细的信息,包括进行样本上传、选择表示方法、确定结果分析方法、使用范围、期望域,
步骤3)启动方法发现云,根据用户提供的信息同历史典型事例进行比对,确定因采取哪种或哪几种的机器学习算法;此云模块伴随着后续步骤运行,从而根据各阶段计算结果时刻进行调整,
步骤4)然后将步骤2种用户输入的信息,输入机器学习输入输出模块,得统一化、数据化后,依次进行缺失值处理、噪声数据处理、数据清理、数据集成、数据变换、数据归约等操作,以便得到一般算法能够使用的中间结果,
步骤5)启动评估函数云,根据用户在步骤2)输入的信息建立评估函数,对机器学习解的优劣判断做准备,从而对具体算法性能进行预测,
步骤6)同时调用EM算法支撑云,对解空间进行最大似然估计,计算最优解或较优解的在解空间的大致位置,增加搜索效率,
步骤7)到达此步骤后,说明准备工作已经完成,即将进行机器学习的训练过程,通过以上步骤的自动判断,分别调用一个或者几个具体的机器学习云模块进行学习,包括决策树算法云、遗传算法云、贝叶斯统计算法云、人工神经网络算法云、支持向量机算法云、关联规则算法云;如用户自定义了机器学习算法扩充云,则优先调用机器学习算法扩充云,
步骤8)经过以上步骤计算,选择一个或若干个算法云,将其启动,同时通过Web交互界面向用户反馈信息,包括计算运行的步骤,得到的中间结果,当前最优解变化,
步骤9)在EM算法支撑云的反复迭代过程中,不断返回到步骤6,步骤7进行计算,同时判断是否达到终止条件,如果达到终止条件则跳转步骤10,否则使用步骤5制定的性能预测算法进行判断解的优秀程度,此步骤需要大量计算资源,因而需要利用云计算的计算优势,尽可能得计算出优秀解,
步骤10)在终止条件满足时,如计算时间到,无更优解或算法本身迭代结束,通过机器学习输入输出模块将计算结果转换为具有可读性的信息,再通过Web交互界面交还客户,并提供详细数据下载,同时保存机器学习结果,以便再次使用,避免重复计算。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201010017918 CN101782976B (zh) | 2010-01-15 | 2010-01-15 | 一种云计算环境下机器学习自动选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201010017918 CN101782976B (zh) | 2010-01-15 | 2010-01-15 | 一种云计算环境下机器学习自动选择方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101782976A true CN101782976A (zh) | 2010-07-21 |
CN101782976B CN101782976B (zh) | 2013-04-10 |
Family
ID=42522964
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201010017918 Expired - Fee Related CN101782976B (zh) | 2010-01-15 | 2010-01-15 | 一种云计算环境下机器学习自动选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101782976B (zh) |
Cited By (88)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102468975A (zh) * | 2010-11-16 | 2012-05-23 | 苏州搜能信息科技有限公司 | 用于云计算移动网络资源管理模拟云计算系统及应用系统 |
CN102509177A (zh) * | 2011-11-11 | 2012-06-20 | 国网信息通信有限公司 | 一种基于云平台的局部加权线性回归预测运算的方法 |
CN102523246A (zh) * | 2011-11-23 | 2012-06-27 | 陈刚 | 一种云计算处理系统及方法 |
CN102724298A (zh) * | 2012-05-25 | 2012-10-10 | 清华大学 | 一种云环境下存储参数的配置方法 |
CN102799512A (zh) * | 2012-07-04 | 2012-11-28 | 南京邮电大学 | 一种基于向量自回归的云计算中虚拟机监控方法 |
CN103036745A (zh) * | 2012-12-21 | 2013-04-10 | 北京邮电大学 | 云计算中一种基于神经网络的异常检测系统 |
CN103139278A (zh) * | 2011-12-05 | 2013-06-05 | 北京网康科技有限公司 | 一种网络资源预取并缓存加速的方法及其装置 |
CN103605695A (zh) * | 2013-11-05 | 2014-02-26 | 佛山职业技术学院 | 一种基于因特网的人工智能知识逻辑系统及方法 |
CN104951425A (zh) * | 2015-07-20 | 2015-09-30 | 东北大学 | 一种基于深度学习的云服务性能自适应动作类型选择方法 |
CN105075180A (zh) * | 2013-02-05 | 2015-11-18 | 思科技术公司 | 使用分布式学习机器反馈来动态调整一组被监控的网络属性 |
WO2015184729A1 (en) * | 2014-06-05 | 2015-12-10 | Tsinghua University | Method and system for hyper-parameter optimization and feature tuning of machine learning algorithms |
CN105320835A (zh) * | 2014-07-15 | 2016-02-10 | 通用电气智能平台有限公司 | 用于时间序列数据分析方法市场的设备和方法 |
CN105808500A (zh) * | 2016-02-26 | 2016-07-27 | 山西牡丹深度智能科技有限公司 | 深度学习的实现方法、装置 |
US9436507B2 (en) | 2014-07-12 | 2016-09-06 | Microsoft Technology Licensing, Llc | Composing and executing workflows made up of functional pluggable building blocks |
CN106067028A (zh) * | 2015-04-19 | 2016-11-02 | 北京典赞科技有限公司 | 基于gpu的自动化机器学习的建模方法 |
CN106250986A (zh) * | 2015-06-04 | 2016-12-21 | 波音公司 | 用于机器学习的高级分析基础构架 |
CN106416319A (zh) * | 2014-06-02 | 2017-02-15 | 高通股份有限公司 | 从交叠位置数据推导关系 |
CN106445988A (zh) * | 2016-06-01 | 2017-02-22 | 上海坤士合生信息科技有限公司 | 一种大数据的智能处理方法和系统 |
CN106537423A (zh) * | 2014-07-12 | 2017-03-22 | 微软技术许可有限责任公司 | 作为服务的自适应特征化 |
CN106528489A (zh) * | 2015-09-14 | 2017-03-22 | 上海羽视澄蓝信息科技有限公司 | 基于云计算的车辆检测机器学习系统 |
CN106779087A (zh) * | 2016-11-30 | 2017-05-31 | 福建亿榕信息技术有限公司 | 一种通用机器学习数据分析平台 |
CN107092962A (zh) * | 2016-02-17 | 2017-08-25 | 阿里巴巴集团控股有限公司 | 一种分布式机器学习方法和平台 |
CN107255969A (zh) * | 2017-06-28 | 2017-10-17 | 重庆柚瓣家科技有限公司 | 养老机器人用监管系统 |
CN107291811A (zh) * | 2017-05-18 | 2017-10-24 | 浙江大学 | 一种基于云端知识融合的感认知增强机器人系统 |
CN107329445A (zh) * | 2017-06-28 | 2017-11-07 | 重庆柚瓣家科技有限公司 | 机器人行为准则智能监管的方法 |
CN107538492A (zh) * | 2017-09-07 | 2018-01-05 | 福物(上海)机器人科技有限公司 | 移动机器人的智能操控系统、方法及智能学习方法 |
CN107766940A (zh) * | 2017-11-20 | 2018-03-06 | 北京百度网讯科技有限公司 | 用于生成模型的方法和装置 |
WO2018040561A1 (zh) * | 2016-08-31 | 2018-03-08 | 华为技术有限公司 | 数据处理方法、装置及系统 |
CN107921262A (zh) * | 2015-08-26 | 2018-04-17 | 波士顿科学神经调制公司 | 用于优化脊髓刺激的机器学习 |
CN107977712A (zh) * | 2017-12-20 | 2018-05-01 | 四川九洲电器集团有限责任公司 | 联网式机器学习系统 |
CN108009643A (zh) * | 2017-12-15 | 2018-05-08 | 清华大学 | 一种机器学习算法自动选择方法和系统 |
CN108228325A (zh) * | 2017-10-31 | 2018-06-29 | 深圳市商汤科技有限公司 | 应用管理方法和装置、电子设备、计算机存储介质 |
US10026041B2 (en) | 2014-07-12 | 2018-07-17 | Microsoft Technology Licensing, Llc | Interoperable machine learning platform |
CN108343125A (zh) * | 2018-02-27 | 2018-07-31 | 浙江欧琳生活健康科技有限公司 | 一种基于无线控制下水器下水的方法及系统 |
CN108572610A (zh) * | 2017-03-13 | 2018-09-25 | 欧姆龙株式会社 | 评价系统、安全控制器、可读取记录媒体及评价方法 |
WO2018176215A1 (en) * | 2017-03-28 | 2018-10-04 | Oracle International Corporation | Systems and methods for intelligently providing supporting information using machine-learning |
CN108628669A (zh) * | 2018-04-25 | 2018-10-09 | 北京京东尚科信息技术有限公司 | 一种调度机器学习算法任务的方法和装置 |
CN108665072A (zh) * | 2018-05-23 | 2018-10-16 | 中国电力科学研究院有限公司 | 一种基于云架构的机器学习算法全过程训练方法及系统 |
CN108764267A (zh) * | 2018-04-02 | 2018-11-06 | 上海大学 | 一种基于对抗式决策树集成的拒绝服务攻击检测方法 |
CN108898229A (zh) * | 2018-06-26 | 2018-11-27 | 第四范式(北京)技术有限公司 | 用于构建机器学习建模过程的方法及系统 |
CN108960433A (zh) * | 2018-06-26 | 2018-12-07 | 第四范式(北京)技术有限公司 | 用于运行机器学习建模过程的方法及系统 |
CN109117266A (zh) * | 2018-07-13 | 2019-01-01 | 视云融聚(广州)科技有限公司 | 基于多层架构的视频人工智能训练平台 |
CN109240658A (zh) * | 2018-09-12 | 2019-01-18 | 郑州云海信息技术有限公司 | 一种基于神经网络的软件架构选择的方法及装置 |
CN109325541A (zh) * | 2018-09-30 | 2019-02-12 | 北京字节跳动网络技术有限公司 | 用于训练模型的方法和装置 |
CN109376844A (zh) * | 2018-10-30 | 2019-02-22 | 银河水滴科技(北京)有限公司 | 基于云平台和模型推荐的神经网络自动训练方法和装置 |
CN109409533A (zh) * | 2018-09-28 | 2019-03-01 | 深圳乐信软件技术有限公司 | 一种机器学习模型的生成方法、装置、设备及存储介质 |
JP2019046324A (ja) * | 2017-09-05 | 2019-03-22 | ファナック株式会社 | 制御装置 |
CN109635833A (zh) * | 2018-10-30 | 2019-04-16 | 银河水滴科技(北京)有限公司 | 一种基于云平台和模型智能推荐的图像识别方法及系统 |
CN109635918A (zh) * | 2018-10-30 | 2019-04-16 | 银河水滴科技(北京)有限公司 | 基于云平台和预设模型的神经网络自动训练方法和装置 |
WO2019080501A1 (zh) * | 2017-10-27 | 2019-05-02 | 平安科技(深圳)有限公司 | 电子装置、多模型样本训练方法、系统和计算机可读存储介质 |
CN109711436A (zh) * | 2018-12-05 | 2019-05-03 | 量子云未来(北京)信息科技有限公司 | 一种人工智能训练模型构建方法、装置及存储介质 |
CN110598777A (zh) * | 2019-09-03 | 2019-12-20 | 中国科学院深圳先进技术研究院 | 一种基于端云协同的数据处理方法和系统 |
CN110653801A (zh) * | 2019-09-30 | 2020-01-07 | 哈尔滨工业大学 | 机器人操作臂的导引操纵系统及其柔顺操纵控制与示教学习方法 |
CN110679114A (zh) * | 2017-05-24 | 2020-01-10 | 国际商业机器公司 | 一种估计数据对象可删除性的方法 |
CN110715953A (zh) * | 2019-09-18 | 2020-01-21 | 浙江大学 | 一种基于机器学习的薄膜材料导热性能测试系统及方法 |
CN110765163A (zh) * | 2019-10-17 | 2020-02-07 | 华普通用技术研究(广州)有限公司 | 一种大数据处理流程的执行计划生成方法 |
TWI688838B (zh) * | 2017-10-06 | 2020-03-21 | 日商佳能股份有限公司 | 控制裝置、光刻裝置、測定裝置、加工裝置、平坦化裝置及物品製造方法 |
CN111079942A (zh) * | 2017-08-30 | 2020-04-28 | 第四范式(北京)技术有限公司 | 执行机器学习的分布式系统及其方法 |
CN111177802A (zh) * | 2018-11-09 | 2020-05-19 | 安碁资讯股份有限公司 | 行为标记模型训练系统及方法 |
CN111210023A (zh) * | 2020-01-13 | 2020-05-29 | 哈尔滨工业大学 | 数据集分类学习算法自动选择系统及方法 |
CN111247539A (zh) * | 2017-10-19 | 2020-06-05 | 英国电讯有限公司 | 算法整合 |
CN111338630A (zh) * | 2018-11-30 | 2020-06-26 | 上海寒武纪信息科技有限公司 | 通用机器学习模型文件的生成方法、装置、存储介质 |
CN111461892A (zh) * | 2020-03-31 | 2020-07-28 | 支付宝(杭州)信息技术有限公司 | 用于风险识别模型的衍生变量选择方法和装置 |
WO2020155594A1 (zh) * | 2019-02-02 | 2020-08-06 | 清华大学 | 用于概念迁移的流式数据分析的自动机器学习系统及方法 |
CN111523646A (zh) * | 2020-04-23 | 2020-08-11 | 国家开放大学 | 基于物联网的远程教育学习中心智慧感知网络及管理方法 |
CN111684474A (zh) * | 2018-03-13 | 2020-09-18 | 欧姆龙株式会社 | 运算装置、运算方法及其程序 |
CN111680717A (zh) * | 2020-05-12 | 2020-09-18 | 顺德职业技术学院 | 基于深度学习的智能制造生产线上产品分类方法及系统 |
CN111814864A (zh) * | 2020-07-03 | 2020-10-23 | 北京中计新科仪器有限公司 | 一种质谱分析数据人工智能云平台系统及数据分析方法 |
CN112288133A (zh) * | 2020-09-28 | 2021-01-29 | 珠海大横琴科技发展有限公司 | 一种算法服务处理方法和装置 |
CN112671757A (zh) * | 2020-12-22 | 2021-04-16 | 无锡江南计算技术研究所 | 一种基于自动机器学习的加密流量协议识别方法及装置 |
CN112698848A (zh) * | 2020-12-31 | 2021-04-23 | Oppo广东移动通信有限公司 | 机器学习模型的下载方法、装置、终端及存储介质 |
CN113199483A (zh) * | 2015-07-31 | 2021-08-03 | 发那科株式会社 | 机器人系统、机器人的控制方法、机器学习装置及机器学习方法 |
US11238377B2 (en) | 2019-09-14 | 2022-02-01 | Oracle International Corporation | Techniques for integrating segments of code into machine-learning model |
CN114144788A (zh) * | 2019-07-23 | 2022-03-04 | 昭和电工株式会社 | 材料设计系统、材料设计方法及材料设计程序 |
US11307836B2 (en) | 2018-06-08 | 2022-04-19 | Shanghai Cambricon Information Technology Co., Ltd. | General machine learning model, and model file generation and parsing method |
CN114579822A (zh) * | 2021-12-13 | 2022-06-03 | 北京市建筑设计研究院有限公司 | 一种建模工具的推送方法、装置、电子设备及存储介质 |
US11386352B2 (en) | 2018-10-29 | 2022-07-12 | Acer Cyber Security Incorporated | System and method of training behavior labeling model |
US11392764B2 (en) * | 2018-04-13 | 2022-07-19 | International Business Machines Corporation | Classifying text to determine a goal type used to select machine learning algorithm outcomes |
CN114927164A (zh) * | 2022-07-18 | 2022-08-19 | 深圳市爱云信息科技有限公司 | 基于aiot平台的样本兼容检测方法、装置、设备与存储介质 |
US11487967B2 (en) * | 2020-05-15 | 2022-11-01 | International Business Machines Corporation | Finetune image feature extraction using environmental data |
WO2022227355A1 (zh) * | 2021-04-29 | 2022-11-03 | 华为云计算技术有限公司 | 获取知识的方法和装置 |
US11562267B2 (en) | 2019-09-14 | 2023-01-24 | Oracle International Corporation | Chatbot for defining a machine learning (ML) solution |
US11568318B2 (en) | 2020-10-07 | 2023-01-31 | Panasonic Intellectual Property Management Co., Ltd. | Method for developing machine-learning based tool |
US11663523B2 (en) | 2019-09-14 | 2023-05-30 | Oracle International Corporation | Machine learning (ML) infrastructure techniques |
US11769075B2 (en) | 2019-08-22 | 2023-09-26 | Cisco Technology, Inc. | Dynamic machine learning on premise model selection based on entity clustering and feedback |
WO2024001344A1 (zh) * | 2022-07-01 | 2024-01-04 | 华为云计算技术有限公司 | 基于云计算技术的目标函数求解方法、装置和计算设备 |
US12015691B2 (en) | 2021-09-23 | 2024-06-18 | International Business Machines Corporation | Security as a service for machine learning |
US12118474B2 (en) | 2019-09-14 | 2024-10-15 | Oracle International Corporation | Techniques for adaptive pipelining composition for machine learning (ML) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US12159238B2 (en) | 2020-12-10 | 2024-12-03 | International Business Machines Corporation | Automated machine learning model selection |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02259851A (ja) | 1989-03-31 | 1990-10-22 | Hitachi Ltd | 適応計算機システム |
CN101615265B (zh) * | 2009-08-11 | 2012-07-04 | 路军 | 一种基于多Agent技术的智能决策仿真实验系统 |
-
2010
- 2010-01-15 CN CN 201010017918 patent/CN101782976B/zh not_active Expired - Fee Related
Cited By (136)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102468975B (zh) * | 2010-11-16 | 2014-09-10 | 苏州搜能信息科技有限公司 | 用于云计算移动网络资源管理的模拟云计算系统及应用系统 |
CN102468975A (zh) * | 2010-11-16 | 2012-05-23 | 苏州搜能信息科技有限公司 | 用于云计算移动网络资源管理模拟云计算系统及应用系统 |
CN102509177A (zh) * | 2011-11-11 | 2012-06-20 | 国网信息通信有限公司 | 一种基于云平台的局部加权线性回归预测运算的方法 |
CN102509177B (zh) * | 2011-11-11 | 2014-12-31 | 国家电网公司 | 一种基于云平台的局部加权线性回归预测运算的方法 |
CN102523246A (zh) * | 2011-11-23 | 2012-06-27 | 陈刚 | 一种云计算处理系统及方法 |
CN103139278A (zh) * | 2011-12-05 | 2013-06-05 | 北京网康科技有限公司 | 一种网络资源预取并缓存加速的方法及其装置 |
CN102724298A (zh) * | 2012-05-25 | 2012-10-10 | 清华大学 | 一种云环境下存储参数的配置方法 |
CN102799512A (zh) * | 2012-07-04 | 2012-11-28 | 南京邮电大学 | 一种基于向量自回归的云计算中虚拟机监控方法 |
CN102799512B (zh) * | 2012-07-04 | 2015-06-03 | 南京邮电大学 | 一种基于向量自回归的云计算中虚拟机监控方法 |
CN103036745A (zh) * | 2012-12-21 | 2013-04-10 | 北京邮电大学 | 云计算中一种基于神经网络的异常检测系统 |
CN105075180A (zh) * | 2013-02-05 | 2015-11-18 | 思科技术公司 | 使用分布式学习机器反馈来动态调整一组被监控的网络属性 |
CN105075180B (zh) * | 2013-02-05 | 2018-11-13 | 思科技术公司 | 用于调整网络属性的方法、装置及计算机可读存储介质 |
CN103605695A (zh) * | 2013-11-05 | 2014-02-26 | 佛山职业技术学院 | 一种基于因特网的人工智能知识逻辑系统及方法 |
CN106416319A (zh) * | 2014-06-02 | 2017-02-15 | 高通股份有限公司 | 从交叠位置数据推导关系 |
WO2015184729A1 (en) * | 2014-06-05 | 2015-12-10 | Tsinghua University | Method and system for hyper-parameter optimization and feature tuning of machine learning algorithms |
CN106537423A (zh) * | 2014-07-12 | 2017-03-22 | 微软技术许可有限责任公司 | 作为服务的自适应特征化 |
US10423445B2 (en) | 2014-07-12 | 2019-09-24 | Microsoft Technology Licensing, Llc | Composing and executing workflows made up of functional pluggable building blocks |
US10026041B2 (en) | 2014-07-12 | 2018-07-17 | Microsoft Technology Licensing, Llc | Interoperable machine learning platform |
US9436507B2 (en) | 2014-07-12 | 2016-09-06 | Microsoft Technology Licensing, Llc | Composing and executing workflows made up of functional pluggable building blocks |
CN105320835A (zh) * | 2014-07-15 | 2016-02-10 | 通用电气智能平台有限公司 | 用于时间序列数据分析方法市场的设备和方法 |
CN106067028A (zh) * | 2015-04-19 | 2016-11-02 | 北京典赞科技有限公司 | 基于gpu的自动化机器学习的建模方法 |
CN106250986A (zh) * | 2015-06-04 | 2016-12-21 | 波音公司 | 用于机器学习的高级分析基础构架 |
CN104951425A (zh) * | 2015-07-20 | 2015-09-30 | 东北大学 | 一种基于深度学习的云服务性能自适应动作类型选择方法 |
CN104951425B (zh) * | 2015-07-20 | 2018-03-13 | 东北大学 | 一种基于深度学习的云服务性能自适应动作类型选择方法 |
CN113199483A (zh) * | 2015-07-31 | 2021-08-03 | 发那科株式会社 | 机器人系统、机器人的控制方法、机器学习装置及机器学习方法 |
CN107921262A (zh) * | 2015-08-26 | 2018-04-17 | 波士顿科学神经调制公司 | 用于优化脊髓刺激的机器学习 |
CN106528489A (zh) * | 2015-09-14 | 2017-03-22 | 上海羽视澄蓝信息科技有限公司 | 基于云计算的车辆检测机器学习系统 |
CN107092962B (zh) * | 2016-02-17 | 2021-01-26 | 创新先进技术有限公司 | 一种分布式机器学习方法和平台 |
CN107092962A (zh) * | 2016-02-17 | 2017-08-25 | 阿里巴巴集团控股有限公司 | 一种分布式机器学习方法和平台 |
CN105808500A (zh) * | 2016-02-26 | 2016-07-27 | 山西牡丹深度智能科技有限公司 | 深度学习的实现方法、装置 |
CN106445988A (zh) * | 2016-06-01 | 2017-02-22 | 上海坤士合生信息科技有限公司 | 一种大数据的智能处理方法和系统 |
CN107784363A (zh) * | 2016-08-31 | 2018-03-09 | 华为技术有限公司 | 数据处理方法、装置及系统 |
WO2018040561A1 (zh) * | 2016-08-31 | 2018-03-08 | 华为技术有限公司 | 数据处理方法、装置及系统 |
CN107784363B (zh) * | 2016-08-31 | 2021-02-09 | 华为技术有限公司 | 数据处理方法、装置及系统 |
CN106779087A (zh) * | 2016-11-30 | 2017-05-31 | 福建亿榕信息技术有限公司 | 一种通用机器学习数据分析平台 |
CN106779087B (zh) * | 2016-11-30 | 2019-02-22 | 福建亿榕信息技术有限公司 | 一种通用机器学习数据分析平台 |
CN108572610A (zh) * | 2017-03-13 | 2018-09-25 | 欧姆龙株式会社 | 评价系统、安全控制器、可读取记录媒体及评价方法 |
CN108572610B (zh) * | 2017-03-13 | 2021-05-18 | 欧姆龙株式会社 | 评价系统、安全控制器、可读取记录媒体及评价方法 |
WO2018176215A1 (en) * | 2017-03-28 | 2018-10-04 | Oracle International Corporation | Systems and methods for intelligently providing supporting information using machine-learning |
CN110741390A (zh) * | 2017-03-28 | 2020-01-31 | 甲骨文国际公司 | 使用机器学习智能地提供支持信息的系统和方法 |
US11443225B2 (en) | 2017-03-28 | 2022-09-13 | Oracle International Corporation | Systems and methods for intelligently providing supporting information using machine-learning |
CN110741390B (zh) * | 2017-03-28 | 2023-12-22 | 甲骨文国际公司 | 使用机器学习智能地提供支持信息的系统和方法 |
CN107291811B (zh) * | 2017-05-18 | 2019-11-29 | 浙江大学 | 一种基于云端知识融合的感认知增强机器人系统 |
CN107291811A (zh) * | 2017-05-18 | 2017-10-24 | 浙江大学 | 一种基于云端知识融合的感认知增强机器人系统 |
CN110679114B (zh) * | 2017-05-24 | 2021-08-06 | 国际商业机器公司 | 一种估计数据对象可删除性的方法 |
CN110679114A (zh) * | 2017-05-24 | 2020-01-10 | 国际商业机器公司 | 一种估计数据对象可删除性的方法 |
CN107255969A (zh) * | 2017-06-28 | 2017-10-17 | 重庆柚瓣家科技有限公司 | 养老机器人用监管系统 |
CN107329445A (zh) * | 2017-06-28 | 2017-11-07 | 重庆柚瓣家科技有限公司 | 机器人行为准则智能监管的方法 |
CN107255969B (zh) * | 2017-06-28 | 2019-10-18 | 重庆柚瓣家科技有限公司 | 养老机器人用监管系统 |
CN111079942A (zh) * | 2017-08-30 | 2020-04-28 | 第四范式(北京)技术有限公司 | 执行机器学习的分布式系统及其方法 |
CN111079942B (zh) * | 2017-08-30 | 2023-03-24 | 第四范式(北京)技术有限公司 | 执行机器学习的分布式系统及其方法 |
US11048216B2 (en) | 2017-09-05 | 2021-06-29 | Fanuc Corporation | Control device |
JP2019046324A (ja) * | 2017-09-05 | 2019-03-22 | ファナック株式会社 | 制御装置 |
CN107538492A (zh) * | 2017-09-07 | 2018-01-05 | 福物(上海)机器人科技有限公司 | 移动机器人的智能操控系统、方法及智能学习方法 |
TWI688838B (zh) * | 2017-10-06 | 2020-03-21 | 日商佳能股份有限公司 | 控制裝置、光刻裝置、測定裝置、加工裝置、平坦化裝置及物品製造方法 |
CN111247539A (zh) * | 2017-10-19 | 2020-06-05 | 英国电讯有限公司 | 算法整合 |
WO2019080501A1 (zh) * | 2017-10-27 | 2019-05-02 | 平安科技(深圳)有限公司 | 电子装置、多模型样本训练方法、系统和计算机可读存储介质 |
CN108228325B (zh) * | 2017-10-31 | 2020-12-29 | 深圳市商汤科技有限公司 | 应用管理方法和装置、电子设备、计算机存储介质 |
CN108228325A (zh) * | 2017-10-31 | 2018-06-29 | 深圳市商汤科技有限公司 | 应用管理方法和装置、电子设备、计算机存储介质 |
CN107766940B (zh) * | 2017-11-20 | 2021-07-23 | 北京百度网讯科技有限公司 | 用于生成模型的方法和装置 |
CN107766940A (zh) * | 2017-11-20 | 2018-03-06 | 北京百度网讯科技有限公司 | 用于生成模型的方法和装置 |
CN108009643A (zh) * | 2017-12-15 | 2018-05-08 | 清华大学 | 一种机器学习算法自动选择方法和系统 |
CN108009643B (zh) * | 2017-12-15 | 2018-10-30 | 清华大学 | 一种机器学习算法自动选择方法和系统 |
CN107977712A (zh) * | 2017-12-20 | 2018-05-01 | 四川九洲电器集团有限责任公司 | 联网式机器学习系统 |
CN108343125B (zh) * | 2018-02-27 | 2024-02-23 | 宁波欧琳科技股份有限公司 | 一种基于无线控制下水器下水的方法及系统 |
CN108343125A (zh) * | 2018-02-27 | 2018-07-31 | 浙江欧琳生活健康科技有限公司 | 一种基于无线控制下水器下水的方法及系统 |
US12090660B2 (en) | 2018-03-13 | 2024-09-17 | Omron Corporation | Calculation device, calculation method, and storage medium |
CN111684474B (zh) * | 2018-03-13 | 2024-04-16 | 欧姆龙株式会社 | 运算装置、运算方法及记录介质 |
CN111684474A (zh) * | 2018-03-13 | 2020-09-18 | 欧姆龙株式会社 | 运算装置、运算方法及其程序 |
CN108764267B (zh) * | 2018-04-02 | 2021-08-10 | 上海大学 | 一种基于对抗式决策树集成的拒绝服务攻击检测方法 |
CN108764267A (zh) * | 2018-04-02 | 2018-11-06 | 上海大学 | 一种基于对抗式决策树集成的拒绝服务攻击检测方法 |
US11397851B2 (en) * | 2018-04-13 | 2022-07-26 | International Business Machines Corporation | Classifying text to determine a goal type used to select machine learning algorithm outcomes |
US11392764B2 (en) * | 2018-04-13 | 2022-07-19 | International Business Machines Corporation | Classifying text to determine a goal type used to select machine learning algorithm outcomes |
CN108628669A (zh) * | 2018-04-25 | 2018-10-09 | 北京京东尚科信息技术有限公司 | 一种调度机器学习算法任务的方法和装置 |
CN108665072A (zh) * | 2018-05-23 | 2018-10-16 | 中国电力科学研究院有限公司 | 一种基于云架构的机器学习算法全过程训练方法及系统 |
US11726754B2 (en) | 2018-06-08 | 2023-08-15 | Shanghai Cambricon Information Technology Co., Ltd. | General machine learning model, and model file generation and parsing method |
US11334330B2 (en) | 2018-06-08 | 2022-05-17 | Shanghai Cambricon Information Technology Co., Ltd. | General machine learning model, and model file generation and parsing method |
US11379199B2 (en) | 2018-06-08 | 2022-07-05 | Shanghai Cambricon Information Technology Co., Ltd. | General machine learning model, and model file generation and parsing method |
US11334329B2 (en) | 2018-06-08 | 2022-05-17 | Shanghai Cambricon Information Technology Co., Ltd. | General machine learning model, and model file generation and parsing method |
US11307836B2 (en) | 2018-06-08 | 2022-04-19 | Shanghai Cambricon Information Technology Co., Ltd. | General machine learning model, and model file generation and parsing method |
US11403080B2 (en) | 2018-06-08 | 2022-08-02 | Shanghai Cambricon Information Technology Co., Ltd. | General machine learning model, and model file generation and parsing method |
CN108898229A (zh) * | 2018-06-26 | 2018-11-27 | 第四范式(北京)技术有限公司 | 用于构建机器学习建模过程的方法及系统 |
CN108960433A (zh) * | 2018-06-26 | 2018-12-07 | 第四范式(北京)技术有限公司 | 用于运行机器学习建模过程的方法及系统 |
CN109117266A (zh) * | 2018-07-13 | 2019-01-01 | 视云融聚(广州)科技有限公司 | 基于多层架构的视频人工智能训练平台 |
CN109240658A (zh) * | 2018-09-12 | 2019-01-18 | 郑州云海信息技术有限公司 | 一种基于神经网络的软件架构选择的方法及装置 |
CN109409533A (zh) * | 2018-09-28 | 2019-03-01 | 深圳乐信软件技术有限公司 | 一种机器学习模型的生成方法、装置、设备及存储介质 |
CN109325541A (zh) * | 2018-09-30 | 2019-02-12 | 北京字节跳动网络技术有限公司 | 用于训练模型的方法和装置 |
US11386352B2 (en) | 2018-10-29 | 2022-07-12 | Acer Cyber Security Incorporated | System and method of training behavior labeling model |
CN109635833A (zh) * | 2018-10-30 | 2019-04-16 | 银河水滴科技(北京)有限公司 | 一种基于云平台和模型智能推荐的图像识别方法及系统 |
CN109635918A (zh) * | 2018-10-30 | 2019-04-16 | 银河水滴科技(北京)有限公司 | 基于云平台和预设模型的神经网络自动训练方法和装置 |
CN109376844A (zh) * | 2018-10-30 | 2019-02-22 | 银河水滴科技(北京)有限公司 | 基于云平台和模型推荐的神经网络自动训练方法和装置 |
CN111177802B (zh) * | 2018-11-09 | 2022-09-13 | 安碁资讯股份有限公司 | 行为标记模型训练系统及方法 |
CN111177802A (zh) * | 2018-11-09 | 2020-05-19 | 安碁资讯股份有限公司 | 行为标记模型训练系统及方法 |
CN111338630B (zh) * | 2018-11-30 | 2022-02-08 | 上海寒武纪信息科技有限公司 | 通用机器学习模型文件的生成方法、装置、存储介质 |
CN111338630A (zh) * | 2018-11-30 | 2020-06-26 | 上海寒武纪信息科技有限公司 | 通用机器学习模型文件的生成方法、装置、存储介质 |
CN109711436A (zh) * | 2018-12-05 | 2019-05-03 | 量子云未来(北京)信息科技有限公司 | 一种人工智能训练模型构建方法、装置及存储介质 |
WO2020155594A1 (zh) * | 2019-02-02 | 2020-08-06 | 清华大学 | 用于概念迁移的流式数据分析的自动机器学习系统及方法 |
CN114144788A (zh) * | 2019-07-23 | 2022-03-04 | 昭和电工株式会社 | 材料设计系统、材料设计方法及材料设计程序 |
US11769075B2 (en) | 2019-08-22 | 2023-09-26 | Cisco Technology, Inc. | Dynamic machine learning on premise model selection based on entity clustering and feedback |
CN110598777B (zh) * | 2019-09-03 | 2022-12-27 | 中国科学院深圳先进技术研究院 | 一种基于端云协同的数据处理方法和系统 |
CN110598777A (zh) * | 2019-09-03 | 2019-12-20 | 中国科学院深圳先进技术研究院 | 一种基于端云协同的数据处理方法和系统 |
US11562267B2 (en) | 2019-09-14 | 2023-01-24 | Oracle International Corporation | Chatbot for defining a machine learning (ML) solution |
US11625648B2 (en) | 2019-09-14 | 2023-04-11 | Oracle International Corporation | Techniques for adaptive pipelining composition for machine learning (ML) |
US12190254B2 (en) | 2019-09-14 | 2025-01-07 | Oracle International Corporation | Chatbot for defining a machine learning (ML) solution |
US11238377B2 (en) | 2019-09-14 | 2022-02-01 | Oracle International Corporation | Techniques for integrating segments of code into machine-learning model |
US12118474B2 (en) | 2019-09-14 | 2024-10-15 | Oracle International Corporation | Techniques for adaptive pipelining composition for machine learning (ML) |
US12039004B2 (en) | 2019-09-14 | 2024-07-16 | Oracle International Corporation | Techniques for service execution and monitoring for run-time service composition |
US11921815B2 (en) | 2019-09-14 | 2024-03-05 | Oracle International Corporation | Techniques for the automated customization and deployment of a machine learning application |
US11847578B2 (en) | 2019-09-14 | 2023-12-19 | Oracle International Corporation | Chatbot for defining a machine learning (ML) solution |
US11811925B2 (en) | 2019-09-14 | 2023-11-07 | Oracle International Corporation | Techniques for the safe serialization of the prediction pipeline |
US11475374B2 (en) | 2019-09-14 | 2022-10-18 | Oracle International Corporation | Techniques for automated self-adjusting corporation-wide feature discovery and integration |
US11663523B2 (en) | 2019-09-14 | 2023-05-30 | Oracle International Corporation | Machine learning (ML) infrastructure techniques |
US11556862B2 (en) | 2019-09-14 | 2023-01-17 | Oracle International Corporation | Techniques for adaptive and context-aware automated service composition for machine learning (ML) |
CN110715953A (zh) * | 2019-09-18 | 2020-01-21 | 浙江大学 | 一种基于机器学习的薄膜材料导热性能测试系统及方法 |
CN110715953B (zh) * | 2019-09-18 | 2020-07-21 | 浙江大学 | 一种基于机器学习的薄膜材料导热性能测试系统及方法 |
CN110653801B (zh) * | 2019-09-30 | 2022-06-17 | 哈尔滨工业大学 | 机器人操作臂的导引操纵系统及其柔顺操纵控制与示教学习方法 |
CN110653801A (zh) * | 2019-09-30 | 2020-01-07 | 哈尔滨工业大学 | 机器人操作臂的导引操纵系统及其柔顺操纵控制与示教学习方法 |
CN110765163A (zh) * | 2019-10-17 | 2020-02-07 | 华普通用技术研究(广州)有限公司 | 一种大数据处理流程的执行计划生成方法 |
CN111210023A (zh) * | 2020-01-13 | 2020-05-29 | 哈尔滨工业大学 | 数据集分类学习算法自动选择系统及方法 |
CN111210023B (zh) * | 2020-01-13 | 2023-04-11 | 哈尔滨工业大学 | 数据集分类学习算法自动选择系统及方法 |
CN111461892B (zh) * | 2020-03-31 | 2021-07-06 | 支付宝(杭州)信息技术有限公司 | 用于风险识别模型的衍生变量选择方法和装置 |
CN111461892A (zh) * | 2020-03-31 | 2020-07-28 | 支付宝(杭州)信息技术有限公司 | 用于风险识别模型的衍生变量选择方法和装置 |
CN111523646A (zh) * | 2020-04-23 | 2020-08-11 | 国家开放大学 | 基于物联网的远程教育学习中心智慧感知网络及管理方法 |
CN111680717A (zh) * | 2020-05-12 | 2020-09-18 | 顺德职业技术学院 | 基于深度学习的智能制造生产线上产品分类方法及系统 |
US11487967B2 (en) * | 2020-05-15 | 2022-11-01 | International Business Machines Corporation | Finetune image feature extraction using environmental data |
CN111814864A (zh) * | 2020-07-03 | 2020-10-23 | 北京中计新科仪器有限公司 | 一种质谱分析数据人工智能云平台系统及数据分析方法 |
CN112288133A (zh) * | 2020-09-28 | 2021-01-29 | 珠海大横琴科技发展有限公司 | 一种算法服务处理方法和装置 |
US11568318B2 (en) | 2020-10-07 | 2023-01-31 | Panasonic Intellectual Property Management Co., Ltd. | Method for developing machine-learning based tool |
CN112671757A (zh) * | 2020-12-22 | 2021-04-16 | 无锡江南计算技术研究所 | 一种基于自动机器学习的加密流量协议识别方法及装置 |
CN112671757B (zh) * | 2020-12-22 | 2023-10-31 | 无锡江南计算技术研究所 | 一种基于自动机器学习的加密流量协议识别方法及装置 |
CN112698848A (zh) * | 2020-12-31 | 2021-04-23 | Oppo广东移动通信有限公司 | 机器学习模型的下载方法、装置、终端及存储介质 |
WO2022227355A1 (zh) * | 2021-04-29 | 2022-11-03 | 华为云计算技术有限公司 | 获取知识的方法和装置 |
US12015691B2 (en) | 2021-09-23 | 2024-06-18 | International Business Machines Corporation | Security as a service for machine learning |
CN114579822A (zh) * | 2021-12-13 | 2022-06-03 | 北京市建筑设计研究院有限公司 | 一种建模工具的推送方法、装置、电子设备及存储介质 |
WO2024001344A1 (zh) * | 2022-07-01 | 2024-01-04 | 华为云计算技术有限公司 | 基于云计算技术的目标函数求解方法、装置和计算设备 |
CN114927164A (zh) * | 2022-07-18 | 2022-08-19 | 深圳市爱云信息科技有限公司 | 基于aiot平台的样本兼容检测方法、装置、设备与存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN101782976B (zh) | 2013-04-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101782976A (zh) | 一种云计算环境下机器学习自动选择方法 | |
Cicek et al. | Optimizing the artificial neural network parameters using a biased random key genetic algorithm for time series forecasting | |
Calvet et al. | Learnheuristics: hybridizing metaheuristics with machine learning for optimization with dynamic inputs | |
Wu et al. | Evolving RBF neural networks for rainfall prediction using hybrid particle swarm optimization and genetic algorithm | |
Papageorgiou | Review study on fuzzy cognitive maps and their applications during the last decade | |
Pai | System reliability forecasting by support vector machines with genetic algorithms | |
Kahraman et al. | Intelligence decision systems in enterprise information management | |
Razi et al. | A comparative predictive analysis of neural networks (NNs), nonlinear regression and classification and regression tree (CART) models | |
Papageorgiou | Review study on fuzzy cognitive maps and their applications during the last decade | |
Hassan et al. | A hybrid of multiobjective Evolutionary Algorithm and HMM-Fuzzy model for time series prediction | |
Janković et al. | Machine learning models for ecological footprint prediction based on energy parameters | |
Geng et al. | The business model of intelligent manufacturing with Internet of Things and machine learning | |
Taherdoost | Machine learning algorithms: features and applications | |
El-Hassani et al. | A new optimization model for MLP hyperparameter tuning: modeling and resolution by real-coded genetic algorithm | |
Alzaeemi et al. | Examining the forecasting movement of palm oil price using RBFNN-2SATRA metaheuristic algorithms for logic mining | |
CN116629352A (zh) | 一种亿级参数寻优平台 | |
Abdelaziz et al. | A hybrid model of self-organizing map and deep learning with genetic algorithm for managing energy consumption in public buildings | |
Gao et al. | The user-knowledge crowdsourcing task allocation integrated decision model and genetic matrix factorization algorithm | |
Szafranko et al. | Application of ANFIS in the preparation of expert opinions and evaluation of building design variants in the context of processing large amounts of data | |
Wang et al. | Research on intelligence analysis technology of financial industry data based on genetic algorithm. | |
Nguyen et al. | Short-term forecasting electricity load by long short-term memory and reinforcement learning for optimization of hyper-parameters | |
Zhang | Artificial intelligence carbon neutrality strategy in sports event management based on STIRPAT-GRU and transfer learning | |
Zhao et al. | The push strategy of product design knowledge in cloud environment with the multidimensional hierarchical context and SSA-BPNN model | |
CN118613636A (zh) | 基于ai的能源边缘平台、系统和方法 | |
CN118863593B (zh) | 基于大数据分析促进产才融合和科研成果转化方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
EE01 | Entry into force of recordation of patent licensing contract |
Assignee: JIANGSU JOYQUE INFORMATION INDUSTRY Co.,Ltd. Assignor: NANJING University OF POSTS AND TELECOMMUNICATIONS Contract record no.: 2012320000280 Denomination of invention: Automatic selection method for machine learning in cloud computing environment License type: Exclusive License Open date: 20100721 Record date: 20120322 |
|
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20130410 |