CN116029368A - 超参数优化方法、相关装置及存储介质 - Google Patents
超参数优化方法、相关装置及存储介质 Download PDFInfo
- Publication number
- CN116029368A CN116029368A CN202211687469.8A CN202211687469A CN116029368A CN 116029368 A CN116029368 A CN 116029368A CN 202211687469 A CN202211687469 A CN 202211687469A CN 116029368 A CN116029368 A CN 116029368A
- Authority
- CN
- China
- Prior art keywords
- candidate
- sample
- performance
- candidate sample
- sample space
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 87
- 238000005457 optimization Methods 0.000 title claims abstract description 56
- 238000005070 sampling Methods 0.000 claims abstract description 124
- 238000012545 processing Methods 0.000 claims description 39
- 238000004422 calculation algorithm Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 230000001186 cumulative effect Effects 0.000 claims description 6
- 238000010801 machine learning Methods 0.000 abstract description 19
- 230000006870 function Effects 0.000 description 33
- 230000008569 process Effects 0.000 description 25
- 238000013461 design Methods 0.000 description 19
- 238000005516 engineering process Methods 0.000 description 15
- 238000004891 communication Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 14
- 238000012549 training Methods 0.000 description 14
- 238000013473 artificial intelligence Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 9
- 230000009467 reduction Effects 0.000 description 8
- 230000008878 coupling Effects 0.000 description 6
- 238000010168 coupling process Methods 0.000 description 6
- 238000005859 coupling reaction Methods 0.000 description 6
- 238000005192 partition Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000000638 solvent extraction Methods 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000008602 contraction Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000003631 expected effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- Complex Calculations (AREA)
Abstract
本申请实施例涉及机器学习领域,提供一种超参数优化方法、相关装置及存储介质,该方法包括:获取超参数组的候选样本空间,其中,所述候选样本空间基于历史候选样本空间更新得到,所述候选样本空间的初始状态为所述超参数组的全域样本空间;从所述候选样本空间采样,得到超参数组集合;基于所述超参数组集合,从所述候选样本空间获取高性能样本区域和低性能样本区域;若所述高性能样本区域的预设参数值不符合预设条件,则基于所述高性能样本区域更新候选样本空间,并基于更新的候选样本空间获取更新的高性能样本区域,直至高性能样本区域的预设参数值符合所述预设条件,并将预设参数值符合所述预设条件时的高性能样本区域作为目标样本空间。
Description
技术领域
本申请实施例涉及机器学习领域,更具体地涉及一种超参数优化方法、相关装置及存储介质。
背景技术
在人工智能技术的普及以及大数据时代的背景下,联邦学习技术可以有效的解决人工智能技术释放数据价值和大数据背景下的隐私数据保护的矛盾。联邦学习属于分布式机器学习的一种,可以在保护数据隐私安全的前提下,解决完成多方联合建模问题。超参数优化是联邦学习任务中的重要一步,也是联邦学习技术的难点之一,能否选择到最优的超参数会对机器学习模型的最终效果产生极大的影响。
现有技术中通常采用网格搜索确定联邦学习的超参数,网格搜索也称为穷举搜索:在所有候选的超参数取值中,按步长依次调整超参数取值,通过循环遍历,尝试每一种可能性,从所有的超参数取值中找到在验证集上精度最高的一种超参数取值组合,表现最好的超参数取值组合就是最终的结果。
虽然网格搜索可以保证在指定的超参数取值范围内找到精度最高的超参数值,但是在面对大数据集和多参数的情况下会非常耗时。
发明内容
本申请实施例提供一种超参数优化方法、相关装置及存储介质,可以减小超参数值的搜索空间,提高超参数优化效率。
第一方面,本申请实施例提供一种超参数优化方法,该方法包括:
获取超参数组的候选样本空间,其中,所述候选样本空间基于历史候选样本空间更新得到,所述候选样本空间的初始状态为所述超参数组的全域样本空间;
从所述候选样本空间采样,得到超参数组集合;
基于所述超参数组集合,从所述候选样本空间获取高性能样本区域和低性能样本区域;
若所述高性能样本区域的预设参数值不符合预设条件,则基于所述高性能样本区域更新候选样本空间,并基于更新的候选样本空间获取更新的高性能样本区域,直至高性能样本区域的预设参数值符合所述预设条件,并将预设参数值符合所述预设条件时的高性能样本区域作为目标样本空间;
其中,所述目标样本空间用于获取目标超参数组。
第二方面,本申请实施例提供一种超参数优化装置,具有实现对应于上述第一方面提供的超参数优化方法的功能。所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块,所述模块可以是软件和/或硬件。
在一个实施方式中,所述超参数优化装置包括:
输入输出模块,被配置为获取超参数组的全域样本空间;
处理模块,被配置为获取超参数组的候选样本空间,其中,所述候选样本空间基于历史候选样本空间更新得到,所述候选样本空间的初始状态为所述超参数组的全域样本空间;以及
所述处理模块,还被配置为从所述候选样本空间采样,得到超参数组集合;以及
基于所述超参数组集合,从所述候选样本空间获取高性能样本区域和低性能样本区域;
所述处理模块,还被配置为若所述高性能样本区域的预设参数值不符合预设条件,则基于所述高性能样本区域更新候选样本空间,并基于更新的候选样本空间获取更新的高性能样本区域,直至高性能样本区域的预设参数值符合所述预设条件,并将预设参数值符合所述预设条件时的高性能样本区域作为目标样本空间;
其中,所述目标样本空间用于获取目标超参数组。
第三方面,本申请实施例提供一种计算机可读存储介质,其包括指令,当其在计算机上运行时,使得计算机执行如第一方面所述的超参数优化方法。
第四方面,本申请实施例提供一种计算设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现第一方面所述的超参数优化方法。
相较于现有技术,本申请实施例中,通过采样的方式从候选样本空间中获取超参数组集合,然后基于该超参数组集合获取高性能样本区域和低性能样本区域,最后根据高性能样本区域的预设参数值是否符合预设条件,确定是否获取到了目标样本空间。本申请实施例中,从候选样本空间获取的高性能样本区域为该候选样本空间的子集,相当于通过逐渐收缩样本空间的方式来获取目标样本空间;在上述收缩过程中,本申请实施例通过采样的方式获取有限数量的样本点(即采样点),代表其所属的整个区域,相比于需要遍历整个区域所有样本点的方式,本申请实施例的方式极大降低了计算量和计算时间,从而提高了优化搜索效率。另外,由于本申请实施例中的每个迭代轮次均实现了样本空间的缩小,相当于降低了样本空间的维度,从而避免了现有技术中贝叶斯优化(即采样获取超参数组集合)解决高维问题时容易出现的维度诅咒(即难以适用)问题。
附图说明
通过参考附图阅读本申请实施例的详细描述,本申请实施例的目的、特征和优点将变得易于理解。其中:
图1为本申请实施例中超参数优化方法的一种超参数优化系统示意图;
图2为本申请实施例的超参数优化方法的一种流程示意图;
图3为本申请实施例的超参数优化方法的一种获取高性能样本区域和低性能样本区域的流程示意图;
图4为本申请实施例的超参数优化方法的一种候选簇划分的示意图;
图5为本申请实施例的超参数优化方法的一种基于候选簇划分候选样本区域的示意图;
图6为本申请实施例的超参数优化方法的一种采用高斯核函数的SVM划分候选簇边界的示意图;
图7为本申请实施例的超参数优化方法的一种采用线性核函数的SVM划分候选簇边界的示意图;
图8为本申请实施例的超参数优化方法的一种采用双曲正切核函数的SVM划分候选簇边界的示意图;
图9为本申请实施例的超参数优化方法的一种拓展候选簇边界的流程示意图;
图10为本申请实施例的超参数优化方法的一种收缩全域样本空间得到目标样本空间的过程示意图;
图11为本申请实施例的超参数优化装置的结构示意图;
图12为本申请实施例的计算设备的一种结构示意图;
图13为本申请实施例中手机的一种结构示意图;
图14为本申请实施例中服务器的一种结构示意图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象(例如第一候选样本区域和第二候选样本区域分别表示为不同的候选样本区域,其他类似),而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块,本申请实施例中所出现的模块的划分,仅仅是一种逻辑上的划分,实际应用中实现时可以有另外的划分方式,例如多个模块可以结合成或集成在另一个系统中,或一些特征可以忽略,或不执行。另外,所显示的或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,模块之间的间接耦合,通信连接可以是电性或其他类似的形式,本申请实施例中均不作限定。并且,作为分离部件说明的模块或子模块可以是也可以不是物理上的分离,可以是也可以不是物理模块,或者可以分布到多个电路模块中,可以根据实际的需要选择其中的部分或全部模块来实现本申请实施例方案的目的。
本申请实施例提供一种超参数优化方法、相关装置及存储介质,可应用于超参数优化系统,该超参数优化系统可包括超参数优化装置和数据处理装置,超参数优化装置和数据处理装置可以集成部署,也可分离式部署。该超参数优化装置至少用于获取并更新超参数组的候选样本空间,直至得到目标样本空间。该数据处理装置用于根据超参数组配置预设模型,从而验证所述超参数组的效果。其中,超参数优化装置可为获取并更新超参数组的候选样本空间,直至得到目标样本空间的应用程序,或为安装了获取并更新超参数组的候选样本空间,直至得到目标样本空间的应用程序的服务器;数据处理装置可为根据超参数组配置预设模型,从而验证所述超参数组的效果的数据处理程序,所述数据处理程序例如是预设模型,所述数据处理装置还可为部署了预设模型的服务器。
本申请实施例提供的方案涉及人工智能(Artificial Intelligence,AI)、计算机视觉技术(Computer Vision,CV)、机器学习(Machine Learning,ML)等技术,具体通过如下实施例进行说明:
其中,AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
AI技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
联邦学习(Federated Learning,FL)是一种分布式机器学习技术,其核心思想是通过在多个拥有本地数据的数据源之间进行分布式模型训练,在不需要交换本地个体或样本数据的前提下,仅通过交换模型参数或中间结果的方式,构建基于虚拟融合数据下的全局模型,从而实现数据隐私保护和数据共享计算的平衡,即“数据可用不可见”、“数据不动模型动”的应用新范式。
现有技术中,为了实现机器学习模型的最佳超参数配置,往往采取穷举遍历的方式进行;即基于超参数组所有可能的取值,全部进行尝试,从而获取最佳的超参数的取值组合。由于这种方式需要将所有可能性均尝试一遍,在超参数组的取值可能性很多时,无疑会消耗巨大的计算资源和时间,效率不高。
相比于现有技术,本申请实施例可以采用采样的方式,获取有限数量的采样点(即几种可能的超参数组),然后根据这几个采样点对候选样本空间进行收缩,获取高性能超参数组分布较为密集的高性能样本区域,基于该高性能样本区域可以确定其是否可以作为目标样本空间,若其无法作为目标样本空间,则可以将其作为下一个迭代轮次的候选样本空间,从而实现样本空间的不断收缩。在本申请实施例中,由于通过采样的方式获取有限数量的样本点(即采样点),代表其所属的整个区域,相比于需要遍历整个区域所有样本点的方式,本申请实施例的方式极大降低了计算量和计算时间,从而提高了优化搜索效率。另外,由于本申请实施例中的每个迭代轮次均实现了样本空间的缩小,相当于降低了样本空间的维度,从而避免了现有技术中贝叶斯优化(即采样获取超参数组集合)解决高维问题时容易出现的维度诅咒(即难以适用)问题。
一些实施方式中,超参数优化装置和数据处理装置分离式部署,参照图1,本申请实施例提供的超参数优化方法可基于图1所示的一种超参数优化系统实现。该超参数优化系统可以包括服务器01和服务器02。
该服务器01可以是超参数优化装置,其中可以部署超参数优化程序。
该服务器02可以是数据处理装置,其中可以部署有预设模型,例如基于联邦学习的方法训练得到的推荐模型。
服务器01可以获取超参数组的候选样本空间,然后从该候选样本空间中采样得到超参数组集合,然后将其向该服务器02发送。服务器02可以采用接收到的超参数组集合分别配置预设模型,得到多个模型实例,然后采用测试数据输入所述多个模型实例,得到超参数组集合中的各个超参数组的性能结果,向服务器01反馈。服务器01可以基于所述超参数组集合的性能结果,从所述候选样本空间获取高性能样本区域和低性能样本区域,然后确定高性能样本区域的预设参数值是否符合预设条件,并将符合预设条件时的高性能样本区域作为目标样本空间。在高性能样本区域的预设参数值不符合预设条件时,服务器01则将该高性能样本区域作为下一个迭代轮次的候选样本空间,重复上述过程,直至得到目标样本空间。
可以理解的是,在一些可能的实施方式中,数据处理装置还可以是终端设备。
需要说明的是,本申请实施例涉及的服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
本申请实施例涉及的终端设备,可以是指向用户提供语音和/或数据连通性的设备,具有无线连接功能的手持式设备、或连接到无线调制解调器的其他处理设备。例如移动电话(或称为“蜂窝”电话)和具有移动终端的计算机,例如,可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置,它们与无线接入网交换语音和/或数据。例如,个人通信业务(英文全称:Personal Communication Service,英文简称:PCS)电话、无绳电话、会话发起协议(SIP)话机、无线本地环路(Wireless Local Loop,英文简称:WLL)站、个人数字助理(英文全称:Personal Digital Assistant,英文简称:PDA)等设备。
参照图2,图2为本申请实施例提供的一种超参数优化方法的流程示意图。该方法可由超参数优化装置执行,可应用于机器学习模型或分布式机器学习的自动化配置场景,对配置或训练机器学习模型需要的超参数组进行搜索优化,得到符合要求的目标样本空间,从而获取目标超参数组,基于所述目标超参数组可以配置上述机器学习模型,实现模型的最优配置,使得该模型发挥最佳的预期效果。所述超参数优化方法包括步骤110-140:
步骤110,获取超参数组的候选样本空间,其中,所述候选样本空间基于历史候选样本空间更新得到,所述候选样本空间的初始状态为所述超参数组的全域样本空间。
机器学习模型中一般有两类参数:一类需要从训练数据中学习和估计得到,称为模型参数(Parameter),即模型本身的参数;比如,线性回归直线的加权系数(斜率)及其偏差项(截距)都是模型参数。还有一类则是机器学习算法中的调优参数(TuningParameters),需要事先设定,称为超参数(Hyperparameter);例如,迭代次数,树的数量或树的深度,矩阵分解中潜在因素的数量,学习率,深度神经网络的隐藏层数,k均值聚类中的簇数等。
在本申请实施例中,所述超参数组可以是包括多项超参数的一个组合,例如,在联邦学习场景下,一个超参数组可以为{迭代次数N,树深度D,学习率α}的实例;即超参数组SP={100,10,0.1},表示迭代次数为100,树深度为10,学习率为0.1。由于超参数组中的各项超参数的取值范围很大,因此,可能存在的超参数组特别多。现有技术中采取的搜索方式可能需要遍历全部或大部分可能存在的超参数组,才可以获取到目标超参数组,计算资源和时间开销都很大。
本申请实施例中,可以将超参数组的全域样本空间作为初始的候选样本空间,通过对候选样本空间的不断迭代优化,逐步缩小超参数组的样本空间,从而得到目标样本空间。例如,本申请实施例可以基于超参数组的全域样本空间S进行3次迭代,得到目标样本空间ST,具体过程可以是:首先将S作为候选样本空间st0,然后对候选样本空间st0进行第一次迭代更新,缩小其范围,得到候选样本空间st1;接下来,对候选样本空间st1进行第二次迭代更新,缩小其范围,得到候选样本空间st2;最后,对候选样本空间st2进行第三次迭代更新,缩小其范围,得到候选样本空间st3,即目标样本空间ST。可见,本申请实施例中可以将超参数组的候选样本空间不断缩小,直至得到符合预设条件的目标样本空间。
步骤120,从所述候选样本空间采样,得到超参数组集合。
在本申请实施例中,为了在每个迭代轮次确定当前的候选样本空间是否符合预设条件,或者基于当前候选样本空间得到下一迭代轮次的候选样本空间,需要从当前的选样本空间中采样,得到超参数组集合,以便为后续步骤中获取预设参数值或划分样本区域提供方便。在本申请实施例中,所述超参数组集合可以包括多个超参数组,即可以从当前的候选样本空间中采样得到预设数量的采样点,所述采样点即为一个超参数组。例如,假设当前迭代伦次的候选样本空间内包括100个采样点,即100个超参数组,然后可以通过预设方式(例如可以是随机采样或者按照预设规则采样)从所述候选样本空间采样,得到包括预设数量(例如10)的超参数组的超参数组集合。
可以理解的是,所述预设规则可以是预先设置的采样间距或采样条件;例如,可以将采样间距设置为1,那么可以以超参数数值递增1的方式进行采样,得到各个采样点,即相邻采样轮次得到的采样点之间的超参数数值之差为1。需要说明的是,上述采样规则仅为示例,本领域的技术人员可以根据实际需要通过其他方式进行采样,本申请实施例对此不做限定。
考虑到,按照固定采样间距或采样条件的采样方式进行的采样,可能会隐式地带来一些影响或偏差,某些采样规则可能会掩盖候选样本空间本身的固有性质;例如,若某个样本空间中的低性能超参数组总体数量较多,但是符合采样间距的采样点却均为高性能超参数组,则采样得到采样点会误导判断,使得所述样本空间被误认为高性能超参数组较多。因此,在本申请实施例中,可以通过随机采样的方式从候选样本空间中采样得到超参数组集合,以便最大限度的还原所述候选样本空间的超参数组分布情况。
步骤130,基于所述超参数组集合,从所述候选样本空间获取高性能样本区域和低性能样本区域。
在本申请实施例中,从候选样本空间采样得到超参数组集合之后,则可以根据所述超参数组集合,获取高性能样本区域,以便进行后续步骤的候选样本空间的更新或者目标样本空间的确定。
在一个可能的设计中,参照图3,可以通过步骤131-步骤134获取所述高高性能样本区域和所述低性能样本区域:
步骤131、基于所述超参数组集合进行聚类,得到两个候选簇。
在本申请实施例中,对所述超参数组集合进行聚类,可以采用任意现有的聚类方法实现,例如K-means算法、GMM高斯混合模型聚类算法或Mean shift聚类算法,本申请实施例对此不做限定。
可以理解的是,本申请实施例中对所述超参数组集合进行的聚类,目的是为了方便后续步骤中获取高性能样本区域和低性能样本区域,因此,在本申请实施例中采用任意现有聚类方式进行聚类时,均可以将聚类簇数量设置为二,以得到两个候选簇,即候选高性能簇和候选低性能簇。
步骤132、基于所述两个候选簇,分别获取第一候选样本区域和第二候选样本区域。
在本申请实施例中,可以通过以下两种方式得到所述第一候选样本区域和所述第二候选样本区域:
方式①
将所述两个候选簇分别作为所述第一候选样本区域和所述第二候选样本区域。
在本方式①中,所述两个候选簇是基于超参数集合得到的,所述超参数组集合包括多个采样点,每一个采样点均对应一个超参数组。因此,每个候选簇均包括多个采样点。由此,本方式中,可以基于每个候选簇中包括的采样点进行边界划分,得到两个候选样本区域。
例如,如图4所示,假设将包括10个采样点(超参数组)的超参数组集合聚类,得到了包括6个采样点的候选簇1,以及包括4个采样点的候选簇2,接下来,可以分别确定两个候选簇中可以作为边界的采样点,然后基于所述采样点进行边界划分,得到所述第一候选样本区域和所述第二候选样本区域。
可以理解的是,虽然两个候选样本区域是基于两个候选簇分别确定的,但是并不代表两个候选样本区域中,仅包括各自关联的候选簇中包括的采样点(超参数组)。例如在图5所示的示例中,基于候选簇1得到的第一候选样本区域中,并不仅仅包括候选簇1中的6个采样点,而是包括更多的样本点(超参数组);即候选样本区域内也包括未被采样的若干样本点(超参数组)。
考虑到,超参数组的全域样本空间可能十分庞大,即包括不可计数的样本点。如果每个迭代轮次均仅基于候选簇确定的最小区域为候选样本区域,则一方面可能使得迭代效率不够高,无法高效的得到目标样本区域,另一方面也可能造成样本点遗漏,即候选样本空间中且候选簇之外,可能存在其他与所述候选簇性质相同或相近(例如预设参数值近似)的点。因此,为了提高迭代优化效率,且避免遗漏样本点,可以在方式②中对候选簇进行边界拓展,使得每个迭代轮次可以处理更大范围(比方式①中范围更大)的候选样本区域。
方式②
基于所述两个候选簇分别进行边界拓展,获取所述第一候选样本区域和所述第二候选样本区域;一个候选簇的边界基于该候选簇包括的采样点和聚类中心确定。
在本方式的一个可能的设计中,可以通过支持向量机(Support Vector Machine,SVM)对所述两个候选簇分别进行边界拓展,得到所述第一候选样本区域和所述第二候选样本区域。具体来说,可以将各个候选簇包括的采样点作为训练数据输入SVM,然后SVM可以根据各个簇包括的采样点在所述候选样本空间中确定两个候选样本区域,即各个候选簇分别对应的候选样本区域。
可以理解的是,本申请实施例中,选用不同核函数的SVM可能会得出不同的边界;例如选用高斯核函数时,候选样本区域的边界如图6所示;选用线性核函数时,候选样本区域的边界如图7所示;选用双曲正切核函数时,候选样本区域的边界如图8所示。本领域的技术人员可以根据实际需要选用合适的核函数进行边界拓展,本申请实施例对此不做限定。
需要说明的是,考虑到非线性核函数进行边界拓展和划分时,决策边界更加多样,相比于线性核函数,非线性核函数可以处理更加复杂多维的数据分类问题,更加适用于超参数组搜索场景(由于超参数的种类复杂多变)。因此,在一个可能的设计中,可以优选采用非线性核函数的SVM,对各个候选簇分别进行边界拓展,得到两个候选样本区域。可以理解的是,在非线性核函数中,高斯核函数的谱密度是期望为0的高斯分布,更加符合数据的自然分布状况,在SVM中可以更加平滑地处理数据,表现出最佳的性能表现;由此,在一个可选实施例中,可以优先选择采用高斯核函数的SVM对候选簇进行边界拓展。
在本方式②的一个可能的设计中,参照图9,还可以通过以下步骤1321-1323获取两个候选样本区域:
步骤1321,从所述候选样本空间获取在所述两个候选簇之外,且与所述两个候选簇的边界相邻的样本点,分别作为各个候选簇的候选边界点。
在本设计中,可以先基于所述两个候选簇分别确定各自的边界。例如可以根据所述两个簇各自包括的采样点和聚类中心分别确定边界。具体来说,在确定一个候选簇的边界时,可以根据所述候选簇的聚类中心与其包括的各个采样点的距离,确定几个边界点,其中,所述几个边界点通过线段连接后,合围而成的区域可以覆盖该候选簇包括的全部采样点。
例如,可以将该候选簇中包括的各个采样点,按照与聚类中心的距离远近进行排序,然后,获取排序在前的一定数量(例如三个)的采样点,即与所述聚类中心距离最远的三个采样点,以这三个采样点合围而成一个区域,若所述区域能够覆盖该候选簇包括的所有采样点,则可以将这几个点确定为该候选簇的边界点,将该区域确定为该候选簇对应的候选样本区域。可以理解的是,上述三个采样点合围而成的区域可能无法覆盖该簇的所有采样点,那么,可以继续按照各个采样点与聚类中心的距离远近,获取排序在前的四个采样点、五个采样点、六个采样点,直至获取到的采样点合围而成的区域可以覆盖该簇的所有采样点为止。
在本设计中,还可以将一个候选簇中包括的所有采样点进行两两连接,然后将最终形成的区域作为该簇的候选样本区域。
在确定两个候选簇各自的边界之后,即可以各个候选簇的边界,获取各个候选簇的候选边界点。具体来说,可以将候选簇的边界与其外部最邻近的一圈样本点作为候选边界点。
步骤1322,根据所述候选边界点与各自关联的候选簇的聚类中心的距离,拓展相应候选簇的边界。
考虑到,候选样本区域中的样本点应该具有类似的性质,例如候选簇中的样本点与该簇的聚类中心的距离均在一个阈值范围内。因此,在确定各个候选簇的候选边界点之后,可以根据各个候选边界点与其关联的候选簇的聚类中心的距离,确定该候选边界点是否与该候选簇具有相同或相似的性质。
例如,候选簇1的候选边界点为{p1,p2···pn},可以分别计算p1,p2···pn与候选簇1的聚类中心的距离,若该距离符合阈值范围,则得到该距离的来源候选边界点可以确定为候选簇1的新边界点。
可以理解的是,本申请实施例中,可以将候选簇的边界不断向外扩张,直至无法扩张为止;具体来说,可以将候选样本空间中与候选簇的边界点相邻的点确定为候选边界点,然后确定该候选边界点是否可以作为所述候选簇的边界点,若可以,则继续获取新的边界点的候选边界点,直至新的候选边界点不能作为该候选簇的边界点。即本申请实施例中,候选簇的边界拓展过程也可以是一个迭代循环过程,以候选簇的初始边界为起点,不断将向外(远离聚类中心的方向)拓展,直至最新的候选边界点与聚类中心的距离不在阈值范围内为止。
步骤1323,将边界拓展后的两个候选簇,分别作为所述第一候选样本区域和所述第二候选样本区域。
在本申请实施例中,基于两个候选簇,分别进行边界拓展,得到的两个候选样本区域中,任一个均可以作为第一候选样本区域或者第二候选样本区域,本申请实施例对此不做限定。可以理解的是,在一些实施例中,可能会将两个候选簇分别作为候选高性能簇和候选低性能簇,以便进行后续步骤的高性能样本区域和低性能样本区域的确定。在这些实施例中,可以通过候选簇中包括的超参数组的性能参数平均值确定性能的高低,具体来说,每个候选簇中均包括多个超参数组,且与所述多个超参数组一一对应的性能参数值,因此,本申请实施例中,可以将多个性能参数值进行加和平均,得到性能参数平均值,作为该候选簇的性能值;在得到两个候选簇各自的性能值之后,即可根据性能值的高低确定候选高性能簇和候选低性能簇。
可以理解的是,在本申请实施例中,可以实现准备好一个训练数据集,该训练数据集中可以包括多个训练数据,每一个训练数据均可以包括一个超参数组(即一组待优化超参数的候选值)和该超参数组的性能参数值。在需要从某个候选样本空间进行采样时,可以先确定落入该候选样本空间的训练数据,然后从这些训练数据中进行采样。基于上述过程,在从该候选样本空间得到候选簇之后,即可根据候选簇中包括的训练数据确定该候选簇的性能值。
考虑到采样具有不确定性,训练数据集中的训练数据可能不会被遍历,即并不是每一个训练数据都会被采样得到。为了不浪费预设准备训练数据时需要的计算资源和时间,在一个可能的设计中,也可以在从候选样本空间采样得到多个采样点(即超参数组)之后,再根据多个采样点配置预设模型,得到预设模型的多个实例(模型实例与超参数组一一对应),然后根据模型实例的输出结果(例如识别结果的准确率)确定该模型实例关联的超参数组的性能参数值。
通过以上步骤1321-步骤1323,示例性的提出了本申请实施例中一种通过拓展候选簇的边界,获取候选样本区域的可能方式。由于本设计中相当于遍历了候选簇外围所有可能拓展的样本点,因此,避免了遗漏,可以将每一步迭代过程的利用效率最大化,从而提高了整体得到目标样本空间的效率。
可以理解的是,虽然本申请实施例中以方式①和方式②为示例,介绍了从候选样本空间获取候选样本区域的两种可能,但并不限于此。本申请实施例的关键在于,以不断将候选样本空间缩小的方式获取目标样本空间,从而实现超参数优化的准确性和效率之间的平衡,最快速度的得到用于获取最优超参数组的目标样本空间。因此,本领域的技术人员可以根据本申请实施例公开的技术原理,选取其他方式对候选样本空间进行收缩,得到两个候选样本区域。
步骤133、分别获取所述第一候选样本区域和所述第二候选样本区域的模型性能参数值。
在本申请实施例中,得到第一候选样本区域和第二候选样本区域之后,需要从两个候选样本区域中筛选得到一个高性能样本区域,以便作为目标样本空间或下一迭代轮次的候选样本空间。所述高性能样本区域中,可以是高性能样本分布较多的区域,所述高性能样本可以是能够使得预设模型具有良好表现(例如预测准确率高或执行效率高等)的超参数组。由此,可以通过获取两个候选样本区域的模型性能参数值来确定其中的高性能样本区域。
在一个可能的设计中,可以通过以下方式分别获取两个候选样本区域的模型性能参数值:
获取所述第一候选样本区域包括的采样点的性能参数值;并根据所述性能参数值的均值,获取所述第一候选样本区域的所述模型性能参数值;
以及获取所述第二候选样本区域包括的采样点的性能参数值;并根据所述性能参数值的均值,获取所述第二候选样本区域的所述模型性能参数值。
参照方式②中的介绍,本申请实施例中,每一个超参数组均包括:待优化的超参数的候选值以及与所述候选值对应的性能参数值。在从候选样本空间采样得到超参数组集合时,可以得到该超参数组集合中包括的超参数组(即采样点)的性能参数值。由此,在得到两个候选样本区域之后,可以根据各个候选样本区域分别包括的采样点,获取各个候选样本区域的模型性能参数值。例如,候选样本区域1包括采样点1、样本2和采样点3,那么可以先分别获取采样点1的性能参数值v1,采样点2的性能参数值v2和采样点3的性能参数值v3,然后计算(v1+v2+v3)的平均值,即各个性能参数值的均值,作为候选样本区域1的模型性能参数值。
在一个可能的设计中,还可以通过以下方式分别获取两个候选样本区域的模型性能参数值:
获取所述第一候选样本区域包括的采样点的累计性能参数值;并根据所述累计性能参数值,采用置信区间上界算法获取所述第一候选样本区域的所述模型性能参数值;
以及获取所述第二候选样本区域包括的采样点的累计性能参数值;并根据所述累计性能参数值,采用置信区间上界算法获取所述第二候选样本区域的所述模型性能参数值。
在本申请实施例中,是基于超参数组的全域样本空间不断进行收缩,直至得到目标样本空间。在这个过程中,一些采样点可能存在于多个迭代轮次,例如采样点1可能既存在于第一个迭代轮次的候选样本空间中,也存在于第二个迭代轮次的候选样本空间中。也就是说,某些采样点可能由于自身在预设模型中的优异表现,而在候选样本空间的迭代(收缩)过程中,未被排除在外。参照步骤1323中介绍的采样点的性能参数值的获取方式,在一些可能的实施例中,会在采样之后,再将采样得到的采样点配置到预设模型中,以获取性能参数值。由此,若一个采样点在多个迭代轮次均被采样出来,则该采样点可能会获取多次性能参数值。基于此,本申请实施例中,可以根据采样点的历史信息(所述多次性能参数值),获取累积值,从而得到该采样点的平均性能参数值,类似的,可以获取得到一个候选样本区域中包括的所有采样点的平均性能参数值,从而得到该候选样本区域的累积性能参数值。
考虑到,一个采样点在不同的迭代轮次配置到预设模型中后,得到的性能参数值可能存在差异。即采样点的真实性能参数值与每个迭代轮次获取的性能参数值之间存在差异,上述平均性能参数值可能也无法真实反映该采样点的性能表现。由此,在本设计中,可以通过置信区间上界算法估计该差异,从而得到采样点的真实性能表现,以得到两个候选样本区域的真实性能表现。具体来说,可以将一个候选样本区域的累积性能参数值,与基于该候选样本区域包括的采样点的历史信息计算得到的差异相加,得到该候选样本区域的模型性能参数值。
步骤134、根据两个候选样本区域的所述模型性能参数值,确定所述高性能样本区域和所述低性能样本区域。
在本申请实施例中,得到两个候选样本区域的模型性能参数值之后,即可根据模型性能参数值的大小确定所述高性能样本区域和所述低性能样本区域。
在本申请实施例中,通过步骤131-步骤134介绍了从候选样本空间获取高性能样本区域和低性能样本区域的可能方式。本领域的技术人员可以根据本申请实施例中所公开的示例,采用类似的原理(即通过获取一些采样点来形成高性能样本区域和低性能样本区域),通过其他方式获取高性能样本区域和低性能样本区域,此处不再一一列举。
在一个可能的设计中,还可以采用以下公式计算所述候选样本区域的模型性能参数值,并确定所述高性能样本区域:
其中,v'表示当前候选样本区域,v表示获取当前候选样本区域的候选样本空间,Q表示当前候选样本区域的累计性能参数值,N表示当前候选样本区域的访问次数,C是一个常量参数。
需要说明的是,上述公式中的为步骤133中所介绍的差异。在本设计中,由于充分利用了候选样本区域中各个采样点的历史信息,从而使得最终确定的各个候选样本区域的模型性能参数值更加准确。因此,再根据模型性能参数值确定的高性能样本区域更加准确。可以理解的是,在一些迭代轮次,例如得到目标样本空间的后几个迭代轮次中,由于候选样本空间可能已经缩小到一定程度,此时进行样本区域划分得到两个候选样本区域的模型性能参数值较为接近,不容易判断哪个是高性能样本区域,哪个是低性能样本区域;因此本设计中采用置信区间上界算法(Upper Confidence Bound,UCB)充分利用了各个采样点的历史信息,获取的性能参数值与真实性能表现差异更小,得到的高性能样本区域更加准确可信,使得最终得到的目标样本空间更加准确。
步骤140,若所述高性能样本区域的预设参数值不符合预设条件,则基于所述高性能样本区域更新候选样本空间,并基于更新的候选样本空间获取更新的高性能样本区域,直至高性能样本区域的预设参数值符合所述预设条件,并将预设参数值符合所述预设条件时的高性能样本区域作为目标样本空间;
其中,所述目标样本空间用于获取目标超参数组。
在本申请实施例中,所述高性能样本区域的预设参数值可以是该区域的模型性能参数值,也可以是基于上述公式计算得到的UCB值,只要能够表现该区域配置入模型后的性能,本领域的技术人员可以根据实际需要自行选择,本申请实施例对此不做限定。
可以理解的是,由于本申请实施例中实际上是对超参数组的全域样本空间进行不断收缩,以得到目标样本空间。因此,在一些迭代轮次中,步骤140中得到高性能样本区域不符合预设条件时,将会更新候选样本空间,即以该高性能样本区域为下一迭代轮次的候选样本空间,从而进入下一个循环的步骤110中,以实现候选样本空间的整个迭代过程。
在本申请实施例中,所述预设条件可以是一个预设阈值,例如以百分制约束超参数组的性能参数值,则可以将所述预设阈值设置为80,此时,可以将所述预设条件设置为大于预设阈值90。由此,若一个高性能样本区域的预设参数值超过80,则可以认为该高性能样本区域符合预设条件,可以作为目标样本空间。
需要说明的是,虽然本申请实施例中,以各个迭代轮次得到的高性能样本区域的预设参数值是否符合预设条件为基础,作为判断循环是否终止的条件,但是并不限于此。在一些可能的设计中,还可以根据循环迭代次数确定是否终止循环,例如可以将循环迭代100次后得到的高性能样本区域作为目标样本空间。在一些可能的设计中,还可以根据各个迭代轮次得到的高性能样本区域的预设参数值是否收敛,作为判断循环是否终止的条件,例如某个迭代轮次得到的高性能样本区域的预设参数值与上一轮次相比,没有发生变化,则可以认为已经收敛,此时可以将倒数第二个迭代轮次得到的高性能样本区域作为目标样本空间。或者,在一个可能的设计中,还可以根据是否能够划分出高性能样本区域和低性能样本区域为循环终止条件,例如,若某个迭代伦次从候选样本空间中获取的两个候选样本区域的模型性能参数值相同,则无法划分确定二者的高低,此时,可能这两个区域中随机采样得到的采样点在模型上的表现类似;因此,可以将这两个候选样本区域结合(例如叠加),作为所述目标样本空间。
需要说明的是,在本申请实施例中,获取目标样本空间的过程是一个将超参数组不断缩小的过程。例如,参照图10,超参数组的全域样本空间为S,在经过几轮迭代收缩之后,分别得到了样本空间SA、SB、SC和SD,在一个迭代轮次中,由于SA比SB的模型性能参数值高,所将SA确定为高性能样本区域,并基于其进行下一个迭代轮次的空间收缩,在经过几轮迭代之后,得到了SC和SD,例如SC的为本轮迭代的高性能样本区域,且其预设参数值符合预设条件,则可以将SC确定为目标样本空间,并结束迭代。可以理解的是,本申请实施例得到目标样本空间的搜索优化过程,相当于建立了蒙特卡洛搜索树,在这个过程中,相当于采用了蒙特卡洛搜索优化法,每个搜索过程均已局部采样的点代替一个区域,从而提高了搜索效率,且实现了样本空间的收缩,解决了传统贝叶斯优化需要基于整个样本空间进行实施的维度诅咒问题。
在本申请实施例中,得到目标样本空间之后,即可以从所述目标样本空间中获取目标超参数组。该目标超参数组可以是从所述目标样本空间中按照预设方式获取的,例如可以是随机采样得到的;由于目标样本空间整体上满足预设条件,所以随机采样得到的目标超参数组也可以发挥出超过预设阈值的性能。可以理解的是,在一些场景中,用户可能希望可以获取到最优的超参数组,由此,则所述目标超参数组可以是所述目标样本空间中可以使得模型发挥出最佳性能的超参数组;此时,可以通过贝叶斯优化(例如UCB或提升期望或提升概率)的方式从所述目标样本空间中获取该最优的超参数组。
本申请实施例中,通过采样的方式从候选样本空间中获取超参数组集合,然后基于该超参数组集合获取高性能样本区域和低性能样本区域,最后根据高性能样本区域的预设参数值是否符合预设条件,确定是否获取了目标样本空间。本申请实施例中,从候选样本空间获取的高性能样本区域为该候选样本空间的子集,相当于通过逐渐收缩样本空间的方式来获取目标样本空间;在上述收缩过程中,本申请实施例通过采样的方式获取有限数量的样本点,代表其所属的整个区域,相比于需要遍历整个区域所有样本点的方式,本申请实施例的方式极大降低了计算量和计算时间,从而提高了优化搜索效率。另外,由于本申请实施例中的每个迭代轮次均实现了样本空间的缩小,相当于降低了样本空间的维度,从而避免了现有技术中贝叶斯优化(即采样获取超参数组集合)解决高维问题时容易出现的维度诅咒(即难以适用)问题。
以上对本申请实施例中一种超参数优化方法进行说明,以下对执行上述超参数优化方法的超参数优化装置(例如服务器)进行介绍。
参阅图11,如图11所示的一种超参数优化装置的结构示意图,其可应用于服务器中,用于机器学习模型或分布式机器学习的自动化配置场景,对配置或训练机器学习模型需要的超参数组进行搜索优化,得到符合要求的目标样本空间,从而获取目标超参数组,基于所述目标超参数组可以配置上述机器学习模型,实现模型的最优配置。在本申请实施例中的超参数优化装置能够实现对应于上述图2中所对应的实施例中所执行的超参数优化方法的步骤。超参数优化装置实现的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块,所述模块可以是软件和/或硬件。所述超参数优化装置可包括输入输出模块601及处理模块602,所述装置还可以包括显示模块(图11中未标识出),所述处理模块602、所述输入输出模块601的功能实现可参考图2所对应的实施例中所执行的操作,此处不作赘述。例如,所述处理模块602可用于控制所述输入输出模块601的收发、获取等操作,以及控制所述显示模块的输出超参数组等操作。
所述输入输出模块601,被配置为获取超参数组的全域样本空间;
所述处理模块602,被配置为获取超参数组的候选样本空间,其中,所述候选样本空间基于历史候选样本空间更新得到,所述候选样本空间的初始状态为所述超参数组的全域样本空间;以及
所述处理模块602,还被配置为从所述候选样本空间采样,得到超参数组集合;以及基于所述超参数组集合,从所述候选样本空间获取高性能样本区域和低性能样本区域;
所述处理模块602,还被配置为若所述高性能样本区域的预设参数值不符合预设条件,则基于所述高性能样本区域更新候选样本空间,并基于更新的候选样本空间获取更新的高性能样本区域,直至高性能样本区域的预设参数值符合所述预设条件,并将预设参数值符合所述预设条件时的高性能样本区域作为目标样本空间;
其中,所述目标样本空间用于获取目标超参数组。
在一些实施方式中,所述处理模块602,还被配置为基于所述超参数组集合进行聚类,得到两个候选簇;
基于所述两个候选簇,分别获取第一候选样本区域和第二候选样本区域;
分别获取所述第一候选样本区域和所述第二候选样本区域的模型性能参数值;
根据两个候选样本区域的所述模型性能参数值,确定所述高性能样本区域和所述低性能样本区域。
在一些实施方式中,所述处理模块602,还被配置为将所述两个候选簇分别作为所述第一候选样本区域和所述第二候选样本区域;或者
基于所述两个候选簇分别进行边界拓展,获取所述第一候选样本区域和所述第二候选样本区域;其中,一个候选簇的边界基于该候选簇包括的采样点和聚类中心确定;所述超参数组集合包括多个采样点,每一个采样点均对应一个超参数组。
在一些实施方式中,所述处理模块602,还被配置为从所述候选样本空间获取在所述两个候选簇之外,且与所述两个候选簇的边界相邻的采样点,分别作为各个候选簇的候选边界点;
根据所述候选边界点与各自关联的候选簇的聚类中心的距离,拓展相应候选簇的边界;
将边界拓展后的两个候选簇,分别作为所述第一候选样本区域和所述第二候选样本区域。
在一些实施方式中,每一个超参数组均包括:待优化的超参数的候选值以及与所述候选值对应的性能参数值;
所述处理模块602,还被配置为获取所述第一候选样本区域包括的采样点的性能参数值;
根据所述性能参数值的均值,获取所述第一候选样本区域的所述模型性能参数值;
获取所述第二候选样本区域包括的采样点的性能参数值;
根据所述性能参数值的均值,获取所述第二候选样本区域的所述模型性能参数值。
在一些实施方式中,所述处理模块602,还被配置为获取所述第一候选样本区域包括的采样点的累计性能参数值;
根据所述累计性能参数值,采用置信区间上界算法获取所述第一候选样本区域的所述模型性能参数值;
获取所述第二候选样本区域包括的采样点的累计性能参数值;
根据所述累计性能参数值,采用置信区间上界算法获取所述第二候选样本区域的所述模型性能参数值。
在一些实施方式中,所述处理模块602,还被配置为采用以下公式计算所述候选样本区域的模型性能参数值,并确定所述高性能样本区域:
其中,v'表示当前候选样本区域,v表示获取当前候选样本区域的候选样本空间,Q表示当前候选样本区域的累计性能参数值,N表示当前候选样本区域的访问次数,C是一个常量参数。
本申请实施例中,通过采样的方式从候选样本空间中获取超参数组集合,然后基于该超参数组集合获取高性能样本区域和低性能样本区域,最后根据高性能样本区域的预设参数值是否符合预设条件,确定是否获取了目标样本空间。本申请实施例中,从候选样本空间获取的高性能样本区域为该候选样本空间的子集,相当于通过逐渐收缩样本空间的方式来获取目标样本空间;在上述收缩过程中,本申请实施例通过采样的方式获取有限数量的样本点,代表其所属的整个区域,相比于需要遍历整个区域所有样本点的方式,本申请实施例的方式极大降低了计算量和计算时间,从而提高了优化搜索效率。另外,由于本申请实施例中的每个迭代轮次均实现了样本空间的缩小,相当于降低了样本空间的维度,从而避免了现有技术中贝叶斯优化(即采样获取超参数组集合)解决高维问题时容易出现的维度诅咒(即难以适用)问题。
在介绍了本申请实施例的方法和装置之后,接下来,对本申请实施例的计算机可读存储介质进行说明,计算机可读存储介质可为光盘,其上存储有计算机程序(即程序产品),所述计算机程序在被处理器运行时,会实现上述方法实施方式中所记载的各步骤,例如,获取超参数组的候选样本空间,其中,所述候选样本空间基于历史候选样本空间更新得到,所述候选样本空间的初始状态为所述超参数组的全域样本空间;从所述候选样本空间采样,得到超参数组集合;基于所述超参数组集合,从所述候选样本空间获取高性能样本区域和低性能样本区域;若所述高性能样本区域的预设参数值不符合预设条件,则基于所述高性能样本区域更新候选样本空间,并基于更新的候选样本空间获取更新的高性能样本区域,直至高性能样本区域的预设参数值符合所述预设条件,并将预设参数值符合所述预设条件时的高性能样本区域作为目标样本空间;其中,所述目标样本空间用于获取目标超参数组。各步骤的具体实现方式在此不再重复说明。
需要说明的是,所述计算机可读存储介质的例子还可以包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。
上面从模块化功能实体的角度对本申请实施例中的超参数优化装置60进行了描述,下面从硬件处理的角度分别对本申请实施例中的执行超参数优化方法的服务器、终端设备进行描述。
需要说明的是,在本申请超参数优化装置实施例的图11所示的输入输出模块601对应的实体设备可以为输入/输出单元、收发器、射频电路、通信模块和输入/输出(I/O)接口等,处理模块602对应的实体设备可以为处理器。图11所示的超参数优化装置60可以具有如图12所示的结构,当图11所示的超参数优化装置60具有如图12所示的结构时,图12中的处理器和收发器能够实现前述对应该装置的装置实施例提供的处理模块602和输入输出模块601相同或相似的功能,图12中的存储器存储处理器执行上述超参数优化方法时需要调用的计算机程序。
本申请实施例还提供了一种终端设备,如图13所示,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。该终端设备可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant,PDA)、销售终端设备(Point of Sales,POS)、车载电脑等任意终端设备,以终端设备为手机为例:
图13示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图13,手机包括:射频(Radio Frequency,RF)电路1010、存储器1020、输入单元1030、显示单元1040、传感器1050、音频电路1060、无线保真(wireless fidelity,Wi-Fi)模块1070、处理器1080、以及电源1090等部件。本领域技术人员可以理解,图13中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图13对手机的各个构成部件进行具体的介绍:
RF电路1010可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器1080处理;另外,将设计上行的数据发送给基站。通常,RF电路1010包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(LowNoiseAmplifier,LNA)、双工器等。此外,RF电路1010还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication,GSM)、通用分组无线服务(General PacketRadioService,GPRS)、码分多址(Code Division Multiple Access,CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution,LTE)、电子邮件、短消息服务(Short Messaging Service,SMS)等。
存储器1020可用于存储软件程序以及模块,处理器1080通过运行存储在存储器1020的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器1020可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1020可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元1030可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元1030可包括触控面板1031以及其他输入设备1032。触控面板1031,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1031上或在触控面板1031附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板1031可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1080,并能接收处理器1080发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1031。除了触控面板1031,输入单元1030还可以包括其他输入设备1032。具体地,其他输入设备1032可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元1040可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1040可包括显示面板1041,可选的,可以采用液晶显示器(LiquidCrystalDisplay,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板1041。进一步的,触控面板1031可覆盖显示面板1041,当触控面板1031检测到在其上或附近的触摸操作后,传送给处理器1080以确定触摸事件的类型,随后处理器1080根据触摸事件的类型在显示面板1041上提供相应的视觉输出。虽然在图13中,触控面板1031与显示面板1041是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板1031与显示面板1041集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器1050,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1041的亮度,接近传感器可在手机移动到耳边时,关闭显示面板1041和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路1060、扬声器1061,传声器1062可提供用户与手机之间的音频接口。音频电路1060可将接收到的音频数据转换后的电信号,传输到扬声器1061,由扬声器1061转换为声音信号输出;另一方面,传声器1062将收集的声音信号转换为电信号,由音频电路1060接收后转换为音频数据,再将音频数据输出处理器1080处理后,经RF电路1010以发送给比如另一手机,或者将音频数据输出至存储器1020以便进一步处理。
Wi-Fi属于短距离无线传输技术,手机通过Wi-Fi模块1070可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图13示出了Wi-Fi模块1070,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器1080是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器1020内的软件程序和/或模块,以及调用存储在存储器1020内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器1080可包括一个或多个处理单元;可选的,处理器1080可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1080中。
手机还包括给各个部件供电的电源1090(比如电池),可选的,电源可以通过电源管理系统与处理器1080逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本申请实施例中,该手机所包括的处理器1080还具有控制执行以上由数据处理装置执行的基于输入的超参数组集合获取性能结果的方法流程;或者控制执行以上由超参数优化装置执行的基于超参数组的候选样本空间获取目标样本空间的方法流程。
本申请实施例还提供了一种服务器,请参阅图14,图14是本申请实施例提供的一种服务器结构示意图,该服务器1100可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(英文全称:central processing units,英文简称:CPU)1122(例如,一个或一个以上处理器)和存储器1132,一个或一个以上存储应用程序1142或数据1144的存储介质1130(例如一个或一个以上海量存储设备)。其中,存储器1132和存储介质1130可以是短暂存储或持久存储。存储在存储介质1130的程序可以包括一个或一个以上模块(图中未示出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1122可以设置为与存储介质1130通信,在服务器1100上执行存储介质1130中的一系列指令操作。
服务器1100还可以包括一个或一个以上电源1126,一个或一个以上有线或无线网络接口1150,一个或一个以上输入输出接口1158,和/或,一个或一个以上操作系统1141,例如Windows Server,Mac OS X,Unix,Linux,FreeBSD等等。
上述实施例中由服务器所执行的步骤可以基于该图14所示的服务器1100的结构。例如,例如上述实施例中由图14所示的超参数优化装置60所执行的步骤可以基于该图14所示的服务器结构。例如,所述中央处理器1122通过调用存储器1132中的指令,执行以下操作:
通过输入输出接口1158获取超参数组的全域样本空间;
获取超参数组的候选样本空间,其中,所述候选样本空间基于历史候选样本空间更新得到,所述候选样本空间的初始状态为所述超参数组的全域样本空间;
从所述候选样本空间采样,得到超参数组集合;
基于所述超参数组集合,从所述候选样本空间获取高性能样本区域和低性能样本区域;
若所述高性能样本区域的预设参数值不符合预设条件,则基于所述高性能样本区域更新候选样本空间,并基于更新的候选样本空间获取更新的高性能样本区域,直至高性能样本区域的预设参数值符合所述预设条件,并将预设参数值符合所述预设条件时的高性能样本区域作为目标样本空间;
其中,所述目标样本空间用于获取目标超参数组。
还可以通过输入输出接口1158所述目标样本空间输出,以便获取所述目标超参数组,然后根据所述目标超参数组配置目标模型,发挥目标模型的最佳性能。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请实施例所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请实施例各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机计算机程序时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
以上对本申请实施例所提供的技术方案进行了详细介绍,本申请实施例中应用了具体个例对本申请实施例的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请实施例的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请实施例的限制。
Claims (10)
1.一种超参数优化方法,所述方法包括:
获取超参数组的候选样本空间,其中,所述候选样本空间基于历史候选样本空间更新得到,所述候选样本空间的初始状态为所述超参数组的全域样本空间;
从所述候选样本空间采样,得到超参数组集合;
基于所述超参数组集合,从所述候选样本空间获取高性能样本区域和低性能样本区域;
若所述高性能样本区域的预设参数值不符合预设条件,则基于所述高性能样本区域更新候选样本空间,并基于更新的候选样本空间获取更新的高性能样本区域,直至高性能样本区域的预设参数值符合所述预设条件,并将预设参数值符合所述预设条件时的高性能样本区域作为目标样本空间;
其中,所述目标样本空间用于获取目标超参数组。
2.如权利要求1所述的方法,其中,基于所述超参数组集合,从所述候选样本空间获取高性能样本区域和低性能样本区域,包括:
基于所述超参数组集合进行聚类,得到两个候选簇;
基于所述两个候选簇,分别获取第一候选样本区域和第二候选样本区域;
分别获取所述第一候选样本区域和所述第二候选样本区域的模型性能参数值;
根据两个候选样本区域的所述模型性能参数值,确定所述高性能样本区域和所述低性能样本区域。
3.如权利要求2所述的方法,其中,基于所述两个候选簇,分别获取第一候选样本区域和第二候选样本区域,包括:
将所述两个候选簇分别作为所述第一候选样本区域和所述第二候选样本区域;或者
基于所述两个候选簇分别进行边界拓展,获取所述第一候选样本区域和所述第二候选样本区域;其中,一个候选簇的边界基于该候选簇包括的采样点和聚类中心确定;所述超参数组集合包括多个采样点,每一个采样点均对应一个超参数组。
4.如权利要求3所述的方法,其中,基于所述两个候选簇分别进行边界拓展,获取所述第一候选样本区域和所述第二候选样本区域,包括:
从所述候选样本空间获取在所述两个候选簇之外,且与所述两个候选簇的边界相邻的采样点,分别作为各个候选簇的候选边界点;
根据所述候选边界点与各自关联的候选簇的聚类中心的距离,拓展相应候选簇的边界;
将边界拓展后的两个候选簇,分别作为所述第一候选样本区域和所述第二候选样本区域。
5.如权利要求2-4中任一项所述的方法,其中,每一个超参数组均包括:待优化的超参数的候选值以及与所述候选值对应的性能参数值;
分别获取所述第一候选样本区域和所述第二候选样本区域的模型性能参数值,包括:
获取所述第一候选样本区域包括的采样点的性能参数值;
根据所述性能参数值的均值,获取所述第一候选样本区域的所述模型性能参数值;
获取所述第二候选样本区域包括的采样点的性能参数值;
根据所述性能参数值的均值,获取所述第二候选样本区域的所述模型性能参数值。
6.如权利要求2-4中任一项所述的方法,其中,分别获取所述第一候选样本区域和所述第二候选样本区域的模型性能参数值,包括:
获取所述第一候选样本区域包括的采样点的累计性能参数值;
根据所述累计性能参数值,采用置信区间上界算法获取所述第一候选样本区域的所述模型性能参数值;
获取所述第二候选样本区域包括的采样点的累计性能参数值;
根据所述累计性能参数值,采用置信区间上界算法获取所述第二候选样本区域的所述模型性能参数值。
8.一种超参数优化装置,包括:
输入输出模块,被配置为获取超参数组的全域样本空间;
处理模块,被配置为获取超参数组的候选样本空间,其中,所述候选样本空间基于历史候选样本空间更新得到,所述候选样本空间的初始状态为所述超参数组的全域样本空间;以及
所述处理模块,还被配置为从所述候选样本空间采样,得到超参数组集合;以及
基于所述超参数组集合,从所述候选样本空间获取高性能样本区域和低性能样本区域;
所述处理模块,还被配置为若所述高性能样本区域的预设参数值不符合预设条件,则基于所述高性能样本区域更新候选样本空间,并基于更新的候选样本空间获取更新的高性能样本区域,直至高性能样本区域的预设参数值符合所述预设条件,并将预设参数值符合所述预设条件时的高性能样本区域作为目标样本空间;
其中,所述目标样本空间用于获取目标超参数组。
9.一种计算设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其包括指令,当其在计算机上运行时,使得计算机执行如权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211687469.8A CN116029368A (zh) | 2022-12-27 | 2022-12-27 | 超参数优化方法、相关装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211687469.8A CN116029368A (zh) | 2022-12-27 | 2022-12-27 | 超参数优化方法、相关装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116029368A true CN116029368A (zh) | 2023-04-28 |
Family
ID=86077274
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211687469.8A Pending CN116029368A (zh) | 2022-12-27 | 2022-12-27 | 超参数优化方法、相关装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116029368A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118098402A (zh) * | 2024-03-15 | 2024-05-28 | 苏州创腾软件有限公司 | 多目标变量的实验方案设计方法和装置 |
-
2022
- 2022-12-27 CN CN202211687469.8A patent/CN116029368A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118098402A (zh) * | 2024-03-15 | 2024-05-28 | 苏州创腾软件有限公司 | 多目标变量的实验方案设计方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11169827B2 (en) | Resource loading at application startup using attributes of historical data groups | |
CN110163367B (zh) | 一种终端部署方法和装置 | |
CN111222563B (zh) | 一种模型训练方法、数据获取方法以及相关装置 | |
CN111209423B (zh) | 一种基于电子相册的图像管理方法、装置以及存储介质 | |
WO2019128598A1 (zh) | 应用处理方法、电子设备、计算机可读存储介质 | |
CN114694226B (zh) | 一种人脸识别方法、系统及存储介质 | |
CN111125269A (zh) | 一种数据管理方法、血缘关系显示方法和相关装置 | |
CN116071614A (zh) | 样本数据处理方法、相关设备及存储介质 | |
CN115658348B (zh) | 微服务调用方法、相关装置及存储介质 | |
CN115588131B (zh) | 模型鲁棒性检测方法、相关装置及存储介质 | |
CN115239941B (zh) | 对抗图像生成方法、相关装置及存储介质 | |
CN116029368A (zh) | 超参数优化方法、相关装置及存储介质 | |
CN119025339A (zh) | 数据备份方法、装置、电子设备及存储介质 | |
CN117332844A (zh) | 对抗样本生成方法、相关装置及存储介质 | |
CN115050079B (zh) | 人脸识别方法、装置及存储介质 | |
CN115546516B (zh) | 人员聚档方法、装置、计算机设备及存储介质 | |
CN116954631A (zh) | 模型部署方法、相关装置及存储介质 | |
CN115412726B (zh) | 视频真伪检测方法、装置及存储介质 | |
CN115565215B (zh) | 一种人脸识别算法切换方法、装置及存储介质 | |
CN114743081B (zh) | 模型训练方法、相关装置及存储介质 | |
CN116778306A (zh) | 伪造对象检测方法、相关装置及存储介质 | |
CN116596202A (zh) | 工单处理方法、相关装置及存储介质 | |
CN116257657B (zh) | 数据处理方法、数据查询方法、相关装置及存储介质 | |
CN114971504A (zh) | 一种实体类型确定方法和相关装置 | |
CN115909186B (zh) | 图像信息识别方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |