CN111695690B - 基于合作式强化学习与迁移学习的多智能体对抗决策方法 - Google Patents
基于合作式强化学习与迁移学习的多智能体对抗决策方法 Download PDFInfo
- Publication number
- CN111695690B CN111695690B CN202010748266.XA CN202010748266A CN111695690B CN 111695690 B CN111695690 B CN 111695690B CN 202010748266 A CN202010748266 A CN 202010748266A CN 111695690 B CN111695690 B CN 111695690B
- Authority
- CN
- China
- Prior art keywords
- action
- state
- agent
- learning
- value function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 230000002787 reinforcement Effects 0.000 title claims abstract description 45
- 238000013526 transfer learning Methods 0.000 title claims abstract description 23
- 230000009471 action Effects 0.000 claims abstract description 141
- 230000006870 function Effects 0.000 claims abstract description 86
- 230000000875 corresponding effect Effects 0.000 claims abstract description 19
- 238000002922 simulated annealing Methods 0.000 claims abstract description 18
- 239000011159 matrix material Substances 0.000 claims abstract description 8
- 230000008569 process Effects 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 230000007423 decrease Effects 0.000 claims description 6
- 238000013508 migration Methods 0.000 claims description 5
- 230000005012 migration Effects 0.000 claims description 5
- 238000000137 annealing Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000003247 decreasing effect Effects 0.000 abstract description 4
- 238000012549 training Methods 0.000 abstract description 2
- 238000012546 transfer Methods 0.000 abstract description 2
- 239000000523 sample Substances 0.000 description 4
- 238000001816 cooling Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000013016 damping Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000016776 visual perception Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006386 memory function Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/042—Backward inferencing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Feedback Control In General (AREA)
Abstract
本发明提出一种基于合作式强化学习与迁移学习的多智能体对抗决策方法,其特征在于,包括如下步骤:定义智能体的状态空间S={s1,s2,…,sn};设定其动作空间Α={a1,a2,…,an};设定智能体强化学习模型的值函数矩阵;使用动作评估器计算当前状态st对应的值函数序列通过基于模拟退火与softmax策略的动作选择器选择相应的动作at;同时,智能体的状态发生变化,转移到下一状态st+1。在执行动作at后,智能体从环境中获得奖励信号rt;通过权重共享的方式可以降低经验存储的损耗,提高对抗决策效率。通过基于衰减函数的迁移学习方法使得智能体以逐渐递减的概率复用先前经验,迁移学习将先前训练得到的动作评估器权重迁移到更多的对抗决策场景,提高了学习模型的泛化性。
Description
技术领域
本发明属于机器学习与智能计算领域,具体涉及一种基于合作式强化学习与迁移学习的多智能体对抗决策方法。
背景技术
随着人工智能与智能控制技术的不断发展,机器学习已经被广泛应用于智能机器人、无人驾驶、工业物联网以及边缘计算等众多研究领域,并发挥着重要作用。多智能体对抗决策是智能计算领域当前的研究热点,常见的多智能体对抗决策有机器人足球,水中机器人博弈等。但是,由于多智能体对抗决策环境愈加趋向复杂化,模糊化,所处的任务环境也具有更多的不确定性,因此经典的多智能体对抗决策方法已经无法适应当前复杂任务的需要。
强化学习要求智能体主动对未知环境进行探测,并接受环境对试探动作的评价,这个回报可以是正反馈也可是负反馈,从而获取经验知识,改进并优化解决方案以完成既定的任务。传统的强化学习提供了一种可以为任何学习任务提供解决方案,但是随着任务的改变,学习的过程必须从新开始,甚至在新的场景中学习新的解决方案可能需要大量的样本或是专家经验。Q学习算法是经典的基于值函数的强化学习算法,但是传统的基于Q学习的多智能体对抗决策方法无法解决智能体高维状态空间的问题。基于分层强化学习的多智能体对抗决策方法将策略分解,将分解后的策略分配给多智能体并行执行,这种方式在一定程度上可以降低智能体决策算法的计算复杂度,提高决策效率。但是在该场景下,对手是不会变化的,尽管机器人足球对抗看起来更加复杂,并且也没有对强化学习的所积累的经验进行有效利用。SARSA学习算法是一种在线的强化学习方法,提高了智能体的场景适应能力,但是查表式的强化学习方法面对状态空间或是动作空间较大的情境下常常显得无能为力。
多智能体对抗决策具有更多的随机特征,随机对抗决策的场景是未知的、动态变化的。即使在机器人足球这样的动态场景下,对手一般也是固定不变的,如何应对对手不断变化的场景是一个值得研究的问题。智能体具有决策与记忆的特性,在随机对抗决策场景下构建具有强大的决策与记忆功能的智能体一直是学者们普遍关注的研究热点。在智能体对抗决策场景中,在智能体状态-动作空间较大时如何有效地克服查表式强化学习的弊端,如何在与一个新的对手战斗时利用与以往对手战斗的经验一直是待解决的难题。强化学习和迁移学习相结合的方法为解决随机任务场景下的多智能体对抗决策问题提供了一种新思路、新方法。
发明内容
基于背景技术中所提及的问题,本发明提出一种基于合作式强化学习与迁移学习的多智能体对抗决策方法,克服传统方法中收敛速度慢、场景适应性不强,难以高效地完成预定任务的缺陷;其具体技术内容如下:
一种基于合作式强化学习与迁移学习的多智能体对抗决策方法,其包括如下步骤:
步骤1,利用智能体的感知设备获取当前的环境信息,从而定义智能体的状态空间,并且所述状态空间记为离散化序列S={s1,s2,...,sn};
步骤2,根据智能体的动作类型及动作范围设定其动作空间Α={a1,a2,...,an};
步骤3,设定智能体强化学习模型的值函数矩阵,其中,对应于状态-动作对<st,at>的值函数为Q(st,at);
步骤4,在通过步骤1,2和3获得智能体强化学习模型的状态空间、动作空间以及值函数矩阵之后,使用动作评估器计算当前状态st对应的值函数序列通过基于模拟退火与softmax策略的动作选择器选择相应的动作at;同时,智能体的状态发生变化,转移到下一状态st+1。在执行动作at后,智能体从环境中获得奖励信号rt;
步骤5,在通过步骤4得到的下一时刻状态st+1以及奖励信号rt之后,将下一时刻状态st+1与动作空间中的所有动作Α={a1,a2,...,an}输入到动作评估器中,计算得到对应的值函数序列然后,使用基于模拟退火策略的动作选择器选择下一时刻的动作at+1以及对应的值函数Q(st+1,at+1),将当前状态st,当前值函数Q(st,at),当前奖励rt存入记忆池;
步骤6,在通过步骤5得到下一状态-动作对<st+1,at+1>的值函数Q(st+1,at+1)之后,使用下一个状态-动作对<st+1,at+1>的值函数Q(st+1,at+1)通过时间差分方法更新为当前状态-动作值函数Q(st,at);
步骤7,在通过步骤6得到更新后的当前状态-动作对<st,at>的值函数Q(st,at)之后,计算当前值函数Q(st,at)与下一时刻值函数Q(st+1,at+1)的差分误差作为动作评估器的损失函数,通过反向传播方式更新动作评估器的权重;在完成动作评估器的更新之后,对于智能体的下一状态st+1,将st+1,at+1,Q(st+1,at+1)以及获得的奖励存储在记忆池中替换原先状态st的学习样本;
步骤8,在多次执行步骤7得到更新完成的动作评估器之后,通过带有衰减函数的迁移学习方法将先前的学习经验扩展到当前的对抗任务场景。
于本发明的一个或多个实施例当中,在步骤1当中,如果当前的状态空间是连续的,则对状态空间通过线性分割方式进行离散化,获得离散化序列S={s1,s2,...,sn}。
于本发明的一个或多个实施例当中,在步骤4当中,通过基于模拟退火与softmax策略的动作选择器实现控制动作选择的随机性,该策略依据各个动作的平均奖赏来选择动作,对于动作at,如果该动作产生的平均奖赏高于其他动作产生的平均奖赏,则该动作被选择的概率也就越高;Softmax算法中动作的概率分布是基于Boltzmann分布,如公式(1)所示:
其中,pi代表选择动作ai概率,动作总个数为K;
在softmax算法中添加模拟退火的方法,动作ai被选择的概率如公式(2)所示:
其中,Tt是温度参数,Tt越小平均奖赏高的动作被选择的概率越高;
模拟退火方法的温度值按照公式(3)来调节:
其中,η为退火因子,取值范围0≤η≤1。
于本发明的一个或多个实施例当中,在步骤5当中,动作选择器使用公式(4)计算动作at+1的分布概率并选择合适的动作:
在确定下一时刻动作at+1之后,选择对应状态st+1与动作at+1的值函数Q(st+1,at+1),将当前状态st,当前值函数Q(st,at),当前奖励rt存入记忆池;记忆池中的学习样本使用四元组表示model(st,at,rt,Q(st,at))。
于本发明的一个或多个实施例当中,在步骤6当中,采用如下公式(5):
Q*(st,at)=Q(st,at)+α[rt+γQ(st+1,at+1)-Q(st,at)] (5)
更新当前状态-动作值函数Q(st,at)。
于本发明的一个或多个实施例当中,在步骤7当中,动作评估器的损失函数如公式(6)所示:
智能体在每次学习过程中,记忆池会暂时存储at,st,Q(at,st),rt,而记忆池中存储的值函数就是Q(st,at);在计算得到Q*(st,at)之后,通过记忆池获得Q(st,at),通过反向传播更新动作评估器的权重,记忆池为计算动作评估器的神经网络的误差而提供Q(st,at);
在完成动作评估器的更新之后,对于智能体的下一状态st+1,将st+1,at+1,Q(st+1,at+1)以及获得的奖励存储在记忆池中替换原先状态st的学习样本;多智能体共享动作评估器的权重。
在迁移学习的过程中,设置了衰减函数以逐渐递减的概率去利用先前的经验,最后在探索新的经验与利用以往经验之间达到一种稳态;在使用合作式强化学习的基础上引入衰减函数,设定ε表示阈值,如果随机数rand>ε则利用以往的经验,反之则使用动作选择器选择动作,阈值ε随着时间t发生变化,满足公式(8):
其中,k表示衰减系数,t0表示初始时刻,阈值ε随着时间不断减少,表示在学习的前期阶段会更高概率的利用以往的经验,而这种概率逐渐减少,最后趋于稳定。
本发明相比之传统技术,其优越性体现在:
1)合作式强化学习通过动作选择器根据模拟退火策略选择合适的动作,通过基于神经网络的动作评估器计算值函数,动作选择器与动作评估器相互合作,共同完成强化学习过程。合作式强化学习利用记忆池技术,通过经验回放得到先前的值函数然后计算值函数误差并通过反向传播更新动作评估器权值。合作式强化学习通过两个模块的协同合作,提高了智能体的学习效率。同时,多智能体共享动作评估器的权重,降低了经验存储的损耗。
2)在强化学习的后期阶段,模拟退火算法的动作选择器可以使得智能体倾向于利用先前学习经验选择动作,避免了动作选择的随机性。
3)通过基于神经网络的动作评估器存储强化学习值函数,克服了因为状态-动作空间过大而导致的维数灾难问题,神经网络的使用提高了学习效率。
4)使用迁移学习的方法将所训练的强化学习模型扩展到更加复杂的对抗决策场景,同时,借鉴牛顿冷却定律设计了一种衰减函数,该衰减度函数最终可以在利用迁移策略与探索新策略之间最终达到一种平衡。通过该衰减函数以逐渐递减的概率复用先前经验,减少了先前学习经验中的干扰信息。
附图说明
图1为本发明的执行流程图。
具体实施方式
如下结合附图1,对本申请方案作进一步描述:
本发明提出一种基于合作式强化学习与迁移学习的多智能体对抗决策方法,分为合作式强化学习与迁移学习两方面,包括以下步骤:
步骤1.利用智能体的视觉感知设备获取当前的环境信息,使用当前的任务环境信息定义智能体的状态空间。如果当前的状态空间是连续的,需要对状态空间进行离散化。使用线性分割的方法将连续的状态空间离散化为离散的状态空间,记为S={s1,s2,...,sn}。
步骤2.在通过步骤1获得外界环境的感知信息后,设置智能体的动作空间。在复杂的实时控制环境中,智能体的动作空间往往是根据其可执行的动作类型以及动作范围设定。状态空间与动作空间过大会给强化学习模型的计算带来较大的计算损耗。设定智能体的动作空间为:Α={a1,a2,...,an}。
步骤3.在通过步骤2获取智能体的动作空间之后,设定智能体强化学习模型的值函数矩阵。通过收集智能体在执行任务过程中获得的累积奖励并计算得到累积奖励的期望值。设定对应状态-动作对<st,at>的值函数为Q(st,at)。
步骤4.在通过步骤1,2,3获得智能体强化学习模型的状态空间、动作空间以及值函数之后,根据当前的状态st,将当前状态st与动作空间Α={a1,a2,...,an}输入到动作评估器,使用动作评估器计算当前状态st对应的值函数序列通过基于模拟退火与softmax策略的动作选择器选择相应的动作at。同时,智能体的状态发生变化,转移到下一状态st+1。智能体获得奖励信号rt。基于模拟退火与softmax策略的动作选择器可以控制动作选择的随机性。该策略依据各个动作的平均奖赏来选择动作,对于动作at,如果该动作产生的平均奖赏高于其他动作产生的平均奖赏,则该动作被选择的概率也就越高。Softmax算法中动作的概率分布是基于Boltzmann分布,如公式所示:
其中,pi代表选择动作ai概率,动作总个数为K。
使用基于Boltzmann分布的动作选择策略可以确保学习开始时动作选择的随机性较大,为了控制动作选择的随机程度,提高学习速度,在softmax算法中添加模拟退火的方法,动作ai被选择的概率如公式所示:
其中,Tt是温度参数,Tt越小平均奖赏高的动作被选择的概率越高。模拟退火方法的温度值按照式(3)来调节:
其中,η为退火因子,取值范围0≤η≤1。
步骤5.在通过步骤4得到的下一时刻状态st+1以及奖励信号之后rt。,将下一时刻状态st+1与动作空间中的所有动作Α={a1,a2,...,an}输入到动作评估器中,计算得到对应的值函数序列然后,使用基于模拟退火策略的动作选择器使用式(4)计算动作at+1的分布概率并选择合适的动作。
在确定下一时刻动作at+1之后,选择对应状态st+1与动作at+1的值函数Q(st+1,at+1),将当前状态st,当前值函数Q(st,at),当前奖励rt存入记忆池。记忆池中的学习样本使用四元组表示model(st,at,rt,Q(st,at))。
步骤6.在通过步骤5得到下一状态-动作对的值函数Q(st+1,at+1)之后,使用下一状态-动作对的值函数通过时间差分方法更新当前状态-动作值函数Q(st,at),更新方式如式(5)所示。
Q*(st,at)=Q(st,at)+α[rt+γQ(st+1,at+1)-Q(st,at)] (5)
步骤7.在通过步骤6得到更新后的当前状态-动作值函数Q*(st,at)之后,计算当前值函数Q(st,at)与更新后的值函数Q*(st,at)的差分误差作为动作评估器的损失函数,通过反向传播方式更新动作评估器的权重。动作评估器的损失函数如式(6)所示。
智能体在每次学习过程中,记忆池会暂时存储at,st,Q(at,st),rt,而记忆池中存储的值函数就是Q(st,at)。在计算得到Q*(st,at)之后,通过记忆池获得Q(st,at),通过反向传播更新动作评估器的权重。记忆池的作用是为了计算动作评估器的神经网络的误差而提供Q(st,at)。
在完成动作评估器的更新之后,对于智能体的下一状态st+1,将st+1,at+1,Q(st+1,at+1)以及获得的奖励存储在记忆池中替换原先状态st的学习样本。多智能体共享动作评估器的权重。
步骤8.在多次执行步骤7得到更新完成的动作评估器之后,通过带有衰减函数的迁移学习方法将先前的学习经验扩展到更多的对抗任务场景。原任务与目标任务具有相同的状态与动作空间,使用一组映射来适配源任务与目标任务,如公式(7)所示,
在迁移学习的过程中,存在着许多的干扰信息,借鉴了牛顿冷却定律的基本思想,设置了一种衰减函数,该衰减函数可以使得智能体以逐渐递减的概率去利用先前的经验,最后在探索新的经验与利用以往经验之间达到一种稳态。在使用合作式强化学习的基础上引入衰减函数,设定ε表示阈值,如果随机数rand>ε则利用以往的经验,反之则使用动作选择器选择动作,阈值ε随着时间t发生变化,满足公式(8):
其中,k表示衰减系数,t0表示初始时刻,阈值ε随着时间不断减少,表示在学习的前期阶段会更高概率的利用以往的经验,而这种概率逐渐减少,最后趋于稳定。
本发明提出了一种基于合作式强化学习与迁移学习的多智能体对抗决策方法。合作式强化学习包括动作产生器与动作评估器两部分。在具体的多智能体对抗决策场景中,智能体通过视觉感知得到当前的状态,然后根据智能体可执行的动作类型与范围设定动作空间,进而根据状态空间与动作空间设定强化学习值函数。设置动作评估器与动作产生器,通过动作评估器计算得到当前状态对应的值函数序列,将值函数序列输入到动作产生器得到当前执行的动作,执行当前动作得到下一状态与当前奖励。输入下一状态到动作评估器得到下一状态对应的值函数序列,再次通过动作产生器输出得到下一动作。使用时间差分方法更新当前值函数,计算动作评估器的损失函数,通过反向传播方法更新动作评估器的权重。多智能体共享动作评估器的网络权重,通过权重共享的方式可以降低经验存储的损耗,提高对抗决策效率。最后,借鉴牛顿冷却定律设计一种衰减函数,通过基于衰减函数的迁移学习方法使得智能体以逐渐递减的概率复用先前经验,迁移学习将先前训练得到的动作评估器权重迁移到更多的对抗决策场景,提高了学习模型的泛化性。
上述优选实施方式应视为本申请方案实施方式的举例说明,凡与本申请方案雷同、近似或以此为基础作出的技术推演、替换、改进等,均应视为本专利的保护范围。
Claims (7)
1.一种基于合作式强化学习与迁移学习的多智能体对抗决策方法,其特征在于,包括如下步骤:
步骤1,利用智能体的感知设备获取当前的环境信息,从而定义智能体的状态空间,并且所述状态空间记为离散化序列S={s1,s2,...,sn};
步骤2,根据智能体的动作类型及动作范围设定其动作空间Α={a1,a2,...,an};
步骤3,设定智能体强化学习模型的值函数矩阵,其中,对应于状态-动作对<st,at>的值函数为Q(st,at);
步骤4,在通过步骤1,2和3获得智能体强化学习模型的状态空间、动作空间以及值函数矩阵之后,使用动作评估器计算当前状态st对应的值函数序列通过基于模拟退火与softmax策略的动作选择器选择相应的动作at;同时,智能体的状态发生变化,转移到下一状态st+1, 在执行动作at后,智能体从环境中获得奖励信号rt;
步骤5,在通过步骤4得到的下一时刻状态st+1以及奖励信号rt之后,将下一时刻状态st+1与动作空间中的所有动作Α={a1,a2,...,an}输入到动作评估器中,计算得到对应的值函数序列然后,使用基于模拟退火策略的动作选择器选择下一时刻的动作at+1以及对应的值函数Q(st+1,at+1),将当前状态st,当前值函数Q(st,at),当前奖励rt存入记忆池;
步骤6,在通过步骤5得到下一状态-动作对<st+1,at+1>的值函数Q(st+1,at+1)之后,使用下一个状态-动作对<st+1,at+1>的值函数Q(st+1,at+1)通过时间差分方法更新为当前状态-动作值函数Q(st,at);
步骤7,在通过步骤6得到更新后的当前状态-动作对<st,at>的值函数Q(st,at)之后,计算当前值函数Q(st,at)与下一时刻值函数Q(st+1,at+1)的差分误差作为动作评估器的损失函数,通过反向传播方式更新动作评估器的权重;在完成动作评估器的更新之后,对于智能体的下一状态st+1,将st+1,at+1,Q(st+1,at+1)以及获得的奖励存储在记忆池中替换原先状态st的学习样本;
步骤8,在多次执行步骤7得到更新完成的动作评估器之后,通过带有衰减函数的迁移学习方法将先前的学习经验扩展到当前的对抗任务场景。
2.根据权利要求1所述的基于合作式强化学习与迁移学习的多智能体对抗决策方法,其特征在于:在步骤1当中,如果当前的状态空间是连续的,则对状态空间通过线性分割方式进行离散化,获得离散化序列S={s1,s2,...,sn}。
3.根据权利要求1所述的基于合作式强化学习与迁移学习的多智能体对抗决策方法,其特征在于:在步骤4当中,通过基于模拟退火与softmax策略的动作选择器实现控制动作选择的随机性,该策略依据各个动作的平均奖赏来选择动作,对于动作at,如果该动作产生的平均奖赏高于其他动作产生的平均奖赏,则该动作被选择的概率也就越高;Softmax算法中动作的概率分布是基于Boltzmann分布,如公式(1)所示:
其中,pi代表选择动作ai概率,动作总个数为K;
在softmax算法中添加模拟退火的方法,动作ai被选择的概率如公式(2)所示:
其中,Tt是温度参数,Tt越小平均奖赏高的动作被选择的概率越高;
模拟退火方法的温度值按照公式(3)来调节:
其中,η为退火因子,取值范围0≤η≤1。
5.根据权利要求1所述的基于合作式强化学习与迁移学习的多智能体对抗决策方法,其特征在于:在步骤6当中,采用如下公式(5):
Q*(st,at)=Q(st,at)+α[rt+γQ(st+1,at+1)-Q(st,at)] (5)
更新当前状态-动作值函数Q(st,at)。
6.根据权利要求1所述的基于合作式强化学习与迁移学习的多智能体对抗决策方法,其特征在于:在步骤7当中,动作评估器的损失函数如公式(6)所示:
智能体在每次学习过程中,记忆池会暂时存储at,st,Q(at,st),rt,而记忆池中存储的值函数就是Q(st,at);在计算得到Q*(st,at)之后,通过记忆池获得Q(st,at),通过反向传播更新动作评估器的权重,记忆池为计算动作评估器的神经网络的误差而提供Q(st,at);
在完成动作评估器的更新之后,对于智能体的下一状态st+1,将st+1,at+1,Q(st+1,at+1)以及获得的奖励存储在记忆池中替换原先状态st的学习样本;多智能体共享动作评估器的权重。
在迁移学习的过程中,设置了衰减函数以逐渐递减的概率去利用先前的经验,最后在探索新的经验与利用以往经验之间达到一种稳态;在使用合作式强化学习的基础上引入衰减函数,设定ε表示阈值,如果随机数rand>ε则利用以往的经验,反之则使用动作选择器选择动作,阈值ε随着时间t发生变化,满足公式(8):
其中,k表示衰减系数,t0表示初始时刻,阈值ε随着时间不断减少,表示在学习的前期阶段会更高概率的利用以往的经验,而这种概率逐渐减少,最后趋于稳定。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010748266.XA CN111695690B (zh) | 2020-07-30 | 2020-07-30 | 基于合作式强化学习与迁移学习的多智能体对抗决策方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010748266.XA CN111695690B (zh) | 2020-07-30 | 2020-07-30 | 基于合作式强化学习与迁移学习的多智能体对抗决策方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111695690A CN111695690A (zh) | 2020-09-22 |
CN111695690B true CN111695690B (zh) | 2023-04-18 |
Family
ID=72487064
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010748266.XA Active CN111695690B (zh) | 2020-07-30 | 2020-07-30 | 基于合作式强化学习与迁移学习的多智能体对抗决策方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111695690B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112364500B (zh) * | 2020-11-09 | 2021-07-20 | 中国科学院自动化研究所 | 面向强化学习训练与评估的多并发实时对抗系统 |
CN112348285B (zh) * | 2020-11-27 | 2021-08-10 | 中国科学院空天信息创新研究院 | 一种基于深度强化学习的动态环境下人群疏散模拟方法 |
CN113163479A (zh) * | 2021-02-05 | 2021-07-23 | 北京中电飞华通信有限公司 | 一种蜂窝物联网上行资源分配方法及电子设备 |
CN113281999A (zh) * | 2021-04-23 | 2021-08-20 | 南京大学 | 一种基于强化学习和迁移学习的无人机自主飞行训练方法 |
CN113159341A (zh) * | 2021-04-23 | 2021-07-23 | 中国电力科学研究院有限公司 | 融合深度强化学习和专家经验的配电网辅助决策方法及系统 |
CN113377655B (zh) * | 2021-06-16 | 2023-06-20 | 南京大学 | 一种基于MAS-Q-Learing的任务分配方法 |
CN113283574B (zh) * | 2021-07-22 | 2021-12-07 | 中国科学院自动化研究所 | 群体对抗中智能体控制方法、装置、电子设备及存储介质 |
CN114529010B (zh) * | 2022-01-28 | 2025-03-21 | 广州杰赛科技股份有限公司 | 一种机器人自主学习方法、装置、设备及存储介质 |
CN114463997B (zh) * | 2022-02-14 | 2023-06-16 | 中国科学院电工研究所 | 一种无信号灯交叉路口车辆协同控制方法及系统 |
CN114785693B (zh) * | 2022-06-24 | 2022-09-30 | 中国科学技术大学 | 基于分层强化学习的虚拟网络功能迁移方法及装置 |
CN115107948B (zh) * | 2022-06-24 | 2023-08-25 | 大连海事大学 | 一种高效强化学习自主船舶避碰方法 |
CN115396157B (zh) * | 2022-07-29 | 2024-06-04 | 中国人民解放军国防科技大学 | 一种基于反馈式的物联网设备自动探测方案生成方法及系统 |
CN115062871B (zh) * | 2022-08-11 | 2022-11-29 | 山西虚拟现实产业技术研究院有限公司 | 基于多智能体强化学习的智能电表状态评估方法 |
CN117610643B (zh) * | 2023-11-16 | 2024-10-11 | 中国科学院自动化研究所 | 离散化多智能体的深度强化学习方法及系统 |
CN117636900B (zh) * | 2023-12-04 | 2024-05-07 | 广东新裕信息科技有限公司 | 一种基于音频特征形状匹配的乐器演奏质量评价方法 |
CN118095401B (zh) * | 2024-04-29 | 2024-07-23 | 南京邮电大学 | 仓库收纳的后状态离轨策略强化学习训练加速方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110991545A (zh) * | 2019-12-10 | 2020-04-10 | 中国人民解放军军事科学院国防科技创新研究院 | 一种面向多智能体对抗的强化学习训练优化方法及装置 |
CN111241952A (zh) * | 2020-01-03 | 2020-06-05 | 广东工业大学 | 一种离散制造场景中的强化学习奖励自学习方法 |
CN111339690A (zh) * | 2019-04-26 | 2020-06-26 | 成都蓉奥科技有限公司 | 一种基于期望值函数的深度强化学习训练加速方法 |
-
2020
- 2020-07-30 CN CN202010748266.XA patent/CN111695690B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111339690A (zh) * | 2019-04-26 | 2020-06-26 | 成都蓉奥科技有限公司 | 一种基于期望值函数的深度强化学习训练加速方法 |
CN110991545A (zh) * | 2019-12-10 | 2020-04-10 | 中国人民解放军军事科学院国防科技创新研究院 | 一种面向多智能体对抗的强化学习训练优化方法及装置 |
CN111241952A (zh) * | 2020-01-03 | 2020-06-05 | 广东工业大学 | 一种离散制造场景中的强化学习奖励自学习方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111695690A (zh) | 2020-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111695690B (zh) | 基于合作式强化学习与迁移学习的多智能体对抗决策方法 | |
CN110119844B (zh) | 引入情绪调控机制的机器人运动决策方法、系统、装置 | |
US20220363259A1 (en) | Method for generating lane changing decision-making model, method for lane changing decision-making of unmanned vehicle and electronic device | |
CN112668235A (zh) | 基于离线模型预训练学习的ddpg算法的机器人控制方法 | |
CN112465151A (zh) | 一种基于深度强化学习的多智能体联邦协作方法 | |
CN110515303A (zh) | 一种基于ddqn的自适应动态路径规划方法 | |
CN112329948A (zh) | 一种多智能体策略预测方法及装置 | |
CN114741886A (zh) | 一种基于贡献度评价的无人机集群多任务训练方法及系统 | |
CN117273057A (zh) | 基于强化学习的多智能体协同对抗决策方法及装置 | |
CN117709437A (zh) | 一种基于融合差分建议的多智能体复杂系统迁移强化学习方法 | |
Jin et al. | A game-theoretic reinforcement learning approach for adaptive interaction at intersections | |
Wang et al. | Experience sharing based memetic transfer learning for multiagent reinforcement learning | |
Liu et al. | A hybrid mobile robot path planning scheme based on modified gray wolf optimization and situation assessment | |
CN113467481A (zh) | 一种基于改进Sarsa算法的路径规划方法 | |
CN116560239A (zh) | 一种多智能体强化学习方法、装置及介质 | |
Pan et al. | A dynamically adaptive approach to reducing strategic interference for multiagent systems | |
CN116360435A (zh) | 基于情节记忆的多智能体协同策略的训练方法和系统 | |
Shi et al. | Efficient hierarchical policy network with fuzzy rules | |
CN110390398A (zh) | 在线学习方法 | |
Cummings et al. | Development of a hybrid machine learning agent based model for optimization and interpretability | |
CN115906673B (zh) | 作战实体行为模型一体化建模方法及系统 | |
CN116718198A (zh) | 基于时序知识图谱的无人机集群的路径规划方法及系统 | |
Linkens et al. | Real-time acquisition of fuzzy rules using genetic algorithms | |
Leonard et al. | Bootstrapped Neuro-Simulation as a method of concurrent neuro-evolution and damage recovery | |
CN114489035B (zh) | 一种基于累积迹强化学习的多机器人协同搜索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |