[go: up one dir, main page]

CN117556898A - 基于cfr算法的博弈方法、装置、设备及存储介质 - Google Patents

基于cfr算法的博弈方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN117556898A
CN117556898A CN202311395333.4A CN202311395333A CN117556898A CN 117556898 A CN117556898 A CN 117556898A CN 202311395333 A CN202311395333 A CN 202311395333A CN 117556898 A CN117556898 A CN 117556898A
Authority
CN
China
Prior art keywords
remorse
node
value
game
strategy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311395333.4A
Other languages
English (en)
Inventor
纪晓龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Super Parameter Technology Shenzhen Co ltd
Original Assignee
Super Parameter Technology Shenzhen Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Super Parameter Technology Shenzhen Co ltd filed Critical Super Parameter Technology Shenzhen Co ltd
Priority to CN202311395333.4A priority Critical patent/CN117556898A/zh
Publication of CN117556898A publication Critical patent/CN117556898A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/042Backward inferencing
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/60Generating or modifying game content before or while executing the game program, e.g. authoring tools specially adapted for game development or game-integrated level editor
    • A63F13/67Generating or modifying game content before or while executing the game program, e.g. authoring tools specially adapted for game development or game-integrated level editor adaptively or by learning from player actions, e.g. skill level adjustment or by storing successful combat sequences for re-use
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/60Methods for processing data by generating or executing the game program
    • A63F2300/6027Methods for processing data by generating or executing the game program using adaptive systems learning from user actions, e.g. for skill level adjustment

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于CFR算法的博弈方法、装置、设备及存储介质。其中,所述CFR算法包括多个第一节点,每一所述第一节点用于描述对应智能体的多个初始策略,方法包括:获取博弈问题,其中,所述博弈问题包括多个智能体以及每一所述智能体的多个初始策略;通过所述第一节点同时对对应的智能体的多个初始策略进行分析,得到所述博弈问题对应的博弈结果,其中,所述博弈结果包括多个所述智能体对应的目标策略,且所述目标策略之间处于纳什均衡状态。本申请旨在CFR算法设置多个第一节点,进而能够同时利用多个第一节点的计算资源同时对博弈问题进行分析,以提高博弈问题的解决效率。

Description

基于CFR算法的博弈方法、装置、设备及存储介质
技术领域
本申请涉及深度学习技术领域,尤其涉及一种基于CFR算法的博弈方法、基于CFR算法的博弈装置、计算机设备及计算机可读存储介质。
背景技术
机器博弈一直以来都是人工智能领域中非常重要的问题,其中非完全信息机器博弈(如卡牌游戏)是检验人工智能发展水平的一个重要手段,它对建立现实社会的决策支持与分析体系具有重要的参考价值。CFR(反事实后悔最小化)算法由于其良好的理论保证和强大的实证性能,目前是解决非完全信息博弈的最经典方法之一,CFR算法通过最小化单个信息集上的后悔值来达到最小化平均全局后悔值的目标,在反复迭代的过程中,可以保证平均策略随着迭代次数的增长趋近于纳什均衡策略。
然而,相关技术中CFR算法通常在单机上运行,因此面临单机内存受限和计算资源有限的挑战。单机内存的限制迫使CFR算法运行时数据需要存储在磁盘上,因此导致了CFR算法读取数据效率较低,且无法有效处理大规模游戏树,因此限制了CFR算法对博弈问题的分析规模和效率。
发明内容
本申请提供了一种基于CFR算法的博弈方法、基于CFR算法的博弈装置、计算机设备及计算机可读存储介质,旨在CFR算法设置多个第一节点,进而能够同时利用多个第一节点的计算资源同时对博弈问题进行分析,以提高博弈问题的解决效率。
为实现上述目的,本申请提供一种基于CFR算法的博弈方法,所述CFR算法包括多个第一节点,每一所述第一节点用于描述对应智能体的多个初始策略,所述方法包括:
获取博弈问题,其中,所述博弈问题包括多个智能体以及每一所述智能体的多个初始策略;
通过所述第一节点同时对对应的智能体的多个初始策略进行分析,得到所述博弈问题对应的博弈结果,其中,所述博弈结果包括多个所述智能体对应的目标策略,且所述目标策略之间处于纳什均衡状态。
为实现上述目的,本申请还提供一种基于CFR算法的博弈装置,所述CFR算法包括多个第一节点,每一所述第一节点用于描述对应智能体的多个初始策略,所述装置包括:
获取模块,所述获取模块用于通过所述第一节点获取博弈问题,其中,所述博弈问题包括多个智能体以及每一所述智能体的多个初始策略;
分析模块,所述分析模块用于通过所述第一节点同时对对应的智能体的多个初始策略进行分析,得到所述博弈问题对应的博弈结果,其中,所述博弈结果包括多个所述智能体对应的目标策略,且所述目标策略之间处于纳什均衡状态。
此外,为实现上述目的,本申请还提供一种计算机设备,所述设备包括存储器和处理器;所述存储器,用于存储计算机程序;所述处理器,用于执行所述的计算机程序并在执行所述的计算机程序时实现本申请实施例提供的任一项所述的基于CFR算法的博弈方法的步骤。
此外,为实现上述目的,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现本申请实施例提供的任一项所述的基于CFR算法的博弈方法的步骤。
本申请实施例公开的一种基于CFR算法的博弈方法、基于CFR算法的博弈装置、计算机设备及计算机可读存储介质。其中,CFR算法包括多个第一节点,每一第一节点用于描述对应智能体的多个初始策略。具体的,可获取博弈问题,其中,博弈问题包括多个智能体以及每一智能体的多个初始策略。进一步的,可通过第一节点同时对对应的智能体的多个初始策略进行分析,得到博弈问题对应的博弈结果,其中,博弈结果包括多个智能体对应的目标策略,且目标策略之间处于纳什均衡状态。本申请旨在在CFR算法中设置多个第一节点,进而能够同时利用多个第一节点的计算资源同时对博弈问题进行分析,得到博弈结果,从而实现提高博弈问题的解决效率。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种基于CFR算法的博弈方法的步骤示意图;
图2是本申请实施例提供的一种得到博弈结果的步骤示意图;
图3是本申请实施例提供的一种得到博弈结果的场景示意图;
图4是本申请实施例提供的一种得到后悔值模型的步骤示意图;
图5是本申请实施例提供的一种基于CFR算法的博弈装置的示意性框图;
图6是本申请实施例提供的一种计算机设备的示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。另外,虽然在装置示意图中进行了功能模块的划分,但是在某些情况下,可以以不同于装置示意图中的模块划分。
在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参阅图1,图1是本申请实施例提供的一种基于CFR算法的博弈方法的步骤示意图。其中,CFR算法包括多个第一节点,每一第一节点用于描述对应智能体的多个初始策略。
需要说明的是,CFR(Counterfactual Regret Minimization,反事实后悔最小化)算法是一种用于解决博弈问题的强化学习算法,特别适用于多智能体(玩家)的不完全信息博弈。CFR算法能够通过分析博弈中的策略和智能体之间的博弈过程,旨在找到每个智能体的最佳策略,以获得均衡的状态。这种均衡状态确保没有一个智能体可以通过单方面改变策略来获得更好的结果。
由此,本申请旨在通过CFR算法对多智能体(玩家)的不完全信息博弈进行分析,进而得到每个智能体的最佳策略。
其中,不完全信息博弈是一种博弈理论的分支,其中智能体在博弈过程中没有完全的信息,或者说每一智能体不知道其他智能体的全部策略和博弈信息。例如扑克游戏、猜拳游戏等。与完全信息博弈不同,不完全信息博弈中,智能体只能部分观察到其他智能体的行为,策略或者博弈结果。在不完全信息博弈中,智能体需要根据有限的信息和博弈策略来做出决策。
需要说明的是,智能体是指能够感知环境、做出决策和采取行动的实体或程序。例如智能体包括物理机器人、虚拟机器人、计算机程序或任何具备自主行动和决策能力的实体。在人工智能领域,智能体通常通过算法和模型来实现,以模仿或实现智能行为。尤其是在多人游戏或博弈中场景,智能体可以扮演玩家的角色,通过制定策略并采取行动,以达到其既定的目标。
因此,本申请旨在通过CFR算法对博弈问题进行分析,以找到每个智能体的最佳策略。
考虑到相关技术中CFR算法通常在单机上运行,因此面临单机内存受限和计算资源有限的挑战,本申请在CFR算法上设置多个第一节点,每一第一节点用于描述对应智能体的多个初始策略,以实现同时利用多个第一节点的计算资源同时对博弈问题进行分析,得到博弈结果,从而实现提高博弈问题的解决效率。
其中,第一节点也即计算节点,多个计算节点设置于CFR算法的分布式环境中,用于并行执行如展开游戏树、计算后悔值以及更新策略等任务,以实现大幅提高CFR算法的计算速度和效率。
如图1所示,该基于CFR算法的博弈方法包括步骤S11至步骤S14。
步骤S11:获取博弈问题,其中,博弈问题包括多个智能体以及每一智能体的多个初始策略。
其中,初始策略为智能体在博弈过程中的行动选择。例如,对于石头、剪刀、布这种猜拳博弈。每个智能体都有三种策略:选择石头、选择剪刀、选择布,这些策略定义了智能体在博弈中可以采取的行动。
因此,本申请可以获取博弈问题,以用于对博弈问题进行分析,进而从智能体的初始策略中确定最佳策略。
步骤S12:通过第一节点同时对对应的智能体的多个初始策略进行分析,得到博弈问题对应的博弈结果,其中,博弈结果包括多个智能体对应的目标策略,且目标策略之间处于纳什均衡状态。
其中,目标策略为智能体的最佳策略。也即,在给定其他智能体的策略的情况下,能够使该智能体获得最有利结果的策略。
需要说明的是,目标策略之间处于纳什均衡状态。也即,在该状态下,每个智能体的策略都是响应其他智能体的最佳策略。没有任何一个智能体愿意单独改变自己的策略,否则会导致其获得更差的结果。
在本申请实施例中,可通过第一节点的计算资源并行的分析博弈问题,得到全局的最佳策略,从而实现提高博弈问题的解决效率。
本申请实施例公开的一种基于CFR算法的博弈方法,其中,CFR算法包括多个第一节点,每一第一节点用于描述对应智能体的多个初始策略。具体的,可获取博弈问题,其中,博弈问题包括多个智能体以及每一智能体的多个初始策略。进一步的,可通过第一节点同时对对应的智能体的多个初始策略进行分析,得到博弈问题对应的博弈结果,其中,博弈结果包括多个智能体对应的目标策略,且目标策略之间处于纳什均衡状态。本申请旨在在CFR算法中设置多个第一节点,进而能够同时利用多个第一节点的计算资源同时对博弈问题进行分析,得到博弈结果,从而实现提高博弈问题的解决效率。
请继续参阅图2以及图3,图2是本申请实施例提供的一种得到博弈结果的步骤示意图;图3是本申请实施例提供的一种得到博弈结果的场景示意图。如图2所示,CFR算法还包括第二节点,第二节点与第一节点连接,因此可通过步骤S121至步骤S124实现得到博弈结果。
步骤S121:通过第一节点确定对应的智能体在当前初始策略下的第一后悔值。
其中,第一后悔值为当前初始策略对应的后悔值。其中,后悔值用于衡量当前初始策略的效用与理论最佳策略的效用之间的差异,进而可以基于后悔值调整策略。
可选地,第一节点包括游戏树,用于描述对应智能体的多个初始策略,通过第一节点确定对应智能体在当前初始策略下的第一后悔值,包括:获取第二策略,并通过游戏树计算在当前初始策略下的第一效用,以及在第二策略下的第二效用;将第一效用与第二效用作差,得到第一后悔值。
其中,游戏树为一个有向图结构,其描述了博弈的所有可能决策和行动序列,也即初始策略。在游戏树中,每个智能体需要制定策略,以确定在每个节点(决策点)上应该应该选择哪个边,即采取哪个行动。
此外,第二策略为理论最佳策略,其表示在给定的博弈场景下,智能体理论上可以采取的最优策略。理论最佳策略通常基于博弈各种可能性和条件,通过数学建模和分析来确定。
进一步的,第一效用为当前初始策略对应的效用;第二效用为第二策略的效用。其中,效用可以表示为当前策略对应的奖励或者得分,本申请对此不加以限定。
具体的,可通过游戏树分别计算第一效用以及第二效用,进而将第一效用与第二效用进行做差,得到第一后悔值。
可选地,可通过预先定义效用函数的方式,计算每个策略的效用,从而得到第一效用以及第二效用。
在本申请实施例中,可通过第一节点确定对应的智能体在当前初始策略下的第一后悔值,以用于后续基于第一后悔值实现策略的更新调整。
步骤S122:通过第二节点从第一节点中获取第一后悔值,并基于第一后悔值训练得到后悔值模型。
其中,第二节点为CPU(Central Processing Unit,中央处理器)节点,其可以使用中央处理器(CPU)来执行计算任务。第二节点具有较高的性能,能够用于处理如模型训练、科学计算等任务。
具体的,第二节点能够从第一节点中获取到第一后悔值,以训练后悔值模型,以用于通过后悔值模型得到策略对应的后悔值,进而调整策略。
需要说明的是,本申请对于后悔值模型不加以限定,例如
在本申请实施例中,可获取若干训练数据,并从若干训练数据中确定若干智能体分别对应的环境信息,进而基于环境信息确定每一智能体对应的向量特征以及图像特征。
步骤S123:将后悔值模型分发至第一节点,以使得第一节点基于后悔值模型进行策略更新,得到第一策略,并确定第一策略下的第二后悔值。
步骤S124:在每一智能体对应的第二后悔值在预设范围时,将第一策略确定为目标策略。
其中,第一策略为更新后得到的策略;第二后悔值为第一策略的后悔值,其可通过后悔值模型得到。
具体的,可将后悔值模型分发至第一节点,以使得第一节点能够基于后悔值模型调整当前初始策略,进而得到第一策略,并通过后悔值模型确定第一策略对应的后悔值。若第一策略对应的后悔值在预设范围,则可以将第一策略确定为目标策略。
需要说明的是,预设范围可以为接近为0的范围,此时目标策略之间处于纳什平衡状态。例如,预设范围为-0.1至0.1、-0.2至0.2等,本申请对此不加以限定。
在本申请实施例中,可将后悔值模型分发至第一节点,以使得第一节点基于后悔值模型进行策略更新,得到第一策略,并确定第一策略下的第二后悔值,进而在每一智能体对应的第二后悔值在预设范围时,将第一策略确定为目标策略。
可选地,第一节点基于后悔值模型进行策略更新,得到第一策略,包括:根据后悔值计算对应的智能体的策略更新量;将策略更新量应用于当前初始策略进行策略更新,得到第一策略。
具体的,可根据后悔值计算对应的智能体的策略更新量。例如,可预先设定比例系数(学习率),进而将比例系数(学习率)乘以后悔值,从而得到策略更新量。
进一步的,可将策略更新量应用于其当前策略。通过增加或减小当前策略的概率来实现策略更新,得到第一策略。例如,如果后悔值为正,可根据策略更新量增加当前策略的概率;如果后悔值为负,可根据策略更新量减小当前策略的概率。这可以根据后悔值的正负来调整策略。
可选地,第一节点还包括数据存储系统,通过第一节点确定对应的智能体在当前初始策略下的第一后悔值之后,还包括:将第一后悔值存储至数据存储系统。
在上述实施例的基础上,通过第二节点从第一节点中获取第一后悔值,包括:通过第二节点从数据存储系统中获取第一后悔值。
其中,第一节点还包括数据存储系统,用于存储数据。其中,数据存储系统可以为节点内存系统,也可以为分布式文件系统或云存储服务等,本申请对此不加以限定。
具体的,在通过第一节点确定对应的智能体在当前初始策略下的第一后悔值之后,还可以将第一后悔值存储至数据存储系统。由此,可通过第二节点从数据存储系统中获取第一后悔值。
在本申请实施例中,可在第一节点中设置数据存储系统以用于存储数据信息,基于数据存储系统能够从多个第一第一节点中同步获取信息,因此减少了数据传输延迟。此外,第二节点能够按需访问数据存储系统,以及同步数据信息,因此实现了提高数据传输效率,且降低了数据传输开销。
可选地,请参阅图4,图4是本申请实施例提供的一种得到后悔值模型的步骤示意图。如图4所示,可通过步骤S21至步骤S22实现得到后悔值模型。
步骤S21:通过第二节点从第一节点的游戏树中获取训练数据,训练数据包括智能体的博弈状态信息以及第一后悔值。
步骤S22:将训练数据输入至神经网络模型进行训练,得到后悔值模型。
具体的,可通过第二节点从第一节点的游戏树中获取训练数据,训练数据包括智能体的博弈状态信息以及第一后悔值,以用于基于训练数据训练神经网络模型,从而使得神经网络模型可以学习智能体在不同博弈状态信息下的行为和后悔值。进一步的,可将训练数据输入至神经网络模型,以使得神经网络模型接受训练数据并进行训练,得到后悔值模型。
需要说明的是,本申请对于后悔值模型不加以限定,例如后悔值模型为深度神经网络模型、卷积神经网络模型以及循环神经网络模型等。其中,深度神经网络模型为最常见的后悔值模型类型,深度神经网络可以包含多个隐藏层,能够学习博弈状态和相应的后悔值之间的非线性关系。
在本申请实施例中,可将智能体的博弈状态信息以及第一后悔值输入到神经网络模型中进行监督学习,进而训练得到后悔值模型。由此,可根据后悔值模型实现策略的后悔值的预测。
可选地,得到后悔值模型之后,还包括:对后悔值模型进行迭代训练提取数据特征,并计算得到损失函数;利用预设方法以降低损失函数数值为目的对损失函数进行迭代训练,直至满足预期阈值规定;基于迭代训练后的损失函数,得到迭代后的后悔值模型。
可以理解的,为了训练更高准确率的后悔值模型,可对后悔值模型进行反复迭代训练的方式使得损失函数不断降低,直至损失函数满足预期阈值规定,以得到迭代后的后悔值模型,进而可基于迭代后的后悔值模型实现后悔值的预测。
需要说明的是,本申请对上述预设方法以及预期阈值不做限定,例如该预设方法可以为梯度下降算法、批梯度下降算法、随机梯度下井算法等,本申请以梯度下降算法为例进行说明。
梯度下降算法的目的为通过迭代的方式找到损失函数的最小值,或者收敛到最小值。梯度下降算法从几何意义上讲,就是在函数变化增加最快的地方,沿着向量相反的方向,梯度减小最快,因此更容易找到函数最小值。基于此,在本申请实施例中,可采用梯度下降算法的方式对后悔值模型进行反复迭代训练使得损失函数不断降低,从而实现降低计算结果的误差。
在本申请实施例中,可基于后悔值模型计算得到损失函数,进而采用梯度下降算法对初始深度学习模型进行反复迭代训练的方式使得损失函数不断降低,以得到迭代后的后悔值模型,进而可基于迭代后的后悔值模型实现后悔值的预测。
请参阅图5,图5是本申请实施例提供的一种基于CFR算法的博弈装置的示意性框图,该基于CFR算法的博弈装置可以配置于服务器中,用于执行前述的基于CFR算法的博弈方法的步骤。
如图5所示,该基于CFR算法的博弈装置200包括:获取模块201、分析模块202。
获取模块201,用于通过所述第一节点获取博弈问题,其中,所述博弈问题包括多个智能体以及每一所述智能体的多个初始策略;
分析模块202,用于通过所述第一节点同时对对应的智能体的多个初始策略进行分析,得到所述博弈问题对应的博弈结果,其中,所述博弈结果包括多个所述智能体对应的目标策略,且所述目标策略之间处于纳什均衡状态。
分析模块202,还用于通过所述第一节点确定对应的智能体在当前初始策略下的第一后悔值;通过所述第二节点从所述第一节点中获取所述第一后悔值,并基于所述第一后悔值训练得到后悔值模型;将所述后悔值模型分发至所述第一节点,以使得所述第一节点基于所述后悔值模型进行策略更新,得到第一策略,并确定所述第一策略下的第二后悔值;在每一所述智能体对应的所述第二后悔值在预设范围时,将所述第一策略确定为所述目标策略。
分析模块202,还用于获取第二策略,并通过所述游戏树计算在所述当前初始策略下的第一效用,以及在所述第二策略下的第二效用;将所述第一效用与所述第二效用作差,得到所述第一后悔值。
分析模块202,还用于通过所述第二节点从所述第一节点的游戏树中获取训练数据,所述训练数据包括所述智能体的博弈状态信息以及所述第一后悔值;将所述训练数据输入至神经网络模型进行训练,得到所述后悔值模型。
分析模块202,还用于对所述后悔值模型进行迭代训练提取数据特征,并计算得到损失函数;利用预设方法以降低损失函数数值为目的对所述损失函数进行迭代训练,直至满足预期阈值规定;基于迭代训练后的所述损失函数,得到迭代后的所述后悔值模型。
分析模块202,还用于根据所述后悔值计算对应的智能体的策略更新量;将所述策略更新量应用于所述当前初始策略进行策略更新,得到所述第一策略。
分析模块202,还用于将所述第一后悔值存储至所述数据存储系统;通过所述第二节点从所述数据存储系统中获取所述第一后悔值。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和各模块、单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请的方法、装置可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程的消费终端设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
示例性的,上述的方法、装置可以实现为一种计算机程序的形式,该计算机程序可以在如图6所示的计算机设备上运行。
请参阅图6,图6是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备可以是服务器。
如图6所示,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口,其中,存储器可以包括易失性存储介质、非易失性存储介质和内存储器。
非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令,该程序指令被执行时,可使得处理器执行任意一种基于CFR算法的博弈方法。
处理器用于提供计算和控制能力,支撑整个计算机设备的运行。
内存储器为非易失性存储介质中的计算机程序的运行提供环境,该计算机程序被处理器执行时,可使得处理器执行任意一种基于CFR算法的博弈方法。
该网络接口用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,该设备的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的设备的限定,具体的设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
应当理解的是,处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
其中,在一些实施方式中,所述处理器用于运行存储在存储器中的计算机程序,以实现如下步骤:获取博弈问题,其中,所述博弈问题包括多个智能体以及每一所述智能体的多个初始策略;通过所述第一节点同时对对应的智能体的多个初始策略进行分析,得到所述博弈问题对应的博弈结果,其中,所述博弈结果包括多个所述智能体对应的目标策略,且所述目标策略之间处于纳什均衡状态。
在一些实施方式中,所述处理器还用于通过所述第一节点确定对应的智能体在当前初始策略下的第一后悔值;通过所述第二节点从所述第一节点中获取所述第一后悔值,并基于所述第一后悔值训练得到后悔值模型;将所述后悔值模型分发至所述第一节点,以使得所述第一节点基于所述后悔值模型进行策略更新,得到第一策略,并确定所述第一策略下的第二后悔值;在每一所述智能体对应的所述第二后悔值在预设范围时,将所述第一策略确定为所述目标策略。
在一些实施方式中,所述处理器还用于获取第二策略,并通过所述游戏树计算在所述当前初始策略下的第一效用,以及在所述第二策略下的第二效用;将所述第一效用与所述第二效用作差,得到所述第一后悔值。
在一些实施方式中,所述处理器还用于通过所述第二节点从所述第一节点的游戏树中获取训练数据,所述训练数据包括所述智能体的博弈状态信息以及所述第一后悔值;将所述训练数据输入至神经网络模型进行训练,得到所述后悔值模型。
在一些实施方式中,所述处理器还用于对所述后悔值模型进行迭代训练提取数据特征,并计算得到损失函数;利用预设方法以降低损失函数数值为目的对所述损失函数进行迭代训练,直至满足预期阈值规定;基于迭代训练后的所述损失函数,得到迭代后的所述后悔值模型。
在一些实施方式中,所述处理器还用于根据所述后悔值计算对应的智能体的策略更新量;将所述策略更新量应用于所述当前初始策略进行策略更新,得到所述第一策略。
在一些实施方式中,所述处理器还用于将所述第一后悔值存储至所述数据存储系统;通过所述第二节点从所述数据存储系统中获取所述第一后悔值。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序中包括程序指令,所述程序指令被执行时实现本申请实施例提供的任一种基于CFR算法的博弈方法。
其中,所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元,例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种基于CFR算法的博弈方法,其特征在于,所述CFR算法包括多个第一节点,每一所述第一节点用于描述对应智能体的多个初始策略,所述方法包括:
获取博弈问题,其中,所述博弈问题包括多个智能体以及每一所述智能体的多个初始策略;
通过所述第一节点同时对对应的智能体的多个初始策略进行分析,得到所述博弈问题对应的博弈结果,其中,所述博弈结果包括多个所述智能体对应的目标策略,且所述目标策略之间处于纳什均衡状态。
2.根据权利要求1所述的方法,其特征在于,所述CFR算法还包括第二节点,所述第二节点与所述第一节点连接,所述通过所述第一节点同时对对应的智能体的多个初始策略进行分析,得到所述博弈问题对应的博弈结果,包括:
通过所述第一节点确定对应的智能体在当前初始策略下的第一后悔值;
通过所述第二节点从所述第一节点中获取所述第一后悔值,并基于所述第一后悔值训练得到后悔值模型;
将所述后悔值模型分发至所述第一节点,以使得所述第一节点基于所述后悔值模型进行策略更新,得到第一策略,并确定所述第一策略下的第二后悔值;
在每一所述智能体对应的所述第二后悔值在预设范围时,将所述第一策略确定为所述目标策略。
3.根据权利要求2所述的方法,其特征在于,所述第一节点包括游戏树,用于描述对应智能体的多个初始策略,所述通过所述第一节点确定对应智能体在当前初始策略下的第一后悔值,包括:
获取第二策略,并通过所述游戏树计算在所述当前初始策略下的第一效用,以及在所述第二策略下的第二效用;
将所述第一效用与所述第二效用作差,得到所述第一后悔值。
4.根据权利要求1所述的方法,其特征在于,所述游戏树还用于描述对应的智能体的博弈状态信息,所述方法还包括:
通过所述第二节点从所述第一节点的游戏树中获取训练数据,所述训练数据包括所述智能体的博弈状态信息以及所述第一后悔值;
将所述训练数据输入至神经网络模型进行训练,得到所述后悔值模型。
5.根据权利要求4所述的方法,其特征在于,所述得到所述后悔值模型之后,还包括:
对所述后悔值模型进行迭代训练提取数据特征,并计算得到损失函数;
利用预设方法以降低损失函数数值为目的对所述损失函数进行迭代训练,直至满足预期阈值规定;
基于迭代训练后的所述损失函数,得到迭代后的所述后悔值模型。
6.根据权利要求4所述的方法,其特征在于,所述第一节点基于所述后悔值模型进行策略更新,得到第一策略,包括:
根据所述后悔值计算对应的智能体的策略更新量;
将所述策略更新量应用于所述当前初始策略进行策略更新,得到所述第一策略。
7.根据权利要求2所述的方法,其特征在于,所述第一节点还包括数据存储系统,所述通过所述第一节点确定对应的智能体在当前初始策略下的第一后悔值之后,还包括:
将所述第一后悔值存储至所述数据存储系统;
所述通过所述第二节点从所述第一节点中获取所述第一后悔值,包括:
通过所述第二节点从所述数据存储系统中获取所述第一后悔值。
8.一种基于CFR算法的博弈装置,其特征在于,所述CFR算法包括多个第一节点,每一所述第一节点用于描述对应智能体的多个初始策略,所述装置包括:
获取模块,所述获取模块用于通过所述第一节点获取博弈问题,其中,所述博弈问题包括多个智能体以及每一所述智能体的多个初始策略;
分析模块,所述分析模块用于通过所述第一节点同时对对应的智能体的多个初始策略进行分析,得到所述博弈问题对应的博弈结果,其中,所述博弈结果包括多个所述智能体对应的目标策略,且所述目标策略之间处于纳什均衡状态。
9.一种计算机设备,其特征在于,包括:存储器和处理器;其中,所述存储器与所述处理器连接,用于存储程序所述处理器用于通过运行所述存储器中存储的程序,实现如权利要求1-7中任一项所述的基于CFR算法的博弈方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如权利要求1-7中任一项所述的基于CFR算法的博弈方法的步骤。
CN202311395333.4A 2023-10-24 2023-10-24 基于cfr算法的博弈方法、装置、设备及存储介质 Pending CN117556898A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311395333.4A CN117556898A (zh) 2023-10-24 2023-10-24 基于cfr算法的博弈方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311395333.4A CN117556898A (zh) 2023-10-24 2023-10-24 基于cfr算法的博弈方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN117556898A true CN117556898A (zh) 2024-02-13

Family

ID=89811940

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311395333.4A Pending CN117556898A (zh) 2023-10-24 2023-10-24 基于cfr算法的博弈方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN117556898A (zh)

Similar Documents

Publication Publication Date Title
US20210365782A1 (en) Method and apparatus for generating neural network model, and computer-readable storage medium
JP6824382B2 (ja) 複数の機械学習タスクに関する機械学習モデルのトレーニング
WO2022068623A1 (zh) 一种模型训练方法及相关设备
EP3446260B1 (en) Memory-efficient backpropagation through time
US11574164B2 (en) Neural network cooperation
CN110647921B (zh) 一种用户行为预测方法、装置、设备及存储介质
US20180300621A1 (en) Learning dependencies of performance metrics using recurrent neural networks
WO2019018375A1 (en) NEURONAL ARCHITECTURE RESEARCH FOR CONVOLUTION NEURAL NETWORKS
US20200125945A1 (en) Automated hyper-parameterization for image-based deep model learning
JP6892424B2 (ja) ハイパーパラメータチューニング方法、装置及びプログラム
CN111008449A (zh) 一种用于战场仿真环境下深度强化学习推演决策训练的加速方法
JP2013242761A (ja) マルコフ決定過程システム環境下における方策パラメータを更新するための方法、並びに、その制御器及び制御プログラム
US20160187861A1 (en) Systems and methods to adaptively select execution modes
WO2020199743A1 (zh) 用于训练学习模型的方法、装置和计算设备
US10635078B2 (en) Simulation system, simulation method, and simulation program
CN113902131B (zh) 抵抗联邦学习中歧视传播的节点模型的更新方法
Pavlenko et al. Criterion of cyber-physical systems sustainability
CN114511042A (zh) 一种模型的训练方法、装置、存储介质及电子装置
Zhang et al. Adaptive barrier smoothing for first-order policy gradient with contact dynamics
CN117808120A (zh) 用于大语言模型的强化学习的方法和装置
Lou et al. Balanced prioritized experience replay in off-policy reinforcement learning
Steinbring et al. GPU-accelerated progressive Gaussian filtering with applications to extended object tracking
US11710301B2 (en) Apparatus for Q-learning for continuous actions with cross-entropy guided policies and method thereof
CN117556898A (zh) 基于cfr算法的博弈方法、装置、设备及存储介质
Thang et al. Multitask augmented random search in deep reinforcement learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination