结合PPO和蒙特卡洛树搜索的斗地主博弈模型

The improved DouDiZhu game model combining PPO with Monte Carlo Tree Search

下载PDF

导出

摘要斗地主是一种典型的非完备信息博弈,由于具有多人博弈、动作空间庞大、合作与竞争并存等决策需求,单一的蒙特卡洛树搜索在应用时存在效率低的问题。为提升蒙特卡洛树搜索的策略效果和搜索效率,提出一种基于近端策略优化(proximal policy optimization,PPO)算法结合蒙特卡洛树搜索的斗地主博弈模型。利用PPO算法学习斗地主中的牌局和策略信息,训练出可根据当前局面提供动作概率的策略模型,为蒙特卡洛树搜索的选择和模拟阶段提供策略指导。在选择阶段,通过PPO策略模型输出的动作概率优化策略选择公式,指导高质量动作节点的选择。在模拟阶段,PPO替代了随机模拟过程,使模拟更加符合策略,减少低效路径的探索。实验结果表明:结合PPO优化后的蒙特卡洛树搜索不仅提高了决策的效率,还提升了模型的胜率,表现出较强的斗地主博弈决策优势。 DouDiZhu is a typical imperfect information game,whose decision-making involves multiple players,the huge action space,and the coexistence of cooperation and competition,leading to low efficiency in a single Monte Carlo Tree Search(MCTS).To improve the strategy and the efficiency of search for MCTS,the model for DouDiZhu game is proposed based on the Proximal Policy Optimization(PPO)algorithm combined with MCTS.First,PPO algorithm is employed to learn the game and strategy information and train a strategy model that provides action probability according to the current situation,offering strategy guidance for the selection and simulation stage of MCTS.Then,the selection formula is adjusted by the action probability output of PPO strategy model to guide the selection of high-quality action nodes.Finally,PPO replaces the random simulation process,which makes the simulation more consistent with the strategy and reduces the exploration of inefficient paths.Results show MCTS combined with PPO,the optimized MCTS not only improves the efficiency of decision-making,but also markedly increases the probability of victory,demonstrating its superiority in the decision-making process of the game of DouDiZhu.

作者王世鹏王亚杰吴燕燕郭其龙赵甜宇 WANG Shipeng;WANG Yajie;WU Yanyan;GUO Qilong;ZHAO Tianyu(School of Computer,Shenyang Aerospace University,Shenyang 110136,China;Engineering Training Center,Shenyang Aerospace University,Shenyang 110136,China)

机构地区沈阳航空航天大学计算机学院沈阳航空航天大学工程训练中心

出处《重庆理工大学学报(自然科学)》北大核心 2025年第8期126-133,共8页 Journal of Chongqing University of Technology:Natural Science

基金中国科协科普能力提升项目(KXYJS2022092)。

关键词 PPO算法蒙特卡洛树搜索斗地主非完备信息博弈 PPO MCTS DouDiZhu imperfect information

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献3

1徐心和,邓志立,王骄,徐长明,刘纪红,马宗民.机器博弈研究面临的各种挑战[J].智能系统学报,2008,3(4):288-293. 被引量：44
2代鹏程,李淑琴,郑蓝舟,孟坤,丁濛.二打一智力游戏中残局局面数据标定方法研究[J].重庆理工大学学报（自然科学）,2021,35(3):159-165. 被引量：3
3彭啟文,王以松,于小民,刘满义,徐方婧.基于手牌拆分的“斗地主”蒙特卡洛树搜索[J].南京师大学报（自然科学版）,2019,42(3):107-114. 被引量：7

二级参考文献13

1[1]Von NEUMANN J,MORGENSTERN O.Theory of games and economic behavior[M].Princeton:Princeton University Press,1944.
2[2]SHANNON C E.Programming a computer for playing chess[J].Philosophical Magazine,1950,41:256-275.
3[3]TURING A.Digital computers applied to games[C]//Faster than Thought.London,1953:286-295.
4[4]FULLER S H,GASCHING J G,GILLOGLY J J.An analysis of the alpha-beta pruning algorithm[D].Pittsburg:Carnegie-Mellon University,1973.
5[5]KNUTH D E,MOORE R N.An analysis of alpha-beta pruning[J].Artificial Intelligence,1975(6):293-326.
6[6]KORF R.Iterative deepening:an optimal admissible tree search[J].Artificial Intelligence,1985,27(1):97-109.
7[7]ELIZABETH P.Breakthrough of the year:human genetic vaviation[J].Science,2007,318(5858):1842-1849.
8[9]潘丽娟.打扑克人脑险胜电脑[EB/OL].[2007-07-27].http://sports.sohu.com.
9[17]摩尔根与果蝇[EB/OL].[2008-01-06].http://basic.shsmu.edu.cn/jpkc/Marx_philosophy/yxyzx/12.ppt.
10[18]何黎.扑克牌里的博弈之道[EB/OL].[2008-01-06].http://bbs.mso.com.cn/viewthread.php?tid=645174.

共引文献50

1王亚杰,王晓岩,邱虹坤,李飞.建设棋牌谱标准构建计算机博弈竞赛持续发展新生态[J].实验技术与管理,2020,37(2):19-23. 被引量：4
2徐志凡,王静文,李媛.基于UCT算法改进的Hex棋博弈系统研究[J].智能计算机与应用,2022,12(3):183-185. 被引量：2
3张雪峰,连莲,徐心和.基于有限自动机的“点点连格”机器博弈系统的建模与分析[J].沈阳建筑大学学报（自然科学版）,2009,25(4):796-801. 被引量：3
4韩逢庆,李翠珠,李为.六子棋博弈的二次估值[J].重庆工学院学报（自然科学版）,2009,23(11):57-60.
5张小川,陈光年,张世强,孙可均,李祖枢.六子棋博弈的评估函数[J].重庆理工大学学报（自然科学）,2010,24(2):64-68. 被引量：7
6张恩海,李彦平,朱俊威.中国象棋多自动机复合模型及其估值方法研究[J].沈阳大学学报,2011,23(2):7-11.
7史晓茹,侯媛彬,张涛.不完全信息博弈的机器人对抗决策[J].智能系统学报,2011,6(2):147-151. 被引量：7
8蔡增玉,方娜,甘勇,贺蕾.智能五子棋博弈关键技术研究[J].郑州轻工业学院学报（自然科学版）,2010,25(6):76-80.
9李淑琴,刘均梅.科技竞赛与学生创新能力的培养[J].新课程学习（中）,2011(7):95-96. 被引量：3
10李淑琴,刘均梅,侯霞.基于科技竞赛的创新人才培养模式研究与实践[J].中国电力教育（中）,2011(12):40-41. 被引量：12

1康琦,高峰,刘硕,王倩,叶子文.主力资金异象和投资者信息博弈[J].金融研究,2025(1):189-206. 被引量：1
2张太忠.牌局里的温情岁月[J].保健与生活,2025(17):56-56.
3鞠传成.桥牌防守计划的组织与实施[J].桥牌,2025(7):24-25.
4马俊民.漕运旗丁的社交网络与清代社会信息博弈[J].收藏,2025(3):31-33.
5王志明,胡洋成,蔡彪,陈宣儒,李欣蕊.爱恩斯坦棋博弈的图神经网络算法研究[J].重庆理工大学学报(自然科学),2025,39(8):111-117.
6陈玉霞.朋友多了康乐多[J].保健与生活,2025(14):19-19.
7张小川,梁渝卓,彭丽蓉,钱毅,刘莉莉.一种融合注意力机制的德扑计算机博弈决策模型[J].重庆理工大学学报(自然科学),2025,39(8):85-89.
8刘丽,师蒙招,许东阳,唐文冰,胡岳,蒋奉兵.储能锂电池热失控产气扩散规律的研究[J].控制与信息技术,2025(3):95-102.
9水祎舟,车翔,赵治豪,张禹,李杰,刘晨涛,密思雨,万炳军,游旭群.高水平足球裁判员判罚决策的优势及神经机制[J].心理学报,2025,57(8):1391-1413. 被引量：1
10罗超,倪恬,陈凌云,康义,侯慧,吴细秀.高斯分布引导下负荷8760曲线全景最优化预测[J].中国电力,2025,58(8):31-40.

重庆理工大学学报(自然科学)

2025年第8期

浏览历史

内容加载中请稍等...

结合PPO和蒙特卡洛树搜索的斗地主博弈模型

参考文献3

二级参考文献13

共引文献50

相关作者

相关机构

相关主题

浏览历史