基于强化监督协同学习的斗地主博弈策略研究

Research on DouDiZhu game strategy based on reinforcement and supervised collaborative learning

下载PDF

导出

摘要斗地主是中国民间最流行的纸牌玩法之一,具有不完全信息博弈和随机博弈的特征。在斗地主博弈过程中,既有攻守双方的对抗又有同伴之间的合作,是目前最复杂的博弈类型之一。分析了斗地主的博弈过程,从参与者、历史集合、参与者函数、信息空间、自然概率分布函数和参与者的偏好等6个方面描述了斗地主的博弈模型。模型为研究斗地主计算机博弈的理论或程序算法提供了理论依据和参考。研究将强化学习的DDQN(double deep Q-network)算法应用于叫牌出牌策略,针对实战中动态队友匹配机制造成的稳定性缺陷,引入监督学习的决策树策略优化,通过实验证明,强化学习和监督学习协同合作显著提升了系统的实战性能。 DouDiZhu is one of the most popular card games in China with the characteristics of both incomplete information games and stochastic games.With one of the most complex types,it has both confrontation and cooperation between players.This paper analyzes the game process of DouDiZhu,and describes the DouDiZhu game model from six aspects:participants,historical sets,participant functions,information space,natural probability distribution functions,and participants’preferences.The model provides a theoretical basis and reference for studying the theory or program algorithm of DouDiZhu computer game.In the study,the DDQN(double deep Q-network)algorithm of reinforcement learning is applied to the call-out strategy,and the decision tree strategy optimization of supervised learning is introduced to address the stability defects caused by the dynamic teammate matching mechanism in a real combat.Experimental results show the synergy of reinforcement learning and supervised learning markedly improves the performance of the system.

作者梅险姜彦新赵一峰王建东于逸潇郑子龙 MEI Xian;JIANG Yanxin;ZHAO Yifeng;WANG Jiandong;YU Yixiao;ZHENG Zilong(School of Computer Science and Technology,Harbin University of Science and Technology,Harbin 150080,China;School of Civil Engineering,Heilongjiang University,Harbin 150080,China)

机构地区哈尔滨理工大学计算机科学与技术学院黑龙江大学建筑工程学院

出处《重庆理工大学学报(自然科学)》北大核心 2025年第8期134-139,共6页 Journal of Chongqing University of Technology:Natural Science

基金黑龙江省规划办重点课题(GJB1422071) 黑龙江省教育厅创新创业专项(SJGY20210718) 黑龙江省大学生创新创业训练计划项目(202410214015X)。

关键词斗地主博弈模型合作博弈牺牲策略 DouDiZhu game model cooperative game heap valuation strategy

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献22

1王亚杰,邱虹坤,吴燕燕,李飞,杨周凤.计算机博弈的研究与发展[J].智能系统学报,2016,11(6):788-798. 被引量：34
2徐心和,邓志立,王骄,徐长明,刘纪红,马宗民.机器博弈研究面临的各种挑战[J].智能系统学报,2008,3(4):288-293. 被引量：44
3李三希,曹志刚,崔志伟,高红伟,乔雪,翁翕,俞宁,张博宇,杨晓光.数字经济的博弈论基础性科学问题[J].中国科学基金,2021,35(5):782-800. 被引量：15
4董丽亚,何虎,王麒淋,杨旭.脉冲神经网络算法及其在扑克游戏中的应用[J].计算机工程与设计,2021,42(9):2462-2471. 被引量：1
5罗俊仁,张万鹏,苏炯铭,魏婷婷,陈璟.计算机博弈中序贯不完美信息博弈求解研究进展[J].控制与决策,2023,38(10):2721-2748. 被引量：6
6张小川,杜松,赵海璐,刘贺,伍帆.一种德州扑克牌力评估方法[J].重庆理工大学学报（自然科学）,2021,35(9):130-135. 被引量：5
7李淑琴,陈子鹏,郑蓝舟,孟坤.竞技二打一游戏中同等牌力的研究[J].智能系统学报,2021,16(3):466-473. 被引量：4
8李健,郑荣基,汤宇锋,袁立然,陈寅.基于SMT的不完全信息游戏求解[J].计算机系统应用,2020,29(1):261-265. 被引量：1
9杨鑫波.高等数学教学过程的博弈分析[J].重庆第二师范学院学报,2017,30(2):113-116. 被引量：1
10陈泽融,肖汉.最短路博弈群体单调分配方案构造[J].运筹学学报,2022,26(2):101-110. 被引量：1

二级参考文献96

1欧宇,李媛,王静文,黄常卢.UCT算法在爱恩斯坦棋中的应用研究[J].计算机应用研究,2020,37(S01):147-148. 被引量：2
2何大华,陈传波.关于桥牌的取胜策略[J].华中科技大学学报（自然科学版）,2004,32(7):13-15. 被引量：6
3王骄,王涛,罗艳红,徐心和.中国象棋计算机博弈系统评估函数的自适应遗传算法实现[J].东北大学学报（自然科学版）,2005,26(10):949-952. 被引量：16
4胡燕,龙游宇.高校教师行为激励机制的博弈分析[J].经济师,2005(11):98-99. 被引量：10
5程克非,张聪,沈一栋.计算机桥牌双明手解的Hash表改进[J].重庆大学学报（自然科学版）,2005,28(12):45-47. 被引量：1
6乔颖,李涛,田杨.大学生逃课现象原因与对策探析[J].中国高教研究,2006(3):78-80. 被引量：43
7徐心和,王骄.中国象棋计算机博弈关键技术分析[J].小型微型计算机系统,2006,27(6):961-969. 被引量：62
8徐长明,南晓斐,王骄,徐心和.中国象棋机器博弈的时间自适应分配策略研究[J].智能系统学报,2006,1(2):39-43. 被引量：2
9周黎安,张维迎,顾全林,沈懿.信誉的价值:以网上拍卖交易为例[J].经济研究,2006,41(12):81-91. 被引量：158
10魏钦刚,王骄,徐心和,南晓斐.中国象棋计算机博弈开局库研究与设计[J].智能系统学报,2007,2(1):85-89. 被引量：6

共引文献136

1王亚杰,王晓岩,邱虹坤,李飞.建设棋牌谱标准构建计算机博弈竞赛持续发展新生态[J].实验技术与管理,2020,37(2):19-23. 被引量：4
2徐志凡,王静文,李媛.基于UCT算法改进的Hex棋博弈系统研究[J].智能计算机与应用,2022,12(3):183-185. 被引量：2
3张雪峰,连莲,徐心和.基于有限自动机的“点点连格”机器博弈系统的建模与分析[J].沈阳建筑大学学报（自然科学版）,2009,25(4):796-801. 被引量：3
4韩逢庆,李翠珠,李为.六子棋博弈的二次估值[J].重庆工学院学报（自然科学版）,2009,23(11):57-60.
5张小川,陈光年,张世强,孙可均,李祖枢.六子棋博弈的评估函数[J].重庆理工大学学报（自然科学）,2010,24(2):64-68. 被引量：7
6张恩海,李彦平,朱俊威.中国象棋多自动机复合模型及其估值方法研究[J].沈阳大学学报,2011,23(2):7-11.
7史晓茹,侯媛彬,张涛.不完全信息博弈的机器人对抗决策[J].智能系统学报,2011,6(2):147-151. 被引量：7
8蔡增玉,方娜,甘勇,贺蕾.智能五子棋博弈关键技术研究[J].郑州轻工业学院学报（自然科学版）,2010,25(6):76-80.
9李淑琴,刘均梅.科技竞赛与学生创新能力的培养[J].新课程学习（中）,2011(7):95-96. 被引量：3
10李淑琴,刘均梅,侯霞.基于科技竞赛的创新人才培养模式研究与实践[J].中国电力教育（中）,2011(12):40-41. 被引量：12

1郑永泉.好牌未必要慢叫[J].桥牌,2025(7):63-64.
2披坚执锐.暴力进攻的艺术品——VICTOR龙牙ⅡPRO实战评测[J].羽毛球,2024(2):108-109.
3李昱霖,吴东利(指导).风火轮[J].北京皮革,2024,49(7):68-68.
4胡林林,刘玉璋,刘海琳.桥牌能否对抗AI?——基于新睿桥牌平台的阻击叫实战对抗模拟(1)[J].桥牌,2025(7):39-43.
5胡易航,裘旭益,张彦,袁伟伟.样本级实时空中格斗决策可解释模型研究[J].小型微型计算机系统,2023,44(11):2591-2596. 被引量：2
6牟元媛,黄俊杰.党建聚“智”激发企业发展活力[J].当代贵州,2025(22):32-32.
7杨芃,杨晓辉,杨莉,吴迟绿,杨泽宇.基于碳市场与绿证分配制度的源荷低碳经济调度[J].南方电网技术,2025,19(3):87-95. 被引量：1
8李霞丽,顾旌世,高乔,张皓扬,何非凡.藏族久棋计算机博弈研究综述[J].重庆理工大学学报(自然科学),2025,39(8):90-96.
9江苏高端装备提升江苏制造竞争力[J].变频器世界,2024,27(4):25-26.
10魏林合.走航ADCP原理解析和实战比测结果研究[J].甘肃水利水电技术,2024,60(6):6-13.

重庆理工大学学报(自然科学)

2025年第8期

浏览历史

内容加载中请稍等...

基于强化监督协同学习的斗地主博弈策略研究

参考文献22

二级参考文献96

共引文献136

相关作者

相关机构

相关主题

浏览历史