藏族久棋的一种两阶段计算机博弈算法被引量：5

A two-staged computer game algorithm for Tibetan Jiu Chess

下载PDF

导出

摘要为了进一步提升布局的质量以提升藏族久棋博弈智能体程序棋力,提出了藏族久棋的一种两阶段计算机博弈算法,为藏族久棋的布局阶段设计了基于卷积神经网络和蒙特卡洛树搜索的自对弈算法,通过卷积神经网络指导蒙特卡洛树进行搜索,训练出最优模型并生成质量更高的着法;为战斗阶段设计了基于领域知识的Alpha-Beta剪枝算法。通过设计分阶段算法的方式将深度强化学习与领域知识相结合,试图解决藏族久棋博弈算法研究棋谱数据匮乏、博弈智能体的棋力水平较低等问题。实验结果表明:基于两阶段算法的博弈智能体程序与全局使用Alpha-Beta剪枝算法的博弈程序、人类一段棋手进行对弈,分别取得了65%、60%的胜率。基于两阶段算法的博弈智能体程序在一定程度上具备了“学习”和“思考”的能力,棋力得到了提升。 Tibetan Jiu Chess is a unique board game with huge state space and complex action space.It is divided into two sequential stages:preparation and battle.The layout of chess pieces during the preparation stage strongly influences the outcome of the game.In order to further improve the quality of the layout and realize the improvement of chess level of the game agent program of Tibetan Jiu Chess,this paper proposes a two-stage computer game algorithm.A self-play algorithm based on Convolutional Neural Network(CNN)and Monte Carlo Tree Search(MCTS)is designed for the preparation stage.With the guidance of CNN to MCTS,the optimal model is established and higher quality moves are generated.An Alpha-Beta pruning algorithm based on domain knowledge is designed for the battle stage.By designing a staged algorithm,deep reinforcement learning and domain knowledge are combined,trying to solve the problems of a lack of chess manual data and a low chess level of game agents.Experiment results show that,the game program,which is based on the two-stage algorithm and globally uses the Alpha-Beta pruning algorithm,and the primary human chess player have achieved 65%and 60%winning rates respectively.To sum up,the game program based on the two-stage algorithm has the ability of“learning”and“thinking”to a certain extent,and has an improved chess level.

作者李霞丽陈彦东杨子熠张焱垠吴立成 LI Xiali;CHEN Yandong;YANG Ziyi;ZHANG Yanyin;WU Licheng(School of Information Engineering,Minzu University of China,Beijing 100081,China)

机构地区中央民族大学信息工程学院

出处《重庆理工大学学报（自然科学）》 CAS 北大核心 2022年第12期110-120,共11页 Journal of Chongqing University of Technology：Natural Science

基金国家自然科学基金项目(61873291、61773416、62276285)。

关键词藏族久棋卷积神经网络蒙特卡洛树搜索自对弈 Alpha-Beta剪枝 Tibetan Jiu Chess CNN MCTS self-play Alpha-Beta pruning

分类号 TP183 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献10

1刘强.藏棋——“久棋”源考[J].西藏研究,2017(6):105-109. 被引量：11
2彭丽蓉,赵海璐,甘春晏,刘洁,陈俊宇.一种大众麻将计算机博弈的胡牌方法研究[J].重庆理工大学学报（自然科学）,2021,35(12):127-133. 被引量：8
3张小川,杜松,赵海璐,刘贺,伍帆.一种德州扑克牌力评估方法[J].重庆理工大学学报（自然科学）,2021,35(9):130-135. 被引量：5
4张小川,唐艳,梁宁宁.采用时间差分算法的九路围棋机器博弈系统[J].智能系统学报,2012,7(3):278-282. 被引量：5
5马钲鸿,宁慧,张汝波.国际象棋博弈系统的研究与实现[J].应用科技,2021,48(4):75-79. 被引量：1
6张小川,刘溜,陈龙,涂飞.一种非遗藏族久棋项目计算机博弈智能体的评估方法[J].重庆理工大学学报（自然科学）,2021,35(12):119-126.
7常亮,邓小明,周明全,武仲科,袁野,杨硕,王宏安.图像理解中的卷积神经网络[J].自动化学报,2016,42(9):1300-1312. 被引量：450
8张荣,李伟平,莫同.深度学习研究综述[J].信息与控制,2018,47(4):385-397. 被引量：166
9张明亮,吴俊,李凡长.五子棋机器博弈系统评估函数的设计[J].计算机应用,2012,32(7):1969-1972. 被引量：9
10张小川,陈光年,张世强,孙可均,李祖枢.六子棋博弈的评估函数[J].重庆理工大学学报（自然科学）,2010,24(2):64-68. 被引量：7

二级参考文献61

1叶品星.一种博弈树静态估值算法——ΔFeature状态估值[J].计算机工程与设计,2004,25(7):1214-1217. 被引量：2
2王骄,王涛,罗艳红,徐心和.中国象棋计算机博弈系统评估函数的自适应遗传算法实现[J].东北大学学报（自然科学版）,2005,26(10):949-952. 被引量：16
3陈斌.文化哲学视域中的围棋与藏围棋[J].云南师范大学学报（哲学社会科学版）,2006,38(2):1-5. 被引量：7
4王晓鹏,王骄,徐心和,郑新颖.中国象棋与国际象棋比较分析[J].重庆工学院学报,2007,21(1):71-76. 被引量：7
5沈晶,顾国昌,刘海波.基于免疫聚类的自动分层强化学习方法研究[J].哈尔滨工程大学学报,2007,28(4):423-428. 被引量：2
6扎拉.达娃桑布,著扎雅.洛桑普赤,当增扎西.藏族棋文化的见证——关于在强巴敏久林宫遗址发现的藏族石刻棋盘的学术报告[J].西藏研究,2007(2):37-41. 被引量：12
7阿培丁.机器学习导论[M].北京:机械工业出版社,2009.
8刘知青,李文峰.现代计算机围棋基础[M].北京:北京邮电大学出版社,2011:63-80.
9GELLY S, WANG Yizao, MUNOS R, ct al. Modification of UCT with patterns in Monte-Carlo Go [ R/OL ]. [ 2011-10- 15 ]. http://219. 142.86.87/paper/RR-6062. pdf.
10GELLY S, WANG Yizao. Exploration exploitation in Go: UCT for Monte-Carlo Go[ C/OL]. [2011-10-151- http:// wenku, baidu, com/view/66c2edd6b9t3f90i76c61bcO, html.

共引文献652

1陈梦,王晓青.全卷积神经网络在建筑物震害遥感提取中的应用研究[J].震灾防御技术,2019,14(4):810-820. 被引量：9
2陈妮亚,阮佳阳,黄金苗,杨伟.结合深度学习与生物特征识别在冷链拣选中的算法研究[J].智能科学与技术学报,2019,1(1):88-95. 被引量：1
3王飞,汪鹏,周琳,陈蜀虎,吴昊.基于深度学习的影像智能诊断平台建设与应用[J].中国数字医学,2020,15(1):11-13. 被引量：11
4陈绎冰,李天依,李欣艳,赵文川,范荣峰,陈凤娇,杨元建.基于随机森林和遥感的台风降水云光谱与降水关系研究[J].遥感技术与应用,2022,37(5):1277-1288. 被引量：3
5丁名都,李琳.基于CNN和HOG双路特征融合的人脸表情识别[J].信息与控制,2020,49(1):47-54. 被引量：18
6牛一凡,邵景峰.基于非线性数据融合的设备多阶段寿命预测[J].信息与控制,2019,48(6):729-737. 被引量：9
7邹宜君,赵新刚,徐卫良,韩建达.基于卷积神经网络的自适应样本加权脑机接口建模[J].信息与控制,2019,48(6):658-665. 被引量：2
8王雷,闫红蕾,张自力.收益率曲面预测及其在信用债投资组合管理中的应用[J].统计研究,2021(4):145-160. 被引量：6
9王维波,徐西龙,盛立,高明.卷积神经网络微地震事件检测[J].石油地球物理勘探,2020(5):939-949. 被引量：14
10傅隆生,宋珍珍,Zhang Xin,李瑞,王东,崔永杰.深度学习方法在农业信息中的研究进展与应用现状[J].中国农业大学学报,2020,25(2):105-120. 被引量：62

同被引文献19

1吕艳辉,宫瑞敏.计算机博弈中估值算法与博弈训练的研究[J].计算机工程,2012,38(11):163-166. 被引量：9
2张小川,候鑫磊,涂飞.博弈机器人的行为规划[J].重庆理工大学学报（自然科学）,2014,28(4):99-103. 被引量：7
3钟义信.人工智能:概念·方法·机遇[J].科学通报,2017,62(22):2473-2479. 被引量：178
4李霞丽,吴立成,李永集.基于棋型的藏族“久”棋计算机博弈研究[J].智能系统学报,2018,13(4):577-583. 被引量：7
5马少龙,尚涛.藏棋文化的传承和保护[J].西藏研究,2017(4):157-160. 被引量：4
6刘强.藏棋——“久棋”源考[J].西藏研究,2017(6):105-109. 被引量：11
7张志礼,丁濛,段金龙,罗锋骏,勾亮亮.基于电阻电路评估策略的分阶段海克斯棋博弈方法的研究[J].智能计算机与应用,2019,9(2):212-214. 被引量：2
8沈强望,丁濛,杜文涛,赵文龙.对藏棋“久”的分阶段算法研究[J].智能计算机与应用,2021,11(2):88-92. 被引量：4
9任帅,张云飞.一种智能博弈象棋机器人[J].科学技术创新,2021(13):187-188. 被引量：3
10王亚杰,祁冰枝,张云博,丁傲冬.结合神经网络的改进UCT在国际跳棋中的应用[J].重庆理工大学学报（自然科学）,2021,35(7):259-265. 被引量：7

引证文献5

1张小川,杨小漫,涂飞,王鑫,严明珠,梁渝卓.融合经验知识与深度强化学习的久棋Alpha-Beta算法优化研究[J].重庆理工大学学报（自然科学）,2024,38(5):115-120. 被引量：4
2徐长明,周其磊,王一川,王栋年,金张根,王军伟.维护全局博弈图的蒙特卡洛图搜索[J].重庆理工大学学报（自然科学）,2024,38(5):130-136.
3王栋年,王军伟,薛世超,汪超,徐长明.基于深度强化学习的双置换表优化算法研究[J].重庆理工大学学报（自然科学）,2024,38(5):145-153. 被引量：1
4李霞丽,顾旌世,高乔,张皓扬,何非凡.藏族久棋计算机博弈研究综述[J].重庆理工大学学报(自然科学),2025,39(8):90-96.
5何非凡,李霞丽,张皓扬,肖阳,贾苑吏.非物质文化遗产藏族久棋博弈机器人[J].重庆理工大学学报(自然科学),2025,39(8):97-104.

二级引证文献5

1王亚杰,谷峰,刘松,杨静怡,王世鹏.融合先验知识的藏久棋MCTS算法优化[J].沈阳航空航天大学学报,2025,42(4):59-67.
2张小川,梁渝卓,彭丽蓉,钱毅,刘莉莉.一种融合注意力机制的德扑计算机博弈决策模型[J].重庆理工大学学报(自然科学),2025,39(8):85-89.
3李霞丽,顾旌世,高乔,张皓扬,何非凡.藏族久棋计算机博弈研究综述[J].重庆理工大学学报(自然科学),2025,39(8):90-96.
4何非凡,李霞丽,张皓扬,肖阳,贾苑吏.非物质文化遗产藏族久棋博弈机器人[J].重庆理工大学学报(自然科学),2025,39(8):97-104.
5牛学芬,王子游,陈灵,吴育华,刘雨泽,徐长明.引入威胁空间搜索的五子棋深度强化学习方法[J].重庆理工大学学报(自然科学),2025,39(8):118-125.

1郭荣城,李淑琴,龚元函,黄韶华,衡鑫.二打一游戏残局模式下的对弈策略研究[J].智能计算机与应用,2022,12(4):151-158. 被引量：1
2刘子建,胡德宏,赵文浩,吴佳明.基于幻影围棋的不完全信息博弈系统研究[J].电脑与信息技术,2022,30(6):25-29.
3对弈围棋中鲜为人知的中国文化[J].伙伴（俄文版）,2018(1):62-64.
4刘佳瑶,林涛.黑白棋博弈系统设计[J].智能计算机与应用,2020,10(5):176-179.
5付燕,李珍珍,叶鸥.基于蒙特卡洛树搜索的视频异常场景监测方法[J].现代电子技术,2023,46(2):96-100. 被引量：3
6赵春宇,赖俊.元强化学习综述[J].计算机应用研究,2023,40(1):1-10. 被引量：8
7刘溜,张小川,彭丽蓉,田震,万家强,任越.一种结合策略价值网络的五子棋自博弈方法研究[J].重庆理工大学学报（自然科学）,2022,36(12):129-135. 被引量：5
8吴立成,吴启飞,钟宏鸣,李霞丽.“拱猪”游戏的深度蒙特卡洛博弈算法[J].重庆理工大学学报（自然科学）,2022,36(12):121-128. 被引量：2
9张宜放,孟坤.基于点格棋的UCT算法研究与分析[J].智能计算机与应用,2020(4):27-31. 被引量：3
10邢志伟,李彪,马浩然,戴铮.航班地面保障过程动态控制方法研究[J].计算机仿真,2020,37(7):78-83. 被引量：3

重庆理工大学学报（自然科学）

2022年第12期

浏览历史

内容加载中请稍等...

藏族久棋的一种两阶段计算机博弈算法被引量：5

参考文献10

二级参考文献61

共引文献652

同被引文献19

引证文献5

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

藏族久棋的一种两阶段计算机博弈算法 被引量：5

参考文献10

二级参考文献61

共引文献652

同被引文献19

引证文献5

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

藏族久棋的一种两阶段计算机博弈算法被引量：5