多智能体对手建模及其真实模型的确定被引量：2

Multi-agent opponent modeling and true model identification

导出

摘要针对如何在竞争环境中更好地预测对手行为,并正确制定自身相应的对策进行研究.利用交互式动态影响图对环境中的对手智能体进行建模,并结合贝叶斯网络提出了一种判断对手真实模型的方法.首先,将对手智能体的候选模型保存在模型节点中并实时推理和更新对手的模型、信度和动作;然后,在每次交互中记录下观察到的对手的动作序列,以此作为训练动态贝叶斯网络的集合,得到网络参数后重新计算候选模型的权重,从而判断出对手的真实模型;最后,通过多智能体老虎问题和无人机侦查问题进行实验,并从对手候选模型的权重和我方智能体的收益值两方面验证了算法的有效性. How to better predict the behavior of the opponent in a competitive environment,in order to make one′s own corresponding strategy correctly was studied.The opponent agents were modeled using interactive dynamic influence diagram in the environment and a method was proposed to identify the true model of the opponent based on Bayesian network.First,the candidate models of the opponent were set in the model node,and models,beliefs and actions of the opponent were inferred and updated real-timely.Then in every interaction,the observed action sequences of the opponent were recorded as the training set of dynamic Bayesian network.The weights of the candidate models were recalculated using the parameters of the network so as to identify the true model of the opponent.Experiments on multi-agent tiger problem and unmanned aerial vehicle reconnaissance problems verify the effectiveness of this method from two aspects which are weights of the opponent′s candidate models and profits of our own agent.

作者罗键武鹤曹浪财

机构地区厦门大学自动化系

出处《华中科技大学学报（自然科学版）》 EI CAS CSCD 北大核心 2015年第10期48-52,共5页 Journal of Huazhong University of Science and Technology(Natural Science Edition)

基金国家自然科学基金资助项目(60975052 61375070) 福建省重大科技资助项目(2011H6027)

关键词多智能体对手建模交互式动态影响图动态贝叶斯网络策略 multi-agent opponent modeling interactive dynamic influence diagram dynamic Bayesian network strategy

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献12

1Russell S J,Norvig P.Artificial intelligence[M].3rd Edition.Upper Saddle River:Prentice Hall,2009.
2Ekmekci O,Sirin V.Learning strategies for opponent modeling in poker[C]∥Proc of Workshops at the Twenty-Seventh AAAI Conference on Artificial Intelligence.Bellevue:AAAI Press,2013:6-12.
3Ganzfried S,Sandholm T.Game theory-based opponent modeling in large imperfect-information games[C]∥Proc of the 10th International Conference on Autonomous agents and Multiagent Systems.Taipei:IFAAMAS,2011:533-540.
4Mescheder D,Tuyls K,Kaisers M.Opponent modeling with POMDPs[C]∥Proc of the 23rd BelgiumNetherlands Conference on Artificial Intelligence.Gent:BNVKI&SIKS,2011:152-159.
5Zeng Y F,Doshi P.Model identification in interactive influence diagrams using mutual information[J].Web Intelligence and Agent Systems,2010,8(3):313-327.
6顿文力,孟庆春,宋长虹,张艳.基于换位原理的对手建模模型[J].中国海洋大学学报（自然科学版）,2004,34(1):109-114. 被引量：5
7王磊,孙增圻.基于行为的多机器人对手意图识别二次估计方法[J].清华大学学报（自然科学版）,2005,45(10):1421-1424. 被引量：7
8李岩,曹琳,孙雷,刘景泰.竞争型网络机器人体系结构研究[J].机器人,2013,35(4):462-469. 被引量：5
9Doshi P,Zeng Y F,Chen Q Y.Graphical models for interactive pomdps:representations and solutions[J].Journal of Autonomous Agents and Multi-agent Systems,2009,18(3):376-416.
10Zeng Y F,Doshi P.Exploiting model equivalences for solving interactive dynamic influence diagrams[J].Journal of Artificial Intelligence Research,2012,43:211-255.

二级参考文献53

1庄晓东,孟庆春,魏天滨,王旭柱,谭锐,李筱菁.Robot path planning in dynamic environment based on reinforcement learning[J].Journal of Harbin Institute of Technology(New Series),2001,8(3):253-255. 被引量：3
2刘景泰,孙雷,陈涛,黄兴博,赵春颖.竞争型遥操作机器人系统的研究[J].机器人,2005,27(1):68-72. 被引量：5
3王磊,孙增圻.基于行为的多机器人对手意图识别二次估计方法[J].清华大学学报（自然科学版）,2005,45(10):1421-1424. 被引量：7
4郝丽娜,李庆赟,王丹,徐心和.竞争型遥操作机器人实验系统研究[J].东北大学学报（自然科学版）,2006,27(3):264-267. 被引量：2
5Suryadi D, Gmytrasiewiez P. Learning models of other agents using influence diagrams[C]//Proceedings of the Seventh International Conference on User Modeling. New York: Springer-Verlag, 1999: 223-232.
6Koller D, Milch B. Multi-agent influence diagrams for representing and solving games[J]. Games and Economic Behavior, 2003, 45:181-221.
7Gal Y, Pfeffer A. Networks of influence diagrams: a formalism for representing agents' beliefs and decision-making processes[J]. Journal of Artificial Intelligence Research, 2008, 33: 109-147.
8Tatman J A, Shachter R D. Dynamic programming and influence diagrams[J]. IEEE Transactions on Systems, Man, and Cybernetics, 1990, 20(2): 365- 379.
9Doshi P, Zeng Y F, Chen Q Y. Graphical models for interactive POMDPs: representation and solutions [J]. Journal of Autonomous agents and Multi-agent Systems, 2009, 18(3): 376-416.
10Zeng Y F, Doshi P, Chen Q Y. Approximate solutions of interactive dynamic influence diagrams using model clustering[C]//Proceeding of the Twenty-second Conference on Association for the Advancement of Artificial Intelligence. Vancouver: AAAI Press, 2007 : 782-787.

共引文献13

1秦之凡,杨伟龙.基于粒子滤波的隐式对手策略匹配方法[J].装甲兵学报,2022(5):86-92.
2赵金,彭刚.基于NEAT方法的多机器人追捕-逃跑问题[J].华中科技大学学报（自然科学版）,2011,39(S2):332-334. 被引量：2
3黄新宇,向中凡.基于对手的足球机器人策略研究[J].西华大学学报（自然科学版）,2006,25(2):37-38. 被引量：2
4李岩,曹琳,孙雷,刘景泰.竞争型网络机器人体系结构研究[J].机器人,2013,35(4):462-469. 被引量：5
5田乐,罗键,曹浪财.多Agent交互动态影响图的近似行为等价算法[J].华中科技大学学报（自然科学版）,2014,42(4):60-63. 被引量：2
6李淑琴,龙海楠.基于对手意图预测算法的机器鱼对抗策略研究[J].计算机仿真,2014,31(7):360-365. 被引量：1
7陈志刚,刘志坤,杨露菁.基于PR-OWL的战术意图识别概率本体建模[J].舰船电子工程,2015,35(2):86-89.
8王骥,谢仕义,钱建东,汪良红.基于网络机器人的远程室内安防新方法[J].电子器件,2017,40(1):199-206. 被引量：6
9赵大兴,杨贝贝,刘格,赵迪.基于视觉的人机协同的用户操作意图预测[J].科学技术与工程,2017,17(16):242-247. 被引量：1
10安敬民,李冠宇,张冬青,蒋伟.面向序贯决策中异常情景下交互问题处理方法[J].计算机集成制造系统,2020,26(12):3274-3282. 被引量：1

同被引文献43

1邓有朋,范佳宣,郑岩,王振亚,吕勇梁,李雨霄.不完全信息下多智能体对手建模[J].航空学报,2023,44(S02):443-452. 被引量：5
2庞明宝,陈静,杨敏.基于CA模型的中小学放学门口道路交通仿真[J].系统仿真学报,2015,27(5):927-934. 被引量：7
3薛方正,方帅,徐心和.多机器人对抗系统仿真中的对手建模[J].系统仿真学报,2005,17(9):2138-2141. 被引量：8
4王磊,孙增圻.基于行为的多机器人对手意图识别二次估计方法[J].清华大学学报（自然科学版）,2005,45(10):1421-1424. 被引量：7
5黄新宇,向中凡.基于对手的足球机器人策略研究[J].西华大学学报（自然科学版）,2006,25(2):37-38. 被引量：2
6张成虎,岳鑫,乐晖.基于聚类方法的客户交易行为模式识别[J].计算机工程与应用,2007,43(10):195-198. 被引量：5
7陆俊,王崇骏,王珺,陈世福.基于对手思维建模的分布式入侵检测模型[J].计算机应用研究,2007,24(5):115-118. 被引量：2
8王蓁蓁,邢汉承,张志政,倪庆剑.模拟人类发散思维的测度值马尔可夫理论模型[J].南京大学学报（自然科学版）,2008,44(2):148-156. 被引量：2
9钟育鸣,韩松臣,张旭婧.机场容量评估中仿真飞机流的设计与实现[J].交通与计算机,2008,26(6):120-123. 被引量：7
10尤杰,韩松臣.基于多Agent的机场场面最优滑行路径算法[J].交通运输工程学报,2009,9(1):109-112. 被引量：14

引证文献2

1邢志伟,李世皎,唐云霄,罗谦.基于Agent-元胞自动机的机场场面交通仿真[J].系统仿真学报,2018,30(3):857-865. 被引量：6
2程恺,张金鹏,邵天浩,邹世辰,于本川.智能博弈领域中的对手建模方法综述[J].计算机技术与发展,2025,35(9):1-8.

二级引证文献6

1陈志超,孙绍荣.基于复杂网络的重大基础设施工程风险管理网络演化模型研究[J].工程管理学报,2019,33(3):98-103. 被引量：3
2康瑞,杨凯.考虑等待位置的航空器交叉滑行冲突概率模型[J].中国安全生产科学技术,2019,15(8):64-69. 被引量：4
3朱新平,徐川,瞿菁菁,苏庭文.多跑道机场机动区滑行道运行方案设计及仿真评估[J].系统仿真学报,2022,34(11):2448-2457. 被引量：4
4丁雪琪,殷隽劼,董长印,王昊.信号交叉口右转车辆干扰直行车辆行为仿真分析[J].公路交通科技,2023,40(11):202-211. 被引量：1
5摆倩倩,李志,叶博嘉.机场地面运行效率影响因素仿真分析[J].黑龙江交通科技,2024,47(1):160-164.
6苏佳明,胡明华,尹嘉男,刘颖俪.复杂机场“机⁃车⁃场道”交通仿真模型研究[J].南京航空航天大学学报,2024,56(6):994-1001.

1罗键,武鹤.基于交互式动态影响图的对手建模[J].控制与决策,2016,31(4):635-639. 被引量：5
2舒文杰,耿丽娜,郑志强.RoboCup仿真研究[J].系统仿真学报,2004,16(10):2220-2222. 被引量：4
3顿文力,孟庆春,庄晓东.对抗性多机器人系统对手建模的研究[J].计算机应用研究,2004,21(3):53-55. 被引量：3
4王学慧,柳林.足球机器人小车总体设计思想及其单片机选型[J].机器人技术与应用,2001(5):10-14. 被引量：4
5乌日图,刘卫,武建新,孙寒立.实时专家系统及其应用研究[J].内蒙古工业大学学报（自然科学版）,1998,17(2):44-47. 被引量：3
6李丹,王南华.一种用于实时推理的知识表示体系[J].宇航学报,1993,14(1):61-68.
7张汗灵,郝重阳,张先勇,雷方元.基于图象的实时绘制技术[J].信息与控制,2003,32(1):56-60. 被引量：1
8张鹏辉,李平,苏成利,李强.一类混杂系统的模糊建模方法[J].中国科技博览,2009(11):170-170.
9鲁桂芳.基于交互式动态影响图的决策模型及算法分析[J].科技经济导刊,2016(3):3-4. 被引量：1
10罗键,李波,潘颖慧,尹华一,吴长庆.基于多Agent的交互式动态影响图研究、应用与展望[J].厦门大学学报（自然科学版）,2011,50(2):253-260. 被引量：1

华中科技大学学报（自然科学版）

2015年第10期

浏览历史

内容加载中请稍等...

多智能体对手建模及其真实模型的确定被引量：2

参考文献12

二级参考文献53

共引文献13

同被引文献43

引证文献2

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

多智能体对手建模及其真实模型的确定 被引量：2

参考文献12

二级参考文献53

共引文献13

同被引文献43

引证文献2

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

多智能体对手建模及其真实模型的确定被引量：2