基于半自治agent的profit-sharing增强学习方法研究被引量：3

Research of profit-sharing reinforcement learning method based on semi-autonomous agent

下载PDF

导出

摘要在基于半自治agent的系统中应用profit-sharing增强学习方法,并与基于动态规划的Q-learning增强学习方法进行比较,在不确定因素较多的动态环境中,当系统状态变化不是一个马尔科夫过程时profit-sharing方法具有很大优势。根据半自治agent中半自治的特性——受制性,提出了一种面向基于半自治agent的增强学习模型,以战场仿真中安全隐蔽的寻找模型为实例对基于半自治agent的profit-sharing增强学习模型进行了试验分析。 We exert the profit-sharing reinforcement learning method into the semi-autonomous agent system,and compare it with the other reinforce learning method Q-learning.Profit-sharing method is more robust and fit for the dynamic environment which includes many uncertain factors,especially in the partial MDPs（Markov Decision Processes） environment.Facing the semi - autonomous property of the agent,we propose an improving learning method of profit-sharing in the semi-autonomous agent system and test it in a combat simulation environment that finds the safety hidden space in battlefield.At last we contract and analyze these methods to the others.

作者杨克巍张少丁岑凯辉谭跃进

机构地区国防科技大学信息系统与管理学院

出处《计算机工程与应用》 CSCD 北大核心 2007年第15期72-75,97,共5页 Computer Engineering and Applications

基金国家部委"十五"预研项目(the Pre- Research Project of the "Tenth Five- Year- Plan"of China) 。

关键词增强学习半自治agent PROFIT-SHARING Q-LEARNING reinforcement learning semi-autonomous agent profit-sharing Q-learning

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献11

1蔡庆生,张波.一种基于Agent团队的强化学习模型与应用研究[J].计算机研究与发展,2000,37(9):1087-1093. 被引量：31
2Sutton R S.Learning to predict by the methods of temporal differences[J].Machine learning,1988,3:9-44.
3Watkins D J H,Dayan P.Technical notes:Q-learning[J].Machine Learning,1992,8:55 -68.
4Grefenstette J J.Credit assignment in rule discovery systems based on genetic algorithms[J].Machine Learning,1988,3:225-245.
5杨克巍,王正元,谭跃进.基于DEVS形式化描述的半自治Agent建模研究[C]//CAAI-10:北京:北京邮电大学出版社,2003:177-182.
6Kaelbling L,Littman M L,Moore A W.Reinforcement learning:a survey[J].Journal of Artificial Intelligence Research,1996,4:237-285.
7Arai S,Sycara K,Payne T R.Experience-based reinforcement learning to acquire effective behavior in a multiagent domain[C]//Proceedings of the 6th Pacific Rim International Conference on Artificial Intelligence.
8Whitehead S D,Balland D H.Active perception and reinforcement learning[C]//Proceedings of the 7th International Conference on Machine Learning,1990:162-169.
9Yang Ke-wei,Wang Zheng-yuan,Tan Yue-jin.Study and application of semiautonomous agent communication model[C]//The Fourth International Conference on System Science and System Engineering.Hong Kong:Global-Link Publisher,2003:288-294.
10李宁,高阳,陆鑫,陈世福.一种基于强化学习的学习Agent[J].计算机研究与发展,2001,38(9):1051-1056. 被引量：26

二级参考文献3

1张东摩,陈世福.AODE中智能体心智状态的表示与处理[J].软件学报,1997,8(A00):357-364. 被引量：2
2张汝波,杨广铭,顾国昌,张国印.Q-学习及其在智能机器人局部路径规划中的应用研究[J].计算机研究与发展,1999,36(12):1430-1436. 被引量：17
3蔡庆生,张波.一种基于Agent团队的强化学习模型与应用研究[J].计算机研究与发展,2000,37(9):1087-1093. 被引量：31

共引文献51

1朱伟一.格林斯潘斗不过经济规律[J].南风窗,2002(24):61-61.
2张彦铎,闵锋.基于人工神经网络的强化学习在机器人足球中的应用[J].哈尔滨工业大学学报,2004,36(7):859-861. 被引量：7
3陈雪江,杨东勇.基于强化学习的多智能体协作实现[J].浙江工业大学学报,2004,32(5):516-519. 被引量：2
4陈雪江,杨东勇,范荣真.多智能体协作的两层强化学习实现方法[J].计算机工程,2005,31(3):192-194. 被引量：4
5杨红颖,王向阳,赵红.一种基于多Agent的远程教学模型框架[J].现代远距离教育,2005(2):53-57. 被引量：19
6王长缨,尹晓虎,鲍翊平,姚莉.一种共享经验元组的多agent协同强化学习算法[J].模式识别与人工智能,2005,18(2):234-239. 被引量：4
7宋梅萍,顾国昌,张汝波.移动机器人的自适应式行为融合方法[J].哈尔滨工程大学学报,2005,26(5):586-590. 被引量：5
8李志强,胡晓峰,张斌,董忠林.基于强化学习的指挥控制Agent适应性仿真研究[J].系统仿真学报,2005,17(11):2801-2804. 被引量：8
9杨红颖,王向阳,赵红.基于多Agent的智能网络教学系统模型研究[J].现代教育技术,2005,15(6):55-59. 被引量：9
10厉广伟,曹爱增,尹建芹.基于视觉的足球机器人决策规划研究进展[J].济南大学学报（自然科学版）,2006,20(2):155-159. 被引量：2

同被引文献15

1宗长富,杨肖,王畅,张广才.汽车转向时驾驶员驾驶意图辨识与行为预测[J].吉林大学学报（工学版）,2009,39(S1):27-32. 被引量：28
2Hayashi T, Yamada K. Predicting unusual right-turn driving behavior at intersection. Intelligent Vehicles Symposium, IEEE, 2009 : 869-874.
3Cheng S Y, Trivedi M M. Turn-intent analysis using body pose for in- telligent driver assistance. Pervasive Computing, IEEE 2006 ; 5 (4) : 28-37.
4Kuge N, Yamamura T, Shimoyama O. A driver behavior recognition method based on a driver model framework. SAE Paper 2000 - 01 - 0349.
5Salvueei D D. Inferring driver intent : a ease study in lane-change de- tection. Proe of the Human Factors Ergonomies Society 48 th Annual Meeting, 2004; 2228-2231.
6杨萍,毕义明,刘卫东.基于模糊马尔科夫理论的机动智能体决策模型[J].系统工程与电子技术,2008,30(3):511-514. 被引量：8
7马耀飞,龚光红,彭晓源.基于强化学习的航空兵认知行为模型[J].北京航空航天大学学报,2010,36(4):379-383. 被引量：14
8熊健,赵青松,葛冰峰,陈英武.基于多目标优化模型的武器装备体系能力规划[J].国防科技大学学报,2011,33(3):140-144. 被引量：13
9贾文生,向淑文,杨剑锋,胡文生.基于免疫粒子群算法的非合作博弈Nash均衡问题求解[J].计算机应用研究,2012,29(1):28-31. 被引量：32
10徐安,寇英信,于雷,李战武.基于RBF神经网络的Q学习飞行器隐蔽接敌策略[J].系统工程与电子技术,2012,34(1):97-101. 被引量：8

引证文献3

1刘志强,周亮,汪澎,倪捷.交叉口驾驶员转向意图辨识研究[J].科学技术与工程,2014,22(17):299-302. 被引量：2
2闫雪飞,李新明,刘东,王寿彪.基于Nash-Q的网络信息体系对抗仿真技术[J].系统工程与电子技术,2018,40(1):217-224. 被引量：8
3闫雪飞,李新明,刘东,刘德生,李强.基于强化学习的体系对抗仿真战役层次指控算法[J].计算机工程与科学,2018,40(8):1511-1520. 被引量：1

二级引证文献11

1卢梓扬,盛步云,王辉,李晓芳.一种汽车混流总装生产线排产的超启发式算法研究[J].数字制造科学,2022(3):241-246. 被引量：2
2董海滨,王暖臣,穆歌,王孜丹.网络信息体系标准体系研究现状分析[J].中国电子科学研究院学报,2023,18(2):189-194. 被引量：1
3孙福权,宋亮.水利工程施工场内交通运输交叉路口问题研究[J].工程管理学报,2015,29(6):119-123. 被引量：2
4张杰勇,林燕,王勋,万路军,焦志强.基于能力满足度的网络信息体系武器装备发展路线评估方法[J].指挥信息系统与技术,2018,9(5):62-67. 被引量：6
5魏娜,刘明雍,张帅,张小件.基于协同对抗的水下博弈策略优化[J].西北工业大学学报,2019,37(1):63-69. 被引量：8
6谢胜军,王翔.基于纵深防御体系的网络信息安全与防护[J].电子元器件与信息技术,2019,3(9):51-53. 被引量：4
7谢胜军,王翔.基于纵深防御体系的网络信息安全与防护[J].电子元器件与信息技术,2019,3(10):36-38. 被引量：6
8吴昭欣,李辉,王壮,陶伟,吴昊霖,侯贤乐.基于深度强化学习的智能仿真平台设计[J].战术导弹技术,2020(4):193-200. 被引量：7
9倪定安,郭凤香,周燕宁.无信号控制交叉口老年驾驶人转向行为图谱研究[J].交通信息与安全,2022,40(3):108-117. 被引量：4
10汪霜玲,黄松华,王菁,张兆晨,毛晓彬,易侃.基于初判轮廓的网络信息体系互理解等级评估方法[J].火力与指挥控制,2023,48(8):126-132.

1成晓鹏,齐锋,王枭.电子对抗作战仿真分层半自治Agent系统框架设计[J].指挥控制与仿真,2016,38(3):83-87. 被引量：3
2赵云峰,杨克巍,陈英武.半自治Agent通信模型及在作战仿真中的应用[J].计算机技术与发展,2007,17(5):1-4. 被引量：1
3刘朝斌,何杰,郭强.P2P僵尸网络研究[J].小型微型计算机系统,2012,33(10):2203-2207. 被引量：2
4杨克巍,王正元,陈志诚,谭跃进.基于半自治Agent的CGF建模及应用研究[J].系统仿真学报,2005,17(4):997-999. 被引量：12
5杨克巍,岑凯辉,李孟军,张少丁.基于效用理论的有限理性半自治Agent决策方法[J].华东理工大学学报（自然科学版）,2007,33(B06):109-113. 被引量：1
6吴强,金长江.基于区域划分的任务树技术在战场仿真中的应用[J].系统仿真学报,2001,13(S2):397-398. 被引量：1
7李晓燕,殷宏,王金虎.战场仿真中的三维实体模型管理系统[J].计算机与信息技术,2006(9):34-35.
8方新丽.基于对等网协议的BotNet防御系统的设计[J].电脑知识与技术,2016,0(5):30-31.
9刘东阳,朱连章.基于多Agent系统的坦克分队作战仿真与建模[J].电脑知识与技术（过刊）,2011,0(11X):7983-7985. 被引量：1
10刘桂涛,李哲,张凯兵,张天凡.基于多Agent战场仿真系统研究[J].现代防御技术,2016,44(4):144-152. 被引量：1

计算机工程与应用

2007年第15期

浏览历史

内容加载中请稍等...

基于半自治agent的profit-sharing增强学习方法研究被引量：3

参考文献11

二级参考文献3

共引文献51

同被引文献15

引证文献3

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于半自治agent的profit-sharing增强学习方法研究 被引量：3

参考文献11

二级参考文献3

共引文献51

同被引文献15

引证文献3

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于半自治agent的profit-sharing增强学习方法研究被引量：3