期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于指导反馈强化学习的算法选择技术
1
作者 陈亮 王通通 +1 位作者 王璇 刘昌宏 《计算机工程与设计》 北大核心 2026年第2期351-358,共8页
为解决现有算法选择方法需要复杂流程和专业知识的问题,提出了一种基于大语言模型的强化学习策略。该方法通过参数高效微调对大语言模型进行初始化,为后续的强化学习训练提供高质量的基础。利用指导策略对微调后的模型进行强化学习训练... 为解决现有算法选择方法需要复杂流程和专业知识的问题,提出了一种基于大语言模型的强化学习策略。该方法通过参数高效微调对大语言模型进行初始化,为后续的强化学习训练提供高质量的基础。利用指导策略对微调后的模型进行强化学习训练,完成算法选择任务。实验结果表明,在图形类、回归类和控制图类3个场景中,AS-LLM(algorithm selection-large language model)的准确率分别比其它方法的平均准确率高2.23、6.22和5.57个百分点。该方法显著提升了算法选择性能和有效性,且更易于用户操作。 展开更多
关键词 算法选择 强化学习 指导反馈 大语言模型 专家反馈 监督微调 自然语言处理
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部