期刊文献+
共找到189篇文章
< 1 2 10 >
每页显示 20 50 100
Reform and Practice of a Large Language Model Method Based on Human Feedback in Algorithm Analysis and Design of a Course
1
作者 Kejia Zhang Haiwei Pan +3 位作者 Zhiqiang Ma Shaoqiang Zhu Yingxin Qin Lan Zhang 《国际计算机前沿大会会议论文集》 2025年第1期130-139,共10页
With the continuous development of artificial intelligence technology,large-scale language models have demonstrated significant potential across various fields.In education,an increasing number of methods leverage lar... With the continuous development of artificial intelligence technology,large-scale language models have demonstrated significant potential across various fields.In education,an increasing number of methods leverage large-scale language models to enhance educational quality,introducing new ideas and opportunities for reform.However,training a large language model with substantial professional knowledge to meet teaching needs incurs high labor costs.The fine-tuning approach based on human feedback alignment can significantly lower these model labor costs.Consequently,this article thoroughly investigates the application of this large prediction model method,which is rooted in human feed-back alignment,within the educational reform of algorithm analysis and design courses and examines its impact on teaching effectiveness and students’learning experiences. 展开更多
关键词 Computer Science Large Language Model human feedback Teaching Reform
原文传递
Diversity from human feedback
2
作者 Ren-Jian WANG Ke XUE +4 位作者 Yu-Tong WANG Peng YANG Hao-Bo FU Qiang FU Chao QIAN 《Frontiers of Computer Science》 2026年第2期151-162,共12页
Diversity plays a significant role in many problems,such as ensemble learning,reinforcement learning,and combinatorial optimization.How to define the diversity measure is a longstanding problem.Many methods rely on ex... Diversity plays a significant role in many problems,such as ensemble learning,reinforcement learning,and combinatorial optimization.How to define the diversity measure is a longstanding problem.Many methods rely on expert experience to define a proper behavior space and then obtain the diversity measure,which is,however,challenging in many scenarios.In this paper,we propose the problem of learning a behavior space from human feedback and present a general method called Diversity from Human Feedback(DivHF)to solve it.DivHF learns a behavior descriptor consistent with human preference by querying human feedback.The learned behavior descriptor can be combined with any distance measure to define a diversity measure.We demonstrate the effectiveness of DivHF by integrating it with the Quality-Diversity optimization algorithm MAP-Elites and conducting experiments on the QDax suite.The results show that the behavior learned by DivHF is much more consistent with human requirements than the one learned by direct data-driven approaches without human feedback,and makes the final solutions more diverse under human preference.Our contributions include formulating the problem,proposing the DivHF method,and demonstrating its effectiveness through experiments. 展开更多
关键词 quality diversity human feedback behavior descriptor diversity measure
原文传递
Human feedback enhanced autonomous intelligent systems:a perspective from intelligent driving 被引量:2
3
作者 Kang Yuan Yanjun Huang +2 位作者 Lulu Guo Hong Chen Jie Chen 《Autonomous Intelligent Systems》 2024年第1期287-296,共10页
Artificial intelligence empowers the rapid development of autonomous intelligent systems(AISs),but it still struggles to cope with open,complex,dynamic,and uncertain environments,limiting its large-scale industrial ap... Artificial intelligence empowers the rapid development of autonomous intelligent systems(AISs),but it still struggles to cope with open,complex,dynamic,and uncertain environments,limiting its large-scale industrial application.Reliable human feedback provides a mechanism for aligning machine behavior with human values and holds promise as a new paradigm for the evolution and enhancement of machine intelligence.This paper analyzes the engineering insights from ChatGPT and elaborates on the evolution from traditional feedback to human feedback.Then,a unified framework for self-evolving intelligent driving(ID)based on human feedback is proposed.Finally,an application in the congested ramp scenario illustrates the effectiveness of the proposed framework. 展开更多
关键词 Autonomous intelligent systems Intelligent driving human feedback
原文传递
Human experience-guided reinforcement learning for carrier-based aircraft support operation scheduling
4
作者 Xudong Chen Yizhe Luo +5 位作者 Qihang Sun Wenxiao Guo Zhao Jin Shuo Feng Yucheng Shi Mingliang Xu 《Defence Technology(防务技术)》 2025年第12期211-224,共14页
The efficiency of carrier-based aircraft support operation scheduling critically impacts aircraft carrier operational effectiveness by determining sortie generation rates,yet faces significant challenges in complex de... The efficiency of carrier-based aircraft support operation scheduling critically impacts aircraft carrier operational effectiveness by determining sortie generation rates,yet faces significant challenges in complex deck environments characterized by resource coupling,dynamic constraints,and highdimensional state-action spaces.Traditional optimization algorithms and vanilla reinforcement learning(RL)struggle with computational inefficiency,sparse rewards,and adaptability to dynamic scenarios,while human expert systems are constrained by the quality of expert knowledge,and poor expert guidance may even have a negative impact.To address these limitations,this paper proposes a human experience-guided actor-critic reinforcement learning framework that synergizes domain expertise with adaptive learning.First,a dynamic Markov decision process(MDP)model is developed to rigorously simulate carrier deck operations,explicitly encoding constraints on positions,resources,and collision avoidance.Building upon this foundation,a human experience database is constructed to enable real-time pattern-matching-based intervention during agent-environment interactions,dynamically correcting wrong actions to avoid catastrophic states while refining exploration efficiency.Finally,the policy and value network objectives are reshaped to incorporate human intent through hybrid reward functions and adaptive guidance weighting,ensuring balanced integration of expert knowledge with RL's exploration capabilities.Extensive simulations across three scenarios demonstrate superior performance compared to state-of-the-art methods and maintain robustness under suboptimal human guidance.These results validate the framework's ability to harmonize human expertise with adaptive learning,offering a practical solution for real-world carriers. 展开更多
关键词 Reinforcement learning from human feedback Carrier-based aircraft scheduling Resource allocation Dynamic decision-making
在线阅读 下载PDF
The two-way feedback and passing-way of human body 被引量:1
5
作者 Zhang Liang Zhang Kui Zhang Renxiang 《Engineering Sciences》 EI 2008年第2期37-41,共5页
Two-way feedback of human body was published in 1992. The sensation of two-way feedback of body is a special system of human reaction, which maintains and regulates symmetry and balance of human body. The human two-wa... Two-way feedback of human body was published in 1992. The sensation of two-way feedback of body is a special system of human reaction, which maintains and regulates symmetry and balance of human body. The human two-way feedback reacts to human health. For human overall health and delay decrepitude, it is necessary to pay attention to the stimulations (passive acceptance and initiative interventions) and relevant influences in human body and the stimulative effect. In this paper, the experimental research of stimulation and an example of two-way feedback in human body are given. And lay a foundation of prevention, medical treatment and hygiene of human overall health. 展开更多
关键词 two-way feedback of human body STIMULATION meridian point MERIDIAN ACUPUNCTURE mechanical model of passing track of human body human hygiene overall health comprehensive medicine
在线阅读 下载PDF
Information perception and feedback mechanism and key techniques of multi-modality human-robot interaction for service robots 被引量:1
6
作者 赵其杰 《Journal of Shanghai University(English Edition)》 CAS 2006年第3期281-281,共1页
With the increasing of the elderly population and the growing hearth care cost, the role of service robots in aiding the disabled and the elderly is becoming important. Many researchers in the world have paid much att... With the increasing of the elderly population and the growing hearth care cost, the role of service robots in aiding the disabled and the elderly is becoming important. Many researchers in the world have paid much attention to heaRthcare robots and rehabilitation robots. To get natural and harmonious communication between the user and a service robot, the information perception/feedback ability, and interaction ability for service robots become more important in many key issues. 展开更多
关键词 service robot MULTI-MODALITY human-robot interaction user model interaction protocol information perception and feedback.
在线阅读 下载PDF
From Algorithm to Expert:RLHF-Guided Vision-Language Model for 3D-EEM Fluorescence Spectroscopy Matching
7
作者 Chenglong Lu Jiehui Li +5 位作者 Tonglin Chen Changhua Zhou Yixin Fan Xinlin Ren Ziyi Ju Wei Wang 《Computers, Materials & Continua》 2026年第5期1883-1900,共18页
Existing methods for tracing water pollution sources typically integrate three-dimensional excitationemission matrix(3D-EEM)fluorescence spectroscopy with similarity-based matching algorithms.However,these approaches ... Existing methods for tracing water pollution sources typically integrate three-dimensional excitationemission matrix(3D-EEM)fluorescence spectroscopy with similarity-based matching algorithms.However,these approaches exhibit high error rates in borderline cases and necessitate expert manual review,which limits scalability and introduces inconsistencies between algorithmic outputs and expert judgment.To address these limitations,we propose a large vision-language model(VLM)designed as an“expert agent”to automatically refine similarity scores,ensuring alignment with expert decisions and overcoming key application bottlenecks.The model consists of two core components:(1)rule-based similarity calculation module generate initial spectral similarity scores,and(2)pre-trained large vision-language model fine-tuned via supervised learning and reinforcement learning with human feedback(RLHF)to emulate expert assessments.To facilitate training and evaluation,we introduce two expert-annotated datasets,Spec1k and SpecReason,which capture both quantitative corrections and qualitative reasoning patterns,allowing the model to emulate expert decision-making processes.Experimental results demonstrate that our method achieves 81.45%source attribution accuracy,38.24%higher than rule-based and machine learning baselines.Real-world deployment further validates its effectiveness. 展开更多
关键词 Vision-language model reinforcement learning with human feedback pollution source tracing 3D fluorescence spectroscopy
在线阅读 下载PDF
基于改进人类反馈强化学习的端到端自动驾驶决策模型
8
作者 曹吴鸿 蔡英凤 +4 位作者 刘泽 刘擎超 王海 陈龙 张晓东 《汽车工程》 北大核心 2026年第1期24-36,共13页
端到端自动驾驶是智能汽车领域的最新研究热点,现有研究大多采用人工设计的强化学习奖励函数,在复杂驾驶环境中存在学习效率和泛化能力提升的瓶颈。针对该问题,本文提出了一种基于改进人类反馈强化学习的端到端自动驾驶建模方法。首先,... 端到端自动驾驶是智能汽车领域的最新研究热点,现有研究大多采用人工设计的强化学习奖励函数,在复杂驾驶环境中存在学习效率和泛化能力提升的瓶颈。针对该问题,本文提出了一种基于改进人类反馈强化学习的端到端自动驾驶建模方法。首先,构建了采用响应比估计方法简化人类偏好的自动化奖励反馈,提高了驾驶策略的逻辑性、降低了人工设计成本;其次,设计了奖励函数预训练优化方法,通过学习初期对先验知识的嵌入加速了模型收敛过程;最后,提出了基于扩散模型的全新数据增强技术,建立了动态增强的奖励替代机制,解决了奖励函数的过拟合问题和切换平顺性问题,提升了复杂场景下强化学习智能体的适应性和鲁棒性。基于CARLA模拟器对所提方法进行验证,在最常用的LeaderBoard基准上,取得了87±2的驾驶得分,相比现有方法,本文所提模型具有更好的泛化性与学习效率。 展开更多
关键词 端到端自动驾驶 人类反馈强化学习 响应比 扩散模型
在线阅读 下载PDF
X-反馈强化学习:前沿进展与展望
9
作者 刘起东 何文轩 +3 位作者 姚恩广 陈董 李亚飞 徐明亮 《计算机学报》 北大核心 2026年第3期497-519,共23页
人类反馈强化学习(Reinforcement Learning from Human Feedback,RLHF)整合了人类智慧与机器的力量.它通过人类培训师对人工智能系统的行为或输出给予的反馈评价或建议,完成奖励信号的创建或智能体策略的改变等.高质量的人类反馈能够显... 人类反馈强化学习(Reinforcement Learning from Human Feedback,RLHF)整合了人类智慧与机器的力量.它通过人类培训师对人工智能系统的行为或输出给予的反馈评价或建议,完成奖励信号的创建或智能体策略的改变等.高质量的人类反馈能够显著提升人工智能系统对人类偏好和价值观的理解与适应能力,然而,高质量数据的稀缺性成为了RLHF进一步发展的瓶颈.近期,AI反馈强化学习(Reinforcement Learning from AI Feedback,RLAIF)的兴起为突破这一限制提供了新的视角,促使本文重新审视并定义了一个更广泛的框架X-反馈强化学习(Reinforcement Learning from X-Feedback,RLXF).RLXF是一种结合了多种反馈源(包括人类和AI)来指导强化学习过程的框架.这些反馈可以是直接的奖励信号、策略建议、偏好排序等多种形式,旨在优化智能体的行为策略,以更好地适应复杂多变的环境和满足多样化的目标.围绕RLXF,从方法论创新到前沿应用进行系统性探讨:首先,建立RLXF的统一理论框架,阐明其通过多源反馈实现策略优化的核心机理;其次,将现有研究分为模仿学习、基于人类反馈的强化学习(RLHF)及基于AI反馈的强化学习(RLAIF)等三种反馈范式.进而详细讨论了RLXF在自动驾驶、具身智能与大型语言模型(Large Language Models,LLMs)等关键领域的突破性应用实例.最后,总结了RLXF当前面临的主要挑战,并对其未来发展方向进行了展望. 展开更多
关键词 人类反馈强化学习 AI反馈强化学习 模仿学习 大型语言模型 人机共融
在线阅读 下载PDF
基于人在回路负反馈机制的可修正问答研究
10
作者 朱运昌 庞亮 +1 位作者 沈华伟 程学旗 《中文信息学报》 北大核心 2026年第1期163-175,共13页
问答是测试机器智能水平的重要任务。以往的研究主要关注如何提高问答模型基于语料信息的回答准确性,而忽略了问答系统对用户反馈的在线处理能力。与人类在了解初始答案错误后能够反思并修正答案的情况相比,模型在这方面的能力尚未得到... 问答是测试机器智能水平的重要任务。以往的研究主要关注如何提高问答模型基于语料信息的回答准确性,而忽略了问答系统对用户反馈的在线处理能力。与人类在了解初始答案错误后能够反思并修正答案的情况相比,模型在这方面的能力尚未得到合理的建模与研究。因此,该文提出了一种可修正问答任务,其中用户可以拒绝不满意的答案预测,而模型可以基于用户的负反馈修正答案直到被接受。为了避免规模化训练和评估中人在回路的成本,该文提出使用现有数据集中的答案标注反向模拟用户的反馈。为了赋予传统问答模型基于反馈修正答案的能力,该文还从模型的输入、嵌入和输出方面提出了三种负反馈增强方法。实验结果表明,在三个数据集模拟的交互环境下,这三种方法均具有有效性。 展开更多
关键词 问答 可修正 人在回路 负反馈
在线阅读 下载PDF
秦岭北麓乡村人-地-业系统互馈模式与机理
11
作者 杨如玉 黄晓燕 +11 位作者 秦玥 孙腾 吴楚晴 朱迪 许诺 铉登祺 王子奇 吕艳 刘冬 申艳军 曹小曙 彭建兵 《地球科学》 北大核心 2026年第2期446-461,共16页
乡村是自然环境、人类活动与产业发展之间矛盾最突出的地域单元,厘清乡村人-地-业系统互馈机理是践行乡村振兴战略的科学基础.秦岭北麓敏感的地理环境特征和周边社会经济的高速发展,给人地协调带来了重大挑战,是乡村人-地-业系统互馈研... 乡村是自然环境、人类活动与产业发展之间矛盾最突出的地域单元,厘清乡村人-地-业系统互馈机理是践行乡村振兴战略的科学基础.秦岭北麓敏感的地理环境特征和周边社会经济的高速发展,给人地协调带来了重大挑战,是乡村人-地-业系统互馈研究的典型区域.依据人地耦合协调强度、地貌、土地利用和旅游资源,将秦岭北麓的乡村分为8种类型,分别探究人-地-业系统各要素之间相互作用机理,并总结典型模式,提出系统优化和防止系统崩溃调控路径.研究发现,耦合互馈分为4个阶段,分别是自给型人地共生期、劳动力析出土地松绑期、产业融合生态觉醒期和政策调控系统重构期.按产业或生计方式将秦岭北麓乡村人-地-业系统归纳为农业特色和旅游特色两种互馈模式.为防止系统崩溃,农业特色村需构建多层次韧性防御体系,涵盖灾害预警、产业多元、合作网络维护与动态政策调控;旅游特色村以文化资源深度开发、构建“旅游业+”的复合产业和弹性开发政策、抵御同质竞争与生态超载风险来维持可持续发展.研究结果可为促进生态敏感区域乡村人-地-业系统协调发展提供科学依据. 展开更多
关键词 人-地-业系统 乡村 互馈机理 调控路径 秦岭北麓
原文传递
Feedback⁃Aware Anomaly Detection Through Logs for Large⁃Scale Software Systems
12
作者 HAN Jing JIA Tong +2 位作者 WU Yifan HOU Chuanjia LI Ying 《ZTE Communications》 2021年第3期88-94,共7页
One particular challenge for large‑scale software systems is anomaly detection.System logs are a straightforward and common source of information for anomaly detection.Existing log‑based anomaly detectors are unusable... One particular challenge for large‑scale software systems is anomaly detection.System logs are a straightforward and common source of information for anomaly detection.Existing log‑based anomaly detectors are unusable in real‑world industrial systems due to high false‑positive rates.In this paper,we incorporate human feedback to adjust the detection model structure to reduce false positives.We apply our approach to two industrial large‑scale systems.Results have shown that our approach performs much better than state‑of‑the-art works with 50%higher accuracy.Besides,human feedback can reduce more than 70%of false positives and greatly improve detection precision. 展开更多
关键词 human feedback log‑based anomaly detection system log
在线阅读 下载PDF
一种二自由度力反馈手柄的设计
13
作者 宗辰 韩嘉骅 《机械》 2026年第3期27-32,61,共7页
针对现有二自由度力反馈手柄反馈力矩小、结构复杂的问题,设计了一种基于气缸力源、球副自复位机构以及3D霍尔传感器的紧凑型力反馈手柄。该设计利用4个对称布置的气缸驱动复位盘,通过复位作用产生始终指向操作方向反方向的反馈力矩,实... 针对现有二自由度力反馈手柄反馈力矩小、结构复杂的问题,设计了一种基于气缸力源、球副自复位机构以及3D霍尔传感器的紧凑型力反馈手柄。该设计利用4个对称布置的气缸驱动复位盘,通过复位作用产生始终指向操作方向反方向的反馈力矩,实现了反馈方向的自动对齐;采用3D霍尔传感器直接测量操纵杆空间角,简化了结构。通过比例-积分-微分(Proportional-Integral-Derivative,PID)闭环控制系统调节气缸气压,可实现反馈力的精确控制。实验表明:在1 MPa工作气压下,手柄可提供最大约12 N·m的反馈力矩,对应手部反馈力约60 N;反馈力方向与操作意图方向的平均共线误差小于4°;PID控制器能有效跟踪阶跃与正弦变化的力指令,稳态误差小于10%。本研究为工程机械遥操作等需要大反馈力的场景提供了一种新颖实用的力反馈交互方案。 展开更多
关键词 人机交互 电控手柄 力反馈 PID控制 3D霍尔传感器
在线阅读 下载PDF
人机协同决策中的偏好互适应演化——基于决策场论动态仿真研究
14
作者 任宗强 申鑫 卫达 《科技管理研究》 2026年第1期220-230,共11页
在复杂人机交互场景中,如何推动人机互适应智能决策,成为当前研究热点。基于决策场论,构建了一个面向人机协同决策的偏好动态演化模型,引入偏好耦合、注意力趋同以及信任不确定性的社会化双向反馈机制,克服了传统人机交互技术与规则驱... 在复杂人机交互场景中,如何推动人机互适应智能决策,成为当前研究热点。基于决策场论,构建了一个面向人机协同决策的偏好动态演化模型,引入偏好耦合、注意力趋同以及信任不确定性的社会化双向反馈机制,克服了传统人机交互技术与规则驱动型方法(如规则、流程、博弈等固定框架)所存在的“间断式”互动局限,推动人机协同向更连续、更高效和更创新的方向演化。稳健性检验表明,该模型在关键参数扰动和偏好序列检验中表现出良好的稳定性。并且模型仿真实验证实,相较于单一主体主导式决策,人机协同具有更显著的可信度和高效能优势。此外,参数实验进一步验证了高响应双向反馈机制是驱动人机协同绩效提升的核心条件。面对以具身智能为核心的人工智能技术对知识密集型领域的重塑,组织应将机器从执行工具提升为认知协同一部分,并通过制度创新构建人机互信与责任共担的治理新范式,最终实现从“降本提效”到“智能协同增益”的价值跃升。 展开更多
关键词 人机协同 创新 决策场 双向反馈
在线阅读 下载PDF
基于用户反馈的智慧图书馆人机协同服务模式研究 被引量:5
15
作者 王恒 《图书馆研究与工作》 2025年第3期52-57,共6页
文章在概述用户反馈、人机协同、智慧图书馆人机协同研究现状的基础上,从提升知识服务质量与效率、提高用户知识交互互动体验、促进图书馆员专业发展与数字能力提升、提高数据驱动决策效率4个方面阐述了基于用户反馈的智慧图书馆人机协... 文章在概述用户反馈、人机协同、智慧图书馆人机协同研究现状的基础上,从提升知识服务质量与效率、提高用户知识交互互动体验、促进图书馆员专业发展与数字能力提升、提高数据驱动决策效率4个方面阐述了基于用户反馈的智慧图书馆人机协同服务模式的优势作用,从用户需求分析、用户服务模块、人机协同机制和用户隐私安全保护4个方面论述了人机协同服务模式的构建思路,从数字服务支撑体系、人机服务保障队伍、创新化宣传推广方式3个维度归纳了人机协同服务模式构建的保障措施,旨在全面提升智慧图书馆知识服务效率和用户满意度。 展开更多
关键词 智慧图书馆 用户反馈 人工智能 人机协同 服务模式
在线阅读 下载PDF
共身智能 被引量:1
16
作者 陆峰 赵沁平 《计算》 2025年第5期92-94,共3页
中文名:共身智能外文名:Cobodied AI/Symbodied AI学科:人机交互、人工智能实质:共身智能的实质是通过技术手段,将人类智能与人:工智能(artificial itelligence,AI)以人类视角为基准进行深度对齐和融合,实现跨智能的语义/认知共识,同时... 中文名:共身智能外文名:Cobodied AI/Symbodied AI学科:人机交互、人工智能实质:共身智能的实质是通过技术手段,将人类智能与人:工智能(artificial itelligence,AI)以人类视角为基准进行深度对齐和融合,实现跨智能的语义/认知共识,同时整合双方物理载体(人体+AI硬件)与环境动态交互的信息,形成以人的意图为中心的协同感知、决策、执行与进化能力。 展开更多
关键词 共身智能 双脑融合 人机共(具)身 双重反馈 学习进化
在线阅读 下载PDF
面向人机智慧共生的大语言模型智能体反馈研究 被引量:1
17
作者 李海峰 王炜 《中国电化教育》 北大核心 2025年第11期42-51,94,共11页
当前,大语言模型教育应用中的认知外包或者元认知惰性问题尚未有效解决,原因之一是智能体没有被以具有人机智慧共生反馈素养的“准主体”进行设计和开发。针对这一问题,该文从反馈素养的内涵和特征出发,探讨了人机智慧共生反馈的关键要... 当前,大语言模型教育应用中的认知外包或者元认知惰性问题尚未有效解决,原因之一是智能体没有被以具有人机智慧共生反馈素养的“准主体”进行设计和开发。针对这一问题,该文从反馈素养的内涵和特征出发,探讨了人机智慧共生反馈的关键要素和发生机制,构建了人机智慧共生反馈素养模型,设计与开发了具有该素养的“基更”智能体,基于此构建了人机智慧共生教学模式。教学实验采用准实验研究设计,邀请了教育技术学专业的学生参与实验。与传统人机协同教学模式相比,人机智慧共生教学模式显著提升了学生的外在动机、认知参与、行为参与、情感参与、社会参与、批判性思维和创新能力,但内在动机、自我效能感和问题解决能力效果不佳。为进一步提高教学效果,智能体需能依据知识类型反馈与监测、构建情境化智能学习环境、智能细化反馈内容颗粒度、融入做中学学习环境。 展开更多
关键词 大语言模型 反馈 教学模式 智能教育 人机协同学习
在线阅读 下载PDF
基于虚拟现实的个性化神经反馈训练系统设计
18
作者 胡建平 《计算机应用文摘》 2025年第2期98-100,共3页
文章提出了一种基于虚拟现实技术的多模态多参数神经反馈训练系统,旨在通过沉浸式体验提升用户的认知能力和学习效率。构建了一个用户中心的系统架构,包括训练模块、数据采集模块、数据处理模块、数据分析模块、反馈模块和教师端,以支... 文章提出了一种基于虚拟现实技术的多模态多参数神经反馈训练系统,旨在通过沉浸式体验提升用户的认知能力和学习效率。构建了一个用户中心的系统架构,包括训练模块、数据采集模块、数据处理模块、数据分析模块、反馈模块和教师端,以支持高效、灵活且易于维护的训练过程,为用户提供一种全新、高效的学习与训练方式。 展开更多
关键词 虚拟现实 神经反馈 人机交互
在线阅读 下载PDF
人机协同反馈在学术英语写作中的应用效能与教学研究
19
作者 吴琼 卢怡可 《专门用途外语研究》 2025年第3期24-36,共13页
本研究聚焦不同反馈模式在学术英语写作中的应用效能,通过实验对比探究人机协同反馈对学生学术英语写作能力具体维度上的成效。本研究以21名准研究生为研究对象,开展为期一个月的写作实验调查,综合运用定量与定性分析方法,比较教师反馈... 本研究聚焦不同反馈模式在学术英语写作中的应用效能,通过实验对比探究人机协同反馈对学生学术英语写作能力具体维度上的成效。本研究以21名准研究生为研究对象,开展为期一个月的写作实验调查,综合运用定量与定性分析方法,比较教师反馈、机器反馈及人机协同反馈对学术英语写作各维度的影响。结果显示,人机协同反馈显著提升学术英语写作多个维度,尤其在反驳、逻辑、分论点及主题句构建方面效果明显,但在元话语与衔接连贯维度效果不显著。基于此,本研究提出助写与助修融合、师生交互与人机交互结合、知识传授与思辨培养并重的学术英语写作教学路径,以期为构建人机协同的学术英语写作教学提供思路。 展开更多
关键词 人机协同反馈 教师反馈 机器反馈 学术英语写作
在线阅读 下载PDF
Pipe-RLHF:计算模式感知的RLHF并行加速框架 被引量:1
20
作者 徐颖 王梦迪 +4 位作者 程龙 刘炼 赵世新 张磊 王颖 《计算机研究与发展》 北大核心 2025年第6期1513-1529,共17页
基于人类反馈的强化学习(reinforcement learning with human feedback,RLHF)作为当前大语言模型(large language models,LLMs)对齐的主流方法,其核心优化算法——近端策略优化(proximal policy optimization,PPO)却面临着显著的效率问... 基于人类反馈的强化学习(reinforcement learning with human feedback,RLHF)作为当前大语言模型(large language models,LLMs)对齐的主流方法,其核心优化算法——近端策略优化(proximal policy optimization,PPO)却面临着显著的效率问题.PPO由生成、推理、训练3个相互关联的阶段组成,各个阶段有着不同的计算特性.然而,现有的RLHF并行框架采用相同并行策略顺序执行PPO的所有阶段,这导致以下2个问题:其一,生成阶段不能充分利用计算资源,进而影响整体效率;其二,阶段间严格串行执行,未能充分利用潜在并行性.针对上述问题,提出了一个新型RLHF并行框架——Pipe-RLHF.该框架能够自适应地根据各阶段的计算特征确定最优并行策略,突破现有阶段串行范式,采用异步PPO算法发掘阶段间的并行性.具体而言,创新性地提出了适用于PPO生成阶段的延迟批间流水线并行方法,显著提升了该阶段的计算资源利用率;再次,使用异步PPO解放阶段间的依赖关系,将阶段间并行应用到PPO的加速上;最后,针对PPO算法的整体优化,构建了分层并行策略空间,并提出了一套优化算法以实现该空间中的最优解搜索.通过在多个大语言模型上的性能评估实验表明,相较于现有方法,Pipe-RLHF最高可实现3.7倍的加速比,充分验证了该框架的有效性和优越性. 展开更多
关键词 基于人类反馈的强化学习 近端策略优化 大模型微调 分布式系统 并行计算
在线阅读 下载PDF
上一页 1 2 10 下一页 到第
使用帮助 返回顶部