基于检索增强生成的开放域问答方法研究被引量：2

Study on Open-domain Question Answering Methods Based on Retrieval-augmented Generation

下载PDF

导出

摘要大型语言模型在自然语言处理任务中取得显著进展,但其对封装在参数内的知识依赖易引发幻觉现象。为缓解这一问题,检索增强生成技术通过信息检索方法降低错误风险。然而,现有方法检索到的文档往往含有不准确或误导性信息,且在评估文档相关性方面存在判别准确性不足的问题。针对上述挑战,设计了一种简洁高效的方法,通过结合稀疏检索与稠密检索,兼顾词汇重叠的信息与语义相关性。此外,引入排序器对检索到的候选段落进行重排序,在排序器的输入中注入稀疏和稠密检索的分数,进一步优化了段落的排序质量。为验证所提方法的有效性,在SQuAD和HotpotQA数据集上进行实验,并与现有基准方法比较。实验结果表明,所提方法在提升问答性能方面具有显著优势。 Large language models have made significant progress in natural language processing tasks,but their reliance on knowledge encapsulated within parameters can easily lead to the phenomenon of hallucinations.To mitigate this issue,retrieval-augmented generation techniques reduce the risk of errors through information retrieval methods.However,existing methods often retrieve documents that contain inaccurate or misleading information,and there is a lack of discriminative accuracy in evaluating document relevance.In response to these challenges,this study designs a concise and efficient method that combines sparse retrieval with dense retrieval,taking into account both lexical overlap and semantic relevance.Furthermore,a ranker is introduced to reorder the retrieved candidate paragraphs,with the input to the ranker infused with scores from both sparse and dense retrieval,further optimizing the quality of paragraph ranking.To validate the effectiveness of this method,experiments were conducted on the SQuAD and HotpotQA datasets,and comparisons were made with existing benchmark methods.The experimental results demonstrate that this method holds a significant advantage in enhancing question-answering performance.

作者白云天郝文宁靳大尉 BAI Yuntian;HAO Wenning;JIN Dawei(College of Command&ControlEngineering,Army Engineering University of PLA,Nanjing 210000,China)

机构地区陆军工程大学指挥控制工程学院

出处《计算机科学》北大核心 2025年第S1期36-42,共7页 Computer Science

基金国防工业技术发展计划(JCKY2020601B018)。

关键词大型语言模型检索增强生成信息检索 Large language model Retrieval-augmented generation Information retrieval

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献11

1谷宁静.“一网通办”人才落户系统的跨域SSO设计与实现[J].计算机应用与软件,2020,37(5):25-29. 被引量：5
2王群,李馥娟.一种基于单点登录的实验室统一身份认证方案[J].实验技术与管理,2020,37(5):219-223. 被引量：15
3赵月,何锦雯,朱申辰,李聪仪,张英杰,陈恺.大语言模型安全现状与挑战[J].计算机科学,2024,51(1):68-71. 被引量：67
4何超,丁世会,郑胜林,王飞,吴皓,陈淘.公立医院门诊“一站式”服务中心的运营探索及思考[J].中国卫生标准管理,2024,15(4):93-96. 被引量：11
5张旭,牛宇翔,刘卿,王力华.基于大模型的医疗对话“声-智”一体化应用实践[J].中国数字医学,2024,19(8):14-17. 被引量：5
6张文超,王玉阳,郜勇.检索增强生成的大模型技术在医院IT运维中的应用[J].中国卫生信息管理杂志,2024,21(6):915-919. 被引量：2
7梅忆寒,王琳琳,王鹏飞,戴思龙,岑黎彬,蔡琰,倪伟聪,王晓玲,陈红,杜小勇.基于多模态与检索增强生成的数据库知识问答系统[J].计算机教育,2024(12):232-237. 被引量：7
8张玉铭,李红岩,郎许锋,周作建,凌云,王子琰.基于检索增强生成技术的中医药问答大语言模型的构建[J].南京中医药大学学报,2024,40(12):1375-1382. 被引量：7
9郭潇雅.北京友谊医院:门诊改革“点、线、面”[J].中国医院院长,2025,21(7):64-65. 被引量：2
10张妍.数字化转型视角下油田云平台与单点登录技术的价值共创[J].中国信息化,2025(5):102-103. 被引量：1

引证文献2

1任海艳,王力华,周家成,李俊伟,吕晗,张光亮,牛宇翔,郭欣.门诊患者通柜服务“一件事”数智化实践探索与成效[J].中国数字医学,2025,20(9):6-11.
2靖定国.基于RAG架构的实时多模态图书搜索系统[J].软件,2025,46(12):73-75.

1刘浩然.基于检索增强生成与软提示优化的大模型开放域问答方法[J].建模与仿真,2025,14(4):901-913.
2魏君对.基于大数据分析的智慧广电用户行为研究[J].电视技术,2024,48(12):225-228.
3程平,唐涔芮,胥尧,林定逢.基于RPA+DeepSeek的企业信息核查审计机器人研究——以ND会计师事务所市监局项目为例[J].会计之友,2025(12):107-114. 被引量：3
4潘敏,周书婷,高梦菲,熊文瑞.基于对比学习增强的伪相关反馈信息检索方法[J].湖北师范大学学报(自然科学版),2025,45(2):21-30.
5李莉.基于Vanilla算法的计算机类课程数字化资源推荐系统设计[J].互联网周刊,2025(10):35-37.
6李绍鹏.任务复杂度对二语写作衔接手段使用的影响[J].中国海洋大学学报(社会科学版),2025(1):127-135.
7杨春梅.基于语料库的MTI学生英译语义效果评析[J].英语广场(学术研究),2025(4):43-47.
8施亦非,王锋,石佳,黄宇峰.基于K-means++聚类分析的轮轨垂向力基线漂移预处理研究[J].振动与冲击,2025,44(9):127-134.
9陈茜.从ChatGPT与DeepSeek看科技创新[J].中国教育网络,2025(2):8-9.
10贾思琪.“数媒+文化”:中医药文化传播的逻辑、困境与路径——以综艺《国医少年志》为例[J].人文天下,2025(3):68-72.

计算机科学

2025年第S1期

浏览历史

内容加载中请稍等...

基于检索增强生成的开放域问答方法研究被引量：2

同被引文献11

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于检索增强生成的开放域问答方法研究 被引量：2

同被引文献11

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于检索增强生成的开放域问答方法研究被引量：2