本文基于大语言模型(Large Language Model,LLM)和检索增强生成(Retrieval-Augmented Generation,RAG)技术,为新闻客户端设计了一个知识问答(Q&A)系统。系统充分发挥大语言模型的自然语言理解与生成能力,结合提示词优化策略和基于...本文基于大语言模型(Large Language Model,LLM)和检索增强生成(Retrieval-Augmented Generation,RAG)技术,为新闻客户端设计了一个知识问答(Q&A)系统。系统充分发挥大语言模型的自然语言理解与生成能力,结合提示词优化策略和基于检索与重新排序的RAG技术在外部知识检索方面的独特优势,通过对接最新新闻资讯数据,构建知识库体系,实现了对用户问题的精准解析与动态响应。实验结果表明,在处理时效性强、领域专业性高的新闻相关问答任务时,该系统有效提升了回答的准确性,显著降低了大模型的“幻觉”问题。这种方法可推广应用于更多领域的智能问答场景。展开更多
现有的检索增强生成(RAG)问答系统在特定领域应用时,存在检索路径单一、用户潜在意图覆盖不足和召回文段质量低导致的系统回答准确性低与不全面的问题。因此,提出一种双阶段优化方法——预回答与召回过滤(PARF)。首先,通过结合领域知识...现有的检索增强生成(RAG)问答系统在特定领域应用时,存在检索路径单一、用户潜在意图覆盖不足和召回文段质量低导致的系统回答准确性低与不全面的问题。因此,提出一种双阶段优化方法——预回答与召回过滤(PARF)。首先,通过结合领域知识图谱与提示工程技术,引导大语言模型(LLM)生成预回答,构建“原始查询→预回答→相关文段”的多向检索路径,从而扩展原始查询的语义空间;其次,利用BERT(Bidirectional Encoder Representations from Transformers)模型对召回文段进行相关性评分与过滤,实现检索与生成阶段的协同优化,提升有效信息的密度。实验结果表明,相较于基线方法DPR-LLM(Dense Passage Retrieval with LLM)构建的RAG问答系统,PARF方法构建的RAG问答系统的一致性指标F1和ROUGE-L(Recall-Oriented Understudy for Gisting Evaluation-L)在轨道交通问答数据集上分别提升19.8和41.5个百分点,在医药问答数据集上分别提升16.1和17.6个百分点,效果指标正确率分别提升10.2和8.8个百分点。展开更多
目的/意义构建双层分析框架,全面把握学科结构,识别新兴前沿领域,追踪主题演化。方法/过程检索2016—2025年PubMed、Scopus和Web of Science数据库医学信息学文献,采用BERTopic识别主题,并划分为新兴、稳定、衰退3种演化模式。基于Chrom...目的/意义构建双层分析框架,全面把握学科结构,识别新兴前沿领域,追踪主题演化。方法/过程检索2016—2025年PubMed、Scopus和Web of Science数据库医学信息学文献,采用BERTopic识别主题,并划分为新兴、稳定、衰退3种演化模式。基于ChromaDB构建检索增强生成系统,通过文档-主题映射实现微观验证与知识关联挖掘。结果/结论医学信息学主题演化呈现研究重心转移、技术融合深化、学科交叉增强3个特征。BERTopic-RAG框架为知识发现提供了新方法。展开更多
文摘本文基于大语言模型(Large Language Model,LLM)和检索增强生成(Retrieval-Augmented Generation,RAG)技术,为新闻客户端设计了一个知识问答(Q&A)系统。系统充分发挥大语言模型的自然语言理解与生成能力,结合提示词优化策略和基于检索与重新排序的RAG技术在外部知识检索方面的独特优势,通过对接最新新闻资讯数据,构建知识库体系,实现了对用户问题的精准解析与动态响应。实验结果表明,在处理时效性强、领域专业性高的新闻相关问答任务时,该系统有效提升了回答的准确性,显著降低了大模型的“幻觉”问题。这种方法可推广应用于更多领域的智能问答场景。
文摘现有的检索增强生成(RAG)问答系统在特定领域应用时,存在检索路径单一、用户潜在意图覆盖不足和召回文段质量低导致的系统回答准确性低与不全面的问题。因此,提出一种双阶段优化方法——预回答与召回过滤(PARF)。首先,通过结合领域知识图谱与提示工程技术,引导大语言模型(LLM)生成预回答,构建“原始查询→预回答→相关文段”的多向检索路径,从而扩展原始查询的语义空间;其次,利用BERT(Bidirectional Encoder Representations from Transformers)模型对召回文段进行相关性评分与过滤,实现检索与生成阶段的协同优化,提升有效信息的密度。实验结果表明,相较于基线方法DPR-LLM(Dense Passage Retrieval with LLM)构建的RAG问答系统,PARF方法构建的RAG问答系统的一致性指标F1和ROUGE-L(Recall-Oriented Understudy for Gisting Evaluation-L)在轨道交通问答数据集上分别提升19.8和41.5个百分点,在医药问答数据集上分别提升16.1和17.6个百分点,效果指标正确率分别提升10.2和8.8个百分点。
文摘目的/意义构建双层分析框架,全面把握学科结构,识别新兴前沿领域,追踪主题演化。方法/过程检索2016—2025年PubMed、Scopus和Web of Science数据库医学信息学文献,采用BERTopic识别主题,并划分为新兴、稳定、衰退3种演化模式。基于ChromaDB构建检索增强生成系统,通过文档-主题映射实现微观验证与知识关联挖掘。结果/结论医学信息学主题演化呈现研究重心转移、技术融合深化、学科交叉增强3个特征。BERTopic-RAG框架为知识发现提供了新方法。