本文基于大语言模型(Large Language Model,LLM)和检索增强生成(Retrieval-Augmented Generation,RAG)技术,为新闻客户端设计了一个知识问答(Q&A)系统。系统充分发挥大语言模型的自然语言理解与生成能力,结合提示词优化策略和基于...本文基于大语言模型(Large Language Model,LLM)和检索增强生成(Retrieval-Augmented Generation,RAG)技术,为新闻客户端设计了一个知识问答(Q&A)系统。系统充分发挥大语言模型的自然语言理解与生成能力,结合提示词优化策略和基于检索与重新排序的RAG技术在外部知识检索方面的独特优势,通过对接最新新闻资讯数据,构建知识库体系,实现了对用户问题的精准解析与动态响应。实验结果表明,在处理时效性强、领域专业性高的新闻相关问答任务时,该系统有效提升了回答的准确性,显著降低了大模型的“幻觉”问题。这种方法可推广应用于更多领域的智能问答场景。展开更多
目的/意义构建双层分析框架,全面把握学科结构,识别新兴前沿领域,追踪主题演化。方法/过程检索2016—2025年PubMed、Scopus和Web of Science数据库医学信息学文献,采用BERTopic识别主题,并划分为新兴、稳定、衰退3种演化模式。基于Chrom...目的/意义构建双层分析框架,全面把握学科结构,识别新兴前沿领域,追踪主题演化。方法/过程检索2016—2025年PubMed、Scopus和Web of Science数据库医学信息学文献,采用BERTopic识别主题,并划分为新兴、稳定、衰退3种演化模式。基于ChromaDB构建检索增强生成系统,通过文档-主题映射实现微观验证与知识关联挖掘。结果/结论医学信息学主题演化呈现研究重心转移、技术融合深化、学科交叉增强3个特征。BERTopic-RAG框架为知识发现提供了新方法。展开更多
自然语言转换结构化查询语言(NL2SQL)能降低非专业人员操作数据库的技术门槛,从而提升用户体验和工作效率。此外,检索增强生成(RAG)技术可以通过引入外部知识库提升NL2SQL的性能。针对目前RAG在NL2SQL应用中存在的检索策略漏检率高和召...自然语言转换结构化查询语言(NL2SQL)能降低非专业人员操作数据库的技术门槛,从而提升用户体验和工作效率。此外,检索增强生成(RAG)技术可以通过引入外部知识库提升NL2SQL的性能。针对目前RAG在NL2SQL应用中存在的检索策略漏检率高和召回上下文的相关性不强等问题,提出一种分序检索重排序RAG(RAG-SRR)方法优化知识库构建、检索召回策略和提示词设计等环节。首先,从问答对、专业名词和数据库结构这3个方面进行领域知识库的构建:问答对根据文物艺术品拍卖监管的高频处理和查询的问题构建,专业名词根据拍卖行业标准构建,而数据库结构根据雅昌艺术拍卖网的数据构建;其次,在检索阶段采取分序检索的策略,并对3类知识库设置不同的优先级,且在召回阶段重排序检索的信息;最后,在提示词设计中给出提示词优化设计的原则及提示词模板。实验结果表明:在领域数据集、Spider数据集上,RAG-SRR方法与基于BERT(Bidirectional Encoder Representations from Transformers)模型和RESDSQL(Ranking-enhanced Encoding plus a Skeleton-aware Decoding framework for text-to-SQL)模型的方法的执行准确率分别至少提高了19.50、24.20和12.17、8.90个百分点。而在相同大语言模型下,RAG-SRR方法比未优化的RAG方法的执行准确率分别至少提高了12.83和15.60个百分点,与C3SQL方法相比,执行准确率分别至少提高了1.50和3.10个百分点。在使用Llama3.1-8B时,与DIN-SQL方法相比,执行准确率在中文语料数据集中提升0.30个百分点,在英文语料数据集中最多相差3.90个百分点;但在使用Qwen2.5-7B时,执行准确率分别提高1.60和4.10个百分点。可见,RAG-SRR方法具备较强的实用性和可移植性。展开更多
文摘本文基于大语言模型(Large Language Model,LLM)和检索增强生成(Retrieval-Augmented Generation,RAG)技术,为新闻客户端设计了一个知识问答(Q&A)系统。系统充分发挥大语言模型的自然语言理解与生成能力,结合提示词优化策略和基于检索与重新排序的RAG技术在外部知识检索方面的独特优势,通过对接最新新闻资讯数据,构建知识库体系,实现了对用户问题的精准解析与动态响应。实验结果表明,在处理时效性强、领域专业性高的新闻相关问答任务时,该系统有效提升了回答的准确性,显著降低了大模型的“幻觉”问题。这种方法可推广应用于更多领域的智能问答场景。
文摘目的/意义构建双层分析框架,全面把握学科结构,识别新兴前沿领域,追踪主题演化。方法/过程检索2016—2025年PubMed、Scopus和Web of Science数据库医学信息学文献,采用BERTopic识别主题,并划分为新兴、稳定、衰退3种演化模式。基于ChromaDB构建检索增强生成系统,通过文档-主题映射实现微观验证与知识关联挖掘。结果/结论医学信息学主题演化呈现研究重心转移、技术融合深化、学科交叉增强3个特征。BERTopic-RAG框架为知识发现提供了新方法。
文摘自然语言转换结构化查询语言(NL2SQL)能降低非专业人员操作数据库的技术门槛,从而提升用户体验和工作效率。此外,检索增强生成(RAG)技术可以通过引入外部知识库提升NL2SQL的性能。针对目前RAG在NL2SQL应用中存在的检索策略漏检率高和召回上下文的相关性不强等问题,提出一种分序检索重排序RAG(RAG-SRR)方法优化知识库构建、检索召回策略和提示词设计等环节。首先,从问答对、专业名词和数据库结构这3个方面进行领域知识库的构建:问答对根据文物艺术品拍卖监管的高频处理和查询的问题构建,专业名词根据拍卖行业标准构建,而数据库结构根据雅昌艺术拍卖网的数据构建;其次,在检索阶段采取分序检索的策略,并对3类知识库设置不同的优先级,且在召回阶段重排序检索的信息;最后,在提示词设计中给出提示词优化设计的原则及提示词模板。实验结果表明:在领域数据集、Spider数据集上,RAG-SRR方法与基于BERT(Bidirectional Encoder Representations from Transformers)模型和RESDSQL(Ranking-enhanced Encoding plus a Skeleton-aware Decoding framework for text-to-SQL)模型的方法的执行准确率分别至少提高了19.50、24.20和12.17、8.90个百分点。而在相同大语言模型下,RAG-SRR方法比未优化的RAG方法的执行准确率分别至少提高了12.83和15.60个百分点,与C3SQL方法相比,执行准确率分别至少提高了1.50和3.10个百分点。在使用Llama3.1-8B时,与DIN-SQL方法相比,执行准确率在中文语料数据集中提升0.30个百分点,在英文语料数据集中最多相差3.90个百分点;但在使用Qwen2.5-7B时,执行准确率分别提高1.60和4.10个百分点。可见,RAG-SRR方法具备较强的实用性和可移植性。