面对跨学科科学文献的指数级增长与现有检索系统的局限性,本研究基于arXiv平台266万篇论文数据集,创新开发了融合向量语义检索与大型语言模型(Large Language Model,LLM)分析的智能系统。通过构建论文向量数据库实现语义相似性初筛,结合...面对跨学科科学文献的指数级增长与现有检索系统的局限性,本研究基于arXiv平台266万篇论文数据集,创新开发了融合向量语义检索与大型语言模型(Large Language Model,LLM)分析的智能系统。通过构建论文向量数据库实现语义相似性初筛,结合LLM上下文推理优化排序,有效解决了传统关键词搜索的语义鸿沟问题以及LLM的幻觉问题。在核物理领域的应用表明,该系统能精准定位跨学科解决方案,对比特定任务上的关键词检索和向量相似度检索,前10篇文献的查全率从10%跃升到60%,查准率从20%跃升到90%。项目开源提供三大核心模块:1)全量论文向量数据库;2)智能检索优化框架(含查询生成、相关性分析等智能体);3)PDF深度解析工具链。本研究突破性地将语义检索与LLM推理相结合,为应对知识爆炸时代的科研挑战提供了可扩展的解决方案(开源地址:https://gitee.com/lgpang/arxiv_vectordb)。展开更多
本文以Web of Science数据库中收录的6种图书情报学期刊和5种机器人出版物中发表的arXiv自存档论文为研究对象,利用文献计量学方法从论文数量变化、发表时滞、引用优势和引用趋势4个方面对发表在同一本出版物中的arXiv论文和非arXiv论...本文以Web of Science数据库中收录的6种图书情报学期刊和5种机器人出版物中发表的arXiv自存档论文为研究对象,利用文献计量学方法从论文数量变化、发表时滞、引用优势和引用趋势4个方面对发表在同一本出版物中的arXiv论文和非arXiv论文进行对比,多视角地分析了arXiv自存档论文的学术影响力。研究结果表明:①arXiv论文发表数量逐年增多;②多数作者倾向于将论文提交在arXiv平台上的时间是在论文正式发表的前后两年之内;③同一本出版物中arXiv论文相比于非arXiv论文具有明显的引用优势;④论文提交到arXiv平台后的引用增长速度显著提高。展开更多
对2008-2011年发表于Frontiers of Physics期刊上的161篇论文进行数据分析,发现13.66%的论文进行了arXiv自存档,自存档论文被引用的比率是非自存档论文的2.24倍,篇均被引频次是非自存档论文的6.06倍,高被引优势为400%,在出版者网站上其...对2008-2011年发表于Frontiers of Physics期刊上的161篇论文进行数据分析,发现13.66%的论文进行了arXiv自存档,自存档论文被引用的比率是非自存档论文的2.24倍,篇均被引频次是非自存档论文的6.06倍,高被引优势为400%,在出版者网站上其篇均下载次数比非自存档论文高约11%。建议国内物理学期刊出版者加强网站建设,在获得作者授权情况下代替作者完成arXiv自存档以及利用arXiv辅助约稿,充分利用arXiv平台提升期刊引用水平。展开更多
文摘面对跨学科科学文献的指数级增长与现有检索系统的局限性,本研究基于arXiv平台266万篇论文数据集,创新开发了融合向量语义检索与大型语言模型(Large Language Model,LLM)分析的智能系统。通过构建论文向量数据库实现语义相似性初筛,结合LLM上下文推理优化排序,有效解决了传统关键词搜索的语义鸿沟问题以及LLM的幻觉问题。在核物理领域的应用表明,该系统能精准定位跨学科解决方案,对比特定任务上的关键词检索和向量相似度检索,前10篇文献的查全率从10%跃升到60%,查准率从20%跃升到90%。项目开源提供三大核心模块:1)全量论文向量数据库;2)智能检索优化框架(含查询生成、相关性分析等智能体);3)PDF深度解析工具链。本研究突破性地将语义检索与LLM推理相结合,为应对知识爆炸时代的科研挑战提供了可扩展的解决方案(开源地址:https://gitee.com/lgpang/arxiv_vectordb)。
文摘本文以Web of Science数据库中收录的6种图书情报学期刊和5种机器人出版物中发表的arXiv自存档论文为研究对象,利用文献计量学方法从论文数量变化、发表时滞、引用优势和引用趋势4个方面对发表在同一本出版物中的arXiv论文和非arXiv论文进行对比,多视角地分析了arXiv自存档论文的学术影响力。研究结果表明:①arXiv论文发表数量逐年增多;②多数作者倾向于将论文提交在arXiv平台上的时间是在论文正式发表的前后两年之内;③同一本出版物中arXiv论文相比于非arXiv论文具有明显的引用优势;④论文提交到arXiv平台后的引用增长速度显著提高。
文摘对2008-2011年发表于Frontiers of Physics期刊上的161篇论文进行数据分析,发现13.66%的论文进行了arXiv自存档,自存档论文被引用的比率是非自存档论文的2.24倍,篇均被引频次是非自存档论文的6.06倍,高被引优势为400%,在出版者网站上其篇均下载次数比非自存档论文高约11%。建议国内物理学期刊出版者加强网站建设,在获得作者授权情况下代替作者完成arXiv自存档以及利用arXiv辅助约稿,充分利用arXiv平台提升期刊引用水平。