[目的/意义]近年来,大语言模型(Large Language Models,LLMs)因其强大的自然语言处理能力而备受关注,为应急情报领域智能决策生成提供了新的技术选择。文章针对LLMs在应急情报领域中的应用潜力,提出并构建一套全面的测评基准,旨在科学...[目的/意义]近年来,大语言模型(Large Language Models,LLMs)因其强大的自然语言处理能力而备受关注,为应急情报领域智能决策生成提供了新的技术选择。文章针对LLMs在应急情报领域中的应用潜力,提出并构建一套全面的测评基准,旨在科学合理地评估LLMs的应急情报生成能力。[方法/过程]利用GPT-4.0自动化构建一个包含自然灾害、事故灾难、公共卫生事件和社会安全事件等26种应急场景的测评数据集,选取国内外8种具备中文处理能力的LLMs作为待评估模型,设置模型生成情报的内容质量、表达质量、可行程度和效用质量等多维度评价标准,采用人工评分与机器评分结合的方法对各模型展开测评。[结果/结论]研究结果表明,Claude 3.5 Sonnet在应急情报生成任务中表现最佳,尤其在处理复杂多变的自然灾害和事故灾难时,该模型生成的情报更为全面且具有高度实操性。国内模型如文心大模型4.0 Turbo和讯飞星火V4.0虽整体测评得分略低于国际顶尖模型,但在特定的应急场景中仍表现突出。相关部门可以根据具体的应急场景,选择相应的LLMs来辅助情报生成,以提高应急处置的精准度和效率。展开更多
基金本文系教育部人文社会科学重点研究基地重大项目(05JJD870159)、国家自然科学基金青年科学基金项目(70903047)、2007年度全美华裔图书馆员协会黄氏奖学金CALA’s HuangTso-ping&WuYao-yu Memorial Grantand Scholarships和国家留学基金管理委员会国家建设高水平大学公派研究生项目(2007)的研究成果之一.