大语言模型地质学知识测评与数据集构建被引量：2

Geological knowledge evaluation and dataset construction of the large language model

下载PDF

导出

摘要为评估大语言模型的多方面能力,相关学者已提出众多的测试数据集。这些数据集尽管涉及数十个学科的测试数据,但缺乏地质学领域数据,无法对大模型的地质学知识能力进行评估。本文以公开发布的高等院校地质学相关专业考试题为数据来源,构建了涵盖地质学领域8个学科、1007个单项选择题的测试数据集Geo-Eval。基于该数据集对6个国产大语言模型进行了测评。测试结果表明,这些大模型的平均准确率为46.4%~65.4%,其地质学知识水平距离良好甚至专家级别还有较大差距;它们在地质学知识准确度要求较高的应用场景中表现不够理想,但其知识广度是相较人类领域专家的优势。此外,千亿级以上参数大模型的表现好于十亿级参数大模型的表现。本文通过构建Geo-Eval数据集,重点解决了地质学测试数据集缺少的问题,实现了大语言模型地质学知识能力的量化评估。 In order to evaluate the various capabilities of large language models,numerous evaluation datasets have been proposed.Although these datasets involve test data from dozens of disciplines,there is a shortage of data in the field of geology,making it impossible to evaluate the geological knowledge and capabilities of large models.Using publicly released exam questions related to geology in higher education institutions as the data source,the evaluation dataset Geo-Eval has been created,which covers 8 disciplines of geology and contains 1007 single-choice questions.Based on this dataset,six domestic large language models have been evaluated.The test results show that the average accuracy of these large models ranges from 46.4%to 65.4%,and their geological knowledge level is far from the expert level.Their performance in application scenarios with high requirements for geological knowledge accuracy is not ideal,but their knowledge breadth is their advantage compared to human experts.In addition,large models with parameter of over 100 billion perform better than large models with parameter of over 1 billion.By creating the Geo-Eval dataset,the problem of lacking a geological evaluation dataset has been solved,and a quantitative evaluation of the geological knowledge ability of the large language model has been achieved.

作者柳顺政柴新夏周峰王春宁 LIU Shunzheng;CHAI Xinxia;ZHOU Feng;WANG Chunning(National Geological Library of China,Beijing 100083,China)

机构地区 vip

出处《自然资源信息化》 2025年第4期49-55,共7页 Natural Resources Informatization

关键词大语言模型测试数据集地质学人工智能 large language model evaluation dataset geology artificial intelligence

分类号 P628 [天文地球—地质矿产勘探]

引文网络
相关文献

参考文献2

1任辉.对新一轮找矿突破战略行动相关问题的进一步研究[J].中国煤炭地质,2022,34(11):1-8. 被引量：12
2张华平,李林翰,李春锦.ChatGPT中文性能测评与风险应对[J].数据分析与知识发现,2023,7(3):16-25. 被引量：173

二级参考文献7

1张福良,薛迎喜,马骋,顾安琪.绿色勘查--新时代地质找矿新模式[J].中国国土资源经济,2018,31(8):11-15. 被引量：51
2刘定勇.关于地勘单位改革发展的思考[J].中国国土资源经济,2017,30(5):11-14. 被引量：14
3于晓飞,龙宝林,赵立群,公凡影,吕鑫,王春女,张家瑞.新中国矿产勘查进展与未来重点勘查方向[J].国土资源情报,2019(12):21-31. 被引量：10
4刘立.我国能源供应体系建设的思考[J].国土资源情报,2019(12):58-63. 被引量：8
5陈甲斌,刘超,冯丹丹,苏轶娜,霍文敏.矿产资源安全需要关注的六个风险问题[J].中国国土资源经济,2022,35(1):15-21. 被引量：40
6任辉,白维灿,刘瑞国.矿业权制度对地质地勘单位发展影响[J].中国煤炭地质,2022,34(1):1-6. 被引量：3
7干勇,彭苏萍,毛景文,裴荣富,李仲平,屠海令,孙传尧,陈其慎,谢曼,郑文江.我国关键矿产及其材料产业供应链高质量发展战略研究[J].中国工程科学,2022,24(3):1-9. 被引量：61

共引文献183

1支振锋.生成式人工智能大模型的信息内容治理[J].政法论坛,2023,41(4):34-48. 被引量：237
2周立炜,饶高琦.大语言模型中文语体能力评测研究[J].语言文字应用,2024(1):69-82. 被引量：12
3安子栋,敬卿,郝志超,余奕.基于生成式AI技术的图书馆文献资源管理创新策略[J].图书馆工作与研究,2023(S01):9-16. 被引量：39
4兰立山.处理好生成式人工智能的意识形态风险[J].科学·经济·社会,2024,42(2):47-53. 被引量：4
5王禄生.从进化到革命:ChatGPT类技术影响下的法律行业[J].东方法学,2023(4):56-67. 被引量：35
6方海光,王显闯.ChatGPT等人工智能技术助力基础教育拔尖创新人才培养[J].北京教育（普教版）,2023(6):18-22. 被引量：2
7饶高琦,胡星雨,易子琳.语言资源视角下的大规模语言模型治理[J].语言战略研究,2023,8(4):19-29. 被引量：27
8陈智,陈昊.可供性视角下ChatGPT的赋能效用及其风险透视[J].情报杂志,2023,42(7):131-139. 被引量：29
9陈一鸣,刘健,从承志,李洋,韩琦,张先恒,胡月迪.强直性脊柱炎患者与Chat GPT的对话实验:患者教育的新方式[J].风湿病与关节炎,2023,12(7):37-43. 被引量：8
10顾男飞,方舟之.ChatGPT等生成式人工智能使用作品的合理边界与侵权规制[J].数字图书馆论坛,2023,19(7):1-8. 被引量：24

同被引文献20

1蒋秉川,万刚,许剑,李锋,温荟琦.多源异构数据的大规模地理知识图谱构建[J].测绘学报,2018,47(8):1051-1061. 被引量：111
2高伟波,李仲琴,张涵瑾.数字化转型背景下地质资料数据中心信息安全体系建设[J].网络安全和信息化,2022(9):117-122. 被引量：7
3问鸿滨,赵名君.国家安全学学科建设:历程、问题与对策[J].情报杂志,2022,41(11):82-88. 被引量：14
4李白杨,白云,詹希旎,李纲.人工智能生成内容(AIGC)的技术特征与形态演进[J].图书情报知识,2023,40(1):66-74. 被引量：599
5张华平,李林翰,李春锦.ChatGPT中文性能测评与风险应对[J].数据分析与知识发现,2023,7(3):16-25. 被引量：173
6邱芹军,王斌,徐德馨,马凯,谢忠,潘声勇,陶留锋.地质领域文本实体关系联合抽取方法[J].高校地质学报,2023,29(3):419-428. 被引量：10
7丁志坤,李金泽,刘明辉.基于大语言模型的BIM正向设计问答系统研究[J].土木工程与管理学报,2024,41(1):1-7. 被引量：11
8陈成鑫.国家安全学学科建设的目标与路径研究——基于26所高校的分析[J].北京警察学院学报,2024(3):112-118. 被引量：5
9常立新,廉永彪,廉永海.论人工智能背景下地质资料服务模式转型[J].自然资源信息化,2024(2):23-28. 被引量：3
10唐明伟,陈宙,丁晗萱,朱翼,顾明辉,陈羽.大语言模型中文问答正确性对比实验研究——以ChatGPT 3.5、Claude 1.0和文心一言2.1为例[J].情报探索,2024(7):71-78. 被引量：9

引证文献2

1耿鹏志,王优雅,李白杨,冯文刚.基于多维度测评的国家安全学领域大语言模型能力研究[J].中国人民公安大学学报(自然科学版),2025,31(4):76-86.
2沈碧哲,李大乐.基于RAG框架的地质智能信息处理系统研究[J].水利技术监督,2026(2):30-34.

1陈湉.新文科背景下民办高校管理类专业实验教学体系建设[J].太原城市职业技术学院学报,2025(6):125-127.
2葛淘沙.课程思政背景下石油化工类高校项目化教学创新研究——以管理类课程为例[J].内蒙古石油化工,2025,51(5):67-70.
3黎冀湘.高中利用第二课堂开展党史教育的四个维度[J].现代教学,2025(15):73-79.
4黄成亮.应用型本科院校劳动教育提质增效的思路与举措[J].科技风,2025(20):157-159. 被引量：1
5阮智,陈磊,马辉.PBL联合微视频法在脊柱外科临床教学中的应用效果[J].延边大学医学学报,2025,48(7):134-137.

自然资源信息化

2025年第4期

浏览历史

内容加载中请稍等...

大语言模型地质学知识测评与数据集构建被引量：2

参考文献2

二级参考文献7

共引文献183

同被引文献20

引证文献2

相关作者

相关机构

相关主题

浏览历史

大语言模型地质学知识测评与数据集构建 被引量：2

参考文献2

二级参考文献7

共引文献183

同被引文献20

引证文献2

相关作者

相关机构

相关主题

浏览历史

大语言模型地质学知识测评与数据集构建被引量：2