针对国产大语言模型(large language models,LLMs)在地理信息科学(geographic information science,GIS)领域缺乏系统性评估基准问题,构建Geo-Text-700测试集的GIS领域定制化测评体系,基于优劣解距离层次分析法(technique for order pre...针对国产大语言模型(large language models,LLMs)在地理信息科学(geographic information science,GIS)领域缺乏系统性评估基准问题,构建Geo-Text-700测试集的GIS领域定制化测评体系,基于优劣解距离层次分析法(technique for order preference by similarity to ideal solution,TOPSIS)对10个主流国产模型进行多维度评估。测评结果显示:模型表现呈现显著题型分化,客观题平均得分为68.4(标准差±5.2),较主观题低21.7%(P<0.05);Doubao-pro-32k综合得分最优(87.3),客观题优势显著(单选86,填空77);hunyuan-turbo在主观题(简答88.1,编程90.83)方面展现高阶任务潜力;领域知识盲区突出,如GIS拓扑规则题错误率为43.6%。展开更多
文摘针对国产大语言模型(large language models,LLMs)在地理信息科学(geographic information science,GIS)领域缺乏系统性评估基准问题,构建Geo-Text-700测试集的GIS领域定制化测评体系,基于优劣解距离层次分析法(technique for order preference by similarity to ideal solution,TOPSIS)对10个主流国产模型进行多维度评估。测评结果显示:模型表现呈现显著题型分化,客观题平均得分为68.4(标准差±5.2),较主观题低21.7%(P<0.05);Doubao-pro-32k综合得分最优(87.3),客观题优势显著(单选86,填空77);hunyuan-turbo在主观题(简答88.1,编程90.83)方面展现高阶任务潜力;领域知识盲区突出,如GIS拓扑规则题错误率为43.6%。