【目的】解决大型语言模型(Large language model,LLM)在农业领域命名实体识别(Named entityrecognition,NER)任务中的幻觉、上下文逻辑不一致以及无法在低资源设备上运行的问题。【方法】使用参数为671×10^(9)(671B)的DeepSeek-R1...【目的】解决大型语言模型(Large language model,LLM)在农业领域命名实体识别(Named entityrecognition,NER)任务中的幻觉、上下文逻辑不一致以及无法在低资源设备上运行的问题。【方法】使用参数为671×10^(9)(671B)的DeepSeek-R1,即DeepSeek-R1-671B作为教师模型,将其领域知识迁移至参数量更小的学生模型,学生模型选取DeepSeek、Qwen和Llama的1.5×10^(9)(1.5B)、7×10^(9)(7B)和14×10^(9)(14B)低参数版本蒸馏并进行反事实推理训练,模型效果在农业病害专用数据集CropDiseaseNer上进行试验验证。【结果】对比一系列蒸馏后学生模型的性能表现,结果表明DeepSeek-14B实体识别F1达89.60%,且参数量仅为教师模型的2.08%。其性能相较于通用大模型GPT-mini-14B(F1为57.64%)和通用LLM的领域适配模型GLiNER(F1为82.96%)有较大提升。进一步分析表明,同源架构的DeepSeek学生模型因参数对齐性优势,在病害实体、病原菌属名等长尾类别识别任务中显著优于异源架构模型。【结论】本研究验证了知识蒸馏在农业领域NER任务中的有效性,为资源受限场景下的实体识别技术提供了新的解决方案。展开更多
文摘【目的】解决大型语言模型(Large language model,LLM)在农业领域命名实体识别(Named entityrecognition,NER)任务中的幻觉、上下文逻辑不一致以及无法在低资源设备上运行的问题。【方法】使用参数为671×10^(9)(671B)的DeepSeek-R1,即DeepSeek-R1-671B作为教师模型,将其领域知识迁移至参数量更小的学生模型,学生模型选取DeepSeek、Qwen和Llama的1.5×10^(9)(1.5B)、7×10^(9)(7B)和14×10^(9)(14B)低参数版本蒸馏并进行反事实推理训练,模型效果在农业病害专用数据集CropDiseaseNer上进行试验验证。【结果】对比一系列蒸馏后学生模型的性能表现,结果表明DeepSeek-14B实体识别F1达89.60%,且参数量仅为教师模型的2.08%。其性能相较于通用大模型GPT-mini-14B(F1为57.64%)和通用LLM的领域适配模型GLiNER(F1为82.96%)有较大提升。进一步分析表明,同源架构的DeepSeek学生模型因参数对齐性优势,在病害实体、病原菌属名等长尾类别识别任务中显著优于异源架构模型。【结论】本研究验证了知识蒸馏在农业领域NER任务中的有效性,为资源受限场景下的实体识别技术提供了新的解决方案。