-
题名大语言模型综述与展望
被引量:32
- 1
-
-
作者
秦小林
古徐
李弟诚
徐海文
-
机构
中国科学院成都计算机应用研究所
中国科学院大学计算机科学与技术学院
中国民用航空飞行学院理学院
-
出处
《计算机应用》
北大核心
2025年第3期685-696,共12页
-
基金
国家重点研发计划项目(2023YFB3308601)
四川省科技计划项目(2024NSFJQ0035,2024NSFSC0004)
四川省委组织部人才专项。
-
文摘
大语言模型(LLM)是由具有大量参数(通常数十亿个权重或更多)的人工神经网络组成的一类语言模型,使用自监督学习或半监督学习对大量未标记文本进行训练,是当前生成式人工智能(AI)技术的核心。与传统语言模型相比,LLM通过大量的算力、参数和数据支持,展现出更强的语言理解与生成能力,广泛应用于机器翻译、问答系统、对话生成等众多任务中并表现卓越。现有的综述大多侧重于LLM的理论架构与训练方法,对LLM的产业级应用实践及技术生态演进的系统性探讨仍显不足。因此,在介绍LLM的基础架构、训练技术及发展历程的基础上,分析当前通用的LLM关键技术和以LLM为底座的先进融合技术。通过归纳总结现有研究,进一步阐述LLM在实际应用中面临的挑战,包括数据偏差、模型幻觉和计算资源消耗等问题,并对LLM的持续发展趋势进行展望。
-
关键词
大语言模型
智能体
自然语言处理
检索增强生成
模型幻觉
-
Keywords
Large Language Model(LLM)
Agent
Natural Language Processing(NLP)
Retrieval-Augmented Generation(RAG)
model hallucination
-
分类号
TP182
[自动化与计算机技术—控制理论与控制工程]
-