-
题名基于LLM的私有数据库的NL2SQL研究
- 1
-
-
作者
李洪海
郭利荣
李金漳
-
机构
中数通信息有限公司
-
出处
《智能计算机与应用》
2025年第6期171-177,共7页
-
文摘
从2020年6月开始,GPT-3的发布,标志着人工智能领域发展进入新阶段。在代码生成领域基于开源的通用模型通过fine-tune、Lora等方法微调通用模型生成了诸如:StarCode系列,CodeFuse系列模型。在NL2SQL领域,人们还在使用较为传统的编码器-上下文增强层-输出层架构,由于模型尺寸和架构,传统NL2SQL存在着语义表征能力弱、生成SQL范式受限、不具有强大的泛化能力的不足,很难在工业化应用上有所斩获,因此本文研发团队提出了面向垂直领域基于LLM生成的NL2SQL任务范式,通过通用大模型+代码大模型+筛选器模型的理念构建,在标准中文数据集Cspider上汇报了500条混合SQL的0.187 7的精准匹配率,0.354 6结构准确率。300条单表SQL报告了0.67的结构准确率,0.27的精准匹配率。
-
关键词
LLM
NL2SQL
cspider
私有数据库
-
Keywords
LLM
NL2SQL
cspider
private databases
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-