期刊文献+
共找到28篇文章
< 1 2 >
每页显示 20 50 100
Hint-SQL:基于自动线索生成的Text-to-SQL提示方法
1
作者 谭钊 刘喜平 +4 位作者 舒晴 万齐智 刘德喜 万常选 廖国琼 《计算机学报》 北大核心 2026年第3期700-720,共21页
Text-to-SQL旨在将自然语言问题翻译为可被数据库系统执行的SQL语句,从而为数据查询提供便利。随着大语言模型(LLMs)技术的发展,基于LLMs的Text-to-SQL提示方法成为该领域的主流解决方案。近年来,研究者在LLMs的提示词中加入线索(Hint)... Text-to-SQL旨在将自然语言问题翻译为可被数据库系统执行的SQL语句,从而为数据查询提供便利。随着大语言模型(LLMs)技术的发展,基于LLMs的Text-to-SQL提示方法成为该领域的主流解决方案。近年来,研究者在LLMs的提示词中加入线索(Hint)来传递具体的Text-to-SQL建议,以引导LLMs生成SQL。然而,现有线索多由研究者根据Text-to-SQL任务的特点人为撰写,其内容过于宽泛,难以根据具体的任务需求做出调整,无法适配所有Text-to-SQL任务。本文提出基于自动线索生成的Text-to-SQL提示方法Hint-SQL,它能够根据当前Text-to-SQL任务自动地生成合适的语义、操作和结构线索,从而引导LLMs生成语义一致、结构正确的SQL。为了生成任务定制化线索,我们构建了线索生成智能体(HAgent)。HAgent基于两阶段微调框架,由开源LLMs微调而来,该框架自动合成微调所需数据,无需人工标注,为监督微调和偏好学习优化提供支持。HintSQL既可以单独使用,也可以用来增强现有方法。大规模实验结果显示,HintSQL独立使用时可以媲美主流方法,也可以显著增强现有方法性能,在BIRD数据集上,HintSQL将当前最好方法的准确率提升到了71.58%,提升幅度达到4.37%。本研究揭示了线索在Text-to-SQL任务中的重要作用,为Text-to-SQL的后续研究提供了参考。 展开更多
关键词 自然语言处理 text-to-sql 大语言模型 提示工程 线索
在线阅读 下载PDF
面向研究生招生咨询的中文Text-to-SQL模型 被引量:1
2
作者 王庆丰 李旭 +1 位作者 姚春龙 程腾腾 《计算机工程》 北大核心 2025年第3期362-368,共7页
研究生招生咨询是一种具有代表性的短时间高频次问答应用场景。针对现有基于词向量等方法的招生问答系统返回答案不够精确,以及每年需要更新问题库的问题,引入了基于文本转结构化查询语言(Text-to-SQL)技术的RESDSQL模型,可将自然语言... 研究生招生咨询是一种具有代表性的短时间高频次问答应用场景。针对现有基于词向量等方法的招生问答系统返回答案不够精确,以及每年需要更新问题库的问题,引入了基于文本转结构化查询语言(Text-to-SQL)技术的RESDSQL模型,可将自然语言问题转化为SQL语句后到结构化数据库中查询答案并返回。搜集了研究生招生场景中的高频咨询问题,根据3所高校真实招生数据,构建问题与SQL语句模板,通过填充模板的方式构建数据集,共有训练集1501条、测试集386条。将RESDSQL的RoBERTa模型替换为具有更强多语言生成能力的XLM-RoBERTa模型、T5模型替换为mT5模型,并在目标领域数据集上进行微调,在招生领域问题上取得了较高的准确率,在mT5-large模型上执行正确率为0.95,精确匹配率为1。与基于ChatGPT3.5模型、使用零样本提示的C3SQL方法对比,该模型性能与成本均更优。 展开更多
关键词 中文文本转结构化查询语言 自然语言查询 中文SQL语句生成 预训练模型 text-to-sql数据集
在线阅读 下载PDF
基于检索增强Text-to-SQL生成的书目搜索对话问答系统研究
3
作者 王震宇 朱学芳 +2 位作者 张君冬 杨睿 刘崧印 《数据分析与知识发现》 北大核心 2025年第11期165-174,共10页
【目的】针对书目搜索场景中自然语言查询难以准确映射为结构化数据库查询的问题,本文构建对话式问答系统并提出改进方法。【方法】该系统采用模型上下文协议实现大语言模型与外部数据库的无缝集成。在此基础上,针对示例驱动的Text-to-... 【目的】针对书目搜索场景中自然语言查询难以准确映射为结构化数据库查询的问题,本文构建对话式问答系统并提出改进方法。【方法】该系统采用模型上下文协议实现大语言模型与外部数据库的无缝集成。在此基础上,针对示例驱动的Text-to-SQL生成易受噪声与领域差异影响的问题,设计了一种基于对比学习的示例选择策略,通过微调文本嵌入模型,使其更关注查询的句法结构与检索意图,从而提升相似度排序质量。实验基于构建的书目搜索语义解析数据集进行,在零样本与少样本条件下对系统性能进行对比验证。【结果】相较于零样本设置,采用本文方法的DeepSeek-V3模型在5-Shot场景下的SQL执行准确率提高了18.5个百分点,验证了该示例选择策略在专业领域Text-to-SQL任务中的有效性。【局限】由于实验数据集覆盖范围有限,系统对跨领域查询的适应性仍需进一步增强。【结论】研究证明了大语言模型结合对比学习示例选择策略在书目智能搜索场景中的有效性,可为其他垂直领域对话问答系统的构建与优化提供参考。 展开更多
关键词 书目搜索 检索增强生成 text-to-sql 对话问答系统 模型上下文协议
原文传递
一种基于RAG的离线中文Text-to-SQL技术
4
作者 周学文 江荣 +1 位作者 许超俊 秦基尧 《网络安全与数据治理》 2025年第S1期55-59,共5页
在现代数据驱动的决策过程中,数据的重要性不言而喻。有效的数据管理和分析不仅能提升业务效率,还能为策略制定提供科学依据。在众多数据处理领域,自然语言处理与结构化查询语言之间的转换显得尤为重要。针对离线环境下,大语言模型无法... 在现代数据驱动的决策过程中,数据的重要性不言而喻。有效的数据管理和分析不仅能提升业务效率,还能为策略制定提供科学依据。在众多数据处理领域,自然语言处理与结构化查询语言之间的转换显得尤为重要。针对离线环境下,大语言模型无法自动完成模型的更新迭代,这在一定程度上限制了提供精确和详细信息的能力的问题,提出一种基于RAG的离线中文Text-to-SQL技术。首先,根据用户输入自然语言查询请求,通过RAG技术对请求解析,生成结构化信息;其次,根据解析后的信息检索相关的数据库表和字段;最后,通过大语言模型生成精确的SQL查询语句。这一技术的应用,不仅能帮助非专业用户更容易地访问和分析数据,还能够有效提高模型语义理解能力和生成SQL精度,同时防止数据泄露。因此,研究和开发高效的自然语言到SQL的离线处理方法,将对数据分析的普及和应用产生深远的影响。 展开更多
关键词 text-to-sql 离线环境 RAG 自然语言处理 大语言模型
在线阅读 下载PDF
大语言模型时代Text-to-SQL更准确的评估指标 被引量:1
5
作者 蒋鹏 《电脑知识与技术》 2025年第1期76-78,88,共4页
大型语言模型(LLM)已成为推进Text-to-SQL任务的强大工具。研究发现,基于LLM的模型在不同评估指标下,其性能表现与经过微调的模型存在显著差异。因此,文章分析了测试套件执行准确度(EXE)和精确集匹配准确度(ESM)在评估基于LLM的Text-to-... 大型语言模型(LLM)已成为推进Text-to-SQL任务的强大工具。研究发现,基于LLM的模型在不同评估指标下,其性能表现与经过微调的模型存在显著差异。因此,文章分析了测试套件执行准确度(EXE)和精确集匹配准确度(ESM)在评估基于LLM的Text-to-SQL模型时的不足,并提出了改进指标EESM(Enhanced Exact Set Matching)。实验结果表明,EXE和ESM分别存在高达13.2%和10.8%的假阳性和假阴性率,而EESM的假阳性率和假阴性率分别仅为0.2%和1.8%,表明EESM能够提供更准确的评估。 展开更多
关键词 EESM 增强的精确集匹配准确度 测试套件执行准确度 精确集匹配准确度 text-to-sql
在线阅读 下载PDF
基于知识库的Text-to-SQL准确性提升研究
6
作者 杨梅 王航 拜睿杰 《电脑知识与技术》 2025年第32期85-88,共4页
针对自然语言文本到结构化查询语言转换(Text-to-SQL)在人工智能与大模型飞速发展的背景下取得显著进展,但在领域术语和复杂查询中SQL生成准确性仍有不足的问题,本研究提出一种基于知识库与嵌入模型微调的Text-toSQL改进方法。该方法聚... 针对自然语言文本到结构化查询语言转换(Text-to-SQL)在人工智能与大模型飞速发展的背景下取得显著进展,但在领域术语和复杂查询中SQL生成准确性仍有不足的问题,本研究提出一种基于知识库与嵌入模型微调的Text-toSQL改进方法。该方法聚焦于提升特定领域的泛化能力与知识检索效能,通过构建专有领域知识库,为大模型提供丰富且精准的领域知识支撑,同时对嵌入模型实施针对性微调,以优化知识检索过程中的特征表示与匹配效果。实验表明,该方法能够有效提升SQL生成的准确性,并减少领域术语查询和复杂语句生成时的错误率。 展开更多
关键词 text-to-sql 知识库 嵌入模型 SQL生成 自然语言处理
在线阅读 下载PDF
面向工业生产的中文Text-to-SQL模型 被引量:3
7
作者 吕剑清 王先兵 +2 位作者 陈刚 张华 王明刚 《计算机应用》 CSCD 北大核心 2022年第10期2996-3002,共7页
英文自然语言查询转SQL语句(Text-to-SQL)任务的模型迁移到中文工业Text-to-SQL任务时,由于工业数据集的可解释差且比较分散,会出现数据库的表名列名等信息与问句中关键信息的表示形式不一致以及问句中的列名隐含在语义中等问题导致模... 英文自然语言查询转SQL语句(Text-to-SQL)任务的模型迁移到中文工业Text-to-SQL任务时,由于工业数据集的可解释差且比较分散,会出现数据库的表名列名等信息与问句中关键信息的表示形式不一致以及问句中的列名隐含在语义中等问题导致模型精确匹配率变低。针对迁移过程中出现的问题,提出了对应的解决方法并构建修改后的模型。首先,在数据使用过程中融入工厂元数据信息以解决表示形式不一致以及列名隐含在语义中的问题;然后,根据中文语言表达方式的特性,使用基于相对位置的自注意力模型直接通过问句以及数据库模式信息识别出where子句的value值;最后,根据工业问句查询内容的特性,使用微调后的基于变换器的双向编码器表示技术(BERT)对问句进行分类以提高模型对SQL语句结构预测的准确率。构建了一个基于铝冶炼行业的工业数据集,并在该数据集上进行实验验证。结果表明所提模型在工业测试集上的精确匹配率为74.2%,对比英文数据集Spider上各阶段主流模型的效果后可以看出,所提模型能有效处理中文工业Text-to-SQL任务。 展开更多
关键词 中文text-to-sql任务 工业数据集 元数据 自注意力模型 基于变换器的双向编码器表示技术
在线阅读 下载PDF
基于语义增强模式链接的Text-to-SQL模型 被引量:1
8
作者 吴相岚 肖洋 +1 位作者 刘梦莹 刘明铭 《计算机应用》 CSCD 北大核心 2024年第9期2689-2695,共7页
为优化基于异构图编码器的Text-to-SQL生成效果,提出SELSQL模型。首先,模型采用端到端的学习框架,使用双曲空间下的庞加莱距离度量替代欧氏距离度量,以此优化使用探针技术从预训练语言模型中构建的语义增强的模式链接图;其次,利用K头加... 为优化基于异构图编码器的Text-to-SQL生成效果,提出SELSQL模型。首先,模型采用端到端的学习框架,使用双曲空间下的庞加莱距离度量替代欧氏距离度量,以此优化使用探针技术从预训练语言模型中构建的语义增强的模式链接图;其次,利用K头加权的余弦相似度以及图正则化方法学习相似度度量图使得初始模式链接图在训练中迭代优化;最后,使用改良的关系图注意力网络(RGAT)图编码器以及多头注意力机制对两个模块的联合语义模式链接图进行编码,并且使用基于语法的神经语义解码器和预定义的结构化语言进行结构化查询语言(SQL)语句解码。在Spider数据集上的实验结果表明,使用ELECTRA-large预训练模型时,SELSQL模型比最佳基线模型的准确率提升了2.5个百分点,对于复杂SQL语句生成的提升效果很大。 展开更多
关键词 模式链接 图结构学习 预训练语言模型 text-to-sql 异构图
在线阅读 下载PDF
图神经网络在Text-to-SQL解析中的技术研究 被引量:4
9
作者 曹合心 赵亮 李雪峰 《计算机科学》 CSCD 北大核心 2022年第4期110-115,共6页
语义解析领域中的Text-to-SQL任务对实现基于数据库的自动问答具有重要意义。现有深度学习模型,如Seq2Seq的序列生成模型在单表SQL查询中已取得显著效果,但无法解决多表SQL查询的问题。图神经网络能够有效提取数据库表和问句之间的关联... 语义解析领域中的Text-to-SQL任务对实现基于数据库的自动问答具有重要意义。现有深度学习模型,如Seq2Seq的序列生成模型在单表SQL查询中已取得显著效果,但无法解决多表SQL查询的问题。图神经网络能够有效提取数据库表和问句之间的关联信息,丰富解析过程中的语义信息,从而提升多表SQL查询的准确率。文中提出一种自适应的图构建方式和图编码方式,在现有Text-to-SQL模型中引入问句信息,通过对问句和数据库的拼接词向量进行卷积操作生成图网络初始化权重,对同种类型下的不同数据库可实现统一训练。采用IRNet框架和关系扩充的方式进行整体模型设计,在当前开放的Text-to-SQL数据集Spider上进行验证。结果表明,该技术能够有效提升多表SQL语句生成的匹配准确率,同时算法对图神经网络在Text-to-SQL领域的研究具有重要的参考价值。 展开更多
关键词 text-to-sql解析 深度学习 图构建 图神经网络 多表SQL语句生成
在线阅读 下载PDF
TSCL-SQL: Two-Stage Curriculum Learning Framework for Text-to-SQL
10
作者 尹枫 程路易 +3 位作者 王秋月 王志军 杜明 徐波 《Journal of Donghua University(English Edition)》 CAS 2023年第4期421-427,共7页
Text-to-SQL is the task of translating a natural language query into a structured query language. Existing text-to-SQL approaches focus on improving the model’s architecture while ignoring the relationship between qu... Text-to-SQL is the task of translating a natural language query into a structured query language. Existing text-to-SQL approaches focus on improving the model’s architecture while ignoring the relationship between queries and table schemas and the differences in difficulty between examples in the dataset. To tackle these challenges, a two-stage curriculum learning framework for text-to-SQL(TSCL-SQL) is proposed in this paper. To exploit the relationship between the queries and the table schemas, a schema identification pre-training task is proposed to make the model choose the correct table schema from a set of candidates for a specific query. To leverage the differences in difficulty between examples, curriculum learning is applied to the text-to-SQL task, accompanied by an automatic curriculum learning solution, including a difficulty scorer and a training scheduler. Experiments show that the framework proposed in this paper is effective. 展开更多
关键词 text-to-sql curriculum learning semantic parsing
在线阅读 下载PDF
SEA-SQL:semantic-enhanced text-to-SQL with adaptive refinement
11
作者 Chaofan LI Yingxia SHAO +1 位作者 Yawen LI Zheng LIU 《Frontiers of Computer Science》 2026年第3期27-40,共14页
Recent advancements in large language models(LLMs)have significantly contributed to the progress of the Text-to-SQL task.A common requirement in many of these works is the post-correction of SQL queries.However,the ma... Recent advancements in large language models(LLMs)have significantly contributed to the progress of the Text-to-SQL task.A common requirement in many of these works is the post-correction of SQL queries.However,the majority of this process entails analyzing error cases to develop prompts with rules that eliminate model bias.And there is a weakness of execution verification for SQL queries.In addition,the prevalent techniques primarily depend on GPT-4 and few-shot prompts,resulting in expensive costs.To investigate the effective methods for SQL refinement in a cost-efficient manner,we introduce Semantic-Enhanced Text-to-SQL with Adaptive Refinement(SEA-SQL),which includes Adaptive Bias Elimination and Dynamic Execution Adjustment,aims to improve performance while minimizing resource expenditure with zero-shot prompts.Specifically,SEA-SQL employs a semantic-enhanced schema to augment database information and optimize SQL queries.During the SQL query generation,a fine-tuned adaptive bias eliminator is applied to mitigate inherent biases caused by the LLM.The dynamic execution adjustment is utilized to guarantee the executability of the bias eliminated SQL query.We conduct experiments on the Spider and BIRD datasets to demonstrate the effectiveness of this framework.The results demonstrate that SEA-SQL achieves state-of-the-art performance in the GPT-3.5 scenario with 9%-58% of the generation cost.Furthermore,SEA-SQL is comparable to GPT-4 with only 0.9%-5.3% of the generation cost.Our code is available at the website of github.com/545999961/SEA-SQL. 展开更多
关键词 text-to-sql adaptive bias elimination dynamic execution adjustment economize
原文传递
Intelli-Dispatch-SQL:An LLM-based agent for reliable Text-to-SQL in power dispatching
12
作者 Binye Ni Xinlei Cai +4 位作者 Zhijun Shen Zijie Meng Junhua Zhao Yuheng Cheng Xuanang Gui 《Energy and AI》 2025年第4期805-816,共12页
The increasing complexity of modern power systems,driven by factors such as the large-scale integration of renewable energy and the proliferation of distributed generation,has placed unprecedented demands on power dis... The increasing complexity of modern power systems,driven by factors such as the large-scale integration of renewable energy and the proliferation of distributed generation,has placed unprecedented demands on power dispatching operations.Ensuring grid stability and safety in this new environment requires real-time monitoring and swift,data-driven decision-making.Consequently,efficient and accurate data querying capabilities have become paramount.This study introduces Intelli-Dispatch-SQL,a novel agent-based Text-to-SQL framework that leverages the Large Language Model(LLM)to enhance the accuracy and reliability of generated SQL queries in the context of power dispatching.By integrating intent recognition and SQL validation modules,Intelli-Dispatch-SQL ensures that generated queries are not only syntactically correct but also semantically aligned with user intent and executable within the operational context.Through comprehensive experiments,including ablation studies and cross-model evaluations,we demonstrate that Intelli-Dispatch-SQL significantly outperforms existing Text-to-SQL models,achieving substantial improvements in both Exact Match(EM)and Execution Accuracy(EX).Notably,the incorporation of intent recognition and SQL validation modules is shown to be critical for performance enhancement.The framework’s effectiveness was further validated across various LLMs,confirming its robustness and applicability across diverse scenarios.Intelli-Dispatch-SQL offers a performance high-and generalizable solution for Text-to-SQL in power dispatching,paving the way for more efficient and intelligent power system management. 展开更多
关键词 Power system Artificial intelligence text-to-sql Natural language processing Large Language Models
在线阅读 下载PDF
基于结构感知与蒙特卡洛树搜索的SQL生成
13
作者 富宇 李浩冉 《计算机技术与发展》 2026年第3期118-123,117,共7页
自然语言到SQL(Text-to-SQL)任务旨在将用户查询映射为可执行的SQL语句,是自然语言与数据库交互的核心技术。当前主流大型语言模型在处理复杂结构、多表关联及嵌套逻辑时,常出现结构错误、语义偏离和执行失败,限制了其可靠性与泛化能力... 自然语言到SQL(Text-to-SQL)任务旨在将用户查询映射为可执行的SQL语句,是自然语言与数据库交互的核心技术。当前主流大型语言模型在处理复杂结构、多表关联及嵌套逻辑时,常出现结构错误、语义偏离和执行失败,限制了其可靠性与泛化能力。为此,该文提出Struct-MCTS,一种基于结构感知与蒙特卡洛树搜索(MCTS)的Text-to-SQL生成框架。该框架通过细粒度结构化动作建模SQL生成过程,并结合多模型并行生成与协同辩论对候选路径进行动态打分,从而提升生成结果的鲁棒性与一致性。在零样本条件下,Struct-MCTS在Spider和BIRD等复杂数据集上表现出领先的执行准确率,显示出强泛化能力与实际应用潜力。 展开更多
关键词 text-to-sql 大语言模型 结构感知 蒙特卡洛树搜索 多模型辩论 零样本学习
在线阅读 下载PDF
大语言模型驱动的图书馆业务数据对话系统设计与实现
14
作者 张光照 王忠义 +2 位作者 王楠 张银玲 杨帆 《图书馆论坛》 北大核心 2026年第3期124-134,共11页
探索微调大语言模型的方法,使其能通过自然语言描述需求生成SQL查询语句,获取图书馆业务数据库报表,以解决现有业务系统查询功能固化,难以应对实际工作中多元化的需求的问题。文章根据图书馆各业务部门报表分析和决策需求,针对图书馆业... 探索微调大语言模型的方法,使其能通过自然语言描述需求生成SQL查询语句,获取图书馆业务数据库报表,以解决现有业务系统查询功能固化,难以应对实际工作中多元化的需求的问题。文章根据图书馆各业务部门报表分析和决策需求,针对图书馆业务数据库和中图分类法特征制作图书馆领域Text-to-SQL数据训练集和测试集;基于6-7B参数量选取国内外典型的开源中等参数规模大语言模型在训练集上进行LoRA微调,而后在测试集上验证SQL查询语句生成有效性,最后利用FastChat部署模型和研发可视化交互系统实现交互能力并在真实场景中分析应用效果。研究发现,在Chatglm3-6B模型微调中取得了0.9426的执行准确度,并在真实业务需求交互场景中探讨了微调后的中等参数规模大语言模型与超大规模参数模型Qwen-Max的应用效果,证明采用Textto-SQL微调大语言模型用于图书馆业务数据自然语言查询的有效性。 展开更多
关键词 图书馆业务数据 text-to-sql 大语言模型 数据库对话系统 微调
在线阅读 下载PDF
增强模式链接与多生成器协同的SQL生成框架MG-SQL
15
作者 吴定佳 崔喆 《计算机应用》 北大核心 2026年第3期723-731,共9页
针对大语言模型(LLM)在复杂多表数据库场景下生成结构化查询语言(SQL)的局限性,提出基于多生成器协同的Text-to-SQL框架——MG-SQL(Multi-Generator SQL)。首先,针对无关模式信息导致的噪声干扰,通过生成初始SQL,并结合语义相似度检索,... 针对大语言模型(LLM)在复杂多表数据库场景下生成结构化查询语言(SQL)的局限性,提出基于多生成器协同的Text-to-SQL框架——MG-SQL(Multi-Generator SQL)。首先,针对无关模式信息导致的噪声干扰,通过生成初始SQL,并结合语义相似度检索,提出增强模式链接优化方法。其次,为提高候选SQL的质量、增强多样性,基于精简模式构建多策略协同生成框架:1)使用经验生成器检索动态示例;2)使用思维链生成器强化逻辑推理;3)使用查询计划生成器模拟数据库的执行流程;4)使用渐进生成器进行迭代优化。再次,使用投票机制对SQL进行择优。最后,进一步提出反思学习机制,通过对比生成结果与参考SQL形成反思样本,动态构建领域经验库以实现持续学习。在BIRD基准测试中的结果表明,采用轻量级GPT-4o-mini模型时,所提框架的模式链接实现了98.89%的严格召回率(SRR),有效筛除了44.91%无关列;所提框架生成的SQL的执行准确率(EX)达69.69%,有效效率分数(VES)达79.59%,超越基于GPT-4o的主流方法,验证了所提框架在复杂场景下的有效性。 展开更多
关键词 模式链接 大语言模型 text-to-sql 检索增强 上下文学习
在线阅读 下载PDF
基于大语言模型的数据库设计实验课教学探索
16
作者 乔少杰 李薇 +5 位作者 徐倩 王星捷 韩楠 王晓玲 唐婷婷 陈权亮 《实验室科学》 2026年第1期3-9,共7页
大语言模型(large language model,LLM)为数据库性能带来了极大的提升,将LLM与数据库相结合成为当前的研究热点。然而,目前大部分高校数据库实验课程仍停留于数据库基础操作层面,学生普遍缺乏数据库前沿技术相关知识。文本转结构化查询... 大语言模型(large language model,LLM)为数据库性能带来了极大的提升,将LLM与数据库相结合成为当前的研究热点。然而,目前大部分高校数据库实验课程仍停留于数据库基础操作层面,学生普遍缺乏数据库前沿技术相关知识。文本转结构化查询语言(text to structured query language,Text-to-SQL)技术为基于LLM的数据库设计的重要研究方向之一。首先,设计实验课程系统地介绍基于LLM的Text-to-SQL方法的教学意义,以盘古大模型为例对实验课程相关技术进行介绍;其次,分析并划定基于LLM的数据库设计实验课程的教学目标,阐述具体的教学设计和实施;最后,对教学方法设计的各方面进行系统总结。 展开更多
关键词 大语言模型 text-to-sql 实验课教学 数据库设计 盘古大模型
在线阅读 下载PDF
Towards Text-to-SQL over Aggregate Tables 被引量:1
17
作者 Shuqin Li Kaibin Zhou +2 位作者 Zeyang Zhuang Haofen Wang Jun Ma 《Data Intelligence》 EI 2023年第2期457-474,共18页
Text-to-SQL aims at translating textual questions into the corresponding SQL queries.Aggregate tables are widely created for high-frequent queries.Although text-to-SQL has emerged as an important task,recent studies p... Text-to-SQL aims at translating textual questions into the corresponding SQL queries.Aggregate tables are widely created for high-frequent queries.Although text-to-SQL has emerged as an important task,recent studies paid little attention to the task over aggregate tables.The increased aggregate tables bring two challenges:(1)mapping of natural language questions and relational databases will suffer from more ambiguity,(2)modern models usually adopt self-attention mechanism to encode database schema and question.The mechanism is of quadratic time complexity,which will make inferring more time-consuming as input sequence length grows.In this paper,we introduce a novel approach named WAGG for text-to-SQL over aggregate tables.To effectively select among ambiguous items,we propose a relation selection mechanism for relation computing.To deal with high computation costs,we introduce a dynamical pruning strategy to discard unrelated items that are common for aggregate tables.We also construct a new large-scale dataset SpiderwAGG extended from Spider dataset for validation,where extensive experiments show the effectiveness and efficiency of our proposed method with 4%increase of accuracy and 15%decrease of inference time w.r.t a strong baseline RAT-SQL. 展开更多
关键词 text-to-sql Question Answering Business Intelligence Deep Learning
原文传递
基于结构化案例推理的SQL生成模型
18
作者 罗明全 王静 魏英 《无线电通信技术》 北大核心 2025年第3期478-485,共8页
自动化的自然语言与数据库接口对于应用开发至关重要。语义解析驱动的推理时间结构化查询语言(Structured Query Language,SQL)自适应方法能够兼容来自新域的样本,且无需重复调优。现有方法通常简单地将编码器输入的新域输入-输出案例... 自动化的自然语言与数据库接口对于应用开发至关重要。语义解析驱动的推理时间结构化查询语言(Structured Query Language,SQL)自适应方法能够兼容来自新域的样本,且无需重复调优。现有方法通常简单地将编码器输入的新域输入-输出案例连接到模型中,进而使解码器产生偏差,不能充分利用案例中逻辑形式的结构。基于上述情况,提出一种基于结构化案例推理(Structured Case Reasoning Model,SCRM)的SQL生成模型,充分利用案例的逻辑形式和候选输出之间的子树级相似性,以此生成更好的解码器决策;提出一个可训练的组合子树相似函数,与全树嵌入相比,该函数对于大型搜索边界的评分更为准确。SCRM结合新的结构化案例记忆及可训练的查询子树相似度模块,可以提升推理过程中正确输出的得分。在5种不同的数据集上进行实验,相对于其他模型,所提出的SCRM凭借结构化案例的优势,在不同性能指标上均取得了最佳结果。 展开更多
关键词 text-to-sql 子树级相似性 结构化案例 解码器 相似函数
在线阅读 下载PDF
基于大模型的数据分析技术在烟草行业的应用
19
作者 刘晶 杜云鹏 +1 位作者 杨海 罗文 《新潮电子》 2025年第12期13-15,共3页
随着大数据时代的到来,数据分析在企业决策中的作用日益凸显。为了帮助烟草企业进行更加科学的决策,推动烟草企业的发展,本文研究了大规模自然语言模型(LLMs)在烟草行业数据分析中的应用,特别是Text-to-SQL(Text2SQL)技术。该技术通过... 随着大数据时代的到来,数据分析在企业决策中的作用日益凸显。为了帮助烟草企业进行更加科学的决策,推动烟草企业的发展,本文研究了大规模自然语言模型(LLMs)在烟草行业数据分析中的应用,特别是Text-to-SQL(Text2SQL)技术。该技术通过自然语言查询直接生成SQL语句,简化了数据分析流程,提高了效率。本文首先概述了大规模自然语言模型的基本原理和Text2SQL技术的工作机制,然后介绍了对星火大模型的微调过程,包括数据集构建、微调策略和效果评估。微调后的模型在烟草企业数据分析任务中表现出色,显著提升了数据分析的实时性和准确性。此外,本文还探讨了Text2SQL技术在烟草企业实际应用中的潜在价值和效果,为烟草行业的数字化转型提供了新的思路和实践案例。 展开更多
关键词 大规模自然语言模型 text-to-sql 数据分析 烟草企业 企业决策
在线阅读 下载PDF
基于关系感知注意力的信息检索SQL生成器
20
作者 王孝红 杨帅强 《无线电通信技术》 北大核心 2025年第3期511-519,共9页
结构化查询语言(Structured Query Language,SQL)生成器对于非专业人员检索信息至关重要,模型学习模式链接和模式编码等关系结构是自然语言转换为SQL,即Text-to-SQL任务的关键步骤。不同的关系结构通常利用不同结构的模型进行学习,难以... 结构化查询语言(Structured Query Language,SQL)生成器对于非专业人员检索信息至关重要,模型学习模式链接和模式编码等关系结构是自然语言转换为SQL,即Text-to-SQL任务的关键步骤。不同的关系结构通常利用不同结构的模型进行学习,难以兼容现有固定结构的大型预训练模型。现有方法往往忽视问题依赖结构关系和问题共引用关系对模型的影响,很难同时利用不同的关系结构。为了解决上述问题,提出基于关系感知注意力(Relation-Aware Attention,RAA)的信息检索SQL生成器,使用RAA机制学习模式链接和模式编码等关系结构,引入问题依赖结构关系和问题共引用关系使模型更具泛化性,利用关系副本方法处理关系与输入标记之间的粒度。RAA能够在利用预训练权重的情况下向模型引入新的关系权重。在3个包含单回合和多回合场景的Text-to-SQL数据集上进行了大量实验,结果表明RAA在不同数据集上均表现出最佳性能。 展开更多
关键词 结构化查询语言生成器 信息检索 text-to-sql 预训练模型 关系感知注意力
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部