-
题名基于大语言模型的语料库查询自动生成方法
- 1
-
-
作者
张成辉
罗景
涂新辉
陈雨霖
-
机构
武汉科技大学计算机科学与技术学院
智能信息处理与实时工业系统湖北省重点实验室
华中师范大学计算机学院
-
出处
《计算机工程》
北大核心
2026年第2期404-412,共9页
-
基金
国家语委重点科研项目(ZDI145-22)
湖北省高等学校哲学社会科学研究项目(23Y025)。
-
文摘
语料库查询语言(CQL)是一种用于在语料库中进行检索和分析的查询语言,自然语言自动生成CQL指将用户以自然语言表达的查询需求自动转换为标准的CQL语句,大大降低了用户使用语料库的门槛。虽然大语言模型(LLM)可以较好地完成自然语言生成任务,但是在CQL生成任务中效果还不是很理想。为此,提出一种基于LLM上下文学习的语料库查询自动生成方法T2CQL。首先,基于CQL的编写规则总结出一套简洁全面的文本到CQL(Text-to-CQL)语法知识,作为LLM实现Text-to-CQL自动转换的基础,以弥补LLM在此领域知识储备的不足。然后,基于选定的嵌入模型,选取与当前自然语言查询最接近的前k个文本-CQL样本对,以帮助LLM理解语法知识并作为参照。最后,采用生成结果校准策略来减轻LLM在生成CQL时的偏差,通过校准模型偏差提升模型生成CQL语句的性能。实验使用多个LLM在包含1 177条数据的测试集上进行测试。实验结果表明,T2CQL方法显著提升了LLM在完成Text-to-CQL自动转换任务时的性能,最优的执行准确率(EX)达到了85.13%。
-
关键词
语料库查询语言
大语言模型
上下文学习
自然语言处理
提示工程
-
Keywords
corpus query language(cql)
Large language Model(LLM)
in-context learning
Natural language Processing(NLP)
prompt engineering
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名一种数据流查询共享模型的设计
- 2
-
-
作者
王丹
李茂增
-
机构
北京工业大学计算机学院
-
出处
《计算机应用》
CSCD
北大核心
2009年第11期3084-3087,共4页
-
基金
北京市属市管高等学校人才强教计划资助项目
-
文摘
为了提高查询效率,从数据流查询过程中查询操作单元和查询存储结构的共享两个方面展开研究。设计一种基于共享的二级索引队列,用于存储数据流中间结果。该结构使得中间查询结果可以再利用的同时也为数据共享情况下的迁移提供了一定的灵活性。对于多查询共享,通过抽取相同数据流中的相同谓词进行查询共享,实现一处计算多处使用的目的。最后对相关模型和算法进行了分析。
-
关键词
查询优化
cql语言
查询树
-
Keywords
query optimization
cql language
query tree
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-