基于大语言模型的数据库管理系统模糊测试方法

Large Language Model Based Fuzz Testing Approach for Database Management System

下载PDF

导出

摘要数据库管理系统(database management system,DBMS)作为数据管理与存储的关键软件,其可靠性直接影响数据密集型系统的安全稳定运行。近年来,模糊测试因其具备人工成本低、测试效率高等特点,成为DBMS测试方法之一。然而现有的DBMS模糊测试方法面临测试用例覆盖能力不足与多DBMS适配性差两大问题,限制了测试的效果和泛用性。为此,CLCC(curated LLM case construct)是一种基于大语言模型(large language model,LLM)的DBMS模糊测试方法。该方法在模糊测试前,利用LLM对初始种子进行构建,并在模糊测试过程中,根据边覆盖情况筛选种子,引导LLM生成测试用例。与SQUIRREL、SQLRight和ParserFuzz进行的对比实验表明,CLCC测试SQLite、MySQL、MariaDB、DuckDB和PostgreSQL的边覆盖数量比SQUIRREL增加了14.96%~49.31%;测试SQLite、MySQL和PostgreSQL的边覆盖数量比SQLRight增加了6.09%~17.10%;测试SQLite、MySQL和MariaDB的边覆盖数量比ParserFuzz增加了17.95%~41.20%。 Database management systems(DBMSs),as fundamental software for data management and storage,are critical to ensuring the security,reliability and stability of modern data-intensive applications.In recent years,fuzz testing has been increasingly adopted for DBMS validation owing to its low manual cost,high efficiency,and capability of automatically exercising diverse execution paths.However,existing DBMS fuzzing approaches remain constrained by insufficient test case coverage and limited adaptability across heterogeneous DBMS implementations,which substantially weakens their effectiveness and generality.CLCC(curated LLM case construct)is a novel test case generation approach for DBMS fuzzing based on a large language model(LLM).In CLCC,LLMs are employed to construct high-quality initial seeds prior to fuzzing,while edge coverage-guided seed selection is incorporated during fuzzing to steer LLM-driven test case generation.Extensive comparative experiments demonstrate that CLCC achieves 14.96%−49.31%higher edge coverage on SQLite,MySQL,MariaDB,DuckDB and PostgreSQL compared with SQUIRREL,delivers 6.09%−17.10%improvements on SQLite,MySQL and PostgreSQL relative to SQLRight,and provides 17.95%−41.20%gains on SQLite,MySQL and MariaDB over ParserFuzz.

作者张瑞宸张亚东兰文尉岳清王正武崔展齐 Zhang Ruichen;Zhang Yadong;Lan Wenwei;Yue Qing;Wang Zhengwu;Cui Zhanqi(School of Computer Science,Beijing Information Science and Technology University,Beijing 100192)

机构地区北京信息科技大学计算机学院

出处《计算机研究与发展》北大核心 2026年第4期884-899,共16页 Journal of Computer Research and Development

基金江苏省前沿引领技术基础研究专项(BK20202001) 北京信息科技大学“勤信人才”培育计划项目(QXTCP B202406)。

关键词数据库管理系统模糊测试大语言模型漏洞检测覆盖率分析 database management system fuzz testing large language model vulnerability detection coverage analysis

分类号 TP311.5 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献5

1梁杰,吴志镛,符景洲,朱娟,姜宇,孙家广.数据库管理系统模糊测试技术研究综述[J].软件学报,2025,36(1):399-423. 被引量：7
2任泽众,郑晗,张嘉元,王文杰,冯涛,王鹤,张玉清.模糊测试技术综述[J].计算机研究与发展,2021,58(5):944-963. 被引量：38
3戴嘉润,李忠睿,张琬琪,张源,杨珉.面向无人驾驶系统的仿真模糊测试:现状、挑战与展望[J].计算机研究与发展,2023,60(7):1433-1447. 被引量：4
4崔展齐,张家铭,郑丽伟,陈翔.覆盖率制导的灰盒模糊测试研究综述[J].计算机学报,2024,47(7):1665-1696. 被引量：9
5Jia-Ming Zhang,Zhan-Qi Cui,Xiang Chen,Huan-Huan Wu,Li-Wei Zheng,Jian-Bin Liu.DeltaFuzz: Historical Version Information Guided Fuzz Testing[J].Journal of Computer Science & Technology,2022,37(1):29-49. 被引量：3

二级参考文献10

1丁智斌,石浩磊.关系数据库设计与规范化[J].计算机与数字工程,2005,33(2):114-116. 被引量：31
2李舟军,张俊贤,廖湘科,马金鑫.软件安全漏洞检测技术[J].计算机学报,2015,38(4):717-732. 被引量：81
3张雄,李舟军.模糊测试技术研究综述[J].计算机科学,2016,43(5):1-8. 被引量：37
4Ju Qian Di Zhou.Prioritizing Test Cases for Memory Leaks in Android Applications[J].Journal of Computer Science & Technology,2016,31(5):869-882. 被引量：2
5Ming-Zhe Zhang,Yun-Zhan Gong,Ya-Wen Wang,Da-Hai Jin.Unit Test Data Generation for C Using Rule-Directed Symbolic Execution[J].Journal of Computer Science & Technology,2019,34(3):670-689. 被引量：1
6Jun Li,Bodong Zhao,Chao Zhang.Fuzzing:a survey[J].Cybersecurity,2018,1(1):80-92. 被引量：23
7任泽众,郑晗,张嘉元,王文杰,冯涛,王鹤,张玉清.模糊测试技术综述[J].计算机研究与发展,2021,58(5):944-963. 被引量：38
8Jia-Ming Zhang,Zhan-Qi Cui,Xiang Chen,Huan-Huan Wu,Li-Wei Zheng,Jian-Bin Liu.DeltaFuzz: Historical Version Information Guided Fuzz Testing[J].Journal of Computer Science & Technology,2022,37(1):29-49. 被引量：3
9Max Eisele,Marcello Maugeri,Rachna Shriwas,Christopher Huth,Giampaolo Bella.Embedded fuzzing:a review of challenges,tools,and solutions[J].Cybersecurity,2022,5(4):1-18. 被引量：2
10余媛萍,苏璞睿.HeapAFL:基于堆操作行为引导的灰盒模糊测试[J].计算机研究与发展,2023,60(7):1501-1513. 被引量：3

共引文献54

1王雨绚,张之江,姚旭寅,李伟杰,杨融.机载网络安保测试方法研究[J].工业控制计算机,2022,35(3):95-97. 被引量：3
2刘林彬,苗泉强,李俊娥.基于模糊测试的GOOSE协议解析漏洞挖掘方法[J].中国电力,2022,55(4):33-43. 被引量：8
3张琦,马莺姿.模糊测试器AFL种子变异策略优化研究[J].现代信息科技,2021,5(24):142-145. 被引量：2
4程亮,王化磊,张阳,孙晓山.基于聚类和新覆盖信息的模糊测试改进[J].计算机系统应用,2022,31(9):192-200.
5王朝晖,殷哲,刘娟.软件供应链开源组件安全风险评估[J].电子技术与软件工程,2022(22):80-84. 被引量：2
6纪守领,王琴应,陈安莹,赵彬彬,叶童,张旭鸿,吴敬征,李昀,尹建伟,武延军.开源软件供应链安全研究综述[J].软件学报,2023,34(3):1330-1364. 被引量：37
7王松,方勇,贾鹏.无碰撞灰盒模糊测试方法研究[J].四川大学学报（自然科学版）,2023,60(3):97-103.
8孙力立,张培华,武成岗,王喆.JavaScript引擎JIT代码的类型混淆缺陷检测器[J].高技术通讯,2023,33(3):251-260.
9樊志强,王洪宇,刘日昇.命令行接口模糊测试漏洞挖掘研究及应用[J].网络安全与数据治理,2023,42(7):61-66. 被引量：1
10李航宇,方浩然,曲彦文,郭帆.ADFuzz:使用异常检测筛选低频路径高效模糊测试[J].计算机研究与发展,2023,60(8):1912-1924. 被引量：2

1朱东晴,张骏温,何莲英,王睿,刘吉强,张大林.基于主动学习的符号执行路径探索策略[J].山东大学学报(工学版),2026,56(1):63-71.
2杨筱莉.计算机数据库技术在信息管理系统中的应用[J].电子技术(上海),2025,54(10):150-151.
3张昌凡,高见,何静.结合松鼠搜索算法和LSTM的滚动轴承RUL预测[J].机械设计与制造,2026(4):71-76.
4张越月.CLCC技术:攻克直流输电世界难题的国之重器[J].能源评论,2026(3):76-79.
5李智博,徐富国,侯旺旺.融合DeepSeek智能体的轻量化档案管理系统构建研究[J].信息记录材料,2026,27(7):163-166.
6苏祥,杨志斌,周勇,张海.多样性引导的深度神经网络测试用例生成方法[J].小型微型计算机系统,2026,47(1):181-192.
7饶畅,张杰林,刘伟,陈新海,李科.映射字典驱动的自动驾驶虚拟仿真测试用例实例化方法[J].重庆理工大学学报(自然科学),2026,40(1):175-184.
8潘婷子,王月圆.基于元数据驱动的企业数据模型动态管理机制研究[J].电脑知识与技术,2026,22(5):61-63.
9何洋,李钰敏,俞佳君,常筱微.一种大语言模型赋能的白盒测试教学新范式[J].计算机教育,2026(4):118-122.
10方三华,刘丽,杨丹,刘双双,尹伟,赵倩冰,黄琼,陈静瑶.基于超分辨率径向波动的活细胞线粒体纳米尺度成像:关键参数影响与优化策略[J].中国细胞生物学学报,2026,48(3):759-770.

计算机研究与发展

2026年第4期

浏览历史

内容加载中请稍等...

基于大语言模型的数据库管理系统模糊测试方法

参考文献5

二级参考文献10

共引文献54

相关作者

相关机构

相关主题

浏览历史