小样本语义分析的漏洞实体抽取方法

A Method for Extracting Vulnerable Entities in Small Sample Semantic Analysis

下载PDF

导出

摘要目前不同信息安全漏洞库标准各异,漏洞数据侧重点不同,关系相对独立,难以快速全面地获取高价值漏洞信息,需建立统一的漏洞实体标准,因此重点对漏洞数据中的实体抽取技术进行研究.大部分漏洞数据以非结构化中英文混合的自然语言形式呈现,基于规则的方法泛化性不强,基于人工智能的方法占用资源过高且依赖大量标注数据,为解决以上问题,提出一种小样本语义分析的漏洞实体抽取方法.该方法使用BERT(bidirectional encoder representations from transformers)预训练漏洞描述数据得到漏洞领域内的预训练模型,以更好地理解漏洞数据,减少对大量标注数据的依赖,此外,采用增量学习的自监督方式提高标注数据非常有限(1785个标注样本).所提模型抽取了漏洞领域中12类漏洞实体,实验结果表明,所提方法在漏洞实体抽取的效果上优于其他抽取模型,F1值达到0.8643,整体的识别性能较高,实现了对漏洞实体的精确抽取. At the moment,different information security vulnerability databases have different standards,with different focuses on vulnerability data and relatively independent relationships.It is difficult to quickly and comprehensively obtain high-value vulnerability information,and a unified vulnerability entity standard needs to be established.Therefore,this paper focuses on vulnerability data in entity extraction technology research.The majority of vulnerability data is provided in unstructured natural language form that combines Chinese and English,rule-based methods lack robust generalization,deep-learning-based methods occupy too many resources and rely on a large amount of annotated data.To address these issues,this paper presents a vulnerability entity extraction method with small sample semantic analysis.The method employs BERT pre-trained vulnerability data to generate a pre-trained model within the cybersecurity vulnerability domain,allowing for a better understanding of cybersecurity vulnerability data and reducing reliance on lager annotated data.Additionally,a self-supervised incremental learning approach is applied to improve model performance with very limited annotated data(1785 samples).The model in this paper extracts 12types of vulnerability entities in the field of cybersecurity,and the experimental results show that the method outperforms other models in the recognition and extraction of cybersecurity vulnerability entities,with an F1value of 0.8643.

作者丁全张磊黄帅查正朋陶陶 Ding Quan;Zhang Lei;Huang Shuai;Zha Zhengpeng;Tao Tao(Electric Power Science Research Institute,State Grid Anhui Electric Power Co.,Ltd.,Hefei 230601;School of Information Science and Technology,University of Science and Technology of China,Hefei 230026;Institute of Advanced Technology,University of Science and Technology of China,Hefei 230031;School of Computer Science and Technology,Anhui University of Technology,Ma’anshan,Anhui 243032)

机构地区国网安徽省电力有限公司电力科学研究院中国科学技术大学信息科学技术学院中国科学技术大学先进技术研究院安徽工业大学计算机科学与技术学院

出处《信息安全研究》北大核心 2025年第3期265-274,共10页 Journal of Information Security Research

基金安徽省高校协同创新项目(GXXT-2023-021)。

关键词小样本语义分析漏洞实体抽取 BERT CRF small sample semantic analysis vulnerability entity extraction BERT CRF

分类号 TP183 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献3

1王颖洁,张程烨,白凤波,汪祖民,季长清.中文命名实体识别研究综述[J].计算机科学与探索,2023,17(2):324-341. 被引量：43
2李冬梅,罗斯斯,张小平,许福.命名实体识别方法研究综述[J].计算机科学与探索,2022,16(9):1954-1968. 被引量：31
3陈星月,倪丽萍,倪志伟.基于ELECTRA模型与词性特征的金融事件抽取方法研究[J].数据分析与知识发现,2021,5(7):36-47. 被引量：11

二级参考文献35

1李妮,关焕梅,杨飘,董文永.基于BERT-IDCNN-CRF的中文命名实体识别方法[J].山东大学学报（理学版）,2020,55(1):102-109. 被引量：66
2李春楠,王雷,孙媛媛,林鸿飞.基于BERT的盗窃罪法律文书命名实体识别方法[J].中文信息学报,2021,35(8):73-81. 被引量：30
3王蓬辉,李明正,李思.基于数据增强的中文医疗命名实体识别[J].北京邮电大学学报,2020,43(5):84-90. 被引量：14
4俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：168
5李丽双,黄德根,陈春荣,杨元生.基于支持向量机的中文文本中地名识别[J].大连理工大学学报,2007,47(3):433-438. 被引量：16
6陈霄,刘慧,陈玉泉.基于支持向量机方法的中文组织机构名的识别[J].计算机应用研究,2008,25(2):362-364. 被引量：20
7张小衡,王玲玲.中文机构名称的识别与分析[J].中文信息学报,1997,11(4):21-32. 被引量：85
8张玥杰,徐智婷,薛向阳.融合多特征的最大熵汉语命名实体识别模型[J].计算机研究与发展,2008,45(6):1004-1010. 被引量：37
9冯元勇,孙乐,张大鲲,李文波.基于小规模尾字特征的中文命名实体识别研究[J].电子学报,2008,36(9):1833-1838. 被引量：27
10孙镇,王惠临.命名实体识别研究进展综述[J].现代图书情报技术,2010(6):42-47. 被引量：102

共引文献79

1杨雷,韦韩,龚尚文,赵莺菲.基于LSTM的桥梁养护文本数据的命名实体识别方法[J].公路交通科技,2023,40(S02):187-192. 被引量：1
2奚溪,周思媛,陈宇涵,单威翰,林群庚.上市公司事件知识图谱的因果关系抽取方法研究[J].信息与电脑,2022,34(6):90-93. 被引量：1
3张龙豪,邬雯,朱宵月.面向心血管疾病的实体识别算法研究[J].福建电脑,2022,38(12):1-7.
4肖乐,岳思雯.事件抽取技术综述及应用[J].软件导刊,2023,22(2):218-224. 被引量：2
5杨崇洛,生龙,魏忠诚,王巍.新冠文本实体关系抽取及数据集构建方法研究[J].计算机工程与应用,2023,59(8):97-104. 被引量：4
6沙明洋,张思佳,傅庆财,于红,李枳錡,喻文甫,刘珈宁.基于动态权重的多模型集成水产动物疾病防治事件抽取方法[J].华中农业大学学报,2023,42(3):80-87. 被引量：5
7齐子琛,胡玉玲,万雨瑞,卓亮.燃气事故应急处置知识图谱构建方法[J].消防科学与技术,2023,42(5):718-723. 被引量：1
8胡叮叮,张琛,王之原.基于预训练模型的命名实体识别研究[J].现代信息科技,2023,7(15):78-82. 被引量：2
9乐书豪.基于注意力阅读理解式的中文命名实体识别模型[J].信息与电脑,2023,35(10):16-18.
10杨盈,邱芹军,谢忠,田苗,郑诗语,郑帅.人在回路学习增强的地理命名实体识别[J].测绘通报,2023(8):155-160. 被引量：4

1《国际眼科杂志·IES》约稿启事[J].国际眼科杂志,2025,25(1).
2《国际眼科杂志·IES》约稿启事[J].国际眼科杂志,2024,24(12).
3蔡田茂,孔伟伟,罗禹贡,石佳,姬鹏霄,李聪民.基于MADDPG算法的匝道合流区多车协同控制[J].汽车安全与节能学报,2024,15(6):923-933. 被引量：1
4龚婉婷.基于L2-BP神经网络的变风量空调系统TRNSYS仿真模型故障诊断[J].建模与仿真,2024,13(6):6493-6502.
5张金宇.人工智能技术在计算机科学中的融合发展与应用前景[J].中国宽带,2024,20(8):145-147. 被引量：3
6才让叁智,仁增多杰,多拉,索南尖措.基于深度学习的梵藏文本识别[J].厦门大学学报（自然科学版）,2024,63(6):1059-1066.
7《国际眼科杂志·IES》约稿启事[J].国际眼科杂志,2025,25(2).
8《国际眼科杂志·IES》约稿启事[J].国际眼科杂志,2025,25(3).

信息安全研究

2025年第3期

浏览历史

内容加载中请稍等...

小样本语义分析的漏洞实体抽取方法

参考文献3

二级参考文献35

共引文献79

相关作者

相关机构

相关主题

浏览历史