基于数据增强和残差网络的敏感信息命名实体识别

Named entity recognition for sensitive information based on data augmentation and residual networks

下载PDF

导出

摘要敏感信息命名实体识别(NER)是隐私保护的关键技术之一。然而,现有的NER方法在敏感信息领域的相关数据集稀缺,且传统技术存在准确率低、可移植性差等问题。为解决这些问题,首先,从互联网中爬取并人工标注含有敏感信息的文本语料,以构建敏感信息NER数据集SenResume;其次,提出一种基于实体掩码的数据增强模型E-MLM(Entity-based Masked Language Modeling),通过整词掩码技术生成新的数据样本,并扩充数据集以提升数据多样性;再次,提出RoBERTa-ResBiLSTM-CRF模型,该模型结合RoBERTa-WWM(Robustly optimized Bidirectional Encoder Representations from Transformers approach with Whole Word Masking)提取上下文特征以生成高质量的词向量编码,并利用残差双向长短期记忆(ResBiLSTM)增强文本特征;最后,通过多层残差网络提高训练效率和模型稳定性,并通过条件随机场(CRF)进行全局解码以提升序列标注的准确性。实验结果表明,E-MLM对数据集质量有显著的提升,并且提出的NER模型在原始和1倍扩充后的数据集上表现均为最优,F1分数分别为96.16%和97.84%。可见,E-MLM与残差网络的引入有利于提升敏感信息NER的准确度。 Named Entity Recognition(NER)for sensitive information is a key technology of privacy protection.However,the existing NER methods face challenges in the sensitive information domain due to the scarcity of relevant datasets and the traditional techniques have problems such as low accuracy and poor portability.To address these issues,firstly,a sensitive information NER dataset,SenResume,was constructed by crawling and manually annotating text corpora containing sensitive information from the Internet.Secondly,a data augmentation model—Entity-based Masked Language Modeling(E-MLM)was proposed to utilize whole-word masking technique to generate new data samples,and expand the dataset to enhance data diversity.Thirdly,a RoBERTa-ResBiLSTM-CRF model was introduced,which combined the Robustly optimized Bidirectional Encoder Representations from Transformers approach with Whole Word Masking(RoBERTa-WWM)to extract contextual features for generating high-quality word vector representations,while ResBiLSTM(Residual Bidirectional Long Short-Term Memory)was employed to enhance text features.Finally,a multi-layer residual network was applied to improve training efficiency and model stability,and Conditional Random Field(CRF)was used for global decoding to enhance the accuracy of sequence labeling.Experimental results demonstrate that E-MLM improves dataset quality significantly,and the proposed NER model achieves the optimal performance on both the original and 1x augmented datasets,with F1 scores of 96.16%and 97.84%,respectively.It can be seen that the introduction of E-MLM and residual networks contribute to improvements in the accuracy of sensitive information NER.

作者李莉宋涵刘培鹤陈汉林 LI Li;SONG Han;LIU Peihe;CHEN Hanlin(Department of Electronic and Communication Engineering,Beijing Electronic Science and Technology Institute,Beijing 100070,China)

机构地区北京电子科技学院电子与通信工程系

出处《计算机应用》北大核心 2025年第9期2790-2797,共8页 journal of Computer Applications

基金中央高校基本科研业务费专项资金资助项目(3282023017,3282024006,3282023054) 多学科交叉的电子信息工程创新人才培养模式的研究与实践项目(jy202202)。

关键词敏感信息数据集构建数据增强 BERT 命名实体识别 sensitive information dataset construction data enhancement Bidirectional Encoder Representations from Transformers(BERT) Named Entity Recognition(NER)

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1杜晋华,尹浩,冯嵩.中文电子病历命名实体识别的研究与进展[J].电子学报,2022,50(12):3030-3053. 被引量：25
2曾兰兰,王以松,陈攀峰.基于BERT和联合学习的裁判文书命名实体识别[J].计算机应用,2022,42(10):3011-3017. 被引量：10
3郑立瑞,肖晓霞,邹北骥,刘彬,周展.基于BERT的电子病历命名实体识别[J].计算机与现代化,2024(1):87-91. 被引量：6
4余丹丹,黄洁,党同心,张克.基于ALBERT的中文简历命名实体识别[J].计算机工程与设计,2024,45(1):261-267. 被引量：9

二级参考文献60

1付秀,陈麒麟,李杰,付毅,包国峰.基于智能预问诊的全景多学科会诊平台的设计与应用[J].中国数字医学,2021,16(10):79-82. 被引量：9
2李妮,关焕梅,杨飘,董文永.基于BERT-IDCNN-CRF的中文命名实体识别方法[J].山东大学学报（理学版）,2020,55(1):102-109. 被引量：66
3王浩畅,李钰,赵铁军.面向生物医学命名实体识别的多Agent元学习框架[J].计算机学报,2010,33(7):1256-1262. 被引量：6
4佘贵清,张永安.审判案例自动抽取与标注模型研究[J].现代图书情报技术,2013(6):23-29. 被引量：20
5杨锦锋,于秋滨,关毅,蒋志鹏.电子病历命名实体识别和实体关系抽取研究综述[J].自动化学报,2014,40(8):1537-1562. 被引量：130
6钟志农,刘方驰,吴烨,伍江江.主动学习与自学习的中文命名实体识别[J].国防科技大学学报,2014,36(4):82-88. 被引量：16
7曲春燕,关毅,杨锦锋,赵永杰,刘雅欣.中文电子病历命名实体标注语料库构建[J].高技术通讯,2015,25(2):143-150. 被引量：23
8杨锦锋,关毅,何彬,曲春燕,于秋滨,刘雅欣,赵永杰.中文电子病历命名实体和实体关系语料库构建[J].软件学报,2016,27(11):2725-2746. 被引量：116
9张海楠,伍大勇,刘悦,程学旗.基于深度神经网络的中文命名实体识别[J].中文信息学报,2017,31(4):28-35. 被引量：77
10冯艳红,于红,孙庚,孙娟娟.基于BLSTM的命名实体识别方法[J].计算机科学,2018,45(2):261-268. 被引量：53

共引文献45

1张宗毅.农机“卡脖子”技术识别:综述与展望[J].农业农村部管理干部学院学报,2022(2):34-40. 被引量：1
2喻金平,朱伟锋,廖列法.基于RoBERTa-wwm-BiLSTM-CRF的扶持政策文本实体识别研究[J].计算机工程与科学,2023,45(8):1498-1507. 被引量：13
3刘安栋,彭琳,叶青,杜建强,程春雷,查青林.电子病历命名实体识别研究进展[J].计算机工程与应用,2023,59(21):39-51. 被引量：5
4高国忠,李宇,华远鹏,吴文旷.基于BERT-BiLSTM-CRF模型的油气领域命名实体识别[J].长江大学学报（自然科学版）,2024,21(1):57-65. 被引量：12
5佟国香,胡琪,杨培威,蒋伟,岳继光.基于改进关联规则挖掘和距离聚类算法的知识融合[J].智能计算机与应用,2023,13(12):68-74. 被引量：1
6凯比努尔·赛地艾合买提.基于预训练模型的医疗命名实体识别[J].移动信息,2024,46(3):209-212.
7黄康洲,周刚,范永胜.一种基于联合预测的简历实体识别方法[J].人工智能科学与工程,2024(1):70-84. 被引量：1
8沈红,崔子禕,曾淑君,金小蕾,盛妤,朱思燕,张莹,吴佳倩.基于自然语言处理(NLP)的医学知识挖掘探索与实践[J].健康教育与健康促进,2024,19(2):155-157. 被引量：1
9李楠,王觅也,郑涛,李言生,江大鹏,黄勇.基于后结构化技术的临床病种库系统设计与应用[J].医疗卫生装备,2024,45(4):20-26. 被引量：1
10王正芳,张军亮,李小倩,于月,陈慧媜.基于ERNIE-BiGRU-Attention-CRF的电子病历命名实体识别方法[J].医学信息学杂志,2024,45(5):76-82.

1张成珅,马汉达.基于联合卷积的时序知识图谱推理[J].计算机工程与应用,2025,61(18):166-174.
2孙平.基于多元事实驱动的时间知识图谱补全模型[J].信息技术与信息化,2025(7):20-24.
3李也桐,刘致用.改进MacBERT与双阶段相似度的警情识别与公安应用[J].信息技术与信息化,2025(9):127-130.
4郑豪,杨国伟,李飞,郭建林.融合知识图谱和大语言模型的罗氏沼虾养殖问答系统的设计与实现[J].智能科学与技术学报,2025,7(3):361-369.
5潘书宜,向孝洋,颜群芳,丁彦蕊.融合图嵌入和网络拓扑特征的蛋白质耐热性预测模型研究[J].生物医学工程学杂志,2025,42(4):817-823.
6项阳光,赵俊杰,贺燕燕,李金玲,付飞.一种兼具优异力学性能、可回收性和刺激响应性的全生物质基席夫碱Vitrimer[J].材料导报,2025,39(18):251-257.
7李艳萍.数字货币发展如何重塑税收征管模式[J].中国商界,2025(16):32-33.

计算机应用

2025年第9期

浏览历史

内容加载中请稍等...

基于数据增强和残差网络的敏感信息命名实体识别

参考文献4

二级参考文献60

共引文献45

相关作者

相关机构

相关主题

浏览历史