基于大语言模型的燃气事故调查报告实体识别

Entity recognition of gas accident investigation reports based on large language model

下载PDF

导出

摘要为解决样本稀少对大语言模型(LLM)在燃气事故调查报告中的实体识别精度影响显著的问题,提出1种基于两阶段训练的大语言模型实体识别方法。在数据集构建阶段,LLM根据对话式指令微调模板自动生成燃气事故调查报告数据集,采用简单数据增强(EDA)技术扩充人工标注的关键样本;在模型微调训练阶段,采用低秩适配微调技术对Phi3-mini-128k模型进行微调训练,第1阶段微调训练利用LLM自动标注数据集,在训练基础上利用增强数据集对模型进行第2阶段微调训练。研究结果表明:经过第1阶段微调训练后,Phi3-mini-rq模型的实体识别综合评价指标提高11.01百分点;当EDA增强数据占总数据的50%时,模型第2阶段微调效果最佳,综合评价指标值进一步提升2.49百分点。研究结果可为燃气领域的事故报告自动化处理提供有效技术支持。 In order to solve the problem of the significant impact of sample scarcity on the entity recognition accuracy of large language model(LLM)in gas accident investigation reports,a LLM entity recognition method based on two-stage training was proposed.In the dataset construction stage,LLM automatically generates the dataset of gas accident investigation reports according to the conversational instruction fine-tuning template,and adopts simple data augmentation(EDA)technique to expand manually labeled key paper and then manually annotate it.In the model fine-tuning training stage,the low-rank adaptation fine-tuning technique was adopted to conduct the fine-tuning training on the Phi3-mini-128k model.The first-stage fine-tuning training utilized LLM to automatically annotate the dataset,and the second-stage fine-tuning training wad carried out on the model by using the enhanced dataset on the basis of training.The results show that after the first-stage fine-tuning training,the comprehensive evaluation index of entity recognition of Phi3-mini-rq model is improved by 11.01%.When the EDA enhanced data accounts for 50%of the total data,the second-stage fine-tuning effect of the model is the best,and the value of comprehensive evaluation index is further improved by 2.49%.The research results can provide effective technical support for the automated processing of accident reports in the gas field.

作者王明达赵宝熙吴志生冷高强 WANG Mingda;ZHAO Baoxi;WU Zhisheng;LENG Gaoqiang(College of Mechanical and Electrical Engineering,China University of Petroleum,Qingdao Shandong 266580,China)

机构地区中国石油大学(华东)机电工程学院

出处《中国安全生产科学技术》北大核心 2025年第2期139-145,共7页 Journal of Safety Science and Technology

基金国家自然科学基金项目(52075549)。

关键词燃气事故调查报告命名实体识别大语言模型指令微调数据增强 gas accident investigation report named entity recognition large language model instruction fine-tuning data enhancement

分类号 X937 [环境科学与工程—安全科学]

引文网络
相关文献

参考文献9

1俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：168
2王红,祝寒,林海舟.航空安全事故因果关系抽取方法的研究[J].计算机工程与应用,2020,56(11):265-270. 被引量：11
3罗凌,杨志豪,宋雅文,李楠,林鸿飞.基于笔画ELMo和多任务学习的中文电子病历命名实体识别研究[J].计算机学报,2020,43(10):1943-1957. 被引量：55
4Ya QIN,Guo-wei SHEN,Wen-bo ZHAO,Yan-ping CHEN,Miao YU,Xin JIN.A network security entity recognition method based on feature template and CNN-BiLSTM-CRF[J].Frontiers of Information Technology & Electronic Engineering,2019,20(6):872-884. 被引量：29
5郑立瑞,肖晓霞,邹北骥,刘彬,周展.基于BERT的电子病历命名实体识别[J].计算机与现代化,2024(1):87-91. 被引量：6
6余丹丹,黄洁,党同心,张克.基于ALBERT的中文简历命名实体识别[J].计算机工程与设计,2024,45(1):261-267. 被引量：9
7王明达,张榜,吴志生,李云飞.基于强化学习的城镇燃气事故信息抽取方法[J].中国安全生产科学技术,2023,19(3):39-45. 被引量：9
8QIN Ying,ZENG Yingfei.Research of Clinical Named Entity Recognition Based on Bi-LSTM-CRF[J].Journal of Shanghai Jiaotong university(Science),2018,23(3):392-397. 被引量：18
9关斯琪,董婷婷,万子敬,何元生.基于BERT-CRF模型的火灾事故案例实体识别研究[J].消防科学与技术,2023,42(11):1529-1534. 被引量：5

二级参考文献61

1李妮,关焕梅,杨飘,董文永.基于BERT-IDCNN-CRF的中文命名实体识别方法[J].山东大学学报（理学版）,2020,55(1):102-109. 被引量：66
2刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：200
3俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：168
4罗智勇宋柔.现代汉语自动分词中专名的一体化、快速识别方法[A]..ICCC,Singapore[C].,2001．11..
5季姮,罗振声.基于反比概率模型和规则的中文姓名自动辨识系统[A].自然语言理解与机器翻译[C].北京:清华大学出版社,2001.123-128.
6何燕.基于单字词转移概率的未登录词识别[A].自然语言理解与机器翻译[C].北京:清华大学出版社,2001 141-146.
7张艳丽,黄德根等.统计和规则相结合的中文机构名称识别[A].自然语言理解与机器翻译[C].北京:清华大学出版社,2001.233-239.
8SUN J,GAO J F,ZHANG L,et al.Chinese named entity identification using class-based language model[A].Proc of the 19th International Conference on Computational Linguistics[C].Taipei:Morgan Kauffmann Press,2002.967-973.
9YU H,ZHANG H,LIU Q.Recognition of Chinese organization name based on role tagging[A].Advances in Computation of Oriental Languages[C].Beijing:Tsinghua University Press,2003.79-87
10ZHANG H,LIU Q,YU H,et al.Chinese named entity recognition using role model[J].The International Journal of Computational Linguistics and Chinese Language Processing,2003,8(2):1-31.

共引文献293

1彭骁男,周兰江,张建安,周枫.融合多特征的老挝语人名地名命名实体识别[J].中国水运（下半月）,2020,20(3):74-77. 被引量：1
2陈明,刘蓉,熊回香.基于医疗知识图谱的智能问答系统研究[J].情报科学,2023,41(12):118-126. 被引量：18
3刘俊杰,叶英豪,董立映.航空安全信息风险主题语义图谱构建[J].情报工程,2022,8(4):31-40. 被引量：2
4刘雨可,周申培,石英,杜家宝.面向配网一次设备缺陷文本命名实体识别研究[J].武汉理工大学学报,2022,44(10):93-101. 被引量：4
5成于思,施云涛.融合词典特征的Bi-LSTM-WCRF中文人名识别[J].中文信息学报,2020(4):69-76. 被引量：7
6车海燕,孙吉贵,荆涛,白曦.一个基于本体主题的中文知识获取方法[J].计算机科学与探索,2007,1(2):206-215. 被引量：5
7冯元勇,孙乐,李文波,张大鲲.基于单字提示特征的中文命名实体识别快速算法[J].中文信息学报,2008,22(1):104-110. 被引量：25
8王昊,苏新宁.基于模式匹配的中文通用本体概念抽取模型[J].情报理论与实践,2008,31(2):292-297. 被引量：6
9荆涛,左万利,孙吉贵,车海燕.中文网页语义标注：由句子到RDF表示[J].计算机研究与发展,2008,45(7):1221-1231. 被引量：30
10冯元勇,孙乐,张大鲲,李文波.基于小规模尾字特征的中文命名实体识别研究[J].电子学报,2008,36(9):1833-1838. 被引量：27

1无.燃气安全宣传进社区共筑安全防火墙[J].民心,2025(1):41-41.
2何俊江,孙庆云,吴轩.燃气泄漏报警装置推广应用问题分析及对策[J].劳动保护,2025(2):55-57. 被引量：2
3简钰洪,杨辉跃,王星罡,容易圣,朱禹坤.基于改进YOLOv7和DeepSort的“低慢小”无人机目标检测跟踪算法[J].指挥控制与仿真,2025,47(1):23-31. 被引量：2
4李易婉,仝明磊.模拟版图中基于即时分割的N阱区域规划[J].电子设计工程,2025,33(2):7-11.
5本刊编辑部.2024年公布调查报告的重特大事故[J].劳动保护,2025(2):15-17.
6蒙慧玲,蒙陈昱,巩敬超,李琴琴.基于评价指标的超低能耗建筑围护结构设计研究[J].河南大学学报(自然科学版),2024(6):738-747. 被引量：5
7李四金.零缺陷护理管理的康复护理在心脏瓣膜置换术患者康复改善中的应用[J].心血管病防治知识(学术版),2024,14(18):108-110. 被引量：1
8蒋奇森,徐笑然,张静路,祝欣妍,武凯琦,雷一鸣,李树鹏.板蓝根多糖对免疫抑制太行鸡雏生长性能和免疫功能的影响[J].中国畜牧杂志,2025,61(1):317-321. 被引量：3
9赵诗雨,周笑笑,周文娟,喻姣花,李瑶,王曾妍.住院患者肠内营养护理质量敏感指标体系的实践研究[J].护理管理杂志,2025,25(1):55-60. 被引量：6
10李子祥,蔡海兵,程桦,侯公羽.基于DT-CWT-LMS算法的煤矿井筒光纤监测数据自适应降噪研究[J].防灾减灾工程学报,2025,45(1):158-168.

中国安全生产科学技术

2025年第2期

浏览历史

内容加载中请稍等...

基于大语言模型的燃气事故调查报告实体识别

参考文献9

二级参考文献61

共引文献293

相关作者

相关机构

相关主题

浏览历史