基于大语言模型增强的瓦斯事故实体抽取和图谱预警研究

Research on entity extraction and graph-based early warning of gas accidents enhanced by large language models

下载PDF

导出

摘要为提升煤矿瓦斯事故数据集实体识别的精度和召回率,应对原始数据规模小和标注数据缺乏的问题,采用大语言模型进行语料增强,并构建命名实体识别模型BiLSTM-CRF进行研究。通过对比深度学习模型BiLSTM-CRF及其经过优化后的模型效果,验证数据增强方法的有效性。研究结果表明:经过数据增强的BiLSTM-CRF模型在煤矿瓦斯事故数据集上表现出更高的精度和召回率,相较于原有模型BiLSTM-CRF,具有更为出色的表现。此外,结合知识图谱和大语言模型应用于安全预警,经过GPT-4数据增强后的煤矿瓦斯事故实体识别准确率为91.5%,相较于未经过数据增强的基线准确率83.1%,提升了8.4百分点。研究结果可为煤矿瓦斯事故的风险防控提供1种新的数据处理方法和实体识别技术手段,有助于提高煤矿安全预警和事故防控的准确性和可靠性。 In order to enhance the precision and recall of entity recognition in coal mine gas accident datasets while addressing the challenges of small-scale raw data and insufficient annotated data,this study employed large language models(LLMs)for corpus augmentation and constructs a BiLSTM-CRF named entity recognition(NER)model.By comparing the performance of the deep learning model BiLSTM-CRF with its optimized variants,the effectiveness of the data augmentation approach was validated.The results demonstrate that the data-augmented BiLSTM-CRF model achieves significantly higher precision and recall on coal mine gas accident datasets,outperforming the original BiLSTM-CRF model.Furthermore,integrating knowledge graphs and LLMs for safety early warning,the GPT-4-enhanced gas accident entity recognition attains an accuracy of 91.5%—an 8.4 percentage point improvement over the non-augmented baseline accuracy of 83.1%.These findings provide a novel data processing methodology and NER technical solution for risk prevention and control in coal mine gas accidents,there by enhancing the reliability and accuracy of coal mine safety early warning and accident control.

作者蔡春城刘永宿国瑞招晖崔杰胡而已王泽 CAI Chuncheng;LIU Yong;SU Guorui;ZHAO Hui;CUI Jie;HU Eryi;WANG Ze(Shanghai Datun Energy Co.,Ltd.,Xuzhou Jiangsu 221600,China;Information Institute of Ministry of Emergency Management,Beijing 100029,China;Beijing Jingtong Kexin Technology Co.,Ltd,Beijing 100102,China)

机构地区上海大屯能源股份有限公司应急管理部信息研究院北京景通科信科技有限公司

出处《中国安全生产科学技术》北大核心 2025年第11期90-97,共8页 Journal of Safety Science and Technology

基金中煤集团重点科技项目(20221CY001)。

关键词大语言模型煤矿安全数据增强深度学习 large language models coal mine safety data augmentation deep learning

分类号 X936 [环境科学与工程—安全科学]

引文网络
相关文献

参考文献6

1邓依依,邬昌兴,魏永丰,万仲保,黄兆华.基于深度学习的命名实体识别综述[J].中文信息学报,2021,35(9):30-45. 被引量：50
2王若佳,魏思仪,王继民.BiLSTM-CRF模型在中文电子病历命名实体识别中的应用研究[J].文献与数据学报,2019,1(2):53-66. 被引量：22
3张天宇,孙媛媛,杜文玉,邢铁军,林鸿飞,杨亮.基于语义边界增强的司法命名实体识别[J].清华大学学报（自然科学版）,2024,64(5):749-759. 被引量：8
4林娜,岳希,唐聃.基于数据增强和损失平衡的机电领域命名实体识别[J].计算机工程与应用,2025,61(7):222-232. 被引量：2
5王昀,胡珉,塔娜,孙海涛,郭毅峰,周武爱,郭昱,张皖哲,冯建华.大语言模型及其在政务领域的应用[J].清华大学学报（自然科学版）,2024,64(4):649-658. 被引量：35
6叶名玮,汤嘉,郭燕,吴桂兴.基于大语言模型的命名实体识别[J].计算机系统应用,2024,33(8):257-263. 被引量：4

二级参考文献42

1李妮,关焕梅,杨飘,董文永.基于BERT-IDCNN-CRF的中文命名实体识别方法[J].山东大学学报（理学版）,2020,55(1):102-109. 被引量：66
2李春楠,王雷,孙媛媛,林鸿飞.基于BERT的盗窃罪法律文书命名实体识别方法[J].中文信息学报,2021,35(8):73-81. 被引量：30
3王蓬辉,李明正,李思.基于数据增强的中文医疗命名实体识别[J].北京邮电大学学报,2020,43(5):84-90. 被引量：14
4叶枫,陈莺莺,周根贵,李昊旻,李莹.电子病历中命名实体的智能识别[J].中国生物医学工程学报,2011,30(2):256-262. 被引量：46
5潘正高.基于规则和统计相结合的中文命名实体识别研究[J].情报科学,2012,30(5):708-712. 被引量：34
6郭喜跃,何婷婷.信息抽取研究综述[J].计算机科学,2015,42(2):14-17. 被引量：94
7栗伟,赵大哲,李博,彭新茗,刘积仁.CRF与规则相结合的医学病历实体识别[J].计算机应用研究,2015,32(4):1082-1086. 被引量：48
8王鹏远,姬东鸿.基于多标签CRF的疾病名称抽取[J].计算机应用研究,2017,34(1):118-122. 被引量：10
9张帆,王敏.基于深度学习的医疗命名实体识别[J].计算技术与自动化,2017,36(1):123-127. 被引量：20
10张海楠,伍大勇,刘悦,程学旗.基于深度神经网络的中文命名实体识别[J].中文信息学报,2017,31(4):28-35. 被引量：77

共引文献114

1屈丹丹,杨涛,朱垚,胡孔法.基于字向量的BiGRU-CRF肺癌医案四诊信息实体抽取研究[J].世界科学技术-中医药现代化,2021,23(9):3118-3125. 被引量：10
2杨雷,韦韩,龚尚文,赵莺菲.基于LSTM的桥梁养护文本数据的命名实体识别方法[J].公路交通科技,2023,40(S02):187-192. 被引量：1
3冯迟,聂海鑫.神经网络在非结构化电子病历数据抽取中的应用[J].中国病案,2020,21(6):1-3. 被引量：6
4宫义山,段亚奇.基于不同模型的中文命名实体识别方法研究[J].长江信息通信,2021(1):84-86. 被引量：2
5杨鹤,于红,刘巨升,杨惠宁,孙哲涛,程名,任媛,张思佳.基于BERT+BiLSTM+CRF深度学习模型和多元组合数据增广的渔业标准命名实体识别[J].大连海洋大学学报,2021,36(4):661-669. 被引量：12
6任燕春,赵瑛,王铁,许丹彤.基于新冠肺炎知识图谱的智能问答系统研究[J].内蒙古科技大学学报,2021,40(3):287-292. 被引量：8
7郑洪浩,宋旭晖,于洪涛,李邵梅,郝一诺.基于深度学习的中文命名实体识别综述[J].信息工程大学学报,2021,22(5):590-596. 被引量：12
8任常青.数字人文视角下县志作物类物产实体识别研究——以雄安县志为例[J].信息与电脑,2022,34(1):74-76. 被引量：2
9李超凡,马凯.基于注意力机制结合CNN-BiLSTM模型的电子病历文本分类[J].科学技术与工程,2022,22(6):2363-2370. 被引量：26
10孔令巍,朱艳辉,张旭,欧阳康,黄雅淋,金书川,沈加锐.基于对抗训练的中文电子病历命名实体识别[J].湖南工业大学学报,2022,36(3):36-43. 被引量：6

1姜海峰,董登.基于大数据采掘设备的煤矿安全隐患预测模型研究[J].中国设备工程,2024(23):65-66. 被引量：2

中国安全生产科学技术

2025年第11期

浏览历史

内容加载中请稍等...

基于大语言模型增强的瓦斯事故实体抽取和图谱预警研究

参考文献6

二级参考文献42

共引文献114

相关作者

相关机构

相关主题

浏览历史