基于深度学习的中文命名实体识别研究被引量：6

Research on Chinese Named Entity Recognition based on Deep Learning

下载PDF

导出

摘要针对经典BiLSTM-CRF命名实体识别模型训练时间长、无法解决一词多义及不能充分学习文本上下文语义信息的问题,提出一种基于BERT-BiGRU-Attention-CRF的中文命名实体识别模型.首先利用BERT语言模型预训练词向量,以弥补传统词向量模型无法解决一词多义的问题;其次,利用双向门控循环单元(BiGRU)神经网络层对文本深层次的信息进行特征提取,计算每个标签的预测分值,得到句子的隐藏状态序列;然后利用注意力机制(Attention)层对词加权表征,挖掘词间的关联关系,得到新预测分值,新状态序列;最后通过条件随机场(CRF)对新预测分值计算全局最优解,从而获得模型对实体标签的最终预测结果.通过在MSRA语料上的实验,结果表明文中模型的有效性. Aiming at the problems of long training time of classic BiLSTM-CRF named entity recognition model,inability to resolve polysemy,and insufficient learming of text context semantic information,a Chinese named entity recognition model based on BERT-BiCRU-Attention-CRF is proposed.Firstly,the BERT language model is used to pre-train the word vector to make up for the problem that the traditional word vector model cannot solve the problem of polysemy.Secondly,the bi-directional gated recurrent unit(BiGRU)neural network layer is applied to extract the features of the deep information of the text,to calculate the predicted score of each label to get the hidden state sequence of the sentence.Thirdly,the attention layer is utilized to weight the representations of the words and mine the association between the words to get new predicted scores and new state sequences.Finally,the conditional random field(CRF)is used to calculate the global optimal solution for the new prediction score,so as to obtain the final prediction result of the model on the entity label.Through the experiments with MSRA corpus,the results show that the new model is effective.

作者王雪梅陶宏才 WANG Xuemei;TAO Hongcai(College of Information Science&Technology,Southwest Jiaotong University,Chengdu 611756,China)

机构地区西南交通大学信息科学与技术学院

出处《成都信息工程大学学报》 2020年第3期264-270,共7页 Journal of Chengdu University of Information Technology

基金国家自然科学基金资助项目(61806170)。

关键词中文命名实体识别 BERT BiGRU ATTENTION CRF Chinese named entity recognition BERT BiGRU Attention CRF

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1李扬,张伟,彭晨.目标依赖的作者身份识别方法[J].计算机应用,2020,40(2):473-478. 被引量：1
2王月,王孟轩,张胜,杜渂.基于BERT的警情文本命名实体识别[J].计算机应用,2020,40(2):535-540. 被引量：49
3王伟,孙玉霞,齐庆杰,孟祥福.基于BiGRU-attention神经网络的文本情感分类模型[J].计算机应用研究,2019,36(12):3558-3564. 被引量：71
4冀相冰,朱艳辉,李飞,徐啸.基于Attention-BiLSTM的中文命名实体识别[J].湖南工业大学学报,2019,33(5):73-78. 被引量：9
5杨飘,董文永.基于BERT嵌入的中文命名实体识别方法[J].计算机工程,2020,46(4):40-45. 被引量：125
6李妮,关焕梅,杨飘,董文永.基于BERT-IDCNN-CRF的中文命名实体识别方法[J].山东大学学报（理学版）,2020,55(1):102-109. 被引量：66
7石春丹,秦岭.基于BGRU-CRF的中文命名实体识别方法[J].计算机科学,2019,46(9):237-242. 被引量：31
8王宁,李世林,刘堂亮,赵伟.基于注意力机制的BiGRU判决结果倾向性分析[J].计算机系统应用,2019,28(3):191-195. 被引量：8
9王子牛,姜猛,高建瓴,陈娅先.基于BERT的中文命名实体识别方法[J].计算机科学,2019,46(S11):138-142. 被引量：107
10古雪梅,刘嘉勇,程芃森,何祥.基于增强BiLSTM-CRF模型的推文恶意软件名称识别[J].计算机科学,2020,47(2):245-250. 被引量：6

二级参考文献34

1张晓艳,王挺,陈火旺.命名实体识别研究[J].计算机科学,2005,32(4):44-48. 被引量：69
2赵晓凡,赵丹,刘永革.利用CRF实现中文人名性别的自动识别[J].微电子学与计算机,2011,28(10):122-124. 被引量：7
3ZHOU Junsheng,QU Weiguang,ZHANG Fen.Chinese Named Entity Recognition_via Joint Identification and Categorization[J].Chinese Journal of Electronics,2013,22(2):225-230. 被引量：21
4林广和,张绍武,林鸿飞.基于细粒度词表示的命名实体识别研究[J].中文信息学报,2018,32(11):62-71. 被引量：16
5梁军,柴玉梅,原慧斌,昝红英,刘铭.基于深度学习的微博情感分析[J].中文信息学报,2014,28(5):155-161. 被引量：111
6张蕾,章毅.大数据分析的无限深度神经网络方法[J].计算机研究与发展,2016,53(1):68-79. 被引量：80
7姚霖,刘轶,李鑫鑫,刘宏.词边界字向量的中文命名实体识别[J].智能系统学报,2016,11(1):37-42. 被引量：8
8冯艳红,于红,孙庚,赵禹锦.基于词向量和条件随机场的领域术语识别方法[J].计算机应用,2016,36(11):3146-3151. 被引量：24
9程健一,关毅,何彬.基于SVM和CRF双层分类器的英文电子病历去隐私化[J].智能计算机与应用,2016,6(6):17-19. 被引量：9
10黄磊,杜昌顺.基于递归神经网络的文本分类研究[J].北京化工大学学报（自然科学版）,2017,44(1):98-104. 被引量：41

共引文献403

1李灿,解丹.中医电子病历入院记录信息自动抽取方法研究[J].世界科学技术-中医药现代化,2023,25(5):1615-1622. 被引量：2
2屈丹丹,杨涛,朱垚,胡孔法.基于字向量的BiGRU-CRF肺癌医案四诊信息实体抽取研究[J].世界科学技术-中医药现代化,2021,23(9):3118-3125. 被引量：10
3张敏杰,徐宁,胡俊华,王宇飞,李晨,徐剑波,张诗玉.面向变压器智能运检的知识图谱构建和智能问答技术研究[J].全球能源互联网,2020,3(6):607-617. 被引量：15
4步一,薛睿,孟凡,黄文彬.知识图谱的关键技术及其在情报学中的应用[J].情报学进展,2022(1):349-384. 被引量：1
5徐道柱,金澄,马超,焦洋洋,许剑.基于BERT-BiGRU-CRF与多头注意力机制的地理命名实体识别[J].网络安全与数据治理,2023,42(S01):169-173. 被引量：2
6李书琴,张明美,刘斌.融合字词语义信息的猕猴桃种植领域命名实体识别研究[J].农业机械学报,2022,53(12):323-331. 被引量：12
7陆晓蕾,倪斌.基于预训练语言模型的BERT-CNN多层级专利分类研究[J].中文信息学报,2021,35(11):70-79. 被引量：27
8李春楠,王雷,孙媛媛,林鸿飞.基于BERT的盗窃罪法律文书命名实体识别方法[J].中文信息学报,2021,35(8):73-81. 被引量：29
9成于思,施云涛.融合词典特征的Bi-LSTM-WCRF中文人名识别[J].中文信息学报,2020(4):69-76. 被引量：7
10王卫红,冯倩,吕红燕,曹玉辉.基于Seq2Seq模型的命名实体识别方法[J].智能计算机与应用,2020(7):141-146.

同被引文献61

1李妮,关焕梅,杨飘,董文永.基于BERT-IDCNN-CRF的中文命名实体识别方法[J].山东大学学报（理学版）,2020,55(1):102-109. 被引量：66
2刘梦迪,梁循.基于偏旁部首知识表示学习的汉字字形相似度计算方法[J].中文信息学报,2021,35(12):47-59. 被引量：8
3王阳,李振东,杨观赐.基于深度学习的OCR文字识别在银行业的应用研究[J].计算机应用研究,2020,37(S02):375-379. 被引量：24
4张晓艳,王挺,陈火旺.命名实体识别研究[J].计算机科学,2005,32(4):44-48. 被引量：69
5孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：89
6王达,张坤.隐马尔可夫模型在命名实体中的应用[J].黑龙江科技信息,2007(12S):78-78. 被引量：1
7张小衡,王玲玲.中文机构名称的识别与分析[J].中文信息学报,1997,11(4):21-32. 被引量：85
8郑逢强,林磊,刘秉权,孙承杰.《知网》在命名实体识别中的应用研究[J].中文信息学报,2008,22(5):97-101. 被引量：11
9孙镇,王惠临.命名实体识别研究进展综述[J].现代图书情报技术,2010(6):42-47. 被引量：102
10邱泉清,苗夺谦,张志飞.中文微博命名实体识别[J].计算机科学,2013,40(6):196-198. 被引量：33

引证文献6

1赵辉,庞海婷,冯珊珊,韩东辰.中文命名实体识别技术综述[J].长春工业大学学报,2021,42(5):444-450. 被引量：11
2王宗泽,张吴波.完全自注意力融合多元卷积的中文命名实体识别研究[J].佳木斯大学学报（自然科学版）,2022,40(5):34-38. 被引量：1
3孙弋,梁兵涛.基于BERT和多头注意力的中文命名实体识别方法[J].重庆邮电大学学报（自然科学版）,2023,35(1):110-118. 被引量：13
4夏青,石明钧.基于MacBERT的徽派古建筑修缮文本实体识别方法研究[J].电脑知识与技术,2023,19(31):44-47.
5陈金玉,王名扬,刘旭.融合汉字字形结构信息的中文命名实体识别[J].东北师大学报（自然科学版）,2024,56(2):60-68. 被引量：2
6武文静,岳杰,王佳丽,刘枫.基于深度学习的中文命名实体识别技术研究[J].河北建筑工程学院学报,2024,42(3):210-215.

二级引证文献27

1刘济宗,牛利月,刘星.基于预训练模型的食品评论信息分析方法[J].电脑编程技巧与维护,2022(7):77-79.
2郭小磊,张吴波.基于ERNIE-BiGRU-CRF-FL的中文命名实体识别方法[J].山西大同大学学报（自然科学版）,2022,38(6):23-28. 被引量：3
3方美丽,郑莹莹,陶坤旺,赵习枝,仇阿根,陆文.基于MacBERT和对抗训练的城市内涝信息识别方法[J].集成技术,2023,12(1):56-67. 被引量：2
4赵辉,冯珊珊,庞海婷,韩东辰.深度学习元事件抽取研究[J].长春工业大学学报,2023,44(2):169-176.
5周丰丰,张亚琪.基于ProtBert预训练模型的HLA-Ⅰ和多肽的结合预测算法[J].吉林大学学报（理学版）,2023,61(3):651-657. 被引量：1
6喻金平,朱伟锋,廖列法.基于RoBERTa-wwm-BiLSTM-CRF的扶持政策文本实体识别研究[J].计算机工程与科学,2023,45(8):1498-1507. 被引量：12
7袁里驰.基于BERT-BiLSTM-CRF的中文分词和词性标注联合方法[J].小型微型计算机系统,2023,44(9):1906-1911. 被引量：14
8宋学武,张劲松,唐世贵,廖松,陈昀,尹智.自然语言处理在招投标文件管理平台中的应用[J].科技创新与应用,2023,13(29):189-192. 被引量：1
9冯珊珊,赵辉,曹亚亚.基于指针标注的金融事件联合抽取模型[J].长春工业大学学报,2023,44(5):441-448.
10孙玉芹,肖静婷,王海超.基于多模型融合的电力运检命名实体识别[J].科学技术与工程,2023,23(36):15545-15552. 被引量：3

1王栋,李业刚,张晓,蒲相忠.基于准循环神经网络的中文命名实体识别[J].计算机工程与设计,2020,41(7):2038-2043. 被引量：11
2宋汝良,杜国宁.在线中文命名实体识别平台研究[J].江苏科技信息,2020,37(15):64-66.
3赵丽娟.基于结合美育实现立德树人的价值研究[J].读书文摘（中）,2020,0(3):0029-0029.
4申资卓.基于预训练语言模型的中文零指代消解[J].信息通信,2020(5):41-43.
5沈天寒,曹文群,张瑞云,缪俊.社区卫生服务机构安宁疗护服务项目的合理性分析--以上海市某社区为例[J].中国初级卫生保健,2020,34(5):31-34. 被引量：5
6胡甜甜,但雅波,胡杰,李想,李少波.基于注意力机制的Bi-LSTM结合CRF的新闻命名实体识别及其情感分类[J].计算机应用,2020,40(7):1879-1883. 被引量：14
7孙冰清,姜芹,张文刚,张妤,顾欣.基于qPCR检测金黄色葡萄球菌3种肠毒素基因的方法研究[J].食品安全质量检测学报,2020,11(9):2798-2805. 被引量：3
8王江晴,陈思敏,刘晶,孙翀,毕建权.基于上下文语义的社交网络用户人格预测[J].中南民族大学学报（自然科学版）,2020,39(3):289-294. 被引量：3
9谢琼英,李运健,王开春.基于熵值法的1∶10000基础地理信息数据更新质量评价[J].测绘与空间地理信息,2020,43(S01):106-110. 被引量：2
10阿依图尔荪·喀迪尔.基于深度学习的电子病历医疗命名实体识别[J].电脑知识与技术,2020,16(16):195-197. 被引量：1

成都信息工程大学学报

2020年第3期

浏览历史

内容加载中请稍等...

基于深度学习的中文命名实体识别研究被引量：6

参考文献10

二级参考文献34

共引文献403

同被引文献61

引证文献6

二级引证文献27

相关作者

相关机构

相关主题

浏览历史

基于深度学习的中文命名实体识别研究 被引量：6

参考文献10

二级参考文献34

共引文献403

同被引文献61

引证文献6

二级引证文献27

相关作者

相关机构

相关主题

浏览历史

基于深度学习的中文命名实体识别研究被引量：6