期刊文献+

融合位置和实体类别信息的中文命名实体识别 被引量:1

Chinese Named Entity Recognition Integrating Positional and Entity Category Information
在线阅读 下载PDF
导出
摘要 词语作为一种上下文信息在中文命名实体识别(NER)任务中发挥着重要作用。以往基于字符的中文NER方法虽然在一定程度上取得了成功,但仍存在词语信息嵌入方式简单、特征捕捉方式单一,且忽视了潜在词的影响、未能充分利用词语信息的问题。针对上述问题,提出一种改进的中文NER方法。首先,通过基于全遮蔽技术的预训练模型RoBERTa-wwm将文本表示为字符级嵌入向量;其次,使用门控空洞卷积神经网络(DGCNN)模型进一步捕捉文本的特征信息;然后,在键值记忆网络(KV-MemNN)模型中采用位置实体类别组合机制(PECM)更有效地融合词语信息并缓解潜在词冲突所带来的影响;最后,利用条件随机场(CRF)模型对预测结果进行约束得到最佳标签序列。实验结果表明,该方法在Weibo、MSRA和Resume数据集上的F1值分别达到71.82%、95.00%和96.14%,相比于融合词语信息的FLAT模型分别提升了11.50、0.88、0.69百分点,同时在不同实体上的识别表现整体优于RoBERTa-wwm+CRF和Lattice LSTM模型。此外,通过预训练模型的对比和消融实验进一步证明了KV-MemNN和RoBERTa-wwm模型的有效性。 Words play a crucial role as contextual information in Chinese Named Entity Recognition(NER)tasks.Although character-based methods have achieved some success,existing methods simplistically embed word information and use a limited feature capture approach,overlooking the influence of potential words and failing to fully utilize word information.To address these issues,this study proposes an improved Chinese NER method.First,the pretrained model uses a full-word masking technique,known as RoBERTa-wwm,to represent the text as character-level embedding vectors.Second,the Dilated Gated Convolution Neural Network(DGCNN)model captures additional textual features.Third,the Key-Value Memory Network(KV-MemNN)model introduces a Position Entity-category Combination Mechanism(PECM)to integrate word information and further mitigate the impact of potential word conflicts.Finally,the Conditional Random Field(CRF)model constrains the predicted results and obtains the optimal label sequences.The experimental results obtained F1 values of 71.82%,95.00%,and 96.14%for the Weibo,MSRA,and Resume datasets,respectively.This represents an improvement of 11.50,0.88,and 0.69 percentage points compared to the FLAT model integrating word information.Moreover,this method outperformed RoBERTa-wwm+CRF and Lattice Long Short-Term Memory(LSTM)in entity recognition across various types.Pretrained model comparisons and ablation studies confirmed the effectiveness of the KV-MemNN and RoBERTa-wwm models.
作者 杨竣辉 李苏晋 YANG Junhui;LI Sujin(School of Information Engineering,Jiangxi University of Science and Technology,Ganzhou 341000,Jiangxi,China)
出处 《计算机工程》 北大核心 2025年第3期113-121,共9页 Computer Engineering
基金 国家自然科学基金(61273328,61305053,62066019) 国家重点研发计划(2020YFB1713700) 江西省自然科学基金(20202BABL202020)。
关键词 命名实体识别 键值记忆网络 词语信息 位置信息 实体类别信息 Named Entity Recognition(NER) Key-Value Memory Network(KV-MemNN) word information positional information entity category information
  • 相关文献

参考文献6

二级参考文献34

共引文献190

同被引文献29

引证文献1

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部