期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
基于MacBERT的融合依存句法信息和多视角词汇信息的中文命名实体识别方法
1
作者 李代成 李晗 +1 位作者 刘哲宇 龚诗恒 《计算机科学》 北大核心 2025年第S1期278-285,共8页
在实体类型开放和实体结构复杂的中文环境下,中文命名实体识别任务存在明显的实体边界判断错误和实体分类准确率低等问题。为了进一步改善上述问题,提出了一种以字符作为编码单位,并基于MacBERT预训练模型的中文命名实体识别模型——Mac... 在实体类型开放和实体结构复杂的中文环境下,中文命名实体识别任务存在明显的实体边界判断错误和实体分类准确率低等问题。为了进一步改善上述问题,提出了一种以字符作为编码单位,并基于MacBERT预训练模型的中文命名实体识别模型——MacBERT-SDI-ML。首先,为了提取更丰富的中文语义特征,提高实体识别的准确性,模型采用MacBERT作为嵌入层。其次,为了进一步增强实体表示的特征,提高实体分类的准确性,模型通过一个依存句法信息解析器(SDIP)对实体更丰富的依存信息进行更高效的提取,并将其融合到字符表示中。此外,考虑到字符在不同的词汇中可能处在不同的位置,模型设计了一种基于自注意力机制的面向多视角的词汇信息融合组件(MLIF),来进一步增强字符表示的边界特征,有助于提高对边界判断的能力。最后,分别在Weibo,OntoNotes和Resume数据集上对模型进行训练。实验表明,MacBERT-SDI-ML模型在3个数据集上的F1值分别达到72.97%,86.56%和98.45%。 展开更多
关键词 中文命名实体识别 MacBERT 词汇信息 依存信息 预训练模型 自注意力机制
在线阅读 下载PDF
中文名实体识别:基于词触发对的条件随机域方法 被引量:3
2
作者 赵健 王晓龙 +1 位作者 关毅 徐志明 《高技术通讯》 CAS CSCD 北大核心 2006年第8期795-801,共7页
首次把条件随机域(CRF)模型应用到了中文名实体识别中,且根据中文的特点,定义了多种特征模板。同时,为了解决长距离约束问题,将词语触发对融合到了CRF模型中。提出了基于词语方差(word variance)的选词方法,在词语相关性计算... 首次把条件随机域(CRF)模型应用到了中文名实体识别中,且根据中文的特点,定义了多种特征模板。同时,为了解决长距离约束问题,将词语触发对融合到了CRF模型中。提出了基于词语方差(word variance)的选词方法,在词语相关性计算上,采用了平均互信息(AMI)方法和χ^2统计量方法。通过在半年人民日报上的测试,结果表明在采用相同特征集合的条件下,条件随机域模型较其他概率模型有更好的性能表现;融合长距离触发对的条件随机域模型可以使系统的F量度提高约1.38%。 展开更多
关键词 中文名实体识别 概率模型 条件随机域 词语触发对 信息抽取 自然语言处理
在线阅读 下载PDF
Chinese Clinical Named Entity Recognition Using Multi-Feature Fusion and Multi-Scale Local Context Enhancement 被引量:1
3
作者 Meijing Li Runqing Huang Xianxian Qi 《Computers, Materials & Continua》 SCIE EI 2024年第8期2283-2299,共17页
Chinese Clinical Named Entity Recognition(CNER)is a crucial step in extracting medical information and is of great significance in promoting medical informatization.However,CNER poses challenges due to the specificity... Chinese Clinical Named Entity Recognition(CNER)is a crucial step in extracting medical information and is of great significance in promoting medical informatization.However,CNER poses challenges due to the specificity of clinical terminology,the complexity of Chinese text semantics,and the uncertainty of Chinese entity boundaries.To address these issues,we propose an improved CNER model,which is based on multi-feature fusion and multi-scale local context enhancement.The model simultaneously fuses multi-feature representations of pinyin,radical,Part of Speech(POS),word boundary with BERT deep contextual representations to enhance the semantic representation of text for more effective entity recognition.Furthermore,to address the model’s limitation of focusing just on global features,we incorporate Convolutional Neural Networks(CNNs)with various kernel sizes to capture multi-scale local features of the text and enhance the model’s comprehension of the text.Finally,we integrate the obtained global and local features,and employ multi-head attention mechanism(MHA)extraction to enhance the model’s focus on characters associated with medical entities,hence boosting the model’s performance.We obtained 92.74%,and 87.80%F1 scores on the two CNER benchmark datasets,CCKS2017 and CCKS2019,respectively.The results demonstrate that our model outperforms the latest models in CNER,showcasing its outstanding overall performance.It can be seen that the CNER model proposed in this study has an important application value in constructing clinical medical knowledge graph and intelligent Q&A system. 展开更多
关键词 cner multi-feature fusion BiLSTM CNN MHA
在线阅读 下载PDF
基于深度学习和语法规约的需求文档命名实体识别
4
作者 许梦笛 王金华 《计算机与现代化》 2021年第1期105-110,共6页
命名实体识别是自然语言处理中的一个关键。在需求文档中存在过长的实体:虚功能,使得普适的传统命名实体识别方法无法有效地识别得到完整的实体。本文针对需求文档实体识别模型进行深入研究,引入深度学习方法,提出基于深度残差网络(ResN... 命名实体识别是自然语言处理中的一个关键。在需求文档中存在过长的实体:虚功能,使得普适的传统命名实体识别方法无法有效地识别得到完整的实体。本文针对需求文档实体识别模型进行深入研究,引入深度学习方法,提出基于深度残差网络(ResNet)的CNER方法与基于规则的方法相结合,进行针对中文需求文档的分词。本文的命名实体识别模型是一种编码-解码模型,使用带有注意力机制的双向长短期记忆网络(BiLSTM with attention)进行编码,得到分词后文本的上下文特征和句式特征,使用条件随机场(CRF)方法进行解码,再结合语法规约的干预进行需求文档实体识别。实验表明,所提方法在需求文档领域识别效果优于普适的传统方法。 展开更多
关键词 命名实体识别 cner 深度残差网络 双向长短期记忆网络 条件随机场 语法规约
在线阅读 下载PDF
Chinese named entity recognition with multi-network fusion of multi-scale lexical information 被引量:1
5
作者 Yan Guo Hong-Chen Liu +3 位作者 Fu-Jiang Liu Wei-Hua Lin Quan-Sen Shao Jun-Shun Su 《Journal of Electronic Science and Technology》 EI CAS CSCD 2024年第4期53-80,共28页
Named entity recognition(NER)is an important part in knowledge extraction and one of the main tasks in constructing knowledge graphs.In today’s Chinese named entity recognition(CNER)task,the BERT-BiLSTM-CRF model is ... Named entity recognition(NER)is an important part in knowledge extraction and one of the main tasks in constructing knowledge graphs.In today’s Chinese named entity recognition(CNER)task,the BERT-BiLSTM-CRF model is widely used and often yields notable results.However,recognizing each entity with high accuracy remains challenging.Many entities do not appear as single words but as part of complex phrases,making it difficult to achieve accurate recognition using word embedding information alone because the intricate lexical structure often impacts the performance.To address this issue,we propose an improved Bidirectional Encoder Representations from Transformers(BERT)character word conditional random field(CRF)(BCWC)model.It incorporates a pre-trained word embedding model using the skip-gram with negative sampling(SGNS)method,alongside traditional BERT embeddings.By comparing datasets with different word segmentation tools,we obtain enhanced word embedding features for segmented data.These features are then processed using the multi-scale convolution and iterated dilated convolutional neural networks(IDCNNs)with varying expansion rates to capture features at multiple scales and extract diverse contextual information.Additionally,a multi-attention mechanism is employed to fuse word and character embeddings.Finally,CRFs are applied to learn sequence constraints and optimize entity label annotations.A series of experiments are conducted on three public datasets,demonstrating that the proposed method outperforms the recent advanced baselines.BCWC is capable to address the challenge of recognizing complex entities by combining character-level and word-level embedding information,thereby improving the accuracy of CNER.Such a model is potential to the applications of more precise knowledge extraction such as knowledge graph construction and information retrieval,particularly in domain-specific natural language processing tasks that require high entity recognition precision. 展开更多
关键词 Bi-directional long short-term memory(BiLSTM) Chinese named entity recognition(cner) Iterated dilated convolutional neural network(IDCNN) Multi-network integration Multi-scale lexical features
在线阅读 下载PDF
中文命名实体识别研究综述 被引量:30
6
作者 赵继贵 钱育蓉 +2 位作者 王魁 侯树祥 陈嘉颖 《计算机工程与应用》 CSCD 北大核心 2024年第1期15-27,共13页
命名实体识别(named entity recognition,NER)是自然语言处理中最基本的任务之一,其主要内容是识别自然语言文本中具有特定意义的实体类型和边界。然而,中文命名实体识别(Chinese named entity recognition,CNER)的数据样本存在词边界... 命名实体识别(named entity recognition,NER)是自然语言处理中最基本的任务之一,其主要内容是识别自然语言文本中具有特定意义的实体类型和边界。然而,中文命名实体识别(Chinese named entity recognition,CNER)的数据样本存在词边界模糊、语义多样化、形态特征模糊以及中文语料库内容较少等问题,导致中文命名实体识别性能难以大幅提升。介绍了CNER的数据集、标注方案和评价指标。按照CNER的研究进程,将CNER方法分为基于规则的方法、基于统计的方法和基于深度学习的方法三类,并对近五年来基于深度学习的CNER主要模型进行总结。探讨CNER的研究趋势,为新方法的提出和未来研究方向提供一定参考。 展开更多
关键词 自然语言处理 中文命名实体识别 深度学习 预训练模型 机器学习
在线阅读 下载PDF
基于知识增强的中文命名实体识别 被引量:13
7
作者 胡新棒 于溆乔 +1 位作者 李邵梅 张建朋 《计算机工程》 CAS CSCD 北大核心 2021年第11期84-92,共9页
基于字词联合的中文命名实体识别模型能够兼顾字符级别与词语级别的信息,但受未登录词影响较大且在小规模数据集上存在训练不充分等问题。在现有LR-CNN模型的基础上,提出一种结合知识增强的中文命名实体识别模型,采用相对位置编码的多... 基于字词联合的中文命名实体识别模型能够兼顾字符级别与词语级别的信息,但受未登录词影响较大且在小规模数据集上存在训练不充分等问题。在现有LR-CNN模型的基础上,提出一种结合知识增强的中文命名实体识别模型,采用相对位置编码的多头注意力机制提高模型上下文信息捕捉能力,通过实体词典融入先验知识降低未登录词的影响并增强模型学习能力。实验结果表明,该模型在保持较快解码速度和较低计算资源占用量的情况下,在MSRA、People Daily、Resume、Weibo数据集上相比SoftLexicon、FLAT等模型F1值均有明显提升,同时具有较强的鲁棒性和泛化能力。 展开更多
关键词 中文命名实体识别 注意力机制 知识增强 未登录词 小规模数据集
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部