期刊文献+
共找到308篇文章
< 1 2 16 >
每页显示 20 50 100
蒙古语复数词缀-nar、-ner的词源 被引量:1
1
作者 哈斯巴特尔 《满语研究》 2009年第2期47-52,共6页
蒙古语复数词缀-nar、-ner为专门表达指人名词的复数,语义上与-uul、-l,-ud、-d相同。-nar、-ner为复合词缀,是由早期集合数词缀*-tan、*-ten加-la、-le演变而来。*-tan、*-ten+-la、-le演变为*-tala、*-tele后经过进一... 蒙古语复数词缀-nar、-ner为专门表达指人名词的复数,语义上与-uul、-l,-ud、-d相同。-nar、-ner为复合词缀,是由早期集合数词缀*-tan、*-ten加-la、-le演变而来。*-tan、*-ten+-la、-le演变为*-tala、*-tele后经过进一步语音变化演变为-nar、-ner。因此,-nar、-ner在来源上与-uul、-l(<*-tun、*-tn+-la、-le)一样,只是有了不同的语音演变。 展开更多
关键词 蒙古语 -nar -ner 词源
在线阅读 下载PDF
Cockayne综合征诊断与治疗研究进展
2
作者 丁圆 吴迪 杨艳玲 《实用医院临床杂志》 2026年第1期1-7,共7页
Cockayne综合征(Cockayne syndrome,CS)是一种罕见病,为常染色体隐性遗传病,主要由于ERCC6和ERCC8基因突变致病,分别引起CSB、CSA型,导致转录偶联核苷酸切除修复缺陷,引起生长迟缓、智力运动落后、早衰、营养不良、光敏感、神经退行性... Cockayne综合征(Cockayne syndrome,CS)是一种罕见病,为常染色体隐性遗传病,主要由于ERCC6和ERCC8基因突变致病,分别引起CSB、CSA型,导致转录偶联核苷酸切除修复缺陷,引起生长迟缓、智力运动落后、早衰、营养不良、光敏感、神经退行性疾病、视网膜色素变性、肝损害、骨病等多系统损害。近年来,随着分子生物学和基因组学技术的发展,Cockayne综合征的病理机制逐渐明确,诊断和治疗策略取得了显著进展。 展开更多
关键词 Cockayne综合征 转录偶联核苷酸切除修复 ERCC6 ERCC8 多系统损害 早衰
暂未订购
基于连续提取的土壤持久性有机污染物老化及形态分布研究
3
作者 祝秀庭 丁洋 +5 位作者 马梦雪 秦世斌 张原 李小水 瞿程凯 祁士华 《环境化学》 北大核心 2026年第1期175-187,共13页
为研究干旱条件下土壤持久性有机污染物(POPs)老化时的形态分布及生物有效性,开展了为期130 d的室内微宇宙实验.选取14种不同理化性质的卤代POPs为目标污染物对土壤进行加标,包括3种有机氯农药(OCPs)、5种多氯联苯(PCBs)、6种多溴联苯醚... 为研究干旱条件下土壤持久性有机污染物(POPs)老化时的形态分布及生物有效性,开展了为期130 d的室内微宇宙实验.选取14种不同理化性质的卤代POPs为目标污染物对土壤进行加标,包括3种有机氯农药(OCPs)、5种多氯联苯(PCBs)、6种多溴联苯醚(PBDEs).老化后的土壤经振荡、超声、硅烷化和碱处理四步连续提取后得到目标POPs的生物可及态、稳定吸附态和两类不可提取态残留.结果表明,污染物平均挥发速率在第5天左右达到峰值,此后显著降低,30 d后基本无挥发.第130天时,生物可及态、稳定吸附态和不可提取态的占比分别为79.5%—96.3%、3.0%—14.2%和0.03%—8.8%.卤代POPs的形态变化受温度变化及污染物理化性质影响,生物可及态和稳定吸附态含量在温度升高时会分别升高和降低,高分子量的POPs稳定吸附态含量相对较高,不可提取态相对较低.整个老化时间内生物可及态始终是主要形态,干燥土壤中POPs的生物有效性和环境风险在较长时间内可能保持较高状态. 展开更多
关键词 持久性有机污染物 新污染物 结合态残留 不可提取态残留 连续提取
原文传递
一种面向特定信息领域的大模型命名实体识别方法
4
作者 李永斌 刘楝 郑杰 《电子与信息学报》 北大核心 2026年第2期662-672,共11页
在特定信息领域,尤其是开源信息领域,传统模型命名实体识别面临缺乏充足标注数据、难以满足复杂信息抽取任务等困难。该文聚焦开源信息领域,提出一种基于大语言模型的命名实体识别方法,旨在通过大语言模型强大的语义推理能力准确理解复... 在特定信息领域,尤其是开源信息领域,传统模型命名实体识别面临缺乏充足标注数据、难以满足复杂信息抽取任务等困难。该文聚焦开源信息领域,提出一种基于大语言模型的命名实体识别方法,旨在通过大语言模型强大的语义推理能力准确理解复杂的抽取要求,并自动完成抽取任务。通过指令微调和利用检索增强生成将专家知识融入模型,结合问题回归模块,使低参数通用型大模型基座能够快速适应开源信息这一特定领域,形成领域专家模型。实验结果表明,仅需少量的成本,便能构建一个高效的领域专家系统,为开源信息领域的命名实体识别提供了一种更为有效的解决方案。 展开更多
关键词 大语言模型 命名实体识别 指令微调 检索增强生成 知识库
在线阅读 下载PDF
基于全域信息融合和多维关系感知的命名实体识别模型 被引量:1
5
作者 胡婕 武帅星 +1 位作者 曹芝兰 张龑 《计算机应用》 北大核心 2025年第5期1511-1519,共9页
现有的基于双向长短时记忆(BiLSTM)网络的命名实体识别(NER)模型难以全面理解文本的整体语义以及捕捉复杂的实体关系。因此,提出一种基于全域信息融合和多维关系感知的NER模型。首先,通过BERT(Bidirectional Encoder Representations fr... 现有的基于双向长短时记忆(BiLSTM)网络的命名实体识别(NER)模型难以全面理解文本的整体语义以及捕捉复杂的实体关系。因此,提出一种基于全域信息融合和多维关系感知的NER模型。首先,通过BERT(Bidirectional Encoder Representations from Transformers)获取输入序列的向量表示,并结合BiLSTM进一步学习输入序列的上下文信息。其次,提出由梯度稳定层和特征融合模块组成的全域信息融合机制:前者使模型保持稳定的梯度传播并更新优化输入序列的表示,后者则融合BiLSTM的前后向表示获取更全面的特征表示。接着,构建多维关系感知结构学习不同子空间单词的关联性,以捕获文档中复杂的实体关系。此外,使用自适应焦点损失函数动态调整不同类别实体的权重,提高模型对少数类实体的识别性能。最后,在7个公开数据集上将所提模型和11个基线模型进行对比,实验结果表明所提模型的F1值均优于对比模型,可见该模型的综合性较优。 展开更多
关键词 命名实体识别 全域信息融合机制 梯度稳定层 多维关系感知 自适应焦点损失
在线阅读 下载PDF
PCB工艺FMEA领域知识图谱构建与应用 被引量:1
6
作者 叶进 林琦越 +2 位作者 唐欣 王秋祥 胡宁 《计算机工程与应用》 北大核心 2025年第11期227-237,共11页
随着电子产品的快速发展,产业链厂商对印制电路板(PCB)的失效模式和影响分析(FMEA)提出了更高水平要求,传统的FMEA分析方法已经不能满足复杂电子产品的需求。为此提出了一套PCB工艺FMEA知识图谱构建与应用框架,实现端到端的FMEA分析新... 随着电子产品的快速发展,产业链厂商对印制电路板(PCB)的失效模式和影响分析(FMEA)提出了更高水平要求,传统的FMEA分析方法已经不能满足复杂电子产品的需求。为此提出了一套PCB工艺FMEA知识图谱构建与应用框架,实现端到端的FMEA分析新模式。在图谱构建过程中,针对大量实体为复杂句子的特点,训练了一个加入PCB与FMEA特征词典的FLEBERT NER模型,实现对失效数据的实体识别,实验对比证明效果良好;对识别的实体采用Sentence-BERT结合FLEBERT预训练模型进行实体对齐,提升知识的质量;通过Neo4j进行知识存储完成知识图谱构建。基于已构建的知识图谱,搭建了FMEA知识图谱平台,初步实现了知识探索、知识问答和知识推荐的应用,展示了知识图谱技术在PCB工艺FMEA分析领域具备良好的应用前景。 展开更多
关键词 知识图谱 印制电路板(PCB) 失效模式和影响分析(FMEA) 命名实体识别(NER) BERT
在线阅读 下载PDF
融合位置和实体类别信息的中文命名实体识别 被引量:1
7
作者 杨竣辉 李苏晋 《计算机工程》 北大核心 2025年第3期113-121,共9页
词语作为一种上下文信息在中文命名实体识别(NER)任务中发挥着重要作用。以往基于字符的中文NER方法虽然在一定程度上取得了成功,但仍存在词语信息嵌入方式简单、特征捕捉方式单一,且忽视了潜在词的影响、未能充分利用词语信息的问题。... 词语作为一种上下文信息在中文命名实体识别(NER)任务中发挥着重要作用。以往基于字符的中文NER方法虽然在一定程度上取得了成功,但仍存在词语信息嵌入方式简单、特征捕捉方式单一,且忽视了潜在词的影响、未能充分利用词语信息的问题。针对上述问题,提出一种改进的中文NER方法。首先,通过基于全遮蔽技术的预训练模型RoBERTa-wwm将文本表示为字符级嵌入向量;其次,使用门控空洞卷积神经网络(DGCNN)模型进一步捕捉文本的特征信息;然后,在键值记忆网络(KV-MemNN)模型中采用位置实体类别组合机制(PECM)更有效地融合词语信息并缓解潜在词冲突所带来的影响;最后,利用条件随机场(CRF)模型对预测结果进行约束得到最佳标签序列。实验结果表明,该方法在Weibo、MSRA和Resume数据集上的F1值分别达到71.82%、95.00%和96.14%,相比于融合词语信息的FLAT模型分别提升了11.50、0.88、0.69百分点,同时在不同实体上的识别表现整体优于RoBERTa-wwm+CRF和Lattice LSTM模型。此外,通过预训练模型的对比和消融实验进一步证明了KV-MemNN和RoBERTa-wwm模型的有效性。 展开更多
关键词 命名实体识别 键值记忆网络 词语信息 位置信息 实体类别信息
在线阅读 下载PDF
层次融合多元知识的命名实体识别框架——HTLR
8
作者 吕学强 王涛 +1 位作者 游新冬 徐戈 《计算机应用》 北大核心 2025年第1期40-47,共8页
中文命名实体识别(NER)任务旨在抽取非结构化文本中包含的实体并给它们分配预定义的实体类别。针对大多数中文NER方法在上下文信息缺乏时的语义学习不足问题,提出一种层次融合多元知识的NER框架——HTLR(Chinese NER method based on Hi... 中文命名实体识别(NER)任务旨在抽取非结构化文本中包含的实体并给它们分配预定义的实体类别。针对大多数中文NER方法在上下文信息缺乏时的语义学习不足问题,提出一种层次融合多元知识的NER框架——HTLR(Chinese NER method based on Hierarchical Transformer fusing Lexicon and Radical),以通过分层次融合的多元知识来帮助模型学习更丰富、全面的上下文信息和语义信息。首先,通过发布的中文词汇表和词汇向量表识别语料中包含的潜在词汇并把它们向量化,同时通过优化后的位置编码建模词汇和相关字符的语义关系,以学习中文的词汇知识;其次,通过汉典网发布的基于汉字字形的编码将语料转换为相应的编码序列以代表字形信息,并提出RFECNN(Radical Feature Extraction-Convolutional Neural Network)模型来提取字形知识;最后,提出Hierarchical Transformer模型,其中由低层模块分别学习字符和词汇以及字符和字形的语义关系,并由高层模块进一步融合字符、词汇、字形等多元知识,从而帮助模型学习语义更丰富的字符表征。在Weibo、Resume、MSRA和OntoNotes4.0公开数据集进行了实验,与主流方法NFLAT(Non-Flat-LAttice Transformer for Chinese named entity recognition)的对比结果表明,所提方法的F1值在4个数据集上分别提升了9.43、0.75、1.76和6.45个百分点,达到最优水平。可见,多元语义知识、层次化融合、RFE-CNN结构和Hierarchical Transformer结构对学习丰富的语义知识及提高模型性能是有效的。 展开更多
关键词 命名实体识别 自然语言处理 知识图谱构建 词汇增强 字形增强
在线阅读 下载PDF
工艺参数对液氢储罐密闭升压时长的影响
9
作者 许鸿昊 成清校 任宏杰 《化工机械》 2025年第5期823-827,共5页
为了优化液氢储罐的工艺,确保液氢密闭储存期间的安全性,探讨了液氢储罐密闭升压的特性。以一台40 m^(3)液氢储罐为对象,基于俄罗斯模型,分析初始充满率、标态蒸发率和最终压力对液氢升压时长的影响。结果表明:在发生胀罐前,液氢升压曲... 为了优化液氢储罐的工艺,确保液氢密闭储存期间的安全性,探讨了液氢储罐密闭升压的特性。以一台40 m^(3)液氢储罐为对象,基于俄罗斯模型,分析初始充满率、标态蒸发率和最终压力对液氢升压时长的影响。结果表明:在发生胀罐前,液氢升压曲线是直线,升压时长随着最终压力的增大而增大;最佳初始充满率随最终压力的增大而线性减小;升压时长和标态蒸发率近似呈反比关系;假设液氢标态蒸发率为0.8%,最终压力为1.0 MPa(A),则在初始充满率为65%时,液氢升压时长可以达到最大的754.4 h。 展开更多
关键词 储罐 液氢 升压 初始充满率 标态蒸发率
在线阅读 下载PDF
融合实体头尾关键特征的命名实体识别
10
作者 雷海卫 宋朝帅 《计算机系统应用》 2025年第6期12-20,共9页
针对传统基于阅读理解框架的命名实体识别(NER)方法存在的单条样本实体数量稀释以及在预测实体头尾时缺乏对实体完整位置信息的利用这两方面问题,本文基于阅读理解框架提出一种融合实体头尾关键特征的医学文本命名实体识别模型IKFSE(int... 针对传统基于阅读理解框架的命名实体识别(NER)方法存在的单条样本实体数量稀释以及在预测实体头尾时缺乏对实体完整位置信息的利用这两方面问题,本文基于阅读理解框架提出一种融合实体头尾关键特征的医学文本命名实体识别模型IKFSE(integrated key feature of entity start and end).首先,设计一种实体头尾关键特征提取模块,提取出针对医学实体起始位置和结束位置的关键特征,减少冗余信息对模型的影响;其次,设计一种实体头尾特征交叉融合模块,在对实体起始位置和结束位置进行预测时分别引入二者对彼此的影响,从而引入实体完整的位置信息,提高模型的语义表征能力.在cEHRNER和CCKS2017两个公开数据集上将IKFSE与多个主流序列标注模型和阅读理解模型相比,结果表明本文所提方法在中文医学NER任务中有着更好的性能. 展开更多
关键词 医学文本 命名实体识别 关键特征 特征融合 完整位置信息
在线阅读 下载PDF
联合边界生成的多目标学习的嵌套命名实体识别 被引量:1
11
作者 徐章杰 陈艳平 +2 位作者 扈应 黄瑞章 秦永彬 《计算机应用》 北大核心 2025年第7期2229-2236,共8页
命名实体识别(NER)旨在从非结构化文本中识别预定义的实体类型。基于跨度的NER方法通过枚举所有可能的跨度进行分类,然而文本中相邻的跨度共享上下文语义,会导致跨度之间的边界语义信息模糊,从而使模型难以获取跨度间的依赖信息。针对... 命名实体识别(NER)旨在从非结构化文本中识别预定义的实体类型。基于跨度的NER方法通过枚举所有可能的跨度进行分类,然而文本中相邻的跨度共享上下文语义,会导致跨度之间的边界语义信息模糊,从而使模型难以获取跨度间的依赖信息。针对跨度间边界语义信息模糊的问题,提出一种联合边界生成的多目标学习NER模型。该模型通过联合NER任务和边界生成任务,以多目标学习的方式进行共同训练。其中:使用边界生成任务作为辅助任务引导模型网络关注跨度的边界信息,以增强跨度的边界语义,进而提升NER的性能。在ACE2004、ACE2005和GENIA数据集上进行测试,所提模型的F1值分别达到了87.83%、86.90%和81.65%,实验结果充分验证了该模型在不同数据集上的有效性,也进一步验证了该模型在命名实体识别任务中的优越性能。 展开更多
关键词 命名实体识别 跨度分类 多目标学习 边界生成 神经网络
在线阅读 下载PDF
结合边界信息的对比学习嵌套命名实体识别 被引量:1
12
作者 范锦涛 陈艳平 +1 位作者 杨采薇 林川 《计算机应用》 北大核心 2025年第10期3111-3120,共10页
现有对比学习(CL)方法在嵌套命名实体识别(NER)任务中存在以下2个主要缺点:1)枚举生成的候选实体作为对比学习的对象,缺失上下文语义依赖和边界信息;2)产生不必要的噪声和无效信息,增加模型的计算负担且弱化了对比学习的性能,提出一个... 现有对比学习(CL)方法在嵌套命名实体识别(NER)任务中存在以下2个主要缺点:1)枚举生成的候选实体作为对比学习的对象,缺失上下文语义依赖和边界信息;2)产生不必要的噪声和无效信息,增加模型的计算负担且弱化了对比学习的性能,提出一个两阶段命名实体识别框架。在第一阶段,通过边界识别模型生成候选实体边界,并通过边界集成模块生成候选实体,减少不必要的负候选实体的生成;同时,在候选实体两侧插入注意力线索,生成对应的候选实体文本,使得模型能够感知上下文语义和边界信息。在第二阶段,提出一个双编码框架用于识别实体,通过对比学习将候选实体文本和实体类型注释映射到相同向量表征空间中,对比的对象不再是候选实体,而是带有注意力线索的句子。此外,设计带有标签语义的分类参数矩阵,丰富模型对候选实体的理解能力。实验结果表明,与Binder方法相比,所提方法在GENIA、ACE2005和ACE2004这3个嵌套数据集上的F1值分别提升了1.22、3.42和2.31个百分点,验证了所提方法对嵌套NER任务的有效性。 展开更多
关键词 对比学习 边界信息 双编码器 标签语义 嵌套命名实体识别
在线阅读 下载PDF
低资源场景下的命名实体识别研究综述 被引量:1
13
作者 钱丽萍 崔雨婷 +2 位作者 廉露 陈艳鹏 黄楠楠 《计算机工程与应用》 北大核心 2025年第18期1-23,共23页
命名实体识别是信息抽取的关键任务之一,旨在从非结构化文本中识别出特定的实体及其类型。现有的基于机器学习和深度学习的方法通常需要大量标注数据,而实际应用中获取这些数据往往受到资源、时间和成本的限制。因此,低资源场景下的命... 命名实体识别是信息抽取的关键任务之一,旨在从非结构化文本中识别出特定的实体及其类型。现有的基于机器学习和深度学习的方法通常需要大量标注数据,而实际应用中获取这些数据往往受到资源、时间和成本的限制。因此,低资源场景下的命名实体识别问题已经成为一个亟待解决的挑战。系统总结并分析了现有学术成果,明确了相关任务定义,并将其在低资源场景下划分为三类;接着深入探讨了五种主要技术路径:迁移学习、数据增强、提示学习、对比学习、元学习,分析了它们的局限性及未来改进方向;介绍了相关数据集和评价指标,并总结分析了典型技术方法的实验结果。最后,从整体上分析了当前低资源命名实体识别面临的挑战及未来研究趋势。 展开更多
关键词 命名实体识别(NER) 低资源场景 深度学习 自然语言处理
在线阅读 下载PDF
构建面向审计领域的大规模知识库及大模型评测指令数据集
14
作者 黄佳佳 徐超 +2 位作者 李鹏伟 詹天明 郑纬民 《中文信息学报》 北大核心 2025年第11期34-49,共16页
随着审计数智化程度的提高,构建面向审计领域的大规模知识库成为一项迫切需求。该文介绍一种领域知识库构建框架,并基于该知识库构建了大模型评测数据集。首先,分析审计知识需求并设计知识表示框架,收集领域文本并利用信息抽取技术获取... 随着审计数智化程度的提高,构建面向审计领域的大规模知识库成为一项迫切需求。该文介绍一种领域知识库构建框架,并基于该知识库构建了大模型评测数据集。首先,分析审计知识需求并设计知识表示框架,收集领域文本并利用信息抽取技术获取结构化知识。其次,提出一种基于领域专家指导的半自动化本体构建方法快速构建审计领域本体,通过神经网络抽取出大量领域命名实体并从海量审计文本中自动抽取审计知识三元组。最后,基于审计知识库,设计指令数据集并评测当前主流大模型在审计任务上的表现。实验结果表明,该文提出的方法在构建面向审计领域的知识库方面取得了显著效果。在指令数据集上的评测结果表明,各类大模型在大部分任务上的回答结果不尽如人意,尚未达到工程应用水准。 展开更多
关键词 审计知识库 命名实体识别 大语言模型 评测语料
在线阅读 下载PDF
烟草农业标准知识图谱命名实体识别方法
15
作者 李珏 侯静静 +4 位作者 李欣蓓 张晓芳 杨国涛 李素晓 张勍 《计算机应用》 北大核心 2025年第S2期77-81,共5页
针对烟草农业标准条文要素的语义复杂性高、实体类别多样和上下文关联性强等特点,设计一种以全局特征为主通道,融合局部特征信息的命名实体识别(NER)方法 BERT_I-B-M-C。该方法基于混合神经网络构建,包含BERT(Bidirectional Encoder Rep... 针对烟草农业标准条文要素的语义复杂性高、实体类别多样和上下文关联性强等特点,设计一种以全局特征为主通道,融合局部特征信息的命名实体识别(NER)方法 BERT_I-B-M-C。该方法基于混合神经网络构建,包含BERT(Bidirectional Encoder Representations from Transformers)嵌入层、特征提取层、特征权重优化层和解码层。首先,使用BERT嵌入层实现文本向量化,并使用特征提取层通过融合全局信息与局部特征提取上下文特征;其次,依据多头注意力(MHA)分配特征权重,以强化关键特征;最后,利用解码层预测实体类别。在基于132篇烟草农业标准文档构建的实体标注语料库上的实验结果表明,所提方法优于双向长短期记忆(BiLSTM)网络和BiLSTM_CRF等8种常用基线方法。针对8类实体标注类别,所提方法的F1分数均在88%以上;除去形式固定易识别的标准号,所提方法对其他实体的识别平均F1分数为90.99%。此外,消融实验结果验证了所提方法各部分在NER中的有效性。 展开更多
关键词 烟草农业标准 知识图谱 命名实体识别 混合神经网络 全局特征 局部特征
在线阅读 下载PDF
基于命名实体识别的大规模物联网二进制组件识别
16
作者 张立孝 马垚 +2 位作者 杨玉丽 于丹 陈永乐 《计算机应用》 北大核心 2025年第7期2288-2295,共8页
物联网(IoT)设备厂商在固件开发中通常会大量复用基于开源代码编译而成的开源组件,每个固件通常由上百个这样的组件构成。如果这些组件未能及时更新,未打上安全补丁的开源组件可能会携带着漏洞集成到固件中,进而给IoT设备埋下安全隐患... 物联网(IoT)设备厂商在固件开发中通常会大量复用基于开源代码编译而成的开源组件,每个固件通常由上百个这样的组件构成。如果这些组件未能及时更新,未打上安全补丁的开源组件可能会携带着漏洞集成到固件中,进而给IoT设备埋下安全隐患。因此,识别IoT固件中的二进制组件对于确保IoT设备的安全性至关重要。针对现有方法难以大规模识别二进制组件的问题,提出一种基于命名实体识别(NER)的大规模IoT二进制组件识别方法。首先,通过固件解压提取固件内部的二进制组件;然后,通过可读字符串提取和组件执行这两个方式获取组件的语义信息;最后,利用RoBERTa-BiLSTM-CRF的NER模型识别组件名和版本号。在12个流行的IoT生产商发布的6 575个固件上的实验结果表明,所提方法获得了87.67%的F1值,可成功识别163个二进制组件。可见,该方法有效扩大了IoT固件中二进制组件的识别范围,有助于从软件供应链的角度保障固件安全。 展开更多
关键词 物联网 软件供应链 组件识别 固件安全 命名实体识别
在线阅读 下载PDF
结合实体边界偏移的序列标注优化方法
17
作者 余婧 陈艳平 +2 位作者 扈应 黄瑞章 秦永彬 《计算机应用》 北大核心 2025年第8期2522-2529,共8页
针对序列标注模型在命名实体识别(NER)任务中出现的识别的实体边界与真实的实体边界之间存在位置偏差的问题,提出一种结合实体边界偏移的序列标注优化方法。首先,引入边界偏移量的概念量化每个词与实体边界之间的位置关系,计算每个词与... 针对序列标注模型在命名实体识别(NER)任务中出现的识别的实体边界与真实的实体边界之间存在位置偏差的问题,提出一种结合实体边界偏移的序列标注优化方法。首先,引入边界偏移量的概念量化每个词与实体边界之间的位置关系,计算每个词与最近实体边界的相对偏移量,再利用这些偏移量生成实体边界的候选跨度;其次,利用交并比(IoU)作为筛选标准过滤低质量的候选跨度,以保留最有可能代表实体边界的候选跨度;最后,通过边界调整模块,根据候选跨度更新标签序列中实体边界的位置,从而优化整个标签序列的实体边界,并提升实体识别的性能。实验结果表明,所提方法在数据集CLUENER2020、Resume-zh和MSRA上的F1值分别达到了80.48%、96.42%和94.80%,验证了该方法对NER任务的有效性。 展开更多
关键词 命名实体识别 序列标注 边界偏移 交并比 边界调整
在线阅读 下载PDF
基于字符表示学习与时序边界扩散的网络安全实体识别方法
18
作者 胡泽 李文君 杨宏宇 《电子与信息学报》 北大核心 2025年第5期1554-1568,共15页
网络安全实体识别作为威胁信息抽取、构建知识图谱的基础,对于发现和应对网络威胁具有至关重要的作用。该文针对当前主流的命名实体识别方法在网络安全领域泛化能力欠佳、难以清晰判断网络安全实体边界的问题,提出一种基于字符表示学习... 网络安全实体识别作为威胁信息抽取、构建知识图谱的基础,对于发现和应对网络威胁具有至关重要的作用。该文针对当前主流的命名实体识别方法在网络安全领域泛化能力欠佳、难以清晰判断网络安全实体边界的问题,提出一种基于字符表示学习与时序边界扩散的网络安全实体识别方法。该方法首先将命名实体识别任务分解为实体边界检测与实体分类两个子任务,分别进行处理;其次,对于实体边界检测任务,使用基于问答的方法将预定义的问题与数据进行编码,采用膨胀卷积残差字符网络进行数据的字符级特征提取,并使用时序边界扩散网络判断实体边界;然后,对于实体分类任务,同样使用问答方法,并独立训练分类器进行实体类型判断;最后将实体边界检测任务的结果输入实体分类任务判断实体的类型。为验证方法有效性,在网络威胁情报数据集DNRTI上进行测试。实验结果表明,边界检测效率的提升能够有效增强命名实体识别的性能。该方法在网络安全实体识别任务中不仅资源开销较小,且对比近年提出的基线方法性能有所提升,其中较最近两年的方法在F1分数上提升了0.40%~1.65%。 展开更多
关键词 命名实体识别 网络安全 边界检测 深度学习 自然语言处理
在线阅读 下载PDF
融合动态窗口与全局注意力的飞行事故实体识别
19
作者 杨可 杜冬 张雷 《计算机应用》 北大核心 2025年第S2期71-76,共6页
近年来民航飞行事故频发,构建飞行事故调查知识图谱在提升飞行安全方面至关重要,而命名实体识别(NER)是构建知识图谱的关键一环。针对飞行事故实体类型多和文本长等难点,提出一种融合动态窗口与全局注意力的飞行事故NER模型DWGAM(Dynami... 近年来民航飞行事故频发,构建飞行事故调查知识图谱在提升飞行安全方面至关重要,而命名实体识别(NER)是构建知识图谱的关键一环。针对飞行事故实体类型多和文本长等难点,提出一种融合动态窗口与全局注意力的飞行事故NER模型DWGAM(Dynamic Window Global Attention Modeling)。首先,使用BERT(Bidirectional Encoder Representations from Transformers)预训练语言模型获取序列的向量表示,结合双向长短期记忆(BiLSTM)网络进一步提取文本特征;其次,通过滑动动态窗口捕捉不同实体的上下文局部信息,并通过多头注意力机制捕捉实体的全局信息;最后,融合这2种信息以共同捕捉文本实体。在自建的飞行事故调查数据集上的实验结果表明,DWGAM的F1值达到93.39%,验证了DWGAM能够有效识别出飞行事故实体。 展开更多
关键词 飞行安全 动态窗口 命名实体识别 知识图谱 多头注意力
在线阅读 下载PDF
无人机故障诊断NER数据集构建及模型应用
20
作者 贾龙飞 李志农 +1 位作者 王奉涛 李喆 《兵器装备工程学报》 北大核心 2025年第8期45-52,共8页
针对无人机故障诊断领域缺乏专用NER数据集的现状,提出构建该垂直领域NER数据集及其命名实体识别模型的方案。依据无人机故障诊断领域文本数据的特点,创建了包含5677个领域专用名词的词典辅助分词操作,并采用中文标签进行标注。通过机... 针对无人机故障诊断领域缺乏专用NER数据集的现状,提出构建该垂直领域NER数据集及其命名实体识别模型的方案。依据无人机故障诊断领域文本数据的特点,创建了包含5677个领域专用名词的词典辅助分词操作,并采用中文标签进行标注。通过机器标注人工校对与人工标注相结合的方式,成功构建出包含235045个字符及38421个实体的无人机故障诊断领域命名实体识别数据集,命名为UFDNER。结合预训练语言模型BERT与BiLSTM-CRF方法训练得到基于该数据集的命名实体识别模型,该模型在测试集上的F1值达到87.84%,为该领域故障信息识别及知识图谱构建提供强有力的工具模型。UFDNER作为无人机故障诊断领域NER数据集,为该领域NER研究提供丰富可靠的数据集支撑,填补了无人机故障诊断领域NER数据集空白。 展开更多
关键词 无人机故障诊断 NER数据集 命名实体识别 预训练模型 BiLSTM-CRF
在线阅读 下载PDF
上一页 1 2 16 下一页 到第
使用帮助 返回顶部