期刊文献+
共找到1,112篇文章
< 1 2 56 >
每页显示 20 50 100
分布式策略与CRFs相结合识别汉语组块 被引量:6
1
作者 黄德根 于静 《中文信息学报》 CSCD 北大核心 2009年第1期16-22,共7页
该文提出了一种基于CRFs的分布式策略及错误驱动的方法识别汉语组块。该方法首先将11种类型的汉语组块进行分组,结合CRFs构建不同的组块识别模型来识别组块;之后利用基于CRFs的错误驱动技术自动对分组组块进行二次识别;最后依据各分组F... 该文提出了一种基于CRFs的分布式策略及错误驱动的方法识别汉语组块。该方法首先将11种类型的汉语组块进行分组,结合CRFs构建不同的组块识别模型来识别组块;之后利用基于CRFs的错误驱动技术自动对分组组块进行二次识别;最后依据各分组F值大小顺序处理类型冲突。实验结果表明,基于CRFs的分布式策略及错误驱动方法识别汉语组块是有效的,系统开放式测试的精确率、召回率、F值分别达到94.90%、91.00%和92.91%,好于单独的CRFs方法、分布式策略方法及其他组合方法。 展开更多
关键词 计算机应用 中文信息处理 组块识别 条件随机域(crfs) 分布式策略 基于crfs的错误驱动 浅层句法分析
在线阅读 下载PDF
基于CRFs和跨事件的事件识别研究 被引量:12
2
作者 侯立斌 李培峰 朱巧明 《计算机工程》 CAS CSCD 2012年第24期191-195,共5页
事件检测与类型识别是事件抽取的基础,具体实施分为触发词检测和事件类型识别2个阶段。分别对2个阶段进行研究,在前一阶段,针对词形特征过拟和问题,提出利用LDA模型对词语聚类的方法,考虑到中文自动分词与标注的触发词边界的不一致性,... 事件检测与类型识别是事件抽取的基础,具体实施分为触发词检测和事件类型识别2个阶段。分别对2个阶段进行研究,在前一阶段,针对词形特征过拟和问题,提出利用LDA模型对词语聚类的方法,考虑到中文自动分词与标注的触发词边界的不一致性,提出基于CRFs模型的触发词识别方法。在后一阶段,为提高事件类型识别的效果,将跨事件理论应用于中文事件类型识别。实验结果表明,该方法能提高系统性能,F值分别提高到66.3和62.0。 展开更多
关键词 事件抽取 触发词检测 事件类型识别 跨事件 crfs模型 LDA模型
在线阅读 下载PDF
基于CRFs和词典信息的中古汉语自动分词 被引量:29
3
作者 王晓玉 李斌 《数据分析与知识发现》 CSSCI CSCD 2017年第5期62-70,共9页
【目的】验证中古时期分词一致性和语料类别对CRFs分词效率的影响,在此基础上进一步提高分词效率,降低人工校对的工作量。【方法】以中古时期的史书、佛经、小说类语料为例,针对中古汉语的自动分词问题,优化分词原则,运用CRFs模型和词... 【目的】验证中古时期分词一致性和语料类别对CRFs分词效率的影响,在此基础上进一步提高分词效率,降低人工校对的工作量。【方法】以中古时期的史书、佛经、小说类语料为例,针对中古汉语的自动分词问题,优化分词原则,运用CRFs模型和词典相结合的方法,消除中古汉语人工分词结果中易出现的分词不一致问题;同时在CRFs分词中引入字符分类、字典信息两种特征,并通过对比实验选取每种特征最合适的分词模板。【结果】实验结果显示,分词结果的总F值在封闭测试中达到99%以上,开放测试的综合测试中也达到89%-95%。【局限】分词不一致研究主要针对双字词,因此三字以上词语(多字词)的识别效果稍有欠缺。【结论】在有效提高分词一致性的前提下,字符分类、词典标记特征能够有效提高中古汉语CRFs分词的精确度。同时本文提出的中古汉语分词系统可以服务于中古时期多类别的汉语语料。 展开更多
关键词 crfs模型 分词一致性 中古汉语 自动分词
原文传递
HMM和CRFs在信息抽取应用中的比较研究 被引量:12
4
作者 王昊 邓三鸿 《现代图书情报技术》 CSSCI 北大核心 2007年第12期57-63,共7页
在比较HMM和CRFs数学理论的基础上,分别提出基于HMM词角色标注和基于CRFs字角色标注的人名实体抽取模型,并通过开放性测试和实践应用两次验证、比较两者的有效性,从而在实践中证明从理论比较中得出的结论:CRFs较之HMM更适合于解决序列... 在比较HMM和CRFs数学理论的基础上,分别提出基于HMM词角色标注和基于CRFs字角色标注的人名实体抽取模型,并通过开放性测试和实践应用两次验证、比较两者的有效性,从而在实践中证明从理论比较中得出的结论:CRFs较之HMM更适合于解决序列标注或对象分类问题。 展开更多
关键词 HMM crfs 信息抽取 人名实体抽取 角色标注 特征
在线阅读 下载PDF
基于CRFs和领域本体的中文微博评价对象抽取研究 被引量:12
5
作者 丁晟春 吴婧婵媛 李霄 《中文信息学报》 CSCD 北大核心 2016年第4期159-166,共8页
微博情感分析是对微博内容进行细粒度的挖掘,有着重要的研究价值。微博评价对象的抽取是微博情感分析研究的关键问题之一。为了提高中文微博评价对象抽取的准确率,该文在中文微博特征分析和微博评论本体构建研究的基础上,尝试从词、词... 微博情感分析是对微博内容进行细粒度的挖掘,有着重要的研究价值。微博评价对象的抽取是微博情感分析研究的关键问题之一。为了提高中文微博评价对象抽取的准确率,该文在中文微博特征分析和微博评论本体构建研究的基础上,尝试从词、词性、情感词以及本体四个方面进行特征选择,采用CRFs模型对评价对象进行抽取。该文将提出的方法运用到COAE2014测评的Task5评价对象抽取任务中,宏平均准确率达到61.20%,在所有测评队伍中居第一。实验结果表明,将本体特征引入到CRFs模型中,能够有效地提高评价对象抽取的准确率。 展开更多
关键词 crfs模型 本体 特征选择 评价对象抽取 信息抽取
在线阅读 下载PDF
基于CRFs边缘概率的中文分词 被引量:19
6
作者 罗彦彦 黄德根 《中文信息学报》 CSCD 北大核心 2009年第5期3-8,共6页
将分词问题转化为序列标注问题,使用CRFs标注器进行序列标注是近年来广泛采用的分词方法。针对这一方法中CRFs的标记错误问题,该文提出基于CRFs边缘概率的分词方法。该方法从标注结果中发掘边缘概率高的候选词,重组边缘概率低的候选词,... 将分词问题转化为序列标注问题,使用CRFs标注器进行序列标注是近年来广泛采用的分词方法。针对这一方法中CRFs的标记错误问题,该文提出基于CRFs边缘概率的分词方法。该方法从标注结果中发掘边缘概率高的候选词,重组边缘概率低的候选词,提出FMM的奖励机制修正重组后的子串。在第四届SIGHAN Bakeoff中文简体语料SXU和NCC上进行闭式测试,分别在F-1值上达到了96.41%和94.30%的精度。 展开更多
关键词 计算机应用 中文信息处理 中文分词 条件随机场(crfs) 边缘概率 最大向前匹配(FMM) 全局特征
在线阅读 下载PDF
基于深度学习和CRFs的产品评论观点抽取方法 被引量:10
7
作者 睢国钦 那日萨 彭振 《情报杂志》 CSSCI 北大核心 2019年第5期177-185,共9页
[目的/意义]产品评论观点抽取任务是细粒度评论挖掘的核心任务,其面临的主要挑战是如何自动抽取评论文本中由评价对象、程度词、观点词构成的三元组。[方法/过程]针对条件随机场(CRFs)模型需要人工构造语言学特征的缺陷,提出一种基于深... [目的/意义]产品评论观点抽取任务是细粒度评论挖掘的核心任务,其面临的主要挑战是如何自动抽取评论文本中由评价对象、程度词、观点词构成的三元组。[方法/过程]针对条件随机场(CRFs)模型需要人工构造语言学特征的缺陷,提出一种基于深度学习和CRFs的产品评论抽取方法,该方法首先在连续词袋模型(CBOW)获得词向量基础上,利用双向长短期记忆神经网络(BLSTM RNN)自动学习评论语句的文本特征,再以CRFs层进行解码标注,进而识别出三元组。[结果/结论]为验证方法的有效性,针对从京东商城等电商平台上抓取的手机和酒店评论集,人工标注部分评论用于训练模型并进行测试,实验结果表明,该方法在产品评论观点抽取任务上取得了平均F值大于80%的效果。 展开更多
关键词 观点抽取 crfs深度学习 词向量 CBOW BLSTM
在线阅读 下载PDF
基于规则和CRFs的部队组合名称识别方法 被引量:1
8
作者 单赫源 吴照林 +1 位作者 张海粟 周红 《火力与指挥控制》 CSCD 北大核心 2017年第10期30-33,38,共5页
在军用文书处理中,提出了一种基于规则和CRFs的部队组合名称识别方法,旨在识别部队组合名称中包含的建制单位。首先在词语粗切分的军用文书上使用CRFs模型识别出部队组合名称,然后采用拆分规则识别部队组合名称中包含的建制单位。实验表... 在军用文书处理中,提出了一种基于规则和CRFs的部队组合名称识别方法,旨在识别部队组合名称中包含的建制单位。首先在词语粗切分的军用文书上使用CRFs模型识别出部队组合名称,然后采用拆分规则识别部队组合名称中包含的建制单位。实验表明,基于规则和CRFs的部队组合名称识别方法识别准确率达到79.48%,识别的召回率为93.93%。 展开更多
关键词 部队组合名称 crfs模型 实体识别 拆分规则
在线阅读 下载PDF
煤炭开采利用碳排放治理技术知识图谱构建与应用 被引量:2
9
作者 汪莹 王丽雅 +2 位作者 马飞 杨洋 祖子帅 《煤炭科学技术》 北大核心 2025年第6期505-521,共17页
煤炭是能源消费降碳的主力军,煤炭开发利用过程中产生的碳排放占全国碳排放总量的60%~70%,是我国完成碳减排任务的关键所在。煤炭开采利用碳排放治理技术知识图谱构建与应用聚焦煤炭开采利用碳排放治理技术,系统梳理出相关治理技术知识... 煤炭是能源消费降碳的主力军,煤炭开发利用过程中产生的碳排放占全国碳排放总量的60%~70%,是我国完成碳减排任务的关键所在。煤炭开采利用碳排放治理技术知识图谱构建与应用聚焦煤炭开采利用碳排放治理技术,系统梳理出相关治理技术知识,在此基础上构建知识图谱,挖掘出不同技术间的内在联系、适用条件、实施效果及减排路径,为相关人员获取碳排放治理技术领域前沿知识提供支撑,推动煤炭行业向绿色低碳方向转型。一是广泛收集煤炭减排技术相关的专业书籍、术语字典、权威研究报告、中国知网核心期刊文献以及各类标准规范等,采用自底向上和自顶向下的混合构建法构建煤炭开采利用碳排放治理技术领域概念知识模型;二是运用BIO标注策略,并应用BERT+CRF(Bidirectional Encoder Representations from Transformers&Conditional Random Fields)模型,识别该领域实体;三是在实体识别基础上,应用BiLSTM-Attention模型进一步挖掘实体间关系,实现关系抽取;四是采用实体消歧和共指消解技术进行知识融合,消除数据中的矛盾与冗余信息;五是通过Neo4j图数据库存储实体与关系,基于上述结构化的方法与模型,由此完成煤炭开采利用碳排放治理技术领域知识图谱的构建。构建了涵盖排放特征、开采方式、利用方式和减碳技术四大类的煤炭开采利用碳排放治理技术领域知识概念模型,又将这四大类知识概念细分为12个子类,30个细类,形成了完整的概念分类体系。定义了10类命名实体及6种关系,基于提出的知识图谱构建组合方法与创新模型,抽取出12631个节点与32209个实体间关系,揭示了碳排放技术与排放特征、开采方式、利用方式之间的复杂关联,并根据已构建的煤炭开采利用碳排放治理技术领域的知识图谱,支持矿山企业选取相适配的减碳技术路径。随着煤炭行业低碳发展的场景拓展、数据的积累以及人工智能和大模型的发展,本研究将在多模态数据融合的基础上,优化图谱的构建方法,拓展图谱的应用范围,提高技术路径推荐的精准度。 展开更多
关键词 煤炭开采与利用 碳排放治理技术 命名实体识别 BERT+CRF 实体关系抽取 BiLSTM-Attention
在线阅读 下载PDF
基于LEBERT的时间信息增强中文命名实体识别
10
作者 张光明 肖然 +3 位作者 张弛 高谦 谈栋华 彭菊红 《湖北大学学报(自然科学版)》 CAS 2025年第1期118-125,共8页
为解决现有预训练模型没有充分考虑汉语词汇的分割特征的问题,提出一种基于LEBERT-ILRN-RA-CRF的中文命名实体识别模型。该模型首先利用LEBERT对输入文本进行词汇表增强和嵌入处理,然后利用ILRN模块提取时间信息,并将字符-词融合与字向... 为解决现有预训练模型没有充分考虑汉语词汇的分割特征的问题,提出一种基于LEBERT-ILRN-RA-CRF的中文命名实体识别模型。该模型首先利用LEBERT对输入文本进行词汇表增强和嵌入处理,然后利用ILRN模块提取时间信息,并将字符-词融合与字向量采集相结合,最后使用条件随机场(CRF)进行结果校正。此外,该模型还引入了词汇量增强和残差门控注意网络来加强时间特征的提取和局部特征的表达,进一步提升了模型的识别效果。在Weibo和Resume两个数据集上分别取得了71.73%和96.51%的宏F1值。实验表明该模型可以考虑到汉语词汇的分割问题,改善中文命名实体识别任务的识别效果。 展开更多
关键词 中文命名实体识别 时间信息增强 LEBERT CRF 残差门控注意力机制
在线阅读 下载PDF
南美白对虾养殖领域中文命名实体识别数据集构建
11
作者 彭小红 邓峰 余应淮 《计算机工程与应用》 北大核心 2025年第9期353-362,共10页
该研究致力于构建一个高质量的数据集,用于南美白对虾养殖领域的命名实体识别(named entity recognition,NER)任务,命名为VamNER。为确保数据集的多样性,从CNKI数据库中收集了近10年的高质量论文,并结合权威书籍进行语料构建。邀请专家... 该研究致力于构建一个高质量的数据集,用于南美白对虾养殖领域的命名实体识别(named entity recognition,NER)任务,命名为VamNER。为确保数据集的多样性,从CNKI数据库中收集了近10年的高质量论文,并结合权威书籍进行语料构建。邀请专家讨论实体类型,并经过专业培训的标注人员使用IOB2标注格式进行标注,标注过程分为预标注和正式标注两个阶段以提高效率。在预标注阶段,标注者间一致性(inter-annotation agreement,IAA)达到0.87,表明标注人员的一致性较高。最终,VamNER包含6115个句子,总字符数达384602,涵盖10个实体类型,共有12814个实体。研究通过与多个通用领域数据集和一个特定领域数据集进行比较,揭示了VamNER的独特特性。在实验中使用了预训练的基于变换器的双向编码器表示(bidirectional encoder representations from Transformers,BERT)模型、双向长短期记忆神经网络(bidirectional long short-term memory network,BiLSTM)和条件随机场模型(conditional random fields,CRF),最优模型在测试集上的F1值达到82.8%。VamNER成为首个专注于南美白对虾养殖领域的NER数据集,为中文特定领域NER研究提供了丰富资源,有望推动水产养殖领域NER研究的发展。 展开更多
关键词 命名实体识别 VamNER数据集 标注者间一致性(IAA) 基于变换器的双向编码器表示(BERT) 双向长短期记忆神经网络(BiLSTM) 条件随机场(CRF)
在线阅读 下载PDF
基于网络药理学探讨固本消癥膏对胃癌化疗CRF的疗效机制
12
作者 魏文娥 郭翠萍 +3 位作者 沈显亮 余建超 骆玉霜 万晓刚 《中南医学科学杂志》 2025年第5期793-797,共5页
目的基于网络药理学探讨固本消癥膏对晚期胃癌化疗的癌因性疲乏(cancer-related fatigue,CRF)的疗效机制。方法将本院接受化疗的胃癌患者60例随机均分为对照组和治疗组。对照组给予标准健康教育和睡眠疗法,治疗组在对照组基础上加用固... 目的基于网络药理学探讨固本消癥膏对晚期胃癌化疗的癌因性疲乏(cancer-related fatigue,CRF)的疗效机制。方法将本院接受化疗的胃癌患者60例随机均分为对照组和治疗组。对照组给予标准健康教育和睡眠疗法,治疗组在对照组基础上加用固本消癥膏治疗。比较两组简易疲乏量表(BFI)评分和CRF不同严重程度发生率以及血清炎症因子水平。采用网络药理学分析并鉴定分子靶点和信号通路。结果治疗后,治疗组BFI评分、重度CRF发生率以及血清炎症因子水平低于对照组(P<0.05)。固本消癥膏活性成分可调控218个靶点基因,关键靶点有TP53、HSP90AA1、MYC、RELA、MAPK1和Akt1。KEGG分析显示靶点基因在丝裂原活化蛋白激酶信号通路、核因子-κB信号通路和缺氧诱导因子-1信号通路中显著富集。结论固本消癥膏通过多靶点调控炎症、能量代谢和细胞存活相关的关键分子通路,有效缓解晚期胃癌患者化疗的CRF。 展开更多
关键词 晚期胃癌 CRF 化疗 固本消癥膏 网络药理学
暂未订购
于大君教授基于《黄帝内经》“肾苦燥”理论论治慢性肾衰竭 被引量:1
13
作者 刘冉 张睿俊 +5 位作者 陶婧 谭晓宁 赵黎明 张智琳 李昊 于大君 《中国中西医结合肾病杂志》 2025年第3期248-250,共3页
慢性肾衰竭(chronic renal failure,CRF)是由多种原发或继发的肾脏疾病引起的肾脏功能受损乃至肾实质损害的一类临床综合征,是慢性肾脏病(chronic kidney disease,CKD)的中后期阶段^([1]),具有患病率高、知晓率低的特点^([2])。现代医... 慢性肾衰竭(chronic renal failure,CRF)是由多种原发或继发的肾脏疾病引起的肾脏功能受损乃至肾实质损害的一类临床综合征,是慢性肾脏病(chronic kidney disease,CKD)的中后期阶段^([1]),具有患病率高、知晓率低的特点^([2])。现代医学治疗方法^([3])存在着费用负担高、疗效不确切、患者生存质量差等缺陷。探索诊治CRF更为安全有效的方法,延缓疾病进程,是我们目前的难题与挑战。于大君教授,主任医师,博士生导师,中国中医科学院第一批著名中医药专家学术经验传承博士后研究人员,从“肾苦燥,急食辛以润之”理论指导探索CRF的治疗思路,临床上颇有收益,现笔者总结如下。 展开更多
关键词 CRF 慢性肾衰竭 CKD 肾苦燥 慢性肾脏病
暂未订购
汉语被动结构解析及其在CAMR中的应用研究
14
作者 胡康 曲维光 +3 位作者 魏庭新 周俊生 李斌 顾彦慧 《中文信息学报》 北大核心 2025年第9期23-31,共9页
汉语被动句是一种重要的语言现象。该文采用BIO结合索引的标注方法,对被动句中的被动结构进行了细粒度标注,提出了一种基于BERT-wwm-ext预训练模型和双仿射注意力机制的CRF序列标注模型,实现对汉语被动句中内部结构的自动解析,F_(1)值达... 汉语被动句是一种重要的语言现象。该文采用BIO结合索引的标注方法,对被动句中的被动结构进行了细粒度标注,提出了一种基于BERT-wwm-ext预训练模型和双仿射注意力机制的CRF序列标注模型,实现对汉语被动句中内部结构的自动解析,F_(1)值达到97.31%。该文提出的模型具有良好的泛化性,实验证明,基于该模型解析出被动结构,进一步对CAMR图进行后处理操作,能有效提高CAMR被动句解析性能。 展开更多
关键词 被动结构解析 双仿射注意力 CRF CAMR 后处理
在线阅读 下载PDF
融合外部知识增强多模态命名实体识别
15
作者 马裕鹏 张明 +1 位作者 李志强 高梓灵 《计算机工程与应用》 北大核心 2025年第23期195-204,共10页
多模态命名实体识别(multi-modal named entity recognition,MNER)旨在利用文本和图像等多种模态信息识别文本中预定义类型的实体。尽管现有方法取得了一定的进展,但仍然面临一些挑战:(1)难以建立统一的表示来弥合不同模态之间的鸿沟。... 多模态命名实体识别(multi-modal named entity recognition,MNER)旨在利用文本和图像等多种模态信息识别文本中预定义类型的实体。尽管现有方法取得了一定的进展,但仍然面临一些挑战:(1)难以建立统一的表示来弥合不同模态之间的鸿沟。(2)难以实现不同模态之间的高效语义交互。因此,提出了一种融合外部知识增强多模态命名实体识别模型。在模态表示阶段,该模型引入CLIP(contrastive language-image pre-training)模型,利用模型中蕴含的文本和图像先验跨模态知识信息,增强文本和图像的语义表示,弥补模态鸿沟。在模态融合阶段,设计了跨模态交叉注意力机制和跨模态门控机制实现模态信息融合,有效排除图像中的噪声信息,进一步增强语义交互;采用条件随机场(CRF)实现命名实体的识别。所提出的方法在公开数据集Twitter2015和Twitter2017上的F1值分别达到了75.35%和86.18%,证明了该方法的有效性。 展开更多
关键词 多模态命名实体识别(MNER) CLIP模型 跨模态交叉注意力机制 跨模态门控机制 条件随机场(CRF)
在线阅读 下载PDF
面向中文微博的观点句识别研究 被引量:11
16
作者 丁晟春 孟美任 李霄 《情报学报》 CSSCI 北大核心 2014年第2期175-182,共8页
中文微博包含了用户对热点话题的观点,对其进行观点挖掘可以实现突发事件预警、舆情监控等。目前,微博研究多数基于英文语料,中文微博观点句的挖掘大多混淆在情感挖掘中少量提及,由于中文微博特殊的语体特征,导致传统中文文本观点... 中文微博包含了用户对热点话题的观点,对其进行观点挖掘可以实现突发事件预警、舆情监控等。目前,微博研究多数基于英文语料,中文微博观点句的挖掘大多混淆在情感挖掘中少量提及,由于中文微博特殊的语体特征,导致传统中文文本观点挖掘模型无法取得理想效果。区别于已有的情感挖掘工作,本文依据中文微博的语体特征分析结果选取特征,除了选取情感特征外,还加入主张性动词、语气词、程度副词以及固定词性结构等观点句特征,采用CRFs模型进行观点句识别研究。实验结果表明,仅选取情感特征准确率较高,但召回率仅为32.1%。而加入其他观点句特征后,召回率显著提高到61.8%。该方法应用于2012年中国计算机学会(CCF)组织的“观点句识别”测评任务中,取得了很好的效果。 展开更多
关键词 中文微博 观点挖掘 crfs模型 观点句识别 语体特征
在线阅读 下载PDF
小样本语义分析的漏洞实体抽取方法
17
作者 丁全 张磊 +2 位作者 黄帅 查正朋 陶陶 《信息安全研究》 北大核心 2025年第3期265-274,共10页
目前不同信息安全漏洞库标准各异,漏洞数据侧重点不同,关系相对独立,难以快速全面地获取高价值漏洞信息,需建立统一的漏洞实体标准,因此重点对漏洞数据中的实体抽取技术进行研究.大部分漏洞数据以非结构化中英文混合的自然语言形式呈现... 目前不同信息安全漏洞库标准各异,漏洞数据侧重点不同,关系相对独立,难以快速全面地获取高价值漏洞信息,需建立统一的漏洞实体标准,因此重点对漏洞数据中的实体抽取技术进行研究.大部分漏洞数据以非结构化中英文混合的自然语言形式呈现,基于规则的方法泛化性不强,基于人工智能的方法占用资源过高且依赖大量标注数据,为解决以上问题,提出一种小样本语义分析的漏洞实体抽取方法.该方法使用BERT(bidirectional encoder representations from transformers)预训练漏洞描述数据得到漏洞领域内的预训练模型,以更好地理解漏洞数据,减少对大量标注数据的依赖,此外,采用增量学习的自监督方式提高标注数据非常有限(1785个标注样本).所提模型抽取了漏洞领域中12类漏洞实体,实验结果表明,所提方法在漏洞实体抽取的效果上优于其他抽取模型,F1值达到0.8643,整体的识别性能较高,实现了对漏洞实体的精确抽取. 展开更多
关键词 小样本 语义分析 漏洞实体抽取 BERT CRF
在线阅读 下载PDF
基于混合深度学习算法的工程规范知识抽取
18
作者 邓旭方 成飞 +3 位作者 吕沅庚 邓伦 刘乐平 封婧仪 《水利水电技术(中英文)》 北大核心 2025年第S1期76-84,共9页
工程规范是工程建设过程中常用的重要标准文件之一。面对这些非结构化工程规范文本,高效、准确地从中抽取相关知识,并将这些知识以可视化形式呈现,对于提高知识的利用效率、提升管理人员对工程规范文本的理解效率有着重要的作用。针对... 工程规范是工程建设过程中常用的重要标准文件之一。面对这些非结构化工程规范文本,高效、准确地从中抽取相关知识,并将这些知识以可视化形式呈现,对于提高知识的利用效率、提升管理人员对工程规范文本的理解效率有着重要的作用。针对典型的工程规范文本,提出一种基于深度学习的工程规范知识抽取方法,融合ALBERT(A Lite Bidirectional Encoder Representation from Transformers)、BiLSTM(Bi-directional Long Shot-Term Memory)和CRF(Conditional Random Fields),建立工程规范实体识别模型,增强文本语义特征,获得工程规范中的实体;融合Attention机制和BiLSTM提取工程规范中的关系,根据所提取出的知识构建工程规范知识图谱。以《给水排水管道工程施工及验收规范》为典型实例对该方法进行了验证,结果表明,工程规范实体识别的F1值为78.18%,优于传统模型;关系抽取的F1值为98.35%。利用所抽取知识建立了工程规范知识图谱,通过基于知识图谱的全局信息展示、特定信息检索,提升工程规范的利用效率,辅助工程现场施工。 展开更多
关键词 工程规范 知识抽取 ALBERT预训练模型 BiLSTM CRF 注意力机制
在线阅读 下载PDF
基于本体的汉语领域命名实体识别 被引量:3
19
作者 史树敏 冯冲 +2 位作者 黄河燕 刘东升 王树梅 《情报学报》 CSSCI 北大核心 2009年第6期857-863,共7页
命名实体识别是众多自然语言处理任务的核心内容之一,也是近年来的领域研究热点。本文将命名实体分为两大类:常规命名实体和领域命名实体。基于已经构建的领域本体MPO,本文提出一种基于本体知识规则与统计方法相结合的领域命名实体识... 命名实体识别是众多自然语言处理任务的核心内容之一,也是近年来的领域研究热点。本文将命名实体分为两大类:常规命名实体和领域命名实体。基于已经构建的领域本体MPO,本文提出一种基于本体知识规则与统计方法相结合的领域命名实体识别方法。该方法通过本体化实例,获取实体构成词性规则模板,结合CRFs机器学习模型,进行领域命名实体识别。实验结果表明:相比运用单一统计方法而言,该方法能使领域实体的识别性能显著提高,F值达到92.36%。同时表明本体化知识规则的有效运用,能够在领域实体边界和特殊形式领域实体识别的准确率上发挥积极作用。 展开更多
关键词 领域实体 领域命名实体识别 本体 词性规则模板 crfs
在线阅读 下载PDF
上一页 1 2 56 下一页 到第
使用帮助 返回顶部