煤炭是能源消费降碳的主力军,煤炭开发利用过程中产生的碳排放占全国碳排放总量的60%~70%,是我国完成碳减排任务的关键所在。煤炭开采利用碳排放治理技术知识图谱构建与应用聚焦煤炭开采利用碳排放治理技术,系统梳理出相关治理技术知识...煤炭是能源消费降碳的主力军,煤炭开发利用过程中产生的碳排放占全国碳排放总量的60%~70%,是我国完成碳减排任务的关键所在。煤炭开采利用碳排放治理技术知识图谱构建与应用聚焦煤炭开采利用碳排放治理技术,系统梳理出相关治理技术知识,在此基础上构建知识图谱,挖掘出不同技术间的内在联系、适用条件、实施效果及减排路径,为相关人员获取碳排放治理技术领域前沿知识提供支撑,推动煤炭行业向绿色低碳方向转型。一是广泛收集煤炭减排技术相关的专业书籍、术语字典、权威研究报告、中国知网核心期刊文献以及各类标准规范等,采用自底向上和自顶向下的混合构建法构建煤炭开采利用碳排放治理技术领域概念知识模型;二是运用BIO标注策略,并应用BERT+CRF(Bidirectional Encoder Representations from Transformers&Conditional Random Fields)模型,识别该领域实体;三是在实体识别基础上,应用BiLSTM-Attention模型进一步挖掘实体间关系,实现关系抽取;四是采用实体消歧和共指消解技术进行知识融合,消除数据中的矛盾与冗余信息;五是通过Neo4j图数据库存储实体与关系,基于上述结构化的方法与模型,由此完成煤炭开采利用碳排放治理技术领域知识图谱的构建。构建了涵盖排放特征、开采方式、利用方式和减碳技术四大类的煤炭开采利用碳排放治理技术领域知识概念模型,又将这四大类知识概念细分为12个子类,30个细类,形成了完整的概念分类体系。定义了10类命名实体及6种关系,基于提出的知识图谱构建组合方法与创新模型,抽取出12631个节点与32209个实体间关系,揭示了碳排放技术与排放特征、开采方式、利用方式之间的复杂关联,并根据已构建的煤炭开采利用碳排放治理技术领域的知识图谱,支持矿山企业选取相适配的减碳技术路径。随着煤炭行业低碳发展的场景拓展、数据的积累以及人工智能和大模型的发展,本研究将在多模态数据融合的基础上,优化图谱的构建方法,拓展图谱的应用范围,提高技术路径推荐的精准度。展开更多
多模态命名实体识别(multi-modal named entity recognition,MNER)旨在利用文本和图像等多种模态信息识别文本中预定义类型的实体。尽管现有方法取得了一定的进展,但仍然面临一些挑战:(1)难以建立统一的表示来弥合不同模态之间的鸿沟。...多模态命名实体识别(multi-modal named entity recognition,MNER)旨在利用文本和图像等多种模态信息识别文本中预定义类型的实体。尽管现有方法取得了一定的进展,但仍然面临一些挑战:(1)难以建立统一的表示来弥合不同模态之间的鸿沟。(2)难以实现不同模态之间的高效语义交互。因此,提出了一种融合外部知识增强多模态命名实体识别模型。在模态表示阶段,该模型引入CLIP(contrastive language-image pre-training)模型,利用模型中蕴含的文本和图像先验跨模态知识信息,增强文本和图像的语义表示,弥补模态鸿沟。在模态融合阶段,设计了跨模态交叉注意力机制和跨模态门控机制实现模态信息融合,有效排除图像中的噪声信息,进一步增强语义交互;采用条件随机场(CRF)实现命名实体的识别。所提出的方法在公开数据集Twitter2015和Twitter2017上的F1值分别达到了75.35%和86.18%,证明了该方法的有效性。展开更多
目前不同信息安全漏洞库标准各异,漏洞数据侧重点不同,关系相对独立,难以快速全面地获取高价值漏洞信息,需建立统一的漏洞实体标准,因此重点对漏洞数据中的实体抽取技术进行研究.大部分漏洞数据以非结构化中英文混合的自然语言形式呈现...目前不同信息安全漏洞库标准各异,漏洞数据侧重点不同,关系相对独立,难以快速全面地获取高价值漏洞信息,需建立统一的漏洞实体标准,因此重点对漏洞数据中的实体抽取技术进行研究.大部分漏洞数据以非结构化中英文混合的自然语言形式呈现,基于规则的方法泛化性不强,基于人工智能的方法占用资源过高且依赖大量标注数据,为解决以上问题,提出一种小样本语义分析的漏洞实体抽取方法.该方法使用BERT(bidirectional encoder representations from transformers)预训练漏洞描述数据得到漏洞领域内的预训练模型,以更好地理解漏洞数据,减少对大量标注数据的依赖,此外,采用增量学习的自监督方式提高标注数据非常有限(1785个标注样本).所提模型抽取了漏洞领域中12类漏洞实体,实验结果表明,所提方法在漏洞实体抽取的效果上优于其他抽取模型,F1值达到0.8643,整体的识别性能较高,实现了对漏洞实体的精确抽取.展开更多
工程规范是工程建设过程中常用的重要标准文件之一。面对这些非结构化工程规范文本,高效、准确地从中抽取相关知识,并将这些知识以可视化形式呈现,对于提高知识的利用效率、提升管理人员对工程规范文本的理解效率有着重要的作用。针对...工程规范是工程建设过程中常用的重要标准文件之一。面对这些非结构化工程规范文本,高效、准确地从中抽取相关知识,并将这些知识以可视化形式呈现,对于提高知识的利用效率、提升管理人员对工程规范文本的理解效率有着重要的作用。针对典型的工程规范文本,提出一种基于深度学习的工程规范知识抽取方法,融合ALBERT(A Lite Bidirectional Encoder Representation from Transformers)、BiLSTM(Bi-directional Long Shot-Term Memory)和CRF(Conditional Random Fields),建立工程规范实体识别模型,增强文本语义特征,获得工程规范中的实体;融合Attention机制和BiLSTM提取工程规范中的关系,根据所提取出的知识构建工程规范知识图谱。以《给水排水管道工程施工及验收规范》为典型实例对该方法进行了验证,结果表明,工程规范实体识别的F1值为78.18%,优于传统模型;关系抽取的F1值为98.35%。利用所抽取知识建立了工程规范知识图谱,通过基于知识图谱的全局信息展示、特定信息检索,提升工程规范的利用效率,辅助工程现场施工。展开更多
文摘煤炭是能源消费降碳的主力军,煤炭开发利用过程中产生的碳排放占全国碳排放总量的60%~70%,是我国完成碳减排任务的关键所在。煤炭开采利用碳排放治理技术知识图谱构建与应用聚焦煤炭开采利用碳排放治理技术,系统梳理出相关治理技术知识,在此基础上构建知识图谱,挖掘出不同技术间的内在联系、适用条件、实施效果及减排路径,为相关人员获取碳排放治理技术领域前沿知识提供支撑,推动煤炭行业向绿色低碳方向转型。一是广泛收集煤炭减排技术相关的专业书籍、术语字典、权威研究报告、中国知网核心期刊文献以及各类标准规范等,采用自底向上和自顶向下的混合构建法构建煤炭开采利用碳排放治理技术领域概念知识模型;二是运用BIO标注策略,并应用BERT+CRF(Bidirectional Encoder Representations from Transformers&Conditional Random Fields)模型,识别该领域实体;三是在实体识别基础上,应用BiLSTM-Attention模型进一步挖掘实体间关系,实现关系抽取;四是采用实体消歧和共指消解技术进行知识融合,消除数据中的矛盾与冗余信息;五是通过Neo4j图数据库存储实体与关系,基于上述结构化的方法与模型,由此完成煤炭开采利用碳排放治理技术领域知识图谱的构建。构建了涵盖排放特征、开采方式、利用方式和减碳技术四大类的煤炭开采利用碳排放治理技术领域知识概念模型,又将这四大类知识概念细分为12个子类,30个细类,形成了完整的概念分类体系。定义了10类命名实体及6种关系,基于提出的知识图谱构建组合方法与创新模型,抽取出12631个节点与32209个实体间关系,揭示了碳排放技术与排放特征、开采方式、利用方式之间的复杂关联,并根据已构建的煤炭开采利用碳排放治理技术领域的知识图谱,支持矿山企业选取相适配的减碳技术路径。随着煤炭行业低碳发展的场景拓展、数据的积累以及人工智能和大模型的发展,本研究将在多模态数据融合的基础上,优化图谱的构建方法,拓展图谱的应用范围,提高技术路径推荐的精准度。
文摘该研究致力于构建一个高质量的数据集,用于南美白对虾养殖领域的命名实体识别(named entity recognition,NER)任务,命名为VamNER。为确保数据集的多样性,从CNKI数据库中收集了近10年的高质量论文,并结合权威书籍进行语料构建。邀请专家讨论实体类型,并经过专业培训的标注人员使用IOB2标注格式进行标注,标注过程分为预标注和正式标注两个阶段以提高效率。在预标注阶段,标注者间一致性(inter-annotation agreement,IAA)达到0.87,表明标注人员的一致性较高。最终,VamNER包含6115个句子,总字符数达384602,涵盖10个实体类型,共有12814个实体。研究通过与多个通用领域数据集和一个特定领域数据集进行比较,揭示了VamNER的独特特性。在实验中使用了预训练的基于变换器的双向编码器表示(bidirectional encoder representations from Transformers,BERT)模型、双向长短期记忆神经网络(bidirectional long short-term memory network,BiLSTM)和条件随机场模型(conditional random fields,CRF),最优模型在测试集上的F1值达到82.8%。VamNER成为首个专注于南美白对虾养殖领域的NER数据集,为中文特定领域NER研究提供了丰富资源,有望推动水产养殖领域NER研究的发展。
文摘目前不同信息安全漏洞库标准各异,漏洞数据侧重点不同,关系相对独立,难以快速全面地获取高价值漏洞信息,需建立统一的漏洞实体标准,因此重点对漏洞数据中的实体抽取技术进行研究.大部分漏洞数据以非结构化中英文混合的自然语言形式呈现,基于规则的方法泛化性不强,基于人工智能的方法占用资源过高且依赖大量标注数据,为解决以上问题,提出一种小样本语义分析的漏洞实体抽取方法.该方法使用BERT(bidirectional encoder representations from transformers)预训练漏洞描述数据得到漏洞领域内的预训练模型,以更好地理解漏洞数据,减少对大量标注数据的依赖,此外,采用增量学习的自监督方式提高标注数据非常有限(1785个标注样本).所提模型抽取了漏洞领域中12类漏洞实体,实验结果表明,所提方法在漏洞实体抽取的效果上优于其他抽取模型,F1值达到0.8643,整体的识别性能较高,实现了对漏洞实体的精确抽取.
文摘工程规范是工程建设过程中常用的重要标准文件之一。面对这些非结构化工程规范文本,高效、准确地从中抽取相关知识,并将这些知识以可视化形式呈现,对于提高知识的利用效率、提升管理人员对工程规范文本的理解效率有着重要的作用。针对典型的工程规范文本,提出一种基于深度学习的工程规范知识抽取方法,融合ALBERT(A Lite Bidirectional Encoder Representation from Transformers)、BiLSTM(Bi-directional Long Shot-Term Memory)和CRF(Conditional Random Fields),建立工程规范实体识别模型,增强文本语义特征,获得工程规范中的实体;融合Attention机制和BiLSTM提取工程规范中的关系,根据所提取出的知识构建工程规范知识图谱。以《给水排水管道工程施工及验收规范》为典型实例对该方法进行了验证,结果表明,工程规范实体识别的F1值为78.18%,优于传统模型;关系抽取的F1值为98.35%。利用所抽取知识建立了工程规范知识图谱,通过基于知识图谱的全局信息展示、特定信息检索,提升工程规范的利用效率,辅助工程现场施工。