煤炭是能源消费降碳的主力军,煤炭开发利用过程中产生的碳排放占全国碳排放总量的60%~70%,是我国完成碳减排任务的关键所在。煤炭开采利用碳排放治理技术知识图谱构建与应用聚焦煤炭开采利用碳排放治理技术,系统梳理出相关治理技术知识...煤炭是能源消费降碳的主力军,煤炭开发利用过程中产生的碳排放占全国碳排放总量的60%~70%,是我国完成碳减排任务的关键所在。煤炭开采利用碳排放治理技术知识图谱构建与应用聚焦煤炭开采利用碳排放治理技术,系统梳理出相关治理技术知识,在此基础上构建知识图谱,挖掘出不同技术间的内在联系、适用条件、实施效果及减排路径,为相关人员获取碳排放治理技术领域前沿知识提供支撑,推动煤炭行业向绿色低碳方向转型。一是广泛收集煤炭减排技术相关的专业书籍、术语字典、权威研究报告、中国知网核心期刊文献以及各类标准规范等,采用自底向上和自顶向下的混合构建法构建煤炭开采利用碳排放治理技术领域概念知识模型;二是运用BIO标注策略,并应用BERT+CRF(Bidirectional Encoder Representations from Transformers&Conditional Random Fields)模型,识别该领域实体;三是在实体识别基础上,应用BiLSTM-Attention模型进一步挖掘实体间关系,实现关系抽取;四是采用实体消歧和共指消解技术进行知识融合,消除数据中的矛盾与冗余信息;五是通过Neo4j图数据库存储实体与关系,基于上述结构化的方法与模型,由此完成煤炭开采利用碳排放治理技术领域知识图谱的构建。构建了涵盖排放特征、开采方式、利用方式和减碳技术四大类的煤炭开采利用碳排放治理技术领域知识概念模型,又将这四大类知识概念细分为12个子类,30个细类,形成了完整的概念分类体系。定义了10类命名实体及6种关系,基于提出的知识图谱构建组合方法与创新模型,抽取出12631个节点与32209个实体间关系,揭示了碳排放技术与排放特征、开采方式、利用方式之间的复杂关联,并根据已构建的煤炭开采利用碳排放治理技术领域的知识图谱,支持矿山企业选取相适配的减碳技术路径。随着煤炭行业低碳发展的场景拓展、数据的积累以及人工智能和大模型的发展,本研究将在多模态数据融合的基础上,优化图谱的构建方法,拓展图谱的应用范围,提高技术路径推荐的精准度。展开更多
目前不同信息安全漏洞库标准各异,漏洞数据侧重点不同,关系相对独立,难以快速全面地获取高价值漏洞信息,需建立统一的漏洞实体标准,因此重点对漏洞数据中的实体抽取技术进行研究.大部分漏洞数据以非结构化中英文混合的自然语言形式呈现...目前不同信息安全漏洞库标准各异,漏洞数据侧重点不同,关系相对独立,难以快速全面地获取高价值漏洞信息,需建立统一的漏洞实体标准,因此重点对漏洞数据中的实体抽取技术进行研究.大部分漏洞数据以非结构化中英文混合的自然语言形式呈现,基于规则的方法泛化性不强,基于人工智能的方法占用资源过高且依赖大量标注数据,为解决以上问题,提出一种小样本语义分析的漏洞实体抽取方法.该方法使用BERT(bidirectional encoder representations from transformers)预训练漏洞描述数据得到漏洞领域内的预训练模型,以更好地理解漏洞数据,减少对大量标注数据的依赖,此外,采用增量学习的自监督方式提高标注数据非常有限(1785个标注样本).所提模型抽取了漏洞领域中12类漏洞实体,实验结果表明,所提方法在漏洞实体抽取的效果上优于其他抽取模型,F1值达到0.8643,整体的识别性能较高,实现了对漏洞实体的精确抽取.展开更多
针对电网积累的海量工单数据未被深度挖掘、人工分析效率低等问题,本文提出一种基于命名实体识别模型的配网客户诉求知识图谱构建方法。该方法通过融合基于Transformer的双向编码器表征(bidirectional encoder representation from tran...针对电网积累的海量工单数据未被深度挖掘、人工分析效率低等问题,本文提出一种基于命名实体识别模型的配网客户诉求知识图谱构建方法。该方法通过融合基于Transformer的双向编码器表征(bidirectional encoder representation from transformers,BERT)预训练语言模型、双向长短期记忆(bidirectional long short-term memory,BiLSTM)语义提取层和条件随机场(conditional random field,CRF)解码层构建实体识别模型,显著提升了配网工单文本中“客户”“故障设备”“反馈类型”等关键实体的识别准确率(F1值达84.21%);利用Neo4j图数据库对抽取的实体关系进行知识融合与存储,实现了客户诉求、设备信息、处理状态等多维度数据的可视化关联分析。经某供电公司8 764份工单数据验证,该方法能有效推动配网供电服务指挥系统转型升级,提升诉求处理效率和业务管控能力,为供电服务质量优化提供数字化决策支持。展开更多
为了提升电网计划检修场景下电网故障防御及处置指导能力,提出基于变换器双向编码器表征技术-双向长短期记忆网络-条件随机场BERT-BiLSTM-CRF(Bidirectional Encoder Representations from Transformers-Bidirectional Long Short-Term ...为了提升电网计划检修场景下电网故障防御及处置指导能力,提出基于变换器双向编码器表征技术-双向长短期记忆网络-条件随机场BERT-BiLSTM-CRF(Bidirectional Encoder Representations from Transformers-Bidirectional Long Short-Term Memory Network-Conditional Random Field)的电力调度文本实体识别方法。以电网计划检修风险表单为研究对象,提出风险表单关键信息抽取的实体标记方法,基于BERT预训练模型将实体转化为可计算的词向量,通过微调BERT超参数增强对实体信息的表征能力,通过BiLSTM网络学习序列上下文语义特征,由CRF层提升实体标签全局识别能力。实验结果表明,基于BERT-BiLSTM-CRF的混合神经网络模型在计划检修风险表单数据集上的F1值为97.36%,通过某电网实际数据验证,与其他算法相比所提方法具有较高的电力调度实体识别精度,能够为电力调度业务场景提供在线支撑。展开更多
提出一种基于来自变换器的双向编码器表示(bidirectional encoder representations from transformers,BERT)技术的电力作业风险预先控制知识图谱构建策略,以期通过智能化方式显著提升电力作业的安全保障和作业效率。首先,构建一个专门...提出一种基于来自变换器的双向编码器表示(bidirectional encoder representations from transformers,BERT)技术的电力作业风险预先控制知识图谱构建策略,以期通过智能化方式显著提升电力作业的安全保障和作业效率。首先,构建一个专门针对电力作业风险领域的训练数据集;其次,采用BERT-BiLSTM-CRF(BiLSTM是指bi-directional long short-term memory,双向长短期记忆;CRF是指conditional random field,条件随机场)模型对变压器运维相关的实体进行识别,并通过BERT-BiLSTMAttention模型进一步实现实体之间关系的有效识别,通过对比实验结果展示了这两种模型的性能;最后,成功将686个实体和720个实体关系导入Neo4j图数据库,实现了知识图谱的直观可视化,并在此基础上开发出了辅助决策功能。展开更多
文摘煤炭是能源消费降碳的主力军,煤炭开发利用过程中产生的碳排放占全国碳排放总量的60%~70%,是我国完成碳减排任务的关键所在。煤炭开采利用碳排放治理技术知识图谱构建与应用聚焦煤炭开采利用碳排放治理技术,系统梳理出相关治理技术知识,在此基础上构建知识图谱,挖掘出不同技术间的内在联系、适用条件、实施效果及减排路径,为相关人员获取碳排放治理技术领域前沿知识提供支撑,推动煤炭行业向绿色低碳方向转型。一是广泛收集煤炭减排技术相关的专业书籍、术语字典、权威研究报告、中国知网核心期刊文献以及各类标准规范等,采用自底向上和自顶向下的混合构建法构建煤炭开采利用碳排放治理技术领域概念知识模型;二是运用BIO标注策略,并应用BERT+CRF(Bidirectional Encoder Representations from Transformers&Conditional Random Fields)模型,识别该领域实体;三是在实体识别基础上,应用BiLSTM-Attention模型进一步挖掘实体间关系,实现关系抽取;四是采用实体消歧和共指消解技术进行知识融合,消除数据中的矛盾与冗余信息;五是通过Neo4j图数据库存储实体与关系,基于上述结构化的方法与模型,由此完成煤炭开采利用碳排放治理技术领域知识图谱的构建。构建了涵盖排放特征、开采方式、利用方式和减碳技术四大类的煤炭开采利用碳排放治理技术领域知识概念模型,又将这四大类知识概念细分为12个子类,30个细类,形成了完整的概念分类体系。定义了10类命名实体及6种关系,基于提出的知识图谱构建组合方法与创新模型,抽取出12631个节点与32209个实体间关系,揭示了碳排放技术与排放特征、开采方式、利用方式之间的复杂关联,并根据已构建的煤炭开采利用碳排放治理技术领域的知识图谱,支持矿山企业选取相适配的减碳技术路径。随着煤炭行业低碳发展的场景拓展、数据的积累以及人工智能和大模型的发展,本研究将在多模态数据融合的基础上,优化图谱的构建方法,拓展图谱的应用范围,提高技术路径推荐的精准度。
文摘针对现有的中文命名实体识别算法没有充分考虑实体识别任务的数据特征,存在中文样本数据的类别不平衡、训练数据中的噪声太大和每次模型生成数据的分布差异较大的问题,提出了一种以BERT-BiLSTM-CRF(Bidirectional Encoder Representations from Transformers-Bidirectional Long Short-Term Memory-Conditional Random Field)为基线改进的中文命名实体识别模型。首先在BERT-BiLSTM-CRF模型上结合P-Tuning v2技术,精确提取数据特征,然后使用3个损失函数包括聚焦损失(Focal Loss)、标签平滑(Label Smoothing)和KL Loss(Kullback-Leibler divergence loss)作为正则项参与损失计算。实验结果表明,改进的模型在Weibo、Resume和MSRA(Microsoft Research Asia)数据集上的F 1得分分别为71.13%、96.31%、95.90%,验证了所提算法具有更好的性能,并且在不同的下游任务中,所提算法易于与其他的神经网络结合与扩展。
文摘该研究致力于构建一个高质量的数据集,用于南美白对虾养殖领域的命名实体识别(named entity recognition,NER)任务,命名为VamNER。为确保数据集的多样性,从CNKI数据库中收集了近10年的高质量论文,并结合权威书籍进行语料构建。邀请专家讨论实体类型,并经过专业培训的标注人员使用IOB2标注格式进行标注,标注过程分为预标注和正式标注两个阶段以提高效率。在预标注阶段,标注者间一致性(inter-annotation agreement,IAA)达到0.87,表明标注人员的一致性较高。最终,VamNER包含6115个句子,总字符数达384602,涵盖10个实体类型,共有12814个实体。研究通过与多个通用领域数据集和一个特定领域数据集进行比较,揭示了VamNER的独特特性。在实验中使用了预训练的基于变换器的双向编码器表示(bidirectional encoder representations from Transformers,BERT)模型、双向长短期记忆神经网络(bidirectional long short-term memory network,BiLSTM)和条件随机场模型(conditional random fields,CRF),最优模型在测试集上的F1值达到82.8%。VamNER成为首个专注于南美白对虾养殖领域的NER数据集,为中文特定领域NER研究提供了丰富资源,有望推动水产养殖领域NER研究的发展。
文摘目前不同信息安全漏洞库标准各异,漏洞数据侧重点不同,关系相对独立,难以快速全面地获取高价值漏洞信息,需建立统一的漏洞实体标准,因此重点对漏洞数据中的实体抽取技术进行研究.大部分漏洞数据以非结构化中英文混合的自然语言形式呈现,基于规则的方法泛化性不强,基于人工智能的方法占用资源过高且依赖大量标注数据,为解决以上问题,提出一种小样本语义分析的漏洞实体抽取方法.该方法使用BERT(bidirectional encoder representations from transformers)预训练漏洞描述数据得到漏洞领域内的预训练模型,以更好地理解漏洞数据,减少对大量标注数据的依赖,此外,采用增量学习的自监督方式提高标注数据非常有限(1785个标注样本).所提模型抽取了漏洞领域中12类漏洞实体,实验结果表明,所提方法在漏洞实体抽取的效果上优于其他抽取模型,F1值达到0.8643,整体的识别性能较高,实现了对漏洞实体的精确抽取.
文摘针对电网积累的海量工单数据未被深度挖掘、人工分析效率低等问题,本文提出一种基于命名实体识别模型的配网客户诉求知识图谱构建方法。该方法通过融合基于Transformer的双向编码器表征(bidirectional encoder representation from transformers,BERT)预训练语言模型、双向长短期记忆(bidirectional long short-term memory,BiLSTM)语义提取层和条件随机场(conditional random field,CRF)解码层构建实体识别模型,显著提升了配网工单文本中“客户”“故障设备”“反馈类型”等关键实体的识别准确率(F1值达84.21%);利用Neo4j图数据库对抽取的实体关系进行知识融合与存储,实现了客户诉求、设备信息、处理状态等多维度数据的可视化关联分析。经某供电公司8 764份工单数据验证,该方法能有效推动配网供电服务指挥系统转型升级,提升诉求处理效率和业务管控能力,为供电服务质量优化提供数字化决策支持。
文摘为了提升电网计划检修场景下电网故障防御及处置指导能力,提出基于变换器双向编码器表征技术-双向长短期记忆网络-条件随机场BERT-BiLSTM-CRF(Bidirectional Encoder Representations from Transformers-Bidirectional Long Short-Term Memory Network-Conditional Random Field)的电力调度文本实体识别方法。以电网计划检修风险表单为研究对象,提出风险表单关键信息抽取的实体标记方法,基于BERT预训练模型将实体转化为可计算的词向量,通过微调BERT超参数增强对实体信息的表征能力,通过BiLSTM网络学习序列上下文语义特征,由CRF层提升实体标签全局识别能力。实验结果表明,基于BERT-BiLSTM-CRF的混合神经网络模型在计划检修风险表单数据集上的F1值为97.36%,通过某电网实际数据验证,与其他算法相比所提方法具有较高的电力调度实体识别精度,能够为电力调度业务场景提供在线支撑。
文摘提出一种基于来自变换器的双向编码器表示(bidirectional encoder representations from transformers,BERT)技术的电力作业风险预先控制知识图谱构建策略,以期通过智能化方式显著提升电力作业的安全保障和作业效率。首先,构建一个专门针对电力作业风险领域的训练数据集;其次,采用BERT-BiLSTM-CRF(BiLSTM是指bi-directional long short-term memory,双向长短期记忆;CRF是指conditional random field,条件随机场)模型对变压器运维相关的实体进行识别,并通过BERT-BiLSTMAttention模型进一步实现实体之间关系的有效识别,通过对比实验结果展示了这两种模型的性能;最后,成功将686个实体和720个实体关系导入Neo4j图数据库,实现了知识图谱的直观可视化,并在此基础上开发出了辅助决策功能。