针对旅游信息呈现出散乱、无序和关联性不强的问题,提出一种融合BERT-WWM(BERT with whole word masking)和指针网络的实体关系联合抽取模型构建旅游知识图谱。借助BERT-WWM预训练语言模型从爬取的旅游评论中获得含有先验语义知识的句...针对旅游信息呈现出散乱、无序和关联性不强的问题,提出一种融合BERT-WWM(BERT with whole word masking)和指针网络的实体关系联合抽取模型构建旅游知识图谱。借助BERT-WWM预训练语言模型从爬取的旅游评论中获得含有先验语义知识的句子编码。针对传统的实体关系抽取方法存在错误传播、实体冗余、交互缺失等问题,以及旅游评论中的实体关系存在一词多义、关系重叠等特征,提出直接对三元组建模,利用句子编码抽取头实体,根据关系类别抽取尾实体,并建立级联结构和指针网络解码输出三元组。基于Neo4j图数据库存储三元组构建旅游知识图谱。实验在建立的旅游数据集上进行,融合BERT-WWM与指针网络的实体关系联合抽取模型的准确率、召回率和F1值分别为93.42%、86.59%和89.88%,与现有模型相比三项指标均显示出优越性,验证了该方法进行实体关系联合抽取的有效性。构建的旅游知识图谱实现了旅游景区信息的整合与存储,对进一步促进旅游业发展具有一定的实际参考意义。展开更多
针对预训练模型参数多且推理时间长导致在真实旅游场景应用受限的问题,提出一种知识蒸馏和领域知识融合的文本情感分类轻量模型(lightweight model for knowledge distillation and domain knowledge fusion,KD-DKF)。构建了旅游领域词...针对预训练模型参数多且推理时间长导致在真实旅游场景应用受限的问题,提出一种知识蒸馏和领域知识融合的文本情感分类轻量模型(lightweight model for knowledge distillation and domain knowledge fusion,KD-DKF)。构建了旅游领域词典;在BERT-WWM-EXT模型的基础上加入改进的词性因子向量和位置信息相似度矩阵得到融入领域信息的BERT-WWM-EXT模型(domain information BERT-WWM-EXT,DI-BERT-WWM-EXT);考虑旅游场景对高效且轻量模型的需求,结合知识蒸馏理论,选择DI-BERT-WWM-EXT作为教师模型指导双向长短期记忆网络进行蒸馏,完成KD-DKF的构建。实验结果表明,KD-DKF准确率可达85.79%,高于其他8个同类别轻量模型;总训练时间为152.43 s,参数量为9.62×106,在保持较高准确率的同时提高了分类效率。展开更多
传统水上交通事故研究主要利用事故案例挖掘事故致因和事故间相互影响关系,在反映事故全过程和人-船-货-环-管-信等要素间相互作用方面存在不足。为此,以船舶碰撞事件为例,基于多源异构信息构建了水上交通事故领域船舶碰撞事故防控知识...传统水上交通事故研究主要利用事故案例挖掘事故致因和事故间相互影响关系,在反映事故全过程和人-船-货-环-管-信等要素间相互作用方面存在不足。为此,以船舶碰撞事件为例,基于多源异构信息构建了水上交通事故领域船舶碰撞事故防控知识图谱。充分考虑“事件-时空行为-事件致因-事件后果-责任主体-处置决策”事故组成要素,提出了船舶碰撞事故知识标准化框架;构建了基于中文全词掩码预训练语言模型(Chinese-bert-wwm)的知识抽取模型;依托Neo4j数据库,构建了船舶碰撞事故防控知识图谱,图谱包括15种实体类型和39种关系类型,包含35784个实体和325097个关系。所提船舶碰撞事故防控知识图谱,在规模上显著优于现有水上交通领域的知识图谱,知识自动抽取的精度达到85%,明显高于隐马尔可夫模型(hidden Markov model,HMM)和条件随机场(conditional random field,CRF)等模型。其中,“船舶”“人员特征”“时间”“人员”和“法律法规”类实体上下文推理的F1值分别为95%、91%、89%、88%和88%,关系识别的F1值达到94%。以上结果表明:通过Chinese-bert-wwm模型提取船舶碰撞事故的语义特征,增强了知识抽取模型的泛化能力。本研究不仅可以支持对船舶碰撞事故知识表示、海事执法人员对事故的回溯及利用,也有助于提高水上交通系统的管理效能。展开更多
文中研究了知识图谱中关于实体关系联合抽取方式,解决流水线抽取方式的误差传播、效率低下及关系重叠的问题,设计了网络安全本体模型,提出基于深度学习的Seq2Seq联合抽取模型,编码层通过BERT-WWM和双向长短期记忆网络(Bi-directional Lo...文中研究了知识图谱中关于实体关系联合抽取方式,解决流水线抽取方式的误差传播、效率低下及关系重叠的问题,设计了网络安全本体模型,提出基于深度学习的Seq2Seq联合抽取模型,编码层通过BERT-WWM和双向长短期记忆网络(Bi-directional Long Short-Term Memory,BiLSTM)模型获取上下文语义表示,并融合多头注意力机制突显文本中的重要单词,解码层通过指针网络输出序列标注,从而获取头实体、关系及尾实体。以自标注的数据集为语料,通过TensorFlow框架建模,对实体和关系抽取的质量进行评估。结果表明,模型的精确率、召回率和F1值均较高,验证了联合抽取模型的有效性,最后通过Neo4j图数据库构建并可视化知识图谱。展开更多
为充分挖掘专利文本中已有的解决方案和技术知识,依据发明问题解决理论(theory of inventive problem solving,TRIZ),提出了一种基于预训练语言模型的方法,将其用于面向TRIZ发明原理的中文专利分类研究中。基于整词掩码技术,使用不同数...为充分挖掘专利文本中已有的解决方案和技术知识,依据发明问题解决理论(theory of inventive problem solving,TRIZ),提出了一种基于预训练语言模型的方法,将其用于面向TRIZ发明原理的中文专利分类研究中。基于整词掩码技术,使用不同数量的专利数据集(标题和摘要)对中文RoBERTa模型进一步预训练,生成特定于专利领域的RoBERTa_patent1.0和RoBERTa_patent2.0两个模型,并在此基础上添加全连接层,构建了基于RoBERTa、RoBERTa_patent1.0和RoBERTa_patent2.0的三个专利分类模型。然后使用构建的基于TRIZ发明原理的专利数据集对以上三个分类模型进行训练和测试。实验结果表明,RoBERTa_patent2.0_IP具有更高的准确率、宏查准率、宏查全率和宏F 1值,分别达到96%、95.69%、94%和94.84%,实现了基于TRIZ发明原理的中文专利文本自动分类,可以帮助设计者理解与应用TRIZ发明原理,实现产品的创新设计。展开更多
文摘针对旅游信息呈现出散乱、无序和关联性不强的问题,提出一种融合BERT-WWM(BERT with whole word masking)和指针网络的实体关系联合抽取模型构建旅游知识图谱。借助BERT-WWM预训练语言模型从爬取的旅游评论中获得含有先验语义知识的句子编码。针对传统的实体关系抽取方法存在错误传播、实体冗余、交互缺失等问题,以及旅游评论中的实体关系存在一词多义、关系重叠等特征,提出直接对三元组建模,利用句子编码抽取头实体,根据关系类别抽取尾实体,并建立级联结构和指针网络解码输出三元组。基于Neo4j图数据库存储三元组构建旅游知识图谱。实验在建立的旅游数据集上进行,融合BERT-WWM与指针网络的实体关系联合抽取模型的准确率、召回率和F1值分别为93.42%、86.59%和89.88%,与现有模型相比三项指标均显示出优越性,验证了该方法进行实体关系联合抽取的有效性。构建的旅游知识图谱实现了旅游景区信息的整合与存储,对进一步促进旅游业发展具有一定的实际参考意义。
文摘针对预训练模型参数多且推理时间长导致在真实旅游场景应用受限的问题,提出一种知识蒸馏和领域知识融合的文本情感分类轻量模型(lightweight model for knowledge distillation and domain knowledge fusion,KD-DKF)。构建了旅游领域词典;在BERT-WWM-EXT模型的基础上加入改进的词性因子向量和位置信息相似度矩阵得到融入领域信息的BERT-WWM-EXT模型(domain information BERT-WWM-EXT,DI-BERT-WWM-EXT);考虑旅游场景对高效且轻量模型的需求,结合知识蒸馏理论,选择DI-BERT-WWM-EXT作为教师模型指导双向长短期记忆网络进行蒸馏,完成KD-DKF的构建。实验结果表明,KD-DKF准确率可达85.79%,高于其他8个同类别轻量模型;总训练时间为152.43 s,参数量为9.62×106,在保持较高准确率的同时提高了分类效率。
文摘传统水上交通事故研究主要利用事故案例挖掘事故致因和事故间相互影响关系,在反映事故全过程和人-船-货-环-管-信等要素间相互作用方面存在不足。为此,以船舶碰撞事件为例,基于多源异构信息构建了水上交通事故领域船舶碰撞事故防控知识图谱。充分考虑“事件-时空行为-事件致因-事件后果-责任主体-处置决策”事故组成要素,提出了船舶碰撞事故知识标准化框架;构建了基于中文全词掩码预训练语言模型(Chinese-bert-wwm)的知识抽取模型;依托Neo4j数据库,构建了船舶碰撞事故防控知识图谱,图谱包括15种实体类型和39种关系类型,包含35784个实体和325097个关系。所提船舶碰撞事故防控知识图谱,在规模上显著优于现有水上交通领域的知识图谱,知识自动抽取的精度达到85%,明显高于隐马尔可夫模型(hidden Markov model,HMM)和条件随机场(conditional random field,CRF)等模型。其中,“船舶”“人员特征”“时间”“人员”和“法律法规”类实体上下文推理的F1值分别为95%、91%、89%、88%和88%,关系识别的F1值达到94%。以上结果表明:通过Chinese-bert-wwm模型提取船舶碰撞事故的语义特征,增强了知识抽取模型的泛化能力。本研究不仅可以支持对船舶碰撞事故知识表示、海事执法人员对事故的回溯及利用,也有助于提高水上交通系统的管理效能。
文摘文中研究了知识图谱中关于实体关系联合抽取方式,解决流水线抽取方式的误差传播、效率低下及关系重叠的问题,设计了网络安全本体模型,提出基于深度学习的Seq2Seq联合抽取模型,编码层通过BERT-WWM和双向长短期记忆网络(Bi-directional Long Short-Term Memory,BiLSTM)模型获取上下文语义表示,并融合多头注意力机制突显文本中的重要单词,解码层通过指针网络输出序列标注,从而获取头实体、关系及尾实体。以自标注的数据集为语料,通过TensorFlow框架建模,对实体和关系抽取的质量进行评估。结果表明,模型的精确率、召回率和F1值均较高,验证了联合抽取模型的有效性,最后通过Neo4j图数据库构建并可视化知识图谱。
文摘为充分挖掘专利文本中已有的解决方案和技术知识,依据发明问题解决理论(theory of inventive problem solving,TRIZ),提出了一种基于预训练语言模型的方法,将其用于面向TRIZ发明原理的中文专利分类研究中。基于整词掩码技术,使用不同数量的专利数据集(标题和摘要)对中文RoBERTa模型进一步预训练,生成特定于专利领域的RoBERTa_patent1.0和RoBERTa_patent2.0两个模型,并在此基础上添加全连接层,构建了基于RoBERTa、RoBERTa_patent1.0和RoBERTa_patent2.0的三个专利分类模型。然后使用构建的基于TRIZ发明原理的专利数据集对以上三个分类模型进行训练和测试。实验结果表明,RoBERTa_patent2.0_IP具有更高的准确率、宏查准率、宏查全率和宏F 1值,分别达到96%、95.69%、94%和94.84%,实现了基于TRIZ发明原理的中文专利文本自动分类,可以帮助设计者理解与应用TRIZ发明原理,实现产品的创新设计。