针对油气领域知识图谱构建过程中命名实体识别使用传统方法存在实体特征信息提取不准确、识别效率低的问题,提出了一种基于BERT-BiLSTM-CRF模型的命名实体识别研究方法。该方法首先利用BERT(bidirectional encoder representations from...针对油气领域知识图谱构建过程中命名实体识别使用传统方法存在实体特征信息提取不准确、识别效率低的问题,提出了一种基于BERT-BiLSTM-CRF模型的命名实体识别研究方法。该方法首先利用BERT(bidirectional encoder representations from transformers)预训练模型得到输入序列语义的词向量;然后将训练后的词向量输入双向长短期记忆网络(bi-directional long short-term memory,BiLSTM)模型进一步获取上下文特征;最后根据条件随机场(conditional random fields,CRF)的标注规则和序列解码能力输出最大概率序列标注结果,构建油气领域命名实体识别模型框架。将BERT-BiLSTM-CRF模型与其他2种命名实体识别模型(BiLSTM-CRF、BiLSTM-Attention-CRF)在包括3万多条文本语料数据、4类实体的自建数据集上进行了对比实验。实验结果表明,BERT-BiLSTM-CRF模型的准确率(P)、召回率(R)和F_(1)值分别达到91.3%、94.5%和92.9%,实体识别效果优于其他2种模型。展开更多
事故隐患分类能够直观反映企业安全生产管理的薄弱点,同时将直接决定企业优化安全管理工作的方向。油田安全生产过程中,隐患种类多,数据量大,单纯依赖人工方式分类及管理效率较低,且难以发掘数据中蕴含的潜在规律。基于油田安全生产的...事故隐患分类能够直观反映企业安全生产管理的薄弱点,同时将直接决定企业优化安全管理工作的方向。油田安全生产过程中,隐患种类多,数据量大,单纯依赖人工方式分类及管理效率较低,且难以发掘数据中蕴含的潜在规律。基于油田安全生产的需求及事故隐患特征,提出了一种基于BERT-BiLSTM的分类模型,用于油田安全生产隐患文本的主题自动分类,通过基于Transformer的双向编码器表示(bidirectionalencoder representations from Transformer,BERT)模型提取输入文本的字符级特征,生成全局文本信息的向量表示,再通过双向长短时记忆网络(bi-directional long short-term memory,BiLSTM)模型对局部关键信息和上下文深层次特征进行特征提取,进而通过Softmax激活函数进行概率计算得到分类结果。通过与传统分类方法的比较表明,BERT-BiLSTM分类模型在加权平均准确率、加权平均召回率和加权平均F_(1)等指标方面均有所改善,模型与油田企业现有安全管理信息系统的有机融合将为进一步提升油田企业的事故隐患管理针对性,推动企业安全管理从事后被动反应向事前主动预防转变提供重要的技术支撑。展开更多
文摘针对现有的中文命名实体识别算法没有充分考虑实体识别任务的数据特征,存在中文样本数据的类别不平衡、训练数据中的噪声太大和每次模型生成数据的分布差异较大的问题,提出了一种以BERT-BiLSTM-CRF(Bidirectional Encoder Representations from Transformers-Bidirectional Long Short-Term Memory-Conditional Random Field)为基线改进的中文命名实体识别模型。首先在BERT-BiLSTM-CRF模型上结合P-Tuning v2技术,精确提取数据特征,然后使用3个损失函数包括聚焦损失(Focal Loss)、标签平滑(Label Smoothing)和KL Loss(Kullback-Leibler divergence loss)作为正则项参与损失计算。实验结果表明,改进的模型在Weibo、Resume和MSRA(Microsoft Research Asia)数据集上的F 1得分分别为71.13%、96.31%、95.90%,验证了所提算法具有更好的性能,并且在不同的下游任务中,所提算法易于与其他的神经网络结合与扩展。
文摘针对油气领域知识图谱构建过程中命名实体识别使用传统方法存在实体特征信息提取不准确、识别效率低的问题,提出了一种基于BERT-BiLSTM-CRF模型的命名实体识别研究方法。该方法首先利用BERT(bidirectional encoder representations from transformers)预训练模型得到输入序列语义的词向量;然后将训练后的词向量输入双向长短期记忆网络(bi-directional long short-term memory,BiLSTM)模型进一步获取上下文特征;最后根据条件随机场(conditional random fields,CRF)的标注规则和序列解码能力输出最大概率序列标注结果,构建油气领域命名实体识别模型框架。将BERT-BiLSTM-CRF模型与其他2种命名实体识别模型(BiLSTM-CRF、BiLSTM-Attention-CRF)在包括3万多条文本语料数据、4类实体的自建数据集上进行了对比实验。实验结果表明,BERT-BiLSTM-CRF模型的准确率(P)、召回率(R)和F_(1)值分别达到91.3%、94.5%和92.9%,实体识别效果优于其他2种模型。
文摘事故隐患分类能够直观反映企业安全生产管理的薄弱点,同时将直接决定企业优化安全管理工作的方向。油田安全生产过程中,隐患种类多,数据量大,单纯依赖人工方式分类及管理效率较低,且难以发掘数据中蕴含的潜在规律。基于油田安全生产的需求及事故隐患特征,提出了一种基于BERT-BiLSTM的分类模型,用于油田安全生产隐患文本的主题自动分类,通过基于Transformer的双向编码器表示(bidirectionalencoder representations from Transformer,BERT)模型提取输入文本的字符级特征,生成全局文本信息的向量表示,再通过双向长短时记忆网络(bi-directional long short-term memory,BiLSTM)模型对局部关键信息和上下文深层次特征进行特征提取,进而通过Softmax激活函数进行概率计算得到分类结果。通过与传统分类方法的比较表明,BERT-BiLSTM分类模型在加权平均准确率、加权平均召回率和加权平均F_(1)等指标方面均有所改善,模型与油田企业现有安全管理信息系统的有机融合将为进一步提升油田企业的事故隐患管理针对性,推动企业安全管理从事后被动反应向事前主动预防转变提供重要的技术支撑。