目的:利用深度学习方法自动抽取中文生物医学文本中的开放式概念关系,以增强生物医学文本理解及医学知识网络构建。方法:使用BiLSTM-CRF模型从中文生物医学文献数据中抽取以句子上下文短语描述的开放式概念关系,并与基于条件随机场(Cond...目的:利用深度学习方法自动抽取中文生物医学文本中的开放式概念关系,以增强生物医学文本理解及医学知识网络构建。方法:使用BiLSTM-CRF模型从中文生物医学文献数据中抽取以句子上下文短语描述的开放式概念关系,并与基于条件随机场(Conditional Random Fields,CRF)和基于长短时记忆网络(Long Short-Term Memory,LSTM)的方法进行对比分析。结果:基于BiLSTM-CRF的中文生物医学开放式概念关系抽取方法取得F1值为0.5221,显著高于基于CRF模型的方法(F1值为0.2353)和基于LSTM模型的方法(F1值为0.3355)。结论:与单独使用CRF模型或LSTM模型的方法相比,基于BiLSTM-CRF的开放式概念关系抽取方法具有更好的鲁棒性和泛化性,对于生物医学文本理解、医学知识网络构建等研究具有借鉴意义。展开更多
随着网络信息的爆炸式增长,威胁情报分析作为军事情报分析与战略决策的重要组成部分,其面临着来源多样化和信息结构复杂化的挑战。传统的人工信息提取方法在处理这些大量结构化及非结构化信息时效率低下,准确性有限。文中针对这一挑战,...随着网络信息的爆炸式增长,威胁情报分析作为军事情报分析与战略决策的重要组成部分,其面临着来源多样化和信息结构复杂化的挑战。传统的人工信息提取方法在处理这些大量结构化及非结构化信息时效率低下,准确性有限。文中针对这一挑战,提出了一种结合RoBERTa、BiLSTM和条件随机场(Conditional Random Fields,CRF)的命名实体识别新算法。此算法通过Ro-BERTa模型深入挖掘文本的语义特征,BiLSTM模型捕捉序列上下文信息,CRF层用于精确的实体标记,从而有效提升信息提取的准确率和效率。本文基于开源情报语料库构建了一个涉及导弹发射事件的命名实体识别数据集,并在此基础上进行了实验,结果表明,该方法在精确率、召回率及F1值等关键指标上相较于主流深度学习方法表现出显著的性能提升,其中F1值高达94.21%。展开更多
文摘针对现有的中文命名实体识别算法没有充分考虑实体识别任务的数据特征,存在中文样本数据的类别不平衡、训练数据中的噪声太大和每次模型生成数据的分布差异较大的问题,提出了一种以BERT-BiLSTM-CRF(Bidirectional Encoder Representations from Transformers-Bidirectional Long Short-Term Memory-Conditional Random Field)为基线改进的中文命名实体识别模型。首先在BERT-BiLSTM-CRF模型上结合P-Tuning v2技术,精确提取数据特征,然后使用3个损失函数包括聚焦损失(Focal Loss)、标签平滑(Label Smoothing)和KL Loss(Kullback-Leibler divergence loss)作为正则项参与损失计算。实验结果表明,改进的模型在Weibo、Resume和MSRA(Microsoft Research Asia)数据集上的F 1得分分别为71.13%、96.31%、95.90%,验证了所提算法具有更好的性能,并且在不同的下游任务中,所提算法易于与其他的神经网络结合与扩展。
文摘目的:利用深度学习方法自动抽取中文生物医学文本中的开放式概念关系,以增强生物医学文本理解及医学知识网络构建。方法:使用BiLSTM-CRF模型从中文生物医学文献数据中抽取以句子上下文短语描述的开放式概念关系,并与基于条件随机场(Conditional Random Fields,CRF)和基于长短时记忆网络(Long Short-Term Memory,LSTM)的方法进行对比分析。结果:基于BiLSTM-CRF的中文生物医学开放式概念关系抽取方法取得F1值为0.5221,显著高于基于CRF模型的方法(F1值为0.2353)和基于LSTM模型的方法(F1值为0.3355)。结论:与单独使用CRF模型或LSTM模型的方法相比,基于BiLSTM-CRF的开放式概念关系抽取方法具有更好的鲁棒性和泛化性,对于生物医学文本理解、医学知识网络构建等研究具有借鉴意义。
文摘随着网络信息的爆炸式增长,威胁情报分析作为军事情报分析与战略决策的重要组成部分,其面临着来源多样化和信息结构复杂化的挑战。传统的人工信息提取方法在处理这些大量结构化及非结构化信息时效率低下,准确性有限。文中针对这一挑战,提出了一种结合RoBERTa、BiLSTM和条件随机场(Conditional Random Fields,CRF)的命名实体识别新算法。此算法通过Ro-BERTa模型深入挖掘文本的语义特征,BiLSTM模型捕捉序列上下文信息,CRF层用于精确的实体标记,从而有效提升信息提取的准确率和效率。本文基于开源情报语料库构建了一个涉及导弹发射事件的命名实体识别数据集,并在此基础上进行了实验,结果表明,该方法在精确率、召回率及F1值等关键指标上相较于主流深度学习方法表现出显著的性能提升,其中F1值高达94.21%。