【目的】改进PubMedBERT在化学诱导性疾病(CID)实体关系分类的效果。【方法】提出一种基于PubMedBERT并结合Text-CNN的实体关系分类方法。该方法以实体对和文本组成句子对进行输入,利用PubMedBERT预训练模型对化学诱导性疾病相关文本进...【目的】改进PubMedBERT在化学诱导性疾病(CID)实体关系分类的效果。【方法】提出一种基于PubMedBERT并结合Text-CNN的实体关系分类方法。该方法以实体对和文本组成句子对进行输入,利用PubMedBERT预训练模型对化学诱导性疾病相关文本进行编码获取全局特征,通过Text-CNN捕捉文本局部重要信息,判断实体对是否具有CID关系。【结果】在BioCreative V CDR数据集中,该方法的精确率、召回率和F1值分别达到78.3%、73.5%和75.8%,较其他方法最少提升了3.1%、1.5%和3.3%。【局限】仅考虑了化学诱导性疾病文本语料,在临床等其他语料上的效果有待检验。【结论】该方法能够捕捉化学诱导性疾病文本特征,提升实体关系分类的效果。展开更多
当前推特等国外社交平台,已成为从事网络黑灰产犯罪不可或缺的工具,对推特上黑灰产账号进行发现、检测和分类对于打击网络犯罪、维护社会稳定具有重大意义。现有的推文分类模型双向长短时记忆网络(bi-directional long short-term memor...当前推特等国外社交平台,已成为从事网络黑灰产犯罪不可或缺的工具,对推特上黑灰产账号进行发现、检测和分类对于打击网络犯罪、维护社会稳定具有重大意义。现有的推文分类模型双向长短时记忆网络(bi-directional long short-term memory,BiLSTM)可以学习推文的上下文信息,却无法学习局部关键信息,卷积神经网络(convolution neural network,CNN)模型可以学习推文的局部关键信息,却无法学习推文的上下文信息。结合BiLSTM与CNN两种模型的优势,提出了BiLSTM-CNN推文分类模型,该模型将推文进行向量化后,输入BiLSTM模型学习推文的上下文信息,再在BiLSTM模型后引入CNN层,进行局部特征的提取,最后使用全连接层将经过池化的特征连接在一起,并应用softmax函数进行四分类。模型在自主构建的中文推特黑灰产推文数据集上进行实验,并使用TextCNN、TextRNN、TextRCNN三种分类模型作为对比实验,实验结果显示,所提的BiLSTM-CNN推文分类模型在对四类推文进行分类的宏准确率为98.32%,明显高于TextCNN、TextRNN和TextRCNN三种模型的准确率。展开更多
现有的句子级文本情感分类中,采用简单的词袋模型在获取句子级全局语义表示时,只能捕捉文本中的部分上下文关系和语义依赖,导致情感分类的准确性降低。为此,提出基于循环和卷积神经网络(Convolutional Neural Network,CNN)的句子级文本...现有的句子级文本情感分类中,采用简单的词袋模型在获取句子级全局语义表示时,只能捕捉文本中的部分上下文关系和语义依赖,导致情感分类的准确性降低。为此,提出基于循环和卷积神经网络(Convolutional Neural Network,CNN)的句子级文本情感分类研究。对句子级文本进行预处理,去除高频但无实际情感贡献的停用词,利用Word2Vec词嵌入技术和Skip-gram模型训练词向量。通过长短时记忆(Long Short Term Memory,LSTM)网络对预处理后的文本进行建模,得到句子级的全局语义表示。利用CNN对句子级文本语义特征进行提取,通过设定卷积核参数并进行卷积运算,结合分段池化技术,形成丰富的特征向量。采用softmax函数作为分类机制,将特征向量转化为情感分类的条件概率分布,判断句子级文本的情感类别。实验结果表明,所提方法在混淆矩阵和曲线下面积(Area Under Curve,AUC)值上均优于对比方法,可实现更加精准的句子级文本情感分类。展开更多
针对电力领域文本数据分词准确性较低的问题,提出一种基于改进ADAM(adaptive moment estimation)算法的中文分词技术。选用Skip-Gram模型作为字嵌入模型,将字词转为分布式向量,搭建卷积神经网络-门控循环单元-条件随机场(CNN-Bi-GRU-CRF...针对电力领域文本数据分词准确性较低的问题,提出一种基于改进ADAM(adaptive moment estimation)算法的中文分词技术。选用Skip-Gram模型作为字嵌入模型,将字词转为分布式向量,搭建卷积神经网络-门控循环单元-条件随机场(CNN-Bi-GRU-CRF)模型实现电力领域文本语句的分割,提出一种改进的ADAM算法,通过控制不同时间窗口的学习率优化神经网络模型,提高模型训练速度。将所提算法运用于变电站SCD(system configuration description)文本数据分词的算例分析,通过与其他主流分词算法进行比较,验证所提分词技术的先进性与准确性。展开更多
文摘【目的】改进PubMedBERT在化学诱导性疾病(CID)实体关系分类的效果。【方法】提出一种基于PubMedBERT并结合Text-CNN的实体关系分类方法。该方法以实体对和文本组成句子对进行输入,利用PubMedBERT预训练模型对化学诱导性疾病相关文本进行编码获取全局特征,通过Text-CNN捕捉文本局部重要信息,判断实体对是否具有CID关系。【结果】在BioCreative V CDR数据集中,该方法的精确率、召回率和F1值分别达到78.3%、73.5%和75.8%,较其他方法最少提升了3.1%、1.5%和3.3%。【局限】仅考虑了化学诱导性疾病文本语料,在临床等其他语料上的效果有待检验。【结论】该方法能够捕捉化学诱导性疾病文本特征,提升实体关系分类的效果。
文摘现有的句子级文本情感分类中,采用简单的词袋模型在获取句子级全局语义表示时,只能捕捉文本中的部分上下文关系和语义依赖,导致情感分类的准确性降低。为此,提出基于循环和卷积神经网络(Convolutional Neural Network,CNN)的句子级文本情感分类研究。对句子级文本进行预处理,去除高频但无实际情感贡献的停用词,利用Word2Vec词嵌入技术和Skip-gram模型训练词向量。通过长短时记忆(Long Short Term Memory,LSTM)网络对预处理后的文本进行建模,得到句子级的全局语义表示。利用CNN对句子级文本语义特征进行提取,通过设定卷积核参数并进行卷积运算,结合分段池化技术,形成丰富的特征向量。采用softmax函数作为分类机制,将特征向量转化为情感分类的条件概率分布,判断句子级文本的情感类别。实验结果表明,所提方法在混淆矩阵和曲线下面积(Area Under Curve,AUC)值上均优于对比方法,可实现更加精准的句子级文本情感分类。
文摘针对电力领域文本数据分词准确性较低的问题,提出一种基于改进ADAM(adaptive moment estimation)算法的中文分词技术。选用Skip-Gram模型作为字嵌入模型,将字词转为分布式向量,搭建卷积神经网络-门控循环单元-条件随机场(CNN-Bi-GRU-CRF)模型实现电力领域文本语句的分割,提出一种改进的ADAM算法,通过控制不同时间窗口的学习率优化神经网络模型,提高模型训练速度。将所提算法运用于变电站SCD(system configuration description)文本数据分词的算例分析,通过与其他主流分词算法进行比较,验证所提分词技术的先进性与准确性。
文摘在煤矿安全领域,事故的预防至关重要。为了对煤矿开采风险进行深入分析,提出了一种基于文本数据的煤矿安全事故智能分析模型及集成分析平台。首先,采用融合数据增强技术的卷积神经网络文本分类(Text-Convolutional Neural Network,Text-CNN)方法构建煤矿安全事故分析模型,对大量非结构化事故文本进行精准的分类筛选;然后,利用自然语言处理(Natural Language Processing,NLP)技术建立煤矿事故简报集成分析系统,通过该系统对煤矿事故报告进行事故统计分析、风险分析等,总结出不同地区煤矿事故的死亡情况与类型差异,明确了煤矿安全事故之间的潜在模式。研究表明,通过集合事故简报分析模型的集成分析平台可以实现对煤矿安全事故信息的获取再利用,分析事故潜在规律和风险大小,有助于提升煤矿的风险管理水平,提高事故预防能力。