为解决医学文本使用预训练模型处理速度慢、对硬件的算力要求高、难以分辨少样本类别,以及使用传统小模型由于自身限制难以做到足够的准确度的问题,提出了一种融合预训练和元蒸馏的文本分类模型PTMD(fusion of pre-training and meta di...为解决医学文本使用预训练模型处理速度慢、对硬件的算力要求高、难以分辨少样本类别,以及使用传统小模型由于自身限制难以做到足够的准确度的问题,提出了一种融合预训练和元蒸馏的文本分类模型PTMD(fusion of pre-training and meta distillation model)。PTMD针对医学文本的多标签问题,通过对比训练对RoBERTa预训练方法进行微调,再由双向内置注意力简单循环单元充分获取语义信息。最后在传统蒸馏模型的基础上融合元学习和助教的思想,通过教学实验和双级模型等方法,提高模型的教学水平,最终在减少训练成本的基础上得到一个高性能医学文本分类模型。实验结果表明,教师模型在CHIP2019评测三数据集上的F1值达到了85.47%,同时学生模型在F1值损失1.45个百分点的情况下,将模型规模缩小到教师模型的近1/6,效果高于大多数传统预训练模型和知识蒸馏模型,证明了该模型具有良好的实用价值。展开更多
ReLM(Rephrasing Language Model)是当前性能领先的中文拼写纠错(CSC)模型。针对它在复杂语义场景中存在特征表达不足的问题,提出深层语义特征增强的ReLM——FeReLM(Feature-enhanced Rephrasing Language Model)。该模型利用深度可分...ReLM(Rephrasing Language Model)是当前性能领先的中文拼写纠错(CSC)模型。针对它在复杂语义场景中存在特征表达不足的问题,提出深层语义特征增强的ReLM——FeReLM(Feature-enhanced Rephrasing Language Model)。该模型利用深度可分离卷积(DSC)技术融合特征提取模型BGE(BAAI General Embeddings)生成的深层语义特征与ReLM生成的整体特征,从而有效提升模型对复杂上下文的解析力和拼写错误的识别纠正精度。首先,在Wang271K数据集上训练FeReLM,使模型持续学习句子中的深层语义和复杂表达;其次,迁移训练好的权重,从而将模型学习到的知识应用于新的数据集并进行微调。实验结果表明,在ECSpell和MCSC数据集上与ReLM、MCRSpell(Metric learning of Correct Representation for Chinese Spelling Correction)和RSpell(Retrieval-augmented Framework for Domain Adaptive Chinese Spelling Check)等模型相比,FeReLM的精确率、召回率、F1分数等关键指标的提升幅度可达0.6~28.7个百分点。此外,通过消融实验验证了所提方法的有效性。展开更多
目前大部分题目推荐系统基于人工筛选或利用大数据推荐,较少考虑题目本身的信息。为改善在线教育编程平台的用户体验,在有限的条件下为学生推荐合适的题目,提出一种结合动态词向量优化和文本、标签信息融合的深度学习模型——基于文本...目前大部分题目推荐系统基于人工筛选或利用大数据推荐,较少考虑题目本身的信息。为改善在线教育编程平台的用户体验,在有限的条件下为学生推荐合适的题目,提出一种结合动态词向量优化和文本、标签信息融合的深度学习模型——基于文本和标签信息融合和BERT白化的长短期记忆网络(TLFBW-LSTM)。首先,利用白化技术优化BERT(Bidirectional Encoder Representations from Transformers)模型生成的词向量;其次,利用孪生网络结构和注意力机制分别融合不同题目的文本和标签数据;最后,设置全连接层计算相似程度。此外,通过动态词向量优化和标签嵌入的方式,增强模型对相似题目的识别能力。在力扣的编程题库数据集上的实验结果表明,动态词向量和异构数据的加入能够有效提高模型对相似题目判断的准确率,与Sentence-BERT和DenoSent方法相比,TLFBW-LSTM的准确率提升了13.41%和13.62%,验证了TLFBW-LSTM的有效性。展开更多
传统的基于表示学习的知识推理方法只能用于封闭世界的知识推理,有效进行开放世界的知识推理是目前的热点问题。因此,提出一种基于路径和增强三元组文本的开放世界知识推理模型PEOR(Path and Enhanced triplet text for Open world know...传统的基于表示学习的知识推理方法只能用于封闭世界的知识推理,有效进行开放世界的知识推理是目前的热点问题。因此,提出一种基于路径和增强三元组文本的开放世界知识推理模型PEOR(Path and Enhanced triplet text for Open world knowledge Reasoning)。首先,使用由实体对间结构生成的多条路径和单个实体周围结构生成的增强三元组,其中路径文本通过拼接路径中的三元组文本得到,而增强三元组文本通过拼接头实体邻域文本、关系文本和尾实体邻域文本得到;其次,使用BERT(Bidirectional Encoder Representations from Transformers)分别编码路径文本和增强三元组文本;最后,使用路径向量和三元组向量计算语义匹配注意力,再使用语义匹配注意力聚合多条路径的语义信息。在3个开放世界知识图谱数据集WN18RR、FB15k-237和NELL-995上的对比实验结果表明,与次优模型BERTRL(BERT-based Relational Learning)相比,所提模型的命中率(Hits@10)指标分别提升了2.6、2.3和8.5个百分点,验证了所提模型的有效性。展开更多
目的零样本三维模型分类任务自提出起,始终面临大规模数据集与高质量语义信息的短缺问题。为应对这些问题,现有方法引入二维图像领域中蕴含丰富的数据集和语义信息的大规模预训练模型,这些方法基于语言—图像对比学习预训练网络,取得了...目的零样本三维模型分类任务自提出起,始终面临大规模数据集与高质量语义信息的短缺问题。为应对这些问题,现有方法引入二维图像领域中蕴含丰富的数据集和语义信息的大规模预训练模型,这些方法基于语言—图像对比学习预训练网络,取得了一定的零样本分类效果。但是,现有方法对三维信息捕捉不全,无法充分利用来自三维领域的知识,针对这一问题,提出一致性约束引导的零样本三维模型分类网络。方法一方面,在保留来自预训练网络中的全部二维知识的同时,通过视图一致性学习三维数据的特征,从视图层面将三维信息增补至二维视图特征中;另一方面,通过掩码一致性约束引导网络通过自监督增强网络对三维模型的整体性学习,提高网络泛化性能;同时,提出同类一致性约束引导的非互斥损失,确保网络在小规模数据集训练中学习方向的正确性与能力的泛化性。结果在ZS3D(zero-shot for 3D dataset)、ModelNet10和Shrec2015(shape retrieval 2015)3个数据集上进行零样本分类,分别取得70.1%、57.8%和12.2%的分类精度,与当前最优方法相比,分别取得9.2%、22.8%和2.3%的性能提升;在ScanObjectNN的3个子集OBJ_ONLY(objectonly)、OBJ_BG(object and background)及PB_T50_RS(object augmented rot scale)上,本文方法也取得了具有竞争力的分类准确率,分别是32.4%、28.9%和19.3%。结论相较于完全依赖预训练模型能力的方法,本文方法在充分利用语言—图像预训练网络的基础上,将三维模型领域的知识引入网络,并提升网络泛化能力,使零样本分类结果更加准确。展开更多
针对农业领域文本信息密度大、语义模糊、特征稀疏的特点,提出一种基于MacBERT(MLM as correction-BERT)、深度金字塔卷积网络(DPCNN)和注意力机制(Attention)的农业文本分类模型,命名为MacBERT—DPCNN—Attention(MDA)。首先,使用MacB...针对农业领域文本信息密度大、语义模糊、特征稀疏的特点,提出一种基于MacBERT(MLM as correction-BERT)、深度金字塔卷积网络(DPCNN)和注意力机制(Attention)的农业文本分类模型,命名为MacBERT—DPCNN—Attention(MDA)。首先,使用MacBERT模型充分提取农业类文本内容的上下文信息,强化文本的语义特征表示。然后,DPCNN模型通过其多层卷积神经网络和池化操作,有效捕获文本的局部特征。最后,注意力机制进一步增强农业文本序列的特征表达。结果表明,与其他主流模型如BERT—DPCNN、BERT—CNN、BERT—RNN相比,MDA模型在农业文本分类任务上的精确率提升1.04%以上,召回率提升0.95%以上,F1值提升0.14%以上。表明所提模型在解决农业领域文本分类问题方面的有效性和优越性。展开更多
传统数据增强技术,如同义词替换、随机插入和随机删除等,可能改变文本的原始语义,甚至导致关键信息丢失。此外,在文本分类任务中,数据通常包含文本部分和标签部分,然而传统数据增强方法仅针对文本部分。为解决这些问题,提出一种结合标...传统数据增强技术,如同义词替换、随机插入和随机删除等,可能改变文本的原始语义,甚至导致关键信息丢失。此外,在文本分类任务中,数据通常包含文本部分和标签部分,然而传统数据增强方法仅针对文本部分。为解决这些问题,提出一种结合标签混淆的数据增强(LCDA)技术,从文本和标签这2个基本方面入手,为数据提供全面的强化。在文本方面,通过对文本进行标点符号随机插入和替换以及句末标点符号补齐等增强,在保留全部文本信息和顺序的同时增加文本的多样性;在标签方面,采用标签混淆方法生成模拟标签分布替代传统的one-hot标签分布,以更好地反映实例和标签与标签之间的关系。在THUCNews(TsingHua University Chinese News)和Toutiao这2个中文新闻数据集构建的小样本数据集上分别结合TextCNN、TextRNN、BERT(Bidirectional Encoder Representations from Transformers)和RoBERTa-CNN(Robustly optimized BERT approach Convolutional Neural Network)文本分类模型的实验结果表明,与增强前相比,性能均得到显著提升。其中,在由THUCNews数据集构造的50-THU数据集上,4种模型结合LCDA技术后的准确率相较于增强前分别提高了1.19、6.87、3.21和2.89个百分点;相较于softEDA(Easy Data Augmentation with soft labels)方法增强的模型分别提高了0.78、7.62、1.75和1.28个百分点。通过在文本和标签这2个维度的处理结果可知,LCDA技术能显著提升模型的准确率,在数据量较少的应用场景中表现尤为突出。展开更多
台区电力工单记录反映了台区运行工况和用户需求,是制定台区用电安全管理制度和满足台区用户用电需求的重要依据。针对台区电力工单高复杂性和强专业性给台区工单分类带来的难题,提出一种融合标签平滑(LS)与预训练语言模型的台区电力工...台区电力工单记录反映了台区运行工况和用户需求,是制定台区用电安全管理制度和满足台区用户用电需求的重要依据。针对台区电力工单高复杂性和强专业性给台区工单分类带来的难题,提出一种融合标签平滑(LS)与预训练语言模型的台区电力工单分类模型(MiniRBT-LSTM-GAT)。首先,利用预训练模型计算电力工单文本中的字符级特征向量表示;其次,采用双向长短期记忆网络(BiLSTM)捕捉电力文本序列中的依赖关系;再次,通过图注意力网络(GAT)聚焦对文本分类贡献大的特征信息;最后,利用LS改进损失函数以提高模型的分类精度。所提模型与当前主流的文本分类算法在农网台区电力工单数据集(RSPWO)、浙江省95598电力工单数据集(ZJPWO)和THUCNews(TsingHua University Chinese News)数据集上的实验结果表明,与电力审计文本多粒度预训练语言模型(EPAT-BERT)相比,所提模型在RSPWO、ZJPWO上的查准率和F1值分别提升了2.76、2.02个百分点和1.77、1.40个百分点;与胶囊神经网络模型BRsyn-caps(capsule network based on BERT and dependency syntax)相比,所提模型在THUCNews数据集上的查准率和准确率分别提升了0.76和0.71个百分点。可见,所提模型有效提升了台区电力工单分类的性能,并在THUCNews数据集上表现良好,验证了模型的通用性。展开更多
文摘为解决医学文本使用预训练模型处理速度慢、对硬件的算力要求高、难以分辨少样本类别,以及使用传统小模型由于自身限制难以做到足够的准确度的问题,提出了一种融合预训练和元蒸馏的文本分类模型PTMD(fusion of pre-training and meta distillation model)。PTMD针对医学文本的多标签问题,通过对比训练对RoBERTa预训练方法进行微调,再由双向内置注意力简单循环单元充分获取语义信息。最后在传统蒸馏模型的基础上融合元学习和助教的思想,通过教学实验和双级模型等方法,提高模型的教学水平,最终在减少训练成本的基础上得到一个高性能医学文本分类模型。实验结果表明,教师模型在CHIP2019评测三数据集上的F1值达到了85.47%,同时学生模型在F1值损失1.45个百分点的情况下,将模型规模缩小到教师模型的近1/6,效果高于大多数传统预训练模型和知识蒸馏模型,证明了该模型具有良好的实用价值。
文摘ReLM(Rephrasing Language Model)是当前性能领先的中文拼写纠错(CSC)模型。针对它在复杂语义场景中存在特征表达不足的问题,提出深层语义特征增强的ReLM——FeReLM(Feature-enhanced Rephrasing Language Model)。该模型利用深度可分离卷积(DSC)技术融合特征提取模型BGE(BAAI General Embeddings)生成的深层语义特征与ReLM生成的整体特征,从而有效提升模型对复杂上下文的解析力和拼写错误的识别纠正精度。首先,在Wang271K数据集上训练FeReLM,使模型持续学习句子中的深层语义和复杂表达;其次,迁移训练好的权重,从而将模型学习到的知识应用于新的数据集并进行微调。实验结果表明,在ECSpell和MCSC数据集上与ReLM、MCRSpell(Metric learning of Correct Representation for Chinese Spelling Correction)和RSpell(Retrieval-augmented Framework for Domain Adaptive Chinese Spelling Check)等模型相比,FeReLM的精确率、召回率、F1分数等关键指标的提升幅度可达0.6~28.7个百分点。此外,通过消融实验验证了所提方法的有效性。
文摘目前大部分题目推荐系统基于人工筛选或利用大数据推荐,较少考虑题目本身的信息。为改善在线教育编程平台的用户体验,在有限的条件下为学生推荐合适的题目,提出一种结合动态词向量优化和文本、标签信息融合的深度学习模型——基于文本和标签信息融合和BERT白化的长短期记忆网络(TLFBW-LSTM)。首先,利用白化技术优化BERT(Bidirectional Encoder Representations from Transformers)模型生成的词向量;其次,利用孪生网络结构和注意力机制分别融合不同题目的文本和标签数据;最后,设置全连接层计算相似程度。此外,通过动态词向量优化和标签嵌入的方式,增强模型对相似题目的识别能力。在力扣的编程题库数据集上的实验结果表明,动态词向量和异构数据的加入能够有效提高模型对相似题目判断的准确率,与Sentence-BERT和DenoSent方法相比,TLFBW-LSTM的准确率提升了13.41%和13.62%,验证了TLFBW-LSTM的有效性。
文摘传统的基于表示学习的知识推理方法只能用于封闭世界的知识推理,有效进行开放世界的知识推理是目前的热点问题。因此,提出一种基于路径和增强三元组文本的开放世界知识推理模型PEOR(Path and Enhanced triplet text for Open world knowledge Reasoning)。首先,使用由实体对间结构生成的多条路径和单个实体周围结构生成的增强三元组,其中路径文本通过拼接路径中的三元组文本得到,而增强三元组文本通过拼接头实体邻域文本、关系文本和尾实体邻域文本得到;其次,使用BERT(Bidirectional Encoder Representations from Transformers)分别编码路径文本和增强三元组文本;最后,使用路径向量和三元组向量计算语义匹配注意力,再使用语义匹配注意力聚合多条路径的语义信息。在3个开放世界知识图谱数据集WN18RR、FB15k-237和NELL-995上的对比实验结果表明,与次优模型BERTRL(BERT-based Relational Learning)相比,所提模型的命中率(Hits@10)指标分别提升了2.6、2.3和8.5个百分点,验证了所提模型的有效性。
文摘目的零样本三维模型分类任务自提出起,始终面临大规模数据集与高质量语义信息的短缺问题。为应对这些问题,现有方法引入二维图像领域中蕴含丰富的数据集和语义信息的大规模预训练模型,这些方法基于语言—图像对比学习预训练网络,取得了一定的零样本分类效果。但是,现有方法对三维信息捕捉不全,无法充分利用来自三维领域的知识,针对这一问题,提出一致性约束引导的零样本三维模型分类网络。方法一方面,在保留来自预训练网络中的全部二维知识的同时,通过视图一致性学习三维数据的特征,从视图层面将三维信息增补至二维视图特征中;另一方面,通过掩码一致性约束引导网络通过自监督增强网络对三维模型的整体性学习,提高网络泛化性能;同时,提出同类一致性约束引导的非互斥损失,确保网络在小规模数据集训练中学习方向的正确性与能力的泛化性。结果在ZS3D(zero-shot for 3D dataset)、ModelNet10和Shrec2015(shape retrieval 2015)3个数据集上进行零样本分类,分别取得70.1%、57.8%和12.2%的分类精度,与当前最优方法相比,分别取得9.2%、22.8%和2.3%的性能提升;在ScanObjectNN的3个子集OBJ_ONLY(objectonly)、OBJ_BG(object and background)及PB_T50_RS(object augmented rot scale)上,本文方法也取得了具有竞争力的分类准确率,分别是32.4%、28.9%和19.3%。结论相较于完全依赖预训练模型能力的方法,本文方法在充分利用语言—图像预训练网络的基础上,将三维模型领域的知识引入网络,并提升网络泛化能力,使零样本分类结果更加准确。
文摘针对农业领域文本信息密度大、语义模糊、特征稀疏的特点,提出一种基于MacBERT(MLM as correction-BERT)、深度金字塔卷积网络(DPCNN)和注意力机制(Attention)的农业文本分类模型,命名为MacBERT—DPCNN—Attention(MDA)。首先,使用MacBERT模型充分提取农业类文本内容的上下文信息,强化文本的语义特征表示。然后,DPCNN模型通过其多层卷积神经网络和池化操作,有效捕获文本的局部特征。最后,注意力机制进一步增强农业文本序列的特征表达。结果表明,与其他主流模型如BERT—DPCNN、BERT—CNN、BERT—RNN相比,MDA模型在农业文本分类任务上的精确率提升1.04%以上,召回率提升0.95%以上,F1值提升0.14%以上。表明所提模型在解决农业领域文本分类问题方面的有效性和优越性。
文摘传统数据增强技术,如同义词替换、随机插入和随机删除等,可能改变文本的原始语义,甚至导致关键信息丢失。此外,在文本分类任务中,数据通常包含文本部分和标签部分,然而传统数据增强方法仅针对文本部分。为解决这些问题,提出一种结合标签混淆的数据增强(LCDA)技术,从文本和标签这2个基本方面入手,为数据提供全面的强化。在文本方面,通过对文本进行标点符号随机插入和替换以及句末标点符号补齐等增强,在保留全部文本信息和顺序的同时增加文本的多样性;在标签方面,采用标签混淆方法生成模拟标签分布替代传统的one-hot标签分布,以更好地反映实例和标签与标签之间的关系。在THUCNews(TsingHua University Chinese News)和Toutiao这2个中文新闻数据集构建的小样本数据集上分别结合TextCNN、TextRNN、BERT(Bidirectional Encoder Representations from Transformers)和RoBERTa-CNN(Robustly optimized BERT approach Convolutional Neural Network)文本分类模型的实验结果表明,与增强前相比,性能均得到显著提升。其中,在由THUCNews数据集构造的50-THU数据集上,4种模型结合LCDA技术后的准确率相较于增强前分别提高了1.19、6.87、3.21和2.89个百分点;相较于softEDA(Easy Data Augmentation with soft labels)方法增强的模型分别提高了0.78、7.62、1.75和1.28个百分点。通过在文本和标签这2个维度的处理结果可知,LCDA技术能显著提升模型的准确率,在数据量较少的应用场景中表现尤为突出。
文摘台区电力工单记录反映了台区运行工况和用户需求,是制定台区用电安全管理制度和满足台区用户用电需求的重要依据。针对台区电力工单高复杂性和强专业性给台区工单分类带来的难题,提出一种融合标签平滑(LS)与预训练语言模型的台区电力工单分类模型(MiniRBT-LSTM-GAT)。首先,利用预训练模型计算电力工单文本中的字符级特征向量表示;其次,采用双向长短期记忆网络(BiLSTM)捕捉电力文本序列中的依赖关系;再次,通过图注意力网络(GAT)聚焦对文本分类贡献大的特征信息;最后,利用LS改进损失函数以提高模型的分类精度。所提模型与当前主流的文本分类算法在农网台区电力工单数据集(RSPWO)、浙江省95598电力工单数据集(ZJPWO)和THUCNews(TsingHua University Chinese News)数据集上的实验结果表明,与电力审计文本多粒度预训练语言模型(EPAT-BERT)相比,所提模型在RSPWO、ZJPWO上的查准率和F1值分别提升了2.76、2.02个百分点和1.77、1.40个百分点;与胶囊神经网络模型BRsyn-caps(capsule network based on BERT and dependency syntax)相比,所提模型在THUCNews数据集上的查准率和准确率分别提升了0.76和0.71个百分点。可见,所提模型有效提升了台区电力工单分类的性能,并在THUCNews数据集上表现良好,验证了模型的通用性。