期刊文献+
共找到284篇文章
< 1 2 15 >
每页显示 20 50 100
基于共享背景主题的Labeled LDA模型 被引量:16
1
作者 江雨燕 李平 王清 《电子学报》 EI CAS CSCD 北大核心 2013年第9期1794-1799,共6页
隐藏狄利克雷分配(Latent Dirichlet Allocation,LDA)模型被广泛应用于文本分析、图像识别等领域.但由于LDA及其扩展模型多为无监督学习模型,无法将其应用于分类任务中.本文通过研究文档标记与LDA模型中主题的映射关系,提出一种新的Labe... 隐藏狄利克雷分配(Latent Dirichlet Allocation,LDA)模型被广泛应用于文本分析、图像识别等领域.但由于LDA及其扩展模型多为无监督学习模型,无法将其应用于分类任务中.本文通过研究文档标记与LDA模型中主题的映射关系,提出一种新的Labeled LDA模型(Shared Background Topics Labeled LDA,SBTL-LDA).在SBTL-LDA模型中每个标记除了存在若干个独享的局部主题外,还存在若干个共享的背景(Background)主题,这样可以有效分析不同标记所含主题之间的依赖关系,而文档标记被映射为局部主题和共享主题的组合,因此SBTL-LDA模型可以有效提升文档标记判别的准确性.同时SBTL-LDA模型还可以看成是一种半监督聚类模型,在对文档进行聚类分析的过程中模型可以有效的利用文档的标记信息提升文档聚类效果.实验证明SBTL-LDA模型能够有效解决PLDA模型中主题之间的相似性和依赖关系,具有良好的多标记判别能力,并且具有优于LDA、PLDA模型的文档聚类效果. 展开更多
关键词 隐藏狄利克雷分配 文本分析 多标记学习 半监督聚类
在线阅读 下载PDF
基于Labeled-LDA模型的文本特征提取方法 被引量:13
2
作者 王瑞 龙华 +1 位作者 邵玉斌 杜庆治 《电子测量技术》 2020年第1期141-146,共6页
针对LDA主题模型文本特征提取时主题识别不明确的问题,提出一种基于Labeled-LDA模型的文本特征提取方法。使用LDA主题模型对文本隐含主题中的主题词进行提取,根据TF-IDF算法实现对文本类别的关键词进行提取。通过文本simhash算法对提取... 针对LDA主题模型文本特征提取时主题识别不明确的问题,提出一种基于Labeled-LDA模型的文本特征提取方法。使用LDA主题模型对文本隐含主题中的主题词进行提取,根据TF-IDF算法实现对文本类别的关键词进行提取。通过文本simhash算法对提取出的主题词与关键词进行相似度计算,找到文本隐含主题的类别并提取特征词。实验表明结合后的特征提取方法比TF-IDF、传统LDA主题模型的文本特征提取方法,获得更高的分类精度,其中准确度提高了3.40%,召回率提高了4.40%,F值提高了3.92%。 展开更多
关键词 labeled-LDA TF-IDF Simhash 文本特征提取
原文传递
融合数据增强和多通道解码的中文多标签文本分类方法
3
作者 黄荣达 彭若馨 杨英勃 《网络新媒体技术》 2026年第1期57-65,共9页
中文多标签文本分类是自然语言处理领域的重要任务之一,广泛应用于情感分析、舆情监测、文本标注等多个领域。然而,中文文本的复杂性以及多标签数据集的特殊性(如数据量少、标签不平衡、复合标签等)给分类任务带来诸多挑战。本文提出一... 中文多标签文本分类是自然语言处理领域的重要任务之一,广泛应用于情感分析、舆情监测、文本标注等多个领域。然而,中文文本的复杂性以及多标签数据集的特殊性(如数据量少、标签不平衡、复合标签等)给分类任务带来诸多挑战。本文提出一种基于数据增强和多通道解码的中文多标签文本分类模型,通过大模型增强平衡不同类型的标签数据,同时利用多通道解码改善单通道解码不能充分区分不同维度语义差别的问题。实验结果表明,所提出的方法在多个数据集上平均F1值从69提升至79,为中文多标签文本分类任务提供新的解决方案。 展开更多
关键词 中文数据集 多标签文本分类 数据增强 多通道解码
在线阅读 下载PDF
基于ALBERT-TextCNN模型的多标签医疗文本分类方法 被引量:18
4
作者 郑承宇 王新 +2 位作者 王婷 邓亚萍 尹甜甜 《山东大学学报(理学版)》 CAS CSCD 北大核心 2022年第4期21-29,共9页
针对现有Word2Vec和Glove等静态词向量表征方法无法解决文本完整语义的问题,结合ALBERT预训练语言模型和TextCNN卷积神经网络,提出一种用于多标签医疗文本分类的深层神经网络模型ALBERT-TextCNN。该模型采用ALBERT预训练语言模型进行动... 针对现有Word2Vec和Glove等静态词向量表征方法无法解决文本完整语义的问题,结合ALBERT预训练语言模型和TextCNN卷积神经网络,提出一种用于多标签医疗文本分类的深层神经网络模型ALBERT-TextCNN。该模型采用ALBERT预训练语言模型进行动态字向量表示,通过其内部多层双向的Transfomer结构获取更高效的文本向量表达,并引入TextCNN卷积神经网络模型构造多标签分类器进行训练,提取不同抽象层次的语义信息特征。在中文健康问句数据集上进行算法性能测试,实验结果表明,该模型分类的整体F1值达到了90.5%,能有效提升医疗文本的多标签分类效果。 展开更多
关键词 ALBERT textCNN模型 多标签分类 医疗文本
原文传递
基于XLNet+BiGRU+Att(Label)的文本分类模型 被引量:2
5
作者 刘柏霆 管卫利 李陶深 《广西科学院学报》 2022年第4期412-419,共8页
传统的词向量嵌入模型,如Word2Vec、GloVe等模型无法实现一词多义表达;传统的文本分类模型也未能很好地利用标签词的语义信息。基于此,提出一种基于XLNet+BiGRU+Att(Label)的文本分类模型。首先用XLNet生成文本序列与标签序列的动态词... 传统的词向量嵌入模型,如Word2Vec、GloVe等模型无法实现一词多义表达;传统的文本分类模型也未能很好地利用标签词的语义信息。基于此,提出一种基于XLNet+BiGRU+Att(Label)的文本分类模型。首先用XLNet生成文本序列与标签序列的动态词向量表达;然后将文本向量输入到双向门控循环单元(BiGRU)中提取文本特征信息;最后将标签词与注意力机制结合,选出文本的倾向标签词,计算倾向标签词与文本向量的注意力得分,根据注意力得分更新文本向量。通过对比实验,本文模型比传统模型在文本分类任务中的准确率更高。使用XLNet作为词嵌入模型,在注意力计算时结合标签词能够提升模型的分类性能。 展开更多
关键词 文本分类 XLNet BiGRU 标签词 注意力机制
在线阅读 下载PDF
基于改进Labeled LDA模型的科技视频文本分类 被引量:3
6
作者 马建红 樊跃翔 《计算机工程》 CAS CSCD 北大核心 2018年第9期274-279,共6页
在对科技领域视频文本进行分类时,容易忽略分类贡献度较高的专业名词。为此,改进传统Labeled潜在Dirichlet分布(LDA)模型,建立用于科技领域视频文本的M ul CHI-Labeled LDA模型,避免偏向高频词的现象。通过构建领域术语库以突出专业名词... 在对科技领域视频文本进行分类时,容易忽略分类贡献度较高的专业名词。为此,改进传统Labeled潜在Dirichlet分布(LDA)模型,建立用于科技领域视频文本的M ul CHI-Labeled LDA模型,避免偏向高频词的现象。通过构建领域术语库以突出专业名词,同时使用卡方加权和文本位置加权算法提升主题词质量。实验结果表明,与Labeled LDA模型相比,该模型可以解决专业名词被忽略的问题,并能有效提高主题词质量和分类准确率。 展开更多
关键词 科技视频 文本分类 标签 卡方加权 领域术语库
在线阅读 下载PDF
基于TextCNN的政策文本分类 被引量:4
7
作者 李悦 汤鲲 《电子设计工程》 2022年第12期43-47,共5页
多标签文本分类现在已经成为自然语言处理中的核心任务之一,它的目的是从多个候选标签中使用最相关的标签来注释文档。该文的研究是在文本分类的基础上,以TextCNN神经网络作为基础分类框架,介绍了在自建数据集上进行基于改进的TextCNN... 多标签文本分类现在已经成为自然语言处理中的核心任务之一,它的目的是从多个候选标签中使用最相关的标签来注释文档。该文的研究是在文本分类的基础上,以TextCNN神经网络作为基础分类框架,介绍了在自建数据集上进行基于改进的TextCNN的多标签分类任务。通过爬虫来获取全国各个地市的政策文本数据,构建了一个全新的政策类数据集,对数据进行预处理,利用改进后的TextCNN神经网络来训练模型对数据进行多标签分类,经过实验对比测试,改进后的TextCNN结合百度百科词向量在自建数据集上达到了较好的分类效果。 展开更多
关键词 多标签分类 textCNN 政策文本 百度百科词向量
在线阅读 下载PDF
基于Bert-TextCNN的开源威胁情报文本的多标签分类方法 被引量:8
8
作者 陆佳丽 《信息安全研究》 CSCD 北大核心 2024年第8期760-768,共9页
开源威胁情报对网络安全防护十分重要,但其存在着分布广、形式多、噪声大的特点.所以如何能对收集到的海量开源威胁情报进行高效的整理和分析就成为亟需解决的问题.因此,探索了一种以Bert-TextCNN模型为基础且同时考虑标题、正文和正则... 开源威胁情报对网络安全防护十分重要,但其存在着分布广、形式多、噪声大的特点.所以如何能对收集到的海量开源威胁情报进行高效的整理和分析就成为亟需解决的问题.因此,探索了一种以Bert-TextCNN模型为基础且同时考虑标题、正文和正则判断的多标签分类方法.根据情报源发布文本的特点,设置正则判断规则,以弥补模型的欠缺;为更全面反映开源威胁情报文本所涉及的威胁主题,针对标题和正文分别设置了Bert-TextCNN多标签分类模型,并将2部分标签整理去重以得到文本的最终威胁类别.通过与只依据正文建立的Bert-TextCNN多标签分类模型进行对比,所设置的模型在性能上有所提升,且召回率提升明显,能为开源威胁情报分类工作提供有价值的参考. 展开更多
关键词 开源威胁情报 多标签分类 文本分类 Bert模型 textCNN模型
在线阅读 下载PDF
基于语义筛选的ALBERT-TextCNN中医文本多标签分类研究 被引量:3
9
作者 刘勇 杜建强 +3 位作者 罗计根 李清 于梦波 郑奇民 《现代信息科技》 2023年第19期123-128,共6页
针对中医领域中的大量未标注文本,以及传统多标签分类模型提取的文本语义信息不够完整等问题,提出一种用于中医文本的多标签分类模型语义筛选ALBERT-TextCNN。首先进行特定领域任务自训练,将哮喘领域内属于多标签分类任务但未标注文本输... 针对中医领域中的大量未标注文本,以及传统多标签分类模型提取的文本语义信息不够完整等问题,提出一种用于中医文本的多标签分类模型语义筛选ALBERT-TextCNN。首先进行特定领域任务自训练,将哮喘领域内属于多标签分类任务但未标注文本输入ALBERT进行预训练任务;其次ALBERT多层的Transform对已标注数据分别进行动态向量化表示,基于语义筛选选取最佳编码层生成的高效文本向量;最后引入TextCNN建立多标签分类器,提取文本向量不同层次的语义信息特征。在中医数据集上验证方法的有效性,实验结果表明,该模型的多标签分类精度有所提高,更适用于中医文本的分类预测。 展开更多
关键词 多标签分类 中医文本 语义筛选 ALBERT textCNN
在线阅读 下载PDF
基于Albert与TextCNN的中文文本分类研究 被引量:3
10
作者 李飞鸽 王芳 黄树成 《软件导刊》 2023年第4期27-31,共5页
互联网数据众多,为高效管理互联网的海量中文文本数据,提出基于Albert与TextCNN的中文文本分类方法(ATT)。该方法引入Albert模型解决一词多义问题,使用TF-IDF算法抽取当前文本数据中权重最高的5个词构建整个文档关键词表,将关键词表与Al... 互联网数据众多,为高效管理互联网的海量中文文本数据,提出基于Albert与TextCNN的中文文本分类方法(ATT)。该方法引入Albert模型解决一词多义问题,使用TF-IDF算法抽取当前文本数据中权重最高的5个词构建整个文档关键词表,将关键词表与Albert生成的词向量进行向量拼接,构成一个融合关键词信息的多义词向量。并且,在传统TextCNN基础上根据中文语言特点调整卷积核窗口大小以提取文本数据的深层局部特征。实验表明,ATT模型相较于未加入TF-IDF关键词表、未调整卷积核大小的传统模型,F1值分别提升1.88%和2.26%,为中文文本分类提供了一种新方法。 展开更多
关键词 向量 文本特征提取 多标签 文本分类
在线阅读 下载PDF
基于标签构建与特征融合的多标签文本分类研究方法 被引量:4
11
作者 王旭阳 卢世红 《贵州师范大学学报(自然科学版)》 北大核心 2025年第1期105-114,共10页
目前存在的多标签文本分类任务算法,对于标签的建模不是很成熟,其中对于标签的依赖性问题,以及标签特征和文本特征的融合程度问题,均缺乏有效的处理方法。为了更有效地利用标签间的依赖关系,以及整合标签特征与文本特征的融合,提出了一... 目前存在的多标签文本分类任务算法,对于标签的建模不是很成熟,其中对于标签的依赖性问题,以及标签特征和文本特征的融合程度问题,均缺乏有效的处理方法。为了更有效地利用标签间的依赖关系,以及整合标签特征与文本特征的融合,提出了一种名为CGTCN的多标签文本分类模型。该模型从标签构建和特征融合的角度出发,通过CompGCN建模标签依赖关系,先利用Transformer中的多头交叉注意力机制初步融合标签特征和文本特征,然后再通过CorNet网络进一步捕获标签特征与文本特征之间的相关性,从而得到最终的标签预测。实验结果显示,与基准模型相比,该方法能够有效的提升模型性能,在多标签文本分类任务中取得更好的分类效果。 展开更多
关键词 多标签文本分类 CompGCN TRANSFORMER CorNet 标签相关性
在线阅读 下载PDF
基于社交媒体短文本的城市内涝灾情信息识别与分析 被引量:1
12
作者 王鑫 罗年学 赵前胜 《测绘与空间地理信息》 2025年第4期41-44,47,共5页
社交媒体在灾害发生时能够快速提供实时且丰富的灾情信息,为应急救援提供辅助参考。然而,社交媒体信息通常以短文本形式呈现,具有口语化、语义特征稀疏和标注语料匮乏等特征,给灾情信息的识别与分析带来挑战。为此,本文提出了一种结合... 社交媒体在灾害发生时能够快速提供实时且丰富的灾情信息,为应急救援提供辅助参考。然而,社交媒体信息通常以短文本形式呈现,具有口语化、语义特征稀疏和标注语料匮乏等特征,给灾情信息的识别与分析带来挑战。为此,本文提出了一种结合灾害领域知识的预训练语言模型增强方法,用于识别和分类灾情信息。首先,构建灾情知识库,包含不同灾损事件的触发词及论元;其他,通过分析短文本与灾损事件触发词的语义相似度,生成灾损知识编码;最后,将灾情领域知识与预训练词向量融合增强特征向量并输入神经网络模型实现多标签分类。以2021年7月20日前后河南暴雨灾情数据为例,将本文方法与TextCNN、Attention based CNN模型进行了对比实验,结果表明,该方法不仅有效提升了小样本数据的分类精度,还有效缓解了语义高度重合的数据类型容易错分的问题。同时,对分类结果进行灾损事件论元匹配能够充分挖掘涉灾短文本中的有效灾情信息,辅助应急救援决策。 展开更多
关键词 社交媒体 短文本 多标签分类 积水点 物资需求
在线阅读 下载PDF
基于链接策略和不同粒度特征融合的极限多标签文本分类模型
13
作者 胡婕 郑启扬 +1 位作者 曹芝兰 刘梦赤 《中文信息学报》 北大核心 2025年第3期84-95,共12页
现有基于Transformer的极限多标签文本分类模型尽管引入了标签语义,但利用标签语义来探索文本和标签之间的语义潜在关系仍存在不足。对此,该文将标签合并成序列,并使用链接策略在同一空间内联合学习文本和标签特征来捕获文本和标签的语... 现有基于Transformer的极限多标签文本分类模型尽管引入了标签语义,但利用标签语义来探索文本和标签之间的语义潜在关系仍存在不足。对此,该文将标签合并成序列,并使用链接策略在同一空间内联合学习文本和标签特征来捕获文本和标签的语义。然后,通过注意力机制将标签语义和文档内容相结合生成感知文本,有效地探索文本信息和标签语义的交互关系。此外,该文通过融合机制将粗粒度层次特征和细粒度特征相结合,帮助模型更好地学习不同层次粒度的文档语义信息。在三个公开的数据集Eurlex-4K、Wiki10-30K和Kan-Shan Cup上进行了模型验证,实验结果表明,该文所提模型P@k值优于对比模型,综合性能得到有效提升。 展开更多
关键词 极限多标签文本分类 链接策略 感知文本 细粒度特征
在线阅读 下载PDF
融合外部语义知识的多标签分类方法
14
作者 杨进才 班启旭 +1 位作者 杨旭生 沈显君 《计算机应用》 北大核心 2025年第12期3757-3763,共7页
文本分类作为自然语言处理(NLP)领域的重要任务,它的多标签分类因标签空间大而成为难点。针对该问题,以儿童读物中的价值观标识为实例,提出一种融合外部语义知识的多标签分类方法HSGIN(Heterogeneous Semantic Gated Interaction Netwo... 文本分类作为自然语言处理(NLP)领域的重要任务,它的多标签分类因标签空间大而成为难点。针对该问题,以儿童读物中的价值观标识为实例,提出一种融合外部语义知识的多标签分类方法HSGIN(Heterogeneous Semantic Gated Interaction Network)。首先,利用SBERT(Sentence embeddings from Siamese BERT(Bidirectional Encoder Representations from Transformers))和双向长短期记忆(Bi-LSTM)网络提取文本特征;其次,通过异质图转换架构(HGT)联合建模知识图谱(KG)中的实体和关系,并利用先验知识和语义关联提取标签特征;最后,将文本特征和标签特征进行注意力融合以得到不同的标签特征表示,且引入门控图神经网络(GGNN)捕捉标签间的语义依赖和交互模式并进行预测。实验结果表明,相较于目前性能先进的对比方法BERT,所提方法的精确率、召回率和F1分数分别提升了2.66、0.47和1.16个百分点。以上实验结果验证了所提方法的有效性,同时,对儿童读物中价值观标识的精准分析有助于为儿童选择健康的读物。 展开更多
关键词 多标签文本分类 知识图谱 异质图转换架构 门控图神经网络 标签相关性
在线阅读 下载PDF
融合特征增强和对比学习的电力客服工单多标签文本分类方法
15
作者 周景 唐振洋 +1 位作者 董晖 刘心 《计算机应用》 北大核心 2025年第12期3847-3854,共8页
电力客服工单多标签文本分类(MLTC)在提升服务效率与用户满意度方面具有重要意义。针对电力客服工单MLTC中的标签关系建模不足与类别不平衡问题,提出一种融合特征增强和对比学习的电力客服工单MLTC方法。首先,通过预训练语言模型提取客... 电力客服工单多标签文本分类(MLTC)在提升服务效率与用户满意度方面具有重要意义。针对电力客服工单MLTC中的标签关系建模不足与类别不平衡问题,提出一种融合特征增强和对比学习的电力客服工单MLTC方法。首先,通过预训练语言模型提取客服工单文本特征;其次,结合多头注意力机制的全局编码与卷积神经网络(CNN)的局部编码模块,设计一种文本特征增强方法,以有效捕捉电力工单文本中的重要信息并提升特征表达能力;最后,引入对比学习改进的K最近邻(KNN)算法的MLTC框架,采用R-Drop(Regularized Dropout)方法生成正样本,而对负样本重新加权,并在训练中结合监督对比学习损失函数提高KNN机制推理期间检索到的邻居的质量,从而有效地缓解样本不平衡带来的负面影响。实验结果表明,所提方法在电力客服工单数据集上的微平均F1值为92.17%,较BERT(Bidirectional Encoder Representations from Transformers)模型提高了1.62个百分点;同时,所提方法在MLTC公共数据集AAPD和RCV1-V2上分别取得了75.2%和88.5%的微平均F1值,不仅在提升工单处理准确性和服务效率方面展现出较高的应用价值,而且在复杂MLTC任务中具备有效性。 展开更多
关键词 多标签文本分类 电力客服工单 对比学习 特征增强 预训练语言模型
在线阅读 下载PDF
中文电子病历标注系统构建与应用 被引量:1
16
作者 赵琬清 胡佳慧 +2 位作者 陈凌云 娄培 方安 《医学信息学杂志》 2025年第6期74-80,共7页
目的/意义构建中文电子病历标注系统,实现电子病历文本的自动化标注。方法/过程分析系统需求,阐述系统架构,从数据层、服务层与功能层3方面对中文电子病历标注系统进行介绍,包括用户权限管理、实体和关系标注流程以及标注算法等。结果/... 目的/意义构建中文电子病历标注系统,实现电子病历文本的自动化标注。方法/过程分析系统需求,阐述系统架构,从数据层、服务层与功能层3方面对中文电子病历标注系统进行介绍,包括用户权限管理、实体和关系标注流程以及标注算法等。结果/结论中文电子病历标注系统能有效满足电子病历标注任务的需求,目前已成功应用于垂体瘤电子病历语料构建工作。 展开更多
关键词 中文电子病历 文本标注 医学标注系统 实体识别
暂未订购
结合标签混淆的中文文本分类数据增强技术 被引量:1
17
作者 孙海涛 林佳瑜 +1 位作者 梁祖红 郭洁 《计算机应用》 北大核心 2025年第4期1113-1119,共7页
传统数据增强技术,如同义词替换、随机插入和随机删除等,可能改变文本的原始语义,甚至导致关键信息丢失。此外,在文本分类任务中,数据通常包含文本部分和标签部分,然而传统数据增强方法仅针对文本部分。为解决这些问题,提出一种结合标... 传统数据增强技术,如同义词替换、随机插入和随机删除等,可能改变文本的原始语义,甚至导致关键信息丢失。此外,在文本分类任务中,数据通常包含文本部分和标签部分,然而传统数据增强方法仅针对文本部分。为解决这些问题,提出一种结合标签混淆的数据增强(LCDA)技术,从文本和标签这2个基本方面入手,为数据提供全面的强化。在文本方面,通过对文本进行标点符号随机插入和替换以及句末标点符号补齐等增强,在保留全部文本信息和顺序的同时增加文本的多样性;在标签方面,采用标签混淆方法生成模拟标签分布替代传统的one-hot标签分布,以更好地反映实例和标签与标签之间的关系。在THUCNews(TsingHua University Chinese News)和Toutiao这2个中文新闻数据集构建的小样本数据集上分别结合TextCNN、TextRNN、BERT(Bidirectional Encoder Representations from Transformers)和RoBERTa-CNN(Robustly optimized BERT approach Convolutional Neural Network)文本分类模型的实验结果表明,与增强前相比,性能均得到显著提升。其中,在由THUCNews数据集构造的50-THU数据集上,4种模型结合LCDA技术后的准确率相较于增强前分别提高了1.19、6.87、3.21和2.89个百分点;相较于softEDA(Easy Data Augmentation with soft labels)方法增强的模型分别提高了0.78、7.62、1.75和1.28个百分点。通过在文本和标签这2个维度的处理结果可知,LCDA技术能显著提升模型的准确率,在数据量较少的应用场景中表现尤为突出。 展开更多
关键词 数据增强 文本分类 标签混淆 中文新闻主题 预训练模型
在线阅读 下载PDF
基于多尺度特征提取的层次多标签文本分类方法 被引量:2
18
作者 武子轩 王烨 于洪 《郑州大学学报(理学版)》 CAS 北大核心 2025年第2期24-30,共7页
针对现有的特征提取方法忽略文本局部和全局联系的问题,提出了基于多尺度特征提取的层次多标签文本分类方法。首先,设计了多尺度特征提取模块,对不同尺度特征进行捕捉,更好地表示文本语义。其次,将层次特征嵌入文本表示中,得到具有标签... 针对现有的特征提取方法忽略文本局部和全局联系的问题,提出了基于多尺度特征提取的层次多标签文本分类方法。首先,设计了多尺度特征提取模块,对不同尺度特征进行捕捉,更好地表示文本语义。其次,将层次特征嵌入文本表示中,得到具有标签特征的文本语义表示。最后,在标签层次结构的指导下对输入文本构建正负样本,进行对比学习,提高分类效果。在WOS、RCV1-V2、NYT和AAPD数据集上进行对比实验,结果表明,所提模型在评价指标上表现出色,超过了其他主流模型。此外,针对层次分类提出层次Micro-F 1和层次Macro-F 1指标,并对模型效果进行了评价。 展开更多
关键词 层次多标签文本分类 多尺度特征提取 对比学习 层次Micro-F 1 层次Macro-F 1
在线阅读 下载PDF
基于特征融合动态图网络的多标签文本分类算法 被引量:1
19
作者 黄靖 陶竹林 +1 位作者 杜晓宇 项欣光 《软件学报》 北大核心 2025年第7期3239-3252,共14页
多标签文本分类旨在为文本分配若干预定义的标签或类别.为了充分发掘标签间的关联,目前的方法通常使用标签关系图并结合图神经网络获取标签特征表示.然而,这类方法过度依赖初始建图策略,忽视了当前文本中固有的标签相关性,使得分类结果... 多标签文本分类旨在为文本分配若干预定义的标签或类别.为了充分发掘标签间的关联,目前的方法通常使用标签关系图并结合图神经网络获取标签特征表示.然而,这类方法过度依赖初始建图策略,忽视了当前文本中固有的标签相关性,使得分类结果更依赖于数据集统计信息,而容易忽视当前文本段中的标签相关信息.因此,提出一种基于特征融合动态图网络的多标签文本分类算法,设计动态图来建模当前文本中的标签相关性,并结合特征融合与图神经网络,形成基于当前文本的标签表示,并由此形成更为准确的多标签文本结果.随后,设计实验进行验证,在3个数据集实验结果表明,所提出的模型在多标签分类任务中取得优秀的性能,验证其有效性和可行性. 展开更多
关键词 多标签文本分类 图卷积网络 注意力机制 动态图
在线阅读 下载PDF
基于多层语言特征的辞格多标签分类方法研究
20
作者 黄欢 李宝安 +2 位作者 张凯 滕尚志 吕学强 《中文信息学报》 北大核心 2025年第8期31-41,共11页
多标签辞格自动分类研究深受中文篇章智能评测的密切关注。传统辞格自动识别方法存在仅考虑句子语义忽略字词语义信息,以及仅使用单一类别的标签描述等问题。针对以上两个问题,该文提出了一种联合多层次语法、语义和标签信息的多标签辞... 多标签辞格自动分类研究深受中文篇章智能评测的密切关注。传统辞格自动识别方法存在仅考虑句子语义忽略字词语义信息,以及仅使用单一类别的标签描述等问题。针对以上两个问题,该文提出了一种联合多层次语法、语义和标签信息的多标签辞格分类模型,该模型利用BERT提取修辞文本的字粒度语义向量,通过句法依存树和图卷积神经网络提取词粒度语法、语义向量并进行交互融合。将字粒度向量表示、词粒度向量表示拼接,并通过自注意力机制捕获两者间的语义信息,利用注意力机制融合文本信息和标签信息实现分类。实验表明,该模型在公开数据集AAPD和构建的辞格数据集CRTD上与其他模型相比具有更好的辞格多标签分类性能,在F1评价指标上分别提升了3%和2%。 展开更多
关键词 多标签分类 辞格识别 句法依存分析 文本标签融合
在线阅读 下载PDF
上一页 1 2 15 下一页 到第
使用帮助 返回顶部