基于多任务学习的跨类型文本分类技术研究被引量：1

Research on Cross-Type Text Classification Technology Based on Multi-Task Learning

导出

摘要【目的】解决常规文本分类任务中由于领域训练数据稀缺、类型间差异大等因素导致的分类准确率低的问题。【方法】引入深层金字塔卷积网络与多门控制单元机制,构建基于BERT-DPCNN-MMOE模型框架的分类模型,通过设计多任务实验和迁移学习实验,对标8种基线模型,验证本文分类模型的有效性。【结果】自主构建多任务跨类型的数据作为训练测试基础,发现本文模型在多任务实验和迁移学习实验中的分类效果均优于8种基线模型,F1值的提升幅度均超过4.7个百分点。【局限】模型在其他领域的适应性需进一步研究。【结论】基于BERT-DPCNN-MMOE分类模型在多任务、跨类型文本分类任务上能够表现出更优的效果,对未来专题情报分类任务具有重要意义。 [Objective]This study addresses the issue of low classification accuracy in conventional text classification tasks due to factors such as sparse domain-specific training data and significant differences between types.[Methods]We constructed a novel classification model based on the BERT-DPCNN-MMOE framework,integrating the deep pyramid convolutional networks with the multi-gate control unit mechanism.Then,we designed multi-task and transfer learning experiments to validate the effectiveness of the new model against eight well-established and innovative models.[Results]This research independently constructed cross-type multi-task data as the basis for training and testing.The BERT-DPCNN-MMOE model outperformed the other eight baseline models in multi-task and transfer learning experiments,with F1 score improvements exceeding 4.7%.[Limitations]Further research is needed to explore the model's adaptability to other domains.[Conclusions]The BERT-DPCNN-MMOE model performs better in multi-task and cross-type text classification tasks.It is of significance for future specialized intelligence classification tasks.

作者宋东桓胡懋地丁洁兰瞿子皓常志军钱力 Song Donghuan;Hu Maodi;Ding Jielan;Qu Zihao;Chang Zhijun;Qian Li(National Science Library,Chinese Academy of Sciences,Beijing 100190,China;Department of Information Resources Management,School of Economics and Management,University of Chinese Academy of Sciences,Beijing 100190,China;Key Laboratory of New Publishing and Knowledge Services for Scholarly Journals,National Press and Publication Administration,Beijing 100190,China)

机构地区中国科学院文献情报中心中国科学院大学经济与管理学院信息资源管理系国家新闻出版署学术期刊新型出版与知识服务重点实验室

出处《数据分析与知识发现》北大核心 2025年第2期12-25,共14页 Data Analysis and Knowledge Discovery

基金国家重点研发计划项目(项目编号:2022YFF0711900)的研究成果之一。

关键词多任务学习跨类型文本分类迁移学习集成学习 Multi-Task Learning Cross-Type Text Classification Transfer Learning Ensemble Learning

分类号 TP391 [自动化与计算机技术—计算机应用技术] G250 [文化科学—图书馆学]

引文网络
相关文献

参考文献13

1于倩倩,钱力,程冰,常志军,王慧丽,靳茜.专题情报数据管理与智能分析平台的构建[J].图书情报工作,2020,64(24):92-105. 被引量：6
2谢金宝,李嘉辉,康守强,王庆岩,王玉静.基于循环卷积多任务学习的多领域文本分类方法[J].电子与信息学报,2021,43(8):2395-2403. 被引量：5
3张博,孙逸,李孟颖,郑馥琦,张益嘉,王健,林鸿飞,杨志豪.基于迁移学习和集成学习的医学短文本分类[J].山西大学学报（自然科学版）,2020,43(4):947-954. 被引量：10
4张洋,胡燕.基于多通道深度学习网络的混合语言短文本情感分类方法[J].计算机应用研究,2021,38(1):69-74. 被引量：11
5杨程,车文刚.基于多门混合专家网络的情感分析与文本摘要多任务模型[J].现代电子技术,2024,47(1):94-99. 被引量：5
6顾亦然,徐泽彬,杨海根.基于多任务与用户兴趣变化的短视频用户行为预测算法[J].复杂系统与复杂性科学,2023,20(4):69-76. 被引量：3
7杨森淇,段旭良,肖展,郎松松,李志勇.基于ERNIE+DPCNN+BiGRU的农业新闻文本分类[J].计算机应用,2023,43(5):1461-1466. 被引量：13
8牛玉婷,陈伯琪,陈彬.基于改进ERNIE-DPCNN模型的中文文本分类[J].江苏师范大学学报（自然科学版）,2021,39(1):47-52. 被引量：5
9许未晴,陈磊,隋秀峰,田沄,刘志勇.脑机接口——脑信息读取与脑活动调控技术[J].科学通报,2023,68(8):927-943. 被引量：18
10李梓,陈晓英.空间科学技术发展引发的国际问题研究[J].辽宁工业大学学报（社会科学版）,2015,17(1):45-48. 被引量：1

二级参考文献64

1Chaity Banerjee,Tathagata Mukherjee,Eduardo Pasiliao Jr..Feature Representations Using the Reflected Rectified Linear Unit(RReLU) Activation[J].Big Data Mining and Analytics,2020,3(2):102-120. 被引量：9
2国家自然科学基佥委员会,中国科学院.未来10年中国学科发展战略:空间科学[M].北京:科学出版社,2011:4-5.
3欧孝昆,李勇.卫星频轨:竞相争夺的战略资源[N].解放军报.2010.5.6(12).
4李寿山,黄居仁,宗成庆.Multi-Domain Sentiment Classification with Classifier Combination[J].Journal of Computer Science & Technology,2011,26(1):25-33. 被引量：5
5周傲英,周敏奇,宫学庆.计算广告:以数据为核心的Web综合应用[J].计算机学报,2011,34(10):1805-1819. 被引量：63
6许军林,梁光德,钟红英,朱姝姗.高校图书馆专题情报产品生产质量控制研究[J].情报理论与实践,2013,36(6):68-72. 被引量：4
7李建中,刘显敏.大数据的一个重要方面:数据可用性[J].计算机研究与发展,2013,50(6):1147-1162. 被引量：264
8薛春香,张玉芳.面向新闻领域的中文文本分类研究综述[J].图书情报工作,2013,57(14):134-139. 被引量：26
9邓君,马晓君,毕强.社会网络分析工具Ucinet和Gephi的比较研究[J].情报理论与实践,2014,37(8):133-138. 被引量：139
10梁军,柴玉梅,原慧斌,昝红英,刘铭.基于深度学习的微博情感分析[J].中文信息学报,2014,28(5):155-161. 被引量：111

共引文献78

1张剑,张立杰.新时代媒体舆论引导下网络语言信息传播耗损及构建研究[J].情报科学,2022,40(8):71-75. 被引量：2
2杨洁,吴宁.脑机接口技术的社会问题及其应对[J].思想理论战线,2024(1):80-88. 被引量：6
3中华医学会神经外科学分会,中国卒中学会脑血管外科分会,王硕,赵继宗,何江弘,涂文军,韩帅,柴晓珂,刘清源.神经系统疾病脑机接口临床研究实施与管理的中国专家共识[J].中华医学杂志,2024,104(23):2105-2112. 被引量：10
4邢鑫,孙国梓.基于双通道词向量的ACRNN文本分类[J].计算机应用研究,2021,38(4):1033-1037. 被引量：2
5孙中宇,龚红仿,狄俊珂.基于防退化策略的多通道闭环BiLSTM在文本分类中的应用研究[J].计算机应用研究,2021,38(6):1780-1784. 被引量：2
6邢照野,刘晓群,刘亚军,孙佩杰.基于增强字符信息的混合电子病历实体识别模型[J].科学与信息化,2021(20):145-148. 被引量：1
7司莉,刘莉.我国“一带一路”专题数据库服务功能优化策略[J].图书馆论坛,2021,41(9):29-36. 被引量：6
8陈国心.基于自然语言处理的评教文本分类与分析[J].西安航空学院学报,2021,39(3):91-96.
9王红梅,郭放,郭真俊,张丽杰.一种新闻文本标注方法[J].长春工业大学学报,2021,42(5):462-468. 被引量：1
10田晗,徐春.基于BERT模型的医学短文本分类算法研究[J].伊犁师范大学学报（自然科学版）,2021,15(4):50-57. 被引量：1

同被引文献14

1陶志勇,李小兵,刘影,刘晓芳.基于双向长短时记忆网络的改进注意力短文本分类方法[J].数据分析与知识发现,2019,3(12):21-29. 被引量：26
2胡婧,刘伟,马凯.基于机器学习的高血压病历文本分类[J].科学技术与工程,2019,19(33):296-301. 被引量：13
3张卫,王昊,陈玥彤,范涛,邓三鸿.融合迁移学习与文本增强的中文成语隐喻知识识别与关联研究[J].数据分析与知识发现,2022,6(2):167-183. 被引量：7
4潘宏鹏,汪东,刘忠轶,李轲.考虑反讽语义识别的协同双向编码舆情评论情感分析研究[J].情报杂志,2022,41(5):99-105. 被引量：13
5赵一鸣,潘沛,毛进.基于任务知识融合与文本数据增强的医学信息查询意图强度识别研究[J].数据分析与知识发现,2023,7(2):38-47. 被引量：13
6尹西明,李一凡,李纪珍,陈劲.人工智能国际领先机构OpenAI创新管理模式及对中国的启示[J].创新科技,2023,23(9):78-90. 被引量：13
7张蓉,刘渊.适用于方面级情感分析的多级数据增强方法[J].数据与计算发展前沿,2023,5(5):140-153. 被引量：1
8张颖怡,章成志,周毅,陈必坤.基于ChatGPT的多视角学术论文实体识别:性能测评与可用性研究[J].数据分析与知识发现,2023,7(9):12-24. 被引量：53
9张小川,陈盼盼,邢欣来,杨昌萌,滕达.一种建立在GPT-2模型上的数据增强方法[J].智能系统学报,2024,19(1):209-216. 被引量：4
10陈慧敏,刘知远,孙茂松.大语言模型时代的社会机遇与挑战[J].计算机研究与发展,2024,61(5):1094-1103. 被引量：50

引证文献1

1韩坤,刘忠轶,潘宏鹏,张宁.基于多尺度特征提取与大语言模型增强的中文反讽识别[J].情报杂志,2025,44(9):104-111.

1稿件要求[J].导航与控制,2024,23(5).
2稿件要求[J].导航与控制,2025,24(1).
3邢子豪,陈曦晖,彭晓勇,沈昊龙,杨一鸣.基于扩散模型的故障诊断数据增强方法[J].煤矿机械,2025,46(5):179-182. 被引量：1
4姚琼,万金龙.指向深度学习的高中生物学情境教学初探——以“种群的数量特征”为例[J].中学生物学,2025,41(3):73-75.
5刘沼悦,刘俊萍,刘欣儒,王楠,吴琳,冯亚杰,张环宇,梁立波.多维邻近性对流动人口慢性病患者慢性病防治教育利用的影响研究[J].中国卫生事业管理,2025,42(1):84-89.
6许静洁.打出常规:《老王》中“我”的“愧怍”解读[J].语文教学与研究,2025(1):88-90.
7李宇.几何与代数双向奔赴——“直线与圆锥曲线的位置关系”课例点评[J].中国数学教育(高中版),2025(3):44-46.
8彭志博,陈勇,崔艳荣.基于YOLOv8m的改进腕部X光片骨折检测算法[J].中国医学物理学杂志,2025,42(4):542-549.
9林铭俊,温耀棋,张鑫,洪永,陈超敏,吴煜良.基于双向选择性状态空间模型的心电自动诊断模型[J].中国医学物理学杂志,2025,42(4):489-495.
10龚锡美.“双碳”目标背景下中国光伏行业国际竞争力情况分析[J].现代工业经济和信息化,2025,15(3):25-29.

数据分析与知识发现

2025年第2期

浏览历史

内容加载中请稍等...

基于多任务学习的跨类型文本分类技术研究被引量：1

参考文献13

二级参考文献64

共引文献78

同被引文献14

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于多任务学习的跨类型文本分类技术研究 被引量：1

参考文献13

二级参考文献64

共引文献78

同被引文献14

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于多任务学习的跨类型文本分类技术研究被引量：1