基于任务优化表示学习的文本分类被引量：1

Text classification based on task-optimized text representation learning

下载PDF

导出

摘要目的:针对现有的文本特征加权方法对文本进行向量化表示时,依赖于词频来确定单词的重要性,无法准确表达文本信息,从而导致文本表示过程中特征信息的丢失,准确率低下等问题。方法:提出一种基于任务优化文本表示学习的文本分类算法。通过引入加权因子,设计一种加权向量空间模型对每个特征进行加权,将单词的上下文信息和任务信息结合起来,采用Softmax回归算法迭代地对模型参数和文本表示进行优化学习,在提高分类性能的同时,获得对此任务最优的文本表示模型。结果:根据分类任务学习到的特征词的权值能够更加准确地表达文本的分类信息。与其他分类算法相比,本文提出的WVSM-Softmax算法精度提高了约0.8%~8.7%。结论:基于任务优化文本表示学习的Softmax回归算法在文本分类中具有更好的性能。 Aims:This paper aims to solve the problem that the text feature weighting method could not accurately express text information and only relied on word frequency to determine word importance,which led to the loss of feature information and low accuracy during the text representation process.Methods:Text classification based on task-optimized text representation learning was proposed.A weighted vector space model was set up to weight each feature by introducing weighting factors.At the same time,the Softmax regression algorithm was used to optimize the learning of model parameters and text representation iteratively,while combining the word context information with task information.In addition to improving the classification performance,the optimal text representation model for this task was obtained.Results:According to the weight of the feature words learned from the task,the text classification information could be better expressed.Compared with other classification algorithms,the accuracy of the WVSM-Softmax algorithm proposed in this paper was improved 0.8%~8.7%.Conclusions:Softmax regression based on task-optimized text representation learning achieves better performance in text classification tasks.

作者尹雪婷武娇顾兴全刘雅萱 YIN Xueting;WU Jiao;GU Xingquan;LIU Yaxuan(College of Sciences,China Jiliang University,Hangzhou 310018,China;College of Standardization,China Jiliang University,Hangzhou 310018,China)

机构地区中国计量大学理学院中国计量大学标准化学院

出处《中国计量大学学报》 2023年第1期110-119,共10页 Journal of China University of Metrology

基金国家市场监督管理总局技术保障专项项目(No.2021YJ005)。

关键词文本表示向量空间模型 Softmax回归文本分类 text representation vector space model Softmax regression text classification

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献14

1顾永春,武娇,金世举,顾兴全,尹雪婷,刘雅萱.基于多语义复合表示模型的去离群点文本聚类[J].中国计量大学学报,2021,32(3):414-420. 被引量：3
2李欣雨,金宁,严珂,马祥.融合多头注意力机制的多任务情感分类研究[J].中国计量大学学报,2022,33(3):413-422. 被引量：3
3叶雪梅,毛雪岷,夏锦春,王波.文本分类TF-IDF算法的改进研究[J].计算机工程与应用,2019,55(2):104-109. 被引量：121
4邓晓衡,杨子荣,关培源.一种基于词义和词频的向量空间模型改进方法[J].计算机应用研究,2019,36(5):1390-1395. 被引量：17
5马莹,赵辉,李万龙,庞海龙,崔岩.结合改进的CHI统计方法的TF-IDF算法优化[J].计算机应用研究,2019,36(9):2596-2598. 被引量：23
6刘海峰,刘守生,宋阿羚.基于词频分布信息的优化IG特征选择方法[J].计算机工程与应用,2017,53(4):113-117. 被引量：9
7王行恒,曹军,邓学,刘垚,高适.基于循环迭代算法改进的TFIDF方法及应用[J].计算机应用与软件,2012,29(11):305-308. 被引量：2
8郑霖,徐德华.基于改进TFIDF算法的文本分类研究[J].计算机与现代化,2014(9):6-9. 被引量：27
9王杨,许闪闪,李昌,艾世成,张卫东,甄磊,孟丹.基于支持向量机的中文极短文本分类模型[J].计算机应用研究,2020,37(2):347-350. 被引量：32
10彭子豪,谭欣.并行化改进的朴素贝叶斯算法在中文文本分类上的应用[J].科学技术创新,2020(26):176-178. 被引量：9

二级参考文献121

1洪彩凤,武娇,顾永春,顾兴全,金世举.基于类语义结构表示的文本分类[J].中国计量大学学报,2020(2):215-224. 被引量：1
2刘海峰,姚泽清,汪泽焱,张学仁.基于位置的文本特征加权方法研究[J].微电子学与计算机,2009,26(2):188-192. 被引量：9
3刘颖超,张纪元.梯度下降法[J].华东工学院学报,1993(2):12-16. 被引量：44
4徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工程与应用,2005,41(1):181-184. 被引量：57
5苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：394
6张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78. 被引量：121
7王卫玲,刘培玉,初建崇.一种改进的基于条件互信息的特征选择算法[J].计算机应用,2007,27(2):433-435. 被引量：23
8樊冬丽,廖庆文,鄢丹,马小军,肖小河,赵艳玲.基于生物热力学表达的麻黄汤和麻杏石甘汤的寒热药性比较[J].中国中药杂志,2007,32(5):421-424. 被引量：21
9Jones K S. A statistical interpretation of term specificity and its application in retrieval [ J ]. Journal of Documentation, 1972,28 ( 1 ) : 11 - 21.
10Salton G, Clement T Y. On the construction effective vocabularies for information retrieval[C]//Proceedings of the 1973 Meeting on Programming Languages and Information Retrieval New York ACM, 1973:11.

共引文献296

1吴晓春,洪晨,张岳.高校实验仪器与设备管理问答系统[J].中国科技论文在线精品论文,2023(2):179-185.
2于伟杰,杨文忠,任秋如.基于全词BERT的集成用户画像方法[J].东北师大学报（自然科学版）,2022,54(4):87-92. 被引量：5
3侯宇豪,杨维芳,马文骏,王卓,余懿韬,闫香蓉,闫浩文.一种利用VSM检索微地图的方法[J].测绘科学,2023,48(12):225-233. 被引量：1
4何莉.改革开放的弄潮者——记大朗镇经济发展总公司[J].东莞科技,2000(3):29-29.
5马建国,杨金山,赵静,赵秀云.综合物探在宾州浸出油厂找水的应用[J].黑龙江水利科技,2000,28(2):64-65.
6菡冰.Windows95/NT环境下MFC多线程编程技术Step By Step[J].电脑编程技巧与维护,2000(5):40-48.
7赵巧娥.能源监测系统的自动化实现[J].基础自动化,2000,7(1):32-34. 被引量：1
8佘广夫,曾涛,唐咏雪.工艺质量在线统计分析软件的设计与开发[J].四川冶金,2000,22(2):60-62.
9殷功俊.基于词向量的向量空间模型的改进[J].现代计算机,2018,24(24):32-35. 被引量：1
10秦瑞,方乐,俞敏.文本分析方法在医学研究中的应用进展[J].浙江预防医学,2015,27(10):1008-1011. 被引量：2

同被引文献11

1李晨,朱世伟,魏墨济,于俊凤,李新天.基于词典与规则的新闻文本情感倾向性分析[J].山东科学,2017,30(1):115-121. 被引量：19
2顾淳,俞成海,于洋,关炜炜.基于BERT模型的无监督中文单文本关键词提取模型[J].浙江理工大学学报（自然科学版）,2022,47(3):424-432. 被引量：2
3赵宏,傅兆阳,王乐.基于特征融合的中文文本情感分析方法[J].兰州理工大学学报,2022,48(3):94-102. 被引量：10
4李博涵,向宇轩,封顶,何志超,吴佳骏,戴天伦,李静.融合知识感知与双重注意力的短文本分类模型[J].软件学报,2022,33(10):3565-3581. 被引量：33
5林呈宇,王雷,薛聪.标签语义增强的弱监督文本分类模型[J].计算机应用,2023,43(2):335-342. 被引量：3
6何传鹏,尹玲,黄勃,王明胜,郭茹燕,张帅,巨家骥.基于BERT和LightGBM的文本关键词提取方法[J].电子科技,2023,36(3):7-13. 被引量：12
7李学宁.SentiWordNet情感词标注及其对我国语文词典的启示[J].烟台大学学报（哲学社会科学版）,2023,36(2):106-111. 被引量：3
8李建平,陈海鸥.基于改进长短时记忆网络的文本分类方法[J].重庆大学学报,2023,46(5):111-118. 被引量：5
9田小瑜,秦永彬,黄瑞章,陈艳平.用于多标签文本分类的深度模块化标签注意网络[J].山西大学学报（自然科学版）,2023,46(3):500-508. 被引量：1
10陈红阳,黄正洪,何盈盈,周也力.融合内容特征与传播特征的微博文本情感分类[J].重庆理工大学学报（自然科学）,2023,37(7):245-255. 被引量：5

引证文献1

1张冠东,姜荣.基于Renyi熵的文本情感分析[J].微型电脑应用,2023,39(12):16-18.

1本刊编辑部.本刊论文内文撰写要求[J].中华眼外伤职业眼病杂志,2023,45(2):122-122.
2陈阳键,温秋华.基于改进K-均值的微博热点话题发现方法[J].太赫兹科学与电子信息学报,2023,21(3):378-383.
3韩红伟,陈聆,苗加庆.一种低秩和图正则化的协同稀疏高光谱解混方法[J].无线电工程,2023,53(4):868-876. 被引量：1
4刘鑫,王皓晨,黄宇煦.基于朴素贝叶斯分类的电信诈骗信息的识别[J].计算机时代,2023(4):29-32. 被引量：7
5王进,陈重元,邓欣,孙开伟.多状态图神经网络文本分类算法[J].重庆邮电大学学报（自然科学版）,2023,35(2):193-201. 被引量：9
6闫永平.基于系统理论的语文大单元“整合与实践”教学理据与路径探究——以统编高中语文教材必修下册第一单元为例[J].新课程评论,2023(3):66-73. 被引量：1
7马新宇,黄春梅,姜春茂.基于三支决策的KNN渐进式文本分类方法[J].计算机应用研究,2023,40(4):1065-1069. 被引量：13
8盛晓辉,沈海龙.基于数据增强和相似伪标签的半监督文本分类算法[J].计算机应用研究,2023,40(4):1019-1023. 被引量：6
9黄家源,吴凯,熊冬生,邓泽亚,周静.回归算法在神经精神疾病辅助诊断中的应用[J].生物医学工程研究,2023,42(1):100-106. 被引量：1
10刘少华.核心素养视域下读思达教学法在小学语文教学中的应用[J].课堂内外（小学教研）,2022(S04):24-26. 被引量：1

中国计量大学学报

2023年第1期

浏览历史

内容加载中请稍等...

基于任务优化表示学习的文本分类被引量：1

参考文献14

二级参考文献121

共引文献296

同被引文献11

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于任务优化表示学习的文本分类 被引量：1

参考文献14

二级参考文献121

共引文献296

同被引文献11

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于任务优化表示学习的文本分类被引量：1