基于语义与分类贡献的文本特征选择研究被引量：2

Research on text feature selection based on semantic and classification contribution

下载PDF

导出

摘要针对传统文本特征选择算法没有考虑特征的语义及特征与类别之间关系的问题,提出了一种结合语义和分类贡献的特征选择算法.利用LDA主题模型获取文本和词的表示,通过计算词与文本之间的语义相似度,获取词对文本的重要性.再利用Word2vec词向量模型获取文本类别特征,通过计算文本中的词与文本类别特征之间的语义相似度,获取词对类别的重要性,最后结合词对文本的重要性和词对类别的重要性选择分类贡献度高的词作为最终的分类特征.实验表明,该算法能够有效地降低文本特征数量,减少分类计算开销,降低噪声对分类的影响,提升分类效果. Aiming at the problem that traditional text feature selection algorithms do not consider the semantic of features and the relationship between features and categories,this paper proposes a feature selection method combining semantic and classification contribution.LDA topic model is used to obtain the representation of text documents and words,and the importance of words to text documents is obtained by calculating the similarity between text documents and words.Then,the text category features are obtained based on Word2vec word vector.By calculating the semantic similarity between words in documents and text category features,the importance of words to categories is obtained.Finally,the features with high classification contribution are selected by combining the importance of words to documents and the importance of words to categories.Experiments show that the algorithm can effectively reduce the number of text features,reduce the cost of classification calculation,reduce the impact of noise features on classification,and improve the classification effect.

作者景永霞苟和平王治和 JING Yong-xia;GOU He-ping;WANG Zhi-he(College of Information Science and Technology,Qiongtai Normal University,Haikou 571100,Hainan,China;College of Computer Science and Engineering,Northwest Normal University,Lanzhou 730070,Gansu,China)

机构地区琼台师范学院信息科学技术学院西北师范大学计算机科学与工程学院

出处《西北师范大学学报（自然科学版）》 CAS 北大核心 2020年第1期51-55,62,共6页 Journal of Northwest Normal University(Natural Science)

基金海南省自然科学基金资助项目(617160,618MS086) 海南省高等学校教育教学改革研究项目(Hnjg2017-68)

关键词 LDA 特征选择文本分类语义分析 LDA feature selection text classification semantic analysis

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1陈杰,陈彩,梁毅.基于Word2vec的文档分类方法[J].计算机系统应用,2017,26(11):159-164. 被引量：10
2刘德喜,聂建云,张晶,刘晓华,万常选,廖国琼.中文微博情感词提取:N-Gram为特征的分类方法[J].中文信息学报,2016,30(4):193-205. 被引量：13
3蒋铭初,潘志松,尤峻.基于PLSA主题模型的多标记文本分类[J].数据采集与处理,2016,31(3):541-547. 被引量：5
4陈磊,李俊.基于词向量的文本特征选择方法研究[J].小型微型计算机系统,2018,39(5):991-994. 被引量：28
5王飞雪,李芳.基于主题加权LDA模型的情感分类方法[J].西南师范大学学报（自然科学版）,2018,43(9):38-44. 被引量：4

二级参考文献26

1苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：394
2李闯,丁晓青,吴佑寿.一种改进的AdaBoost算法——AD AdaBoost[J].计算机学报,2007,30(1):103-109. 被引量：54
3熊文新,宋柔.信息检索用户查询语句的停用词过滤[J].计算机工程,2007,33(6):195-197. 被引量：16
4Schapire R E, Singer Y. A boosting-based system for text categorization[J]. Machine Learning, 2000,39 (2/3) : 135-168.
5Elisseeff A, Weston J. A kernel method for multilabeled elassifieation[J]. Advances in Neural Information Processing Sys- tems, 2001,14 : 681-687.
6Zhang Minling, Zhou Zhihua. ML-KNN: A lazy learning approach to multi-label learning[J]. Pattern Recognition, 2007, 40 (7) : 2038-2048.
7Huang Shengjun, Yu Yang, Zhou Zhihua. Multi label hypothesis reuse[C]//SIGKDD. Beijing: ACM, 2012:525-533.
8Hofmann T. Unsupervised learning by probabilistic latent semantic analysis[J]. Machine Learning, 2001,42 (1) : 177-196.
9Hofmann T. Probabilistic latent semantic indexing[J]. Proc of Annual ACM Conference on Research & Development in In formation Retrieval Berkeley California August, 1999,42(1) :56-73.
10Hofmann T. Probabilistic latent semantic analysis[C]//Proc of the Fifteenth Conference on Uncertainty in Artificial Intelli gence. [S. 1. ] : Morgan Kaufmamn, 1999:289-296.

共引文献54

1李文慧,张英俊,潘理虎.多因素影响特征选择的短文本分类方法[J].计算机系统应用,2018,27(12):216-221. 被引量：3
2冯国明,张晓冬,刘素辉.基于CapsNet的中文文本分类研究[J].数据分析与知识发现,2018,2(12):68-76. 被引量：15
3谢法举,刘臣,唐莉.在线评论情感分析研究综述[J].软件导刊,2018,17(2):1-4. 被引量：10
4邱运芬,张晖,李波,杨春明,赵旭剑.一种基于位置语义和概率的人群分类方法[J].数据采集与处理,2018,33(3):538-546. 被引量：3
5韩毅,张涵,李跃新.基于情感直方图特征的中文文本情感分类方法[J].计算机工程与设计,2018,39(7):1917-1922.
6缪广寒.基于Word2vec和SVM的微博情感挖掘与仿真分析[J].电子科技,2018,31(5):81-83. 被引量：8
7刘德喜,聂建云,万常选,刘喜平,廖述梅,廖国琼,钟敏娟,江腾蛟.基于分类的微博新情感词抽取方法和特征分析[J].计算机学报,2018,41(7):1574-1597. 被引量：21
8许重建,李险峰.基于深度学习的HS Code产品归类方法研究[J].现代计算机,2019,25(1):11-19. 被引量：2
9夏一雪.基于舆情大数据的网民情感“衰减—转移”模型与实证研究[J].情报杂志,2019,38(3):148-154. 被引量：15
10钟泉.基于在线评论情感分析的手机推荐方法[J].安徽理工大学学报（自然科学版）,2019,39(1):80-86. 被引量：4

同被引文献18

1胡云青,邱清盈,余秀,武建伟.基于改进三体训练法的半监督专利文本分类方法[J].浙江大学学报（工学版）,2020,54(2):331-339. 被引量：10
2钱赛男,李英成,朱祥娥,刘晓龙.基于支持向量机的无序图像有序化研究[J].测绘科学,2020,45(2):111-116. 被引量：4
3朱新超,霍翠婷,刘会景.合作专利分类系统(CPC)与传统专利分类系统的比较分析[J].数字图书馆论坛,2013(9):38-44. 被引量：12
4贾杉杉,刘畅,孙连英,刘小安,彭涛.基于多特征多分类器集成的专利自动分类研究[J].数据分析与知识发现,2017,1(8):76-84. 被引量：14
5吴明胜,邓晓刚.基于Tri-DE-ELM的半监督模式分类方法研究[J].计算机工程与应用,2018,54(3):109-114. 被引量：7
6易军凯,王超,李辉.面向文本分类的深度置信网络特征提取方法研究[J].北京化工大学学报（自然科学版）,2018,45(3):90-94. 被引量：5
7罗明,黄海量.一种基于语义标注特征的金融文本分类方法[J].计算机应用研究,2018,35(8):2281-2284. 被引量：9
8谢红玲,奉国和,何伟林.基于深度学习的科技文献语义分类研究[J].情报理论与实践,2018,41(11):149-154. 被引量：12
9田联房,吴啟超,杜启亮,黄理广,李淼,张大明.基于支持向量机的手扶电梯视频监控方法[J].计算机工程与设计,2019,40(7):2026-2031. 被引量：4
10邵良杉,周玉.基于语义规则与RNN模型的在线评论情感分类研究[J].中文信息学报,2019,33(6):124-131. 被引量：22

引证文献2

1刘琦,朱欣昱.使用神经网络技术对中国专利过档数据进行CPC分类的实证研究[J].中国发明与专利,2021,18(1):71-75.
2孙川钘,朱镕申,张凌云.基于Python技术的半监督文本语义分类方法研究[J].计算机仿真,2023,40(7):496-500. 被引量：3

二级引证文献3

1邓辉.基于深度学习的林业信息文本分类算法研究[J].信息与电脑,2024,36(4):65-67.
2孙晓瑜.基于机器学习的文本分类与标签预测算法[J].吉林大学学报(信息科学版),2025,43(4):837-843.
3刘欢,李宏亮,陈维汉.融合多模态信息的跨媒体知识文本分类算法[J].吉林大学学报(信息科学版),2025,43(5):1138-1143.

1李郅琴,杜建强,聂斌,熊旺平,黄灿奕,李欢.特征选择方法综述[J].计算机工程与应用,2019,55(24):10-19. 被引量：153
2邵云飞,刘东苏.基于类别特征扩展的短文本分类方法研究[J].数据分析与知识发现,2019,3(9):60-67. 被引量：15
3王杨,刘蒙,闫伟光.蚁群优化算法优化支持向量机的视频分类[J].现代电子技术,2020,43(1):56-58. 被引量：1
4宋鹏峰,叶庆卫,陆志华,周宇.基于拟合型弱分类器的AdaBoost算法[J].电信科学,2019,35(11):27-35. 被引量：3
5赵林静.结合语义相似度改进LDA的文本主题分析[J].计算机工程与设计,2019,40(12):3514-3519. 被引量：9
6沈厚才.产品类别差异下消费者跨渠道购买行为的异质性——评《消费者跨渠道购买行为形成机制研究》[J].大陆桥视野,2019,0(12):69-72.
7李桃,蒋伏松,陈霆,郑西川.预测2型糖尿病并发颈动脉斑块的机器学习模型的建立[J].医疗卫生装备,2020,41(1):7-11. 被引量：8
8赵迪,刘桂雄.面向智能维护的通信机房机柜图像语义分割技术[J].中国测试,2019,45(11):126-130. 被引量：5
9朱道恒,秦学,刘君凤.一种基于HBase的RDF数据存储改进方法[J].软件,2019,40(12):13-17. 被引量：1
10徐秋平.20世纪以来中国彝族与日本大和族跨文化比较研究[J].西昌学院学报（社会科学版）,2019,31(4):23-26.

西北师范大学学报（自然科学版）

2020年第1期

浏览历史

内容加载中请稍等...

基于语义与分类贡献的文本特征选择研究被引量：2

参考文献5

二级参考文献26

共引文献54

同被引文献18

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于语义与分类贡献的文本特征选择研究 被引量：2

参考文献5

二级参考文献26

共引文献54

同被引文献18

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于语义与分类贡献的文本特征选择研究被引量：2