基于类别相关性和交叉熵的特征选择方法被引量：5

Feature Selection Method Based on Category Correlation and Cross Entropy

下载PDF

导出

摘要文本分类首先要解决的一个问题就是特征选择.简单分析了几种经典的特征选择方法,总结了它们的不足,提出了一个类别相关性方法,把交叉熵引入粗糙集并提出了一个基于交叉熵的属性约简算法,把该属性约简算法同类别相关性方法结合起来,提出了一个综合的特征选择方法.该方法首先利用类别相关性方法进行特征初选以过滤掉一些词条来降低特征空间的稀疏性,然后利用属性约简算法消除冗余,从而获得较具代表性的特征子集.实验结果表明,此特征选择方法效果良好. The first problem which needs to be solved in text categorization is feature selection. Several classic feature selection methods are firstly analyzed simply and summarized. And then, the category correlation method is presented. Subsequently, cross entropy is introduced into rough sets and a new attribute reduction algorithm is provided. Finally, a comprehensive feature selection method is proposed. The comprehensive method firstly uses the category correlation method to select feature and filter out some terms to reduce the sparsity of feature spaces. And then it employs the new attribute reduction algorithm to eliminate redundancy, so that the feature subsets which are more representative are obtained. The experimental results show that the comprehensive method is promising.

作者朱颢东钟勇

机构地区中国科学院成都计算机应用研究所中国科学院研究生院

出处《郑州大学学报（理学版）》 CAS 北大核心 2010年第2期61-65,共5页 Journal of Zhengzhou University:Natural Science Edition

基金四川省科技计划项目编号2008GZ0003 四川省科技厅科技攻关项目编号07GG006-014

关键词文本分类特征选择类别相关性交叉熵属性约简 text categorization feature selection category correlation cross entropy attribute reduction

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献11

1Delgado M, Martin-Bautista M J, Sanchez D, et al. Mining text data: special features and patterns [C]// Proceedings of ESF Exploratory Workshop. London: U K, 2002:32-38.
2Yang Y, Pedersen J O. A comparative study on feature selection in text categorization [C]// Proceedings of the 14th International Conference on Machine Learning (ICML'97). Nashville: Morgan Kaufmann Publishers, 1997: 412-420.
3张海龙,王莲芝.自动文本分类特征选择方法研究[J].计算机工程与设计,2006,27(20):3840-3841. 被引量：45
4周茜,赵明生,扈旻.中文文本分类中的特征选择研究[J].中文信息学报,2004,18(3):17-23. 被引量：166
5张建兵,戴新宇,陈家骏.文档分类之特征选择方法的实验比较[J].广西师范大学学报（自然科学版）,2008,26(3):181-184. 被引量：6
6伍建军,康耀红.文本分类中特征选择方法的比较和改进[J].郑州大学学报（理学版）,2007,39(2):110-113. 被引量：16
7叶浩,王明文,曾雪强.基于潜在语义的多类文本分类模型研究[J].清华大学学报（自然科学版）,2005,45(S1):1818-1822. 被引量：18
8Liang Jiye, Dang Chuangyin, Richard G M Y. A new method for measuring uncertainty and fuzziness in rough set theory [J]. International Journal of General Systems, 2002, 31 (4) :331- 342.
9朱六兵,唐德波,杨斌.基于粗糙集信息观的决策表属性约简方法[J].信息技术,2006,30(1):46-49. 被引量：6
10曾黄麟.智能计算[M].重庆:重庆大学出版社,2004..

二级参考文献53

1曾雪强,王明文,陈素芬.一种基于潜在语义结构的文本分类模型[J].华南理工大学学报（自然科学版）,2004,32(z1):99-102. 被引量：27
2王媛,刘悦,张博锋,王亮,吴耿锋.基于RBF神经网络的属性约简方法[J].计算机工程,2004,30(10):143-144. 被引量：2
3耿志强,朱群雄,李芳.知识粗糙性的粒度原理及其约简[J].系统工程与电子技术,2004,26(8):1112-1116. 被引量：27
4张宁,贾自艳,史忠植.使用KNN算法的文本分类[J].计算机工程,2005,31(8):171-172. 被引量：101
5寇莎莎,魏振军.自动文本分类中权值公式的改进[J].计算机工程与设计,2005,26(6):1616-1618. 被引量：25
6伍建军,康耀红.文本分类中特征选择方法的比较和改进[J].郑州大学学报（理学版）,2007,39(2):110-113. 被引量：16
7Kryszkiewicz M.Rules in incomplete information systems[J].Information Science,1999,112:39-49.
8Stefanowski J.Incomplete information tables and rough classification[J].Computational Intelligence,2001,17(3):546-564.
9Pawlak Z.Rough sets[J].International Journal of Information and Computer Science,1982,11(5):341-356.
10Skowron A,Rauszer C.The discernibility matrices and functions in information systems[A].In:Slowinski I.Intelligent decision support-handbook of applications and advances of the Rough Sets theory[C].Dordrecht:Kluwer Academic Publisher,1991:331-362.

共引文献311

1姚学恒,张萍,闫立伟,操诚.基于机器学习的企业秘密文档自动分类方法[J].产业与科技论坛,2020,19(7):44-45.
2王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
3吕彦红,陈基漓,阮百尧.基于遗传算法的中文自动分类特征选择[J].山东理工大学学报（自然科学版）,2009,23(1):100-102. 被引量：1
4蒋宗礼,李宪雷,徐学可.基于主题Hub值的元搜索[J].北京工业大学学报,2009,35(3):397-402. 被引量：1
5黄健刚.基于J2ME的手机垃圾短信过滤器的研究[J].魅力中国,2009(26):169-170.
6尤晶晶.基于贝叶斯的垃圾邮件过滤优化算法[J].烟台职业学院学报,2008(2):80-83.
7王荣荣.全局和局部特征提取相融合的中文文本特征提取方法研究[J].河北北方学院学报（自然科学版）,2013,29(3):35-38.
8常娟.针对短文本数据的自动分类方法比较研究[J].消费导刊,2008,0(4):177-178.
9翟东海,王佳君,聂洪玉,崔静静.基于互信息的热点词发现和突发性话题检测研究[J].西藏大学学报（社会科学版）,2013,28(4):82-87. 被引量：2
10苏宏升,李群湛.基于粗糙集理论和神经网络模型的变电站故障诊断方法[J].电网技术,2005,29(16):66-70. 被引量：28

同被引文献44

1许增福,梁静国,田晓宇.基于加权模糊推理网络的文本自动分类方法[J].哈尔滨工程大学学报,2004,25(4):504-508. 被引量：1
2张新峰,沈兰荪.模式识别及其在图像处理中的应用[J].测控技术,2004,23(5):28-32. 被引量：41
3罗忠良,王克运,康仁科,郭东明.基于案例推理系统中案例检索算法的探索[J].计算机工程与应用,2005,41(25):230-232. 被引量：28
4苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：394
5李琳琳,孙继银,万磊.决策树知识表示的多故障源搜索算法研究[J].指挥控制与仿真,2007,29(3):97-99. 被引量：4
6杨健,杨晓光,刘晓彬,秦凡.一种基于k-NN的案例相似度权重调整算法[J].计算机工程与应用,2007,43(23):8-11. 被引量：22
7哈力木拉提.买买提.基于轮廓的维吾尔文切分[C].全国民族语言文字信息学术研讨会,2007:146-149.
8Freeman W T,Roth M.Orientation histograms for hand gesture recognition[C].International Workshop on Automatic Face and Gesture Recognition.1995,12:296-301.
9张元虹,郭剑毅,龚华明,薛征山.基于DF与LSA相结合的降维法的文本分类系统的研究[J].山西电子技术,2008(4):3-4. 被引量：1
10吕国云,赵荣椿,张艳宁,樊养余,Sahli Hichem.基于三音素动态贝叶斯网络模型的大词汇量连续语音识别[J].数据采集与处理,2009,24(1):1-6. 被引量：3

引证文献5

1成培.移动式智能化广播影视视听节目监管平台解决方案[J].科技创新与应用,2013,3(17):23-23. 被引量：2
2张磊磊,郭增茂,张建华.CBR系统中案例检索优化方案的设计[J].郑州大学学报（理学版）,2014,46(3):119-124. 被引量：1
3苏佩佩,哈力木拉提.买买提,艾尔肯.赛甫丁,王剑.一种基于连体段的维吾尔文单词特征提取方法[J].新疆大学学报（自然科学版）,2015,32(4):462-468. 被引量：2
4崔莹.深度学习在文本表示及分类中的应用研究[J].电脑知识与技术,2019,15(6):174-177. 被引量：7
5靳义林,胡峰.基于三支决策的中文文本分类算法研究[J].南京大学学报（自然科学版）,2018,54(4):794-803. 被引量：4

二级引证文献16

1党红恩.藏文字形轮廓特征优化识别提取仿真研究[J].计算机仿真,2016,33(11):341-344. 被引量：6
2于丽,亚森.艾则孜.基于HOG特征和MLP分类器的印刷体维吾尔文识别方法[J].微型电脑应用,2017,33(6):30-33. 被引量：2
3贺云翔,徐雷,王峰,杨飞平.基于家电产品个性化定制的实例检索方法研究[J].组合机床与自动化加工技术,2019(4):20-24. 被引量：2
4涂文博,袁贞明,俞凯.针对文本分类的神经网络模型[J].计算机系统应用,2019,28(7):145-150. 被引量：8
5陈菲琪,王珂.基于NLP技术的企业名称智能分类系统设计[J].信息与电脑,2020,32(2):46-48. 被引量：3
6张萌,孙秉珍,楚晓丽.基于邻域代价敏感三支决策的痛风诊断模型[J].计算机工程与应用,2020,56(16):218-225. 被引量：5
7齐永锋,陈静,火元莲,李发勇.基于多尺度卷积神经网络的高光谱图像分类算法[J].红外技术,2020,42(9):855-862. 被引量：12
8蔡艳婧,程实,王强.不完备混合决策粗糙集特定类多目标属性约简[J].计算机工程与设计,2020,41(11):3063-3071. 被引量：3
9刘高军,王小宾.基于CNN+LSTMAttention的营销新闻文本分类[J].计算机技术与发展,2020,30(11):59-63. 被引量：1
10梁海辉.广播电视节目播出质量和内容智能监管系统的设计与实施[J].电视技术,2021,45(5):138-140. 被引量：7

1潘锐,朱大铭,董林光,董颖.求解k中间点问题的新局部搜索算法[J].计算机工程与应用,2008,44(4):36-38.
2史岳鹏,朱颢东.基于类别相关性和优化的ID3特征选择[J].数据采集与处理,2011,26(2):230-234. 被引量：3
3刘密霞,张秋余,赵宏,余冬梅.入侵检测报警相关性及评测数据集研究[J].计算机应用研究,2008,25(10):3108-3111. 被引量：1
4刘上力,赵劲强,聂勤务.基于概率因子的功耗分析建模及仿真研究[J].信息系统工程,2010,23(5):70-71.
5廖湖声,汤林.基于XQA查询代数的去除相关性方法[J].北京工业大学学报,2009,35(8):1108-1114.
6梁炯,许廷发,石明珠,冯亮,张坤,倪国强,王晓燕.一种提高匀速直线运动参数辨识精度的方法[J].北京理工大学学报,2012,32(8):818-823. 被引量：7
7林海文.利用上下文语境消除歧义[J].计算机工程与设计,2006,27(16):3028-3031. 被引量：2
8华振楠.多维度数据挖掘中目标相关维度选取方法对比[J].企业科技与发展（下半月）,2011(5):87-89. 被引量：1
9Xu-hua REN,Hai-jun WANG,Ji-xun ZHANG.Numerical study of AE and DRA methods in sandstone and granite in orthogonal loading directions[J].Water Science and Engineering,2012,5(1):93-104. 被引量：5
10李骥,陈结祥,张毅,涂碧海,戚俊,王相京,赵平建.基于IDL的激光测高雷达回波时域仿真算法研究[J].大气与环境光学学报,2007,2(5):370-375.

郑州大学学报（理学版）

2010年第2期

浏览历史

内容加载中请稍等...

基于类别相关性和交叉熵的特征选择方法被引量：5

参考文献11

二级参考文献53

共引文献311

同被引文献44

引证文献5

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

基于类别相关性和交叉熵的特征选择方法 被引量：5

参考文献11

二级参考文献53

共引文献311

同被引文献44

引证文献5

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

基于类别相关性和交叉熵的特征选择方法被引量：5