一种基于改进K-means聚类的文本特征选择模型被引量：2

A Model of Text Feature Selection Based on an Improved K-mean

下载PDF

导出

摘要介绍了文本聚类中基于划分的方法,针对该算法对孤立点的过于敏感问题,提出了一种用于特征选择的算法改进模型,通过对特征集里孤立点的剔除改善了特征聚类效果.随后的文本分类试验表明,提出的改进的算法具有较好的特征选择效果,文本分类的效率较高. This paper first introduces the partitioning-based k-means algorithm for documents clustering. In allusion to the problem that it is sensitive to outliers, we put forward an improved k-means model for the feature selection. By deleting the outliers in the feature set, we have improved the effect of feature clustering. Lastly, we have a test about text categorization and the result shows that this method has a better feature clustering effect and more, the efficiency of text classification is better.

作者刘海峰刘守生姚泽清张学仁

机构地区解放军理工大学理学院

出处《微电子学与计算机》 CSCD 北大核心 2009年第6期29-31,35,共4页 Microelectronics & Computer

基金国家自然科学基金项目(70571087)

关键词特征选择特征降维特征聚类文本分类 feature selection feature reduction feature clustering text classification

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1Makrehchi M, Kamel M S. Text classification using small numberof features[C]//Proc, of the 4th Int'l Conf. on Machine Leaming and Data Mining in Pattern Recognition: (MLDM 2005). Germany, 2005:580 - 589.
2刘海峰,姚泽清,王元元,张述祖.一种基于散度差组合型文本特征降维方法[J].微电子学与计算机,2008,25(8):69-71. 被引量：2
3牛强,王志晓,陈岱,夏士雄.基于支持向量机的Web文本分类方法[J].微电子学与计算机,2006,23(9):102-104. 被引量：19
4李莹,张晓辉,王华勇,常桂然.一种应用向量聚合技术的KNN中文文本分类方法[J].小型微型计算机系统,2004,25(6):993-996. 被引量：13
5万小军,杨建武,陈晓鸥.文档聚类中k-means算法的一种改进算法[J].计算机工程,2003,29(2):102-103. 被引量：29
6卜东波,白硕,李国杰.文本聚类中权重计算的对偶性策略[J].软件学报,2002,13(11):2083-2089. 被引量：20
7JiaweiHan MichelineKamber 范明孟小峰译.Data Mining Concepts and Techniques[M].北京:机械工业出版社,2001..
8赵万磊,王永吉,张学杰,李娟.一种优化初始中心点的K平均文本聚类算法[J].计算机应用,2005,25(9):2037-2040. 被引量：6

二级参考文献28

1贺贤明,戴坚峰.一种新型文本自动分类系统的研究与实现[J].微电子学与计算机,2004,21(10):23-26. 被引量：6
2陈伏兵,张生亮,高秀梅,杨静宇.小样本情况下Fisher线性鉴别分析的理论及其验证[J].中国图象图形学报,2005,10(8):984-991. 被引量：17
3宋枫溪,杨静宇,刘树海,张大鹏.基于多类最大散度差的人脸表示方法[J].自动化学报,2006,32(3):378-385. 被引量：17
4牛强,王志晓,陈岱,夏士雄.基于支持向量机的Web文本分类方法[J].微电子学与计算机,2006,23(9):102-104. 被引量：19
5Salton, G. Automatic Text Processing. Addison-Wesley Publishing Company, 1988.
6Hartigan, J.A. Clustering Algorithms, Yale University, John Wiley&Sons, New York, London, 1975.
7Kleinberg, J. Authoritative sources in a hyperlinked environment, In: Proceedings of the ACM-SIAM Symposium on Discrete Algorithms. 1998. http://www.cs.cornell.edu/home/kleinber/.
8Dumais, S.T. LSI meets TREC: a status report. In: Harman, D., ed. Proceedings of the 1st Text Retrieval Conference (TREC1). National Institute of Standards and Technology, 1993. 137～152.
9Dumais, S.T. Latent semantic indexing (LSI) and TREC-2. In: Harman, D., ed. Proceedings of the 2nd Text Retrieval Conference (TREC2). National Institute of Standards and Technology, 1994. 105～116.
10Jin Z, Yang J Y, Tang Z M, et al. A theorem on uneorrelated optimal discriminant vectors [J ]. Pattern Recognition, 2001,34(10) : 2041 - 2047.

共引文献98

1赵大伟,肖周芳.一种改进的基于密度和样本数量的K-means算法[J].科技信息,2008(28):170-172. 被引量：1
2刘斌,张楠.基于LS-SVM的在线文本识别方法[J].微电子学与计算机,2009,26(3):192-194. 被引量：2
3侯琳,廖明涛,李金库.基于模糊K最近邻和证据理论的增量式超文本分类方法[J].微电子学与计算机,2009,26(3):200-202.
4蒋宗礼,李宪雷,徐学可.基于主题Hub值的元搜索[J].北京工业大学学报,2009,35(3):397-402. 被引量：1
5刘海峰,王元元,张学仁.基于VSM的模糊标引文本检索若干问题研究[J].图书情报工作,2006,50(S2):127-130.
6王映,常毅,谭建龙,白硕.基于N元汉字串模型的文本表示和实时分类的研究与实现[J].计算机工程与应用,2005,41(5):88-91. 被引量：5
7马国俊,贠卫国.基于潜在语义索引的中文文本聚类的研究[J].现代电子技术,2005,28(10):58-59. 被引量：4
8林华兵,傅清祥.基于文本相似度的关键词分类算法[J].福建电脑,2005,21(8):46-47. 被引量：1
9朱天清.入侵检测系统的数据挖掘模型及算法研究[J].武汉工业学院学报,2005,24(3):31-34. 被引量：1
10罗来鹏.基于粗糙集的频繁项集挖掘算法[J].计算机与现代化,2005(10):36-38.

同被引文献14

1Domingos P, Hulten G. Mining highspeed data streams[J]. Knowledge Discovery and Data Mining, 2000:71- 80.
2Dong Guozhu, Han Jiawei, Laks V S, et al. Online mining of changes from data streams: research problems and preliminary results[C]//Workshop on Management and Processing of Data Streams. In cooperation with ACM SIGMOD/PODS and FCRC. San Diego, CA, USA:ACM, 2003.
3Yu Meng , Margaret H Dunham. Efficient mining of emerging events in a dynamic spatiotemporal environ- ment[J]. Lecture Notes in Computer Science, 2006 (3918) :750-754.
4Aggarwal J, Han J, Yu P S, et al. A framework for clustering evolving data streams[C]// Proceedings of the 29th International Conference on Very Large Data Bases (VLDB) Berlin, Germany:VLDB, 2003:81-92.
5刘耀宗,王湛,张宏,刘凤玉.数据流的预测与分类研究[J].计算机科学,2007,34(11):170-173. 被引量：2
6张博锋,白冰,苏金树.基于自训练EM算法的半监督文本分类[J].国防科技大学学报,2007,29(6):65-69. 被引量：17
7秦玉平,艾青,王秀坤,李祥纳,刘卫江.基于支持向量机的兼类文本分类算法研究[J].计算机工程与设计,2008,29(2):408-410. 被引量：8
8王树广.分布式数据流上的连续异常检测[J].微电子学与计算机,2008,25(9):158-160. 被引量：1
9周黔,吴铁军.一种动态数据流的实时趋势分析算法[J].控制与决策,2008,23(10):1182-1185. 被引量：18
10高秀梅,陈芳,宋枫溪,金忠.特征权对贝叶斯分类器文本分类性能的影响[J].计算机应用,2008,28(12):3080-3083. 被引量：3

引证文献2

1李会,王立峰.Web网页文本特征选择方法研究[J].计算机工程与设计,2010,31(16):3724-3727. 被引量：4
2由欣,印桂生.基于有向图构造的数据流预测算法[J].微电子学与计算机,2011,28(5):40-44.

二级引证文献4

1郭淼霞.中文网页分类研究综述[J].赤峰学院学报（自然科学版）,2011,27(12):51-53.
2张凤琴,王磊,张水平,王鹏,程超.一种基于聚类加权的文本特征生成算法[J].计算机应用研究,2013,30(1):146-148. 被引量：3
3赵专政,李云翔.聚类加权和CS-LSSVM的文本分类[J].计算机工程与应用,2013,49(16):124-128. 被引量：4
4邓厚平,武刚.基于爬虫和网站分类的主题信息源发现方法[J].计算机工程与应用,2016,52(3):59-65. 被引量：3

1郭晨晨,朱红康.一种基于MapReduce的改进k-means聚类算法研究[J].河北工业大学学报,2016,45(5):35-43. 被引量：2
2钱政.Android平台下基于改进的K-means酒店信息聚类算法[J].淮海工学院学报（自然科学版）,2014,23(4):22-25. 被引量：2
3陈海彬,郭金玉,谢彦红.基于改进K-means聚类的kNN故障检测研究[J].沈阳化工大学学报,2013,27(1):69-73. 被引量：8
4陈景年,黄厚宽,田凤占,瞿有利.一种用于贝叶斯分类器的文本特征选择方法[J].计算机工程与应用,2008,44(13):24-26. 被引量：6
5王欢,李红辉,张骏温.改进K-means聚类的云任务调度算法[J].计算机与现代化,2017(2):1-5. 被引量：10
6肖进胜,程显,李必军,高威,彭红.基于Beamlet和K-means聚类的车道线识别[J].四川大学学报（工程科学版）,2015,47(4):98-103. 被引量：11
7夏火松,李保国,杨培.基于改进K-means聚类的在线新闻评论主题抽取[J].情报学报,2016,35(1):55-65. 被引量：18
8张蕾,崔志坤,李井泉,白涛.改进K-means模型在电力系统用户行为分析中的应用[J].无线电工程,2017,47(3):12-14. 被引量：3
9董阳,王瑾,柏鹏.基于改进K-means聚类和量子粒子群算法的多航迹规划[J].电讯技术,2014,54(9):1249-1253. 被引量：5
10乔丽,姜慧霖,贾世杰.基于改进K-means聚类的案例检索策略[J].计算机工程,2011,37(5):193-195. 被引量：10

微电子学与计算机

2009年第6期

浏览历史

内容加载中请稍等...

一种基于改进K-means聚类的文本特征选择模型被引量：2

参考文献8

二级参考文献28

共引文献98

同被引文献14

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

一种基于改进K-means聚类的文本特征选择模型 被引量：2

参考文献8

二级参考文献28

共引文献98

同被引文献14

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

一种基于改进K-means聚类的文本特征选择模型被引量：2