基于粗糙集的快速KNN文本分类算法被引量：22

Fast KNN Algorithm for Text Classification Based on Rough Set

下载PDF

导出

摘要传统K最近邻一个明显缺陷是样本相似度的计算量很大,在具有大量高维样本的文本分类中,由于复杂度太高而缺乏实用性。为此,将粗糙集理论引入到文本分类中,利用上下近似概念刻画各类训练样本的分布,并在训练过程中计算出各类上下近似的范围。在分类过程中根据待分类文本向量在样本空间中的分布位置,改进算法可以直接判定一些文本的归属,缩小K最近邻搜索范围。实验表明,该算法可以在保持K最近邻分类性能基本不变的情况下,显著提高分类效率。 The traditional K Nearest Neighbor（KNN） has a fatal defect that time of similarity computing is huge. For text classification task with high dimension and huge samples, it has extremely complexity. This is not practicable for real applications. In this paper, rough set theory is introduced into classification process. The distribution of training samples is described with the concepts of upper approximation and lower approximation and also the range of upper approximation space and lower approximation space of each class are computed in the training process. According to the position of the documents in the sample space, this algorithm can label some documents directly. It reduces the searching range of KNN of some documents in the classification process. The results of experiments show that this algorithm can save largely the classification time and has almost the same classification performance as that of the traditional KNN classification algorithm.

作者孙荣宗苗夺谦卫志华李文

机构地区同济大学电子与信息工程学院计算机科学与技术系同济大学嵌入式系统与服务计算教育部重点实验室

出处《计算机工程》 CAS CSCD 北大核心 2010年第24期175-177,共3页 Computer Engineering

基金国家自然科学基金资助项目(60775036 60475019) 博士学科点专项科研基金资助项目(20060247039)

关键词文本分类 K最近邻粗糙集 text classification： K Nearest Neighbor（KNN） rough set

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1苏映雪,付耀文.基于KNN算法的组合式非搜索特征选择算法[J].计算机工程,2007,33(18):217-218. 被引量：6
2王晓晔,王正欧.K-最近邻分类技术的改进算法[J].电子与信息学报,2005,27(3):487-491. 被引量：25
3Hjaltason G R, Hanan S. Index-driven Similarity Search in Metric Spaces[J]. ACM Trans, on Database Systems, 2003, 28(4): 517-580.
4苗夺谦,胡桂荣.知识约简的一种启发式算法[J].计算机研究与发展,1999,36(6):681-684. 被引量：513
5Pawlak Z. Rough Sets[J]. International Journal of Computer and Information Sciences, 1982, 11 (3): 341-356.
6王国胤,Rough集理论与知识获取[M].西安:西安交通大学出版社,1999.

二级参考文献22

1王珏,苗夺谦,周育健.关于Rough Set理论与应用的综述[J].模式识别与人工智能,1996,9(4):337-344. 被引量：264
2苗夺谦.Rough Set理论及其在机器学习中的应用研究[博士学位论文].北京:中国科学院自动化研究所,1997..
3王珏，J Comput Sci Technol，1998年，13卷，2期，189页
4Miao Duoqian，IEEE ICIPS’97，1997年，1155页
5苗夺谦，博士学位论文，1997年
6陆汝钤，人工智能，1996年
7Wong S K M，Bull Polish Acad Sci，1985年，33卷，693页
8Shin C, Yun U, Kim H, Park S. A hybrid approach of neural network and memory-based learning to data mining. IEEE Trans. on Neural Networks, 2000, 11(3): 637 - 46.
9Wettschereck D, Aha D W, Mohri T. A review and empirical evaluation of feature weighting metbords for a class of lazy learning algorithms. AI Review, 1997, 11 (2): 273 - 314.
10范明孟小峰.数据挖掘概念与技术:第七章第七节[M].北京:机械工业出版社,2001..

共引文献546

1刘城霞,朱敏玲,刘玮琪.基于互信息的属性约简算法研究与实现[J].北京信息科技大学学报（自然科学版）,2020,35(1):38-42. 被引量：7
2唐洪浪.基于决策强度的一种属性约简算法[J].湛江师范学院学报,2007,28(6):65-69.
3庞发虎,庞振凌,杜瑞卿.粗糙集理论对湖泊生态系统健康评定指数法的评价[J].生物数学学报,2008,23(2):337-344. 被引量：4
4林秋月,陈昭炯.基于二进制可辨矩阵的属性约简启发式算法[J].福州大学学报（自然科学版）,2004,32(z1):32-35. 被引量：1
5杨善林,刘业政,马溪骏.基于β-δ0粗糙集模型的属性约简算法[J].中国管理科学,2003,11(z1):41-45.
6李鸿.基于条件粗糙熵的知识相对约简算法[J].宿州学院学报,2005,20(1):84-87.
7梁吉业,李超伟,魏巍.基于Rough Sets的特征选择研究进展[J].山西大学学报（自然科学版）,2012,35(2):211-218. 被引量：2
8李华雄,周献中.基于0-1分辨矩阵的启发式属性约简[J].中南大学学报（自然科学版）,2009,40(S1):304-308. 被引量：2
9鄂旭,周津,侯建,张龙昌,毕嘉娜.一种新的不完备食品信息系统评价属性相对约简算法[J].集成技术,2013,2(3):10-14.
10黄兵,何新,周献中.基于相容矩阵的粗计算(英文)[J].自动化学报,2004,30(3):364-370. 被引量：17

同被引文献168

1王俊英,郭景峰,霍峥.中文文本分类系统的设计与实现[J].微电子学与计算机,2006,23(z1):262-265. 被引量：3
2邹小玲.直升机旋翼防除冰设计与分析[J].直升机技术,2009(3):39-46. 被引量：8
3王兰州,胡安雨.微弱电信号测试计量的植物生长信息传递研究展望[J].中国计量学院学报,2010,21(3):192-200. 被引量：3
4梁吉业,李超伟,魏巍.基于Rough Sets的特征选择研究进展[J].山西大学学报（自然科学版）,2012,35(2):211-218. 被引量：2
5李莹,张晓辉,王华勇,常桂然.一种应用向量聚合技术的KNN中文文本分类方法[J].小型微型计算机系统,2004,25(6):993-996. 被引量：13
6刘良斌,王小平.基于支持向量机和输出编码的文本分类器研究[J].计算机应用,2004,24(8):32-34. 被引量：8
7余芳,姜云飞.一种基于朴素贝叶斯分类的特征选择方法[J].中山大学学报（自然科学版）,2004,43(5):118-120. 被引量：24
8李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：98
9王晓晔,王正欧.K-最近邻分类技术的改进算法[J].电子与信息学报,2005,27(3):487-491. 被引量：25
10钱晓东,王正欧.基于改进KNN的文本分类方法[J].情报科学,2005,23(4):550-554. 被引量：19

引证文献22

1刘应东,牛惠民.基于k-最近邻图的小样本KNN分类算法[J].计算机工程,2011,37(9):198-200. 被引量：28
2欧阳浩,黄镇谨.粗糙集理论及在产品市场评估中的应用[J].科技信息,2011(27):5-6.
3张爱科.基于改进的最大熵均值聚类方法在文本分类中的应用[J].计算机应用研究,2012,29(4):1297-1299. 被引量：4
4刘应东,孙秉珍.基于元胞自动机的小样本集分类算法[J].计算机工程,2012,38(7):155-157. 被引量：2
5刘海峰,姚泽清,苏展,张学仁.文本分类中基于K-means的类偏斜KNN样本剪裁[J].微电子学与计算机,2012,29(5):24-28. 被引量：6
6刘忠,刘洋,建晓.基于KD-Tree的KNN文本分类算法[J].网络安全技术与应用,2012(5):38-40. 被引量：3
7胡元,石冰.基于区域划分的kNN文本快速分类算法研究[J].计算机科学,2012,39(10):182-186. 被引量：23
8刘仲民,徐炎,赵彦敏,胡文瑾.基于概率模型LVQ的改进KNN分类新方法[J].兰州理工大学学报,2013,39(3):70-74. 被引量：1
9付会凯.基于多种小波熵和信号熵的植物电信号特征提取[J].农机化研究,2013,35(9):38-40. 被引量：2
10陈沛,毛安定.基于粗糙集的中文文本分类算法与应用[J].中国新通信,2013,15(23):73-73.

二级引证文献130

1冯建英,王博,吴丹丹,穆维松,田东.用户画像技术与其在农业领域应用研究进展[J].农业机械学报,2021,52(S01):385-395. 被引量：9
2顾唐杰,秦波,蒋小菲.一种基于改进型Chameleon算法的宿舍分配方法[J].智能计算机与应用,2022,12(5):23-30. 被引量：2
3刘应东,孙秉珍.基于元胞自动机的小样本集分类算法[J].计算机工程,2012,38(7):155-157. 被引量：2
4吴静.KNN算法在就业预测模型中的应用[J].莆田学院学报,2013,20(2):60-63. 被引量：2
5林啟锋,蒙祖强,陈秋莲,陈智敏.结合语义和文本特征位串的高效KNN算法[J].计算机工程与设计,2013,34(7):2417-2421. 被引量：1
6谭学群,廉培庆,邱茂君,李艳华,董广为.基于岩石类型约束的碳酸盐岩油藏地质建模方法——以扎格罗斯盆地碳酸盐岩油藏A为例[J].石油与天然气地质,2013,34(4):558-563. 被引量：23
7钱强,庞林斌,高尚.一种基于改进型KNN算法的文本分类方法[J].江苏科技大学学报（自然科学版）,2013,27(4):381-385. 被引量：4
8马立婷,陶秋香,张庆云.三种遥感反演海岸线方法的实验对比分析[J].海洋测绘,2013,33(6):66-69. 被引量：1
9刘璐,高强,刘衍珩,孙鑫.基于冗余实例对消除算法的实例选择[J].计算机工程,2014,40(1):177-180. 被引量：2
10卢伟胜,郭躬德,严宣辉,陈黎飞.SMwKnn:基于类别子空间距离加权的互k近邻算法[J].计算机科学,2014,41(2):166-169. 被引量：7

1艾英山,张德贤.基于文本和类别信息的KNN文本分类算法[J].计算机与数字工程,2009,37(11):10-12. 被引量：2
2余鹰,苗夺谦,刘财辉,王磊.基于变精度粗糙集的KNN分类改进算法[J].模式识别与人工智能,2012,25(4):617-623. 被引量：31
3厍向阳,薛惠锋,许五弟.基于遗传算法的多维快速聚类算法研究[J].计算机应用研究,2005,22(6):58-60. 被引量：1
4王煜,白石,王正欧.用于Web文本分类的快速KNN算法[J].情报学报,2007,26(1):60-64. 被引量：33
5王晓云,陈良生.旋转变化的人耳识别研究[J].计算机工程,2011,37(S1):208-210.
6刘海博,郗亚辉,王煜.用于文本分类的快速KNN算法[J].河北大学学报（自然科学版）,2008,28(3):322-326. 被引量：5
7邓大勇,苗夺谦,黄厚宽.信息表中概念漂移与不确定性分析[J].计算机研究与发展,2016,53(11):2607-2612. 被引量：5
8邵伟明,田学民,王平.基于递推PLS核算法的软测量在线学习方法[J].化工学报,2012,63(9):2887-2891. 被引量：9
9李志伟.一种基于多层次方法的快速仿射谱聚类算法[J].电子世界,2016,0(9):151-151.
10李恒杰,李明.基于本体的Web分类技术研究[J].微计算机信息,2006,22(07X):215-217. 被引量：11

计算机工程

2010年第24期

浏览历史

内容加载中请稍等...

基于粗糙集的快速KNN文本分类算法被引量：22

参考文献6

二级参考文献22

共引文献546

同被引文献168

引证文献22

二级引证文献130

相关作者

相关机构

相关主题

浏览历史

基于粗糙集的快速KNN文本分类算法 被引量：22

参考文献6

二级参考文献22

共引文献546

同被引文献168

引证文献22

二级引证文献130

相关作者

相关机构

相关主题

浏览历史

基于粗糙集的快速KNN文本分类算法被引量：22