基于聚类算法的KNN文本分类算法研究被引量：30

Improved KNN using clustering algorithm

下载PDF

导出

摘要 KNN算法是一种在人工智能领域如专家系统、数据挖掘、模式识别等方面广泛应用的算法。该算法简单有效,易于实现。但是KNN算法在决定测试样本的类别时,是把所求的该测试样本的K个最近邻是等同看待的,即不考虑这K个最近邻能表达所属类别的程度。由于训练样本的分布是不均匀的,每个样本对分类的贡献也就不一样,因此有必要有区别的对待训练样本集合中的每个样本。利用聚类算法,求出训练样本集合中每个训练样本的隶属度,利用隶属度来区别对待测试样本的K个最近邻。通过实验证明,改进后的KNN算法较好的精确性。 KNN is of the best text categorization algorithm and is used widely.The uneven distribution in training set will affect categorization result negatively.This paper prsents an improved KNN method and verifies its effectiveness by the experiments.The classification performance is promoted.

作者江涛陈小莉张玉芳熊忠阳

出处《计算机工程与应用》 CSCD 北大核心 2009年第7期153-155,158,共4页 Computer Engineering and Applications

关键词 K近邻隶属度文本分类 K-Nearest Neighbour（KNN） membership degree text classification

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1Dasarathy B V.Nearest Neighbor(NN) norms:NN pattern classification techniques[M].LasAlamitos, California : IEEE Computer Society Press, 1991.
2豆增发,王英强,王保保.一种基于信息增益的K-NN改进算法[J].电子科技,2006,19(12):52-56. 被引量：5
3李荣陆,胡运发.基于密度的kNN文本分类器训练样本裁剪方法[J].计算机研究与发展,2004,41(4):539-545. 被引量：99
4周涓,熊忠阳,张玉芳,任芳.基于最大最小距离法的多中心聚类算法[J].计算机应用,2006,26(6):1425-1427. 被引量：72

二级参考文献19

1HanJ KamberM.数据挖掘概念与技术[M].北京:机械工业出版社,2002..
2[1]D D Lewis. Naive (Bayes) at forty: The independence assumption in information retrieval. In: The 10th European Conf on Machine Learning(ECML98), New York: Springer-Verlag, 1998. 4～15
3[2]Y Yang, X Lin. A re-examination of text categorization methods. In: The 22nd Annual Int'l ACM SIGIR Conf on Research and Development in Information Retrieval, New York: ACM Press, 1999
4[3]Y Yang, C G Chute. An example-based mapping method for text categorization and retrieval. ACM Trans on Information Systems, 1994, 12(3): 252～277
5[4]E Wiener. A neural network approach to topic spotting. The 4th Annual Symp on Document Analysis and Information Retrieval (SDAIR 95), Las Vegas, NV, 1995
6[5]R E Schapire, Y Singer. Improved boosting algorithms using confidence-rated predications. In: Proc of the 11th Annual Conf on Computational Learning Theory. Madison: ACM Press, 1998. 80～91
7[6]T Joachims. Text categorization with support vector machines: Learning with many relevant features. In: The 10th European Conf on Machine Learning (ECML-98). Berlin: Springer, 1998. 137～142
8[7]S O Belkasim, M Shridhar, M Ahmadi. Pattern classification using an efficient KNNR. Pattern Recognition Letter, 1992, 25(10): 1269～1273
9[8]V E Ruiz. An algorithm for finding nearest neighbors in (approximately) constant average time. Pattern Recognition Letter, 1986, 4(3): 145～147
10[9]P E Hart. The condensed nearest neighbor rule. IEEE Trans on Information Theory, 1968, IT-14(3): 515～516

共引文献173

1姚学恒,张萍,闫立伟,操诚.基于机器学习的企业秘密文档自动分类方法[J].产业与科技论坛,2020,19(7):44-45.
2郑凌铭,舒胜文,陈彬,吴涵,黄建业,钱健.强台风环境下基于格点化和支持向量机的10 kV杆塔受损量预测方法[J].高电压技术,2020,46(1):42-51. 被引量：20
3李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：98
4华北,曹先彬.基于代表样本动态生成的中文网页分类[J].计算机应用,2006,26(10):2502-2504. 被引量：2
5李订芳,胡文超,何炎祥.基于共享最近邻聚类和模糊集理论的分类器[J].控制与决策,2006,21(10):1103-1108. 被引量：5
6王煜,白石,王正欧.用于Web文本分类的快速KNN算法[J].情报学报,2007,26(1):60-64. 被引量：33
7孟海涛,陈笑蓉.基于模糊相似度的科技文献软聚类算法[J].贵州大学学报（自然科学版）,2007,24(2):175-178. 被引量：9
8屈军,林旭.文本分类中特征提取方法的比较与分析[J].现代计算机,2007,13(4):10-13. 被引量：8
9印鉴,谭焕云.基于χ~2统计量的kNN文本分类算法[J].小型微型计算机系统,2007,28(6):1094-1097. 被引量：13
10华北,曹先彬.基于代表样本动态生成的快速文本分类[J].计算机仿真,2007,24(6):322-325.

同被引文献259

1叶菲,罗景青,俞志富.一种改进的并行处理SVM学习算法[J].微电子学与计算机,2009,26(2):40-43. 被引量：6
2祝元春,于涛,王建林,赵利强.基于核独立成分分析的发酵过程在线监测方法[J].北京化工大学学报（自然科学版）,2014,41(2):81-86. 被引量：3
3熊亚军,廖晓农,李梓铭,张小玲,孙兆彬,赵秀娟,赵普生,马小会,蒲维维.KNN数据挖掘算法在北京地区霾等级预报中的应用[J].气象,2015,41(1):98-104. 被引量：56
4高洁,吉根林.文本分类技术研究[J].计算机应用研究,2004,21(7):28-30. 被引量：36
5高昊江,张宜生,刘凡,梁书云.面向Web服务的企业信息系统集成开发技术研究与应用[J].计算机工程与科学,2004,26(6):105-109. 被引量：21
6张燕平,张铃,吴涛.机器学习中的多侧面递进算法MIDA[J].电子学报,2005,33(2):327-331. 被引量：26
7陆安生,陈永强,屠浩文.决策树C5算法的分析与应用[J].电脑知识与技术（技术论坛）,2005(3):17-20. 被引量：16
8李锋刚,倪志伟,郜峦.案例推理技术在医学诊断专家系统中的设计思路探讨[J].中医药临床杂志,2005,17(2):100-102. 被引量：13
9钱晓东,王正欧.基于改进KNN的文本分类方法[J].情报科学,2005,23(4):550-554. 被引量：19
10张宁,贾自艳,史忠植.使用KNN算法的文本分类[J].计算机工程,2005,31(8):171-172. 被引量：101

引证文献30

1杜俊卫,李爱军.一种基于聚类的文本迁移学习算法[J].计算机系统应用,2010,19(12):238-241. 被引量：1
2胡泽文,王效岳,白如江.国内外文本分类研究计量分析与综述[J].图书情报工作,2011,55(6):78-81. 被引量：17
3黄炜.企业级信息检索引擎的设计与实现[J].计算机与现代化,2011(6):203-206.
4黄炜.KNN在企业信息检索中的运用[J].信息技术,2011,35(6):173-176.
5邓文韬,王国胤,董振兴.一种改进KNN个性化邮件过滤的方法[J].重庆邮电大学学报（自然科学版）,2011,23(6):757-760. 被引量：1
6张燕平,刘超,曲永花.WCBVSM与SACA结合的文本分类模型[J].计算机工程与应用,2012,48(11):137-142. 被引量：3
7茅剑,刘晋明,曹勇.一种基于密度的改进KNN文本分类算法[J].漳州师范学院学报（自然科学版）,2012,25(2):45-48. 被引量：3
8张素智,刘婧姣.基于语义的KNN短文本分类算法研究[J].郑州轻工业学院学报（自然科学版）,2012,27(6):1-4. 被引量：4
9尹航,常桂然,王兴伟.采用聚类算法优化的K近邻协同过滤算法[J].小型微型计算机系统,2013,34(4):806-809. 被引量：20
10耿丽娟,李星毅.用于大数据分类的KNN算法研究[J].计算机应用研究,2014,31(5):1342-1344. 被引量：63

二级引证文献227

1陈翔,刘勤明,胡家瑞.多源传感器数据下基于注意力机制与长短期记忆网络的轴承故障诊断与寿命预测[J].信息与控制,2024,53(2):211-225. 被引量：11
2冯蕴天,王国良,韩慧,许雄,陈翔,吴若无,邰宁.面向电磁大数据的未知雷达辐射源智能识别[J].太赫兹科学与电子信息学报,2021,19(4):589-595. 被引量：4
3贺金龙,付立军,姚郑,吕鹏飞,黄徐胜.基于网格LSTM混合算法的地质领域用户意图识别[J].计算机系统应用,2020(10):44-52. 被引量：1
4冯浩.拟建地铁换乘厅基坑开挖对既有线路影响的数值分析[J].四川水泥,2023(2):238-239. 被引量：1
5熊漩,严佩敏.融合多头自注意力机制的中文分类方法[J].电子测量技术,2020(10):125-130. 被引量：8
6董元元,陈基漓,唐小侠.基于BP_Adaboost的文本分类研究[J].网络安全技术与应用,2012(3):42-43. 被引量：3
7王亚民,刘洋.含附件文本的分类算法研究[J].情报杂志,2012,31(8):161-165.
8胡泽文,孙建军,武夷山.国内知识图谱应用研究综述[J].图书情报工作,2013,57(3):131-137. 被引量：501
9于重重,吴子珺,谭励,涂序彦,田蕊.非平衡集成迁移学习模型及其在桥梁结构健康监测中的应用[J].智能系统学报,2013,8(1):46-51. 被引量：4
10薛春香,张玉芳.面向新闻领域的中文文本分类研究综述[J].图书情报工作,2013,57(14):134-139. 被引量：26

1商业智能等同于大数据吗？[J].网络运维与管理,2015,0(12):7-7.
2对私有云的5大误解[J].通讯世界,2012(10):56-56.
3阎宗岭.聊天记录，立即看破[J].计算机应用文摘,2009(30):9-10.
4王元虎.关于物联网应用的安全性问题分析与探讨[J].中国安防,2015(22):70-73.
5赵长林.呆护云中数据[J].网络运维与管理,2015,0(1):29-30.
6马龙.“互联网+”如何才能“+”[J].中国信息化,2015,0(8):79-80.
7邹汉斌,周学清.基于聚类的模糊支持向量机入侵检测算法[J].情报杂志,2009,28(3):175-178. 被引量：3
8张伟.超级计算机[J].百科知识,2008(12):25-25. 被引量：1
9书虫,小健,赵江,太子.信息恢复奇招异势[J].电脑爱好者,2003(11):27-29.
10田鸽.推荐系统：比你更懂你[J].信息方略,2013(2):26-29.

计算机工程与应用

2009年第7期

浏览历史

内容加载中请稍等...

基于聚类算法的KNN文本分类算法研究被引量：30

参考文献4

二级参考文献19

共引文献173

同被引文献259

引证文献30

二级引证文献227

相关作者

相关机构

相关主题

浏览历史

基于聚类算法的KNN文本分类算法研究 被引量：30

参考文献4

二级参考文献19

共引文献173

同被引文献259

引证文献30

二级引证文献227

相关作者

相关机构

相关主题

浏览历史

基于聚类算法的KNN文本分类算法研究被引量：30