基于维度索引表的改进KNN分类算法被引量：3

Improved KNN Classification Algorithm Based on Dimension Index Table

导出

摘要阐述传统KNN分类器的基本原理和其存在的不足之处;针对样本数量增大,维度上升时KNN算法中相似度计算量急剧增大的问题,提出基于维度索引表的改进KNN分类算法;该算法通过建立特征项维度索引表加速KNN算法中寻找K近邻;以搜狗自然语言实验室的文本分类语料库中的新闻文档作为实验对象,采用宏平均F测度值作为分类效果评价标准,用改进KNN方法和传统KNN方法进行对比实验。实验结果表明:该方法能大幅度减少寻找K近邻时相似度计算的次数。 In addition to elaborate the basic principle and existing shortcomings of traditional KNN classifier, this paper puts forward the improved KNN classification algorithm based on dimension index table, which according to the increasing number of samples and rapidly increasing problems of similarity computation of KNN algorithm when dimension rises. The algorithm accelerates the search of finding K-nearest neighbor in KNN algorithm by establishing the feature dimension index table. With the news docu- ment in the text categorization corpus of Sogou Natural Language Lab as the experimental object, the comparative experiment was carried out with the improved KNN algorithm and traditional KNN algorithm evaluated by Macro-averaging F-measures. The experi- mental result shows that this method can greatly reduce the times of similarity computation when searching K-nearest neighbor.

作者路永和何新宇

机构地区中山大学资讯管理学院

出处《情报理论与实践》 CSSCI 北大核心 2014年第5期102-106,共5页 Information Studies:Theory & Application

基金国家自然科学基金资助项目"面向文本分类的多学科协同建模理论与实验研究"的成果之一项目编号:71373291

关键词文本分类维度索引表向量空间模型分类算法 text categorization dimension index table vector space model classification algorithm

分类号 TP391.3 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1LIU Yu, CHEN Guisheng. KNN algorithm improving based on cloud model [ C ]. 2010 2nd International Conference on Ad- vanced Computer Control ( ICACC ) . Changsha, 2010 : 63-66.
2ZHOU Lijuan, WANG Linshuang, GE Xuebin, et al. A clus- tering-based KNN improved algorithm CLKNN for text classifica- tion [ C ] // Automation and Robot ( CAR' 10 ). Proceed-ings of the 2nd International Asia Conference on Informatics in Control. Piscataway, NJ, USA: IEEE Press, 2010: 212-215. H.
3UANG Hong, GUO Juan, WANG Ben. An improved KNN al- gorithm based on adaptive cluster distance bounding for high di- mensional indexing [ C] //2012 Third Global Congress on In- telligent Systems, 2012: 213-217.
4COVER T M, HART R E. Nearest neighbor pattern classifica- tion [J]. IEEE Transactions on Information Theory, 1967, 13 (1) : 21-27.
5HART P E. The condensed nearest neighbor rule [ J ]. IEEE Transactions on Information Theory, 1968, 14 (3) : 515-516.
6WILSON D I. Asymptotic properties of nearest neighbor rules u- sing edited data [J]. IEEE Transactions on Systems, Man and Cybernetics, 1972, 2 (3): 408-421.
7PIERRE A. KITTLER D. Pattem recognition: a statistical ap- proach [ M]. Englewood Cliffs: Prentice Hall, 1982.
8梁俊杰,王长磊.利用分区和距离实现高维空间快速KNN查询[J].计算机研究与发展,2007,44(11):1980-1985. 被引量：4
9刘海博,郗亚辉,王煜.用于文本分类的快速KNN算法[J].河北大学学报（自然科学版）,2008,28(3):322-326. 被引量：5
10张国英,沙芸,江慧娜.基于粒子群优化的快速KNN分类算法[J].山东大学学报（理学版）,2006,41(3):120-123. 被引量：8

二级参考文献22

1王晓晔,王正欧.K-最近邻分类技术的改进算法[J].电子与信息学报,2005,27(3):487-491. 被引量：25
2王煜,王正欧.基于模糊决策树的文本分类规则抽取[J].计算机应用,2005,25(7):1634-1637. 被引量：13
3乔玉龙,潘正祥,孙圣和.一种改进的快速k-近邻分类算法[J].电子学报,2005,33(6):1146-1149. 被引量：26
4董道国,刘振中,薛向阳.VA-Trie:一种用于近似k近邻查询的高维索引结构[J].计算机研究与发展,2005,42(12):2213-2218. 被引量：10
5J S Pan, Y L Qiao, S H SUN. A fast K nearest neighbors classification [J]. IEICE Trans Fundamentals, 2004, 87 (4) :961 - 963.
6景丽萍高阳吴国宝.基于K—means特征加权算法的大规模文本数据子空间聚类[J].计算机研究与发展,2005,42:85-85.
7Songbo Tan. Neighbor weighted K-nearest neighbor for unbalanced text corpus[J]. Expert Systems with Applications, 2005,28(4) : 667 - 671.
8W J Hwang, K W Wen. Fast KNN classification algorithm based on partial distance search[J]. Electron Lett, 1998, 34(21) :2062 -2063.
9J Kennedy, R C Eberhart. Particle swarm optimization[A]. Proceedings of the 1995 IEEE International Conference on Neural Networks[C]. Perth, Australia: IEEE Service Center, Piscataway, NJ, 1995. 1942- 1948.
10E Chavez,G Navarro,R Baeza-Yates,et al.Searching in metric spaces[J].ACM Computing Surveys,2001,33(3):273-321

共引文献12

1李灿泽,吴根秀.基于证据理论与核函数的k-NN分类新方法[J].中国软科学,2010(S1):393-397.
2于静洋,于俊洋.高维数据空间索引方法的研究[J].电脑知识与技术,2009,5(6):4103-4104.
3许朝阳.KNN系数修正迭代求精算法[J].计算机与现代化,2010(10):20-22.
4赵俊杰.基于特征加权的KNNFP改进算法及在故障诊断中的应用[J].电子技术应用,2011,37(4):113-116. 被引量：2
5路永和,曹利朝.基于粒子群优化的文本特征选择方法[J].现代图书情报技术,2011(7):76-81. 被引量：6
6胡元,石冰.基于区域划分的kNN文本快速分类算法研究[J].计算机科学,2012,39(10):182-186. 被引量：23
7路永和,何新宇.文档相似矩阵在提高KNN分类效率中的应用[J].情报理论与实践,2014,37(1):141-144. 被引量：2
8胡存刚,程莹.基于粒子群算法的大数据智能搜索引擎的研究[J].计算机技术与发展,2015,25(12):14-17. 被引量：6
9樊存佳,汪友生,边航.一种改进的KNN文本分类算法[J].国外电子测量技术,2015,34(12):39-43. 被引量：25
10王艳飞,郝卫杰,范支菊,张三顺,张公敬.基于聚类和密度裁剪的改进KNN算法[J].青岛大学学报（自然科学版）,2017,30(2):62-68. 被引量：6

同被引文献25

1王皓,孙宏斌,张伯明.PG-HMI:一种基于互信息的特征选择方法[J].模式识别与人工智能,2007,20(1):55-63. 被引量：6
2周志华,杨强.机器学习及其应用[M].北京:清华大学出版社,2011.
3邓慧,赖思渝,杨颖,刘雪梅.关联规则在高校图书馆中的应用研究[J].医学信息,2008,21(7):1062-1065. 被引量：6
4李玉鑑,周兰珍,操卫平.基于DF和CHI的联合特征提取方法及其应用[J].北京工业大学学报,2008,34(9):995-1000. 被引量：8
5刘建国,周涛,汪秉宏.个性化推荐系统的研究进展[J].自然科学进展,2009,19(1):1-15. 被引量：446
6秦锋,黄俊,程泽凯,杨帆.多标签分类器准确性评估方法的研究[J].计算机技术与发展,2010,20(1):46-49. 被引量：9
7乔健,田庆.利用最近邻信息快速分类多标签数据[J].计算机工程与应用,2011,47(32):138-140. 被引量：3
8朱郁筱,吕琳媛.推荐系统评价指标综述[J].电子科技大学学报,2012,41(2):163-175. 被引量：254
9李飞,李红莲.支持向量机大规模样本快速训练算法[J].北京信息科技大学学报（自然科学版）,2012,27(2):83-87. 被引量：3
10李思男,李宁,李战怀.多标签数据挖掘技术:研究综述[J].计算机科学,2013,40(4):14-21. 被引量：32

引证文献3

1肖诗伯,杨玉梅,兰鹰,吕思蜀.基于多标签属性的学术文献推荐研究[J].情报探索,2015(4):8-10. 被引量：5
2张炎亮,张超,李静.基于动态用户画像标签的KNN分类推荐算法研究[J].情报科学,2020,38(8):11-15. 被引量：38
3殷仕刚,安洋,蔡欣华,屈小娥.基于BIG-WFCHI的微博信息关键特征选择方法[J].计算机系统应用,2021,30(2):188-193.

二级引证文献43

1刘伟,刘柏嵩,王洋洋.海量学术资源个性化推荐综述[J].计算机工程与应用,2018,54(3):30-39. 被引量：22
2肖诗伯,兰鹰,杨玉梅,胡邈凡.基于用户行为的学术文献个性化推荐研究[J].电脑知识与技术（过刊）,2015,21(1X):8-10. 被引量：1
3余韦,余凤丽,吉晶,杨猛.一种基于改进逻辑回归算法实现模型在线调参方法[J].通信技术,2020,53(8):1965-1969. 被引量：4
4盛嘉祺,许鑫.融合主题相似度与合著网络的学者标签扩展方法研究[J].数据分析与知识发现,2020,4(8):75-85. 被引量：4
5朱祥,张云秋,惠秋悦.基于学科异构知识网络的学术文献推荐方法研究[J].图书馆杂志,2020,39(8):103-110. 被引量：9
6孙铁柱,田琳.基于CRT分类算法的用户画像分层模型——以银行借贷用户为例[J].情报科学,2020,38(9):75-81. 被引量：16
7李宝.基于用户画像的高校图书馆个性化资源推荐服务设计[J].新世纪图书馆,2021(4):68-75. 被引量：29
8聂卉,邱以菲.融合用户兴趣及评论效用的评论信息推荐[J].图书情报工作,2021,65(10):68-78. 被引量：10
9张春,刘超,刘旭东,陈志豪,江勇,张辉,周辉,胡建村.商圈消费者画像构建与潜在消费者挖掘方法[J].电脑与电信,2021(6):79-86. 被引量：6
10陈赟,陈玉斌,刘湘慧.基于CBDT和KNN的地铁施工坍塌事故应急措施生成研究[J].长沙理工大学学报（自然科学版）,2021,18(3):45-54. 被引量：4

1邱宁佳,郭畅,杨华民,王鹏,温暖.基于MapReduce编程模型的改进KNN分类算法研究[J].长春理工大学学报（自然科学版）,2017,40(1):110-114. 被引量：3
2杜琳娜,闫光辉,杨霞霞,刘利松.一种改进的KNN中文文本分类算法[J].软件导刊,2010,9(2):51-53. 被引量：2
3刘海峰,姚泽清,刘守生,苏展.基于聚类降维的改进KNN文本分类[J].微计算机信息,2010,26(3):18-20. 被引量：2
4古丽娜孜,孙铁利,胡西旦,伊力亚尔,库瓦特拜克.一种基于改进KNN的哈萨克语文本分类[J].东北师大学报（自然科学版）,2014,46(2):63-68. 被引量：4
5苟和平,景永霞,冯百明,李勇.一种基于粗糙集的改进KNN文本分类算法[J].科学技术与工程,2012,20(20):4926-4929. 被引量：3
6刘海峰,陈琦,刘守生,苏展.一种基于数据偏斜的改进KNN文本分类[J].微电子学与计算机,2010,27(3):51-53. 被引量：3
7路永和,何新宇.文档相似矩阵在提高KNN分类效率中的应用[J].情报理论与实践,2014,37(1):141-144. 被引量：2
8孙丽华,张积东,李静梅.一种改进的kNN方法及其在文本分类中的应用[J].应用科技,2002,29(2):25-27. 被引量：36
9范恒亮,成卫青.一种基于关联分析的KNN文本分类方法[J].计算机技术与发展,2014,24(6):71-74. 被引量：4
10柴春梅,李翔,林祥.基于改进KNN算法实现网络媒体信息智能分类[J].计算机技术与发展,2009,19(1):1-4. 被引量：7

情报理论与实践

2014年第5期

浏览历史

内容加载中请稍等...

基于维度索引表的改进KNN分类算法被引量：3

参考文献11

二级参考文献22

共引文献12

同被引文献25

引证文献3

二级引证文献43

相关作者

相关机构

相关主题

浏览历史

基于维度索引表的改进KNN分类算法 被引量：3

参考文献11

二级参考文献22

共引文献12

同被引文献25

引证文献3

二级引证文献43

相关作者

相关机构

相关主题

浏览历史

基于维度索引表的改进KNN分类算法被引量：3