一种基于k最近邻的快速文本分类方法被引量：15

A Fast Text Categorization Approach Based on k-Nearest Neighbor

下载PDF

导出

摘要 k最近邻方法是一种简单而有效的文本分类方法,但是传统的k最近邻分类方法在训练集数据量很大情况下,全局的最优搜索几乎是不可能的.因此,加速k个最近邻的搜索是k最近邻方法实用的关键.提出了一种基于k最近邻的快速文本分类方法,它能够保证在海量数据集中进行快速有效的分类.实验结果表明,这一方法较传统方法性能有显著提升. k-Nearest Neighbor （k-NN） is one of the simplest and most effective algorithms for text categorization. However, k-NN search requires intensive similarity computations, particularly for large training set, the search of the whole set is unacceptable. Therefore, speeding-up k-NN search is a key for making k-NN categorization useful in practice. In this paper a fast text categorization approach based on k-NN, which can classify textual documents quickly and efficiently on condition of searching in the very large training set is presented. Experiment shows that the new algorithm can greatly improve the performance.

作者张庆国张宏伟张君玉

机构地区中国科学院研究生院数学系清华大学光盘国家工程研究中心

出处《中国科学院研究生院学报》 CAS CSCD 2005年第5期554-559,共6页 Journal of the Graduate School of the Chinese Academy of Sciences

关键词文本分类 k最近邻多维索引相似检索 text categorization, k-Nearest Neighbor（ k-NN）, multidimensional index, similarity retrieval

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献16

1Yang Y, Liu X. A re-examination of text categorization methods. In: Proceedings of 22nd Annual International ACMSIGIR Conference on Research and Development in Information Retrieval ( SIGIR'99 ) . Berkeley: ACM Press, 1999. 42 ～ 49
2He J,Tan AH, Tan CL. A comparative study on Chinese text categorization methods. In: Proceedings of the International Workshop on Text and Web Mining. Singapore: Melbourne,2000. 24～ 35
3Cover TM, Hart PE. Nearest neighbor pattern classification. IEEE Transactions on Information Theory, 1968, IT-13: 21 ～ 27
4Hart PE. Condensed nearest neighbor rule. IEEE Transactions on Information Theory, 1968, IT-14:515 ～ 516
5Li RL, Hu YF. Noise reduction to text categorization based on density for k NN. In: Proceeding of the Second International Conference on Machine Learning and Cybernetics. Xi'an,2003. 3119～ 3124
6Hwang WJ, Wen KW. Fast k NN classification algorithm based on partial distance search. Electronics Letters, 1998,34(21 ) :2006 ～ 2063
7Baek SJ, Sung KM. Fast K-nearest-neighbour search algorithm for nonparametric classification. Electronics Letters ,2000,36(21 ) :1821 ～ 1822
8Grabowski S. Voting over multiple k-NN classifier. TCSET'2002. 2002. 223 ～ 225
9Denoeux T. A k-nearest neighbor classification rule based on dempster-shafer theory. IEEE Trans on Systems, Man, and Cybernetics, 1995,25 (5):804 ～ 813
10Zhang B, Srihari SN. A fast algorithm finding k-nearest neighbors with non-metric dissimilarity. In: Proceedings of the Eighth International Workshop on Frontiers in Handwriting Recognition( IWFHR' 02). 2002

二级参考文献13

1王飞龙.模式识别基础[M].武汉:湖北科技出版社,1983..
2[1]Bentley, J.L. Multidimensional binary search trees used for associative searching. Communications of the ACM, 1975,18(9):509～517.
3[2]Guttman, A. R-Tree: a dynamic index structure for spatial searching. In: Yormark, B., ed. Proceedings of the ACM SIGMOD International Conference on Management of Data. ACM Press, 1984. 47～54.
4[3]Beckman, N., Kriegel H.P., et al. The R*-tree: an efficient and robust access method for points and rectangles. In: Garcia-Molina, H., Jagadish, H.V., eds. Proceedings of the ACM SIGMOD International Conference on Management of Data. ACM Press, 1990. 322～331.
5[4]Berchtold, S., Keim, D.A., Kriegel, H.P. The X-tree: an index structure for highdimensional data. In: Vijayaraman, T.M., Buchmann,A.P., et al., eds. Proceedings of the 22th International Conference on VLDB. CA: Morgan Kaufmann Publishers, 1996. 28～39.
6[5]White, D.A., Jain, R. Similarity indexing with the SS-tree. In: Proceedings of the 12th International Conference on Data Engineering. 1996. 516～523.
7[6]Uhlmann, J. Satisfying general proximity/similarity queries with metric trees. Information Processing Letters, 1991,40:175～179.
8[7]Baeza-Yates, R., Cunto, W., Manber U., et al. Proximity matching using fixed-queries trees. In: Gochemore, M., Gusfield, D., eds. Proceedings of the 5th Symposium on Combinatorial Pattern Matching. Lecture Notes in Computer Science 807, Springer-Verlag, 1994. 198～212.
9[8]Brin, S. New neighbor search in large metric space. In: Dayal, U., Peter, P.M.D., et al, eds. Proceedings of the VLDB'95. CA: Morgan Kaufmann Publishers, 1995. 574～584.
10[9]Ciaccia, P., Patella, M., Zezula, P. M-Tree: an efficient access method for similarity search in metric space. In: Jarke, M., Karey, M.J., eds. Proceedings of the VLDB'97. CA: Morgan Kaufmann Publishers, 1997. 426～435.

共引文献28

1方琴,李永前.K近邻短期交通流预测[J].重庆交通大学学报（自然科学版）,2012,31(4):828-831. 被引量：13
2曹奎,冯玉才.国产数据库DM3的图像引擎设计[J].小型微型计算机系统,2004,25(9):1644-1647. 被引量：2
3王志强,甘国辉,程起敏.基于度量空间高维索引结构VP-tree及MVP-tree的图像检索[J].计算机工程与应用,2004,40(36):41-44. 被引量：1
4肖国强,罗国兵.基于核矢量过滤的视频检索算法[J].电子技术应用,2006,32(4):42-44.
5王国仁,黄健美,王斌,韩东红,乔百友,于戈.基于最大间隙空间映射的高维数据索引技术[J].软件学报,2007,18(6):1419-1428. 被引量：8
6王凤岭,韦智勇,刘连芳.基于纹理分析笔迹鉴别系统的设计与实现[J].广西民族大学学报（自然科学版）,2007,13(3):97-103. 被引量：2
7张军旗,周向东,王梅,施伯乐.基于聚类分解的高维度量空间索引B^+-Tree[J].软件学报,2008,19(6):1401-1412. 被引量：22
8张军旗,周向东,施伯乐.基于查询采样的高维数据混合索引[J].软件学报,2008,19(8):2054-2065.
9李明,王健琨.基于聚类与遗传算法的Web图像检索[J].计算机工程与设计,2008,29(15):3975-3979. 被引量：1
10姬东朝,宋笔锋,韩斐.智能机内测试技术中KNN算法的改进[J].弹箭与制导学报,2008,28(4):230-233.

同被引文献107

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：53
2郭建星,刘松林,倪丽,马淑宇.一种改进的基于最大类间方差的图像分割方法[J].仪器仪表学报,2005,26(z1):665-666. 被引量：19
3张建云.中国水文预报技术发展的回顾与思考[J].水科学进展,2010,21(4):435-443. 被引量：106
4王继魁,吕凯,李虹.基于决策树分类的Weka平台上数据挖掘应用[J].白城师范学院学报,2013,27(5):37-40. 被引量：4
5万智萍.基于小波Contourlet系数相关性的红外图像增强算法[J].图学学报,2014,35(1):93-99. 被引量：5
6刘光蓉,管庶安,周红.基于数字图像处理技术的汽车轮廓提取[J].计算机与数字工程,2004,32(4):32-33. 被引量：7
7刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：201
8陈雪天,李荣陆.使用最大熵模型进行文本分类[J].计算机工程与应用,2004,40(35):78-79. 被引量：4
9刘世芳,刘叶冰.车辆类型识别技术的研究[J].计算机与数字工程,2005,33(1):71-72. 被引量：7
10周钦强,孙炳达,王义.文本自动分类系统文本预处理方法的研究[J].计算机应用研究,2005,22(2):85-86. 被引量：15

引证文献15

1高影繁,马润波,刘玉树.一种结合参数优化的贝叶斯文本分类算法[J].计算机研究与发展,2007,44(z2):1-5.
2吴祥.一种基于K-平均簇划分算法的图像分割方法[J].合肥师范学院学报,2006,8(3):51-52. 被引量：1
3翟乃斌,苏建,宋年秀,刘玉梅,陈友谊.基于不变矩的机器视觉车辆类型识别技术[J].武汉理工大学学报（信息与管理工程版）,2007,29(4):7-10. 被引量：4
4汪晓刚,蒋健安,孙志挥.一种面向专利信息的文本自动分类算法[J].科技创新导报,2009,6(15):25-26. 被引量：2
5李军杰,杜广超,张忠臣.基于边界文本多k值分类的改进kNN算法[J].网络安全技术与应用,2009(9):52-54.
6周法国,王映龙,杨炳儒,陈卓.基于发现特征子空间模型的文本分类算法[J].计算机应用研究,2009,26(10):3712-3715. 被引量：2
7阚光远,刘志雨,李致家,姚成,周赛.新安江产流模型与改进的BP汇流模型耦合应用[J].水科学进展,2012,23(1):21-28. 被引量：23
8赵丽霞,阚光远,李致家.XPBK神经网络模型的构建与应用[J].人民黄河,2014,36(2):30-32.
9孟曼,韦庆玥,陈时光.医疗文本分类机器学习方法研究[J].计量与测试技术,2018,45(12):66-69. 被引量：2
10荣盘祥,曾凡永,黄金杰.数据挖掘中特征选择算法研究[J].哈尔滨理工大学学报,2016,21(1):106-109. 被引量：14

二级引证文献70

1靳敏,石磊,郑静.运动目标检测与识别算法的研究[J].黑龙江工程学院学报,2009,23(3):45-48.
2毕晓君,林宏彰.序列图像的目标识别算法改进[J].计算机工程,2010,36(3):206-208. 被引量：6
3周艳春,张永强,许士国.森林火灾对典型小流域径流影响模拟[J].水科学进展,2013,24(2):190-196. 被引量：3
4魏明华,郑志宏.基于信息扩散近似推理的产流预报模型[J].沈阳农业大学学报,2013,44(2):208-212.
5赵丽霞,阚光远,李致家.XPBK神经网络模型的构建与应用[J].人民黄河,2014,36(2):30-32.
6刘家福,李京,李秀霞.中美典型水文模型比较研究[J].自然灾害学报,2014,23(1):17-23. 被引量：8
7肖君健,罗强,王修贵,罗文兵,张晓春.感潮河网地区城镇化对排涝模数的影响分析[J].农业工程学报,2014,30(13):247-255. 被引量：9
8马金娜.城市复古建筑景观图像色彩自动调节仿真[J].计算机仿真,2018,35(12):359-362. 被引量：1
9毛烨.序列数字动画图像色彩自动校准方法仿真[J].计算机仿真,2018,35(12):372-375. 被引量：4
10张金美,舒希勇.基于基尼系数的n-grams特征约简加权算法[J].淮阴工学院学报,2016,25(1):25-28.

1孙君顶,张喜民,崔江涛,周利华.一种新的基于颜色和空间特征的图像检索方法[J].计算机科学,2005,32(6):158-160. 被引量：5
2李爱平,刘丽丽,刘雪梅.结合Inventor API的冲压件相似检索方法与实现[J].计算机工程与应用,2008,44(35):232-236. 被引量：2
3齐向东,刘大伟,王劲林.分布式结构化P2P网络下局部敏感哈希快速检索的负载均衡[J].高技术通讯,2013,23(12):1213-1218. 被引量：1
4宋瑞霞,王也娜,李成华,王小春,王俊,齐东旭.V-系统在形状相似检索中的应用[J].计算机辅助设计与图形学学报,2014,26(11):1930-1937. 被引量：8
5王萍,孔秀梅,杨洪敏,林孔元,刘还珠.天气图相似检索研究[J].天津大学学报（自然科学与工程技术版）,2004,37(3):264-268. 被引量：5
6程光耀,孙厚芳,张发平,慈建平.基于PDM的智能CAPP系统的研究与实现[J].机械设计与制造,2003(6):16-18. 被引量：5
7郑志刚,彭望琭,金传洋.基于综合特征分析的多源空间数据相似检索[J].地球信息科学,2006,8(2):54-58.
8黄美东,谢维信,张鹏.云存储中加密数据的相似检索技术应用研究[J].信号处理,2017,33(4):472-479. 被引量：6
9刘勇,周晓林,吴必文,王东勇,方翀.基于等值线分析技术的图形相似检索[J].计算机应用,2006,26(B06):5-7. 被引量：2
10谭国真,高文,张田文.多边形表示的相似度量[J].计算机辅助设计与图形学学报,1995,7(2):96-102. 被引量：8

中国科学院研究生院学报

2005年第5期

浏览历史

内容加载中请稍等...

一种基于k最近邻的快速文本分类方法被引量：15

参考文献16

二级参考文献13

共引文献28

同被引文献107

引证文献15

二级引证文献70

相关作者

相关机构

相关主题

浏览历史

一种基于k最近邻的快速文本分类方法 被引量：15

参考文献16

二级参考文献13

共引文献28

同被引文献107

引证文献15

二级引证文献70

相关作者

相关机构

相关主题

浏览历史

一种基于k最近邻的快速文本分类方法被引量：15