基于K-均值聚类的小样本集KNN分类算法被引量：10

KNN CLASSIFICATION ALGORITHM FOR SMALL SAMPLE SETS BASED ON K-MEANS CLUSTERING

下载PDF

导出

摘要 KNN及其改进算法进行分类时,如样本集中、样本过少或各类样本的密度差异较大,都将会影响最后的分类精度。提出一种基于聚类技术的小样本集KNN分类算法。通过聚类和剪理,形成各类的样本密度接近的新的样本集,并利用该新样本集对类标号未知数据对象进行类别标识。通过使用标准数据集的测试,发现该算法能够提高KNN的分类精度,取得了较满意的结果。 When KNN and its improved algorithms are performing classification,it always influences the final classification accuracy because of either too dense or too few the samples or too large the density differences among various kinds of samples.The paper proposes a small sample set KNN classification algorithm based on clustering technology.A new sample set is generated through clustering and editing which contains various kinds of samples with close densities.That new sample set is used to classify and label data objects whose classification and label numbers are unknown.Tests by standard data sets reveal that the algorithm can improve KNN classification accuracy and obtain satisfactory results.

作者刘应东牛惠民

机构地区兰州交通大学交通运输学院

出处《计算机应用与软件》 CSCD 2011年第5期112-113,125,共3页 Computer Applications and Software

基金甘肃省自然科学研究基金规划项目(1010RJZA069)

关键词 K-均值聚类 K最近邻小样本 K-means clustering K-nearest-neighbor Small sample set

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献7

1余小鹏,周德翼.一种自适应k-最近邻算法的研究[J].计算机应用研究,2006,23(2):70-72. 被引量：18
2桑应宾,刘琼荪.改进的k-nn快速分类算法[J].计算机工程与应用,2009,45(11):145-146. 被引量：8
3熊忠阳,杨营辉,张玉芳.基于密度的kNN分类器训练样本裁剪方法的改进[J].计算机应用,2010,30(3):799-801. 被引量：13
4Guan D,Yuan W,tee Y K,et al.Nearest neighbor editing aided by unlabeled data[J].Information Sciences,2009,179(13):2273-2282.
5Wang J,Neskovic P,Cooper L N.Improving nearest neighbor rule with a simple adaptive distance measure[J].Pattern Recognition Letters,2007,28(2):207-213.
6Jahromi M Z,Parvinnia E,John R.A method of learning weighted similarity function to improve the performance of nearest neighbor[J].Information Sciences,2009,179(17):2964-2973.
7Krishma K,Murty M N.Genetic K-means algorithm[J].IEEE Trans on System,Man,and Cybernetics:Part B,1999,5(1):96-100.

二级参考文献20

1张宁,贾自艳,史忠植.使用KNN算法的文本分类[J].计算机工程,2005,31(8):171-172. 被引量：101
2王汉芝,刘振全.一种新的确定K-均值算法初始聚类中心的方法[J].天津科技大学学报,2005,20(4):76-79. 被引量：9
3王煜,白石,王正欧.用于Web文本分类的快速KNN算法[J].情报学报,2007,26(1):60-64. 被引量：33
4周志勇,袁方,刘海博.用聚类-分类模式解决聚类问题[J].广西师范大学学报（自然科学版）,2007,25(2):127-130. 被引量：7
5谭松波,王月粉.中文文本分类语料库-TanCorpv1.0[EB/OL].(2007-08-29)[2008-01-20].http://www.searehforum:org.cn/tansongbo/corpus.htm.
6Krishma K,Murty M N.Genetic K-means algorithm[J].IEEE Trans on System, Man, and Cybernetics: Part B, 1999,5 ( 1 ) : 96-100.
7RUIZ V E.An algorithm for finding nearest neighbors in (approximately) constant average time[J].Pattern Recognition Letter,1986,4(3):145-147.
8HART P E.The condensed nearest neighbor rule[J].IEEE Transactions on Information Theory,1968,IT214(3):515-516.
9WILSON D L.Asymptotic properties of nearest neighbor rules using edited data[J].IEEE Transactions on Systems,Man and Cybernetics,1972,2(3):408-421.
10DEVIJVER P,KITTLER J.Pattern recognition:A statistical approach[M].Englewood Cliffs:Prentice Hall,1982.

共引文献33

1张小明,刘建敏,乔新勇,许世永.时间序列关联维数快速算法及实现[J].装甲兵工程学院学报,2007,21(6):58-61. 被引量：8
2冷明伟,陈晓云,谭国律.基于小样本集弱学习规则的KNN分类算法[J].计算机应用研究,2011,28(3):915-917. 被引量：8
3刘应东,牛惠民.基于k-最近邻图的小样本KNN分类算法[J].计算机工程,2011,37(9):198-200. 被引量：28
4高阳,田生伟,吐尔根.依不拉音.非平衡语料下改进的SVM-KNN算法[J].新疆大学学报（自然科学版）,2012,29(1):100-103. 被引量：1
5刘应东,孙秉珍.基于元胞自动机的小样本集分类算法[J].计算机工程,2012,38(7):155-157. 被引量：2
6胡元,石冰.基于区域划分的kNN文本快速分类算法研究[J].计算机科学,2012,39(10):182-186. 被引量：23
7奉国和,吴敬学.KNN分类算法改进研究进展[J].图书情报工作,2012,56(21):97-100. 被引量：30
8李竹林,雷岗.一种改进的Sutherland-Cohen裁剪算法[J].计算机工程与应用,2012,48(34):175-178. 被引量：5
9李娟,王宇平.基于维样本近邻区间的分类算法研究[J].华中科技大学学报（自然科学版）,2012,40(12):39-43. 被引量：1
10张凤贤.基于金融时间序列的股票价格预测方法[J].计算机光盘软件与应用,2012,15(22):38-39.

同被引文献80

1彭社欣,廖松涛.寄生虫虫卵图像计算机自动识别技术研究[J].晓庄学院学报（医学版）,2005,2(2):11-15. 被引量：12
2孔祥维,陈素贤.显微镜下蠕虫卵微机检测与识别系统的研制[J].中国寄生虫学与寄生虫病杂志,1995,13(2):150-151. 被引量：6
3韩慧,王路,温明,王文渊.不均衡数据集学习中基于初分类的过抽样算法[J].计算机应用,2006,26(8):1894-1897. 被引量：12
4张立东,毕笃彦.基于改进直方图映射和均值移位目标跟踪算法[J].计算机工程,2006,32(20):25-27. 被引量：3
5周晓农,林矫矫,曹建平,黄兵,陈韶红,张仪,胡薇.中国寄生虫种质资源平台建设的理论与实践[J].中国寄生虫学与寄生虫病杂志,2006,24(B12):1-10. 被引量：11
6吴巧玲.城镇扩张遥感动态监测的方法研究[J].测绘技术装备,2007,9(1):13-16. 被引量：3
7罗泽举,宋丽红,伍小明,詹希美.基于新型特征提取的寄生虫卵图像识别研究[J].计算机应用,2007,27(6):1485-1487. 被引量：9
8Zhang H, Berg A C, Maire M. Discriminative nearest neighbor clas- sification for visual category recognition. In: CVPR 06, IEEE com- puter society, Los Alamitos, CA, 2006:2126-2136.
9Tan S. Neighbor weighted k-nearest neighbor for unbalanced text cor- pus. Expert Systems with Applications, 2005; 28 (4) : 667--671.
10Weiss G M. Mining with rarity : a unifying framework. ACM SIGKDD explorations Newsletter, 2004 ; 6 ( 1 ) : 7-19.

引证文献10

1景永霞,苟和平,冯百明,李勇.不均衡数据集中KNN分类器样本裁剪算法[J].科学技术与工程,2013,21(16):4720-4723. 被引量：3
2丁雪洁,解恺,刘维,刘纪元,江泽林.利用新特征空间的SAS图像目标分类算法[J].计算机工程与应用,2013,49(21):138-140. 被引量：1
3王秀华,秦振吉.基于层次K-均值聚类的支持向量机模型[J].计算机应用与软件,2014,31(5):172-176. 被引量：1
4沈海默,艾琳,蔡玉春,卢艳,陈韶红.11种主要人体寄生虫虫卵的数字化描述及自动识别研究[J].中国寄生虫学与寄生虫病杂志,2016,34(5):424-429. 被引量：6
5王晓.基于采样压缩的加速K-NN分类方法[J].山西大同大学学报（自然科学版）,2017,33(4):17-20.
6唐倩,李梁,殷志恒.基于模糊启发式的KNN算法在人才需求信息分类中的应用[J].重庆理工大学学报（自然科学）,2018,32(3):194-200. 被引量：1
7安劲伟,钟期洪,王波,沈建军.基于聚类分析的室内质量评估方法研究[J].电信科学,2014,30(S1):57-61.
8王凡,刘丽,徐航,李静霞,王冰洁.基于自适应阈值滤波和S-Method的穿墙人体动作识别[J].电子器件,2021,44(5):1265-1273. 被引量：2
9王森,龚俊,杨晓梅.结合S变换和mRMR特征选择的电缆早期故障识别方法[J].计算机应用与软件,2022,39(1):206-211. 被引量：3
10姚磊.基于航空影像的建筑信息遥感提取[J].资源导刊,2023(2):42-44.

二级引证文献17

1李湘东,曹环,黄莉.基于分布偏斜训练集的特征选择方法研究[J].情报理论与实践,2015,38(4):139-144. 被引量：2
2武钧,霍月英.快速公交乘客满意度影响因素的定量研究[J].计算机工程与应用,2015,51(21):219-224. 被引量：4
3薛又岷,严玉萍,古嘉玲,包晓蓉.两种基于K近邻特征选择算法的对比分析[J].电子设计工程,2016,24(1):19-22. 被引量：7
4张娟胜,张弟强,王暐,魏晓光,王增国.疟原虫薄血膜图像自动检测技术研究进展[J].中国血吸虫病防治杂志,2017,29(3):388-392. 被引量：1
5朱丹萍,陈建芸,陈清兰,李林海,孙朝晖.KRJ自动粪便检验仪在消化道出血及寄生虫感染检测中的应用[J].检验医学与临床,2018,15(20):3114-3116. 被引量：9
6包志强,赵媛媛,胡啸天,赵研.一种对孤立点不敏感的新的K-Means聚类算法[J].现代电子技术,2020,43(5):109-112. 被引量：5
7王荣秀,王波.一种基于数据空间自适应规则网格划分的Skd-tree最近邻算法[J].重庆理工大学学报（自然科学）,2021,35(6):147-155. 被引量：2
8吴健,陈嘉,颜杰,张建明,邓卓晖,裴福全,林荣幸.血涂片自动图像扫描及识别系统在疟疾检测中的应用[J].口岸卫生控制,2021,26(4):53-56. 被引量：2
9郭孟报,崔广新,姜楠.浅谈电线电缆常见的故障原因与预防措施[J].城市建设理论研究（电子版）,2023(2):71-73. 被引量：2
10陈华良,张家祺,王笑笑,张轩,余可根,阮卫.FA180全自动粪便寄生虫(卵)鉴定系统的应用研究[J].中国卫生检验杂志,2023,33(16):1934-1936. 被引量：1

1刘青宝,戴超凡,邓苏,张维明.基于网格的数据流聚类算法[J].计算机科学,2007,34(3):159-161. 被引量：10
2林建兵,陈智雄,姚国祥.一种基于域密度的蚁群系统(AS)改进算法及结果解析[J].武汉大学学报（工学版）,2016,49(4):627-634. 被引量：3
3艾英山,张德贤.基于聚类和密度的KNN分类器训练样本约减方法[J].计算机与数字工程,2009,37(5):10-12.
4钟将,刘荣辉.一种改进的KNN文本分类[J].计算机工程与应用,2012,48(2):142-144. 被引量：27
5黎俊锋,朱锋峰.基于样本密度的FCM改进算法[J].科学技术与工程,2007,7(4):636-638. 被引量：12
6王晓东,秦超英.基于径向基神经网络的目标识别研究[J].西南民族大学学报（自然科学版）,2006,32(1):195-198.
7杜红乐,张燕.密度不均衡数据分类算法[J].西华大学学报（自然科学版）,2015,34(5):16-23. 被引量：8
8刘凌,郭剑,韩崇.面向不平衡数据的模糊支持向量机[J].计算机技术与发展,2015,25(11):38-43. 被引量：2
9安金龙,王正欧,马振平.基于密度法的模糊支持向量机[J].天津大学学报（自然科学与工程技术版）,2004,37(6):544-548. 被引量：17
10付长龙,吕彦波,姚全珠,杜旭辉.基于样本密度的SVM及其在入侵检测中的应用[J].计算机应用,2007,27(4):838-840. 被引量：1

计算机应用与软件

2011年第5期

浏览历史

内容加载中请稍等...

基于K-均值聚类的小样本集KNN分类算法被引量：10

参考文献7

二级参考文献20

共引文献33

同被引文献80

引证文献10

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

基于K-均值聚类的小样本集KNN分类算法 被引量：10

参考文献7

二级参考文献20

共引文献33

同被引文献80

引证文献10

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

基于K-均值聚类的小样本集KNN分类算法被引量：10