一种改进的K-means数字资源聚类算法被引量：1

An Improved K-means Clustering Algorithm for Digital Resources

下载PDF

导出

摘要 K-means聚类算法在数据挖掘聚类分析方法中是一个基本的、使用最广泛的划分算法。为了对数字图书馆中大量的数字资源进行更加有效、快速的聚类,文中针对传统的K-means算法存在的问题,结合数字图书馆数字资源的特征,提出了一种改进的基于关键词特征向量的初始聚类中心选择算法,并在此基础上对传统的K-means聚类算法进行了改进,用于对数字资源进行聚类,并进行了算法的实验验证。通过对实验结果的分析证明,文中提出的算法降低了数字资源聚类的代价,提高了聚类的效率,从而验证了算法的可行性。 K-means clustering algorithm is a basic analysis method in data mining closeting analysis,which is also the most widely used partitioning algorithm.In this paper,in order to get more fast and effective clustering result from large number of digital resources in digital library,aiming at the problems of the traditional K-means algorithm,combining with the features of the digital resources,an improved selection algorithm based on the keyword feature vector for initial clustering center is proposed.On this basis,the traditional K-means clustering algorithm is improved for digital resources clustering and experiment verification.The analysis results show that the algorithm proposed reduces the digital resources clustering cost,improves the clustering efficiency,verifying the feasibility of the algorithm.

作者杨永涛李静

机构地区燕山大学信息化处燕山大学信息科学与工程学院

出处《计算机技术与发展》 2014年第6期107-109,113,共4页 Computer Technology and Development

基金河北省自然科学基金面上项目(F2013203324)

关键词 K-MEANS算法数字资源相似度初始聚类中心 K-means clustering algorithm digital resource similarity initial clustering center

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献13

1MacQueen J. Some methods for classification and analysis of multi-variate observations [ C ]//Proc of the 5th Berkeley symposium on mathematical statistics and probability. Berke- ley, USA : Univ of Calif Press, 1967:281-297.
2周爱武,于亚飞.K-Means聚类算法的研究[J].计算机技术与发展,2011,21(2):62-65. 被引量：137
3张靖,段富.优化初始聚类中心的改进k-means算法[J].计算机工程与设计,2013,34(5):1691-1694. 被引量：59
4Asgharbeygi N, Maleki A. Geodesic K-means clustering [ C ] //Proc of 19th international conference on pattern recogni- tion. Tampa, FL: IEEE,2008 : 1-4.
5Lanthier M, Maheshwari A, Sack J R. Approximating weighted shortest paths on polyhedral surfaces [ C ]//Proc of symposium on computational geometry. [ s. 1. ] : [ s. n. ], 1999:274-283.
6Mitchell J S B, Mount D M, Papadimitriou C H. The discrete geodeic problem [ J ]. SIAM Journal on Computing, 1987,16 (4) :647-668.
7黄韬,刘胜辉,谭艳娜.基于k-means聚类算法的研究[J].计算机技术与发展,2011,21(7):54-57. 被引量：88
8殷君伟,陈建明,薛百里,张健.一种基于排序划分的聚类初始化方法[J].微电子学与计算机,2013,30(6):80-83. 被引量：3
9Salton G, Wong A, Yang C S. A vector space model for auto- matic indexing[J]. Communications of ACM, 1975,18 ( 11 ) : 613-620.
10林春实,方燕,全吉成.汉语文献自动分词与标引技术发展浅析[J].情报学报,1997,16(S1):37-40. 被引量：8

二级参考文献56

1陆声链,林士敏.基于距离的孤立点检测研究[J].计算机工程与应用,2004,40(33):73-75. 被引量：44
2周钦强,孙炳达,王义.文本自动分类系统文本预处理方法的研究[J].计算机应用研究,2005,22(2):85-86. 被引量：15
3王玮,刘丹.汉语文献自动分词存在的问题及趋向[J].情报理论与实践,1994,17(6):28-30. 被引量：6
4顾益军,樊孝忠,王建华,汪涛,黄维金.中文停用词表的自动选取[J].北京理工大学学报,2005,25(4):337-340. 被引量：38
5罗杰,陈力,夏德麟,王凯.基于新的关键词提取方法的快速文本分类系统[J].计算机应用研究,2006,23(4):32-34. 被引量：17
6尹锋,林亚平.汉语自动分词技术的现状及发展趋势[J].软件世界,1996(12):80-84. 被引量：15
7FAHIM A.M,SALEM A.M,TORKEY F.A,RAMADAN M.A.An efficient enhanced k-means clustering algorithm[J].Journal of Zhejiang University-Science A(Applied Physics & Engineering),2006,7(10):1626-1633. 被引量：30
8李业丽,秦臻.一种改进的k-means算法[J].北京印刷学院学报,2007,15(2):63-65. 被引量：9
9熊文新,宋柔.信息检索用户查询语句的停用词过滤[J].计算机工程,2007,33(6):195-197. 被引量：16
10Mac Q J. Some methods for classification and analysis of mult- ivariate observations [ C ]//In: Proc. 5th Berkeley Symposium in Mathematics. Berkeley, USA : Univ of California, 1967.

共引文献370

1赵翠翠,尹春华.K-means和SOM在商品评论中的情感词聚类对比[J].北京信息科技大学学报（自然科学版）,2020,35(1):23-26. 被引量：6
2文庭孝,邱均平,侯经川.汉语自动分词研究展望[J].现代图书情报技术,2004(7):6-10. 被引量：20
3王占全,王申康,李红波,陈文华,董天阳,董金祥.基于离群算法组合曲面特征点提取的研究[J].计算机集成制造系统,2004,10(10):1273-1277. 被引量：1
4韩敏,孙燕楠,许士国.地理信息知识获取Rough-NN模型研究[J].信息与控制,2005,34(1):104-108. 被引量：4
5邱均平,文庭孝,周黎明.汉语自动分词与内容分析法研究[J].情报学报,2005,24(3):309-317. 被引量：11
6刘晓英.汉语自动分词研究的发展趋势[J].高校图书馆工作,2005,25(4):25-28. 被引量：4
7王美艳,赵伟.基于唐诗语料库“词”的提取及深入研究[J].长春工业大学学报,2005,26(3):217-220. 被引量：2
8文庭孝.汉语自动分词研究进展[J].图书与情报,2005(5):54-63. 被引量：20
9杨静,鞠艳丰,张健沛,宋尊锋.基于R-Tree的空间连接代价模型的改进[J].计算机工程,2006,32(11):109-110. 被引量：1
10柳刚,黄仁,黄苏园,陈良,程平.基于MapXtreme2004的WebGIS应用研究[J].重庆师范大学学报（自然科学版）,2006,23(2):34-37. 被引量：1

同被引文献3

1阎治宏.安全系统工程在煤矿安全管理中的应用探讨[J].内蒙古煤炭经济,2013(1):158-158. 被引量：4
2陈吉荣,乐嘉锦.基于Hadoop生态系统的大数据解决方案综述[J].计算机工程与科学,2013,35(10):25-35. 被引量：121
3赵华茗.分布式环境下的文本聚类研究与实现[J].现代图书情报技术,2015(1):82-88. 被引量：3

引证文献1

1彭杨.基于Hadoop的文本分析算法研究与实践[J].信息与电脑,2020,32(24):48-51.

1张永,薛芝茂.RBF神经网络在人脸识别中的应用[J].电脑编程技巧与维护,2009(14):95-96. 被引量：1
2邢永峰.基于SOM和PSO的云计算异构资源聚类MPI并行算法[J].计算机测量与控制,2014,22(8):2523-2525. 被引量：2
3王春龙,张敬旭.基于LDA的改进K-means算法在文本聚类中的应用[J].计算机应用,2014,34(1):249-254. 被引量：22
4蔡宇浩,梁永全,樊建聪,李璇,刘文华.加权局部方差优化初始簇中心的K-means算法[J].计算机科学与探索,2016,10(5):732-741. 被引量：13
5徐洪勋.论基于网格的信息集成[J].希望月报（上）,2007(6):21-21.
6董世龙,陈宁江,谭瑛,何子龙,朱莉蓉.面向云环境的集群资源模糊聚类划分算法的优化[J].计算机科学,2014,41(9):104-109. 被引量：2
7孙雅娟,林红.云计算环境下基于Chord环的资源发现模型设计[J].计算机测量与控制,2013,21(9):2573-2575. 被引量：2
8梁俊杰,刘琼妮,余敦辉.基于本体的Web资源个性化推荐算法[J].计算机应用,2014,34(11):3135-3139. 被引量：3
9翟东海,聂洪玉,崔静静,杜佳.基于自适应簇中心选择的文本聚类算法研究[J].成都信息工程学院学报,2013,28(6):617-622. 被引量：1
10王凤妮,曾凌静.基于粗糙集的教育资源检索结果聚类研究[J].福建电脑,2010,26(4):98-98. 被引量：1

计算机技术与发展

2014年第6期

浏览历史

内容加载中请稍等...

一种改进的K-means数字资源聚类算法被引量：1

参考文献13

二级参考文献56

共引文献370

同被引文献3

引证文献1

相关作者

相关机构

相关主题

浏览历史

一种改进的K-means数字资源聚类算法 被引量：1

参考文献13

二级参考文献56

共引文献370

同被引文献3

引证文献1

相关作者

相关机构

相关主题

浏览历史

一种改进的K-means数字资源聚类算法被引量：1