快速混合Web文档聚类被引量：3

Fast hybrid clustering for Web documents

下载PDF

导出

摘要提出了一种使用后缀树聚类算法优化K-means文档聚类初始值的快速混合聚类方法STK-means。该方法首先构建文档集的后缀树模型,使用后缀树聚类算法识别初始聚类、提取K-means聚类算法初始值中心值。然后,把后缀树模型的节点映射到M维向量空间模型中的特征项,利用TF-IDF方案计算基于短语的文档向量特征值。最后,使用K-means算法产生聚类结果。实验结果表明该方法优于传统K-means聚类算法和后缀树聚类算法,并具备了这些算法聚类速度快的优点。 A fast hybrid clustering algorithm for Web documents clustering is proposed which optimizes the initial center val- ues of K-means algorithm through STC algorithm.Firstly,the initial center values are extracted after the Web document set is clustered by STC algorithm.Secondly,by mapping the each internal node of suffix tree into M-dimensional VSM,each fea- ture term weights is computed using TF-IDF extended with phrases.Finally, the final result is generated by K-means algo- rithm.The evaluation experiments indicate that the new hybrid algorithm is more effective on clustering documents than ordi- nary K-means and STC algorithm.Moreover,it is as fast as K-means and STC algorithm.

作者杨瑞龙朱庆生谢洪涛

机构地区重庆大学计算机学院后勤工程学院

出处《计算机工程与应用》 CSCD 北大核心 2010年第22期12-15,共4页 Computer Engineering and Applications

基金国家科技支撑计划No.2007BAH08B04 重庆市科技支撑计划No.2008AC20084~~

关键词聚类算法 K-MEANS算法后缀树 WEB文档聚类基于短语的相似度 clustering algorithms K-means algorithm suffix tree Web document clustering phrase-based similarity

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献16

1Manning C D,Raghavan P, Schiitze H.An introduction to information retrieval[M].Cambridge, England: Cambridge University Press, 2009 : 349-400.
2刘远超,王晓龙,刘秉权.一种改进的k-means文档聚类初值选择算法[J].高技术通讯,2006,16(1):11-15. 被引量：23
3汪中,刘贵全,陈恩红.一种优化初始中心点的K-means算法[J].模式识别与人工智能,2009,22(2):299-304. 被引量：145
4吴文丽,刘玉树,赵基海.一种新的混合聚类算法[J].系统仿真学报,2007,19(1):16-18. 被引量：18
5Huang J Z, Ng M K, Rong H, et al.Automated variable weighting in K-means type clustering[J].IEEE Transactions on Pattem Analysis and Machine Intelligence,2005,27(5):657-668.
6Chim H, Deng Xiao-tie.Efficient phrase-based document similarity for clustering[J].IEEE Transactions on Knowledge and Data Engineering,2008,20(9) : 1217-1229.
7Zamir O, Etzioni O, Madani O, et al.Fast and intuitive clustering of Web documents[C]//Proceedings of the 3rd International Conference on Knowledge Discovery and Data Mining, 1997: 287-290.
8Zamir O,Etzioni O.Web document clustering:A feasibility demonstration[C]//Proceedings of the 21st International ACM SIGIR Conference on Research and Development in Information Retrieval, 1998 : 46-54.
9Ukkonen E.On-line construction of suffix trees[J].Algorithmica, 1995,14(3) :249-260.
10Wang Jian-hua,Li Rui-xu.A new cluster merging algorithm of suffix tree clustering[J].Intelligent Information Processing III, 2007: 197-203.

二级参考文献35

1杨燕,靳蕃,Mohamed Kamel.一种基于蚁群算法的聚类组合方法[J].铁道学报,2004,26(4):64-69. 被引量：39
2李永森,杨善林,马溪骏,胡笑旋,陈增明.空间聚类算法中的K值优化问题研究[J].系统仿真学报,2006,18(3):573-576. 被引量：39
3钱线,黄萱菁,吴立德.初始化K-means的谱方法[J].自动化学报,2007,33(4):342-346. 被引量：32
4Hatzivassiloglou V, Klavans J L, Holcombe M L, et al.Simfinder: A flexible clustering tool for surmnarization. In: Proceedings of the NAACI, 2001 Workshop on Automatic Surrunarization, Pittsburgh, PA, 2001, 41-49 .
5Jain A K,Dubes R C. Algorithms for clustering data. Englewood Cliffs NJ, USA: Prentice Hall, 1988.
6Sneath P H, Sokal R R. Numerical Taxonomy. London, UK:Freeman. 1973.
7King B. Step-wise clustering procedures. Journal of the Amercian Statistical Association , 1967, 69(8) :86-101.
8Guha S, Rastogi R, Shim K. CURE: An efficient clustering algorithm for large databases. Information Systems, 2001, 26( 1 ) : 35-58.
9Guha S, Rastogi R, Shim K. ROCK: a robust clustering algorithm for categorical attributes. In : Proceedings of the 15th International Cotfference on Data Engineering. Sydney: IEEE Computer Society Press, 1999. 512-521.
10Karypis G, Han E H, Kumar V. Chameleon: A hierarchical clustering algorithm using dynamic modeling. IEEE Computer, 1999, 32(8) :68-75.

共引文献182

1王海,高岭,陈东棋,任杰.一种基于用户行为的嵌入式功耗优化方法[J].系统仿真学报,2015,27(2):320-326.
2陈兴蜀,吴小松,王文贤,王海舟.基于特征关联度的K-means初始聚类中心优化算法[J].四川大学学报（工程科学版）,2015,47(1):13-19. 被引量：29
3孟海涛,陈笑蓉.基于模糊相似度的科技文献软聚类算法[J].贵州大学学报（自然科学版）,2007,24(2):175-178. 被引量：9
4周涛,张艳宁,袁和金,陆惠玲,邓方安.粗糙核k-means聚类算法[J].系统仿真学报,2008,20(4):921-925. 被引量：15
5吉雍慧.数字图书馆中的检索结果聚类和关联推荐研究[J].现代图书情报技术,2008(2):69-75. 被引量：13
6刘茵,李弼程,郭映月.一种基于聚类算法的主旨句提取方法[J].情报学报,2008,27(1):49-55. 被引量：1
7李志华,王士同.一种基于量子机制的分类属性数据模糊聚类算法[J].系统仿真学报,2008,20(8):2119-2122. 被引量：6
8刘白,周永权.一种基于人工鱼群的混合聚类算法[J].计算机工程与应用,2008,44(18):136-138. 被引量：5
9刘勇,宁爱兵,许秋艳,马良.聚类分析的竞争决策算法[J].数学的实践与认识,2008,38(21):58-62.
10岑咏华,王晓蓉,吉雍慧.一种基于改进K-means的文档聚类算法的实现研究[J].现代图书情报技术,2008(12):73-79. 被引量：8

同被引文献25

1YANGJian-wu.A Chinese Web Page Clustering Algorithm Based on the Suffix Tree[J].Wuhan University Journal of Natural Sciences,2004,9(5):817-822. 被引量：4
2刘涛,吴功宜,陈正.一种高效的用于文本聚类的无监督特征选择算法[J].计算机研究与发展,2005,42(3):381-386. 被引量：37
3郭莉,张吉,谭建龙.基于后缀树模型的文本实时分类系统的研究和实现[J].中文信息学报,2005,19(5):16-23. 被引量：12
4张惟皎,刘春煌,李芳玉.聚类质量的评价方法[J].计算机工程,2005,31(20):10-12. 被引量：62
5刘远超,王晓龙,徐志明,关毅.文档聚类综述[J].中文信息学报,2006,20(3):55-62. 被引量：65
6史庆伟,赵政,朝柯.一种基于后缀树的中文网页层次聚类方法[J].辽宁工程技术大学学报（自然科学版）,2006,25(6):890-892. 被引量：11
7赵世奇,刘挺,李生.一种基于主题的文本聚类方法[J].中文信息学报,2007,21(2):58-62. 被引量：24
8MacQueen J. Some methods for classification and analysis of multivariate observations [ C ]. Proceedings of 5^th Berkeley Symposium on Mathematical Statistics and Probability. Berkeley:University of California Press, 1967:281 -297.
9Guha S, Rastogi R, Shim K. CURE: an efficient clustering algorithm for database. In : Haas LM, Tiwary A, eds. Pro of the ACM SIGMOD International Conference on Manage- ment of Data. Seattle: ACM Press, 1998 : 73 - 84.
10Jiawei Han, Micheline Kamber. Data Mining: Concept and Techniques. Beijing Higher Education Press, 2001.

引证文献3

1蒋程,张建武.利用广义后缀树的最大相似度优先聚类方法[J].中国科技信息,2013(3):89-91.
2邹志华,田生伟,禹龙,冯冠军.改进的维吾尔语Web文本后缀树聚类[J].中文信息学报,2013,27(2):118-126. 被引量：1
3欧阳浩,陈波,黄镇谨,王萌,王智文.基于K-means的最小生成树聚类算法[J].组合机床与自动化加工技术,2014(4):41-44. 被引量：3

二级引证文献4

1王贤明,谷琼,胡智文.基于R-Grams的文本聚类方法[J].计算机应用,2015,35(11):3130-3134. 被引量：1
2谢娟英,周颖.一种新聚类评价指标[J].陕西师范大学学报（自然科学版）,2015,43(6):1-8. 被引量：15
3刘荣凯,孙忠林.针对K-means初始聚类中心优化的PCA-TDKM算法[J].软件导刊,2018,17(9):85-87. 被引量：3
4陈靖飒,程开丰,吴怀岗.一种新型高效的无参数化聚类算法[J].小型微型计算机系统,2020,41(4):699-703. 被引量：3

1翟献民,田生伟,禹龙,冯冠军.面向维吾尔语文本的改进后缀树聚类[J].计算机应用,2012,32(4):1078-1081. 被引量：2
2冯冰洁,杨天奇.后缀树聚类算法在元搜索引擎中的应用[J].微计算机信息,2010,26(3):204-206. 被引量：5
3彭顺生,张四平,赵莉.一种基于压缩感知的快速混合分形编码算法研究[J].网络安全技术与应用,2014(7):81-82.
4张晓玲,沈兰荪,Lam Kin-Man.一种基于分形码和模型约束的图像放大算法[J].电子学报,2006,34(3):433-436. 被引量：11
5Wei Zhou,Zhemin Duan,Hongqi Hu.Fast motion estimation algorithm for H.264/AVC based on centered prediction[J].Journal of Systems Engineering and Electronics,2010,21(6):1103-1110. 被引量：1
6邹志华,田生伟,禹龙,冯冠军.改进的维吾尔语Web文本后缀树聚类[J].中文信息学报,2013,27(2):118-126. 被引量：1
7刘亚明,马力,舒惠.基于后缀树的文本聚类算法[J].西安邮电学院学报,2012,17(1):62-66. 被引量：4
8邓峰,陈家琪.STC算法的网络服务分类技术研究[J].信息技术,2013,37(9):13-17.
9戴高乐,吴贵芳,李艳.一种快速混合碰撞检测算法研究[J].通信技术,2010(5):221-223. 被引量：2
10杨瑞龙,朱庆生,谢洪涛,屈洪春.一种新的加权后缀树Web文档聚类方法[J].系统仿真学报,2011,23(3):474-479. 被引量：2

计算机工程与应用

2010年第22期

浏览历史

内容加载中请稍等...

快速混合Web文档聚类被引量：3

参考文献16

二级参考文献35

共引文献182

同被引文献25

引证文献3

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

快速混合Web文档聚类 被引量：3

参考文献16

二级参考文献35

共引文献182

同被引文献25

引证文献3

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

快速混合Web文档聚类被引量：3