基于统计学习的自适应文本聚类被引量：2

Research of Adaptive Text Clustering Based on the Statistics of the Datasets

下载PDF

导出

摘要针对文本数据的高维性和稀疏性从而使传统的聚类算法在文本聚类应用中的表现不能让人满意的问题,通过计算文档相似度矩阵,在聚类过程中动态地统计学习已划分和未划分文本集合的相关信息,探测剩余未划分的数据集中的与已划分类簇覆盖度较小的最大密集区域,逐步生成预定数目的初始聚类中心集合,最后将剩余文档划分到最相似的初始聚类中心集合完成聚类,从而有效地减小了划分聚类算法对初始聚类中心的敏感性。算法中的一些阈值参数均通过在聚类过程中动态地对数据集进行统计学习得到,避免了多数聚类算法通过经验或实验设定阈值参数的盲目性,在不同数据集上的鲁棒性更强。在几个中英文数据集上的实验结果表明本文算法在不同数据集上表现良好,优于CLUTO聚类器中的聚类算法。 Due to the high dimensionality and sparseness of text data,the performance of traditional clustering algorithm may not be satisfied in clustering text data.The largest dense region having a small coverage rate with the partitioned clusters was selected out as initial cluster centroid set gradually by learning the similarity information between the partitioned and remainning sets.After generating the predetermined number of initial cluster centroid set,the remaining documents were assigned to their nearest clusters.By this way,the sensitivity of the clustering algorithm to the initial cluster centroid was reduced.Some threshold values used in this algorithm were calculated by the automatic statistic of the dataset dynamically in the process of clustering to avoid the blindness of the threshold parameters by experience or experiment in most clustering algorithms.The experiments on several Chinese and English datasets showed that this algorithm performes better than clustering algorithms in CLUTO.

作者王纵虎刘志镜陈东辉

机构地区西安电子科技大学计算机学院

出处《四川大学学报（工程科学版）》 EI CAS CSCD 北大核心 2012年第1期106-111,117,共7页 Journal of Sichuan University (Engineering Science Edition)

基金国家科技支撑计划资助项目(2007BAH08802) 陕西省13115科技创新工程重大专项资助项目(2007ZDKG-57)

关键词聚类向量空间模型相似度划分阈值 clustering VSM similarity partition threshold

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献17

1胡建军,唐常杰,李川,彭京,元昌安,陈安龙,蒋永光.基于最近邻优先的高效聚类算法[J].四川大学学报（工程科学版）,2004,36(6):93-99. 被引量：24
2Han J W,Kamber M.Data mining concepts and techniques[M].北京:机械工业出版社,2008:261-284.
3Pena J M, Lozano J A, Larranaga P. An empirical comparison of four initialization methods for the K-means algorithm [J]. Pattern Recognition Letters, 1999,20 (10) : 1027-1040.
4Bradley P S, Fayyad U M. Refining initial points for K-means clustering[ C]//Proceedings of the 15th International Con ference on Machine Learning. San Francisco, USA:Morgan Kaufmann, 1998:91-99.
5Steinbach M, Karypis G, Kumar V. A comparison of docu ment clustering techniques [ C ]//Proceedings of KDD 2000 Workshop on Text Mining. 2000 : 1-20.
6Zhao Ying, Karypis G. Hierarchical clustering algorithms for document datasets [ C ]//Proceedings of Data Mining and Knowledge Discovery. 2005,10 (2) : 141-168.
7Higgs R E, Bemis K G, Watson I A, et al. Experimental de signs for selecting molecules fromlarge chemical databases [ J]. Journal of Chemical Information and Computer Sci ences, 1997,37 (5) : 861-870.
8Snarey M, Terrett N K, Willet P, et al. Comparison of algo rithms for dissimilarity-based compound selection [ J ]. Jour nal of Molecular Graphics & Modelling, 1997,15 (6) : 372 -385.
9张健沛,杨悦,杨静,张泽宝.基于最优划分的K-Means初始聚类中心选取算法[J].系统仿真学报,2009,21(9):2586-2590. 被引量：62
10秦钰,荆继武,向继,张爱华.基于优化初始类中心点的K-means改进算法[J].中国科学院研究生院学报,2007,24(6):771-777. 被引量：10

二级参考文献54

1吴景岚,朱文兴.基于K均值的迭代局部搜索聚类算法[J].计算机工程与应用,2004,40(22):37-41. 被引量：8
2王汉芝,刘振全.一种新的确定K-均值算法初始聚类中心的方法[J].天津科技大学学报,2005,20(4):76-79. 被引量：9
3李永森,杨善林,马溪骏,胡笑旋,陈增明.空间聚类算法中的K值优化问题研究[J].系统仿真学报,2006,18(3):573-576. 被引量：39
4苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：394
5张文君,顾行发,陈良富,余涛,许华.基于均值-标准差的K均值初始聚类中心选取算法[J].遥感学报,2006,10(5):715-721. 被引量：60
6FAHIM A.M,SALEM A.M,TORKEY F.A,RAMADAN M.A.An efficient enhanced k-means clustering algorithm[J].Journal of Zhejiang University-Science A(Applied Physics & Engineering),2006,7(10):1626-1633. 被引量：30
7钱线,黄萱菁,吴立德.初始化K-means的谱方法[J].自动化学报,2007,33(4):342-346. 被引量：32
8牛琨,张舒博,陈俊亮.融合网格密度的聚类中心初始化方案[J].北京邮电大学学报,2007,30(2):6-10. 被引量：16
9袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：157
10Han J, Kamber M. Data Mining Concepts and Techniques. Orlando, USA: Morgan Kaufmann Publishers, 2001

共引文献287

1徐鹏飞,张华,贾剑平.一种新的水下焊缝图像信号提取方法[J].上海交通大学学报,2008,42(S1):97-99. 被引量：2
2高飞,鱼江,任芳,黄保瑞,次旺多吉.四维文档向量模型的k-means新闻文本聚类算法[J].西藏大学学报（社会科学版）,2013,28(4):109-112.
3王海,高岭,陈东棋,任杰.一种基于用户行为的嵌入式功耗优化方法[J].系统仿真学报,2015,27(2):320-326.
4陈兴蜀,吴小松,王文贤,王海舟.基于特征关联度的K-means初始聚类中心优化算法[J].四川大学学报（工程科学版）,2015,47(1):13-19. 被引量：29
5魏大刚,唐常杰,段磊,钟义啸,朱军,蒋永光.基于最优投影和动态阈值的最近邻搜索算法[J].四川大学学报（自然科学版）,2006,43(4):777-782. 被引量：2
6吴青,翟建设,赵旭赟.基于层次聚类的分层可扩展性编码算法的优化[J].计算机应用与软件,2007,24(2):45-46. 被引量：4
7漆超,江嘉.基于数据挖掘技术的网站用户分析[J].昆明理工大学学报（理工版）,2007,32(2):48-51. 被引量：2
8何霁,滕奇志,罗代升,何小海.一种改进的ISODATA算法及在彩色荧光图像中的应用[J].四川大学学报（自然科学版）,2007,44(3):563-568. 被引量：18
9胡建军.浅谈数据仓库与数据挖掘的本科教学[J].广西科学院学报,2007,23(3):209-210. 被引量：9
10禹亮,李仁发,李仲生,肖娜.基于近邻可视的图像浏览方式研究[J].计算机应用研究,2007,24(10):200-202.

同被引文献18

1朱颢东,钟勇,赵向辉.一种优化初始中心点的K-Means文本聚类算法[J].郑州大学学报（理学版）,2009,41(2):29-32. 被引量：13
2刘涛,吴功宜,陈正.一种高效的用于文本聚类的无监督特征选择算法[J].计算机研究与发展,2005,42(3):381-386. 被引量：37
3熊开盛,董兆鑫.档案查询系统的设计与实现[J].武汉科技学院学报,2006,19(12):54-57. 被引量：6
4钱线,黄萱菁,吴立德.初始化K-means的谱方法[J].自动化学报,2007,33(4):342-346. 被引量：32
5孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1108
6张健沛,杨悦,杨静,张泽宝.基于最优划分的K-Means初始聚类中心选取算法[J].系统仿真学报,2009,21(9):2586-2590. 被引量：62
7汪中,刘贵全,陈恩红.一种优化初始中心点的K-means算法[J].模式识别与人工智能,2009,22(2):299-304. 被引量：145
8张霞,王素贞,尹怡欣,赵海龙.基于模糊粒度计算的K-means文本聚类算法研究[J].计算机科学,2010,37(2):209-211. 被引量：12
9张文明,吴江,袁小蛟.基于密度和最近邻的K-means文本聚类算法[J].计算机应用,2010,30(7):1933-1935. 被引量：29
10朱涛.浅谈B/S模式下的学生信息管理系统的研究[J].卫生职业教育,2010,28(20):38-39. 被引量：1

引证文献2

1陈兴蜀,吴小松,王文贤,王海舟.基于特征关联度的K-means初始聚类中心优化算法[J].四川大学学报（工程科学版）,2015,47(1):13-19. 被引量：29
2夏宇,刘天华.基于聚类分析的教职工档案管理[J].沈阳师范大学学报（自然科学版）,2016,34(2):196-200. 被引量：2

二级引证文献31

1钱涛,姬东鸿,戴文华.一个基于超图的词义归纳模型[J].四川大学学报（工程科学版）,2016,48(1):152-157. 被引量：5
2贺呈磊,唐磊,刘曦.一种拟人聚类算法在PHM聚类分析中的应用[J].微电子学与计算机,2016,33(9):32-35. 被引量：2
3文静,曹妍,牟向伟.双重遗传算法在文本聚类中的应用[J].计算机工程与设计,2016,37(9):2435-2439.
4赵春晖,李雪源,崔颖.混合编码方式的图像聚类算法[J].通信学报,2017,38(2):1-9. 被引量：3
5黄森旺,孔纪名,崔云,王仁超,邱洪志.“4·25”尼泊尔M_(s)8.1地震西藏重灾区次生地质灾害空间分布规律与危险性分区[J].自然灾害学报,2017,26(1):80-88. 被引量：13
6罗元,李慧敏,张毅.基于兴趣点定位的局部方向模式人脸识别方法[J].计算机应用,2017,37(8):2248-2252. 被引量：1
7李梅莲,郭超峰.基于闻香识源的改进人工蜂群聚类算法[J].河南大学学报（自然科学版）,2017,47(5):552-559.
8李梅莲.基于密度分布的K-Means初始聚类中心选择算法[J].许昌学院学报,2017,36(2):20-24. 被引量：2
9洪月华.基于MPI蜂群K均值聚类算法并行化计算[J].计算机工程与设计,2017,38(12):3339-3343. 被引量：5
10文静,曹妍,张琳,牟向伟.基于双重遗传的聚类分析算法研究[J].计算机工程与科学,2017,39(12):2320-2325. 被引量：8

1柴世红,康正军.基于模糊聚类的网站用户分类[J].甘肃科技,2008,24(3):20-22. 被引量：5
2秦福高.一种基于遗传算法改进的蚁群聚类算法[J].福建电脑,2014,30(6):96-98.
3顾榕,王小平,曹立明.一种基于潜在语义分析的查询扩展算法[J].计算机工程与应用,2004,40(18):23-25. 被引量：8
4赵立江.聚类分析在个性化学习中的研究与应用[J].福建电脑,2006(12):13-13. 被引量：2
5战玉彩,刘希玉.基于层次聚类的分类挖掘[J].网络安全技术与应用,2013(1):54-55. 被引量：1
6徐静,蔡琼,喻俊杰.基于模糊聚类的Web日志挖掘的应用研究[J].电脑知识与技术,2006(7):53-54. 被引量：1
7王晓燕,王海洋,洪晓光.基于文档划分的XML信息检索研究[J].计算机科学,2004,31(B09):102-104.
8万小军,杨建武,陈晓鸥.文档聚类中k-means算法的一种改进算法[J].计算机工程,2003,29(2):102-103. 被引量：29
9王冲,雷秀娟.新的小生境萤火虫划分聚类算法[J].计算机工程,2014,40(5):173-177. 被引量：7
10孟娜娜,徐振明.一种基于划分的无监督优化算法[J].计算机工程,2011,37(S1):168-170. 被引量：1

四川大学学报（工程科学版）

2012年第1期

浏览历史

内容加载中请稍等...

基于统计学习的自适应文本聚类被引量：2

参考文献17

二级参考文献54

共引文献287

同被引文献18

引证文献2

二级引证文献31

相关作者

相关机构

相关主题

浏览历史

基于统计学习的自适应文本聚类 被引量：2

参考文献17

二级参考文献54

共引文献287

同被引文献18

引证文献2

二级引证文献31

相关作者

相关机构

相关主题

浏览历史

基于统计学习的自适应文本聚类被引量：2