适用于大规模文本处理的动态密度聚类算法被引量：11

A Dynamic Density-Based Clustering Algorithm Appropriate to Large-Scale Text Processing

下载PDF

导出

摘要针对传统的基于密度的聚类算法对海量数据处理时,存在参数输入复杂及时间复杂度高的问题,给出新的密度定义方法,并在此基础上提出一种只需一个简单输入参数就能动态识别密度不均匀聚类簇的聚类算法,同时将其扩充为可以处理海量数据的两阶段动态密度聚类算法。在人造数据集、大规模数据集以及中英文文本语料数据集上的实验表明,所提出的算法具有输入参数简单和聚类效率高的特点,可以应用于海量文本数据的聚类处理。 Because of the high time complexity and complicated parameter setting in traditional density-based clustering algorithm, a new density definition is proposed, which just needs one parameter and can find clusters with different densities. The authors also expand the algorithm to a two-stage dynamic density-based clustering algorithm, which can process large-scale text corpus data. Experiments on synthetic dataset, large-scale dataset from UCI, English text corpus and Chinese text corpus show that TSDDBCA algorithm has the characteristic of easy parameter setting and high clustering efficiency, and can be applied to clustering process to large-scale text data.

作者李霞蒋盛益张倩生朱靖

机构地区广东外语外贸大学外国语学及应用语言学研究中心广东外语外贸大学思科信息学院

出处《北京大学学报（自然科学版）》 EI CAS CSCD 北大核心 2013年第1期133-139,共7页 Acta Scientiarum Naturalium Universitatis Pekinensis

基金国家自然科学基金(61070061) 国家社会科学基金(12BYY045) 教育部人文社会科学研究青年基金(11YJCZH086 12YJCZH281) 广东省高层次人才项目(粤教师函[2010]79号)资助

关键词文本挖掘聚类海量数据动态密度 text mining clustering large-scale data dynamic density

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献14

1Yang Yiming. A comparison study on feature selection in text categorization//Proceedings of the Fourteenth International Conference on Machine Learning (ICML 1997). Nashville, Tennessee, 1997:412-420.
2Salton G, Wong A, Yang C S. A vector space model for automatic indexing. Communications of ACM, 1975, 18(11): 613-620.
3Lewis D D. Reuters-21578 text categorization collection data set [DB/OL]. (1997)[2012-05-30]. http://archive.ics.uci.edu/ml/datasets/Reuters21578 + Text + Categorization + collection.
4Ertoz L, Michael S, Kumar V. Finding clusters of different sizes, shapes, and densities in noisy, highdimensional data // Proceedings of the third SIAM International Conference on Data Mining (SIAM 2003). San Francisco, CA, 2003:47-58.
5Guha S,Rastogi R, Shim K. ROCK: a robust clustering algorithm for categorical attributes // Proceedings of the 15th ICDE. Sydney, 1999:512-521.
6Jiang Shengyi, Xu Yuming. An efficient clustering algorithm // Procedings of 2004 International Con- ference on Machine Learning and Cybernetics. Shanghai, 2004:1513-1518.
7Ester M, Kriegel H P, Sander J, et al. A density-based algorithm for discovering clusters in large spatial databases with noise // Proceedings of the 2nd International Conference on Knowledge Discovering in Databases and Data Mining (KDD-96). Massa- chusetts: AAAI Press, 1996:226-232.
8He Zengyou, Xu Xiaofei, Deng Shengchun. Squeezer an efficient algorithm for clustering categorical data Journal of Computer Science and Technology, 2002 17(5): 611-624.
9Karypis G, Han E, Kumar V. CHAMELEON: a hierarchical clustering algorithm using dynamic modeling. IEEE Computer, 1999, 32(8): 68-75.
10搜狐研发中心.搜狗文本分类语料库[DB/OL].(2006)[2012-05-30].http://www.sogou.com/labs/dl/C.html.

二级参考文献17

1Sudipto Guha, Rajeev Rastogi, Kyuseok Shim. ROCK: A robust clustering algorithm for categorical attributes. In Proc. 1999 Int. Conf. Data Engineering, Sydney, Australia, Mar., 1999, pp.512-521.
2Alexandros Nanopoulos, Yannis Theodoridis, Yannis Manolopoulos. C2P: Clustering based on closest pairs. In Proc. 27th Int. Conf. Very Large Database, Rome, Italy, September, 2001, pp.331-340.
3Ester M, Kriegel H P, Sander J, Xu X. A density-based algorithm for discovering clusters in large spatial databases.In Proc. 1996 Int. Conf. Knowledge Discovery and Data Mining (KDD'96), Portland, Oregon, USA, Aug., 1996,pp.226-231.
4Zhang T, Ramakrishnan R, Livny M. BIRTH: An efficient data clustering method for very large databases. In Proc.the ACM-SIGMOD Int. Conf. Management of Data, Montreal, Quebec, Canada, June, 1996, pp.103-114.
5Sudipto Guha, Rajeev Rastogi, Kyuseok Shim. CURE: A clustering algorithm for large databases. In Proc. the ACM SIGMOD Int. Conf. Management of Data, Seattle, Washington, USA, June, 1998, pp.73-84.
6Karypis G, Han E-H, Kumar V. CHAMELEON: A hierarchical clustering algorithm using dynamic modeling. IEEE Computer, 1999, 32(8): 68-75.
7Sheikholeslami G, chatterjee S, Zhang A. WaveCluster: A multi-resolution clustering approach for very large spatial databases. In Proc. 1998 Int. Conf. Very Large Databases, New York, August, 1998, pp.428-439.
8Agrawal R, Gehrke J, Gunopulos D, Raghavan P. Automatic subspace clustering of high dimensional data for data mining applications. In Proc. the 1998 ACM SIGMOD Int. Conf. Management of Data, Seattle, Washington,USA, June, 1998, pp.94-105.
9Jiang M FI Tseng S S, Su C M. Two-phase clustering process for outliers detection. Pattern Recognition Letters,2001, 22(6/7): 691-700.
10Venkatesh Ganti, Johannes Gehrke, Raghu Ramakrishnan. CACTUS-clustering categorical data using summaries.In Proc. 1999 Int. Conf. Knowledge Discovery and Data Mining, August, 1999, pp.73-83.

共引文献31

1卓琳,赵厚宇,詹思延.异常检测方法及其应用综述[J].计算机应用研究,2020,37(S01):9-15. 被引量：30
2蒋盛益,李庆华.一种基于引力的聚类方法[J].计算机应用,2005,25(2):286-288. 被引量：9
3蒋盛益,李庆华.聚类分析中的差异性度量方法研究[J].计算机工程与应用,2005,41(11):146-149. 被引量：4
4蒋盛益,李庆华,李新.数据流挖掘算法研究综述[J].计算机工程与设计,2005,26(5):1130-1132. 被引量：21
5蒋盛益,李庆华,王卉,孟中楼.一种基于聚类的有指导的入侵检测方法[J].小型微型计算机系统,2005,26(6):1042-1045. 被引量：6
6蒋盛益,李庆华,赵延喜.一种两阶段异常检测方法[J].小型微型计算机系统,2005,26(7):1237-1240. 被引量：7
7蒋盛益,李庆华.基于引力的入侵检测方法[J].系统仿真学报,2005,17(9):2202-2206. 被引量：6
8郝凯,朱敏.有源雷达组网目标定位中去除虚假目标的改进方法[J].四川大学学报（自然科学版）,2006,43(2):315-319. 被引量：4
9蒋盛益,阮幼林,李庆华.面向混合属性的高效聚类算法研究[J].计算机工程,2006,32(12):47-49.
10蒋盛益.基于投票机制的融合聚类算法[J].小型微型计算机系统,2007,28(2):306-309. 被引量：7

同被引文献131

1褚娜,马利庄,王彦.聚类趋势问题的研究综述[J].计算机应用研究,2009,26(3):801-803. 被引量：6
2单丽莉,刘秉权,孙承杰.文本分类中特征选择方法的比较与改进[J].哈尔滨工业大学学报,2011,43(S1):319-324. 被引量：25
3韩蕾,孙徐湛,吴志川,陈立军.MapReduce上基于抽样的数据划分最优化研究[J].计算机研究与发展,2013,50(S2):77-84. 被引量：14
4倪巍伟,孙志挥,陆介平.k-LDCHD——高维空间k邻域局部密度聚类算法[J].计算机研究与发展,2005,42(5):784-791. 被引量：18
5武方方,赵银亮,蒋泽飞.基于密度聚类的支持向量机分类算法[J].西安交通大学学报,2005,39(12):1319-1322. 被引量：11
6王丽娟,关守义,王晓龙,王熙照.基于属性权重的Fuzzy C Mean算法[J].计算机学报,2006,29(10):1797-1803. 被引量：47
7张海龙,王莲芝.自动文本分类特征选择方法研究[J].计算机工程与设计,2006,27(20):3840-3841. 被引量：45
8蒋盛益,李庆华.一种增强的k-means聚类算法[J].计算机工程与科学,2006,28(11):56-59. 被引量：15
9蒋盛益.基于投票机制的融合聚类算法[J].小型微型计算机系统,2007,28(2):306-309. 被引量：7
10彭京,杨冬青,唐世渭,付艳,蒋汉奎.一种基于语义内积空间模型的文本聚类算法[J].计算机学报,2007,30(8):1354-1363. 被引量：45

引证文献11

1符保龙,张爱科.基于均值密度中心估计的k-means聚类文本挖掘方法[J].重庆邮电大学学报（自然科学版）,2014,26(1):111-116. 被引量：14
2蒋盛益,王连喜.聚类分析研究的挑战性问题[J].广东工业大学学报,2014,31(3):32-38. 被引量：6
3周成福.一种基于互信息的文本聚类算法研究[J].电子技术与软件工程,2015(9):177-177.
4王李彧,孙斌,秦童.改进的DBSCAN聚类算法在云任务调度中的应用[J].北京邮电大学学报,2017,40(S1):68-71. 被引量：6
5姜芳,李国和,岳翔.基于语义的文档特征提取研究方法[J].计算机科学,2016,43(2):254-258. 被引量：10
6叶李.传感器网络时间序列数据的事件分类研究[J].重庆邮电大学学报（自然科学版）,2016,28(3):421-425. 被引量：1
7王海艳,曹攀.一种大规模Web文本的分类方法[J].南京邮电大学学报（自然科学版）,2016,36(4):60-67.
8戴娇,张明新,郑金龙,蒋礼青,尚赵伟.基于密度峰值的快速聚类算法优化[J].计算机工程与设计,2016,37(11):2979-2984. 被引量：8
9王飞,王国胤,李智星,彭思源.一种基于网格的密度峰值聚类算法[J].小型微型计算机系统,2017,38(5):1034-1038. 被引量：23
10刘毅洲,黄微.融合关联事件溯源的多层级网络舆情风险识别模型构建[J].情报学报,2025,44(11):1470-1482.

二级引证文献69

1李丹霞.基于位置的社交网络潜在好友推荐系统研究[J].计算机产品与流通,2020,9(6):98-98. 被引量：2
2张新娟.一种基于改进粒子群算法的图像分类方法研究[J].自动化与仪器仪表,2016(7):163-164. 被引量：1
3李文慧,张英俊,潘理虎.多因素影响特征选择的短文本分类方法[J].计算机系统应用,2018,27(12):216-221. 被引量：3
4伏家云,靖常峰,杜明义.空间密度聚类模式挖掘方法DBSCAN研究回顾与进展[J].测绘科学,2018,43(12):50-57. 被引量：8
5朱俚治.一种基于计算机病毒行为权值的检测算法[J].信息技术与标准化,2018(12):69-72.
6申玫,徐宁,周明顺,赵晓玲,李先强.数据挖掘技术在中高职课程衔接中的应用[J].现代教育科学（高教研究）,2014(4):70-73. 被引量：2
7孙菲,张健沛,董野,任福栋,于涛,郭春平.基于标准偏移量的学生成绩K-means聚类分析算法研究[J].齐齐哈尔大学学报（自然科学版）,2015,31(2):57-64. 被引量：7
8陈佳,石林.数据挖掘中模糊C聚类算法的寻优能力优化[J].科技通报,2015,31(9):208-211. 被引量：2
9王连喜.知识发现系统的相关性排序与主题聚类功能问题探析[J].图书馆工作与研究,2015(12):56-60. 被引量：4
10贺科达,朱铮涛,程昱.基于改进TF-IDF算法的文本分类方法研究[J].广东工业大学学报,2016,33(5):49-53. 被引量：25

1清华紫光专业底扫FS7200＋[J].大众摄影（上半月）,2006,0(2):100-100.
2孙红娜.触手可及的完美[J].中国计算机用户,2002(8):57-57.
3戴晓峰,李曼雪.“扫描办公”新概念——办公扫描仪产品选购指南[J].中国经济和信息化,1999,0(30):43-45.
4胡维华,鲍乾,李柯.结合汉明距离及语义的文本相似度量方法研究[J].杭州电子科技大学学报（自然科学版）,2016,36(3):36-41. 被引量：7
5燕继坤,郑辉,席建民.相似文本的快速搜索[J].计算机工程,2004,30(15):22-23. 被引量：1
6陈曦.扫数无限色彩描绘缤纷世界——12款底片扫描仪试用评价（下）[J].现代声像档案,2006,8(2):32-33.
7单世民,张宪超,于智航.一种基于局部信息的聚类密度度量[J].大连海事大学学报,2008,34(3):102-106. 被引量：1
8郭庆琳,李艳梅,唐琦.基于VSM的文本相似度计算的研究[J].计算机应用研究,2008,25(11):3256-3258. 被引量：101
9储林波,王伟,马玉林.基于方向匹配的装配路径规划算法[J].南京航空航天大学学报,1999,31(6):650-654. 被引量：3
10严丽丽,陈鹤年.一种基于支持向量机和遗传算法的启发式多层文本分类算法[J].软件导刊,2010,9(10):52-53.

北京大学学报（自然科学版）

2013年第1期

浏览历史

内容加载中请稍等...

适用于大规模文本处理的动态密度聚类算法被引量：11

参考文献14

二级参考文献17

共引文献31

同被引文献131

引证文献11

二级引证文献69

相关作者

相关机构

相关主题

浏览历史

适用于大规模文本处理的动态密度聚类算法 被引量：11

参考文献14

二级参考文献17

共引文献31

同被引文献131

引证文献11

二级引证文献69

相关作者

相关机构

相关主题

浏览历史

适用于大规模文本处理的动态密度聚类算法被引量：11