一种基于数据流的软子空间聚类算法被引量：31

Soft Subspace Clustering Algorithm for Streaming Data

下载PDF

导出

摘要针对高维数据的聚类研究表明,样本在不同数据簇往往与某些特定的数据特征子集相对应.因此,子空间聚类技术越来越受到关注.然而,现有的软子空间聚类算法都是基于批处理技术的聚类算法,不能很好地应用于高维数据流或大规模数据的聚类研究中.为此,利用模糊可扩展聚类框架,与熵加权软子空间聚类算法相结合,提出了一种有效的熵加权流数据软子空间聚类算法——EWSSC(entropy-weighting streaming subspace clustering).该算法不仅保留了传统软子空间聚类算法的特性,而且利用了模糊可扩展聚类策略,将软子空间聚类算法应用于流数据的聚类分析中.实验结果表明,EWSSC算法对于高维数据流可以得到与批处理软子空间聚类方法近似一致的实验结果. A key challenge to most conventional clustering algorithms in handling many real life problems is that data points in different clusters are often correlated with different subsets of features. To address this problem, subspace clustering has attracted increasing attention in recent years. However, the existing subspace clustering methods cannot be effectively applied to large-scale high dimensional data and data streams. In this study, the scalable clustering technique to subspace clustering is extend to form soft subspace clustering for streaming data. An entropy-weighting streaming subspace clustering algorithm, EWSSC is proposed. This method leverages on the effectiveness of fuzzy scalable clustering method for streaming data by revealing the important local subspace characteristics of high dimensional data. Substantial experimental results on both artificial and real-world datasets demonstrate that EWSSC is generally effective in clustering high dimensional streaming data.

作者朱林雷景生毕忠勤杨杰

机构地区上海电力学院计算机科学与技术学院上海交通大学图像处理与模式识别研究所

出处《软件学报》 EI CSCD 北大核心 2013年第11期2610-2627,共18页 Journal of Software

基金国家自然科学基金(61273258 61272437 61073189) 上海市自然科学基金(13ZR1417500) 上海市教育委员会科研创新项目(14YZ131)

关键词子空间聚类数据流聚类可扩展聚类模糊聚类文本聚类 subspace clustering data stream clustering scalable clustering fuzzy clustering document clustering

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献6

1陈黎飞,郭躬德,姜青山.自适应的软子空间聚类算法[J].软件学报,2010,21(10):2513-2523. 被引量：33
2张敏,于剑.基于划分的模糊聚类算法[J].软件学报,2004,15(6):858-868. 被引量：179
3孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1108
4魏立梅,谢维信.对手抑制式模糊C-均值算法[J].电子学报,2000,28(7):63-66. 被引量：18
5王骏,王士同,邓赵红.特征加权距离与软子空间学习相结合的文本聚类新方法[J].计算机学报,2012,35(8):1655-1665. 被引量：22
6朱林,王士同,邓赵红.改进模糊划分的FCM聚类算法的一般化研究[J].计算机研究与发展,2009,46(5):814-822. 被引量：56

二级参考文献23

1李洁,高新波,焦李成.基于特征加权的模糊聚类新算法[J].电子学报,2006,34(1):89-92. 被引量：117
2修宇,王士同,吴锡生,胡德文.方向相似性聚类方法DSCM[J].计算机研究与发展,2006,43(8):1425-1431. 被引量：21
3王丽娟,关守义,王晓龙,王熙照.基于属性权重的Fuzzy C Mean算法[J].计算机学报,2006,29(10):1797-1803. 被引量：47
4Hoppner F, Klawonn F. Improved fuzzy partitions for fuzzy regression models [J]. Journal of Approximate Reasoning, 2003, 32(2): 85-102
5Bezdek J C. Pattern Recognition with Fuzzy Objective Function Algorithms [M]. New York: Plenum, 1081
6Bezdek J C, Hathaway R J, Sahin M J, et al. Convergence theory for fuzzy c-means: Counterexamples and repairs [J]. IEEE Trans on SMC, 1987, 17(5): 873-877
7Zhang Y J, Liu Z Q. Self-splitting competitive learning: A new on-line clustering paradigm [J]. IEEE Trans on Neural Network, 2002, 13(2) : 369-380
8Wu S H, Liew A W, Hong Y, et al. Cluster analysis of gene expression data based on self-splitting and merging competitive learning [J]. IEEE Trans on Information Technology in Biomedicine, 2004, 8 (1) : 5-15
9Xu L, Krzyak A, Oja E. Rival penalized competitive learning for clustering analysis, RBF net and curve detection [J]. IEEE Trans on Neural Network, 1993, 4(4): 636-649
10Blake C L, Merz C J. UCI repository of machine learning databases [D]. Irvine, CA: University of California, Department of Information and Computer Science, 1998

共引文献1377

1丁小军,陈杰,李霖,徐碧通,朱晓姝.一种基于聚类结果稳定性来确定聚类数的方法[J].玉林师范学院学报,2020(3):43-47. 被引量：2
2李小波,刘威,李健.基于模糊聚类分析方法的高含水期油藏层系优化[J].当代化工,2019,0(11):2630-2633. 被引量：2
3王玥,李文权,梁爽,余静财.基于改进聚类算法的共享汽车网点选址研究[J].武汉理工大学学报,2021,43(2):79-85. 被引量：1
4林耿堃,盛积良.乡村振兴时代背景下农民消费结构变迁研究[J].农业农村部管理干部学院学报,2021(2):76-81. 被引量：3
5高显义,林欣晖.基于文本聚类的变电工程变更特征识别研究[J].建筑经济,2020,41(S02):200-203. 被引量：3
6毛颖颖,杨新凯.融合拓扑势的自适应层次聚类算法研究[J].计算机应用研究,2020,37(S01):37-39.
7张睿恺,吴克河.基于优化特征集的LeNet-5攻击检测模型的态势感知技术[J].计算机应用研究,2020,37(S01):287-289. 被引量：4
8李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
9尧少波,蒋励剑,赵文文,卢铮,吴昌聚,陈伟芳.耦合聚类的数据驱动稀薄流非线性本构计算方法[J].航空学报,2022,43(S02):43-56. 被引量：1
10段桂芹.基于改进密度的簇内均值最小距离聚类算法[J].智能计算机与应用,2021,11(12):82-86. 被引量：2

同被引文献271

1梁敏君,倪志伟,倪丽萍,杨葛钟啸.基于网格与分形维数的聚类算法[J].计算机应用,2009,29(3):830-832. 被引量：4
2李争艳.Web数据挖掘技术及应用研究[J].科技资讯,2007,5(14). 被引量：2
3陈小全,张继红.基于改进粒子群算法的聚类算法[J].计算机研究与发展,2012,49(S1):287-291. 被引量：31
4熊刚,孟姣,曹自刚,王勇,郭莉,方滨兴.网络流量分类研究进展与展望[J].集成技术,2012,1(1):32-42. 被引量：25
5江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华中科技大学学报（自然科学版）,2011,39(S1):120-124. 被引量：80
6陶雪娇,胡晓峰,刘洋.大数据研究综述[J].系统仿真学报,2013,25(S1):142-146. 被引量：344
7张敏,于剑.基于划分的模糊聚类算法[J].软件学报,2004,15(6):858-868. 被引量：179
8刘晓平,安竹林,郑利平.基于MPI的主从式并行遗传算法框架[J].系统仿真学报,2004,16(9):1938-1940. 被引量：26
9李斌,郭剑毅.一种带约束的最小离差平方和系统聚类法及应用[J].计算机应用,2005,25(1):45-48. 被引量：10
10邹志文,朱金伟.数据挖掘算法研究与综述[J].计算机工程与设计,2005,26(9):2304-2307. 被引量：53

引证文献31

1吴涛,陈黎飞.自适应熵的投影聚类算法[J].计算机科学与探索,2014,8(8):933-944. 被引量：4
2牛琨,张舒博,赵方.采用联合熵矩阵的子空间聚类算法[J].北京邮电大学学报,2014,37(3):104-108.
3李长路,王劲林,郭志川,潘梁.两阶段密度意识子空间聚类模型[J].西安交通大学学报,2014,48(10):108-114.
4穆治亚,魏仲慧,何昕.靶场测量中跟踪目标的多尺度多级模糊聚类分类算法[J].计算机测量与控制,2015,23(1):167-169. 被引量：1
5邓文韬.基于几何特征加权和选择的数据空间聚类算法研究[J].信息技术与信息化,2014(12):67-69. 被引量：2
6张素智,曲旭凯,张琳.基于电子商务的Web数据挖掘研究[J].现代计算机,2015,21(6):12-18. 被引量：7
7李丹丹,田春伟,李佰洋,孙广路,康健.基于子空间聚类的网络流量分类方法[J].哈尔滨理工大学学报,2015,20(2):63-68. 被引量：3
8吴晓璇,倪志伟,倪丽萍.云计算环境下基于分形的聚类融合算法研究[J].计算机工程与应用,2015,51(14):1-6. 被引量：5
9邓志赟,刘财兴,曹维,尹令,刘汉兴.基于PAM-RF的奶牛活动异常情况监测[J].广东农业科学,2015,42(16):122-129. 被引量：3
10徐小龙,李永萍.一种基于MapReduce的知识聚类与统计机制[J].电子与信息学报,2016,38(1):202-208. 被引量：1

二级引证文献112

1王博远,肖革新,郭丽霞,岑应健,刘杨,陈夏威,李笑.基于多源数据的食品安全时空预警信息化体系设计研究[J].食品安全质量检测学报,2018,9(24):6551-6556. 被引量：4
2王健.多空间数据库内存数据位置实时匹配仿真[J].计算机仿真,2019,36(1):413-416. 被引量：1
3黄冬梅,许坤,张明华.Entropy-Beta:用于模式匹配众包方法中的发包策略[J].计算机科学与探索,2015,9(7):887-896. 被引量：1
4李丛,胡文军,丁勇,曹红根.基于改进磷虾群优化的中心极大化KFCM算法在IDS的应用[J].计算机应用研究,2016,33(2):507-512. 被引量：6
5延丽平.Web数据挖掘技术在电子商务中的应用[J].计算机时代,2016(3):43-44. 被引量：2
6何兆怡.一种基于模拟退火算法的密度聚类方法[J].福建电脑,2016,32(4):130-131.
7郭晨晨,朱红康.基于Hadoop MapReduce和粗粒度并行遗传算法的大数据聚类方法改进[J].黑龙江大学工程学报,2016,7(3):87-91. 被引量：3
8孙兴文.基于特征加权与特征选择的数据挖掘算法研究[J].网络安全技术与应用,2016(11):76-77.
9陈嘉峰,刘财兴,尹令,曹维.一种无线姿态传感节点的能耗优化研究[J].传感技术学报,2016,29(10):1565-1572. 被引量：3
10申元,高岭,高妮,王帆.基于文化算法的层次属性约减入侵检测模型[J].计算机工程,2017,34(7):175-181. 被引量：3

1张准,张晟涛,崔朝霞,付丽群.批处理技术在机房管理中的应用[J].数字技术与应用,2013,31(4):129-129. 被引量：1
2刘文远,李承芳,陈子军.面向不确定数据的概率阈值可见最近邻查询算法[J].小型微型计算机系统,2013,34(8):1803-1808. 被引量：1
3曹原,范卫刚,陈坤蕾.我院ORACLE数据库的备份与恢复[J].医疗卫生装备,2011,32(9):55-56. 被引量：2
4刘绍英,刘成锁.多媒体数据的批处理技术[J].中国远程教育,2002(9):58-60.
5高磊,张向京,李战平,李娟娟.批处理技术在SCADA系统上位机中的应用[J].工业控制计算机,2008,21(6):26-27. 被引量：1
6易珺.图像放大方法概述[J].电视字幕．特技与动画,2008,14(7):35-37.
7范青山.WSH,批处理技术的新武器[J].软件,2002,23(6):50-51. 被引量：2
8三星商用激打问世[J].办公自动化（办公设备与耗材）,2009(9):33-33.
9朱林,雷景生,毕忠勤,徐菲菲.模糊加权流数据软子空间的聚类算法[J].上海电力学院学报,2013,29(6):553-557. 被引量：1
10杜颖.批处理技术在开放教育学籍管理中的妙用[J].电子世界,2014(5):190-191. 被引量：1

软件学报

2013年第11期

浏览历史

内容加载中请稍等...

一种基于数据流的软子空间聚类算法被引量：31

参考文献6

二级参考文献23

共引文献1377

同被引文献271

引证文献31

二级引证文献112

相关作者

相关机构

相关主题

浏览历史

一种基于数据流的软子空间聚类算法 被引量：31

参考文献6

二级参考文献23

共引文献1377

同被引文献271

引证文献31

二级引证文献112

相关作者

相关机构

相关主题

浏览历史

一种基于数据流的软子空间聚类算法被引量：31