-
题名基于Storm的海量数据实时聚类
被引量:30
- 1
-
-
作者
王铭坤
袁少光
朱永利
王德文
-
机构
华北电力大学(保定)控制与计算机工程学院
-
出处
《计算机应用》
CSCD
北大核心
2014年第11期3078-3081,共4页
-
基金
国家自然科学基金资助项目(61074078)
山西省电力公司科技项目(ZGDKJ2012005)
-
文摘
针对现有平台处理海量数据实时响应能力普遍较差的问题,引入Storm分布式实时计算平台进行大规模数据的聚类分析,设计了基于Storm框架的DBSCAN算法。该算法将整个过程分为数据接入、聚类分析、结果输出等阶段,在框架预定义的组件中分别编程实现,各组件通过数据流连通形成任务实体,提交到集群运行完成。通过对比分析和性能监测,验证了所提方案具有低延迟和高吞吐量的优势,集群运行状况良好,负载均衡。实验结果表明Storm平台处理海量数据实时性较高,能够胜任大数据背景下的数据挖掘任务。
-
关键词
STORM
海量数据
聚类
实时分析
-
Keywords
Storm
massive data
clustering
real-time analysis
-
分类号
N316.4
[自然科学总论]
TP311.1
[自动化与计算机技术—计算机软件与理论]
-