基于Spark的K-means安全区间更新优化算法被引量：1

Optimization of K-means Updating Security Interval Based on Spark

下载PDF

导出

摘要每次K-means算法更新聚类中心后,会对数据集中所有的点迭代计算它们与最新聚类中心的距离,进而获取点的最新聚类。这种全局迭代计算的特征导致传统K-means算法时间效率低。随着数据集增大,算法的时间效率和聚类性能下降过快,因此传统的K-means算法不适合大数据环境下的聚类使用。针对大数据场景下的时间效率和性能优化问题,提出了一种基于Spark的K-means安全区间更新优化算法。在每次更新聚类中心后,该算法更新安全区间标签,根据标签是否大于0每次判断落在该区间内的全部数据的簇别,避免计算所有点与中心的距离,减少因全局迭代造成的时间和计算资源开销。算法基于Spark机器MLlib组件的点向量模型优化了模型性能。通过衡量平均误差准则和算法时间两个指标,进行了优化K-means与传统K-means聚类的性能对比实验。结果表明,所提出的优化算法在上述两个指标上均优于传统的K-means聚类算法,适用于大数据环境下的数据聚类场景。 At each time when the K-means algorithm updates the cluster center,it needs to calculate iteratively the distance between all the points in the dataset with the latest clustering center to get the latest clustering of each point. This feature of global iterative computation leads to low efficiency of traditional K-means algorithm. As the data set increases,its time efficiency and clustering performance de- crease too fast, so that the traditional K-means algorithm is not suitable for clustering in big data. Therefore, a new K-means secure inter- val updating algorithm based on Spark is proposed for time efficiency and performance optimization in big data. After updated the cluster center every time, it updates security interval label. According to whether the label is greater than 0 instead of calculation of the distance between all the points and the new center and cluster identification of all the data in the interval every time, which reduces the overhead of time and computation. The performance of the algorithm model based on the point vector model of Spark MLlib component has been optimized. It is made a comparison with the traditional K -means algorithm on average error criterion and operation time. The experimen- tal results show that it is superior to the traditional K -means clustering algorithm in the above two indexes and is suitable for data cluste- ring scenario in big data.

作者李玉波杨余旺唐浩陈光炜

机构地区南京理工大学计算机科学与工程学院普渡大学

出处《计算机技术与发展》 2017年第8期1-6,共6页 Computer Technology and Development

基金江苏省农业科技自主创新资金项目(CX(16)1006)

关键词 K-MEANS 安全区间 SPARK 大数据时间效率 K -means security interval Spark big data time efficiency

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献12

1吴夙慧,成颖,郑彦宁,潘云涛.K-means算法研究综述[J].现代图书情报技术,2011(5):28-35. 被引量：173
2李梓,于海涛,贾美娟.基于Modbus协议的I/A Series控制系统与接口系统无线通信方案的设计[J].计算机工程与应用,2012,48(24):77-80. 被引量：9
3袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：157
4谢娟英,王艳娥.最小方差优化初始聚类中心的K-means算法[J].计算机工程,2014,40(8):205-211. 被引量：91
5海沫,张书云,马燕林.分布式环境中聚类问题算法研究综述[J].计算机应用研究,2013,30(9):2561-2564. 被引量：14
6赵卫中,马慧芳,傅燕翔,史忠植.基于云计算平台Hadoop的并行k-means聚类算法设计研究[J].计算机科学,2011,38(10):166-168. 被引量：84
7徐新瑞,孟彩霞,周雯,刘盈.一种基于Spark时效化协同过滤推荐算法[J].计算机技术与发展,2015,25(6):48-55. 被引量：4
8虞倩倩,戴月明,李晶晶.基于MapReduce的ACO-K-means并行聚类算法[J].计算机工程与应用,2013,49(16):117-120. 被引量：13
9张雪凤,张桂珍,刘鹏.基于聚类准则函数的改进K-means算法[J].计算机工程与应用,2011,47(11):123-127. 被引量：41
10陈侨安,李峰,曹越,龙明盛.基于运行数据分析的Spark任务参数优化[J].计算机工程与科学,2016,38(1):11-19. 被引量：22

二级参考文献203

1郑苗苗,吉根林.DK-Means——分布式聚类算法K-Dmeans的改进[J].计算机研究与发展,2007,44(z2):84-88. 被引量：9
2钱鑫,张龙波,田爱奎,邓齐志,汪金苗.一种面向数据密集型计算环境的聚类算法[J].济南大学学报（自然科学版）,2013,27(1):11-15. 被引量：3
3刘靖明,韩丽川,侯立文.基于粒子群的K均值聚类算法[J].系统工程理论与实践,2005,25(6):54-58. 被引量：122
4刘星,毕奇龙,郑付刚.基于蚁群K均值聚类算法的边坡稳定性分析[J].水电能源科学,2010,28(8):108-109. 被引量：5
5张惟皎,刘春煌,李芳玉.聚类质量的评价方法[J].计算机工程,2005,31(20):10-12. 被引量：62
6王汉芝,刘振全.一种新的确定K-均值算法初始聚类中心的方法[J].天津科技大学学报,2005,20(4):76-79. 被引量：9
7李锁花,孙志挥,周晓云.基于特征向量的分布式聚类算法[J].计算机应用,2006,26(2):379-382. 被引量：6
8李永森,杨善林,马溪骏,胡笑旋,陈增明.空间聚类算法中的K值优化问题研究[J].系统仿真学报,2006,18(3):573-576. 被引量：39
9张文君,顾行发,陈良富,余涛,许华.基于均值-标准差的K均值初始聚类中心选取算法[J].遥感学报,2006,10(5):715-721. 被引量：61
10蒋盛益,李庆华.一种增强的k-means聚类算法[J].计算机工程与科学,2006,28(11):56-59. 被引量：15

共引文献664

1禤世丽,刘建明.基于Hadoop平台的K-means聚类算法并行化改进研究[J].玉林师范学院学报,2020(3):90-96.
2赵春丽,王延博,万润之,孙丽平.基于R语言探析中医药治疗哮喘发作期的用药规律[J].世界科学技术-中医药现代化,2023,25(3):1011-1019. 被引量：7
3林子孟,葛欣竹,曹若麟.面向电信应急系统的Spark性能预测与参数调优方法探究[J].电信快报,2020(12):26-30. 被引量：2
4段桂芹.基于改进密度的簇内均值最小距离聚类算法[J].智能计算机与应用,2021,11(12):82-86. 被引量：2
5许云峰,张妍,赵铁军.基于云计算的商业情报采集系统[J].河北科技大学学报,2012,33(2):161-165. 被引量：7
6左晓飞,刘怀亮,范云杰,赵辉.基于概念语义场的文本聚类算法研究[J].情报杂志,2012,31(5):180-184. 被引量：2
7王生昌,李良敏,杨立本,邱兆文.营运车辆驾驶人适宜性甄别检测评价系统研究[J].交通信息与安全,2013,31(1):65-69. 被引量：2
8吴东飞,金玉龙,蒋建国.基于TMS320DM6467和TMS320C6472的高清视频处理系统[J].数据采集与处理,2012,27(S2):227-234.
9张石磊,武装.一种基于Hadoop云计算平台的聚类算法优化的研究[J].计算机科学,2012,39(S2):115-118. 被引量：29
10高飞,鱼江,任芳,黄保瑞,次旺多吉.四维文档向量模型的k-means新闻文本聚类算法[J].西藏大学学报（社会科学版）,2013,28(4):109-112.

同被引文献4

1中华人民共和国国民经济和社会发展第十三个五年规划纲要（节录）[J].台湾工作通讯,2016,0(4):8-8. 被引量：34
2沈玉玲,吕燕,陈瑞峰.基于大数据技术的电力用户行为分析及应用现状[J].电气自动化,2016,38(3):50-52. 被引量：22
3肖乃慎,李博,孔德诗.大数据背景下的电网客户用电行为分析系统设计[J].电子设计工程,2016,24(17):61-63. 被引量：19
4杨颖.运用季节和趋势模型预测用电负荷[J].电力需求侧管理,2004,6(3):22-24. 被引量：5

引证文献1

1马飞,王勇,郭伟.基于用电信息大数据平台在用户群体中的应用分析[J].软件,2017,38(11):132-136. 被引量：1

二级引证文献1

1田琴.大数据分析在用电采集数据分析与智能监测系统的设计与实现[J].电子测试,2018,29(6):90-91. 被引量：2

计算机技术与发展

2017年第8期

浏览历史

内容加载中请稍等...

基于Spark的K-means安全区间更新优化算法被引量：1

参考文献12

二级参考文献203

共引文献664

同被引文献4

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于Spark的K-means安全区间更新优化算法 被引量：1

参考文献12

二级参考文献203

共引文献664

同被引文献4

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于Spark的K-means安全区间更新优化算法被引量：1