基于Hadoop和Spark的可扩展性大数据分析系统设计被引量：12

Design of extensible big data analysis system based on Hadoop and Spark

导出

摘要随着社会进步和信息化高速发展,网络数据规模大幅度扩大,面对大规模网络数据环境,基于Hadoop和Spark设计可拓展性大数据分析系统。系统Flume模块的Source组件负责采集大数据,Sink组件将大数据传输至Kafka;分析检测模块采用Spark离线训练可扩展性数据,将训练完成的模型传输到Spark streaming中,依据训练模型特征对普通大数据分类,获取可扩展性大数据。系统软件采用ALS算法、PageRank算法得到可扩展性大数据的有效性与价值度排名,据此向用户推荐优质可扩展性大数据。实验结果显示:系统分析可拓展性大数据精准度高于90%,优于对比系统,且具备低能耗、高稳定性的优点,实际应用价值高。 With the rapid development of social progress and information technology,the scale of network data has greatly expanded.In the face of large-scale network data environment,a scalable large-scale data analysis system is designed based on Hadoop and Spark.The Source component of the Flume module is responsible for collecting large data,and large data is transfered by the slink component to Kafka.The analysis and detection module uses Spark off-line training scalability data,the completed training model is transfered to Spark streaming,and the general large data is classified according to the characteristics of the training model,to obtain the scalable large data.ALS algorithm and PageRank algorithm is used to get the validity and value ranking of scalable large data,and high-quality scalable large data is accordingly recommended to users.The experimental results show that the system analysis has the advantages of low energy consumption,high stability and high practical application value.

作者刘昕林邓巍黄萍刘睿臻 LIU Xinlin;DENG Wei;HUANG Ping;LIU Ruizhen(Shenzhen Power Supply Bureau Limited,Shenzhen Guangdong 518048,China;Central South University,Changsha 410083,China)

机构地区深圳供电局有限公司中南大学

出处《自动化与仪器仪表》 2020年第3期132-136,共5页 Automation & Instrumentation

关键词 Hodoop SPARK 可拓展性 ALS算法大数据分析系统 Hodoop Spark extensibility ALS algorithm large data analysis system

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献9

1王欣,周晓梅.云计算环境下大数据合理分流技术研究与仿真[J].计算机仿真,2016,33(3):292-295. 被引量：32
2代明竹,高嵩峰.基于Hadoop、Spark及Flink大规模数据分析的性能评价[J].中国电子科学研究院学报,2018,13(2):149-155. 被引量：31
3黄震,钱育蓉,范迎迎,杜娇.Spark下遥感大数据特征提取的加速策略[J].计算机工程与设计,2017,38(12):3279-3283. 被引量：7
4黎玲萍,毛克彪,付秀丽,马莹,王芳,刘勍.国内外农业大数据应用研究分析[J].高技术通讯,2016,26(4):414-422. 被引量：21
5关欣,邵长安.网络大数据应用的过程模型建构及数据问题分析[J].图书情报工作,2017,61(5):50-56. 被引量：7
6陈新荃,陈晓东,蒋林华.基于Spark平台的人脸图像检索系统[J].计算机工程,2018,44(2):251-256. 被引量：5
7王亚玲,刘越,洪建光,崔蔚,李彦虎,苏伊鹏,黄高攀,张明明,刘万涛.基于Spark/Shark的电力用采大数据OLAP分析系统[J].中国科学技术大学学报,2016,46(1):66-75. 被引量：5
8马杰.网络大数据信息处理平台的设计与实现[J].现代电子技术,2018,41(24):75-78. 被引量：1
9徐时芳,罗晓宾,陈阳华.基于Spark的分布式大数据分析建模系统的设计与实现[J].现代电子技术,2018,41(20):172-174. 被引量：14

二级参考文献91

1程思霖.基于四网协同下的WLAN发展策略及数据分流研究[J].电信工程技术与标准化,2013,26(10):20-23. 被引量：2
2胡晓敏.无线传感器网络Agent数据分流策略[J].新型工业化,2013,2(4):103-112. 被引量：19
3朱婕,靖继鹏,窦平安.国外信息行为模型分析与评价[J].图书情报工作,2005,49(4):48-51. 被引量：61
4Apache Hadoop. Welcome to apache hadoop[EB/OL]. https://hadoop, apache, org/.
5Spark. Lightning fast cluster computing[EB/OL]. https ://spark. apache, org/.
6ZahariaM, Chowdhury M, Franklin M J, et al. Spark: Cluster computing with working sets [C]// Proceedings of the 2nd USENIX Conference on Hot Tropics in Cloud Computing. Boston, USA: USENIX, 2010: 10-14.
7Xin R S, Rosen J, Zaharia M, et al. Shark: SQL and rich analytics at scale[C]// Proceedings of the ACM SIGMOD International Conference on Management ofData. New York, USA: ACM Press, 2013..13-24.
8Abouzeid A, Bajda-Pawlikowski K, Abadi D, et al. HadoopDB.. An architectural hybrid of MapReduce and DBMS technologies for analytical workloads [J ]. Proceedings of the VLDB Endowment, 2009, 2 (1) .. 922-933.
9Jiang D W, Ooi B C, Shi L, et al. The performance of MapReduce: An in-depth study[J]. Proceedings of the VLDB Endowment, 2010, 3(1-2): 472-483.
10Dittrich J, Quian6-Ruiz J A, Jindal A, et al. Hadoop + +.. Making a yellow elephant run like a cheetah (without it even noticing) [J]. Proceedings of the VLDB Endowment, 2010, 3(1-2).. 515-529.

共引文献114

1邓楚然,江疆,杨秋勇,陈灏生,黄树满.基于大数据的电力多维度分析系统设计[J].微型电脑应用,2020,36(2):106-108. 被引量：3
2严哲,周斌雄,张祥燊,吴君雄.Spark计算框架在敏感地理信息检测中的应用研究[J].江西测绘,2021(1):46-49.
3宋华,罗兴宇,闫会峰.大型警务数据处理系统中的数据分流平台设计[J].现代电子技术,2017,40(8):33-35.
4石方夏.云环境下高机密性数据分离销毁优化仿真研究[J].计算机仿真,2017,34(4):319-322. 被引量：2
5崔嘉.网络服务资源数据共享策略优化设计仿真[J].计算机仿真,2017,34(7):199-202. 被引量：1
6吴为强.云计算与大数据环境下全方位多角度信息安全技术研究与实践[J].通讯世界,2017,23(14):45-46. 被引量：10
7刘长悦,张远芳,王海亮,郝志愚,吴贶,王坤,刘伟,王建春,郭锐.基于Resin系统的温室植物生长环境数据采集分析平台建设[J].天津农业科学,2017,23(8):67-71. 被引量：1
8吴重言,吴成伟,熊燕玲,陶佩莹.农业大数据综述[J].现代农业科技,2017(17):290-292. 被引量：9
9杨晓欢,单娅辉,解丹,李晓东.面向文摘的中药方剂与疾病关系抽取[J].世界科学技术-中医药现代化,2017,19(7):1167-1172. 被引量：5
10杨建云,张天栋,唐军,凌军,杨千栩.基于大数据提升的烟叶种植环境优化下云产卷烟内在质量研究[J].环境科学与管理,2017,42(11):10-15. 被引量：3

同被引文献100

1舒帆.港口物流信息平台共享架构及其可视化挖掘[J].上海海事大学学报,2006,27(S1):79-84. 被引量：7
2刘鹏,姚正,尹俊杰.一种有效的C4.5改进模型[J].清华大学学报（自然科学版）,2006,46(z1):996-1001. 被引量：28
3徐鹏,林森.基于C4.5决策树的流量分类方法[J].软件学报,2009,20(10):2692-2704. 被引量：171
4唐孝通,焦秉立.通信网络聚合流量突发性的产生机理研究[J].哈尔滨理工大学学报,2011,16(2):29-34. 被引量：3
5SUN Mei-feng CHEN Jing-tao.Research of the traffic characteristics for the real time online traffic classification[J].The Journal of China Universities of Posts and Telecommunications,2011,18(3):92-98. 被引量：5
6周剑峰,阳爱民,刘吉财.基于改进的C4.5算法的网络流量分类方法[J].计算机工程与应用,2012,48(5):71-74. 被引量：19
7乔邦阳.引航调度系统中协同管理机制的设计与实现[J].中国管理信息化,2015,18(6):74-74. 被引量：3
8顾成杰,江同洋,潘鑫.基于业务感知的空天地一体化信息网络流量分类技术[J].中国电子科学研究院学报,2015,10(5):485-491. 被引量：2
9牛正光,奉公.应用大数据推动政府治理现代化的SWOT分析[J].电子政务,2016(1):96-102. 被引量：16
10张伟.“郑和一号”船舶引航系统在厦门港引航工作中的应用[J].中国水运（下半月）,2016,16(5):22-24. 被引量：1

引证文献12

1尹旭熙.基于Hadoop和Spark的可扩展性化工类大数据分析系统设计[J].粘接,2021(6):81-83. 被引量：3
2胡少波.基于大数据的政府治理现代化特征指标神经系统模型构建[J].电子设计工程,2021,29(13):120-123.
3杨力,王龙青,潘成胜,蔡睿妍.天地一体化智能网络流量实时分类[J].小型微型计算机系统,2022,43(7):1547-1552. 被引量：2
4王惠来.厦门港引航船舶信息可视化平台在引航调度中的应用[J].珠江水运,2022(19):99-101. 被引量：4
5韦树成,廖剑斌.大数据分析管理系统在实验室中的应用和实践[J].华东科技,2022(9):83-85. 被引量：3
6莫理,柳本林,张树保,罗勇,刘代国.基于分布式K-means算法的水电厂光纤测温系统可扩展性优化[J].电子设计工程,2023,31(16):107-111. 被引量：3
7林峰.基于Docker容器与Spark技术的分布式判题系统[J].龙岩学院学报,2023,41(5):21-26. 被引量：2
8边宁.基于Spark的大数据分析系统设计和实现[J].信息记录材料,2023,24(9):202-204. 被引量：3
9韩镇阳,张磊,任冬.基于Kalman算法的大数据存储架构可扩展性优化算法[J].网络安全与数据治理,2023,42(11):25-28. 被引量：1
10刘轩,巩宇,杨铭轩,吴昊,王彬.基于离线计算引擎的工业数据计算方法[J].自动化与仪器仪表,2024(5):69-73. 被引量：2

二级引证文献25

1孙俊琳.基于信息流分析的容器内恶意软件漏洞检测方法[J].上海电机学院学报,2023,26(2):105-109. 被引量：2
2万伯寅.船舶信息化技术在船舶引航中的应用探讨[J].中国水运,2023(6):55-57.
3陈劲松,张月馨.大数据特色工商管理类一流专业课程建设保障体系研究[J].教育观察,2023,12(22):61-63. 被引量：4
4李彬.船舶信息化技术在船舶引航中的应用研究[J].珠江水运,2023(20):50-52. 被引量：1
5韩镇阳,张磊,任冬.基于Kalman算法的大数据存储架构可扩展性优化算法[J].网络安全与数据治理,2023,42(11):25-28. 被引量：1
6张伟利,杨喆,孙晓海,刘铭,韩成浩.基于大数据技术的火灾风险智能感知预警方法[J].吉林大学学报（工学版）,2023,53(11):3253-3259. 被引量：6
7冯旭.船舶信息化技术在船舶引航中的应用[J].船舶物资与市场,2024,32(3):8-10. 被引量：2
8杨明.基于大数据的分布式文件存储系统架构设计[J].信息记录材料,2024,25(4):177-179. 被引量：4
9侯宇,孔坚,黄东华,李姝.时序数据在工业设备监控中的加密与认证方法研究[J].中国机械,2024(19):145-148.
10雷鸣,李丹.面向数据生产的跨计算引擎数据调度技术研究[J].中国电子科学研究院学报,2024,19(6):570-577.

1鲍凯丽,刘其成,牟春晓.融合朴素贝叶斯和协同过滤的外卖推荐并行算法研究[J].计算机应用与软件,2019,36(11):250-255. 被引量：3
2徐锡荣,顾卫东,王洁.基于分区计量的城市供水管网漏损识别数据分析系统设计[J].中国市政工程,2019,0(6):53-57. 被引量：3
3张新强,骆辉,周国顺.基于深度学习的移动机器人目标跟踪系统[J].计算机系统应用,2020,29(3):114-120.
4张恩寿,万春红,李宏,赵荣浩.基于GD32单片机的电能质量分析系统设计[J].科技创新与应用,2020,0(3):77-79.
5贾晓芳,桑国明,祁文凯.基于Spark平台的ALS加速算法研究[J].计算机工程,2020,46(2):103-109. 被引量：2
6张童,谭南林,包辰铭.应用于嵌入式平台的实时红外行人检测方法[J].激光与红外,2020,50(2):239-245. 被引量：4
7王少波,郭英,眭萍,李红光,杨鑫.基于平行因子分析的欠定混合矩阵估计算法[J].探测与控制学报,2019,41(6):101-106. 被引量：2
8赵创业,唐亮亮,郭威,王哲,黄晓波.基于Ansible和Flume的海量数据自动化采集系统[J].电子设计工程,2020,28(3):47-51. 被引量：11
9胡思雨.产业链视角下动画企业市场定位策略[J].现代营销（上）,2020(3):42-43.
10赵云平.基于无线传输的矿井主通风机远程监控系统设计[J].自动化应用,2019,0(12):87-88. 被引量：5

自动化与仪器仪表

2020年第3期

浏览历史

内容加载中请稍等...

基于Hadoop和Spark的可扩展性大数据分析系统设计被引量：12

参考文献9

二级参考文献91

共引文献114

同被引文献100

引证文献12

二级引证文献25

相关作者

相关机构

相关主题

浏览历史

基于Hadoop和Spark的可扩展性大数据分析系统设计 被引量：12

参考文献9

二级参考文献91

共引文献114

同被引文献100

引证文献12

二级引证文献25

相关作者

相关机构

相关主题

浏览历史

基于Hadoop和Spark的可扩展性大数据分析系统设计被引量：12