基于Spark的精准关联规则挖掘算法实现被引量：4

Implementation of precision association rule mining algorithm based on Spark

下载PDF

导出

摘要为在大数据环境中精确地进行关联规则挖掘,基于分布式框架Spark,改进关联规则挖掘算法Apriori,解决使用该算法处理大规模数据时遇到的单机内存资源限制和性能缺陷,同时保证结果准确度。利用开源数据集和海量轨迹数据集评估算法的有效性,实验结果表明:与传统方法相比,改进后的Apriori算法进行规则挖掘能够得到相同准确度的结果,并且通过增加处理节点的数量灵活扩展待挖掘数据规模,从而使关联规则挖掘不再受数据规模限制。 In order to accurately carry out association rule mining in big data environment,this paper uses the distributed computing framework Spark,improving the association rules algorithm Apriori. It solved the standalone memory resource constraint and reduced time performance problems caused by Apriori. Then,using open source data sample andmassive data sample of tracks for experiments,the experiments show that compared with the traditional Apriori,the improved Apriori can get the same accurate of results,and the size of the sample can be expanded by increasing the number of nodes,so that the association rule mining is no longer limited by data scale.

作者李融杨淙钧高泽李常宝刘忠麟艾中良

机构地区华北计算技术研究所

出处《信息技术》 2018年第2期153-158,共6页 Information Technology

关键词关联规则挖掘分布式计算大数据 APRIORI SPARK association rule mining distributed computing big data Apriori Spark

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献12

1伊瑶瑶,茅苏.Hadoop下的关联规则分析研究[J].计算机技术与发展,2015,25(9):84-88. 被引量：5
2刘木林,朱庆华.基于Hadoop的关联规则挖掘算法研究——以Apriori算法为例[J].计算机技术与发展,2016,26(7):1-5. 被引量：18
3曹博,倪建成,李淋淋,于苹苹,姚彬修.基于Spark的并行频繁模式挖掘算法[J].计算机工程与应用,2016,52(20):86-91. 被引量：13
4王青,谭良,杨显华.基于Spark的Apriori并行算法优化实现[J].郑州大学学报（理学版）,2016,48(4):60-64. 被引量：12
5牛海玲,鲁慧民,刘振杰.基于Spark的Apriori算法的改进[J].东北师大学报（自然科学版）,2016,48(1):84-89. 被引量：23
6章志刚,吉根林.一种基于FP-Growth的频繁项目集并行挖掘算法[J].计算机工程与应用,2014,50(2):103-106. 被引量：44
7苗苗苗,王玉英.基于矩阵压缩的Apriori算法改进的研究[J].计算机工程与应用,2013,49(1):159-162. 被引量：29
8崔双弥,张德生.一种改进的Inter-Apriori算法[J].计算机系统应用,2017,26(1):157-162. 被引量：2
9谢志明,王鹏.基于MapReduce架构的并行矩阵Apriori算法[J].计算机应用研究,2017,34(2):401-404. 被引量：23
10周雯,孟彩霞,徐新瑞.基于子集的Apriori算法在MapReduce下的研究[J].信息技术,2017,41(1):52-55. 被引量：3

二级参考文献104

1章志刚,吉根林.基于迭代式MapReduce的Apriori算法设计与实现[J].华中科技大学学报（自然科学版）,2012,40(S1):9-12. 被引量：8
2徐章艳,刘美玲,张师超,卢景丽,区玉明.Apriori算法的三种优化方法[J].计算机工程与应用,2004,40(36):190-192. 被引量：71
3黄龙军,段隆振,章志明.一种基于上三角项集矩阵的频繁项集挖掘算法[J].计算机应用研究,2006,23(11):25-26. 被引量：11
4李超,余昭平.基于矩阵的Apriori算法改进[J].计算机工程,2006,32(23):68-69. 被引量：44
5Agrawal R, Srikant R. Fast algorithms for mining associa- tion rules in large database[C]//Proc of the 20th International Conference on Very Large Databases, 1994.
6Jiawei Han,Jian Pei,Yiwen Yin.Mining frequent patterns without candidate generation[J].ACM SIGMOD Record.2000(2)
7TANBEER S K,AHMED C F,JEONG B S.Parallel anddistributed frequent pattern mining in large databases[].th IEEE International Conference on High PerformanceComputing and Communications.2009
8Tu F,He B.A parallel algorithm for mining association rules based on FP-tree[].Advances in computer scienceenvironmentecoinformaticsand education.2011
9S. Xue-Li,L. Tao.Association rules parallel algorithm based on FP-tree[].ProcndInt Computer Engineering and Technology.2010
10Yang X,Liu Z,Fu Y.MapReduce as a programming model for association rules algorithm on Hadoop[].Proceedings of rd International Conference on Information Sciences and Interaction Sciences.2010

共引文献150

1李强,吴裕雄,古国照,陈锡林,陈晔.智能辅助诊疗平台设计与探索[J].医学信息学杂志,2019,40(11):32-35. 被引量：3
2王越,赵静,杜冠瑶,万巍,龙春.网络空间安全日志关联分析的大数据应用[J].网络新媒体技术,2020(3):1-7. 被引量：4
3黄东,陈光,李海滨,杨朔.Spark个性化地点推荐系统[J].辽宁工程技术大学学报（自然科学版）,2020(6):533-540. 被引量：2
4邓广彪.关联规则在个性化图书推荐中的应用研究[J].电脑开发与应用,2013,26(6):46-48. 被引量：1
5邱昕,甘超,江雄心,涂海宁,顾嘉.基于云计算环境下Apriori算法的设备故障诊断技术研究[J].组合机床与自动化加工技术,2014(4):45-48. 被引量：4
6杨正理,陈海霞,王长鹏,徐智.大数据背景下城市短时交通流预测[J].公路交通科技,2019,36(2):136-143. 被引量：19
7李伟亮,马传香,彭茗菁.基于MAPREDUCE并行处理的轨迹模式挖掘算法的研究[J].物联网技术,2014,4(10):69-71.
8韩天鹏,白玲玲,王浩.基于候选项集剪枝的Apriori算法的研究[J].阜阳师范学院学报（自然科学版）,2014,31(4):79-83. 被引量：4
9胡绿慧,任玉兰,何振林.基于划分和压缩数据库的改进Apriori算法[J].成都理工大学学报（自然科学版）,2015,42(1):110-114. 被引量：11
10陈方健,张明新,杨昆.一种具有跳跃式前进的Apriori算法[J].计算机应用与软件,2015,32(3):34-36. 被引量：10

同被引文献26

1许智宏,王宝莹.基于项目综合相似度的协同过滤算法[J].计算机应用研究,2014,31(2):398-400. 被引量：13
2赵呈领,胡萍,梁云真,蒋志辉,黄琰,疏凤芳.在线开放课程中教师教学行为研究——结合自然语言处理观点挖掘的方法[J].中国远程教育,2019,0(1):58-66. 被引量：12
3张学钱,林世平,郭昆.协同过滤推荐算法对比分析与优化应用[J].计算机系统应用,2015,24(5):100-105. 被引量：10
4朱付保,白庆春,汤萌萌,朱颢东.基于改进Apriori算法的铁路轨道质量分析与评价[J].微电子学与计算机,2015,32(10):159-162. 被引量：5
5徐开勇,龚雪容,成茂才.基于改进Apriori算法的审计日志关联规则挖掘[J].计算机应用,2016,36(7):1847-1851. 被引量：49
6王英博,马菁,柴佳佳,赵彬.基于Hadoop平台的改进关联规则挖掘算法[J].计算机工程,2016,42(10):69-74. 被引量：15
7盛伟,余英,王保云.基于相似用户索引和ALS矩阵分解的推荐算法研究[J].陕西理工学院学报（自然科学版）,2016,32(6):47-52. 被引量：3
8陈维兴,曲睿,孙毅刚.基于改进Apriori算法的地面空调间歇故障预测[J].计算机应用,2016,36(12):3505-3510. 被引量：5
9谢志明,王鹏.基于MapReduce架构的并行矩阵Apriori算法[J].计算机应用研究,2017,34(2):401-404. 被引量：23
10于守健,周羿阳.基于前缀项集的Apriori算法改进[J].计算机应用与软件,2017,34(2):290-294. 被引量：12

引证文献4

1祝永志.基于Spark的Hybrid推荐算法的研究与实现[J].电子技术（上海）,2018,47(12):59-62. 被引量：2
2祝永志.基于Spark技术的ALS推荐算法的可扩放性研究[J].电子技术（上海）,2018,47(6):27-29. 被引量：1
3彭新宇,李丛煊,郭金盈,赫彦文.基于关联规则的Apriori改进算法的研究综述[J].电脑知识与技术,2019,15(12):216-217. 被引量：7
4孙瑞.基于云计算的英语教学资源快速挖掘系统设计[J].信息技术,2023,47(9):47-51. 被引量：2

二级引证文献12

1黄志良,申远,胡彪,王适之.军事情报推荐技术发展综述[J].科学技术与工程,2020,20(15):5900-5909. 被引量：10
2刘宇,周虎.基于Spark Streaming实时推荐系统的研究与设计[J].计算机与数字工程,2020,48(5):1172-1175. 被引量：6
3俞泓波,苟海昕,刘苗苗,吴弢.基于关联规则探讨膝关节创伤性滑膜炎外用中药的研究[J].老年医学与保健,2020,26(5):888-891. 被引量：9
4王蓉,刘宇红,张荣芬.基于混合聚类与融合用户属性特征的协同过滤推荐算法[J].现代电子技术,2021,44(6):179-182. 被引量：10
5梁立,孙晋敏,潘晓峰,徐炜.基于Wi-Fi探针的地铁客流预测研究[J].交通与运输,2021,37(S01):66-69. 被引量：2
6蒋杏丽,王剑辉.利用Apriori算法实现抑郁症病症表现的关联分析[J].软件,2021,42(5):32-34.
7贾静丽.基于数据挖掘技术的预测与决策分析模型[J].贵阳学院学报（自然科学版）,2023,18(1):85-90. 被引量：9
8张家嘉,王志飞,谢雁鸣,李利寻,王淇,庄严.喜炎平注射液治疗儿童上呼吸道感染的临床应用特征研究[J].世界中医药,2023,18(5):662-667. 被引量：12
9王婷,刘城鑫,詹少锋,江勇.登革热中医证治规律的数据挖掘[J].广州中医药大学学报,2024,41(9):2491-2499. 被引量：6
10李文婷.集中式三层B/S架构的企业市场营销信息系统设计[J].武夷学院学报,2024,43(9):38-44.

1李志强.我国中小企业跨境电商发展的风险研究[J].全国流通经济,2017(32):7-8. 被引量：2
2黄子航.关联规则挖掘在超市商品销售中的应用研究[J].赤峰学院学报（自然科学版）,2017,33(16):11-12. 被引量：2
3贺林.中国移动(福建厦门)数据中心建筑设计[J].智能建筑与智慧城市,2018(1):69-71.
4商玮.高职电子商务中高端人才培养专业群建设探索——以浙江经贸职业技术学院“电子商务与信息技术服务”专业群为例[J].工业和信息化教育,2017(12):20-23. 被引量：6
5庞文武,陈炳耀,毛秋燕,温海军,何冬梅,罗国涛.不饱和聚酯漆常见问题及对策研究[J].化工管理,2018(1):81-82.
6王成勇.基于关联规则Apriori算法的学生成绩分析[J].价值工程,2018,37(5):171-173. 被引量：7
7宋倩,刘健,忻凌,周巧,黄旦,郭锦晨.基于关联规则挖掘健脾类中药对痛风性关节炎患者免疫、炎症指标的影响[J].辽宁中医杂志,2017,44(11):2248-2252. 被引量：26
8李涛,郁美辰,陆正邦,林陈,张灿.基于关联规则挖掘的气象观测设备一致性检测算法[J].电子测量与仪器学报,2017,31(10):1568-1573. 被引量：8
9黄岚,周娟.基于Weka的应用型本科数据挖掘课程实验设计[J].电脑知识与技术,2017,13(7X):7-9. 被引量：1

信息技术

2018年第2期

浏览历史

内容加载中请稍等...

基于Spark的精准关联规则挖掘算法实现被引量：4

参考文献12

二级参考文献104

共引文献150

同被引文献26

引证文献4

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于Spark的精准关联规则挖掘算法实现 被引量：4

参考文献12

二级参考文献104

共引文献150

同被引文献26

引证文献4

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于Spark的精准关联规则挖掘算法实现被引量：4