基于垂直格式的频繁项集挖掘分段算法被引量：3

Frequent Itemsets Mining Segmentation Algorithm Based on Vertical Format

下载PDF

导出

摘要针对Eclat算法连接和剪枝操作耗时的缺点,按照项集之间的可连接性,将数据集划分为等价类并分段存储,采用末项剪枝策略,在常量时间内完成连接和剪枝操作.针对Eclat算法求长集合的交集操作需要大量计算的缺点,采用多维数组分段存储项集的事务集,将长集合的求交集操作转换为分段求短集合的交集,并提出期望支持度的概念,在求交集的过程中预测支持度,从而减少求交集的比较次数.实验结果表明,该算法在时间性能方面优于Eclat算法,尤其适用于挖掘长模式稀疏数据集. In view of shortage of time-consuming of connection and pruning step for Eclat algorithm,a method is proposed to divide the data set into equivalence classes with segmented storage according to the connectivity between itemsets.Using the end item pruning strategy,the connection and pruning step will be completed in constant time.In view of shortage of computation of the intersection operation of long sets for Eclat algorithm,a method is proposed to store the transaction sets of itemsets segment by multidimensional array,convert the computation of intersection operation of long sets into short sets in segment,and the concept of the expected support is proposed.It can be forecasted in the process of calculating intersection,so the times of comparing will be reduced.The experimental results show that the algorithm is superior to Eclat algorithm in time performance,and it is suitable for mining long patterns sparse data sets especially.

作者王红梅胡明赵守峰

机构地区长春工业大学计算机科学与工程学院

出处《吉林大学学报（理学版）》 CAS CSCD 北大核心 2016年第3期553-560,共8页 Journal of Jilin University:Science Edition

基金国家自然科学基金(批准号:61133011) 吉林省教育厅"十二五"科学技术研究项目(批准号:2013431)

关键词频繁项集垂直格式分段存储期望支持度 frequent itemset vertical format segmented storage expected support

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献13

1SchoenbergVM,KukeyeK.大数据时代[M].盛杨燕,周涛,译.杭州:浙江人民出版社,2013.
2Agrawal R, Srikant R. Fast Algorithms for Mining Association Rules [C]//Proceeding of the 20th VLDB Conference. San Francisco: Morgan Kaufmann, 1994: 487-499.
3HAN Jiawei, PEI Jian, YIN Yiwen. Mining Frequent Patterns without Candidate Generation [C]//Proceeding of the 2000 ACM SIGMOD International Conference on Management of Data. New York: ACM, 2000: 1-12.
4Zaki M J. Scalable Algorithms for Association Mining [J]. IEEE Transaction on Knowledge and Data Engineering, 2000, 12(3): 372-390.
5Zaki M J. Fast Vertical Mining Using Diffsets [R]. New York: Rensselaer Polytechnic Institute, 2001.
6Shenoy P, Haritsa J R, Sudarshan S, et al. Turbo-Charging Vertical Mining of Large Databases [C]//Proceeding of the 2000 ACM SIGMOD International Conference on Management of Data. New York: ACM, 2000: 22-33.
7Burdick D, Calimlim M, Gehrke J. MAFIA: A Maximal Frequent Itemset Algorithm for Transactional Databases [C]//Proceedings 17th International Conference on Data Engineering. Piscataway, NJ: IEEE, 2001: 443-452.
8Ayres J, Flannick J, Gehrke J E, et al. Sequential Pattern Mining Using Bitmaps Representation [C]// Proceedings of the Eighth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2002: 429-435.
9Poovammal E, Ponnavaikko M. Utility Independent Privacy Preserving Data Mining on Vertically Partitioned Data [J]. Journal of Computer Science, 2009, 5(9): 666-673.
10冯培恩,刘屿,邱清盈,李立新.提高Eclat算法效率的策略[J].浙江大学学报（工学版）,2013,47(2):223-230. 被引量：13

二级参考文献28

1Jia-WeiHan,JianPei,Xi-FengYan.From Sequential Pattern Mining to Structured Pattern Mining： A Pattern-Growth Approach[J].Journal of Computer Science & Technology,2004,19(3):257-279. 被引量：18
2李敏,李春平.频繁模式挖掘算法分析和比较[J].计算机应用,2005,25(B12):166-171. 被引量：11
3丁艳辉,王洪国,高明,谷建军.一种基于矩阵的关联规则挖掘新算法[J].计算机科学,2006,33(4):188-189. 被引量：13
4Agrawa R, Imielinski T, Swami A. Mining association rules between sets of items in large databases[C].//Proc, of ACM SIGMOD International Conference on Management of Date. Washington DC,1993 : 207-216.
5Park J S, Ming-Syan C, Philip S Y. An Effective Hash Based Algorithm for Mining Association Rules[C].// Proc of ACMSIGMOD. 1995 : 175-185.
6Brin S, Motwai R, Ullman J D, et al. Dynamic Itemset Counting and Implication Rules for Market BasketData [C].//Proc. of ACM SIGMOD Conference on Management of Data. 1997:265-276.
7Agrawal R, Srikant R. Fast Algorithms for Mining Association Rules in Large Databaes[C].//Proc. of 1994 International Conference on Very Large Databases. 1994:487-499.
8Savasere S, Omiecinski E, Navathe S. An Efficient Algorithm for Mining Association Rules in Large Databases[C].//Proc. of 21^St VLDB. 1995 : 432-444.
9Dunkel B, Soparkar N. Data Organization and Access for Efficient Data Mining[C].//Proc. of 15th IEEE Intl. Conf. on Data Engineering. 1999 : 522-529.
10Han J, Fu Y J. Mining Multiple-Level Association Rules in Large Database[J]. IEEE Trans. on Knowledge and Data Engineering, 1999,11(5) : 798-805.

共引文献50

1牛新征,佘堃.面向大规模数据的快速并行聚类划分算法研究[J].计算机科学,2012,39(1):134-137. 被引量：22
2傅向华,陈冬剑,王志强.基于倒排索引位运算的深度优先频繁项集挖掘[J].小型微型计算机系统,2012,33(8):1747-1751. 被引量：7
3冯培恩,刘屿,邱清盈,李立新.提高Eclat算法效率的策略[J].浙江大学学报（工学版）,2013,47(2):223-230. 被引量：13
4王飞,缑锦.基于多变异粒子群优化算法的模糊关联规则挖掘[J].计算机科学,2013,40(5):217-223. 被引量：12
5杨泽民,郭显娥,王文军.数据挖掘中关联弱化问题的解决方法分析[J].计算机科学,2013,40(8):220-222. 被引量：3
6张岳,王洪国,邵增珍,赵建秀.基于先验位运算的频繁项集挖掘[J].计算机应用研究,2013,30(9):2610-2612. 被引量：4
7王锋,孙翠华.汽车发动机故障征兆挖掘技术的研究与仿真[J].计算机仿真,2013,30(10):229-232. 被引量：4
8唐洪涛.数据中心特征失真下的深度挖掘算法研究[J].科技通报,2013,29(12):45-47. 被引量：1
9林长方,吴扬扬.关联规则挖掘技术在冠心病诊断中的应用[J].江南大学学报（自然科学版）,2014,13(1):60-66. 被引量：3
10张步忠,程玉胜,王则林.基于片上多核的频繁项集并行挖掘算法[J].计算机科学,2014,41(3):55-58. 被引量：3

同被引文献30

1王燕.基于等价关系的关联规则挖掘算法研究[J].计算机工程与应用,2006,42(8):187-189. 被引量：5
2姚维科,崔保山,董世魁,刘杰.水电工程干扰下澜沧江典型段的水温时空特征[J].环境科学学报,2006,26(6):1031-1037. 被引量：26
3金永强,包腾飞.基于决策树的大坝安全监测数据挖掘[J].人民黄河,2007,29(2):72-73. 被引量：5
4张慧哲,王坚.多重最小支持度频繁项集挖掘算法研究[J].计算机应用,2007,27(9):2290-2293. 被引量：3
5熊忠阳,陈培恩,张玉芳.基于散列布尔矩阵的关联规则Eclat改进算法[J].计算机应用研究,2010,27(4):1323-1325. 被引量：19
6常浩,陈莉.多最小支持度关联规则挖掘研究[J].微计算机信息,2010,26(24):143-144. 被引量：2
7张玉芳,熊忠阳,耿晓斐,陈剑敏.Eclat算法的分析及改进[J].计算机工程,2010,36(23):28-30. 被引量：12
8李海峰,章宁,朱建明,曹怀虎.时间敏感数据流上的频繁项集挖掘算法[J].计算机学报,2012,35(11):2283-2293. 被引量：29
9冯培恩,刘屿,邱清盈,李立新.提高Eclat算法效率的策略[J].浙江大学学报（工学版）,2013,47(2):223-230. 被引量：13
10徐嘉莉,杨洪军,赵茂娟,樊云.一种基于位运算的频繁闭项集挖掘算法[J].计算机应用研究,2013,30(11):3280-3282. 被引量：3

引证文献3

1崔馨月,孙静宇.改进的Eclat算法研究与应用[J].计算机工程与设计,2018,39(4):1059-1063. 被引量：9
2李鑫,史天运,常宝,马小宁,刘军.基于优化的MsEclat算法的铁路机车事故故障关联规则挖掘[J].中国铁道科学,2021,42(4):155-165. 被引量：14
3赵昕,苏怀智,方正.基于改进ECLAT算法的混凝土坝变形预测模型[J].中国农村水利水电,2025(4):58-64.

二级引证文献23

1赵艳芹,张恒,童朝娣.瓦斯灾害预警模型的Eclat算法[J].黑龙江科技大学学报,2019,29(4):515-520. 被引量：3
2向春梅,陈超.基于MapReduce的改进Eclat算法[J].成都信息工程大学学报,2019,34(4):369-374. 被引量：5
3尹远,朱璐伟,文凯.基于差异点集的频繁项集挖掘算法[J].计算机工程与设计,2020,41(3):716-720. 被引量：3
4盛魁,马健,曹岩,卞显福.基于遗传模拟退火算法的药品零售大数据关联规则挖掘[J].黑龙江工业学院学报（综合版）,2020,20(6):60-65.
5陈颖聪,李强,黄秋凤,林茂松.面向工业控制的分布式并行聚类关联规则算法研究[J].制造业自动化,2021,43(11):35-40. 被引量：1
6陈生昱,姚有利,周兆海,程超男.煤矿瓦斯监测预警的研究[J].山西化工,2021,41(6):113-116. 被引量：7
7赵炎.基于人工智能的数据整合系统设计[J].自动化与仪器仪表,2022(7):339-343. 被引量：3
8刘苏锐,李丹丹,庞晓红,董伟,苟圆,俞凌云,吴孟茹,金晶.基于关联规则的轻工品涉税检验数据挖掘方法[J].皮革与化工,2022,39(5):20-25. 被引量：4
9徐鹏,孟宇龙,杨哲,董乃波,邓博伟.一种面向船舶制造的数据关联规则挖掘算法[J].舰船科学技术,2022,44(20):143-148.
10尚晓燕.基于话题标签的微博舆情热点挖掘系统设计[J].现代电子技术,2023,46(2):70-74. 被引量：1

1黄强.发布/订阅系统中的历史数据分布式存储算法[J].微电子学与计算机,2014,31(9):138-142.
2朱琳.Pentium 4 CPU对系统存储体系的管理分析[J].农业网络信息,2007(9):148-150. 被引量：1
3林子禹,邵红维,邓万涛,彭德纯.网络环境中软件组件的可连接特性分析[J].计算机工程与科学,2000,22(4):27-29.
4罗琦,缪昕杰,魏倩.稀疏数据集协同过滤算法的进一步研究[J].计算机科学,2014,41(6):264-268. 被引量：13
5滕翠,梁川.三种频繁模式挖掘算法的分析与比较[J].电脑知识与技术（过刊）,2010,0(23):6416-6417. 被引量：1
6曹智,张国杰,张兴明.分段存储的CAM+SRAM高速IPv6路由查找方案[J].计算机工程与应用,2004,40(35):170-172. 被引量：1
7陈凤娟.关联规则的ECLAT算法[J].消费电子,2014(16):149-149. 被引量：3
8陈衡,钱德沛,栾钟治,许大炜.基于MIB动态编译的网络管理研究[J].计算机工程,2007,33(2):102-104. 被引量：1
9进步还是退步[J].电脑时空,2008(7):160-160.
10叶敬,王海舒,周建东.基于时态数据的CSCL系统设计与实现的探讨[J].电脑知识与技术（过刊）,2009,15(3X):1926-1927.

吉林大学学报（理学版）

2016年第3期

浏览历史

内容加载中请稍等...

基于垂直格式的频繁项集挖掘分段算法被引量：3

参考文献13

二级参考文献28

共引文献50

同被引文献30

引证文献3

二级引证文献23

相关作者

相关机构

相关主题

浏览历史

基于垂直格式的频繁项集挖掘分段算法 被引量：3

参考文献13

二级参考文献28

共引文献50

同被引文献30

引证文献3

二级引证文献23

相关作者

相关机构

相关主题

浏览历史

基于垂直格式的频繁项集挖掘分段算法被引量：3