基于clustering算法的事务抽样关联规则挖掘算法被引量：3

Association rules mining on subset of raw data based on clustering

下载PDF

导出

摘要关联规则挖掘典型算法Apriori由于在频繁项集的生成时,需要多次扫描数据库,空间和时间耗费较大。之后虽然有很多Apriori算法的改进版本,但大多是从数据存储结构的角度,少有研究考虑到数据集本身的性质。对此提出了基于clustering算法的事务抽样关联规则挖掘算法,通过聚类技术对事务进行聚类,得出能够反映原始交易数据特征的事务子集,然后,在该子集上开展挖掘分析工作。该方法在8个不同规模人造数据集和1个真实数据集上进行了实验。其中,在较小规模人造数据集上,时间比原方法节省0.03 s;规模越大,节省时间越多,在大小为15 000、维度为30的数据集上运行时,比原方法节省了70 s;在真实数据集上,不同参数设置下该方法耗时仅为原方法的50%。实验证明,该方法与传统Apriori算法相比,效率较高,尤其在数据量大时,效果提升更明显。该算法的思想也可以扩展应用到其他改进的Apriori算法中。 Association rule mining is an important research branch of data mining. Its typical algorithm Apriori faces a serious problem that it needs to scan dataset many times and consumes much time and memory. Especially,when both data size and dimension are very large,it is perhaps not tolerable. With the coming of the big data time,finding frequent itemsets is more and more difficult. To solve this problem,the authors proposed a new method based on clustering and typical Apriori algorithm. It first found a representative subset of raw data set by clustering algorithm,and then mined and analyzed the subset. Experiments were carried out on 8 toy data sets with different sizes and a real data set about game properties transaction. For toy data,this method reduced running time 0. 03 seconds and 70 seconds,on the data set which size is 200＊10 and 15 000 ＊ 20 respectively. For the real data set,consumed time of this method is only a half of the old method.Experimental results demonstrate the effectiveness of the method.

作者马玉玲

机构地区山东英才学院信息工程学院

出处《计算机应用》 CSCD 北大核心 2015年第A02期77-79,84,共4页 journal of Computer Applications

基金山东省高等学校科技计划项目(J15LN55) 山东省职业教育与成人教育科研规划课题(2014zcj015) 山东省教改课题(YCXY-X2014011)

关键词聚类算法事务子集关联规则挖掘 APRIORI算法 clustering algorithm transaction subset association rule mining Apriori algorithm

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献15

1SHEYDAEI N, SARAEE M, SHAHGHOLIAN A. A novel feature se- lection method for text classification using association rules and cluste- ring[ J]. Journal of Information Science, 2015, 41(1) : 3 - 15.
2RANI B K, GOVARDHAN A. DC (Drought Classifier): forecasting and classification of drought using association rules[ C]// Proceedings of the 3rd International Conference on Frontiers in Imelligent Compu- ting-Theory and Applications. Berlin: Springer, 2015:123 - 130.
3NAULAERTS S, MEYSMAN P, BITTREMIEUX W, et al. A prim- er to frequent itemset mining for bioinformatics [ J]. Briefings in Bioinformatics, 2015, 16(2) :216 -318.
4曲守宁,董彩云,徐德军,吴桐.关联规则算法研究及其在教学系统中的应用[J].计算机系统应用,2005,14(4):20-23. 被引量：5
5韩家炜.数据挖掘-概念与技术[M].2版.北京:机械工业出版社,2006:230-239.
6ORDONEZ C. A model for association rules based on clustering [ C]// SAC'05: Proceedings of the 2005 ACM Symposium on Ap- plied Computing. New York: ACM, 2005:545 -546.
7LENT B, SWAMI A, WIDOM J. Clustering association rules[ C]// Proceedings of the 13th International Conference on Data Engineer-ing. Piscataway: IEEE, 1997:220-231.
8WANG K, XU C, LIU B. Clustering transactions using large items[C]// CIKM'99: Proceedings of the 8th International Conference on Information and Knowledge Management. New York: ACM, 1999:483 -490.
9KOH Y S, PEARS R. Transaction clustering using a seeds based approach[ C]//Proceedings of the 12th Pacific-Asia Conference Ad- vances in Knowledge Discovery and Data Mining, LNCS 5012. Ber- lin: Springer, 2008:916 -922.
10YUN S, PEARS K R. Rare association rule mining via transaction clustering[ C]// Proceedings of the 7th Australasian Data Mining Conference, Conferences in Research and Practive in Information Technology. Glenelg, Australia: Australian Computer Society, 2008, 101:69 -74.

二级参考文献33

1沈国强,覃征.一种新的多维关联规则挖掘算法[J].小型微型计算机系统,2006,27(2):291-294. 被引量：18
2屠莉,陈崚.挖掘关联规则的蚁群算法[J].南京邮电大学学报（自然科学版）,2006,26(5):36-40. 被引量：5
3贾彩燕倪现君.关联规则挖掘研究述评[J].计算机科学,2003,30(4):145-148.
4Agrawal R, Imielinski T, Swami A. Mining Association Rules between Sets of Ltems in Large Database[ M].In SIGMOD" 93, Washington, DC, May 1993. 207 -216.
5范明孟小峰译.数据挖掘概念与技术[M].机械工业出版社,2003,3.150-221.
6Jiawei Han,Micheline K.数据挖掘:概念与技术[M].范明,等译.北京:机械工业出版社,2006.
7AGRAWAL R, IMIELINSKI T, SWAMI A. Mining association rules between sets of items in large databases [ J ]. AGM SIGMOD Re- cord,1993,22(2) :207-216.
8KAMSU-FOGUEM B, RIGAL F, MAUGET F. Mining association rules for the quality improvement of the production process [ J ]. Ex- pert Systems with Applications,2013,40 (4) :1034-1045.
9QODMANAN H R, NASIRI M, MINAEI-BIDGOLI B. Multi objec- tive association rule mining with genetic algorithm without specifying minimum support and minimum cmffidence [ J ]. Expert Systems with Applications ,2011,38( 1 ) :288-298.
10ZAKI M J. Mining non-redundant association rules[ J]. Data Mining and Knowledge Discovery, 2004,9 ( 3 ) : 223 - 248.

共引文献13

1陈熔.数据挖掘技术在课程相关性中的应用研究[J].西昌学院学报（自然科学版）,2007,21(2):67-69. 被引量：2
2方芳,周力.WEB访问信息挖掘中的关联规则发现算法的研究[J].南昌航空工业学院学报,2005,19(4):73-76. 被引量：1
3李新良.数据挖掘在教学测评系统中的应用与研究[J].湖南人文科技学院学报,2007,24(6):45-48. 被引量：3
4丁明,熊才权.群体研讨环境中面向主张的关联规则分析[J].计算机与数字工程,2011,39(6):36-40.
5刘春贵,赵筱蓉.PLC控制在高压系统中的应用[J].四川冶金,2000,22(2):57-59.
6张永梅,许静,郭莎.基于堆排序的重要关联规则挖掘算法研究[J].计算机技术与发展,2016,26(12):45-48. 被引量：2
7朱益立,邓珍荣,谢攀.基于有向无环图的频繁模式挖掘算法[J].计算机工程与设计,2017,38(5):1237-1241. 被引量：6
8叶梦雄.基于关联规则挖掘算法的教务管理系统设计[J].机械设计与制造工程,2018,47(8):123-126. 被引量：4
9许悦.应用.NET和数据挖掘技术的高职科研管理系统设计研究[J].电脑知识与技术,2018,14(8X):48-50. 被引量：3
10徐学红,陆伟,杨余旺.一种改进的线性时间封闭项集挖掘算法[J].科学技术与工程,2018,18(18):241-246.

同被引文献23

1张建城,朱金福.航空公司收益管理预测系统的总体设计[J].中国科技信息,2004(24):107-107. 被引量：2
2陈秋明.数据挖掘在常旅客系统中的应用[J].计算机系统应用,2007,16(1):63-65. 被引量：1
3吴斌,肖刚,陆佳炜.基于关联规则挖掘领域的Apriori算法的优化研究[J].计算机工程与科学,2009,31(6):116-118. 被引量：22
4徐琪,徐月芳.航线团队旅客收益管理双层规划模型[J].电子设计工程,2012,20(2):20-23. 被引量：1
5张敏,姚良威,侯宇.基于向量和矩阵的频繁项集挖掘算法研究[J].计算机工程与设计,2013,34(3):939-943. 被引量：7
6郝平,倪国华,余育青.基于OLAP分析和关联规则的区域能耗预警系统研究[J].浙江工业大学学报,2013,41(5):534-538. 被引量：6
7罗丹,李陶深.一种基于压缩矩阵的Apriori算法改进研究[J].计算机科学,2013,40(12):75-80. 被引量：46
8杨绣丞,李彤,赵娜,梁利刚,李超.计算排序算法设计与分析[J].计算机应用研究,2014,31(3):658-662. 被引量：7
9周蔷,刘长有.基于随机特性的航空机票动态超售模型[J].系统工程理论与实践,2014,34(3):717-722. 被引量：9
10宁小美,马占春.基于约束弱关联的海量基因配对关系挖掘模型[J].计算机仿真,2014,31(5):402-406. 被引量：2

引证文献3

1张永梅,许静,郭莎.基于堆排序的重要关联规则挖掘算法研究[J].计算机技术与发展,2016,26(12):45-48. 被引量：2
2曹卫东,翟盼盼,朱远知.基于MapReduce的民航收益漏洞规则提取研究[J].计算机仿真,2017,34(12):9-13.
3郝平,郑洲,郝卿颖,余育青.智能电子监察模型研究与应用[J].浙江工业大学学报,2018,46(1):21-26. 被引量：1

二级引证文献3

1于庆年.上证指数与股票收盘价相关性实证研究[J].数理统计与管理,2018,37(2):362-370. 被引量：1
2杨珍,耿秀丽.考虑多粒度属性约简的关联规则挖掘研究[J].计算机工程与应用,2019,55(6):133-139. 被引量：9
3张美玉,林崇,简琤峰.基于路径排序算法的STEP知识推理技术研究[J].浙江工业大学学报,2020,48(2):126-132. 被引量：8

1胡渭琦,邹仕洪,程时端,胡博,王文东.基于Cluster的无线Mesh网络位置管理方法[J].软件学报,2010,21(6):1404-1415. 被引量：1
2曾宇,王洁,孙凝晖.曙光5000A高效能计算节点的设计与实现[J].计算机工程,2009,35(6):17-19. 被引量：2
3霍绍博,耿君毅,单莘,李栓林,鲁瑞,王晓颖,付长冬.基于云计算的可扩展云教室解决方案的设计与实现[J].计算机应用与软件,2016,33(2):81-83. 被引量：1
4王柯杰.网络环境下提升计算机教育效果的研究[J].电子技术与软件工程,2016(14):11-11.
5李小庆.农发行信息资源整合及综合利用平台的建设[J].华南金融电脑,2007,15(2):84-88.
6袁文亮,钟宝荣,何先平.基于Cluster的并行内存数据库恢复机制的设计与实现[J].太原师范学院学报（自然科学版）,2013,12(4):69-73. 被引量：1
7卢燕宁,耿国华.基于Cluster的多服务器容错与切换技术的研究[J].微机发展,2001,11(6):28-30. 被引量：6
8潘伟华,沈云付,颜鹤.基于MPI的连铸模拟并行计算[J].计算机工程与设计,2005,26(2):348-350. 被引量：1
9袁文亮,钟宝荣,何先平.基于Cluster的并行内存数据库恢复子系统模型研究[J].池州学院学报,2013,27(6):45-47.
10魏蕾,冯妍,胡红梅.数据结构课程教学改革探索[J].新课程,2015,0(36):37-37.

计算机应用

2015年第A02期

浏览历史

内容加载中请稍等...

基于clustering算法的事务抽样关联规则挖掘算法被引量：3

参考文献15

二级参考文献33

共引文献13

同被引文献23

引证文献3

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于clustering算法的事务抽样关联规则挖掘算法 被引量：3

参考文献15

二级参考文献33

共引文献13

同被引文献23

引证文献3

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于clustering算法的事务抽样关联规则挖掘算法被引量：3