基于项目序列集操作的关联规则挖掘算法被引量：37

Mining of Association Rules Based on the Operators of Set of Item Sequences

下载PDF

导出

摘要最大频繁项目序列集的生成是影响关联规则挖掘的关键问题 ,传统的算法是通过对事务数据库的多次扫描实现的 .最新的研究已经开始通过减少事务数据库的扫描次数进而减少挖掘过程的 I/ O代价来获得更高的效率 .随着计算机性能的提高 ,探索合适的数据结构来支持基于一次事务数据库扫描的高效算法成为可能 .该文首先给出项目序列集和它的基本操作的严格定义 ,然后在此基础上提出一个称为 ISS- DM的最大频繁项目序列集生成算法 .ISS- DM算法是通过对事务数据库的一次扫描而逐步演化成最大频繁项目序列集的 . Discovering the frequent set of item sequences in a transaction database is one of the most important tasks in mining association rules. Many algorithms have been proposed in the literatures, but most of them are based on Apriori method: pruning the itemset lattice, which need iterations to the transaction database. Recent algorithms attempted to improve the mining efficiency by reducing the number of database passes to control I/O cost. In this paper, we first define Set of Item Sequences and its basic properties, then create some operators which aim at the mining of association rules. Let ISS 1 and ISS 2 be the two variables of set of item sequences, and IS be a variable of item sequence, then the main operators are defined as follows: (1) IS ∈ sub ISS 1  IS 1 ∈ ISS 1 , have IS  IS 1 ;(2) ISS 1  sub ISS 2  IS 1 ∈ ISS 1 , have IS 1 ∈ sub ISS 2 ;(3) ISS 1 ∩ sub ISS 2 ={ IS |IS∈ sub ISS 1 and IS ∈ sub ISS 2 };(4) ISS 1 ∪ sub ISS 2 ={ IS|IS ∈ sub ISS 1 or IS ∈ sub ISS 2 }. Based on these definitions, we propose a new efficient algorithm called ISS DM which can avoid repeatedly scanning the transaction database for mining association rules. Unlike existing algorithms which are based on the pruning the itemset lattice or its improved methods, our algorithm only makes use of the two linear data structures in the memory( ISS and ISS * ), and it can obtain higher mining efficiency with less storage than other algorithms in some cases. Finally the effectiveness of this algorithm is analyzed and some experimental results are given. The experiments show that ISS DM algorithm is efficient in transaction databases of moderate size, and for some particular large databases.

作者毛国君刘椿年

机构地区北京工业大学计算机学院

出处《计算机学报》 EI CSCD 北大核心 2002年第4期417-422,共6页 Chinese Journal of Computers

基金国家自然科学基金 (60 173 0 14 ) 北京市自然科学基金(4 0 2 2 0 0 3 ) 北京市教委资金资助

关键词数据挖掘关联规则项目序列集频繁项目序列集算法数据库 data mining,association rule, set of item sequences,frequent set of item sequences

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献1

1程继华,郭建生,施鹏飞.挖掘所关注规则的多策略方法研究[J].计算机学报,2000,23(1):47-51. 被引量：22

二级参考文献7

11，Agrawal R, Mannila H, Srikant R et al. Fast discovery of association rules. In: Fayyad M, Piatetsky-Shapiro G, Smyth P eds. Advances in Knowledge Discovery and Data Mining. Menlo Park, California: AAAI/MIT Press, 1996. 307-328
22，Brin S, Motwani R, Ullman J D et al. Dynamic itemset counting and implication rules for market basket data. In: Proc the ACM SIGMOD International Conference on Management of Data, Tucson, Arizon, 1997. 255-264
33，Fayyad U M, Piatesky-shapiro G, Smyth P P. From data mining to knowledge discovery: an overview. In: Fayyad M, Piatetsky-Shapiro G, Smyth P eds. Advances in Knowledge Discovery and Data Mining. California:AAAI Press, 1996. 1-36
44，Piatesket-Shapiro G. Discovery, analysis, and presentation of strong rules. In: Piatesky-Shapiro G, Frawley W J eds. Advances in Knowledge Discovery and Data Mining. Menlo Park, California:AAAI/MIT Press, 1991. 229-238
55，Silberschatz A, Stonebraker M, Ullman J. What makes patterns interesting in knowledge discovery sysstems. IEEE Trans on Knowledge and Data Engineering, 1996, 8(6):970-974
66，Symth P, Goodman R M. An information theoretic approach to rule induction from databases. IEEE Trans on Knowledge and Data Engineering, 1992, 4(4):301-316
77，Toivonen H, Klemettinen M, Ronkainen P et al. Pruning and grouping discovered association rules. In: Mlnet Workshop on Statistics, Machine Learning, and Discovery in Database, Gete, Greece, 1995. 47-52

共引文献21

1马峻,曾建潮.一种基于Rough理论的知识推理冲突消解策略[J].数学的实践与认识,2007,37(8):66-72. 被引量：1
2田力威,尹朝万.虚拟企业专业搜索引擎中个性化用户系统设计与实现[J].小型微型计算机系统,2004,25(6):1064-1067.
3吴良杰,刘红祥,况振东.基于确信因子的有效关联规则挖掘[J].计算机工程与应用,2004,40(32):187-189. 被引量：1
4马峻,吉晓民.利用粗糙集理论实现工艺决策的冲突消解[J].计算机辅助设计与图形学学报,2005,17(3):600-604. 被引量：5
5张煜,傅家祥.列联表规整化对关联规则挖掘算法的改进[J].贵州工业大学学报（自然科学版）,2005,34(3):67-71.
6李湘军,黄燕.基于约束的关联挖掘在教学信息中的应用研究[J].科技广场,2005(6):34-38.
7张师超,倪艾玲.含缺省属性值的数据中的规则发现算法[J].计算机科学,2005,32(10):132-134. 被引量：1
8琚春华,殷贤君.基于兴趣度的数据流频繁模式散列挖掘算法[J].系统工程理论与实践,2012,32(12):2764-2773. 被引量：4
9张梅峰,张尧,张建伟,张素智.挖掘有效相联规则的算法探讨[J].郑州轻工业学院学报,2001,16(1):32-34. 被引量：1
10郭建生,赵奕,施鹏飞.一种有效的用于数据挖掘的动态概念聚类算法[J].软件学报,2001,12(4):582-591. 被引量：16

同被引文献244

1姚宇臻,林丽娟.基于决策树的外推算法在福建电网短期负荷预测中的应用[J].福建电力与电工,2007,27(2):24-27. 被引量：4
2李存荣,张开敏,杨明忠.关联知识规则在产品质量控制中的应用[J].仪器仪表学报,2004,25(z1):966-968. 被引量：2
3卿斯汉,蒋建春,马恒太,文伟平,刘雪飞.入侵检测技术研究综述[J].通信学报,2004,25(7):19-29. 被引量：237
4何友全,肖建,黄碧霞,雷妍,熊启军.一种用于数据挖掘的二进制挖掘算法[J].计算机应用研究,2004,21(5):15-16. 被引量：3
5易彤,徐宝文,吴方君.一种基于FP树的挖掘关联规则的增量更新算法[J].计算机学报,2004,27(5):703-710. 被引量：32
6牛兴雯,杨冬青,唐世渭,王腾蛟.OSAF-tree——可迭代的移动序列模式挖掘及增量更新方法[J].计算机研究与发展,2004,41(10):1760-1767. 被引量：4
7周水庚,周傲英,金文,范晔,钱卫宁.FDBSCAN:一种快速 DBSCAN算法(英文)[J].软件学报,2000,11(6):735-744. 被引量：42
8吉根林,杨明,宋余庆,孙志挥.最大频繁项目集的快速更新[J].计算机学报,2005,28(1):128-135. 被引量：47
9张桂娟,武兆慧,刘希玉.一种基于学习机制的并行遗传算法[J].计算机应用,2005,25(2):374-376. 被引量：7
10颜跃进,李舟军,陈火旺.一种挖掘最大频繁项集的深度优先算法[J].计算机研究与发展,2005,42(3):462-467. 被引量：20

引证文献37

1谢志强,朱孟杰,杨静.基于改进FP-树的最大项目集挖掘算法[J].计算机应用研究,2009,26(2):502-505. 被引量：1
2王果,何晓华,骆晓艳,胡志波,陈素.基于事物单属性的挖掘算法的研究[J].商业文化（学术版）,2009,0(8):316-316. 被引量：1
3马光志,李远敏.基于电子病历的频繁模式挖掘研究[J].计算机工程与应用,2004,40(21):226-229. 被引量：5
4赵栋,卢炎生,王涛.一种挖掘free项目集的快速算法[J].小型微型计算机系统,2004,25(10):1853-1856.
5徐爱萍,刘德喜.关联规则的下钻研究[J].计算机工程,2006,32(1):87-89.
6徐爱萍,刘德喜.基于扩展集合操作的频繁项集挖掘算法研究[J].武汉大学学报（信息科学版）,2006,31(2):184-187. 被引量：3
7刘德喜,何炎祥,邢显黎.基于下钻操作的多层关联规则挖掘算法研究[J].三峡大学学报（自然科学版）,2006,28(2):169-173.
8陈嶷瑛,武强,李文斌.频繁项目集及相关事务集的挖掘算法[J].计算机工程与应用,2006,42(15):176-178. 被引量：1
9陈嶷瑛,武强,李文斌.基于事务树操作的关联规则挖掘算法[J].计算机工程,2006,32(14):40-42. 被引量：4
10孔令富,王晗,练秋生.一种基于关联规则挖掘的组织数据方法[J].计算机工程,2006,32(21):12-14. 被引量：5

二级引证文献112

1陆杨.浅析数据挖掘技术及应用[J].电脑知识与技术（过刊）,2007(14):511-512. 被引量：2
2李赟.数据挖掘中关联规则和决策树的应用[J].科技信息,2008(24):399-400.
3严丽丽,陈鹤年,马杰.基于自适应策略的动态模拟退火遗传挖掘算法[J].软件导刊,2010,9(5):61-62.
4王盛,董黎刚,李群.一种基于逆序编码的关联规则挖掘研究[J].杭州电子科技大学学报（自然科学版）,2010,30(5):169-172. 被引量：1
5刘林东,印鉴.Web挖掘在考试系统中应用[J].计算机应用研究,2005,22(2):150-151. 被引量：13
6罗来鹏,刘二根,王广超.基于信任度的增量时态关联规则算法设计[J].华东交通大学学报,2005,22(2):86-88.
7韦华伟.企业文化培训应如何实施[J].人才资源开发,2005(8):65-66. 被引量：2
8马海兵,张锦,范颖杰,胡运发.基于静态IS-树的频繁模式挖掘[J].模式识别与人工智能,2005,18(6):664-669.
9刘翠娟,王保义,秦艳凯.基于项集特性的关联规则挖掘中Apriori算法的改进[J].山西电子技术,2005(6):20-22. 被引量：1
10晏明春,谢辉.基于绩效管理的最大频繁模式挖掘研究[J].计算机工程与应用,2006,42(5):213-216. 被引量：1

1李瑞,马春艳.改进的最大频繁项目序列集挖掘算法[J].大连交通大学学报,2008,29(2):54-57.
2张青.关联规则挖掘算法的优化[J].河南科学,2015,33(1):65-68.
3何婧,王丽珍,邹力鹍.基于云南气象数据的空间关联规则挖掘[J].计算机工程与应用,2003,39(34):187-190. 被引量：8
4毛国君,刘椿年.时态约束下的数据挖掘问题及算法[J].电子学报,2003,31(11):1690-1694. 被引量：5
5毛国君,刘椿年.基于项目序列集亚操作和数据分割的最大频繁项目序列挖掘方法(英文)[J].自动化学报,2004,30(5):772-777.
6张雷,刘中杰,刘慧巍.基于项目序列集操作理论的关联规则的挖掘算法[J].兰州工业高等专科学校学报,2005,12(4):20-24.
7宋卫林,徐惠民.基于最大频繁项目序列集挖掘DMFIA算法的改进[J].计算机工程与设计,2007,28(7):1493-1496. 被引量：1
8林钢,崔洁.闭合项目集格空间理论在期刊销售中的应用[J].泰州职业技术学院学报,2005,5(6):1-3.
9毛国君,刘椿年.分段扫描生成频繁项目序列集的挖掘算法[J].计算机工程与应用,2004,40(7):19-21.
10宋卫林,徐惠民.基于最大频繁项目序列集挖掘ISS_DM算法的改进[J].计算机工程与设计,2007,28(3):500-503.

计算机学报

2002年第4期

浏览历史

内容加载中请稍等...

基于项目序列集操作的关联规则挖掘算法被引量：37

参考文献1

二级参考文献7

共引文献21

同被引文献244

引证文献37

二级引证文献112

相关作者

相关机构

相关主题

浏览历史

基于项目序列集操作的关联规则挖掘算法 被引量：37

参考文献1

二级参考文献7

共引文献21

同被引文献244

引证文献37

二级引证文献112

相关作者

相关机构

相关主题

浏览历史

基于项目序列集操作的关联规则挖掘算法被引量：37