一种基于有向树挖掘Web日志中最大频繁访问模式的方法被引量：9

A directed tree based approach for mining maximum frequent access patterns in Web logs

下载PDF

导出

摘要提出了一种基于Apriori思想的挖掘最大频繁访问模式的s-Tree算法。该算法使用有向树表示用户会话,能挖掘出最大前向引用事务和用户的浏览偏爱路径;使用一种基于内容页面优先的支持度计算方法,能挖掘出传统算法不能发现的特定的用户访问模式;使用频繁模式树连接分层的频繁弧克服了图结构数据挖掘算法中直接连接两个频繁模式树要判断连接条件的缺点,同时采用预剪枝策略,降低了算法的开销。实验表明,s-Tree算法具有可扩展性,运行效率比直接采用图结构数据挖掘算法要高。 A novel Apriori-based algorithm named s-Tree was proposed for mining maximum frequent access pattems in Web logs. The main contributions of the novel algorithm were as follows. Firstly, the directed tree was used to represent the user session, which enabled us to mine the maximum forward reference transaction and the users＇ preferred access path. Secondly, a novel method for counting supporting degree based on content first, which helped us to discover some more important and interesting patterns than normal methods. Thirdly, two special strategies were adopted to reduce the overhead of jointing frequent pattems. Experiment results show that the s-Tree algorithm is scalable, and is more efficient than previous graph-based structure pattem mining algorithms such as AGM（ Apriori-based Graph Mining） and FSG（ Frequent Subgraph Discovery）.

作者詹宇斌殷建平张玲龙军程杰仁

机构地区国防科学技术大学计算机学院

出处《计算机应用》 CSCD 北大核心 2006年第7期1662-1665,共4页 journal of Computer Applications

基金国家自然科学基金资助项目(60373023)

关键词 WEB使用挖掘最大频繁访问模式有向树 WEB日志 Web usage mining maximum frequent access pattern directed tree Web logs

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献12

1SRIVASTAVA J, COOLEY R, DESHPANDE M, et al. Web usage mining: Discovery and applications of usage patterns from Web data[J]. SIGKDD Explorations, 2000, 1(2): 12 -23.
2KOSALA R, BLOCKEEL H. Web mining research: a survey[ J].ACM SIGKDD Explorations, 2000, 2(1).
3韩家炜,孟小峰,王静,李盛恩.Web挖掘研究[J].计算机研究与发展,2001,38(4):405-414. 被引量：356
4PEI J, HAN J, MORTAZAVI-ASL B, et al. Mining access patterns efficiently from Web logs[ A]. Proceedings of 4th Pacific Asia Conference on Knowledge Discovery and Data Mining[ C]. Tokyo, Japan, 2000.
5HAN J, PEI, J, YIN Y. Mining frequent patterns without candidate generation[ A]. SIGMOD2000[ C].2000.
6SUN L, ZHANG X. Efficient Frequent Pattern Mining on Web Logs[ A]. APWeb 2004[ C].2004. 533 -542.
7AGRAWAL R, SRIKANT R. Fast algorithms for mining association rules in large database[ A]. VLDB1994[C].1994. 487 -499.
8EZEIFE C, LU Y. Mining Web Log Sequential Patterns with Position Coded Pre-Order Linked WAP-Tree [ J]. Data Mining and Knowledge Discovery, 2005, 10( 1 ) : 5 - 38.
9INOKUCHI A, WASHIO T, MOTODA H. An apriori-based algorithm for mining frequent substructures from graph data[ A]. PKDD2000[C]. Lyon, France, 2000.
10KURAMOCHI M, KARYPIS G. Frequent subgraph discovery[ A].ICDM2001 [ C]. San Jose, USA, 2001.

二级参考文献17

1Rakesh Agrawal, Ramakrishnan Srikant. Fast algorithms for mining association rules in large databases. VLDB1994, Santiago,Chile, 1994.
2Heikki Mannila, et al. Search and borders of theories in knowledge discovery. Data Mining and Knowledge Discovery,1997, 1(3): 241～258.
3Jong Soo Park, et al. An effective Hash based algorithm for mining association rules. SIGMOD1995, San Jose, USA, 1995.
4Sergey Brin, et al. Dynamic itemset counting and implication rules for market basket data. SIGMOD1997, Tucson, USA,1997.
5Ramesh C. Agarwal, et al. Depth first generation of long patterns, KDD 2000, Boston, USA, 2000.
6Ramesh C. Agarwal, et al. A tree projection algorithm for generation of frequent itemsets. J. of Parallel and Distributed Computing, 2001, 61(3): 350～371.
7Jiawei Han, Jian Pei, Yiwen Yin. Mining frequent patterns without candidate generation. SIGMOD2000, Dallas, USA, 2000.
8J. Pei, et al.. H-Mine: Hyper-structure mining of frequent patterns in large databases. ICDM'01, San Jose, CA, 2001.
9Mike Perkowitz, Oren Etzioni. Adaptive sites: Automatically learning from user access patterns. WWW' 97, Santa Clara, 1997.
10J. Pei, et al.. PrefixSpan: Mining sequential patterns efficiently by prefix-projected pattern growth. ICDE'01, Heidelberg, 2001.

共引文献370

1杨洋.Web数据挖掘的分析与探讨[J].装备制造技术,2006(5):63-64. 被引量：1
2王志明,沙莎.Web文本挖掘技术在新闻主题检测中的应用研究[J].长沙大学学报,2007,21(5):58-60. 被引量：2
3阿静.政企互动打假树维权典范——爱普生打印机胜诉“骗保门”事件[J].办公自动化,2006(14):10-11.
4董德民.面向电子商务的Web使用挖掘及其应用研究[J].中国管理信息化（综合版）,2006,9(10):83-85. 被引量：1
5杜志文,曾文华.网格计算在文本分类中的应用[J].微电子学与计算机,2006,23(Z1):221-222.
6张克君,李伯群,李欣,杨炳儒.基于DWLMS模型的分布式Web用户访问模式挖掘[J].清华大学学报（自然科学版）,2005,45(S1):1762-1766. 被引量：2
7万君,耿东辉.浅说电子商务中的数据挖掘技术[J].东北大学学报（自然科学版）,2004,25(Z1):194-196.
8许亮,李明,梁素田,侯耕.数据挖掘技术在电子商务中的应用[J].甘肃科学学报,2002,14(S1):17-20. 被引量：1
9王丽娜.Web日志挖掘技术研究[J].光盘技术,2008(4):34-36. 被引量：2
10李慧.数据挖掘技术探讨及其基于web的应用研究[J].硅谷,2008,1(22):71-71.

同被引文献65

1涂承胜,陆玉昌.Web使用挖掘技术研究[J].小型微型计算机系统,2004,25(7):1177-1184. 被引量：37
2朱永泰,王晨,洪铭胜,汪卫,施伯乐.ESPM——频繁子树挖掘算法[J].计算机研究与发展,2004,41(10):1720-1727. 被引量：18
3闫莺,王大玲,于戈.支持个性化推荐的Web页面关联规则挖掘算法[J].计算机工程,2005,31(1):79-81. 被引量：19
4战立强,刘大昕.基于访问路径树的Web频繁访问路径挖掘算法研究[J].计算机应用研究,2005,22(1):96-98. 被引量：4
5於志文,周兴社,谷建华,张勇.电视节目个性化技术的研究[J].小型微型计算机系统,2005,26(1):105-110. 被引量：9
6徐章艳,刘美玲,张师超,卢景丽,区玉明.Apriori算法的三种优化方法[J].计算机工程与应用,2004,40(36):190-192. 被引量：71
7郭岩,白硕,于满泉.Web使用信息挖掘综述[J].计算机科学,2005,32(1):1-7. 被引量：50
8汪卫,周皓峰,袁晴晴,楼宇波,施伯乐.基于图论的频繁模式挖掘[J].计算机研究与发展,2005,42(2):230-235. 被引量：17
9杨捷,毋国庆.根据用户行为网上导航的方法[J].计算机研究与发展,2005,42(5):765-770. 被引量：2
10赵红玲,宋瀚涛,牛振东,刘桂山.Web日志挖掘中数据预处理的研究[J].计算机应用研究,2005,22(6):67-69. 被引量：20

引证文献9

1宁小红,余森森.基于s-Tree算法的个性化推荐服务研究[J].计算机科学,2007,34(4):217-221. 被引量：2
2吴雯雯,王浩,杨静.基于选择偏爱度的频繁模式挖掘算法[J].微计算机应用,2008,29(4):11-14. 被引量：1
3徐春选,姜伟.个性化推荐技术在电子商务中的实现[J].电脑知识与技术,2008(6):1279-1281.
4周军,姜元春,林文龙.基于有向带权图的Web用户浏览行为模型[J].情报理论与实践,2008,31(5):795-798. 被引量：1
5郭欣,许林英.改进的关联规则算法在电子商务中的应用[J].微处理机,2008,29(5):79-81.
6吴海燕,朱靖君,高国柱,程志锐.基于改进的AprioriAll算法的Web序列模式挖掘研究[J].计算机工程与设计,2010,31(5):921-924. 被引量：5
7许世杰,刘弘.基于初始路径优化的蚁群算法及应用[J].计算机工程与设计,2010,31(5):1031-1034. 被引量：3
8周方,周根宝.Web使用挖掘中的会话识别算法[J].内蒙古农业大学学报（自然科学版）,2010,31(4):234-236. 被引量：1
9刘美玲,苏毅娟.基于Apriori的Web访问模式挖掘算法[J].计算机与现代化,2013(10):1-5. 被引量：3

二级引证文献16

1任永功,付玉,张亮,吕君义.一种新的基于Web日志的挖掘用户浏览偏爱路径的方法[J].计算机科学,2008,35(10):192-196. 被引量：4
2任永功,付玉,张亮.一种改进的用户浏览偏爱路径挖掘方法[J].计算机工程,2009,35(8):47-49. 被引量：1
3方杰,张结魁,周军.基于有向带权图的页面聚类算法研究[J].计算机技术与发展,2009,19(9):49-53. 被引量：2
4蔡俊,宋顺林.基于Web日志的频繁偏爱路径挖掘算法[J].计算机工程与设计,2009,30(24):5615-5617. 被引量：3
5贾祥素,吴菁.基于改进蚁群算法服装运输车辆路径优化研究[J].浙江纺织服装职业技术学院学报,2013,12(3):68-72. 被引量：2
6黄宏涛.Web日志挖掘中改进的会话识别方法[J].福建电脑,2014,30(11):181-182.
7陈小健,宋承继.数据挖掘技术在科研项目量化与评价中的应用[J].电子设计工程,2015,23(12):37-40. 被引量：4
8陶惠,蒋凡.改进的序列模式挖掘在医院转诊中的应用[J].计算机系统应用,2015,24(10):253-258. 被引量：1
9王翠青,杨晓彤,陈未如.基于支持量的并发序列模式挖掘方法[J].计算机工程与设计,2016,37(1):156-162. 被引量：3
10武健.网络用户访问模式挖掘算法研究[J].计算机工程与应用,2016,52(5):61-64. 被引量：4

1宋荣,李霞婷.基于多标记有向树模型的XML文档片段相似度量方法研究[J].电子技术与软件工程,2013(10):49-49.
2王波,丁军娣,陈松灿.TWO IMPROVED GRAPH-THEORETICAL CLUSTERING ALGORITHMS[J].Transactions of Nanjing University of Aeronautics and Astronautics,2012,29(3):263-272. 被引量：2
3林靖,潘广贞.基于多边形包围的无线传感器网络边缘检测算法[J].微电子学与计算机,2015,32(2):153-155.
4柳柏濂.有向树的几个组合问题[J].数学物理学报（A辑）,1991,11(2):194-197.
5陈(钅东).m 元有向树图的绘制[J].计算机应用与软件,1993,10(5):61-64.
6王学玲,王志海,王建林.基于有向树算法构造的TAN分类器[J].计算机工程与设计,2008,29(13):3451-3453. 被引量：1
7郭维,欧阳一鸣,郭骏.Web挖掘中基于交集算法发现用户频繁访问模式[J].合肥工业大学学报（自然科学版）,2006,29(12):1511-1515.
8徐敏政,许珺,陈娱.复杂网络中连通支配中心性的计算[J].复杂系统与复杂性科学,2014,11(4):41-47. 被引量：4
9程传良,纪志坚,董洁,李自强.有向树图下的多智能体系统能控性分析[J].青岛大学学报（工程技术版）,2016,31(2):7-13. 被引量：2
10邓燕子,卢朝阳,李静.结合场景结构和条件随机场的道路检测[J].华中科技大学学报（自然科学版）,2016,44(9):20-25. 被引量：2

计算机应用

2006年第7期

浏览历史

内容加载中请稍等...

一种基于有向树挖掘Web日志中最大频繁访问模式的方法被引量：9

参考文献12

二级参考文献17

共引文献370

同被引文献65

引证文献9

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

一种基于有向树挖掘Web日志中最大频繁访问模式的方法 被引量：9

参考文献12

二级参考文献17

共引文献370

同被引文献65

引证文献9

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

一种基于有向树挖掘Web日志中最大频繁访问模式的方法被引量：9