一种改进的Web日志会话识别方法被引量：7

An Improved Method for Transaction Session Identification in Web Usage Mining

下载PDF

导出

摘要会话识别是Web日志挖掘中的数据预处理中的一个重要步骤。文中提出了一种改进的会话识别方法。首先,在用户识别后,进行框架页面的过滤,从而大大地减少了实验产生的有效页面,然后为页面设置访问时间阈值,并根据页面内容及站点结构确定的页面重要程度对该阈值进行调整。通过实验证明,相对于传统的对所有页面使用单一的先验阈值进行会话识别的方法,该方法所得到的会话集更具有真实性。 Session identification is an important step in data preproce^ing of web log mining, an access intervals- based improvement was carried out of transaction session identification in web usage mining. After identifying users, effective web pages in experiment are reduced greatly by filtering frame pages, and the access time threshold was adjusted by the web contents and site＇s structure on this condition. Compared to the traditional method that defines a uniform a threshold for all web pages experimentally, the approach presented can decide the access time threshold more accurately. Algorithm enhancing the quality of transaction session is proved by experiments.

作者方元康胡学钢夏启寿

机构地区合肥工业大学计算机信息学院池州学院计算机中心

出处《计算机技术与发展》 2008年第11期214-216,共3页 Computer Technology and Development

基金安徽省自然科学基金项目(KJ2008B116) 池州学院自然科学基金项目(XK0829)

关键词 WEB挖掘数据预处理阈值 Frame页面会话识别 Web mining data preprocessing threshold frame page session ident ification

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1熊忠阳,周亚峰.Web访问挖掘的预处理技术的研究[J].计算机技术与发展,2007,17(8):11-14. 被引量：19
2金松河,钱慎一,张素智.Frame页面过滤算法在Web日志挖掘预处理中的应用[J].云南民族大学学报（自然科学版）,2006,15(1):63-65. 被引量：2
3韩家炜,孟小峰,王静,李盛恩.Web挖掘研究[J].计算机研究与发展,2001,38(4):405-414. 被引量：356

二级参考文献15

1杨怡玲,管旭东,尤晋元.IMPROVING THE INTERESTINGNESS OF WEB USAGE MINING[J].Journal of Shanghai Jiaotong university(Science),2002,7(1):15-22. 被引量：1
2Han J，Data Mining:Concepts and Techniques，2000年
3Wang K，Proc of VLDB'97，1999年，363页
4Zaiane O R，Proc Int Workshop Web Information and Data Management（WIDM'98），1998年，9页
5Mobasher B，Tech Rep:TR96 0 5 0，1996年
6Zaiane O R，Proc KDD'95，1995年，331页
7Han Jiawei,Kamber M.Data Mining[M].Beijing:Higher Education Press,2000.
8Serivastava J,Cooley R,Deshpande M,et al.Web Usage Mining:Discovery and Applications of Usage Patterns from Web Data[J].ACM SIGKDD Explorations,2000,1 (2):12-23.
9Spiliopoulou M,Mobasher B,Berendt B,et al.A framework for the evaluation of session reconstruction heuristics in Web usage analysis[J].Informs Journal on Coumputing,2003,15(5):171-179.
10Baglioni M,Ferrara U,Romei A,et al.Preprocessing and mining Weblog data for Web personalization[C]//Proceedings of 8th Natl' conf of the Italian Association for Artificial Intelligence.Pisa,Italy:[s.n.],2003.

共引文献372

1杨洋.Web数据挖掘的分析与探讨[J].装备制造技术,2006(5):63-64. 被引量：1
2王志明,沙莎.Web文本挖掘技术在新闻主题检测中的应用研究[J].长沙大学学报,2007,21(5):58-60. 被引量：2
3阿静.政企互动打假树维权典范——爱普生打印机胜诉“骗保门”事件[J].办公自动化,2006(14):10-11.
4董德民.面向电子商务的Web使用挖掘及其应用研究[J].中国管理信息化（综合版）,2006,9(10):83-85. 被引量：1
5杜志文,曾文华.网格计算在文本分类中的应用[J].微电子学与计算机,2006,23(z1):221-222.
6张克君,李伯群,李欣,杨炳儒.基于DWLMS模型的分布式Web用户访问模式挖掘[J].清华大学学报（自然科学版）,2005,45(S1):1762-1766. 被引量：2
7万君,耿东辉.浅说电子商务中的数据挖掘技术[J].东北大学学报（自然科学版）,2004,25(z1):194-196. 被引量：1
8许亮,李明,梁素田,侯耕.数据挖掘技术在电子商务中的应用[J].甘肃科学学报,2002,14(S1):17-20. 被引量：1
9王丽娜.Web日志挖掘技术研究[J].光盘技术,2008(4):34-36. 被引量：2
10李慧.数据挖掘技术探讨及其基于web的应用研究[J].硅谷,2008,1(22):71-71.

同被引文献30

1郭岩,白硕,于满泉.Web使用信息挖掘综述[J].计算机科学,2005,32(1):1-7. 被引量：50
2庄力可,寇忠宝,张长水.网络日志挖掘中基于时间间隔的会话切分[J].清华大学学报（自然科学版）,2005,45(1):115-118. 被引量：24
3杜家强,韩其睿,王科,杜家兴.Web日志中用户频繁路径快速挖掘算法[J].计算机工程与应用,2005,41(22):164-167. 被引量：12
4王中海.基于Web的数据挖掘——网络挖掘[J].图书馆学刊,2006,28(3):35-36. 被引量：3
5潘有能.基于XML的Web日志挖掘研究[J].现代图书情报技术,2006(5):62-64. 被引量：2
6殷贤亮,张为.Web使用挖掘中的一种改进的会话识别方法[J].华中科技大学学报（自然科学版）,2006,34(7):33-35. 被引量：27
7王岚,翟正军.Web日志挖掘的预处理及路径补全算法的研究[J].微电子学与计算机,2006,23(8):113-116. 被引量：11
8马瑞民,李向云.Web日志挖掘中数据预处理技术的研究[J].计算机工程与设计,2007,28(10):2358-2360. 被引量：19
9韩家炜.数据挖掘概念与技术[M].范明,孟小峰,译.北京:机械工业出版社,2006.
10朱明.数据挖掘[M].合肥:中国科学技术大学出版社,2008.

引证文献7

1孙宇航,孙应飞.基于网络日志的数据挖掘预处理改进方法[J].系统工程与电子技术,2009,31(12):2994-2997. 被引量：5
2张毅.Web日志挖掘中会话识别方法研究[J].计算机应用与软件,2010,27(6):92-94. 被引量：4
3毕永成.Web日志挖掘中预处理过程的具体研究[J].现代电子技术,2010,33(18):97-100. 被引量：2
4夏惠芬,董卫民.基于关联规则的Web挖掘技术研究[J].现代电子技术,2011,34(16):100-102. 被引量：4
5张晓伟.一种动态时间阈值的会话识别算法[J].山东电力高等专科学校学报,2012,15(4):35-37.
6龚垒,黄永毅.Frame页面网络日志数据挖掘预处理方法[J].电子技术与软件工程,2016(11):190-190.
7龚垒.基于特征类别均衡的文本分类分类方法[J].电子世界,2017,0(13):54-54. 被引量：1

二级引证文献16

1夏惠芬,董卫民.基于关联规则的Web挖掘技术研究[J].现代电子技术,2011,34(16):100-102. 被引量：4
2陈红丽,李春生,张明.Web日志挖掘中数据预处理方法研究[J].科学技术与工程,2012,20(8):1928-1930. 被引量：3
3彭晶.浅谈Web日志挖掘技术[J].计算机光盘软件与应用,2012,15(4):40-40.
4韩法旺.Web日志挖掘数据预处理过程研究[J].南京工业职业技术学院学报,2012,12(2):53-56. 被引量：3
5凌海峰,余笪.基于聚类的Web用户会话识别优化方法[J].计算机应用研究,2012,29(8):2862-2864. 被引量：1
6李健森,白万民.一种改进的距离度量的聚类算法[J].电子设计工程,2012,20(22):86-88. 被引量：3
7凌海峰,曹荣涛.基于混合蚁群算法的Web用户会话聚类[J].计算机工程与应用,2013,49(22):136-138. 被引量：2
8李小娇,马吉明,张向梅.一种具有分类细化功能的垃圾语言识别方法[J].郑州轻工业学院学报（自然科学版）,2014,29(1):94-97. 被引量：1
9丁玲,王孟阳.基于冲突识别的远程教育录播系统备保切换的设计与仿真[J].现代电子技术,2014,37(10):73-76.
10卢远征,叶晓彤,胡阳波,刘欣.一种基于粗集和SVM的Web日志挖掘模型[J].电子设计工程,2014,22(19):54-56.

1方元康,胡学钢,夏启寿.Web日志预处理中优化的会话识别方法[J].计算机工程,2009,35(7):49-51. 被引量：11
2龚垒,黄永毅.Frame页面网络日志数据挖掘预处理方法[J].电子技术与软件工程,2016(11):190-190.
3方元康,胡学钢,夏启寿.Web日志挖掘中数据预处理技术研究[J].安庆师范学院学报（自然科学版）,2008,14(3):107-110. 被引量：2
4汪瑛.Web日志挖掘中Frame页面过滤的研究与实现[J].福建电脑,2009,25(2):92-92.
5方元康,胡学钢,夏启寿,朱勇.基于框架网页与页面阈值的会话识别算法[J].计算机应用与软件,2009,26(1):18-19.
6杨波,谭敏清,等.用FrontPage98作框架页面[J].湖北商检科技,1999(3):7-9.
7方元康,胡学钢,夏启寿,朱勇.改进的Web日志数据预处理技术[J].计算机工程,2009,35(10):73-74. 被引量：3
8杨怡玲,管旭东,尤晋元.Web日志挖掘预处理中的Frame页面过滤算法[J].计算机工程,2001,27(2):76-77. 被引量：14
9孙宇航,孙应飞.基于网络日志的数据挖掘预处理改进方法[J].系统工程与电子技术,2009,31(12):2994-2997. 被引量：5
10金松河,钱慎一,张素智.Frame页面过滤算法在Web日志挖掘预处理中的应用[J].云南民族大学学报（自然科学版）,2006,15(1):63-65. 被引量：2

计算机技术与发展

2008年第11期

浏览历史

内容加载中请稍等...

一种改进的Web日志会话识别方法被引量：7

参考文献3

二级参考文献15

共引文献372

同被引文献30

引证文献7

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

一种改进的Web日志会话识别方法 被引量：7

参考文献3

二级参考文献15

共引文献372

同被引文献30

引证文献7

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

一种改进的Web日志会话识别方法被引量：7