期刊文献+

Web使用挖掘中的数据预处理方法 被引量:2

Data preprocessing method in Web usage mining
在线阅读 下载PDF
导出
摘要 对Web使用挖掘的数据预处理的数据清理、用户识别、会话识别、路径补充和事务识别5个主要步骤的最新研究进展进行综述.采用拓扑结构结合引用页的路径补充算法和采用最大向前引用的事务识别算法,识别特性单一、对训练数据集的要求较高,故离实际应用还有一定的距离.针对此,从Cookie技术和启发式规则相结合、动态时间阈值法以及多特性融合等方面对数据预处理的用户识别、会话识别和事务识别提出了优化建议. Advances in major steps of data preprocessing in the field of Web usage mining,including data cleaning,user identification,session identification,path complement and transaction identification were reviewed.The path complement algorithm using topology combines reference page and the session identification algorithm using maximum forward have feature a single identification and on the training data set with higher requirements.And there is quite far distance from real application.To optimize the algorithms in data pre-processing of user identification,session identification and transaction identification,several aspects such as Cookie technology and heuristic rules,the method of dynamic time threshold and method of multi-feature fusion are proposed.
出处 《郑州轻工业学院学报(自然科学版)》 CAS 2010年第4期71-74,共4页 Journal of Zhengzhou University of Light Industry:Natural Science
基金 湖南省教育厅资助科研项目(08C335) 湖南科技大学教学研究与改革重点项目(G30946)
关键词 WEB挖掘 网络日志 数据预处理 Web mining Web log data preprocessing
  • 相关文献

参考文献15

  • 1韩家炜,孟小峰,王静,李盛恩.Web挖掘研究[J].计算机研究与发展,2001,38(4):405-414. 被引量:356
  • 2Cooley R, Tan Pangning, Srivastava J. Discovery of interesting usage patterns from Web data[J]. Lecture Notes in Comp Sci ,2000,1836 : 163.
  • 3K Pal S, Talwar V, Mitra P. Web mining in soft computing framework : relevance, state of the art and future direction [ J]. IEEE Trans on Neural Networks, 2002, 13 (5) :1163.
  • 4Zhang Huiying, Liang Wei. An intelligent algorithm of data pre-processing in Web usage mining [ C ]//Proc of the 5th World Congress Intell Control and Auto, Berlin: Springer-verlag, 2004 : 15 - 19.
  • 5刘加伶,范军.基于用户访问树的Web日志挖掘数据预处理[J].计算机科学,2009,36(9):154-156. 被引量:8
  • 6方元康,胡学钢,夏启寿.Web日志预处理中优化的会话识别方法[J].计算机工程,2009,35(7):49-51. 被引量:11
  • 7陈子军,王鑫昱,李伟.一种Web日志会话识别的优化方法[J].计算机工程,2007,33(1):95-97. 被引量:18
  • 8Spiliopoulou M, Mobasher B, Berendt B, et al. The impact of site structure and user environment on session reconstruction in Web usage analysis [ J ]. Infor J of Comp, 2003,15(2) : 171.
  • 9朱晋华,陈俊杰.Web日志预处理中会话识别的优化[J].太原理工大学学报,2008,39(2):111-114. 被引量:10
  • 10Murat A, Ismail H, Ahmet C. A new approach for reactive Web usage eata processing[ C]//Proc of the 22nd Int Conf on Data Eng Workshops, Atlanta : IEEE Comp Soc, 2006:44.

二级参考文献48

共引文献390

同被引文献7

引证文献2

二级引证文献1

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部