Web使用挖掘中的数据预处理方法被引量：2

Data preprocessing method in Web usage mining

下载PDF

导出

摘要对Web使用挖掘的数据预处理的数据清理、用户识别、会话识别、路径补充和事务识别5个主要步骤的最新研究进展进行综述.采用拓扑结构结合引用页的路径补充算法和采用最大向前引用的事务识别算法,识别特性单一、对训练数据集的要求较高,故离实际应用还有一定的距离.针对此,从Cookie技术和启发式规则相结合、动态时间阈值法以及多特性融合等方面对数据预处理的用户识别、会话识别和事务识别提出了优化建议. Advances in major steps of data preprocessing in the field of Web usage mining,including data cleaning,user identification,session identification,path complement and transaction identification were reviewed.The path complement algorithm using topology combines reference page and the session identification algorithm using maximum forward have feature a single identification and on the training data set with higher requirements.And there is quite far distance from real application.To optimize the algorithms in data pre-processing of user identification,session identification and transaction identification,several aspects such as Cookie technology and heuristic rules,the method of dynamic time threshold and method of multi-feature fusion are proposed.

作者刘上力赵劲强聂勤务

机构地区湖南科技大学网络信息中心

出处《郑州轻工业学院学报（自然科学版）》 CAS 2010年第4期71-74,共4页 Journal of Zhengzhou University of Light Industry:Natural Science

基金湖南省教育厅资助科研项目(08C335) 湖南科技大学教学研究与改革重点项目(G30946)

关键词 WEB挖掘网络日志数据预处理 Web mining Web log data preprocessing

分类号 TP392 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献15

1韩家炜,孟小峰,王静,李盛恩.Web挖掘研究[J].计算机研究与发展,2001,38(4):405-414. 被引量：356
2Cooley R, Tan Pangning, Srivastava J. Discovery of interesting usage patterns from Web data[J]. Lecture Notes in Comp Sci ,2000,1836 : 163.
3K Pal S, Talwar V, Mitra P. Web mining in soft computing framework : relevance, state of the art and future direction [ J]. IEEE Trans on Neural Networks, 2002, 13 (5) :1163.
4Zhang Huiying, Liang Wei. An intelligent algorithm of data pre-processing in Web usage mining [ C ]//Proc of the 5th World Congress Intell Control and Auto, Berlin: Springer-verlag, 2004 : 15 - 19.
5刘加伶,范军.基于用户访问树的Web日志挖掘数据预处理[J].计算机科学,2009,36(9):154-156. 被引量：8
6方元康,胡学钢,夏启寿.Web日志预处理中优化的会话识别方法[J].计算机工程,2009,35(7):49-51. 被引量：11
7陈子军,王鑫昱,李伟.一种Web日志会话识别的优化方法[J].计算机工程,2007,33(1):95-97. 被引量：18
8Spiliopoulou M, Mobasher B, Berendt B, et al. The impact of site structure and user environment on session reconstruction in Web usage analysis [ J ]. Infor J of Comp, 2003,15(2) : 171.
9朱晋华,陈俊杰.Web日志预处理中会话识别的优化[J].太原理工大学学报,2008,39(2):111-114. 被引量：10
10Murat A, Ismail H, Ahmet C. A new approach for reactive Web usage eata processing[ C]//Proc of the 22nd Int Conf on Data Eng Workshops, Atlanta : IEEE Comp Soc, 2006:44.

二级参考文献48

1费爱国,王新辉.一种基于Web日志文件的信息挖掘方法[J].计算机应用,2004,24(6):57-59. 被引量：24
2庄力可,寇忠宝,张长水.网络日志挖掘中基于时间间隔的会话切分[J].清华大学学报（自然科学版）,2005,45(1):115-118. 被引量：24
3殷贤亮,张为.Web使用挖掘中的一种改进的会话识别方法[J].华中科技大学学报（自然科学版）,2006,34(7):33-35. 被引量：27
4纪良浩,王国胤,杨勇.基于协作过滤的Web日志数据预处理研究[J].重庆邮电学院学报（自然科学版）,2006,18(5):646-649. 被引量：9
5陈子军,王鑫昱,李伟.一种Web日志会话识别的优化方法[J].计算机工程,2007,33(1):95-97. 被引量：18
6易芝,汪林林,王练.基于关联规则相关性分析的Web个性化推荐研究[J].重庆邮电大学学报（自然科学版）,2007,19(2):234-237. 被引量：11
7Fu Yongjian, Sandhu K, Shih M A. Generalization-based Approach to Clustering of Web Usage Session[C]//Proc. of 1999 KDD Workshop Web Mining. [S. l.]: Springer-Verlag, 2000.
8Cooley R, Mobasher B, Srivastava J. Data Preparation for Mining World Wide Web Browsing Patterns[J]. Knowledge and Information System, 1999, 1(1): 32-40.
9Spiliopoulou M, Mobasher B, Berendt B, et al. Framework for the Evaluation of Session Reconstruction Heuristics in Web Usage Analysis[J]. Informs Journal of Computing, 2003, 15(2): 171-179.
10Chen M S. Park J S. Yu P S. Data Mining for Path Traversal Patterns in a Web Environment[C]//Proc. of the 16th international Conf. on Distributed Computing System. [S. l.]: IEEE CS Press, 1996: 385-392.

共引文献390

1杨洋.Web数据挖掘的分析与探讨[J].装备制造技术,2006(5):63-64. 被引量：1
2王志明,沙莎.Web文本挖掘技术在新闻主题检测中的应用研究[J].长沙大学学报,2007,21(5):58-60. 被引量：2
3阿静.政企互动打假树维权典范——爱普生打印机胜诉“骗保门”事件[J].办公自动化,2006(14):10-11.
4董德民.面向电子商务的Web使用挖掘及其应用研究[J].中国管理信息化（综合版）,2006,9(10):83-85. 被引量：1
5杜志文,曾文华.网格计算在文本分类中的应用[J].微电子学与计算机,2006,23(z1):221-222.
6张克君,李伯群,李欣,杨炳儒.基于DWLMS模型的分布式Web用户访问模式挖掘[J].清华大学学报（自然科学版）,2005,45(S1):1762-1766. 被引量：2
7万君,耿东辉.浅说电子商务中的数据挖掘技术[J].东北大学学报（自然科学版）,2004,25(z1):194-196. 被引量：1
8许亮,李明,梁素田,侯耕.数据挖掘技术在电子商务中的应用[J].甘肃科学学报,2002,14(S1):17-20. 被引量：1
9王丽娜.Web日志挖掘技术研究[J].光盘技术,2008(4):34-36. 被引量：2
10李慧.数据挖掘技术探讨及其基于web的应用研究[J].硅谷,2008,1(22):71-71.

同被引文献7

1焦李成.智能数据挖掘与知识发现[M]西安:西安电子科技大学出版社,20068.
2朱晋华,陈俊杰.Web日志预处理中会话识别的优化[J].太原理工大学学报,2008,39(2):111-114. 被引量：10
3刘加伶,范军.基于用户访问树的Web日志挖掘数据预处理[J].计算机科学,2009,36(9):154-156. 被引量：8
4张润,周大镯.电子商务中Web数据挖掘技术应用探讨[J].中国西部科技,2010,9(20):11-13. 被引量：5
5彭敢.浅析关联规则与Apriori算法在网上销售记录中的运用[J].科技经济市场,2011(1):18-19. 被引量：3
6王竝,刘钊.基于数据挖掘的网络日志分析[J].苏州大学学报（自然科学版）,2011,27(2):43-47. 被引量：3
7陈思慧,宁晓梅.数据挖掘在个性化远程教育中的应用[J].福建电脑,2011,27(4):138-139. 被引量：4

引证文献2

1关德君.基于数据挖掘的网络教学平台决策支持系统研究[J].轻工科技,2013,29(11):74-75. 被引量：1
2曹智勇,陈妤倩.基于数据挖掘的网络教学决策支持系统研究[J].计算机光盘软件与应用,2012,15(15):269-270.

二级引证文献1

1黄应红.计算机故障检测中数据挖掘的运用分析[J].硅谷,2014,7(17):76-77. 被引量：1

1田丹,左风朝,解振华.基于Petri网的Web日志挖掘路径补充算法[J].信息系统工程,2010,23(8):92-93.
2金艳云,李红兵.个性化学习系统中Web日志挖掘的数据预处理[J].福建电脑,2008,24(12):157-157.
3高卫华,谢康林.一种新的基于交叉性Web日志的事务识别算法[J].计算机仿真,2005,22(7):51-53. 被引量：3
4刘立军,周军,梅红岩.Web使用挖掘的数据预处理[J].计算机科学,2007,34(5):200-201. 被引量：22
5TI推出综合低成本指纹开发套件[J].单片机与嵌入式系统应用,2010(5):87-88.
6崔博鑫,许蕴山,肖冰松,张波雷.基于模糊逻辑的多传感器管理算法[J].电视技术,2013,37(9):103-106. 被引量：2
7陈荣旺.一种事务识别算法的研究与改进[J].福建电脑,2007,23(10):26-27.
8M. Tamer OZSU.A survey of RDF data management systems[J].Frontiers of Computer Science,2016,10(3):418-432. 被引量：5
9郭春花,胡咏梅,付延安,姜晓娜.基于混合遗传算法的固定货架拣选问题求解[J].计算机工程与应用,2007,43(30):196-198. 被引量：2
10夏思宇,李久贤,袁晓辉,夏良正.一种基于Contourlet变换的人脸识别方法[J].信号处理,2008,24(4):631-634. 被引量：7

郑州轻工业学院学报（自然科学版）

2010年第4期

浏览历史

内容加载中请稍等...

Web使用挖掘中的数据预处理方法被引量：2

参考文献15

二级参考文献48

共引文献390

同被引文献7

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

Web使用挖掘中的数据预处理方法 被引量：2

参考文献15

二级参考文献48

共引文献390

同被引文献7

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

Web使用挖掘中的数据预处理方法被引量：2