Web使用挖掘中数据预处理过程研究被引量：6

Research on process of data preprocessing in Web usage mining

下载PDF

导出

摘要 Web使用挖掘是将数据挖掘技术应用于用户浏览Web时交互作用的二次数据以发现使用模式,从而达到更好地理解和服务基于Web应用的需要的目的。在将数据挖掘算法应用于从服务器日志收集来的数据之前必须要进行一些预处理工作。数据预处理就是把源数据转换为下一步应用数据挖掘算法所必须的数据抽象的过程。作为模式发现的数据源,数据预处理结果的质量直接影响着模式发现的最终结果。本文提出了几种可用于提高数据预处理性能的技术和方法。实验证明,这些技术和方法是有效的。最后,总结全文并提出了进一步的研究方向。 Web usage mining is the application of data mining techniques to discover usage patterns from the secondary data derived from the interactions of the users while surfing on the Web, in order to understand and better serve the needs of Web-based applications. There are several preprocessing tasks that must be performed prior to applying data mining algorithms to the data collected from server logs. Data preprocessing is the process to convert the raw data into the data abstraction necessary for the further applying＇ the data mining algorithm. As the data sources of patterns discovery,the results＇ quality of data preprocessing influences the results of patterns discovery directly. This paper presents several data preparation techniques and methods that can be used to improve the performance of data preprocessing in order to identify unique users and user sessions. These techniques and methods have been proved valid and efficient by experiments. Finally, we conclude this paper and propose the future research directions.

作者李超锋杨殿生许云

机构地区中南民族大学管理学院鄂州大学马鞍山市农业发展银行

出处《电子测量技术》 2007年第3期3-5,共3页 Electronic Measurement Technology

基金湖北省科技攻关项目(2005101C18) 中南民族大学自然科学基金项目

关键词 WEB使用挖掘 WEB日志数据预处理用户会话 Web usage mining Web log data preprocessing user session

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1JAIDEEP S, ROBERT C, MUKUND D. Web usage mining: discovery and applications of usage patterns from Web data [J]. SIGKDD Explorations, 2000, 1(2):1-12.
2李超锋.Web使用挖掘数据源分析[J].中南民族大学学报（自然科学版）,2005,24(4):82-85. 被引量：7
3MOBASHER B. Discovery and evaluation of aggregate usage profiles for Web personalization [J]. Data Mining and Knowledge Discovery, 2002,6 (1) : 61-82.
4SHAHABI C, KASHANI F B. A framework for efficient and anonymous Web usage mining based onclient-side tracking [J]. Proc WEBKDD 2001: Mining Web Log Data across All Customer Touch Points,LNCS 2356, Springer-Verlag, 2002 : 113-144.
5ZHANG F, CHANG H Y. Research and development in Web usage mining system-key issues and proposed solutions: a survey [J]. Machine Learning and Cybernetics, 2002 (2) : 986-990.
6BERENDT B. The impact of site structure and user environment on session reconstruction in Web usageanalysis [J]. Proc WEBKDD 2002: Mining Web Datafor Discovery Usage Patterns and Profiles, LNCS2703, Springer-Verlag, 2002 : 159-179.
7TANASA D, TROUSSE B. Data preprocessing for WUM. Potentials [J]. IEEE,2004(3):22- 25.
8TANASA D, TROUSSE B. Advanced data preprocessing for intersites Web usage mining.Intelligent Systems [J]. IEEE, 2004 (19) : 59-65.
9ZHANG H Y, LIANG W A. An intelligent algorithm of data pre-processing in Web usage mining [Z].Intelligent Control and Automation, WCICA 2004,Fifth World Congress, 4 : 3119-3123.
10FANG Y, WANG L J, GE Y. Study on data preprocessing algorithm in Web log mining. Machine Learning and Cybernetics[C]. 2003 International Conference, 2003,1 : 28-32.

二级参考文献7

1涂承胜,陆玉昌.Web使用挖掘技术研究[J].小型微型计算机系统,2004,25(7):1177-1184. 被引量：37
2Zhang Feng, Chang Huiyou. Research and development in Web usage mining system-key issues and proposed solutions, a survey [J]. Machine Learning and Cybernetics, 2002, (2):986- 990.
3Srivastava J, Cooley R, Deshpande M, Tan Pangning. Web usage mining:discovery and applications of usage patterns from web data[J]. SIGKDD Explorations ,2000, 1(2): 1-12.
4Cohen E, Krishnamurthy B, Rexford J. Improving end-to-end performance of the web using server volumes and proxy filters [J]. ACM SIGCOMM Computer Communication Review, 1998, 28 (4) : 241-253.
5Shahabi C, Zarkesh A, Adibi J, et al. Knowledge discovery from users web-page navigation [J].Proceedings of the IEEE RIDE97 Workshop, 1997,(4):20-29.
6Chen M S, Park JS, Yu PS. Data mining for path traversal patterns in a web environment [J].Proceedings of the 16th ICDCS, IEEE, 1996, (5) :385-392.
7Cooley R, Mobasher B, Srivastava J. Data preparation for mining world wide web browsing patterns[J].Knowledge and Information Systems, 1999, (1):127.

共引文献6

1李超锋.Web使用挖掘中数据预处理算法的设计与实现[J].中南民族大学学报（自然科学版）,2007,26(1):56-60. 被引量：2
2李晓勇.Web挖掘在电子商务中的应用的综述[J].科技资讯,2007,5(35):229-229.
3李超锋,卢炎生.基于URL结构和访问时间的Web页面访问相似性度量[J].计算机科学,2007,34(4):207-209. 被引量：4
4张沛露,王建军.基于关联规则的Web个性化服务研究[J].广西轻工业,2010,26(11):74-74.
5张沛露,王建军.Web日志挖掘数据预处理方法研究[J].吉林建筑工程学院学报,2010,27(6):66-68. 被引量：1
6丁璨.论链接服务侵犯著作权中的服务器原则适用[J].法制与社会（旬刊）,2017,0(7):290-292. 被引量：2

同被引文献41

1张慧颖,梁伟.Web使用挖掘中的数据预处理算法研究[J].微型机与应用,2004,23(8):25-28. 被引量：5
2王玉珍.基于电子商务的Web挖掘技术研究[J].北京电子科技学院学报,2005,13(4):22-25. 被引量：7
3许明旺,施润身.维规约技术综述[J].计算机应用,2006,26(10):2401-2404. 被引量：3
4石岩.Web挖掘技术在电子商务中的应用[J].科技情报开发与经济,2006,16(23):235-236. 被引量：6
5郑晓星,吴今培.基于支持向量数据描述的数据约简[J].现代电子技术,2007,30(2):74-76. 被引量：6
6刘立军,周军,梅红岩.Web使用挖掘的数据预处理[J].计算机科学,2007,34(5):200-201. 被引量：22
7张松林,张昆.空间自相关局部指标Moran指数和G系数研究[J].大地测量与地球动力学,2007,27(3):31-34. 被引量：142
8BN S,Moywanir.What can you do with a Web in your pocket[J].Data Engineering Bulletin,1998,21(2):37-47.
9Graham-Cummngj.Hits and misses:a year watching the web[C]//proc of the 6th Int'1 World Wide Web Conference Santa Clara:Elsevier Science,1997,118-123.
10Pyle D.Data Preparation for Data Mining[M].Morgan Kaufmann Publishers Inc,San Francisco,CA,1999:540.

引证文献6

1王中生,刘猛.基于重定向技术的Honeynet入侵模式算法研究[J].电子测量技术,2008,31(12):27-30. 被引量：1
2成保梅.Web数据挖掘在电子商务中的应用[J].福建电脑,2009,25(5):105-106. 被引量：1
3王晓静,张晋.WEB使用挖掘中的数据预处理分析与算法研究[J].辽宁大学学报（自然科学版）,2009,36(2):157-160. 被引量：1
4张金辉,钟声.Web数据挖掘在电子商务中的应用[J].电脑知识与技术,2010,6(4):2315-2316.
5黄山,刘学锋,毛建华,李银桥.基于关联规则的大数据领域人才需求分析[J].工业控制计算机,2017,30(8):78-80. 被引量：7
6方乐宏,郝文宁,余晓晗,陈刚.基于用户兴趣度的数据归约效果评估方法[J].计算机工程与应用,2017,53(15):144-148. 被引量：1

二级引证文献11

1周方,周根宝.Web使用挖掘中的会话识别算法[J].内蒙古农业大学学报（自然科学版）,2010,31(4):234-236. 被引量：1
2贺恒松,李文明,李文锋.基于FP-growth的数据关联改进算法[J].电子测量技术,2017,40(9):58-64. 被引量：3
3费建刚,梁建国.数据挖掘技术在学生成绩分析中的应用[J].电脑知识与技术,2013,9(8X):5391-5393.
4周燕,朱艳丽,杨敏.基于企业人才需求分析的高校本科人才培养模式的改革研究[J].高教学刊,2019,5(11):167-169. 被引量：5
5朱思霖,郭丽清.基于前程无忧招聘信息的数据人才需求分析[J].物联网技术,2019,9(8):112-116. 被引量：7
6范洁,崔高颖,周玉,陆婋泉,吴伟将.IPC多机通讯系统集散式数据实时算法[J].电子设计工程,2020,28(4):77-81.
7吕宏玉,杨建林.基于在线评论的就业行业情报挖掘研究——以图书情报专业求职者为例[J].情报理论与实践,2020,43(9):63-71. 被引量：7
8黄智柯,程贞敏.数据分析人才培养与建议——基于数据挖掘招聘信息[J].软件,2021,42(4):23-27. 被引量：4
9王德庄,林萌萌.图书情报硕士数据类岗位胜任力模型构建研究——基于企业招聘网站的数据分析[J].情报探索,2024(6):1-9.
10曾浩,方敏,禹水琴.成都市高职学历大数据人才需求分析与预测[J].现代营销（信息版）,2019(9):185-186. 被引量：1

1胡朝清.基于Linux环境下防御系统数据收集方法的研究[J].中国科技信息,2013(15):85-85.
2詹玲,马骏,陈伯江,陈维梁,吕睿.分布式I/O日志收集系统的设计与实现[J].计算机工程与应用,2010,46(36):88-90. 被引量：6
3李志刚,张鑫,赵青娟,纪占林.构建基于FlumeNG的海量日志收集系统[J].消费电子,2013(14):79-79.
4尼春雨.事件查看器:忠诚的电子眼[J].电脑应用文萃,2005(4):48-48.
5郝郁,徐炜民.可扩展的Web日志采集框架的设计与实现[J].计算机应用与软件,2008,25(1):261-263.
6于秦.基于Apache Flume的大数据日志收集系统[J].中国新通信,2016,18(18):41-41. 被引量：3
7林辉玉.云方案的安全日志收集[J].网络安全和信息化,2016,0(10):19-20.
8John Howie,盛青(译).中小企业的企业级事件日志工具[J].Windows IT Pro Magazine（国际中文版）,2007(7):50-52.
9朱晓亮,陈云芳,陆有为.基于rsyslog系统日志的收集与分析[J].网络安全技术与应用,2012(12):5-7. 被引量：2
10傅朝阳,翟玉庆.数字权限管理安全审计系统的设计与实现[J].苏州科技学院学报（工程技术版）,2005,18(1):86-90. 被引量：3

电子测量技术

2007年第3期

浏览历史

内容加载中请稍等...

Web使用挖掘中数据预处理过程研究被引量：6

参考文献10

二级参考文献7

共引文献6

同被引文献41

引证文献6

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

Web使用挖掘中数据预处理过程研究 被引量：6

参考文献10

二级参考文献7

共引文献6

同被引文献41

引证文献6

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

Web使用挖掘中数据预处理过程研究被引量：6