一种新型的Web挖掘数据采集模型被引量：5

A New Web Mining Data Integration Model Based on XML

下载PDF

导出

摘要本文在简要论述了当前Web挖掘采用的数据源不足后,分析了XML文档结构与Web挖掘算法结构的相似性,提出了采用XML技术在应用服务层采集用户访问数据的数据源模型X-DIM,并分析了它的优越性。该模型克服了以往基于Web访问日志在数据预处理中的一系列问题,具有数据完备、准确度高、便于为挖掘算法使用等优点,有较高的应用价值。 The paper briefly describes the demerits of insufficient data sources adopted in the current Web mining,analyses the similarity between the XML document structure and the Web mining algorithm structure,proposes a data source model X-DIM of adopting the XML technology in the application service layer to sample users＇ access data,and analyes its advantages.The model overcomes a series of problems previously encountered in data preprocessing based on the Web access log,and features the merits of data completeness,high accuracy,ease of use in mining algorithms,and high application value.

作者胡迎松宁海霞

机构地区华中科技大学计算机科学与技术学院

出处《计算机工程与科学》 CSCD 2007年第2期36-39,共4页 Computer Engineering & Science

关键词 XML X-DIM WEB挖掘电子商务 XML,X-DIM,Web mining,E-commerce

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献5

1Kohavi R,Mason L,Parekh R,et al.Lessons and Challenges from Mining Retail.E-Commerce Data[J].Machine Learning Journal,2004,57(1/2):83-113.
2涂承胜,陆玉昌.Web使用挖掘技术研究[J].小型微型计算机系统,2004,25(7):1177-1184. 被引量：37
3卢正鼎,张素智.集成Web数据的系统框架与实现方法[J].小型微型计算机系统,2003,24(10):1759-1763. 被引量：6
4Estiévenart F,Francois A,Henrard J,et al.A Tool-Supported Method to Extract Data and Schema from Web Sites[A].Proc of the 5th IEEE Int'l Workshop on Web Site Evolution[C].2003.
5李颖基,彭宏,郑启伦.统一事件Web挖掘模型[J].计算机应用研究,2004,21(3):47-49. 被引量：1

二级参考文献36

1[1]Cooley R,Mobasher B,Srivastava J.Grouping Web Page References into Transactions for Mining World Wide Web Browsing Patterns[R].Minneapolis,USA,Dept.of Computer Science,Univ.of Minnesota,1997.
2[2]Cooley R,Mobasher B,Srivastava J.Data Preparation for Mining World Wide Web Browsing Patterns[J].Knowledge and Information Systems,1999,1(1):5- 32.
3[3]Berent B,Mobasher B,Spiliopoulou M,et al.Measuring the Accuracy of Sessionizers for Web Usage Analysis[C].Workshop on Web Mining at the First SIAM International Conference on Data Mining,Chicago,USA,2001.7- 14.
4[4]The Common Logfile Format[EB/OL].http://www.w3.org/Daemon/User/Config/Logging.html#common-logfile-format,2003.
5[5]Ansari S,Kohavi R,Mason L,et al.Integrating E-commerce and Data Mining:Architecture and Challenges[C].The 2001 IEEE International Conference on Data Mining,San Jose,California,USA,2001.27- 34.
6[6]Kohavi R.Mining E-commerce Data:The Good,the Bad,and the Ugly[C].Proceedings of the Seventh ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,2001.8- 13.
7[7]Shahabi,Zarkesh A M,Adibi J,et al.Knowledge Discovery from Users Web-page Navigation[C].Workshop on Research Issues in Data Engineering,Birmingham,England,1997.
8[8]Zarkesh,Adibi J,Shahabi C,et al.Analysis and Design of Server Informative WWW-sites[C].Sixth International Conference on Information and Knowledge Management,Las Vegas,Nevada,1997.254- 261.
9[9]Han J W,Pei J,Yin Y W.Mining Frequent Patterns without Candidate Generation[C].2000 ACM SIGMOD Intl.Conference on Management of Data,USA,2000.1- 12.
10[10]Mao R.Adaptive-FP:An Efficient and Effective Method for Multi-Level Multi-Dimensional Frequent Pattern Mining[M].Master Thesis.BC,Canada: Simon Fraser University,2001.

共引文献41

1陈丽娟,陶莉.基于Web服务的XML数据集成方案研究[J].福建电脑,2005,21(8):35-35.
2张素智,李宏伟,卢正鼎.WEB数据集成系统中元数据的管理[J].计算机工程与应用,2005,41(21):189-191. 被引量：5
3李超锋.Web使用挖掘数据源分析[J].中南民族大学学报（自然科学版）,2005,24(4):82-85. 被引量：7
4余强,张海盛.个性化Web信息服务技术研究[J].计算机应用研究,2006,23(2):198-200. 被引量：13
5李颢富,杨宏,苑津莎.基于Web服务/XML的配电网信息发布集成研究[J].电力系统通信,2006,27(3):48-50.
6程宝雷.一个基于C/S模式的通用主界面的设计方案[J].计算机与现代化,2006(8):124-126. 被引量：1
7贾虹.基于Web使用挖掘的数字图书馆个性化服务[J].河南图书馆学刊,2006,26(4):58-62. 被引量：5
8黄永青,凌海峰,梁昌勇.网络教育资源浏览的导航模型及其挖掘算法[J].合肥工业大学学报（自然科学版）,2006,29(9):1077-1080. 被引量：1
9王玉姣.Web使用挖掘研究分析[J].国外电子测量技术,2007,26(1):39-42.
10易明,张扬.基于全信息的“点击流”信息资源开发利用研究[J].情报科学,2007,25(2):198-203. 被引量：3

同被引文献27

1董德民.面向电子商务的Web使用挖掘及其应用研究[J].中国管理信息化（综合版）,2006,9(10):83-85. 被引量：1
2侯文国,傅秀芬,谢翠萍.网格的数据挖掘[J].计算机应用研究,2004,21(10):241-243. 被引量：25
3陶树平,钱挺.一种网格平台数据挖掘服务模式及其算法[J].计算机工程,2005,31(5):109-111. 被引量：10
4冯凌,林杰,雷星晖.Web日志数据挖掘模型研究[J].计算机集成制造系统,2005,11(8):1073-1075. 被引量：8
5段立娟.Web挖掘的敏感信息过滤模型[J].信息安全与通信保密,2007,29(1):69-71. 被引量：9
6钱亚东,顾新建,马军,王生发,陈芨熙.支持协同设计的知识管理研究[J].浙江大学学报（工学版）,2007,41(2):304-310. 被引量：22
7尹中强.电子商务中的Web数据挖掘技术应用[J].科技信息,2007(4):52-52. 被引量：1
8刘立军,周军,梅红岩.Web使用挖掘的数据预处理[J].计算机科学,2007,34(5):200-201. 被引量：22
9刘海,张卫民,任开军.一种网格环境下的软件配置管理系统[J].计算机工程与科学,2007,29(8):105-107. 被引量：2
10SR1KANT R, AGRAWAL R. Mining quantitative association rules in large relational tables[J]. ACM SIGMOD Record, 1996,25(2) :1-12.

引证文献5

1周杰.数据挖掘应用于电子商务中存在的问题[J].电子商务,2008,9(8):47-48.
2郭小雪.基于网格的分布式数据挖掘[J].计算机工程与科学,2009,31(10):118-121. 被引量：2
3代风,顾新建,胡恒杰,祁国宁,张玉梅,王海军.基于网络的专利管理信息和决策平台[J].浙江大学学报（工学版）,2009,43(10):1858-1863. 被引量：4
4刘慧君,朱庆生,张程,周明强.基于用户兴趣的Web日志挖掘算法[J].计算机集成制造系统,2009,15(11):2209-2215. 被引量：4
5张天珍.基于Web的办公室自动化(OA)系统的设计与实现[J].网友世界,2012(5):34-38. 被引量：1

二级引证文献11

1黄翔,费洪晓.一种改进的web挖掘聚类算法[J].硅谷,2010,3(13):11-12.
2刘中宇,李延霞.模糊评价在精品课程更新检测中的应用研究[J].现代教育技术,2010,20(12):125-129. 被引量：3
3王爱民,周文俊.复杂项目危机管理网格系统研究[J].情报杂志,2011,30(5):156-160. 被引量：3
4曹晓军,彭会萍.基于粒度计算的Web日志关联规则挖掘[J].计算机应用与软件,2012,29(4):156-158.
5王爱民.复杂项目危机研究回顾与展望[J].工业技术经济,2012,31(4):119-124.
6胡杰,何小菁,仝亮.企业专利采集与服务系统的设计与实现[J].情报杂志,2012,31(10):136-140. 被引量：2
7杜聪,王锁柱.基于情景和用户兴趣度的移动Web预取方法[J].计算机工程与设计,2014,35(7):2380-2383. 被引量：1
8姚倩.基于网络的办公室自动化建设探讨[J].自动化与仪器仪表,2014(12):164-165.
9杨长青,李峰,石建强,常有利.基于PDCA的企业专利管理系统[J].计算机系统应用,2015,24(10):58-61.
10刘喜莲.企业专利管理中的主要问题与对策分析[J].才智,2014(35):386-386.

1韦建杰.云计算环境下的数据采集模型分析[J].信息通信,2014,27(7):142-142. 被引量：2
2王骐,蔡子元,范慧璞.入侵检测中基于检测点覆盖度的包流量模型[J].压电与声光,2014,36(5):853-856.
3牛世章.运用XML实现异构数据库的数据转换[J].电脑知识与技术（过刊）,2013,19(3X):1733-1735. 被引量：2
4郑耿,刘国平.网络化控制系统中的实时数据采集[J].吉林大学学报（工学版）,2004,34(z1):314-317.
5陈新.文件档案信息管理系统的构建模型[J].信息技术与信息化,2014(8):121-122.
6王子君,许维胜,王中杰,吴启迪.网络控制系统信源模型分析与实例仿真[J].信息与控制,2007,36(3):392-396.
7刁志刚.基于嵌入式无线网络数据采集模型的设计与实现[J].科技信息,2011(8):249-250. 被引量：1
8耿亚玮,熊桂喜.一种用于数据库搜索引擎的数据采集模型[J].微计算机信息,2007,23(33):136-138. 被引量：8
9胡友民,杜润生,杨叔子.制造系统数据采集技术研究[J].制造业自动化,2002,24(3):23-27. 被引量：16
10罗俊,蒋铃鸽,何晨,冯宸,郑春雷.Two States CBR Modeling of Data Source in Dynamic Traffic Monitoring Sensor Networks[J].Journal of Shanghai Jiaotong university(Science),2007,12(5):618-622. 被引量：1

计算机工程与科学

2007年第2期

浏览历史

内容加载中请稍等...

一种新型的Web挖掘数据采集模型被引量：5

参考文献5

二级参考文献36

共引文献41

同被引文献27

引证文献5

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

一种新型的Web挖掘数据采集模型 被引量：5

参考文献5

二级参考文献36

共引文献41

同被引文献27

引证文献5

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

一种新型的Web挖掘数据采集模型被引量：5