一种基于XML的Web数据抽取的实现被引量：3

Realized of XML-based Web Data Extraction

下载PDF

导出

摘要 Web数据挖掘的研究越来越广泛,对Web数据的抽取则是研究的前提和必要的步骤。而当前Web信息大多数都是HTML格式的,存在很多缺陷。针对目前研究,简单地介绍了XML及它的特点,并且对HTMLandXML从开放性、可操作性等几个方面做了比较,显示出了XML的优越性。最后利用一个实例简述了基于XML的数据抽取过程。 The research on Web mining become more and more abroad in the world, and Web data extraction is the precise and necessary procedure of the research. However, large volume of current Web information which existed many defects is constructed in HTML format. According to this current study of the forms. XML and it＇s characteristics briefy are introduced. Then compared the HTML and XML from the following ty etc. In order to show the superiority of XML, a true example is used to brief the ly. aspects, such as ： opening, operabiliprocess of the Web extraction, final-

作者李雪竹

机构地区合肥工业大学计算机与信息学院宿州学院计算机科学与技术系

出处《科学技术与工程》 2008年第9期2473-2476,共4页 Science Technology and Engineering

关键词 XML标记语言HTML WEB挖掘数据抽取 extensible markup language HTML Web mining extract data

分类号 TP311.11 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献2

1邹筱梅.XML技术与应用综述[J].教育信息化,2003(5):69-71. 被引量：3
2吕锋,余丽.基于XML的Web数据抽取研究[J].计算机技术与发展,2007,17(6):53-55. 被引量：5

二级参考文献8

1杨鲲,孟波.一种基于XML的Web数据挖掘方法[J].计算机应用,2003,23(z1):160-161. 被引量：9
2刘晓鹏,邢长征.基于WEB文本数据挖掘的研究[J].计算机与数字工程,2005,33(9):75-79. 被引量：10
3卢海鹏,周之英.WWW应用与标记语言[J].计算机科学,1999,26(1):9-13. 被引量：6
4李薇,李志蜀,尹皓.XML——新的Web开发工具[J].计算机应用,1999,19(5):23-26. 被引量：9
5杨冬青,裴健,唐世渭.未来十年数据库系统研究方向——Asilomar报告[J].计算机科学,1999,26(9):5-9. 被引量：7
6沈洁,薛贵荣.一种基于XML的Web数据挖掘模型[J].系统工程理论与实践,2002,22(9):74-77. 被引量：33
7王建丽,丁振国.一种基于XML的Web数据挖掘技术[J].西安科技学院学报,2002,22(3):337-340. 被引量：8
8蔡霞,张森,周宇.模式发现在Web抽取中的应用及设计[J].控制工程,2003,10(3):227-229. 被引量：7

共引文献6

1刘洋,唐英敏.一种古琴减字谱符号的结构化描述方法[J].北京信息科技大学学报（自然科学版）,2010,25(S2):61-65. 被引量：1
2邱鑫,林颖,王保保.基于XML的嵌入式系统日志解决方案[J].计算机技术与发展,2009,19(5):52-55. 被引量：1
3王建胜,高翔.基于Web的HSE监督信息系统的设计与实现[J].计算机技术与发展,2010,20(10):228-231.
4徐进强.XML语言在Web开发中的应用研究[J].软件导刊,2013,12(12):33-35. 被引量：1
5张志强,杨在义,叶安胜,王伟钧.股票交易数据文件的抽取算法研究[J].成都大学学报（自然科学版）,2014,33(3):262-265.
6张志强,王伟钧,郑加林,杨晋浩.一种混沌状态数据包的数据抽取算法设计与实现[J].成都大学学报（自然科学版）,2018,37(1):45-48. 被引量：1

同被引文献13

1陶以政,唐定勇,何铁宁,李秋灵,周南华,雷海红.基于Java和XML技术的异构信息系统数据集成框架应用研究[J].计算机应用研究,2004,21(5):38-40. 被引量：26
2谢星峰,邹平.基于异构数据库环境数据抽取的系统结构研究——Java和XML的解决方案[J].计算机与数字工程,2005,33(3):28-30. 被引量：5
3蔚晓娟,冉静,李爱华,尹治本.基于DOM的XML解析与应用[J].计算机技术与发展,2007,17(4):86-88. 被引量：25
4马瑞民,李向云.Web日志挖掘中数据预处理技术的研究[J].计算机工程与设计,2007,28(10):2358-2360. 被引量：19
5吴海.基于AJAX技术开发Web信息系统的应用研究[J].装备制造技术,2007(7):83-85. 被引量：2
6Cooley R, Sfivastava J. Grouping Web page references into transactions for mining world wide Web browsing patterns [ C ]//Proceedings of KDEX' 97. Newport Beach, CAUSA: [s.n. ], 1997:2- 7.
7Wong J S K, Nayar R. A framework for a world wide web based data mining system[J]. Journal at Network and Computer Applications, 2000,21 : 163 - 185.
8Pei J ,Han J. Mining access patterns efficiently from Web logs [ C ]//Sun Liping, Zhang Xiuzhen. PAKDD' 00, Kyoto, Japan2000. Effident Frequent Pattern Mining on Web Logs. APWeb 2004. [s. l. ] : [s. n. ] ,2004:533 - 542.
9Ezeife,Lu Yi. Mining Web Log Sequential Patterns with Position Coded Pre - Order Linked WAP - Tree [ J ]. Data Mining and Knowledge Discovery,2005 (10):5- 38.
10Delphi[ EB/OL]. 2009 - 03 - 21. hrtp://baike, baidu, com/ view/3297, htm. baidu, Linking- 2009 - 03 - 21.

引证文献3

1方杰,朱京红.日志挖掘中的数据预处理[J].计算机技术与发展,2010,20(4):17-20. 被引量：6
2杜秀亭,张春芳.Ajax技术在内蒙古烟草外部网站建设中的应用研究[J].内蒙古大学学报（自然科学版）,2010,41(4):460-462.
3郭东峰.基于DOM的Web数据抽取研究[J].科技创新与应用,2013,3(18):77-77. 被引量：1

二级引证文献7

1李卿.数据挖掘在校园网日志分析中的应用研究[J].软件导刊,2011,10(12):168-169. 被引量：1
2陈红丽,李春生,张明.Web日志挖掘中数据预处理方法研究[J].科学技术与工程,2012,20(8):1928-1930. 被引量：3
3曾永忠,张帅,马忠权.一种基于用户会话的异常检测方法[J].计算机技术与发展,2014,24(7):141-144.
4刘华春,侯向宁,杨忠.基于聚类与关联的入侵检测系统研究设计[J].计算机技术与发展,2015,25(7):133-137.
5汪政.基于教育数据仓库查询日志的内容分析[J].湖南第一师范学院学报,2016,16(2):100-104.
6戴莉萍.基于Qt与Android的实验查错系统设计[J].实验室研究与探索,2017,36(1):132-135. 被引量：3
7李伟伟,张涛,马媛媛,周诚.电力业务系统海量SQL访问日志预处理方法[J].电信科学,2015,31(S1):120-124. 被引量：1

1谷岩,冯华.利用数据仓库技术解决异构数据库的集成问题[J].计算机应用与软件,2005,22(6):24-26. 被引量：11
2李春艳,徐保民.Web数据抽取技术研究初探[J].电脑知识与技术,2009,0(12Z):9920-9922. 被引量：3
3王洪香,王志刚.基于异构数据库集成问题的探讨与实现[J].硅谷,2009,2(12):58-58.
4龚建华.用于数据抽取的数据表末尾移动排序算法[J].办公自动化,2014,19(10):33-34.
5程奕,王申康.多Agent系统模型的结构研究[J].浙江理工大学学报（自然科学版）,2009,26(1):98-103. 被引量：3
6邓箴.Web文本数据抽取中文本预处理研究[J].跨世纪,2008,16(11):224-224.
7赵太祥,马玉龙,周雨.数据仓库在异构数据库集成中的应用[J].计算机与网络,2012,38(7):70-71. 被引量：4
8郑承满,石爱华,刘宏吉.ETL开发实施中质量保证的关键步骤[J].中国金融电脑,2006(1):60-62. 被引量：2
9欧家祥,王吉,王俊融.基于数据库模式的数据质量审核方法研究[J].贵州电力技术,2014,17(5):55-57.
10谢维成,吕先竞,宋玉忠.基于XML的Web数据抽取模型研究(英文)[J].西华大学学报（自然科学版）,2006,25(1):82-86.

科学技术与工程

2008年第9期

浏览历史

内容加载中请稍等...

一种基于XML的Web数据抽取的实现被引量：3

参考文献2

二级参考文献8

共引文献6

同被引文献13

引证文献3

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

一种基于XML的Web数据抽取的实现 被引量：3

参考文献2

二级参考文献8

共引文献6

同被引文献13

引证文献3

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

一种基于XML的Web数据抽取的实现被引量：3