期刊文献+

网际网上半结构化数据抽取与知识发现方法及其实现 被引量:7

On Semi-structured Data Extraction from WWW and Its Schema Knowledge Discovery Method
在线阅读 下载PDF
导出
摘要 1.引言在信息化程度日益提高的今天,半结构化信息已遍及社会的各个领域。例如,网际网(World WideWeb,又称WWW)已成为一个巨大的信息源,然而WWW上的信息并不能以一种通用的方式进行查询及操纵,大量的信息是以静态的HTML文本形式存储并只能通过浏览器来浏览,因此如何有效利用这类信息显得尤为重要。 It is well known that World Wide Web has become a huge information resource. However, the information on WWW can not be queried and mainpulated in a general way. Large amount of information is stored in a static HTML format and can only be viewed through browser. Therefore, it is very important for us to utilize this kind of information effectively. This paper proposes a semi-structured data extraction method to get the useful information embedded in a group of relevant web pages, and store it with OEM (Object Exchange Model). Then, we adopt data mining method to discover schema knowledge implicit in the semi-structured data.
出处 《计算机科学》 CSCD 北大核心 1999年第10期49-52,共4页 Computer Science
基金 国家自然科学基金
关键词 网际网 数据抽取 知识发现 半结构化数据 Semi-structured data, Knowledge discovery
  • 相关文献

参考文献2

共引文献33

同被引文献47

  • 1陈国良,林洁,顾乃杰.分布式存储的并行串匹配算法的设计与分析[J].软件学报,2000,11(6):771-778. 被引量:10
  • 2宋伟(SONG Wei).Internet数据挖掘原理及实现(Internet data mining principle and implementation)[J].重庆:重庆通信学院学报(Chongqing: Chongqing University of Post and Telecommunication ),2001,13(2):58-58.
  • 3Mohseni 张录娥 译.Web数据库开发人员指南(The GuidebookWeb of Web Database development personnel)[M].北京:机械工业出版社(Beijing:China machine press),1997.120-124.
  • 4朱洪,陈增武,段振华等.算法设计与分析.上海:上海科技文献出版社.2005.
  • 5HAN Jia-wei,Micheline Kamber. Data Mining Concepts and Techniques. 北京:机械T工业出版社,2001,8.
  • 6Kurt Cagle.XML高级开发指南.北京:电子工业出版社,2001,6.
  • 7陈国良.并行算法的设计与分析.北京:高等教育出版社,2004,5.
  • 8Florescu D Levy Alon,et al. Database Techniques for the World-Wide-Web: A Surver
  • 9Simple Object Access Protocol(SOAP)11.W3C Note 08 May 2000. http://wwww3org/TR/SOAP/
  • 10SOAP Toolkit,20.Microsoft Corp, http://msdnmicrosoftcom/ soap.

引证文献7

二级引证文献35

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部