期刊文献+

网页超链抓取及自动分类技术实现 被引量:4

A Scheme of Extraction Hyperlink from Web Page and Automatic Classification
在线阅读 下载PDF
导出
摘要 为网络环境下个性化信息服务系统实现自动建库功能,提出了一种网络蜘蛛程序的技术方案.该方案使用DELPHI集成开发环境提供的TIdhttp组件抓取网页文本,并利用正则表达式和Mshtml组件从中提取超链信息保存到指定数据库,并能对网页文本进行自动的统计分类. To enable the individualized information service system in the network environment have the function of automatic database building, proposes a basic technical scheme of web Crawler. This scheme includes Tidhttp component in Delphi IDE to capture the text from web pages, Regular Expression and MShtml component to extract hyperlink data from web pages. Finally, this scheme provide a simple arithmetic to classify the content of web pages automatically.
出处 《河北大学学报(自然科学版)》 CAS 北大核心 2007年第1期99-102,共4页 Journal of Hebei University(Natural Science Edition)
基金 河北省软科学资助项目(05457203D-2)
关键词 超链抓取 正则表达式 DELPHI extraction of hyperlink regular expression DELPHI
  • 相关文献

参考文献4

  • 1DAVID BOLTON . Writing a Web Robot in Delphi[EB/OL]. (2001-7-28) [2006-10-30]. http://www, howtodothings.eom/eomputers/a1264-writing-a-web- robot-in-delphi.html.
  • 2维基百科.Hyperlink[EB/OL].[2006—11—6].http://en.wikipedia.org/wiki,q-Iyperlink.
  • 3微软公司网站.正则表达式介绍[EB/OL].[2006—10—31].http://msdn2.microsoft.com/zh—cn/library/28hw3sce(S.80).
  • 4RORBERT..Delphi使用正则表达式[EB/0L]..http://robert2005.bokee.com/4237344,,[2006-01-19]..

同被引文献18

引证文献4

二级引证文献10

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部