摘要
为网络环境下个性化信息服务系统实现自动建库功能,提出了一种网络蜘蛛程序的技术方案.该方案使用DELPHI集成开发环境提供的TIdhttp组件抓取网页文本,并利用正则表达式和Mshtml组件从中提取超链信息保存到指定数据库,并能对网页文本进行自动的统计分类.
To enable the individualized information service system in the network environment have the function of automatic database building, proposes a basic technical scheme of web Crawler. This scheme includes Tidhttp component in Delphi IDE to capture the text from web pages, Regular Expression and MShtml component to extract hyperlink data from web pages. Finally, this scheme provide a simple arithmetic to classify the content of web pages automatically.
出处
《河北大学学报(自然科学版)》
CAS
北大核心
2007年第1期99-102,共4页
Journal of Hebei University(Natural Science Edition)
基金
河北省软科学资助项目(05457203D-2)