网页超链抓取及自动分类技术实现被引量：4

A Scheme of Extraction Hyperlink from Web Page and Automatic Classification

下载PDF

导出

摘要为网络环境下个性化信息服务系统实现自动建库功能,提出了一种网络蜘蛛程序的技术方案.该方案使用DELPHI集成开发环境提供的TIdhttp组件抓取网页文本,并利用正则表达式和Mshtml组件从中提取超链信息保存到指定数据库,并能对网页文本进行自动的统计分类. To enable the individualized information service system in the network environment have the function of automatic database building, proposes a basic technical scheme of web Crawler. This scheme includes Tidhttp component in Delphi IDE to capture the text from web pages, Regular Expression and MShtml component to extract hyperlink data from web pages. Finally, this scheme provide a simple arithmetic to classify the content of web pages automatically.

作者顾潇华郭军城

机构地区河北大学管理学院

出处《河北大学学报（自然科学版）》 CAS 北大核心 2007年第1期99-102,共4页 Journal of Hebei University(Natural Science Edition)

基金河北省软科学资助项目(05457203D-2)

关键词超链抓取正则表达式 DELPHI extraction of hyperlink regular expression DELPHI

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1DAVID BOLTON . Writing a Web Robot in Delphi[EB/OL]. (2001-7-28) [2006-10-30]. http://www, howtodothings.eom/eomputers/a1264-writing-a-web- robot-in-delphi.html.
2维基百科．Hyperlink[EB／OL]．[2006—11—6]．http：／／en．wikipedia．org／wiki,q-Iyperlink．
3微软公司网站．正则表达式介绍[EB／OL]．[2006—10—31]．http：／／msdn2．microsoft．com／zh—cn／library／28hw3sce(S．80)．
4RORBERT..Delphi使用正则表达式[EB／0L]..http：／／robert2005．bokee．com／4237344,,[2006-01-19]..

同被引文献18

1顾潇华,郝杰.关于数据库知识和信息组织知识两者关系的思考[J].情报科学,2006,24(7):1019-1022. 被引量：4
2张文健,孙绍荣.管理制度设计初探[J].商业研究,2006(15):86-89. 被引量：8
3卞斌.网站建设与维护的安全策略[J].计算机与网络,2007,33(1):55-57. 被引量：4
4宝应县山阳镇成人教育中心校.农业信息中心信息员岗位责任制[EB/OL].(2005-12-07)[2009-02-05].http://www.bysycj.com/articleview/2005-12-7/article_view_27.htm.
5[作者不详].企业信息化案例[EB/OL].[2009-02-05].http://hi.baidu.com/gaohaitao1979/blog/item/047108fb08c67024f5620.html.
6甘刃初.信息资源管理[M].北京:经济管理出版社,2000.
7甘刃初.信息资源管理.北京:经济管理出版社.2000.
8赵仁杰,李众立.网页清洗系统基于静态正则表达式的实现[J].微计算机信息,2007,23(36):226-227. 被引量：5
9闫庚.Web服务的期望与现实.
10刘洋;刘琪;曹鲁慧.网站垃圾文件的自动处理[A]江苏南京,2002.

引证文献4

1顾潇华,张千里,李洪建.我国MIS应用运行中的信息服务工作内容及管理制度[J].河北大学学报（哲学社会科学版）,2009,34(4):69-71. 被引量：6
2顾潇华,胡阳,徐杰.我国信息系统应用运行中的信息服务工作若干问题的探讨[J].新世纪图书馆,2010(4):10-12. 被引量：2
3史海燕,顾潇华,锅艳玲.MIS应用运行中信息服务支持企业经济效益的问题的探讨[J].山东图书馆学刊,2010(5):60-63. 被引量：2
4田大军,赵林亮.基于正则表达式的网站孤立文件发现机制[J].网络新媒体技术,2012,1(5):21-25.

二级引证文献10

1刘岩岭,锅艳玲,董芳.IS环境下企业信息服务管理制度的构建[J].中国商界,2010(7):244-244.
2史海燕,顾潇华,锅艳玲.MIS应用运行中信息服务支持企业经济效益的问题的探讨[J].山东图书馆学刊,2010(5):60-63. 被引量：2
3刘岩岭,锅艳玲,董芳.IS环境下企业信息服务管理制度的构建[J].科技文献信息管理,2010,24(4):8-12.
4顾潇华,锅艳玲,史海燕.MIS应用运行中信息服务支持河北省企业经济效益研究[J].山东图书馆学刊,2011(3):58-61. 被引量：1
5锅艳玲,史海燕,顾潇华.MIS运行中信息服务支持企业构建科学工资分配机制问题的研究[J].云南档案,2011(12):28-31. 被引量：1
6郝杰,张芳,锅艳玲.信息系统支持下企业信息服务基本要素的探讨[J].河北大学成人教育学院学报,2011,13(4):90-91. 被引量：1
7锅艳玲,史海燕,武小瑞.信息系统运行中信息服务支持民营企业技术创新状况研究[J].图书馆学研究,2012(1):59-62.
8和婧,张俊芝,顾潇华.分类标引与主题标引工作若干问题的探讨[J].河北科技图苑,2013,26(1):64-65. 被引量：1
9顾潇华,朱晓辉,赵世磊,吴亚辉.关于民营制造企业网站信息服务水平的探讨[J].河北科技图苑,2015,28(1):57-59.
10马晓晖,顾潇华.政府信息资源中密级信息解密管理措施的探讨[J].决策与信息,2016(9):177-178.

1陈忠菊.一种基于HTTP的网络蜘蛛实现[J].电脑编程技巧与维护,2015(7):64-64.
2姚瑞全.基于PDF文件自动建库的设计与实现[J].现代图书情报技术,2003(S2):73-74.
3朱永卿,董力军.浅谈自动建库在内部银行管理系统中的应用[J].冶建技术（二十冶）,1989(3):22-23.
4马伟锋,雷运发.基于MSHTML的精品课程网站自动生成系统的实现[J].浙江科技学院学报,2006,18(2):121-123. 被引量：2
5吕树进.利用MSHTML组件从网页上提取数据[J].保定师范专科学校学报,2004,17(4):15-17. 被引量：5
6李君,孔美云.基于组件的Web文本编辑器开发及其应用[J].微型机与应用,2007,26(S1):10-12.
7王辉,童静原,张垣,张繁.因特网科技信息资源开发利用问题探讨[J].图书情报工作,2001,45(3):53-55. 被引量：6
8肖红.CAD图档综合管理系统[J].中国重型装备,1999(3):30-32. 被引量：1
9董复光,李正敏,袁博,张树生.机绘工程图文本信息的自动提取与建库方法研究[J].机械科学与技术,1999,18(3):501-503. 被引量：1
10官春平,任惠源.基于EXCEL的AutoCAD图文档自动建库方法研究[J].广东轻工职业技术学院学报,2007,6(4):1-5. 被引量：1

河北大学学报（自然科学版）

2007年第1期

浏览历史

内容加载中请稍等...

网页超链抓取及自动分类技术实现被引量：4

参考文献4

同被引文献18

引证文献4

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

网页超链抓取及自动分类技术实现 被引量：4

参考文献4

同被引文献18

引证文献4

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

网页超链抓取及自动分类技术实现被引量：4