基于Web结构的网站新闻采集系统的设计与实现被引量：3

DESIGN AND IMPLEMENTATION OF NEWS GATHERING SYSTEMBASED ON WEB STRUCTURE

下载PDF

导出

摘要在深入研究网络信息采集技术的基础上,提出一个基于Web结构的新闻采集模型。该模型加载采集入口地址后,通过信息采集和过滤算法确定新闻列表页,结合正则表达式技术自动识别新闻内容页的链接地址,访问目标新闻内容页,使用采集算法自动提取新闻信息数据。同时,它可以过滤在此页面中嵌入的广告等信息。实践结果表明,该模型工作良好,可以自动化、高效率地采集新闻信息。 On the basis of depth studying the technology of web information gathering,a web structure-basednews gathering model is proposed.It load the gathering entry address,find the news list page with the informationgathering and filter algorithm,identify and improve the news content page link address according to the rules setby acquisition and the regular expression technology automatically.Furthermore,it load the target page—newscontent page,gather the news information with the algorithm automatically.At the same time,it can filter anyinformation that is set in this page such as embedded advertising messages.Practical results show that theproposed model works well and gathers news information efficiently and automatically.

作者陈建国 CHEN Jian-guo(Software School of Hunan University,Changsha,Hunan 410082,China;Xiamen University of Technology,Xiamen,Fujian 361021,China)

机构地区湖南大学软件学院厦门理工学院

出处《井冈山大学学报(自然科学版)》 2012年第2期54-57,共4页 Journal of Jinggangshan University (Natural Science)

关键词信息采集 WEB结构正则表达式数据挖掘新闻采集 information gathering Web structure regular expressions data mining news gathering

分类号 TP311.52 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献10

1赵建涛,徐玉凤.基于RSS的新闻采集系统的研究[J].西安航空技术高等专科学校学报,2010,28(3):53-55. 被引量：3
2Gautam Pant,Padmini Srinivasan. Link Contexts in Classifier-Guided Topical Crawlers[J].IEEE Transactions on Knowledge and Data Engineering,2006,(01):107-122.
3胡静芳,沈亚斌.基于Web的新闻采集系统[J].电脑知识与技术,2009,5(7):5111-5113. 被引量：2
4胡凌云,胡桂兰,徐勇,李龙澍.基于Web的新闻文本分类技术的研究[J].安徽大学学报（自然科学版）,2010,34(6):66-70. 被引量：7
5Srinivasan P,Menczer F,Pant G. A General Evaluation Framework for Topical Crawlers[J].Information Retrieval,2005,(03):417-447.
6王煜,张浩斌.面向主题的网页采集系统的设计与研究[J].计算机与数字工程,2008,36(4):78-80. 被引量：3
7张春元,康耀红,伍小芹.Web新闻自动采集发布系统的设计与实现[J].计算机技术与发展,2009,19(9):250-252. 被引量：7
8姜鑫.基于网页连通信息的主题爬行技术研究与实现[D]长春:吉林大学,2009.
9吴定明,赵东岩.一种互联网新闻网页的采集分析方法[J].计算机工程与应用,2007,43(36):169-172. 被引量：1
10洪辉,刘子敬,李石君,欧伟杰.智能WEB信息提取系统的研究和设计[J].微计算机信息,2005,21(11X):71-74. 被引量：8

二级参考文献51

1欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：71
2黄玲,陈龙.基于网页分块的正文信息提取方法[J].计算机应用,2008,28(S2):326-328. 被引量：13
3张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
4王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
5欧歌,赵恒永.一种专题Web信息采集系统的设计方案[J].电脑与信息技术,2004,12(6):52-55. 被引量：2
6陶春,张亮,施伯乐.基于本体的XML数据集成的查询处理[J].计算机研究与发展,2005,42(3):468-477. 被引量：15
7涂波,王忠民.智能化Web信息采集系统的研究与设计[J].情报杂志,2005,24(3):48-49. 被引量：1
8杜义华,焦文彬.互联网中XML网页的链接解析与信息采集[J].计算机系统应用,2005,14(7):24-26. 被引量：2
9吕铁强,于满泉,孟庆发,周立德.基于网页分块的个性化信息采集的研究与设计[J].微电子学与计算机,2005,22(10):120-123. 被引量：10
10朱良兵,纪希禹.RSS的本征与应用[J].中国信息导报,2005(9):55-58. 被引量：13

共引文献23

1彭林峰.信息化与建设和谐社会[J].职业,2005(10):52-53. 被引量：2
2熊德兰,柴玉梅.领域内文本褒贬倾向性分类中的特征提取技术[J].微计算机信息,2006(12X):263-264. 被引量：2
3李琳,吴成东,韩中华,胡静.基于Web的数据挖掘技术[J].自动化与仪表,2007,22(2):74-77. 被引量：6
4李伟,黄颖.基于HtmlParser的网页信息提取[J].兵工自动化,2007,26(7):41-41. 被引量：4
5黄颖,黄治平.HtmIParser提取网页信息的设计与实现[J].江西理工大学学报,2007,28(6):26-28. 被引量：6
6桂林斌.基于HtmlParser抽取动态异构Web信息的研究与实现[J].计算机与数字工程,2009,37(7):161-164. 被引量：4
7杨光熠.热点新闻的采集与发布[J].黑龙江科技信息,2010(14):174-174.
8曾昭江.网站数据采集原理及防范策略[J].福建电脑,2011,27(4):52-53. 被引量：2
9许晓聪.RSS元数据在门户网站建设中的应用研究[J].中国电子商务,2011(7):81-81.
10何光虹,赵英凯,李彦文.网络信息监测采集技术在中医药情报研究中的应用[J].医学信息,2011,24(17):5603-5604. 被引量：1

同被引文献13

1王涛.基于HTML标记的主题爬行器的设计与实现[D].西安:电子科技大学,2009.
2尹涛,林祥,李翔.动态页面采集关键技术研究[C].胡爱群.第六届中国信息和通信安全学术会议(CCICS2009)文集.南京:科学出版社,2009:436-442.
3钱爱兵,江岚.基于标题的中文新闻网页自动分类[J].现代图书情报技术,2008(10):59-68. 被引量：7
4张春元,康耀红,伍小芹.Web新闻自动采集发布系统的设计与实现[J].计算机技术与发展,2009,19(9):250-252. 被引量：7
5赵建涛,徐玉凤.基于RSS的新闻采集系统的研究[J].西安航空技术高等专科学校学报,2010,28(3):53-55. 被引量：3
6白文江.基于Android平台的移动应用开发研究[J].太原大学学报,2011,12(3):117-120. 被引量：53
7陈佳霖,王轶骏,薛质.iOS系统数据安全研究[J].信息安全与通信保密,2012,10(8):100-102. 被引量：21
8黄天柱,涂时亮.iOS开发UITableView加载图片的内存管理[J].计算机系统应用,2012,21(9):113-118. 被引量：10
9张逸,贾金玺.新闻网站的移动化之路[J].重庆工商大学学报（社会科学版）,2013,30(2):96-101. 被引量：3
10韩朝阳.基于Web的动态语料库构建——以中国政治新闻语料库建库为例[J].中国教育技术装备,2013(23):66-68. 被引量：1

引证文献3

1武海东,何晓阳,张精理.医学学术信息自动采集系统的设计与实现[J].现代图书情报技术,2014(11):73-78.
2魏小锐,谢满.基于移动平台的校园即时新闻资讯系统的设计与实现[J].东莞理工学院学报,2015,22(1):57-62.
3俞靓亮.终身学习网站新闻采集系统的设计与实现[J].宁波工程学院学报,2016,28(1):6-9.

1王辛,黄穗,龙舜.即时定向新闻采集技术研究[J].计算机工程与科学,2012,34(9):180-183. 被引量：3
2李辉,张华熊.一种基于云环境的PageRank改进算法[J].浙江理工大学学报（自然科学版）,2012,29(3):404-407.
3叶琳莉,林嵩凯.基于Web结构挖掘算法的网站构建[J].电脑知识与技术,2008,3(12):1619-1620. 被引量：1
4朱小清,何栋梁.基于WEB结构的人事管理系统的设计与实现[J].无线互联科技,2013,10(2):63-63.
5林良玉.基于Web结构的在线考试系统设计[J].现代计算机,2009,15(10):186-187.
6解决新闻采集乱码故障[J].网管员世界,2012(9):92-93.
7刘山,刘峨.基于Web结构数据挖掘技术的数学方法[J].计算机工程,2002,28(7):248-249. 被引量：3
8周益军,何锋考,张斌.聚焦时尚智能新闻采集系统研究[J].农业网络信息,2014(5):51-53.
9宿恺,程莉莉,刘永锋.基于Web结构的校园电子商务系统的设计[J].中国电子商务,2012(18):8-8.
10李燕,胡雯.使用Lotus Domino／Notes设计基于WEB结构的OA系统[J].中国电子商情（科技创新）,2014,0(12):38-39.

井冈山大学学报(自然科学版)

2012年第2期

浏览历史

内容加载中请稍等...

基于Web结构的网站新闻采集系统的设计与实现被引量：3

参考文献10

二级参考文献51

共引文献23

同被引文献13

引证文献3

相关作者

相关机构

相关主题

浏览历史

基于Web结构的网站新闻采集系统的设计与实现 被引量：3

参考文献10

二级参考文献51

共引文献23

同被引文献13

引证文献3

相关作者

相关机构

相关主题

浏览历史

基于Web结构的网站新闻采集系统的设计与实现被引量：3