面向BBS的通用提取算法的分析与设计

下载PDF

导出

摘要 BBS型网站作为整个互联网生态中的重要一环,其中蕴含着海量的数据,也是我们获取信息的重要来源。如何针对这些不同类型的论坛网页,设计一种通用的算法,对其主题贴和回帖等有价值的信息进行提取,是文章所研究的主要内容。文章在基于对不同类型网页结构的深入分析,并充分考虑了论坛网页类型的不一致性、单个网站的易爬取性及通用爬虫的不可靠性,设计了一种基于网页纵向分析的提取方案,并详细叙述了主题爬虫的算法方案。 As an important part of the whole Internet ecology, BBS-type website contains a huge amount of data, and it is alsoan important source of information. How to design a general algorithm for these different types of forum pages to extract valuable in原formation such as theme posts and reply posts is the main concern of this paper. In this paper, based on the in-depth analysis ofdifferent types of web pages, the inconsistency of web page types, the accessibility of individual web sites and the unreliability ofcommon crawlers are fully considered. An extraction scheme based on longitudinal analysis of web pages is designed, and the algo原rithm of topic crawler is described in detail.

作者邓良聪晏先政

机构地区长江大学信息与数学学院长江大学管理学院

出处《科技创新与应用》 2018年第9期132-133,共2页 Technology Innovation and Application

关键词 BBS 噪音处理聚类分析符号匹配 BBS noise processing cluster analysis symbol matching

分类号 F724.6 [经济管理—产业经济]

引文网络
相关文献

参考文献4

1刘金红,陆余良.主题网络爬虫研究综述[J].计算机应用研究,2007,24(10):26-29. 被引量：133
2蒋琴琴,宫哲,辛阳.基于HTML Parser的BBS信息抽取系统的设计与实现[J].自动化技术与应用,2012,31(1):32-37. 被引量：4
3邓垦,胡勇.基于DOM树的通用论坛抽取技术[J].网络安全技术与应用,2015(1):20-20. 被引量：1
4胡雷芳.五种常用系统聚类分析方法及其比较[J].浙江统计,2007(4):11-13. 被引量：79

二级参考文献29

1李卫,刘建毅,何华灿,王枞.基于主题的智能Web信息采集系统的研究与实现[J].计算机应用研究,2006,23(2):163-166. 被引量：15
2MURRAY B,MOORE A.Sizing the Internet[M].[S.l.]:Cyveillance Inc,2000.
3LAWRENCE S,GILES L.Accessibility and distribution of information on the Web[J].Nature,1999,400(8):107-109.
4CHO J,CARCIA M H.The evolution of the Web and implication for an incremental crawler[C]//Proc of the 26th International Conference on Very Large Databases (NVLDB-00).2000.
5BREWINGTON B E,CYBENKO C.How dynamic is the Web[C]//Proc of the 9th International World Wide Web Conference.2000.
6MENCZER F,PANT C,RUIZ M E.Evaluating topic-driven Web crawlers[C]//Proc of SIGIR'01.New Orleans,Louisiana:[s.n.],2001:241-249.
7MENCZER F,PANT C,SRINIVASAN P.Topic-driven crawlers:machine learning issues[EB/OL].(2002-05-15).http://dollar.biz.uiowa.edu/-fil/papers.html.
8CHO J,GARCIA M H,PAGE L.Efficient crawling through URL ordering[J].Computer Networks and ISDN Systems,1998,30(1-7):161-172.
9DeBRA P,HOUBEN G,KORNATZKY Y,et al.Information retrieval in distributed hypertexts[C]//Proc of the 4th RIAO Conference.New York:[s.n.],1994:481-491.
10HERSOVICI M,JACOVI M,MAAREK Y S,et al.The shark-search algorithm:an application:tailored Web site mapping[C]//Proc of the 7th International World Wide Web Conference.Brisbane:[s.n.],1998:65-74.

共引文献213

1蓝柳茹,刘蕾,吴镇疆.基于主成分和聚类分析的柳州市森林火灾特征研究[J].中国农学通报,2020(22):92-99. 被引量：3
2赵志滨,贾岩峰,姚兰,鲍玉斌.含有丰富结构化数据的Web页面分类技术的研究[J].计算机研究与发展,2013,50(S1):53-60. 被引量：5
3尹江,尹治本,黄洪.网络爬虫效率瓶颈的分析与解决方案[J].计算机应用,2008,28(5):1114-1116. 被引量：18
4曾伟辉,李淼.深层网络爬虫研究综述[J].计算机系统应用,2008,17(5):122-126. 被引量：40
5王岩.搜索引擎中网络爬虫技术的发展[J].电信快报（网络与通信）,2008(10):20-22. 被引量：11
6戚欣.基于本体的主题网络爬虫设计[J].武汉理工大学学报,2009,31(3):138-141. 被引量：14
7蒋元成,蔡皖东.基于主动探测的BT行为监测系统设计与实现[J].航空计算技术,2009,39(1):134-137. 被引量：1
8张博,蔡皖东.面向主题的网络蜘蛛技术研究及系统实现[J].微电子学与计算机,2009,26(5):52-55. 被引量：13
9曾云令,蔡皖东.eMule行为监测技术研究与系统实现[J].微电子学与计算机,2009,26(5):126-129.
10王玻,李从东.地区经济规模评价的多元统计分析及其适用性比较[J].暨南学报（哲学社会科学版）,2009,31(2):146-151. 被引量：3

1钱志亮.这些神逻辑正在无形中伤害孩子[J].爱情婚姻家庭（中旬）,2017(11):85-86.
2唐巧盈.向左走,向右走?——美国“网络中立”政策的博弈之路[J].信息安全与通信保密,2018,16(1):52-57.
3杨尹鉴,杨强,张海滨.基于网页的泵入药物配置参数计算器PumpCalc[J].中国数字医学,2018,13(2):104-106. 被引量：1
4王强.计算机科学技术的优化与教学运用[J].文存阅刊,2017,0(12):209-209.
5Akamai；“撞库”攻击正在成为僵尸网络的新手段[J].通信世界,2018,0(6):6-6.
6宫辰.新零售的新花样[J].国际品牌观察,2018,0(2):52-53.
7张丙璐.中国公益众筹互联网生态格局的构建研究——基于36家互联网众筹平台的对标分析[J].现代商业,2018(2):231-234. 被引量：7
8叶婉华.慧骃社会的伦理问题[J].北方文学（下）,2018,0(2):89-91.
9陈静芳.多模态网购商品推介文本对比研究——以淘宝网和eBay网为例[J].开封教育学院学报,2018,38(1):71-73. 被引量：1
10林永和.中学生网页设计与制作能力培养——基于《中学生网页设计专题学习平台》[J].福建教育学院学报,2017,18(12):78-81.

科技创新与应用

2018年第9期

浏览历史

内容加载中请稍等...

面向BBS的通用提取算法的分析与设计

参考文献4

二级参考文献29

共引文献213

相关作者

相关机构

相关主题

浏览历史