基于DBSCAN算法的网页正文提取被引量：6

Webpage Content Extraction Based on DBSCAN

下载PDF

导出

摘要针对网页正文提取问题,提出一种基于分段因子的方法对网页源文件进行过滤得到纯文本段,将每段看作二维空间中的一个点,利用DBSCAN聚类算法对这些点进行聚类得到正文内容。该方法复杂度低,并且不依赖于网站布局风格,适应性强。对各大国内外新闻类网站进行实验,结果表明,该方法对中英文新闻类网站的正文提取效果明显,具有较高的平均准确率。 For the problem of webpage content extraction, this paper presents a method based on section-factor to filter webpage and get the plain text paragraph. Each paragraph is regarded as a point in the two-dimensional space. The DBSCAN clustering algorithm can cluster these points to get the real content. This method has low complexity and does not depend on the site layout style, as well as has strong adaptability. Experiments are put on the news websites from domestic and international, and results show that for both Chinese and English news website has a high average accuracy and obvious effect.

作者欧阳佳林丕源

机构地区华南农业大学信息学院

出处《计算机工程》 CAS CSCD 北大核心 2011年第3期64-66,69,共4页 Computer Engineering

基金国家自然科学基金资助项目(60573043)

关键词主题爬虫正文提取 DBSCAN算法密度 topic-focused crawler content extraction DBSCAN density

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献8

1Eikvil L Information Extracuon from World Wide Web-A Survey[R].Blindem,Norway:Norwegian Computing Center,Tech.Rep:945,1999.
2梅雪,程学旗,郭岩,张刚,丁国栋.一种全自动生成网页信息抽取Wrapper的方法[J].中文信息学报,2008,22(1):22-29. 被引量：21
3于鲁波,陈超.互联网商品信息抽取技术[J].计算机工程,2008,34(5):274-276. 被引量：5
4Cai Deng,Yu Shipeng,Wen Jirong,et al.VIPS:A Vision Based on Page Segmentation Algorithm[R].[S.1.]:Microsoft Co.,Tech.Rep.:MSR-TR-2003-79,2003.
5Wang Jingqi,Chen Qingeai,Wang Xiaoiong,et al.Basic Semantic Units Based Web Page Content Extraction[C]//Proc.of SMC'08.Singapore:IEEE Press,2008.
6Pan Donghua,Qiu Shaogang,Yin Dawei.web Page Content Extraction Method Based on Link Density and Stafisfic[C]//Proc.of WiCOM'08.Dalian,China:IEEE Press,2008.
7韩忠明,李文正,莫倩.有效HTML文本信息抽取方法的研究[J].计算机应用研究,2008,25(12):3568-3571. 被引量：15
8Han Jiawei,Kamber M.数据挖掘概念与技术[M].范明,孟小峰,译.北京:机械工业出版社,2008.

二级参考文献22

1欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
2常育红,姜哲,朱小燕.基于标记树表示方法的页面结构分析[J].计算机工程与应用,2004,40(16):129-132. 被引量：24
3胡国平,张巍,王仁华.基于双层决策的新闻网页正文精确抽取[J].中文信息学报,2006,20(6):1-9. 被引量：16
4赵欣欣,索红光,刘玉树.基于标记窗的网页正文信息提取方法[J].计算机应用研究,2007,24(3):144-145. 被引量：33
5ALEXJC. The easy way to extract useful text from arbitrary HTML [ EB/OL ]. http ://ai-depot. com/articles/the-easy-way-to-extractuseful-text-from-arbitrary-html.
6HAMMER J, McHUGH J, GARCIA-MOLINA H. Semi-structured data: the TSIMMIS experience[ C]//Proc of the 1st East-European Symposium on Advance in Databases and Information Systems. 1997:1-8.
7LIU Ling, PU C, HAN Wei. XWRAP: an XML-enable wrapper construction system for the Web information source[ C]//Proc of the 16th IEEE International Conference on Data Engineering. 2000:611- 620.
8CRESCENZI V, ROADRUNNER G M. Towards automatic data extraction from large Web site[ C]//Proc of the 26th International Conference on Very Large Database Systems. 2001:109-118.
9PAWITAN Y, MICHIELS S, KOSCIELNY S, et al. False discovery rate, sensitivity and sample size for microarray studies [ J ]. Bioinformatics, 2005,21 ( 13 ) :3017-3024.
10Justin Park and Denilson Barbosa.Adaptive Record Extraction From Web Pages[A].WWW 2007[C].

共引文献44

1游贵荣,陆玉昌.基于统计和机器学习的中文Web网页正文内容抽取[J].福建商业高等专科学校学报,2009(2):68-72. 被引量：5
2何忠育,王勇,王瑛,陈新,廖朝辉.基于分布式计算的网络舆情分析系统的设计[J].警察技术,2010(3):19-22. 被引量：6
3霍滨焱.最小节点信息树抽取规则及可视化生成方法[J].应用科技,2009,36(7):37-40.
4张霞亮,陈家骏.基于逻辑行和最大接纳距离的网页正文抽取[J].计算机工程与应用,2009,45(25):125-128. 被引量：5
5周佳颖,朱珍民,高晓芳.基于统计与正文特征的中文网页正文抽取研究[J].中文信息学报,2009,23(5):80-85. 被引量：16
6李广建,乔建忠.全自动生成网页信息抽取包装器的主要技术方法研究[J].情报理论与实践,2010,33(1):100-104. 被引量：5
7吕国英,冯艳,李茹.基于CFN的教材内容提要信息抽取研究[J].山西大学学报（自然科学版）,2010,33(1):71-76. 被引量：1
8廖开际,易聪.基于Web挖掘的商业信息抽取研究[J].情报杂志,2010,29(5):159-162.
9王毅.基于web的信息抽取方法研究[J].科技与生活,2010(13):11-11.
10杨新华,陈蜀宇,樊承泽.Windows CE系统下WAP浏览器的研究与设计[J].计算机工程与设计,2010,31(13):3088-3091. 被引量：4

同被引文献64

1崔杰,李陶深,兰红星.基于Hadoop的海量数据存储平台设计与开发[J].计算机研究与发展,2012,49(S1):12-18. 被引量：145
2周强,陈岭,马骄阳,赵宇亮,吴勇,王敬昌.基于改进DPhyp算法的Impala查询优化[J].计算机研究与发展,2013,50(S2):114-120. 被引量：3
3张令文,谈振辉.基于泰勒级数展开的蜂窝TDOA定位新算法[J].通信学报,2007,28(6):7-11. 被引量：40
4许雪燕.模糊综合评价模型的研究及应用[D].成都:西南石油大学,2011.
5Chan E C L, Bacieu G.Wireless tracking analysis in location fingerprinting[C]//Proc of IEEE International Conference on Wireless and Mobile Computing.Greece:IEEE Press,2008.
6Seow C K.Non-line-of-sight localization in multipath envi- ronments[J].IEEE Transactions on Mobile Computing,2008, 7(5) :647-660.
7Caffery J J.A new approach to the geometry of TOA loca- tion[C]//IEEE VTC,2000,4:1943-1949.
8Cheung K W, So H C,Ma W K,et al.Least squares algo- rithms for time-of-arrival-based mobile location[J].IEEE Trans on Signal Processing,2004,52(4):l121-1128.
9朱扬勇,熊赟.DNA序列数据挖掘技术[J].软件学报,2007,18(11):2766-2781. 被引量：37
10Xu R,Wunsch D.Survey of Clustering Algorithms[J].IEEE Transactions on Neural Networks,2005,16 (3):645-678.

引证文献6

1朱烜璋.基于DBSCAN的无线传感网定位方法[J].计算机工程与应用,2013,49(11):80-83. 被引量：7
2杨亚军,张坤龙,杨晓科.基于变化密度的自适应空间聚类方法研究[J].计算机工程,2014,40(8):58-63. 被引量：2
3王铭坤,袁少光,朱永利,王德文.基于Storm的海量数据实时聚类[J].计算机应用,2014,34(11):3078-3081. 被引量：30
4何云钢,曹宝香.基于DOM树和DBSCAN算法的Web信息提取[J].电子技术（上海）,2015,42(6):88-92. 被引量：1
5姜建华,杨玉免,边海燕,康嘉容,王丽敏,刘颖.改进DBSCAN聚类算法在电子商务网站评价中的应用[J].吉林大学学报（理学版）,2016,54(2):329-336. 被引量：5
6陈荣华,王鹰汉,卜佳俊,于智,高斐.基于KNN算法与局部回归的网站无障碍采样评估[J].浙江大学学报（工学版）,2018,52(9):1702-1708. 被引量：3

二级引证文献48

1张怡霄,郭文普,康凯,姚云龙,王攀.基于聚类与网格搜索的TDOA/DOA联合定位方法[J].战术导弹技术,2020(1):105-112. 被引量：3
2赵永杰,李云飞,贾俊铖,严建峰,郑征.锚节点静止的无线传感网定位算法[J].计算机应用与软件,2015,32(2):109-112. 被引量：2
3单燕,李玲娟,孙杜靖.基于主成分分析的并行化数据流降维算法研究[J].南京邮电大学学报（自然科学版）,2015,35(5):99-104. 被引量：8
4戴阳阳,李朝锋,徐华.初始点优化与参数自适应的密度聚类算法[J].计算机工程,2016,42(1):203-209. 被引量：20
5赵菲,林穗,高西刚.面向大数据的Storm框架研究与应用[J].微型机与应用,2016,35(6):12-14. 被引量：9
6李时辉.基于测距的蒙特卡罗盒传感网定位算法研究[J].计算机工程与应用,2016,52(7):110-116. 被引量：1
7马可,李玲娟.分布式实时流数据聚类算法及其基于Storm的实现[J].南京邮电大学学报（自然科学版）,2016,36(2):104-110. 被引量：8
8詹益旺,胡斌杰.基于DVTD的移动用户出行模式识别研究[J].计算机工程,2016,42(7):72-76. 被引量：2
9犹锋,曹健,谢玉波.基于大数据技术的量测数据处理系统设计[J].无线互联科技,2016,13(21):136-139.
10周志阳,陈飞.大数据实时计算平台技术综述[J].中国新通信,2017,19(4):47-47. 被引量：6

1王瑞,周喜,李晓.基于正文相关度的维吾尔网页正文提取[J].计算机工程,2012,38(21):153-156. 被引量：2
2杨柳青,李晓东,耿光刚.基于布局相似性的网页正文内容提取研究[J].计算机应用研究,2015,32(9):2581-2586. 被引量：10
3杨丽萍.网页正文提取技术的分析与研究[J].计算机光盘软件与应用,2012,15(22):115-116. 被引量：1
4苏秀芝.基于网页Title标签的正文提取方法[J].福建电脑,2016,32(4):43-44.
5熊忠阳,蔺显强,张玉芳,牙漫.结合网页结构与文本特征的正文提取方法[J].计算机工程,2013,39(12):200-203. 被引量：15
6陈阳,陈兴蜀,吴麒.基于信息量衰减幅度的网页正文提取[J].计算机工程与设计,2012,33(7):2555-2560. 被引量：1
7WOWO.查看网页源文件有绝招[J].玩电脑（在线技术）,2005(12):87-87.
8为什么无法查看网页源文件？[J].少年电世界,2003(8):95-96.
9赵欣欣,索红光,刘玉树.基于标记窗的网页正文信息提取方法[J].计算机应用研究,2007,24(3):144-145. 被引量：33
10朱全银,周培,尹永华,陈浮,刘金岭.基于Web数据挖掘的多因素科技专家信息提取方法[J].淮阴工学院学报,2013,22(5):23-27. 被引量：1

计算机工程

2011年第3期

浏览历史

内容加载中请稍等...

基于DBSCAN算法的网页正文提取被引量：6

参考文献8

二级参考文献22

共引文献44

同被引文献64

引证文献6

二级引证文献48

相关作者

相关机构

相关主题

浏览历史

基于DBSCAN算法的网页正文提取 被引量：6

参考文献8

二级参考文献22

共引文献44

同被引文献64

引证文献6

二级引证文献48

相关作者

相关机构

相关主题

浏览历史

基于DBSCAN算法的网页正文提取被引量：6