WNBTE网页正文抽取方法研究被引量：5

An Approach Based on Words Numbers for Extracting Text from Web Pages

下载PDF

导出

摘要 WNBTE是一种基于文本字数统计信息,从网页中抽取正文内容的方法。该方法分析网页上存在的各种文字及其特点,寻找网页中包含字符数最多的结点,去掉该结点内的布局文字和说明文字,从而得到正文信息。该方法不需要人工参与,也不需要样本学习,克服了传统网页内容抽取方法中需要根据不同数据源构造不同抽取器的问题。 WNBTE is a method for text extraction from web pages based on the statistics of words numbers. According to the characteristic of characters on web pages, WNBTE picks the node in which the most words are included. For getting the text, words used in layout and narrative words should be removed. Unlike the traditional text extraction method, it does not need user＇ s intervention and extra samples studying.

作者李纲戴强斌

机构地区武汉大学信息资源研究中心

出处《情报科学》 CSSCI 北大核心 2008年第3期333-336,共4页 Information Science

基金国家自然科学基金项目(70673070)

关键词信息处理网页正文抽取自动识别 information mining text extraction self-motion recognices

分类号 G201 [文化科学—传播学]

引文网络
相关文献

参考文献6

1张绍华,徐林昊,杨文柱,薛文玲,李天柱.基于样本实例的Web信息抽取[J].河北大学学报（自然科学版）,2001,21(4):431-437. 被引量：19
2Hammar J,Garcia-Molina H,Cho J,et al.Extraction semistructured information from the Web[Z].In Proceedings of the Workshop on Management of Semi-structured Data,Tucson Arizona,1997.
3张成洪,肖军建,张诚.Web内容抽取及其数据管理方法[J].复旦学报（自然科学版）,2001,40(2):177-183. 被引量：16
4高军,王腾蛟,杨冬青,唐世渭.基于Ontology的Web内容二阶段半自动提取方法[J].计算机学报,2004,27(3):310-318. 被引量：18
5蔡霞,张森,周宇.模式发现在Web抽取中的应用及设计[J].控制工程,2003,10(3):227-229. 被引量：7
6David Buttler,Ling liu,et al.A Fully Automated Object Extraction System for the World Wide Web[A].Proceedings of the 2001 Irternational Conference on Distributed Computing Systems[C],2001:361-370.

二级参考文献20

1[1]Baumgartner R.,Flesca S.,Gottlob G.. Visual web information extraction with lixto. In: Proceedings of the 27th International Conference on Very Large Data Bases, Roma, 2001,119～128
2[2]Liu L.,Pu C., Han W.. XWRAP: An XML-enabled wrapper construction system for web information sources. In: Proceedings of the 16th International Conference on Data Engineering, California, 2000, 611～621
3[3]Gottlob G., Koch C.. Monadic datalog and the expressive power of languages for web Information extraction. In: Proceedings of the 21th ACM SIGACT-SIGMOD-SIGART Symposium on Principles of Database Systems, Wisconsin, 2002, 17～28
4[4]Hamer J.,Brennig M., Garcia-Molina H.. Template-based wrappers in the TSIMMIS system. In: Proceedings of the ACM SIGMOD International Conference on Management of Data, Arizona, 1997, 532～535
5[5]Atzeni P., Mecca G.. Cut and paste. In: Proceedings of the 16th ACM SIGACT-SIGMOD-SIGART Symposium on Principles of Database Systems, Arizona, 1997, 144～153
6[6]Crescenzi V., Mecca G., Merialdo P.. RoadRunner: Towards automatic data extraction from large web sites. In: Proceedings of the 27th International Conference on Very Large Data Bases, Roma, 2001, 109～118
7[7]Soderland S.. Learning information extraction rules for semistructured and free text. Machine Learning,1999, 34(1～3):233～272
8[8]Adelberg B.. Nodose-A tool for semi automatically extracting structured and semi-structured data from text document. In: Proceedings of the ACM SIGMOD International Conference on Management of Data, Washington, 1998, 283～294
9[9]Ribeiro-Neto B.A., Laender A., da silva A.S.. Extracting semistructured data through examples. In: Proceedings of the 1999 ACM CIKM International Conference on Information and Knowledge Management, Missouri, 1999,94～101
10[10]EmbleyD.W., Campbell D.M., Jiang Y.S.. A conceptual-modeling approach to extracting data from web. In: Proceedings of the 17th International Conference on Conceptual Modeling, Singapore, 1998,78～91

共引文献53

1黄玲,陈龙.基于网页分块的正文信息提取方法[J].计算机应用,2008,28(S2):326-328. 被引量：13
2王茹,宋瀚涛,陆玉昌.网页数据自动抽取系统[J].计算机工程与应用,2004,40(19):135-138. 被引量：8
3周霜菊,孙济庆.基于Agent的Web知识过滤器设计[J].计算机与数字工程,2005,33(3):85-89.
4潘惠勇,高丽平,薛惠忠.基于逻辑定义的Web信息抽取与集成[J].中原工学院学报,2005,16(2):53-56.
5陆伟,寇广增,魏泉.Web环境下的内容抽取及RSS发布[J].情报杂志,2005,24(9):5-6. 被引量：6
6李禹生,周建中.基于HTML的W eb信息元数据提取技术应用[J].武汉工业学院学报,2005,24(4):7-10. 被引量：4
7蓝军.EXCEL2002数据的WEB发布与利用[J].高校实验室工作研究,2006(1):27-29.
8胡安安,陈晋.基于知识库的Web文本挖掘模型K-WebMiner[J].科技导报,2006,24(4):68-71.
9卢勇,胡小芳,许华忠.用VB实现Web数据库数据的下载和导出[J].情报杂志,2006,25(5):66-67.
10胡立辉,张健,陈曦.基于正则式的CNKI网页全自动包装器[J].长沙理工大学学报（自然科学版）,2006,3(2):58-63. 被引量：3

同被引文献48

1郎忘忧,梁宁.水利水电专业搜索引擎的建设[J].水利发展研究,2001,1(5):19-20. 被引量：2
2王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
3秦州.新闻搜索中的舆情“峰值”——中国近年来重大矿难报道WEB页面数分析[J].新闻界,2005(5):94-96. 被引量：4
4曹勇刚,曹羽中,金茂忠,刘超.面向信息检索的自适应中文分词系统[J].软件学报,2006,17(3):356-363. 被引量：49
5朱永盛,武港山.基于Web的新闻信息抽取[J].计算机工程,2006,32(10):74-76. 被引量：11
6杨军.网络环境下舆论的形成机制分析[J].江西社会科学,2006,26(8):174-178. 被引量：11
7罗丽姗.垂直搜索引擎发展概述[J].图书馆学研究,2006(12):68-70. 被引量：22
8邹腊梅,肖基毅,龚向坚.Web文本挖掘技术研究[J].情报杂志,2007,26(2):53-55. 被引量：14
9黄文蓓,杨静,顾君忠.基于分块的网页正文信息提取算法研究[J].计算机应用,2007,27(B06):24-26. 被引量：32
10LiuBing.Web数据挖掘[M].北京:清华大学出版社,2009.

引证文献5

1李烯,徐朝军.基于分块和统计相结合的新闻正文抽取[J].情报理论与实践,2010,33(1):117-120. 被引量：4
2谢新洲,夏晨曦.网络事件案例库建设与案例数据分析[J].情报学报,2012,31(1):72-81. 被引量：7
3夏晨曦.基于观点挖掘的竞争情报系统[J].情报学报,2012,31(2):174-179. 被引量：4
4周远超,叶枫,高依旻,张雪洁.水利垂直搜索引擎的研究[J].计算机与数字工程,2012,40(10):64-66. 被引量：2
5陈蕾蕾,张如静.面向Web的新闻网页正文信息抽取策略研究[J].电脑知识与技术,2008,0(S2):1-2.

二级引证文献17

1柳刚,吴德萍.Web Proxy在高校图书馆数字资源中的应用[J].电脑编程技巧与维护,2010(22):100-102.
2荣广辉,毛宁,陈庆新.基于百度的模具经验性知识搜索语言研究[J].模具工业,2013,39(6):26-30.
3唐晓波,肖璐.基于情感分析的评论挖掘模型研究[J].情报理论与实践,2013,36(7):100-105. 被引量：12
4沈阳,吴荆棘.基于复杂因子的网络舆情推演研究[J].情报学报,2013,32(12):1315-1325. 被引量：10
5李文雄,武东英,刘胜利,肖达.基于本体的网络攻击案例库模型研究[J].计算机科学,2014,41(10):173-176. 被引量：11
6宋彪,朱建明,黄启发.基于群集动力学和演化博弈论的网络舆情疏导模型[J].系统工程理论与实践,2014,34(11):2984-2994. 被引量：48
7肖璐,陈果.企业竞争情报中微博分析技术研究:基于需求驱动视角[J].情报理论与实践,2015,38(2):116-120. 被引量：4
8曹逸峰,尚鸿斌,陈杰,包妍苹,沈璟,刘旭,陈晓伟.基于案例分析金字塔模型的主动运维案例体系建设[J].计算机与现代化,2015(3):101-107. 被引量：2
9冯先正,黄忠胜.电网调度自动化子站仿真案例库开发研究[J].电工技术（下半月）,2015,0(2):68-68.
10曾田日,王晋国.基于统计的云搜索中文分词算法[J].西北大学学报（自然科学版）,2015,45(4):568-572. 被引量：4

1孙建霞.浅谈学术论文参考文献标注存在的问题[J].编辑之友,2011(5):93-95.
2王慧.基于博客技术的图书馆网站建设研究[J].科技情报开发与经济,2008,18(10):7-9. 被引量：1
3张健,欧红.应用正则式抽取Google网页内容[J].现代图书情报技术,2005(9):50-53. 被引量：6
4刘春江,朱江.会议文献开放资源采集与服务系统的元数据抽取[J].情报理论与实践,2012,35(9):117-119. 被引量：1
5曾苏,马建霞,张秀秀.元数据自动抽取研究新进展[J].现代图书情报技术,2008(4):7-11. 被引量：10
6黄蕾.高校图书馆微平台运营实践的思考——以上海电力学院为例[J].上海高校图书情报工作研究,2016,26(1):55-57.
7陈捷,吕海清.论文作者信息界定及著录原则探讨[J].编辑学报,2001,13(6):357-358. 被引量：13
8马君.学术论文的特征及其构成要素[J].编辑之友,2002(S1):33-34. 被引量：6
9杨霞.谈公务电子邮件的写作[J].秘书之友,2009(5):19-21.
10王兰成.舆情搜索引擎中网页信息的采集与抽取研究[J].情报学报,2011,30(10):1022-1027. 被引量：3

情报科学

2008年第3期

浏览历史

内容加载中请稍等...

WNBTE网页正文抽取方法研究被引量：5

参考文献6

二级参考文献20

共引文献53

同被引文献48

引证文献5

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

WNBTE网页正文抽取方法研究 被引量：5

参考文献6

二级参考文献20

共引文献53

同被引文献48

引证文献5

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

WNBTE网页正文抽取方法研究被引量：5