基于结构与内容的Web主要信息提取方法研究

Research on main web information extraction based on structure and content

下载PDF

导出

摘要 Web页面的主要信息被广告、超链等无用信息包围,是Web信息自动处理所要解决的难题。传统的信息提取方法是从内容着手,或者从结构出发,很少将两者相结合,因此提出了一种Web主要信息提取方法。该方法可以从Web页面的结构和内容两方面出发,准确地将Web内容进行分块,并对分块内容进行分析处理,从而提取出Web页面的主要信息。 The main web information is usually surrounded by advertisings, hyperlinks and other useless information. It is a main problem for the automatic processing of web information. The traditional method of main web information extraction is either based on content or on structure, rarely both. A method for extracting main web information based on structure and content is presented. It can first block the web content accurately, and then analyze the blocks, lastly extract the main web information.

作者张文东李伟

机构地区中国石油大学计算机与通信工程学院

出处《计算机工程与设计》 CSCD 北大核心 2008年第24期6210-6212,共3页 Computer Engineering and Design

关键词 WEB页面内容结构分块信息提取 web pages content structure blocking information extraction

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1Liu Ling, Pu Calton, Han Wei. XWRAP: An XML-enabled wrapper construction system for web information sources [C]. Proc of the 16th Int'l Conf on Data Engineering. Washington: IEEE Computer Society Press,2000:611-621.
2Baumgartner R,Flesca S,Gottlob G.Visua! web information extraction with Lixto[C].Proc of the 27th Int'l Conf on Very Large Data Bases.San Francisco:Morgan Kaufmann,2001:119-128.
3陈志敏,沈洁,林颖,周峰.基于主题划分的网页自动摘要[J].计算机应用,2006,26(3):641-644. 被引量：8
4Gupta S,Kaiser G,Neistadt D,et al.DOM-based content extraction of HTML documents[C].Proc of the 12th Int'l World Wide Web Conf.New York :ACM Press,2003:207-214.
5HTMLParser[EB/OL].http://www.apache.org/.
6瞿有利,于浩,徐国伟,西野文人.Web页面信息块的自动分割[J].中文信息学报,2004,18(1):6-13. 被引量：10
7Embley D W, Jiang Y S,Ng Y K.Record-boundary discovery in web documents[C].Philadelphia,USA:Proceedings of SIGMOD, 1999.
8刘挺,吴岩,王开铸.基于信息抽取和文本生成的自动文摘系统设计[J].情报学报,1997,16(S1):31-36. 被引量：13

二级参考文献19

1刘挺,吴岩,王开铸.基于信息抽取和文本生成的自动文摘系统设计[J].情报学报,1997,16(S1):31-36. 被引量：13
2[1]Line Eikvil, Information Extraction from World Wide Web- A Survey[M], Report No. 945, Norwegian Computing Center, ISBN 82-539-0429-0, July, 1999.
3[2]Chia-Hui Chang, Shao-Chen Lui , IEPAD: Information Extraction Based on Pattern Discovery [C], Proceedings of the Tenth International World Wide Web Conference, Hong Kong , May 2001. http:// www10.org/ cdrom/ papers/223/.
4[3]Embley D.W., Jiang Y.S., Ng Y.K., Record-Boundary Discovery in Web Documents[C], Proceedings of SIGMOD, Philadelphia, USA, 1999.
5[4]Morrison, D.R. Journal of ACM [J], 15:514-534.
6[5]E. Ukkonen. On-line construction of suffix-tree[J], algorithmica,14:249-60,1995.
7LUHN HP.The automatic creation of literature abstract[J].IBM Journal of Research and Development,1958,2(2):159-165.
8RUSH JE,SALVADOR R,ZAMORA A.Automatic abstracting and indexing production of indicative abstracts by application of contextual inference and syntactic coherence criteria[J].Journal of American Society for Information Society,1971,22(4):260-274.
9SALTON G,SINGHAL A,MITRA M.Automatic Text Structuring and Summarization[J].Information Processing and Management,1997,33(2):193-207.
10RAU LF.Concpetual information extraction and retrieval from natural language input[A].Proceedings of RIAO 88 Conference[C],1988.424-437.

共引文献27

1靳从.基于有向图的版面逻辑顺序确定方法研究[J].微计算机信息,2008,24(12):292-293. 被引量：1
2贺胜.信息抽取技术内涵及应用[J].南京师范大学文学院学报,2004(2):184-188. 被引量：3
3贾娟,陈堃銶,周东浩.图文互斥版面中文字阅读顺序的确定[J].中文信息学报,2005,19(5):67-75. 被引量：1
4陈志敏,沈洁,林颖,周峰.基于主题划分的网页自动摘要[J].计算机应用,2006,26(3):641-644. 被引量：8
5吴鹏飞,孟祥增,刘俊晓,马凤娟.网页区域分割与识别技术[J].现代计算机,2006(6):48-50. 被引量：4
6吴鹏飞,孟祥增,刘俊晓,马凤娟.基于结构与内容的网页主题信息提取研究[J].山东大学学报（理学版）,2006,41(3):41-44. 被引量：15
7杜光芹,张化祥.基于超链接结构和向量空间模型的网页排序算法研究[J].信息技术与信息化,2006(4):106-108.
8朱红灿,龙朝阳.基于熵的新闻网页抽取方法的研究[J].现代图书情报技术,2007(4):48-51. 被引量：2
9王健,韩广琳.基于统计的Web文本自动摘要技术分析[J].福建电脑,2007,23(8):132-132.
10李蕾,王劲林,白鹤,胡晶晶.基于FFT的网页正文提取算法研究与实现[J].计算机工程与应用,2007,43(30):148-151. 被引量：15

1赵媛心,吴晓蕊,杨飞,窦小明,赵翔,赵耀.支持多信息源的Web服务标签挖掘系统[J].网络新媒体技术,2015,4(2):24-29.
2赵志强.CMM/CMMI作用、实质、结构与内容[J].天津科技,2008,35(3):49-51. 被引量：1
3蒋悦,吴壮志,赵旭林,怀进鹏.基于文档树的XML文件转换[J].计算机工程,2003,29(21):97-99. 被引量：2
4李福运,夏冬梅.宏程序在车削加工中的应用于研究[J].现代制造技术与装备,2017,53(2):5-7. 被引量：1
5吴鹏飞,孟祥增,刘俊晓,马凤娟.基于结构与内容的网页主题信息提取研究[J].山东大学学报（理学版）,2006,41(3):41-44. 被引量：15
6吕克.基于XML的工作流模型挖掘[J].计算机光盘软件与应用,2014,17(21):125-127.
7谌志群,王小华,王荣波.一种结构与内容相结合的XML文档聚类方法[J].情报学报,2009,28(5):693-699. 被引量：4
8罗军,张艳贺.结构与内容一体化搜索——从知识组织角度理解搜索[J].世界科技研究与发展,2013,35(4):472-476.
9李丽,余祖俊,史红梅.电路仿真专家系统知识库的可视化生成[J].铁路计算机应用,2004,13(8):34-37.
10孙京国.FOXBASE数据库学习和应用问题研讨[J].石家庄大学学报,1999,11(4):36-38.

计算机工程与设计

2008年第24期

浏览历史

内容加载中请稍等...

基于结构与内容的Web主要信息提取方法研究

参考文献8

二级参考文献19

共引文献27

相关作者

相关机构

相关主题

浏览历史