摘要
Web页面的主要信息被广告、超链等无用信息包围,是Web信息自动处理所要解决的难题。传统的信息提取方法是从内容着手,或者从结构出发,很少将两者相结合,因此提出了一种Web主要信息提取方法。该方法可以从Web页面的结构和内容两方面出发,准确地将Web内容进行分块,并对分块内容进行分析处理,从而提取出Web页面的主要信息。
The main web information is usually surrounded by advertisings, hyperlinks and other useless information. It is a main problem for the automatic processing of web information. The traditional method of main web information extraction is either based on content or on structure, rarely both. A method for extracting main web information based on structure and content is presented. It can first block the web content accurately, and then analyze the blocks, lastly extract the main web information.
出处
《计算机工程与设计》
CSCD
北大核心
2008年第24期6210-6212,共3页
Computer Engineering and Design
关键词
WEB页面
内容
结构
分块
信息提取
web pages
content
structure
blocking
information extraction