摘要
WNBTE是一种基于文本字数统计信息,从网页中抽取正文内容的方法。该方法分析网页上存在的各种文字及其特点,寻找网页中包含字符数最多的结点,去掉该结点内的布局文字和说明文字,从而得到正文信息。该方法不需要人工参与,也不需要样本学习,克服了传统网页内容抽取方法中需要根据不同数据源构造不同抽取器的问题。
WNBTE is a method for text extraction from web pages based on the statistics of words numbers. According to the characteristic of characters on web pages, WNBTE picks the node in which the most words are included. For getting the text, words used in layout and narrative words should be removed. Unlike the traditional text extraction method, it does not need user' s intervention and extra samples studying.
出处
《情报科学》
CSSCI
北大核心
2008年第3期333-336,共4页
Information Science
基金
国家自然科学基金项目(70673070)
关键词
信息处理
网页正文抽取
自动识别
information mining
text extraction
self-motion recognices