期刊文献+

基于文档特征的Web主题文本提取

Web Topic Text Extraction Based on Document Features
在线阅读 下载PDF
导出
摘要 Web主题文本提取是从Web页面中找出文本型主题内容,对Web信息过滤具有重大作用。针对目前Web主题文本提取算法复杂而且响应速度较慢的不足,提出一种新的Web主题文本提取方法。该方法直接从HTML文档结构本身的特征出发,提取文档中文本的多个特征,并设计了一个有效的公式综合利用提取特征来定位主题文本。实验表明该算法简单、快速、有效,能很好地运用于Web信息过滤。 Extraction of Web topic text is to find the text topic information from the Web pages, it is important for the Web information filtering. Because of the complicated computation and the slow response in extraction of the Web topic text, presents a new method. This method, directly using the structure of the HTML document, can extract several statistics from the HTML document and design a formula to locate the topic text. Experiments show that, the method is proved to be a simple, fast and effective way to filter the Web information.
作者 黄振晗
出处 《现代计算机》 2009年第8期26-30,共5页 Modern Computer
关键词 主题文本 文本特征 结构树 Topic Text Text Feature Structured Tree
  • 相关文献

参考文献7

二级参考文献25

共引文献157

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部