期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
一种基于分类算法的网页信息提取方法 被引量:11
1
作者 汪建伟 杨冬青 +1 位作者 高军 王腾蛟 《计算机科学》 CSCD 北大核心 2008年第3期91-93,共3页
在目前的Web信息提取技术中,很多都是基于HTML结构的,由于HTML结构的经常变化,使提取模板需要经常更新,而提取模板的更新需要很多领域知识。本文提出一种基于分类算法的Web信息提取方法,通过将网页文本按照其显示属性的不同进行分组,以... 在目前的Web信息提取技术中,很多都是基于HTML结构的,由于HTML结构的经常变化,使提取模板需要经常更新,而提取模板的更新需要很多领域知识。本文提出一种基于分类算法的Web信息提取方法,通过将网页文本按照其显示属性的不同进行分组,以显示属性值为基础对Web页面文本进行分类,获取所关注文本,从而完成对Web页面的信息提取。这种提取方法操作简单,易于实现,对网页结构的依赖性小。 展开更多
关键词 信息提取 属性向量 wrapper 显示属性
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部