-
题名一种基于分类算法的网页信息提取方法
被引量:11
- 1
-
-
作者
汪建伟
杨冬青
高军
王腾蛟
-
机构
北京大学信息科学技术学院
-
出处
《计算机科学》
CSCD
北大核心
2008年第3期91-93,共3页
-
基金
国家242基金(课题编号:2005B22,2006B20)
-
文摘
在目前的Web信息提取技术中,很多都是基于HTML结构的,由于HTML结构的经常变化,使提取模板需要经常更新,而提取模板的更新需要很多领域知识。本文提出一种基于分类算法的Web信息提取方法,通过将网页文本按照其显示属性的不同进行分组,以显示属性值为基础对Web页面文本进行分类,获取所关注文本,从而完成对Web页面的信息提取。这种提取方法操作简单,易于实现,对网页结构的依赖性小。
-
关键词
信息提取
属性向量
wrapper
显示属性
-
Keywords
web information extraction,attribute vector,wrapper,display attributes
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
TP393.092
[自动化与计算机技术—计算机应用技术]
-