期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于标记树对象抽取技术的Hidden Web获取研究 被引量:9
1
作者 宋晖 张岭 +1 位作者 叶允明 马范援 《计算机工程与应用》 CSCD 北大核心 2002年第23期9-12,24,共5页
目前标准的搜索引擎能够检索的仅仅是WorldWideWeb提供的小部分称为可索引的Web信息。大量的HiddenWeb信息(估计容量是可索引Web的500倍)对这些搜索引擎是不可见的。这些信息隐藏在Web页面的搜索表单后面,保存在大型的动态数据库中。该... 目前标准的搜索引擎能够检索的仅仅是WorldWideWeb提供的小部分称为可索引的Web信息。大量的HiddenWeb信息(估计容量是可索引Web的500倍)对这些搜索引擎是不可见的。这些信息隐藏在Web页面的搜索表单后面,保存在大型的动态数据库中。该文提出了一套检索HiddenWeb信息的方法,给出了系统的框架结构,并详细讨论了实现的关键技术。系统采用新的基于标记树的对象抽取(Tag-Tree-basedObjectExtraction)方法自动地从Web页面中抽取HiddenWeb信息,然后在此基础上给出了结构化的HiddenWeb信息查询算法。文章最后对实验结果进行了讨论。 展开更多
关键词 标记树 对象抽取 hiddenweb 互联网 搜索引擎 信息检索 结构化查询 数据库
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部