期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于Context Graphs的主题爬虫的研究与实现 被引量:3
1
作者 陈星 《计算机工程与设计》 CSCD 北大核心 2011年第3期914-917,共4页
为了解决传统主题爬虫对主题网页搜索效率偏低的问题,分析了基于网络拓扑结构建模的Context Graphs的爬行策略。考虑了以往ContextGraphs方法存在的不足,即没有区分网页不同部分文本的重要程度,通过将锚文字、页面标题和页面内容做综合... 为了解决传统主题爬虫对主题网页搜索效率偏低的问题,分析了基于网络拓扑结构建模的Context Graphs的爬行策略。考虑了以往ContextGraphs方法存在的不足,即没有区分网页不同部分文本的重要程度,通过将锚文字、页面标题和页面内容做综合考虑,对原算法进行了改进。将改进前后的算法进行实验对比,实验结果表明,在提高主题爬行质量方面,改进后的算法达到了更好的效果。 展开更多
关键词 主题爬虫 context Graphs模型 层次建模 链接分析 内容分析
在线阅读 下载PDF
Nave Bayes分类器制导的专业网页爬取算法 被引量:3
2
作者 韩国辉 陈黎 +3 位作者 梁时木 唐小棚 王亚强 于中华 《中文信息学报》 CSCD 北大核心 2010年第4期32-38,62,共8页
从Web中快速、准确地检索出所需信息的迫切需求催生了专业搜索引擎技术。在专业搜索引擎中,网络爬虫(Crawler)负责在Web上搜集特定专业领域的信息,是专业搜索引擎的重要核心部件。该文对中文专业网页的爬取问题进行了研究,基于KL距离验... 从Web中快速、准确地检索出所需信息的迫切需求催生了专业搜索引擎技术。在专业搜索引擎中,网络爬虫(Crawler)负责在Web上搜集特定专业领域的信息,是专业搜索引擎的重要核心部件。该文对中文专业网页的爬取问题进行了研究,基于KL距离验证了网页内容与链接前后文在分布上的差异,在此基础上提出了以链接锚文本及其前后文为特征、Nave Bayes分类器制导的中文专业网页爬取算法,设计了自动获取带链接类标的训练数据的算法。以金融专业网页的爬取为例,分别对所提出的算法进行了离线和在线测试,结果表明,Nave Bayes分类器制导的网络爬虫可以达到近90%的专业网页收割率。 展开更多
关键词 计算机应用 中文信息处理 搜索引擎 专业爬虫 Nave BAYESIAN CLASSIFIER 链接前后文
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部