期刊文献+
共找到19篇文章
< 1 >
每页显示 20 50 100
A new focused crawler using an improved tabu search algorithm incorporating ontology and host information 被引量:1
1
作者 Jingfa LIU Zhen WANG +1 位作者 Guo ZHONG Zhihe YANG 《Frontiers of Information Technology & Electronic Engineering》 SCIE EI CSCD 2023年第6期859-875,共17页
To solve the problems of incomplete topic description and repetitive crawling of visited hyperlinks in traditional focused crawling methods,in this paper,we propose a novel focused crawler using an improved tabu searc... To solve the problems of incomplete topic description and repetitive crawling of visited hyperlinks in traditional focused crawling methods,in this paper,we propose a novel focused crawler using an improved tabu search algorithm with domain ontology and host information(FCITS_OH),where a domain ontology is constructed by formal concept analysis to describe topics at the semantic and knowledge levels.To avoid crawling visited hyperlinks and expand the search range,we present an improved tabu search(ITS)algorithm and the strategy of host information memory.In addition,a comprehensive priority evaluation method based on Web text and link structure is designed to improve the assessment of topic relevance for unvisited hyperlinks.Experimental results on both tourism and rainstorm disaster domains show that the proposed focused crawlers overmatch the traditional focused crawlers for different performance metrics. 展开更多
关键词 focused crawler Tabu search algorithm ONTOLOGY Host information Priority evaluation
原文传递
基于链接聚类的Shark-Search算法 被引量:8
2
作者 苏祺 项锟 孙斌 《山东大学学报(理学版)》 CAS CSCD 北大核心 2006年第3期139-143,共5页
根据对Shark-Search主题爬取算法的分析,提出了一种基于链接聚类的改进Shark-Search算法.并通过几个对比实验对该算法进行了验证.实验结果表明,新算法能够更有效地识别链接与主题的相关性.
关键词 Shark-search算法 主题爬取 链接聚类
在线阅读 下载PDF
定题搜索引擎Robot的设计与算法 被引量:9
3
作者 龙宇巍 王永成 许欢庆 《计算机仿真》 CSCD 2004年第4期69-72,76,共5页
定题搜索引擎将信息检索限定在特定主题领域 ,提供特定主题的信息检索服务 ,是新一代搜索引擎的发展方向之一。该文介绍了一个定题搜索robot系统NetBat2 .0 2版 ,它可以实现在web上爬行下载主题相关网页。定题搜索的关键技术是主题相关... 定题搜索引擎将信息检索限定在特定主题领域 ,提供特定主题的信息检索服务 ,是新一代搜索引擎的发展方向之一。该文介绍了一个定题搜索robot系统NetBat2 .0 2版 ,它可以实现在web上爬行下载主题相关网页。定题搜索的关键技术是主题相关信息的搜索及网页相关度分析。该文分析了传统定题搜索算法的优缺点 ,提出了基于反向链接结合超链文本分析的定题搜索算法。文章还对基于内容的网页相关度分析算法进行了详细的论述。对比搜索实验表明系统有着较好的性能 。 展开更多
关键词 定题搜索 搜索引擎 ROBOT 相关度分析 爬行算法 信息检索
在线阅读 下载PDF
林业主题爬虫的算法研究与设计 被引量:7
4
作者 袁津生 郭艳芬 《计算机工程与设计》 CSCD 北大核心 2011年第6期2003-2006,共4页
针对目前通用搜索引擎对林业主题信息覆盖率和查准率较低的不足,提出了一种基于Shark-Search算法的林业主题爬虫设计方案。详细讨论了该主题爬虫的爬行策略、算法描述及实现,并通过实践构建了林业主题搜索引擎"搜林"。实验结... 针对目前通用搜索引擎对林业主题信息覆盖率和查准率较低的不足,提出了一种基于Shark-Search算法的林业主题爬虫设计方案。详细讨论了该主题爬虫的爬行策略、算法描述及实现,并通过实践构建了林业主题搜索引擎"搜林"。实验结果表明,相对于通用搜索引擎,"搜林"减少了搜索结果的信息量,提高了林业主题信息搜索的准确率。 展开更多
关键词 林业 主题爬虫 搜索引擎 鲨鱼算法 相关性
在线阅读 下载PDF
一种基于链接和内容分析的自适应主题爬虫算法 被引量:4
5
作者 朱庆生 徐宁 周瑜 《计算机与现代化》 2015年第9期77-80,89,共5页
主题网络爬虫是主题搜索引擎中的一种关键技术,针对OTIE算法参数考虑不全的问题,提出结合链接和网页内容分析的自适应算法,通过结合网页链接重要性和内容相关性得分得到主题网页下载优先级的综合评分,同时考虑在爬取主题网页中的隧道穿... 主题网络爬虫是主题搜索引擎中的一种关键技术,针对OTIE算法参数考虑不全的问题,提出结合链接和网页内容分析的自适应算法,通过结合网页链接重要性和内容相关性得分得到主题网页下载优先级的综合评分,同时考虑在爬取主题网页中的隧道穿越问题。从ODP中选择主题和种子网页,将本算法与Best-First算法、Shark-Search算法和OTIE算法进行比较。实验结果表明,本算法不仅具有明显较好的查全率,而且具有很好的查准率。 展开更多
关键词 主题爬虫 OTIE算法 Shark—search算法 隧道穿越
在线阅读 下载PDF
基于本体的主题爬虫技术研究 被引量:2
6
作者 关慧芬 师军 《计算机仿真》 CSCD 北大核心 2009年第10期123-126,133,共5页
最好优先搜索算法在主题页面附近搜索时能够表现出良好的性能,但算法只关注能"立即回报"的链接而容易遗失那些有远期价值的链接,导致当搜索位置距离主题团较远时容易迷失搜索方向。在最好优先搜索算法基础上,引入了本体帮助... 最好优先搜索算法在主题页面附近搜索时能够表现出良好的性能,但算法只关注能"立即回报"的链接而容易遗失那些有远期价值的链接,导致当搜索位置距离主题团较远时容易迷失搜索方向。在最好优先搜索算法基础上,引入了本体帮助主题爬虫识别那些"未来回报"的链接,对抛弃的主题无关链接再基于领域本体进行一次其他主题相关度的判断实验。实验结果表明,基于本体的主题爬虫能够抓取大量主题相关度高的网页,提高了主题资源覆盖率,有效解决了传统算法无法穿过隧道的问题。 展开更多
关键词 主题爬虫 本体 主题相关度 最好优先算法
在线阅读 下载PDF
基于自适应免疫进化算法的聚焦爬虫搜索策略 被引量:1
7
作者 刘丽杰 许楠 李盼池 《黑龙江八一农垦大学学报》 2012年第4期61-64,共4页
聚焦爬虫是主题搜索引擎的核心部件。针对目前聚焦爬虫搜索策略的不足,提出基于主题相关度和页面重要性相结合的综合相关度来判别页面主题相关性,并采用自适应免疫进化算法这种搜索策略指导聚焦爬虫的爬行,实验结果证明,该算法下载的主... 聚焦爬虫是主题搜索引擎的核心部件。针对目前聚焦爬虫搜索策略的不足,提出基于主题相关度和页面重要性相结合的综合相关度来判别页面主题相关性,并采用自适应免疫进化算法这种搜索策略指导聚焦爬虫的爬行,实验结果证明,该算法下载的主题相关网页数所占比例明显高于最佳搜索和广度优先搜索算法的比例,具有更高的搜索效率。 展开更多
关键词 聚焦爬虫 搜索策略 主题相关度 自适应免疫进化算法
在线阅读 下载PDF
基于锚与链接文本扩展的KBES算法隧道策略 被引量:1
8
作者 乔建忠 《现代图书情报技术》 CSSCI 北大核心 2011年第3期45-50,共6页
在总结主题爬行器的"真、假隧道"策略的基础上,提出一种解决"假隧道"问题的KBES算法。通过实验分析KBES算法能在一定程度上提高锚与链接文本在启发策略中预测新链接相关性的效率。
关键词 主题搜索 隧道技术 搜索算法 主题爬行器
原文传递
一种基于改进BFS算法的主题搜索技术研究 被引量:1
9
作者 乔建忠 《现代图书情报技术》 CSSCI 北大核心 2013年第7期28-35,共8页
通过对Web主题爬行器在预测链接优先级时所用到的特征因子的细化和重新分类,引入收割率和媒体类型两个新特征作为相关性判断依据,提出一种改进的最好优先搜索算法。该算法采用"细粒度"策略过滤不相关网页,选取多个角度有代表... 通过对Web主题爬行器在预测链接优先级时所用到的特征因子的细化和重新分类,引入收割率和媒体类型两个新特征作为相关性判断依据,提出一种改进的最好优先搜索算法。该算法采用"细粒度"策略过滤不相关网页,选取多个角度有代表性的特征因子构造链接优先级计算公式,以达到全面揭示和预测链接主题的目的。通过与其他三类主题搜索算法的小规模实验比较,证明改进算法在收割率和平均提交链接数上效果较好。 展开更多
关键词 主题搜索 搜索算法 最好优先搜索算法 主题爬行器 特征因子
原文传递
面向主题网络爬行的智能隧道穿越算法研究 被引量:6
10
作者 黄莉 王成良 杨铮 《计算机应用研究》 CSCD 北大核心 2009年第8期2931-2933,共3页
在深入研究传统的主题网络爬虫爬行策略的基础上,提出了一种全新的智能隧道穿越算法。该算法将快速在线Q(λ)学习算法引入普通隧道技术中,通过在线学习积累爬行过程中的经验,引导主题网络爬虫以最小的时空代价穿越主题相关度低的区域到... 在深入研究传统的主题网络爬虫爬行策略的基础上,提出了一种全新的智能隧道穿越算法。该算法将快速在线Q(λ)学习算法引入普通隧道技术中,通过在线学习积累爬行过程中的经验,引导主题网络爬虫以最小的时空代价穿越主题相关度低的区域到达主题相关度高的区域。模拟实验表明,与普通隧道相比,智能隧道算法降低了时空复杂度,提高了主题网络爬虫的性能与运行效率。 展开更多
关键词 主题网络爬虫 爬行策略 隧道 在线学习 马尔可夫
在线阅读 下载PDF
计算机主题搜索引擎研究
11
作者 潘常春 《河池学院学报》 2005年第5期40-43,共4页
W eb信息的急剧增长使搜索引擎专用化成为发展趋势。在此重点论述了主题搜索引擎的信息采集策略,并给出了一种计算机主题搜索引擎设计方案。
关键词 主题搜索 主题智能机器人 搜索引擎 计算机
在线阅读 下载PDF
基于Heritrix的面向特定主题的聚焦爬虫研究 被引量:7
12
作者 朱敏 罗省贤 《计算机技术与发展》 2012年第2期65-68,共4页
通过分析Heritirx开源爬虫的组件结构,针对Heritrix开源爬虫项目存在的问题,项目设计了特定的抓取逻辑和定向抓取包含某一特定内容的网页的类,并引入BKDRHash算法进行URL散列,实现了面向特定主题的网页信息搜索,达到了提高搜索数据的效... 通过分析Heritirx开源爬虫的组件结构,针对Heritrix开源爬虫项目存在的问题,项目设计了特定的抓取逻辑和定向抓取包含某一特定内容的网页的类,并引入BKDRHash算法进行URL散列,实现了面向特定主题的网页信息搜索,达到了提高搜索数据的效率以及多线程抓取网页的目的。最后对某一特定主题的网页进行分析,并进行网页内容抓取,采用HTMLParser工具将抓取的网页数据源转换成特定的格式,可为面向主题的搜索信息系统以及数据挖掘提供数据源,为下一步研究工作做好准备。 展开更多
关键词 聚焦爬虫 HERITRIX BKDRHash算法 HTMLPARSER 搜索引擎
在线阅读 下载PDF
基于遗传算法的聚焦爬虫搜索策略设计与研究 被引量:3
13
作者 陈悦 陈运 +1 位作者 杨义先 胡迪 《成都信息工程学院学报》 2011年第5期533-537,共5页
网络爬虫是搜索引擎的重要组成部分。针对目前聚焦爬虫搜索策略的不足,提出了一种新的搜索策略解决方案。在搜索过程中对适应度高于或低于种群平均适应度的个体采用不同的交叉概率和变异概率来扩大爬虫的爬取范围、增加新个体,并通过改... 网络爬虫是搜索引擎的重要组成部分。针对目前聚焦爬虫搜索策略的不足,提出了一种新的搜索策略解决方案。在搜索过程中对适应度高于或低于种群平均适应度的个体采用不同的交叉概率和变异概率来扩大爬虫的爬取范围、增加新个体,并通过改进遗传算子,提高聚焦爬虫的搜索效率。实验证明,基于自适应遗传算法的聚焦爬虫在一定程度上解决了传统遗传算法的"早熟"问题,而且能够爬取到更多主题相关的网页和相关度高的网页。 展开更多
关键词 搜索引擎 搜索策略 聚焦爬虫 遗传算法 自适应
在线阅读 下载PDF
基于动态隧道技术的主题爬行策略 被引量:1
14
作者 姜琨 朱磊 王一川 《计算机系统应用》 2020年第3期253-260,共8页
互联网网页所形成的主题孤岛严重影响了搜索引擎系统的主题爬虫性能,通过人工增加大量的初始种子链接来发现新主题的方法无法保证主题网页的全面性.在分析传统基于内容分析、基于链接分析和基于语境图的主题爬行策略的基础上,提出了一... 互联网网页所形成的主题孤岛严重影响了搜索引擎系统的主题爬虫性能,通过人工增加大量的初始种子链接来发现新主题的方法无法保证主题网页的全面性.在分析传统基于内容分析、基于链接分析和基于语境图的主题爬行策略的基础上,提出了一种基于动态隧道技术的主题爬虫爬行策略.该策略结合页面主题相关度计算和URL链接相关度预测的方法确定主题孤岛之间的网页页面主题相关性,并构建层次化的主题判断模型来解决主题孤岛之间的弱链接问题.同时,该策略能有效防止主题爬虫因采集过多的主题无关页面而导致的主题漂移现象,从而可以实现在保持主题语义信息的爬行方向上的动态隧道控制.实验过程利用主题网页层次结构检测页面主题相关性并抽取“体育”主题关键词,然后以此对采集的主题网页进行索引查询测试.结果表明,基于动态隧道技术的爬行策略能够较好的解决主题孤岛问题,明显提升了“体育”主题搜索引擎的准确率和召回率. 展开更多
关键词 网络爬虫 主题孤岛 动态隧道 爬行策略
在线阅读 下载PDF
主题网络爬虫抓取策略的研究 被引量:5
15
作者 刘清 《科技广场》 2017年第4期43-46,共4页
在日常工作和生活中,互联网已遍及各个角落,基于当今快速发展的网络环境,人们对数据的搜索应用十分普遍,普通的网络爬虫已无法满足人们对有用信息获取的要求。本文基于主题爬虫的结构特征,分析近年来国内外爬虫抓取策略的方法、技术,重... 在日常工作和生活中,互联网已遍及各个角落,基于当今快速发展的网络环境,人们对数据的搜索应用十分普遍,普通的网络爬虫已无法满足人们对有用信息获取的要求。本文基于主题爬虫的结构特征,分析近年来国内外爬虫抓取策略的方法、技术,重点介绍一些极具有代表性的主题相关度算法,包括Page Rank、HITS等,并分析比较各种典型算法的优点和不足。 展开更多
关键词 主题爬虫 抓取策略 主题相关度算法
在线阅读 下载PDF
基于布谷鸟搜索算法的主题爬虫策略设计
16
作者 钱竞远 杨辉华 刘振丙 《仪器仪表用户》 2017年第6期20-23,共4页
通用搜索引擎搜索的网页量大,引入主题爬虫搜索策略的搜索引擎检索的网页相关度高,减少了无关网页的采集。为了提高主题爬虫的搜索效率,设计一种基于布谷鸟搜索算法的主题爬虫搜索策略,将爬取的网页URL作为鸟巢个体,计算待选择的URL集... 通用搜索引擎搜索的网页量大,引入主题爬虫搜索策略的搜索引擎检索的网页相关度高,减少了无关网页的采集。为了提高主题爬虫的搜索效率,设计一种基于布谷鸟搜索算法的主题爬虫搜索策略,将爬取的网页URL作为鸟巢个体,计算待选择的URL集合中所有网页的相关度,采用莱维飞行进行多次迭代,找出相关度高的,然后通过随机数与发现概率Pa进行比较,产生新的URL。实验结果表明,与主题爬虫的其他相关技术比较,此策略在爬取主题相关网页时具有更高的效率。 展开更多
关键词 布谷鸟搜索算法 主题爬虫 网页相关度 适应度
在线阅读 下载PDF
基于互联网的爬虫程序研究
17
作者 郭银芳 韩凯 +2 位作者 郭峰明 王国升 李雪萌 《计算机应用文摘》 2022年第2期73-75,102,共4页
随着互联网的飞速发展,大数据成为互联网技术行业的流行词汇。如今,想要获取大量的数据,爬虫无疑是非常便利的工具。文章介绍了爬虫的原理以及网页的分析方法,对Scrapy框架进行了介绍﹐并用Scrapy对网站进行了数据的爬取,最后利用数据... 随着互联网的飞速发展,大数据成为互联网技术行业的流行词汇。如今,想要获取大量的数据,爬虫无疑是非常便利的工具。文章介绍了爬虫的原理以及网页的分析方法,对Scrapy框架进行了介绍﹐并用Scrapy对网站进行了数据的爬取,最后利用数据可视化工具对数据进行处理,以便更加直观地对数据进行分析。文章以拉勾网为爬虫对象,在爬虫的过程中,总结了爬虫遇到的问题和解决办法。此外,文章利用Scrapy框架对程序进行了优化,提升了爬取效率。 展开更多
关键词 聚焦爬虫 搜索策略 scrapy框架 全站爬取 分布式爬取
在线阅读 下载PDF
基于多分类器组合择优方法的主题爬行分类策略
18
作者 乔建忠 《图书情报工作》 CSSCI 北大核心 2013年第14期114-120,共7页
针对主题爬行技术中的单一分类算法在面对多主题Web抓取和分类需求时泛化能力不强的局限,设计一种利用多种强分类算法形成的分类器组合,主题爬行器根据当前主题任务在线评估并为分类器排名,从中选择最优分类器分类的策略,并开展在多个... 针对主题爬行技术中的单一分类算法在面对多主题Web抓取和分类需求时泛化能力不强的局限,设计一种利用多种强分类算法形成的分类器组合,主题爬行器根据当前主题任务在线评估并为分类器排名,从中选择最优分类器分类的策略,并开展在多个主题抓取任务下的分类实验,比较每种分类算法的准确率和组合后的平均分类准确率以及对分类效率等评价指标的综合分析,结果证明该策略对领域局域性有所克服,普适性较强。 展开更多
关键词 主题爬行技术 主题爬行器 网页分类 分类算法 多分类器组合 分类准确率 分类效率
原文传递
面向主题搜索的特征因子研究综述
19
作者 乔建忠 《图书情报工作》 CSSCI 北大核心 2012年第17期143-147,121,共6页
通过梳理搜索算法中出现的各种特征因子,提出一种更全面的特征因子分类方法,按其自身特点将特征因子划分为6类,分别是文字内容特征、Web拓扑特征、主题分布特征、文档类型特征、统计特征和时效性特征,并描述各特征项对主题相关性的作用... 通过梳理搜索算法中出现的各种特征因子,提出一种更全面的特征因子分类方法,按其自身特点将特征因子划分为6类,分别是文字内容特征、Web拓扑特征、主题分布特征、文档类型特征、统计特征和时效性特征,并描述各特征项对主题相关性的作用、综合运用各类特征的通用化链接优先级计算公式以及特征选取原则。 展开更多
关键词 主题爬行技术 主题爬行器 特征因子 搜索算法
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部