期刊文献+
共找到165篇文章
< 1 2 9 >
每页显示 20 50 100
A Survey about Algorithms Utilized by Focused Web Crawler
1
作者 Yong-Bin Yu Shi-Lei Huang +3 位作者 Nyima Tashi Huan Zhang Fei Lei Lin-Yang Wu 《Journal of Electronic Science and Technology》 CAS CSCD 2018年第2期129-138,共10页
Abstract—Focused crawlers (also known as subjectoriented crawlers), as the core part of vertical search engine, collect topic-specific web pages as many as they can to form a subject-oriented corpus for the latter ... Abstract—Focused crawlers (also known as subjectoriented crawlers), as the core part of vertical search engine, collect topic-specific web pages as many as they can to form a subject-oriented corpus for the latter data analyzing or user querying. This paper demonstrates that the popular algorithms utilized at the process of focused web crawling, basically refer to webpage analyzing algorithms and crawling strategies (prioritize the uniform resource locator (URLs) in the queue). Advantages and disadvantages of three crawling strategies are shown in the first experiment, which indicates that the best-first search with an appropriate heuristics is a smart choice for topic-oriented crawlingwhile the depth-first search is helpless in focused crawling. Besides, another experiment on comparison of improved ones (with a webpage analyzing algorithm added) is carried out to verify that crawling strategies alone are not quite efficient for focused crawling and in most cases their mutual efforts are taken into consideration. In light of the experiment results and recent researches, some points on the research tendency of focused crawler algorithms are suggested. 展开更多
关键词 Crawling strategies focused crawler harvest rate uniform resource locator(URL) prioritizing webpage analyzing
在线阅读 下载PDF
On-line topical importance estimation:an effective focused crawling algorithm combining link and content analysis 被引量:7
2
作者 Can WANG Zi-yu GUAN +3 位作者 Chun CHEN Jia-jun BU Jun-feng WANG Huai-zhong LIN 《Journal of Zhejiang University-Science A(Applied Physics & Engineering)》 SCIE EI CAS CSCD 2009年第8期1114-1124,共11页
Focused crawling is an important technique for topical resource discovery on the Web.The key issue in focused crawling is to prioritize uncrawled uniform resource locators(URLs) in the frontier to focus the crawling o... Focused crawling is an important technique for topical resource discovery on the Web.The key issue in focused crawling is to prioritize uncrawled uniform resource locators(URLs) in the frontier to focus the crawling on relevant pages.Traditional focused crawlers mainly rely on content analysis.Link-based techniques are not effectively exploited despite their usefulness.In this paper,we propose a new frontier prioritizing algorithm,namely the on-line topical importance estimation(OTIE) algorithm.OTIE combines link-and content-based analysis to evaluate the priority of an uncrawled URL in the frontier.We performed real crawling experiments over 30 topics selected from the Open Directory Project(ODP) and compared harvest rate and target recall of the four crawling algorithms:breadth-first,link-context-prediction,on-line page importance computation(OPIC) and our OTIE.Experimental results showed that OTIE significantly outperforms the other three algorithms on the average target recall while maintaining an acceptable harvest rate.Moreover,OTIE is much faster than the traditional focused crawling algorithm. 展开更多
关键词 focused crawlers Topical crawlers PAGERANK Classifiers On-line topical importance estimation (OTIE) algorithm
原文传递
A New Framework for Focused Web Crawling 被引量:3
3
作者 PENG Tao HE Fengling ZUO Wanli 《Wuhan University Journal of Natural Sciences》 CAS 2006年第5期1394-1397,共4页
Focused crawlers are important tools to support applications such as specialized Web portals, online searching, and Web search engines. A topic driven crawler chooses the best URLs and relevant pages to pursue during ... Focused crawlers are important tools to support applications such as specialized Web portals, online searching, and Web search engines. A topic driven crawler chooses the best URLs and relevant pages to pursue during Web crawling. It is difficult to deal with irrelevant pages. This paper presents a novel focused crawler framework. In our focused crawler, we propose a method to overcome some of the limitations of dealing with the irrelevant pages. We also introduce the implementation of our focused crawler and present some important metrics and an evaluation function for ranking pages relevance. The experimental result shows that our crawler can obtain more "important" pages and has a high precision and recall value. 展开更多
关键词 focused crawlers irrelevant pages relevance metrics
在线阅读 下载PDF
基于朴素贝叶斯模型和PageRank算法的电网事故主题爬虫算法
4
作者 谢树泳 刘之亮 《河南师范大学学报(自然科学版)》 北大核心 2025年第2期124-130,共7页
为了减少电网人身安全事故,利用数据挖掘技术构建和分析事故多维数据,建立准确的预警模型十分必要.其中一个极具挑战性的问题是如何在海量网页中自动化采集人身事故样本数据.提出一种朴素贝叶斯模型与PageRank结合的主题爬虫算法.首先... 为了减少电网人身安全事故,利用数据挖掘技术构建和分析事故多维数据,建立准确的预警模型十分必要.其中一个极具挑战性的问题是如何在海量网页中自动化采集人身事故样本数据.提出一种朴素贝叶斯模型与PageRank结合的主题爬虫算法.首先采用中文文本分割和设置关键词词频的方法对数据预处理,进行特征选择后,构建并训练朴素贝叶斯分类模型,从而实现电网事故分类准确度的显著提升.然后利用PageRank算法对精确分类后的网页进行主题相关性排序,有效避免普通爬虫方法中出现的主题漂移问题.实验结果表明,不论是在相同时间还是相同页面数的条件下,该方法的页面收获率均高于单独使用朴素贝叶斯分类器或PageRank的收获率,即本方法能够在大量网页中更高效、准确地爬取电网事故信息. 展开更多
关键词 电网安全 人身事故 朴素贝叶斯模型 PAGERANK算法 主题爬虫
在线阅读 下载PDF
基于聚焦网络爬虫技术的人才招聘数据采集与分析
5
作者 蒋泽艳 《软件》 2025年第4期4-6,共3页
本文以聚焦网络爬虫技术为重点组织分析,分析了其技术特点以及原理,研究了其在人才招聘数据采集与分析工作中的应用。技术层面包括采集框架建设、数据来源拓展以及采集逻辑的选取等,同时,关注工作流程的稳定性和可靠性,采用物联网工作... 本文以聚焦网络爬虫技术为重点组织分析,分析了其技术特点以及原理,研究了其在人才招聘数据采集与分析工作中的应用。技术层面包括采集框架建设、数据来源拓展以及采集逻辑的选取等,同时,关注工作流程的稳定性和可靠性,采用物联网工作系统、区块链工作模式,降低爬虫技术在单一节点的工作压力,保证数据分析后的汇总、交互效率,以进一步提升人才招聘数据采集与分析水平,发挥聚焦网络爬虫技术优势。 展开更多
关键词 聚焦网络爬虫技术 人才招聘 数据采集 数据分析
在线阅读 下载PDF
基于PageRank与Bagging的主题爬虫研究 被引量:11
6
作者 张翔 周明全 +1 位作者 李智杰 董丽丽 《计算机工程与设计》 CSCD 北大核心 2010年第14期3309-3312,共4页
为克服主题爬虫主题漂移现象,提高搜索引擎的查准率和查全率,提出了一个基于PageRank算法与Bagging算法的主题爬虫设计方法。将主题爬虫系统分为爬虫爬行模块和主题相关性分析模块。利用一种改进的PageRank算法改善了爬虫的搜索策略,进... 为克服主题爬虫主题漂移现象,提高搜索引擎的查准率和查全率,提出了一个基于PageRank算法与Bagging算法的主题爬虫设计方法。将主题爬虫系统分为爬虫爬行模块和主题相关性分析模块。利用一种改进的PageRank算法改善了爬虫的搜索策略,进行网页遍历与抓取。用向量空间模型表示网页主题,使用Bagging算法构造网页主题分类器进行主题相关性分析,过滤与主题无关网页。实验结果表明,该方法在网页抓取的性能上和主题网页的查准率上都取得较好的效果。 展开更多
关键词 主题爬虫 搜索策略 主题相关性 PAGERANK BAGGING
在线阅读 下载PDF
基于主题的智能Web信息采集系统的研究与实现 被引量:15
7
作者 李卫 刘建毅 +1 位作者 何华灿 王枞 《计算机应用研究》 CSCD 北大核心 2006年第2期163-166,共4页
研究并实现了一个基于主题的智能信息采集系统IFWC,该系统以全信息理论为支撑,吸收传统向量空间模型的思想,采用基于概念的向量空间模型,从词的语义层次对文本进行主题相关性分析;使用扩展元数据的语义相关性判定算法,对页面内的URL进... 研究并实现了一个基于主题的智能信息采集系统IFWC,该系统以全信息理论为支撑,吸收传统向量空间模型的思想,采用基于概念的向量空间模型,从词的语义层次对文本进行主题相关性分析;使用扩展元数据的语义相关性判定算法,对页面内的URL进行主题相关性预测。实验证明,该系统采集速度快,采集下来的页面精度高。 展开更多
关键词 基于主题的信息采集 全信息 扩展元数据 概念向量空间模型
在线阅读 下载PDF
基于主题的Web信息采集系统的设计与实现 被引量:23
8
作者 李盛韬 赵章界 余智华 《计算机工程》 CAS CSCD 北大核心 2003年第17期102-104,共3页
基于主题的Web信息采集是信息检索领域内一个新兴且有实用价值的方向,也是信息处理技术中的一个研究热点。文章分析了主题Web信息采集的基本问题,提出了难点以及相关的解决方案,并在此基础上设计实现了“天达”主题Web信息采集系统。
关键词 信息采集 信息检索 信息处理 主题采集
在线阅读 下载PDF
聚焦爬虫技术研究综述 被引量:156
9
作者 周立柱 林玲 《计算机应用》 CSCD 北大核心 2005年第9期1965-1969,共5页
因特网的迅速发展对万维网信息的查找与发现提出了巨大的挑战。对于大多用户提出的与主题或领域相关的查询需求,传统的通用搜索引擎往往不能提供令人满意的结果网页。为了克服通用搜索引擎的以上不足,提出了面向主题的聚焦爬虫的研究。... 因特网的迅速发展对万维网信息的查找与发现提出了巨大的挑战。对于大多用户提出的与主题或领域相关的查询需求,传统的通用搜索引擎往往不能提供令人满意的结果网页。为了克服通用搜索引擎的以上不足,提出了面向主题的聚焦爬虫的研究。至今,聚焦爬虫已成为有关万维网的研究热点之一。文中对这一热点研究进行综述,给出聚焦爬虫(Focused Crawler)的基本概念,概述其工作原理;并根据研究的发展现状,对聚焦爬虫的关键技术(抓取目标描述,网页分析算法和网页搜索策略等)作系统介绍和深入分析。在此基础上,提出聚焦爬虫今后的一些研究方向,包括面向数据分析和挖掘的爬虫技术研究,主题的描述与定义,相关资源的发现,W eb数据清洗,以及搜索空间的扩展等。 展开更多
关键词 聚焦爬虫 信息检索 链接分析 文本检索 数据抽取 协作抓取 本体描述 元搜索
在线阅读 下载PDF
基于贝叶斯分类器的主题爬虫研究 被引量:17
10
作者 邹永斌 陈兴蜀 王文贤 《计算机应用研究》 CSCD 北大核心 2009年第9期3418-3420,3439,共4页
主题爬虫是实现定题搜索引擎的核心技术。提出了基于贝叶斯分类器实现主题爬虫的方法,介绍了基于贝叶斯分类器的主题爬虫的系统结构以及系统关键部分的实现,包括URL队列、爬行历史、页面下载以及页面分析,并重点介绍了基于贝叶斯分类器... 主题爬虫是实现定题搜索引擎的核心技术。提出了基于贝叶斯分类器实现主题爬虫的方法,介绍了基于贝叶斯分类器的主题爬虫的系统结构以及系统关键部分的实现,包括URL队列、爬行历史、页面下载以及页面分析,并重点介绍了基于贝叶斯分类器的主题相关度算法。爬虫使用改进的TF-IDF算法来提取网页内容的特征,并采用贝叶斯分类器计算其主题相关度。实验结果表明,在搜索大量网络资源的情况下,贝叶斯分类器比PageRank算法更适合用于实现主题爬虫。 展开更多
关键词 贝叶斯 分类器 主题爬虫 主题相关度
在线阅读 下载PDF
主题网络爬虫研究综述 被引量:132
11
作者 刘金红 陆余良 《计算机应用研究》 CSCD 北大核心 2007年第10期26-29,47,共5页
首先给出了主题网络爬虫的定义和研究目标;然后系统分析了近年来国内外主题爬虫的研究方法和技术,包括基于文字内容的方法、基于超链分析的方法、基于分类器预测的方法以及其他主题爬行方法,并比较了各种方法优缺点;最后对未来的研究方... 首先给出了主题网络爬虫的定义和研究目标;然后系统分析了近年来国内外主题爬虫的研究方法和技术,包括基于文字内容的方法、基于超链分析的方法、基于分类器预测的方法以及其他主题爬行方法,并比较了各种方法优缺点;最后对未来的研究方向进行了展望。 展开更多
关键词 主题网络爬虫 信息检索 WEB挖掘
在线阅读 下载PDF
基于本体语义的定题爬虫 被引量:11
12
作者 郑健珍 林坤辉 +1 位作者 周昌乐 康恺 《山东大学学报(理学版)》 CAS CSCD 北大核心 2006年第3期106-110,共5页
定题爬虫能迅速获取网络上特定主题的大量信息,对专业搜索引擎及数据挖掘应用都具有重大价值.针对目前通用的基于关键词主题过滤策略的不足,在概念聚集思想启发下,提出了基于本体语义的主题过滤策略.同时根据网页具有不同位置不同信息... 定题爬虫能迅速获取网络上特定主题的大量信息,对专业搜索引擎及数据挖掘应用都具有重大价值.针对目前通用的基于关键词主题过滤策略的不足,在概念聚集思想启发下,提出了基于本体语义的主题过滤策略.同时根据网页具有不同位置不同信息重要性的特点,提出了改进的加权特征项权值计算公式,实现基于语义的网页实时过滤.为进一步提高爬虫的工作效率提出链接相关度预测算法.对比实验表明此策略具有可行性. 展开更多
关键词 定题爬虫 主题过滤 本体语义 链接分析
在线阅读 下载PDF
Deep Web数据源聚焦爬虫 被引量:11
13
作者 林超 赵朋朋 崔志明 《计算机工程》 CAS CSCD 北大核心 2008年第7期56-58,共3页
Internet上有大量页面是由后台数据库动态产生的,这部分页面不能通过传统的搜索引擎访问,被称为Deep Web。数据源发现是大规模Deep Web数据源集成的关键步骤。该文提出一种针对DeepWeb数据源的聚焦爬行算法。在评价链接重要性时,综合考... Internet上有大量页面是由后台数据库动态产生的,这部分页面不能通过传统的搜索引擎访问,被称为Deep Web。数据源发现是大规模Deep Web数据源集成的关键步骤。该文提出一种针对DeepWeb数据源的聚焦爬行算法。在评价链接重要性时,综合考虑了页面与主题的相关性和链接相关信息。实验证明该方法是有效的。 展开更多
关键词 DEEP WEB数据源 聚焦爬虫 贝叶斯分类器
在线阅读 下载PDF
主题爬虫的搜索策略研究 被引量:26
14
作者 刘汉兴 刘财兴 《计算机工程与设计》 CSCD 北大核心 2008年第12期3160-3162,3166,共4页
主题爬虫收集主题相关信息时,需要评价网页的主题相关度,并优先爬取相关度较高的网页,在决定了搜索路径的同时也决定了主题爬虫的搜索效率。针对不同的网页评价算法,对现有的主题爬虫的搜索策略进行分类,指出了各类搜索策略的特点和优缺... 主题爬虫收集主题相关信息时,需要评价网页的主题相关度,并优先爬取相关度较高的网页,在决定了搜索路径的同时也决定了主题爬虫的搜索效率。针对不同的网页评价算法,对现有的主题爬虫的搜索策略进行分类,指出了各类搜索策略的特点和优缺点,总结了能够提高主题爬虫搜索效率的几方面内容。 展开更多
关键词 主题爬虫 搜索策略 页面评价 搜索引擎 优化
在线阅读 下载PDF
商品评论聚焦爬虫算法设计与实现 被引量:10
15
作者 方美玉 郑小林 +2 位作者 陈德人 华艺 施艳 《吉林大学学报(工学版)》 EI CAS CSCD 北大核心 2012年第S1期377-381,共5页
从商品评论抽取算法出发,使用开放应用编程接口调用和链接跟踪的方法,分别设计了基于通用爬虫原理和开放应用编程接口(OpenAPI)的商品评论聚焦爬虫算法。在此基础上实现了淘宝网和京东网商品评论收集程序。最后将两者与通用爬虫算法进... 从商品评论抽取算法出发,使用开放应用编程接口调用和链接跟踪的方法,分别设计了基于通用爬虫原理和开放应用编程接口(OpenAPI)的商品评论聚焦爬虫算法。在此基础上实现了淘宝网和京东网商品评论收集程序。最后将两者与通用爬虫算法进行比较,证实了二者的程序设计具有针对性强、数据采集实时性好、易嵌入开发等优点,为实时评论数据采集技术的研究提供了新思路。 展开更多
关键词 计算机软件 商品评论 开放应用编程接口 聚焦爬虫 爬虫算法
在线阅读 下载PDF
化学主题网络爬虫的设计和实现 被引量:6
16
作者 夏诏杰 梁春燕 郭力 《计算机工程与应用》 CSCD 北大核心 2006年第10期204-205,229,共3页
由于通用搜索引擎检索返回的结果过多、主题相关性不强以及随着人们对提供的各项信息服务的要求越来越高,基于整个Web的信息采集越来越力不从心。同时它无法及时地采集到足够的最新的Web信息,也不能满足人们日益增长的个性化需求。本文... 由于通用搜索引擎检索返回的结果过多、主题相关性不强以及随着人们对提供的各项信息服务的要求越来越高,基于整个Web的信息采集越来越力不从心。同时它无法及时地采集到足够的最新的Web信息,也不能满足人们日益增长的个性化需求。本文通过把Internet化学资源导航系统所积累的化学知识与搜索引擎的自动采集技术相结合展开了对化学主题网络爬虫开发的研究。结果表明,基于Widrow-Hoff分类器的化学主题网络爬虫能有效的采集化学相关的网页。 展开更多
关键词 主题爬虫 主题搜索引擎 化学主题网络爬虫 Widrow-Hoff 分类器
在线阅读 下载PDF
领域相关的Web网站抓取方法 被引量:5
17
作者 李刚 周立柱 +1 位作者 郭奇 林玲 《计算机科学》 CSCD 北大核心 2007年第2期137-140,148,共5页
本文提出了一种抓取领域相关的Web站点的方法,可以在较小的代价下准确地收集用户所关心领域内的网站。这种方法主要改进了传统的聚焦爬虫(Focused Crawler)技术,首先利用Meta-Search技术来改进传统Crawler的通过链接分析来抓取网页的方... 本文提出了一种抓取领域相关的Web站点的方法,可以在较小的代价下准确地收集用户所关心领域内的网站。这种方法主要改进了传统的聚焦爬虫(Focused Crawler)技术,首先利用Meta-Search技术来改进传统Crawler的通过链接分析来抓取网页的方法,而后利用启发式搜索大大降低了搜索代价,通过引入一种评价领域相关性的打分方法,达到了较好的准确率。本文详细地描述了上述算法并通过详细的实验验证了算法的效率和效果。 展开更多
关键词 META-SEARCH 聚焦爬虫(focused crawler) 启发式搜索
在线阅读 下载PDF
面向P2P搜索的可定制聚焦网络爬虫 被引量:5
18
作者 方启明 杨广文 +2 位作者 武永卫 朱安平 郑纬民 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2007年第S2期148-152,共5页
提出了一种可定制聚焦网络爬虫技术.该技术采用简单的主题描述方法提高网络爬虫的可定制性,利用基于站点页面链接结构的链接导航技术实现对主题信息的高效抓取,通过配置文件实施定制,从而构建一个资源消耗小、数据采集准确性高、可控性... 提出了一种可定制聚焦网络爬虫技术.该技术采用简单的主题描述方法提高网络爬虫的可定制性,利用基于站点页面链接结构的链接导航技术实现对主题信息的高效抓取,通过配置文件实施定制,从而构建一个资源消耗小、数据采集准确性高、可控性强的轻量级聚焦网络爬虫,以满足P2P搜索的需求.文中进一步提出一种增量更新和批量更新相结合的网络爬虫数据更新机制,这种混合更新机制降低了增量更新的实现复杂性,相比批量更新具有更小的资源消耗,实验表明采用这种机制能达到较高的数据新鲜度和召回率. 展开更多
关键词 P2P搜索 聚焦网络爬虫 链接导航 增量更新 批量更新
在线阅读 下载PDF
一种面向聚焦爬虫的自然场景文本定位技术 被引量:4
19
作者 彭浩 陈继锋 +2 位作者 刘琼 王海涛 高海波 《小型微型计算机系统》 CSCD 北大核心 2014年第9期2014-2018,共5页
各类视频设备采集的图像中包含了高质量的海量主题信息.尽可能全面地找到自然场景中的文本,对聚焦爬虫具有重要意义.提出一种具有较高召回率的文本定位技术,充分注意到角点强度极大、极小值对自然场景文本定位的重要作用,运用提出的角... 各类视频设备采集的图像中包含了高质量的海量主题信息.尽可能全面地找到自然场景中的文本,对聚焦爬虫具有重要意义.提出一种具有较高召回率的文本定位技术,充分注意到角点强度极大、极小值对自然场景文本定位的重要作用,运用提出的角点强度增强技术和三值化方法,能够有效地分离出极大、极小值区域,从而,能够将图片中的大部分文字从复杂的背景和各种噪声中凸显出来.实验表明,该方法能够大幅提高基于角点特征的定位算法的召回率,为聚焦爬虫从大量的自然场景图片中获取重要的主题信息提供了可能. 展开更多
关键词 角点增强 角点强度三值化 文本定位 自然场景 聚焦爬虫
在线阅读 下载PDF
网络舆情主题信息采集研究 被引量:10
20
作者 黄炜 金雅博 胡昌龙 《现代图书情报技术》 CSSCI 北大核心 2012年第11期65-71,共7页
网络舆情的主题不确定性问题在网络治理中越来越突出,通过研究网络舆情的相关特征及其演化机制,在基于内容的主题选择策略上,引入时间维和空间维的主题因子,设计并实现网络舆情的主题信息爬虫。实验结果表明,该主题信息爬虫不仅执行的... 网络舆情的主题不确定性问题在网络治理中越来越突出,通过研究网络舆情的相关特征及其演化机制,在基于内容的主题选择策略上,引入时间维和空间维的主题因子,设计并实现网络舆情的主题信息爬虫。实验结果表明,该主题信息爬虫不仅执行的效率较高,而且主题约束性稳定,为后期网络群体性事件的舆情处理提供主题样本。 展开更多
关键词 网络群体性事件 网络舆情 主题爬虫 领域本体 主题因子
原文传递
上一页 1 2 9 下一页 到第
使用帮助 返回顶部