-
题名基于Linux的网络爬虫系统
被引量:8
- 1
-
-
作者
王锋
王伟
张璟
罗作民
-
机构
西安理工大学计算机科学与工程学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2010年第1期280-282,共3页
-
文摘
针对目前影响爬虫程序效率的诸多关键因素,在研究爬虫程序内部运行机理的基础上,进行架构优化,改进爬虫程序中的相关算法。在Linux网络环境下,通过对实现的爬虫程序运行进行检测,反馈出该解决方案和改进之处具有可行性,提高了页面抓取的效率和爬虫程序的整体性能。
-
关键词
网络爬虫
url调度
DNS解析
哈希算法
-
Keywords
Web crawler
url dispatch
DNS resolution
Hash algorithm
-
分类号
N945.15
[自然科学总论—系统科学]
-
-
题名基于信息资源地址的Web集群分配策略
被引量:2
- 2
-
-
作者
李兰英
蒋维成
何勇
李晓芳
-
机构
成都理工大学工程技术学院
-
出处
《科学技术与工程》
北大核心
2016年第20期228-232,共5页
-
基金
四川省教育厅项目(16ZB0404)
成都理工大学工程技术学院基金项目(C122015008)资助
-
文摘
Web任务的分配影响Web服务器集群系统的整体性能。常用的分配方法是对用户的信息资源地址(URL)请求,根据服务器数量进行轮询分配。这种策略影响缓存的命中率和服务器性能的发挥。在分析了Web站点中文件的组织方式及用户对Web请求特征的基础上,提出了基于URL分配树的LT分配策略。根据URL地址构建URL分配树,对用户的请求进行响应;同时考虑任务的处理代价,各服务节点服务能力和当前负载状况,对服务节点进行负载均衡的任务分配。从缓存队列剩余、请求任务溢出情况和轮询分配策略进行了比较,实验表明分配策略能根据服务节点的服务能力、负载状况进行合理地分配,实现了负载的真正均衡,提高了系统整体吞吐量。
-
关键词
信息资源地址(uniform
RESOURCE
locator
url)
分配树
WEB服务
请求分配
处理费用
-
Keywords
url dispatching tree
Web service
request dispatching
processing cost
-
分类号
TP393.02
[自动化与计算机技术—计算机应用技术]
-