-
题名基于Python的多线程聚焦网络爬虫设计与实现
被引量:3
- 1
-
-
作者
王美芝
支学超
刘财辉
-
机构
赣南师范大学体育学院
赣南师范大学数学与计算机科学学院
-
出处
《赣南师范大学学报》
2019年第6期35-38,共4页
-
基金
国家自然科学基金项目(61663002)。
-
文摘
在大数据时代下,人们要想从大量数据中找到自己需要的信息变得越来越困难,因此使用网络爬虫处理网络中大量的信息成为了必不可少的方法.本文利用Python语言设计并实现了一种多线程聚焦网络爬虫.首先,通过聚焦爬虫,获取目标网站数据,然后建立相应索引数据库.在爬取数据库的基础上,用户可以通过输入关键字,从多个网络地址URL中获取大量用户所需要的数据.
-
关键词
PYTHON
网络爬虫
网络地址url
多线程
-
Keywords
Python
crawler
big data
network address url
multithread
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名大规模网络流量下的恶意地址检测技术研究
被引量:1
- 2
-
-
作者
李洁
陈博
赵昱红
-
机构
国网吉林省电力有限公司电力科学研究院
国网天津电力信通公司
国网吉林省电力有限公司
-
出处
《吉林电力》
2016年第4期1-4,共4页
-
文摘
针对网络流量增长迅速,传统的检测方法很难解决恶意地址检测的问题,在介绍传统的恶意地址检测方法以及这些方法遇到的问题的基础上,提出了一种新的恶意地址检测思路,依靠恶意地址本身的语义特性和词汇特性建立地址分类模型,并给出模型的实现方法。通过实验测试4 389 763个地址,检测出地址3 292 322个,恶意地址834个,漏报率25%,检测时间3.21 min。由于不需要加载外部资源,处理速度相对传统检测方法有质的提高,能够适应大规模网络流量下的恶意地址检测。
-
关键词
网页地址(url)
网络流量
恶意地址检测
检测模型
-
Keywords
url
network traffic
malicious address detection
detection model
-
分类号
TP393.08
[自动化与计算机技术—计算机应用技术]
-
-
题名一种面向出版的短地址服务
- 3
-
-
作者
刘振兴
张楠
-
机构
人民网股份有限公司人民网研究院
高德软件有限公司前端开发部
-
出处
《信息技术与信息化》
2014年第9期92-97,共6页
-
文摘
互联网的兴盛及移动互联网的迅猛发展正在改变着人们获取信息和知识的途径。越来越多的网上资源形式正在影响着传统出版和电子出版业。针对短地址与出版相结合的研究,作者提出一种面向出版的短地址服务(URL4P),将网络资源地址使用一种更短、更人性、更亲切的表达形式呈现出来。实验结果表明URL4P对传统出版而言可以节省纸张,便于阅读、引用和检索,对于电子出版,也能够做到既简缩了篇幅、提高传输效率、节省存储成本等。作者还讨论二维码与短地址相结合为出版带来更好的用户体验。
-
关键词
短地址
短地址服务
网络资源地址
网址
-
Keywords
Short url USS Publishing network Resources addresses Web addresses
-
分类号
TP393.09
[自动化与计算机技术—计算机应用技术]
-