期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
招聘网站职位需求的WebMagic主题爬虫技术分析 被引量:4
1
作者 屈莉莉 李雪峰 翟军 《信息系统工程》 2019年第2期79-81,共3页
互联网招聘是人才招聘不可或缺的核心途径。论文为自动抓取招聘网站信息并精准分析职位需求,基于WebMagic框架研发面向招聘网站职位信息分析的主题网络爬虫关键技术,对数据下载、信息抽取、筛选与管理、存储分析与可视化等系统开发环节... 互联网招聘是人才招聘不可或缺的核心途径。论文为自动抓取招聘网站信息并精准分析职位需求,基于WebMagic框架研发面向招聘网站职位信息分析的主题网络爬虫关键技术,对数据下载、信息抽取、筛选与管理、存储分析与可视化等系统开发环节均提出有效的解决方法。并以互联网行业为例挖掘互联网行业对人才的真正要求,对有效利用招聘网站数据和指导职业生涯规划具有重要的借鉴意义。 展开更多
关键词 网络爬虫 webmagic框架 招聘网站 互联网行业 职位需求分析
在线阅读 下载PDF
一种基于WebMagic和Mahout的信息搜集与推荐系统 被引量:7
2
作者 武婷婷 《软件导刊》 2016年第10期1-3,共3页
提出一种基于Java爬虫框架WebMagic和Mahout推荐引擎的信息搜集与推荐系统。首先利用WebMagic框架从多个信息源获取需要的数据,然后使用Jieba分词工具和余弦定理进行文本相似度判定,从而对数据进行处理,最后使用Mahout推荐引擎为用户推... 提出一种基于Java爬虫框架WebMagic和Mahout推荐引擎的信息搜集与推荐系统。首先利用WebMagic框架从多个信息源获取需要的数据,然后使用Jieba分词工具和余弦定理进行文本相似度判定,从而对数据进行处理,最后使用Mahout推荐引擎为用户推荐可能感兴趣的信息。 展开更多
关键词 爬虫框架 余弦定理 推荐引擎 webmagic Mahout
在线阅读 下载PDF
基于WebMagic框架的面向招聘网站的爬虫技术研究 被引量:1
3
作者 朱二莉 《信息与电脑》 2019年第19期141-142,145,共3页
笔者首先分析了网络招聘的现状,介绍了爬虫技术的分类,进而提出了基于Java爬虫框架WebMagic的爬虫方案,然后分析了爬取流程,具体阐述了对大型招聘网站上发布的职位信息进行抓取及存储的过程,最后简单说明了对岗位信息数据进行清洗、分... 笔者首先分析了网络招聘的现状,介绍了爬虫技术的分类,进而提出了基于Java爬虫框架WebMagic的爬虫方案,然后分析了爬取流程,具体阐述了对大型招聘网站上发布的职位信息进行抓取及存储的过程,最后简单说明了对岗位信息数据进行清洗、分析、展现的过程。 展开更多
关键词 网络爬虫 前程无忧51Job webmagic框架 爬取岗位信息
在线阅读 下载PDF
基于WebMagic爬取技术的电力事故信息获取 被引量:3
4
作者 党佩 阎光伟 《计算机技术与发展》 2019年第6期125-129,共5页
当前国民经济正处于迅猛发展的大好时期,也是电力工业体制改革的关键时期,对电力的需求十分紧迫,所以,电力系统的安全稳定运行及人员的安全管理日益成为影响电力工业发展的关键要素。近年来,各类电力事故依旧时有发生,全面调查事故发生... 当前国民经济正处于迅猛发展的大好时期,也是电力工业体制改革的关键时期,对电力的需求十分紧迫,所以,电力系统的安全稳定运行及人员的安全管理日益成为影响电力工业发展的关键要素。近年来,各类电力事故依旧时有发生,全面调查事故发生原因是非常必要的,因此,进行事故信息的收集、管理和分析成为关键的一步。采用传统的方式,人工使用搜索引擎搜索信息,费时费力,而随着互联网技术的不断发展,网络爬虫技术已日渐成熟,应用网络爬虫技术可以快速获取这类事故信息。文中主要应用WebMagic爬虫技术,利用XPath和正则表达式指定信息的抽取规则,从电力安全管理网上抓取有关于电力事故信息的新闻,匹配符合要求的事故描述信息,下载到本地并实现数据存储进数据库,为之后进行事故信息分析提供数据基础。实验结果显示,该技术能够准确、迅速地获取数据,且爬虫程序简单易维护。 展开更多
关键词 电力事故 网络爬虫 webmagic 数据抓取
在线阅读 下载PDF
基于WebMagic爬虫框架的网页信息系统设计
5
作者 朱延刚 《无线互联科技》 2023年第11期73-76,98,共5页
随着互联网技术的迅速发展,人们获取信息的渠道和方式,都得到了极大的丰富和拓展。面对海量的网络信息,如何高效便捷地利用网络信息资源,提高对有效信息的获取能力,成了一个重要的课题。文章基于Java的WebMagic爬虫框架设计了一个具有... 随着互联网技术的迅速发展,人们获取信息的渠道和方式,都得到了极大的丰富和拓展。面对海量的网络信息,如何高效便捷地利用网络信息资源,提高对有效信息的获取能力,成了一个重要的课题。文章基于Java的WebMagic爬虫框架设计了一个具有高适用性和可扩展性的信息采集系统,以便于针对不同的业务场景和需求,快速搭建自己的爬虫数据采集系统。 展开更多
关键词 Java爬虫 webmagic框架 数据持久化
在线阅读 下载PDF
网络爬虫在采集岗位招聘数据方面的应用实践 被引量:4
6
作者 汤义好 《电脑知识与技术》 2018年第10期8-9,共2页
现代教学设计理论认为优化教学过程,可以更好有效地达成教学目标,提高教学效率。文章阐述了在岗位分析系统中如何利用网络爬虫框架WebMagic不断地从网络采集岗位招聘数据,并保存到HBase数据库的一个过程。
关键词 大数据 岗位招聘 webmagic
在线阅读 下载PDF
基于Java多线程的智能图片爬虫系统的研究与实现 被引量:2
7
作者 黄子纯 蔡敏 《电脑知识与技术》 2022年第22期55-57,共3页
针对在传统的爬虫系统中,按照一定规则自动抓取相关信息时,通常包含大量的无效信息这一问题,提出了一种基于Java多线程的智能图片爬虫系统。该系统以爬取图片为例,利用HttpClient、JSoup、WebMagic框架以及线程池技术,实现了在传统爬虫... 针对在传统的爬虫系统中,按照一定规则自动抓取相关信息时,通常包含大量的无效信息这一问题,提出了一种基于Java多线程的智能图片爬虫系统。该系统以爬取图片为例,利用HttpClient、JSoup、WebMagic框架以及线程池技术,实现了在传统爬虫系统基础上增加图片筛选模块,可以智能爬取有效图片,并且自动过滤重复图片,进一步优化了基于Java多线程的传统爬虫系统。 展开更多
关键词 网络爬虫 多线程 HTTPCLIENT JSoup webmagic
在线阅读 下载PDF
科技政策推广APP的设计与实现 被引量:1
8
作者 符志强 刘磊安 马轩 《福建电脑》 2019年第1期47-48,70,共3页
本文设计并实现了科技政策推广App,从政府和科技网站上获取科技政策信息,企业可定量身定制信息与解读并获得推送服务。系统采用MVC设计模式,使用WebMagic技术构建爬虫获取信息,集成了Gson框架,Okhttp框架,极光推送,Mob短信验证登录,采用... 本文设计并实现了科技政策推广App,从政府和科技网站上获取科技政策信息,企业可定量身定制信息与解读并获得推送服务。系统采用MVC设计模式,使用WebMagic技术构建爬虫获取信息,集成了Gson框架,Okhttp框架,极光推送,Mob短信验证登录,采用SQLite数据库本地存储数据,包含科技政策信息展示、数据搜索、定制与推送、会员服务等功能,具有良好的实用性。 展开更多
关键词 科技政策 webmagic Gson框架 Okhttp框架
在线阅读 下载PDF
基于大数据的电网业务规划系统的研究与实现 被引量:1
9
作者 邹岳琳 刘昆 王天军 《机电信息》 2018年第36期58-59,共2页
基于大数据的电网业务工作平台项目采用先进技术和体系架构,延长了原大数据智库项目成果生命力,打破了大数据智库平台与大数据平台之间的壁垒,实现了两者之间的相互贯通。利用原有展示平台的信息模式与架构,基于新疆空间地理数据、电网... 基于大数据的电网业务工作平台项目采用先进技术和体系架构,延长了原大数据智库项目成果生命力,打破了大数据智库平台与大数据平台之间的壁垒,实现了两者之间的相互贯通。利用原有展示平台的信息模式与架构,基于新疆空间地理数据、电网三维模型等已有数据,结合各业务板块管理需求,完成了应用模块定制开发,为电网专业应用、业务管理、领导决策提供了支撑。 展开更多
关键词 Hadoop+webmagic框架 BIM平台 大数据 粒计算 决策优化
在线阅读 下载PDF
基于Hadoop的电商评论获取与研究
10
作者 李臣龙 陶皖 《九江学院学报(自然科学版)》 CAS 2019年第3期64-68,共5页
随着大数据技术和产业的发展,电商产品的大数据分析成为电商和客户共同关注的热点。因此,研究商品评论的特征提取、生成情感标签,对人们快速掌握商品特征具有重要意义。文章基于Hadoop搭建爬虫框架,研究实现了实时采集、分析、展示数据... 随着大数据技术和产业的发展,电商产品的大数据分析成为电商和客户共同关注的热点。因此,研究商品评论的特征提取、生成情感标签,对人们快速掌握商品特征具有重要意义。文章基于Hadoop搭建爬虫框架,研究实现了实时采集、分析、展示数据的方法,为大数据研究提供了可靠数据依据。 展开更多
关键词 HADOOP webmagic JSON 爬取
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部