期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
基于Java的新浪微博爬虫研究与实现 被引量:9
1
作者 陈珂 蓝鼎栋 +2 位作者 柯文德 黎树俊 邓文天 《计算机技术与发展》 2017年第9期191-196,共6页
为了高效获取更多的微博数据,针对调用微博API和网页版(com版)等传统微博爬虫在数据采集中所存在的问题,设计开发了一个基于Java的采集新浪微博Weibo.cn站点的网络爬虫系统。该系统通过广度遍历结合组拼URL的方式采集网页源码,使网页源... 为了高效获取更多的微博数据,针对调用微博API和网页版(com版)等传统微博爬虫在数据采集中所存在的问题,设计开发了一个基于Java的采集新浪微博Weibo.cn站点的网络爬虫系统。该系统通过广度遍历结合组拼URL的方式采集网页源码,使网页源码更加简洁,纯净度更高,降低了网络传输压力并减少了HTML源码解析时间。主要实现了微博模拟登陆、微博网页爬取、微博页面数据提取和任务调度控制,并对爬取数据进行了分析,在爬虫中添加了主题微博筛选功能。为验证该系统的有效性和可行性,与其他传统方法进行了分析对比。实验验结果表明,所提出的系统爬取效率更高,实现代码更简便。 展开更多
关键词 新浪微博 网络爬虫 java 数据挖掘
在线阅读 下载PDF
基于人工智能和OBE的Java语言程序设计课程改革 被引量:7
2
作者 潘欣 王鑫 《高教学刊》 2018年第18期81-83,共3页
Java语言程序设计是计算机专业的核心课程之一,掌握该技术对于学生就业和自主创新十分重要。Java语言内容庞大,如何在有限的课时范围内科学的安排各部分内容对于广大教学单位是一个较大的挑战。针对这一问题,本研究提出了一种基于人工... Java语言程序设计是计算机专业的核心课程之一,掌握该技术对于学生就业和自主创新十分重要。Java语言内容庞大,如何在有限的课时范围内科学的安排各部分内容对于广大教学单位是一个较大的挑战。针对这一问题,本研究提出了一种基于人工智能和OBE(outcomes-based education)的Java语言程序设计课程目标和教学内容调整方法,并通过本方法进行了Java语言程序设计课程改革。通过对两届学生的学习情况对比表明,利用本方法进行的Java语言程序设计课程改革可以有效提高学生对相关知识的掌握,并使得Java教学与企业需求更加契合。 展开更多
关键词 人工智能 OBE java 课程改革 网络爬虫
在线阅读 下载PDF
基于Java技术的主题网络爬虫的研究与实现 被引量:7
3
作者 林海霞 司海峰 张微微 《微型电脑应用》 2009年第2期56-58,47,共4页
主题网络爬虫的搜索策略是基于领域的搜索引擎的核心技术,爬虫搜索算法的性能直接关系着搜索引擎的性能。经过研究发现"最好优先算法"在重多搜索算法中表现的性能最优,但它本身也存在着收敛速度过快的缺陷,导致搜索引擎的&qu... 主题网络爬虫的搜索策略是基于领域的搜索引擎的核心技术,爬虫搜索算法的性能直接关系着搜索引擎的性能。经过研究发现"最好优先算法"在重多搜索算法中表现的性能最优,但它本身也存在着收敛速度过快的缺陷,导致搜索引擎的"查全率"不高。针对这种情况,对"最好优先算法"做了调整与改进,并用Java技术给予了实现。 展开更多
关键词 网络爬虫 专业搜索引擎 java 线程
在线阅读 下载PDF
基于渐进式任务型设计理念的Java实训课程教学改革探讨 被引量:3
4
作者 杨骁 卢涤非 《工业控制计算机》 2020年第7期166-167,共2页
Java实训课程是目前高职计算机网络专业开设的一门重要实践课程。针对目前Java实训以小游戏或管理类软件为载体进行教学所存在的问题,分析Java实训课程在计算机网络专业人才培养体系中的地位,论述以网络爬虫作为Java实训教学载体的理据... Java实训课程是目前高职计算机网络专业开设的一门重要实践课程。针对目前Java实训以小游戏或管理类软件为载体进行教学所存在的问题,分析Java实训课程在计算机网络专业人才培养体系中的地位,论述以网络爬虫作为Java实训教学载体的理据,并探讨渐进式任务型教学模式在网络爬虫项目的具体运用。基于渐进式任务型设计理念的网络爬虫项目的Java实训教学改革,促进了计算机网络专业基础课程内容与技能点的整合,促进了学生构建知识网络,降低了学习难度,激发了学生的学习兴趣,同时为后续课程学习打下了坚实基础。 展开更多
关键词 java实训 网络爬虫 渐进式 任务型
在线阅读 下载PDF
网络爬虫用于电力广域网信息收集的探讨 被引量:4
5
作者 黄初指 《福建电力与电工》 2008年第3期38-41,共4页
搜索引擎是互联网的信息检索工具,而信息的收集是搜索引擎的主要工作。随着国家电网公司广域网的发展以及内外网隔离规定的实施,企业内部用户很难检索到所需的信息。针对电力广域网的特点,笔者设计了网络爬虫数据收集框架,并给出了适用... 搜索引擎是互联网的信息检索工具,而信息的收集是搜索引擎的主要工作。随着国家电网公司广域网的发展以及内外网隔离规定的实施,企业内部用户很难检索到所需的信息。针对电力广域网的特点,笔者设计了网络爬虫数据收集框架,并给出了适用于该框架的深度-广度相结合的启发式算法,用Java语言来实现主体框架,快速地为搜索引擎提供了完整的数据源。 展开更多
关键词 网络爬虫 深度-广度搜索算法 启发式搜索算法 java HTML PARSER
在线阅读 下载PDF
基于MVC设计模式的微博数据采集框架 被引量:1
6
作者 王志文 陈珂 +2 位作者 陈晓升 郑远飞 陈坚旋 《广东石油化工学院学报》 2017年第1期31-36,共6页
针对现有社交数据采集工具在采集量和采集广度上受限与复用性差等问题,提出了一种基于MVC设计模式的数据采集设计方案,设计了可扩展的工作流处理流程,降低了开发耦合度,减少了开发的工作量。在此基础上,利用Java等技术搭建了快速而简捷... 针对现有社交数据采集工具在采集量和采集广度上受限与复用性差等问题,提出了一种基于MVC设计模式的数据采集设计方案,设计了可扩展的工作流处理流程,降低了开发耦合度,减少了开发的工作量。在此基础上,利用Java等技术搭建了快速而简捷的微博数据采集框架,实现并增强了抓取微博数据等功能,为用户提供了一个灵活、可扩展、易复用的微博数据采集环境。 展开更多
关键词 爬虫 微博 java 数据采集 MVC
在线阅读 下载PDF
基于jsoup爬取图书网页信息的网络爬虫技术 被引量:11
7
作者 熊艳秋 严碧波 《电脑与信息技术》 2019年第4期61-63,共3页
随着科技飞速的发展,对于从海量数据中快速获取最有效的信息成为了一个难题。Java是主流编程语言,对Java爬虫技术的研究很有必要。本文主要使用基于Java的Http Client,jsoup技术,MySQL数据库,Spring Boot等框架技术对图书网站信息进行... 随着科技飞速的发展,对于从海量数据中快速获取最有效的信息成为了一个难题。Java是主流编程语言,对Java爬虫技术的研究很有必要。本文主要使用基于Java的Http Client,jsoup技术,MySQL数据库,Spring Boot等框架技术对图书网站信息进行网络爬虫。将爬取后的数据存储到后台数据库,以便应用于后续的数据分析。 展开更多
关键词 java编程语言 网络爬虫 MYSQL数据库 图书
在线阅读 下载PDF
网络爬虫的设计与实现 被引量:11
8
作者 董日壮 郭曙超 《电脑知识与技术(过刊)》 2014年第6X期3986-3988,4012,共4页
随着社会的飞速发展,互联网上信息容量急剧增加,人们对搜索引擎的依赖愈发强烈。网络爬虫是搜索引擎的关键技术之一,同时也是快速获取网络上可用资源的有效工具。为了能够对网络爬虫更深入的了解并熟练合理的应用于各种的应用和系统中,... 随着社会的飞速发展,互联网上信息容量急剧增加,人们对搜索引擎的依赖愈发强烈。网络爬虫是搜索引擎的关键技术之一,同时也是快速获取网络上可用资源的有效工具。为了能够对网络爬虫更深入的了解并熟练合理的应用于各种的应用和系统中,经过对网络爬虫的框架、基本工作流程、抓取策略的分析和了解,使用Java与HTML解析工具jsoup以及MySQL数据库实现一个网络爬虫,简单爬取京东的图书数据,用于用户喜好的分析及购买倾向的判断,为用户提供个性化的服务。 展开更多
关键词 搜索引擎 网络爬虫 抓取策略 java jsoup MYSQL
在线阅读 下载PDF
地理环境对闽南民歌的影响
9
作者 吴银鸿 方旭红 《黎明职业大学学报》 2018年第2期56-60,共5页
为探究地理环境对闽南民歌产生的影响,选取文本挖掘的新视角,通过Java爬虫抓取闽南民歌及内容文本,借助ROST Content Mining 6软件对闽南民歌文本进行抓取高频词汇和可视化分析。高频词汇可分为表示闽南地方虔诚信仰的词汇,表示月份的... 为探究地理环境对闽南民歌产生的影响,选取文本挖掘的新视角,通过Java爬虫抓取闽南民歌及内容文本,借助ROST Content Mining 6软件对闽南民歌文本进行抓取高频词汇和可视化分析。高频词汇可分为表示闽南地方虔诚信仰的词汇,表示月份的时间名词,表示亲人朋友等人物名词,表示地方农作物的名词,表示自然环境与地方其他特色的名词。根据闽南民歌社会网络和语义网络表可以看出,"父母""日头""小妹""心肝"等词汇处于闽南民歌的核心地位,与这些核心要素联系较为紧密的词语中充分体现了与地理环境相关的要素。地理环境对闽南民歌体裁多样性、题材丰富性、歌唱风格地方性等方面产生了深刻的影响。 展开更多
关键词 闽南民歌 地理环境 闽南文化 java爬虫技术 文本数据 高频词汇
在线阅读 下载PDF
基于深度学习的微博舆情监测模型研究与实现 被引量:3
10
作者 成哲丞 《计算机时代》 2023年第11期124-126,130,共4页
为了实时监测和分析新浪微博上的舆论情况,建立一种基于深度学习的微博舆情监测模型。提出了基于Java的分布式数据爬取框架和基于Elasticsearch的分布式搜索存储方法,有效地提升了舆情监测模型的性能。提出了融合改进注意力机制的Bi-LST... 为了实时监测和分析新浪微博上的舆论情况,建立一种基于深度学习的微博舆情监测模型。提出了基于Java的分布式数据爬取框架和基于Elasticsearch的分布式搜索存储方法,有效地提升了舆情监测模型的性能。提出了融合改进注意力机制的Bi-LSTM情感分析方法和基于情感分析的舆情预警等级计算方法,很好地实现了对微博热搜话题的实时舆情监测。 展开更多
关键词 java分布式爬虫 Elasticsearch 注意力机制 Bi-LSTM 舆情预警
在线阅读 下载PDF
基于Lucene2.0和Heritrix搜索引擎的应用研究 被引量:1
11
作者 周少波 《电脑编程技巧与维护》 2013年第16期13-14,共2页
基于Lucene2.0和Heritrix的搜索引擎是以广东技术师范学院天河学院为对象构建的,着重开发一个简单的网络垂直搜索引擎,实现一个简单的搜索引擎所具备的基本功能,为今后搭建一个标准的、实用的、商业化的搜索引擎打下坚实的基础。
关键词 搜索引擎 网络爬虫 Lucene搜索 Heritrix程序 java语言
在线阅读 下载PDF
基于WebMagic爬虫框架的网页信息系统设计
12
作者 朱延刚 《无线互联科技》 2023年第11期73-76,98,共5页
随着互联网技术的迅速发展,人们获取信息的渠道和方式,都得到了极大的丰富和拓展。面对海量的网络信息,如何高效便捷地利用网络信息资源,提高对有效信息的获取能力,成了一个重要的课题。文章基于Java的WebMagic爬虫框架设计了一个具有... 随着互联网技术的迅速发展,人们获取信息的渠道和方式,都得到了极大的丰富和拓展。面对海量的网络信息,如何高效便捷地利用网络信息资源,提高对有效信息的获取能力,成了一个重要的课题。文章基于Java的WebMagic爬虫框架设计了一个具有高适用性和可扩展性的信息采集系统,以便于针对不同的业务场景和需求,快速搭建自己的爬虫数据采集系统。 展开更多
关键词 java爬虫 WebMagic框架 数据持久化
在线阅读 下载PDF
目前互联网中的网络爬虫的原理和影响
13
作者 赵鑫炜 《数码设计》 2019年第5期50-52,共3页
网络爬虫(Web Crawler)是目前的网络环境中非常主流的的一种获取互联网中有效目标信息的一种技术,爬虫设计和实现已经十分成熟.爬虫的出现给当代互联网带来了巨大的影响,同时也出现在爬虫技术应用上的利弊体现.通过描述爬虫应用的出现... 网络爬虫(Web Crawler)是目前的网络环境中非常主流的的一种获取互联网中有效目标信息的一种技术,爬虫设计和实现已经十分成熟.爬虫的出现给当代互联网带来了巨大的影响,同时也出现在爬虫技术应用上的利弊体现.通过描述爬虫应用的出现的利弊现象,分析其中原理和原因,并给其中爬虫设计方法,及其基于java语言的分析. 展开更多
关键词 网络爬虫 链接检索 文字匹配 爬虫设计 java 多线程
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部