期刊文献+
共找到146篇文章
< 1 2 8 >
每页显示 20 50 100
一种并行Crawler系统中的URL分配算法设计 被引量:1
1
作者 万源 万方 王大震 《计算机工程与应用》 CSCD 北大核心 2006年第A01期117-119,共3页
研究了分布式体系结构下的并行Crawler采集模型,分析了各组件的功能及各Cmwler在并行搜索时,为保证系统的负载均衡而应遵循的基本规则,并提出了一种基于散列(hash)的URL的调度算法。
关键词 分布式crawler 散列算法 URL分配
在线阅读 下载PDF
Top-K最优划分的景点个性化推荐方法仿真研究 被引量:1
2
作者 张一恒 王芹 《计算机仿真》 2025年第3期511-515,共5页
开展景点个性化推荐时,若不能完整采集用户浏览的相关数据,会直接影响后续景点的推荐效果,为此提出基于频繁序列挖掘的景点个性化推荐算法优化方法。利用网络爬虫工具爬取用户近期浏览与评论信息,获取旅游景点相关数据。基于数据采集结... 开展景点个性化推荐时,若不能完整采集用户浏览的相关数据,会直接影响后续景点的推荐效果,为此提出基于频繁序列挖掘的景点个性化推荐算法优化方法。利用网络爬虫工具爬取用户近期浏览与评论信息,获取旅游景点相关数据。基于数据采集结果构建景点知识图谱,生成景点序列,根据景点序列生成频繁序列,并利用Top-K最优划分方法对序列实施划分处理,通过对划分后频繁数据挖掘,获取景点最佳推荐序列,实现景点的个性化推荐。实验结果表明,利用该方法开展景点个性化推荐时,推荐效果好、精度高。 展开更多
关键词 频繁序列挖掘 旅游景点 个性化推荐算法 爬虫工具
在线阅读 下载PDF
基于网络爬虫与TF-IDF算法的非遗产品创新 被引量:1
3
作者 王菁 杨晓翔 《佳木斯大学学报(自然科学版)》 2025年第8期52-54,74,共4页
非遗产品创新无法满足当前流行趋势,提出基于网络爬虫与TF-IDF算法的非遗产品创新方法。以百度百科、天猫商城为对象基于网络爬虫技术爬取非遗产品创新热点的网络词条,构造一个语料库粗糙集;利用TF-IDF算法对语料库进行精确搜索,在传统T... 非遗产品创新无法满足当前流行趋势,提出基于网络爬虫与TF-IDF算法的非遗产品创新方法。以百度百科、天猫商城为对象基于网络爬虫技术爬取非遗产品创新热点的网络词条,构造一个语料库粗糙集;利用TF-IDF算法对语料库进行精确搜索,在传统TF-IDF算法中引入词跨度,选取权重最高的前n个作为非遗产品创新设计的关键词,获得符合非遗产品创新设计需求的结果。测试结果显示:该方法抽取的非遗创新关键词与人工抽取结果更契合,准确度均在90%以上,基于网络爬虫与TF-IDF算法的非遗产品创新具有良好的推广应用前景。 展开更多
关键词 网络爬虫 TF-IDF算法 语料库 词频率 非遗创新 产品
在线阅读 下载PDF
基于协同过滤算法的电影推荐系统设计与实现 被引量:1
4
作者 邢艳芳 《信息技术》 2025年第5期9-14,共6页
电影作为海量信息的一个重要载体,存在信息过载问题,因此将推荐算法应用于电影推荐具有重大意义。文中主要研究基于协同过滤算法的电影推荐系统,该系统主要由三部分组成,包括前台的电影界面展示、系统的推荐算法以及后台数据集;首先,该... 电影作为海量信息的一个重要载体,存在信息过载问题,因此将推荐算法应用于电影推荐具有重大意义。文中主要研究基于协同过滤算法的电影推荐系统,该系统主要由三部分组成,包括前台的电影界面展示、系统的推荐算法以及后台数据集;首先,该系统通过网络爬虫爬取与电影相关的数据;其次,通过协同过滤算法过滤出用户感兴趣的电影;最后,通过图形用户界面进行数据交互,针对数据集中的用户推荐数据集中的相关电影,系统最终的运行结果与预期呈现的结果基本一致。 展开更多
关键词 推荐系统 协同过滤算法 爬虫 图形用户界面 电影数据
在线阅读 下载PDF
基于知识图谱嵌入的音乐主题推荐算法优化算法
5
作者 刘灵凡 《兵工自动化》 北大核心 2025年第9期57-61,共5页
针对音乐推荐领域面临的多源异构数据整合困难、语义关联挖掘不充分以及个性化推荐精度不足等问题,提出一种融合知识图谱与深度学习的推荐算法。通过动态爬虫技术和UIE智能抽取框架构建多维度音乐数据体系,采用“语义计算+词形匹配”的... 针对音乐推荐领域面临的多源异构数据整合困难、语义关联挖掘不充分以及个性化推荐精度不足等问题,提出一种融合知识图谱与深度学习的推荐算法。通过动态爬虫技术和UIE智能抽取框架构建多维度音乐数据体系,采用“语义计算+词形匹配”的双重融合策略实现知识图谱的精准构建。引入TransR模型进行知识图谱的深度语义嵌入,并结合用户历史行为特征构建“内容-行为”双通道推荐模型。实验结果表明:该算法在推荐准确性、排序合理性和用户满意度等关键指标上均显著优于现有推荐算法,研究成果不仅为音乐推荐提供了新的技术路径,而且验证了知识图谱在提升推荐系统可解释性方面的独特作用。 展开更多
关键词 爬虫技术 自回归算法 知识融合算法 TransR算法 音乐主题评价矩阵
在线阅读 下载PDF
基于朴素贝叶斯模型和PageRank算法的电网事故主题爬虫算法
6
作者 谢树泳 刘之亮 《河南师范大学学报(自然科学版)》 北大核心 2025年第2期124-130,共7页
为了减少电网人身安全事故,利用数据挖掘技术构建和分析事故多维数据,建立准确的预警模型十分必要.其中一个极具挑战性的问题是如何在海量网页中自动化采集人身事故样本数据.提出一种朴素贝叶斯模型与PageRank结合的主题爬虫算法.首先... 为了减少电网人身安全事故,利用数据挖掘技术构建和分析事故多维数据,建立准确的预警模型十分必要.其中一个极具挑战性的问题是如何在海量网页中自动化采集人身事故样本数据.提出一种朴素贝叶斯模型与PageRank结合的主题爬虫算法.首先采用中文文本分割和设置关键词词频的方法对数据预处理,进行特征选择后,构建并训练朴素贝叶斯分类模型,从而实现电网事故分类准确度的显著提升.然后利用PageRank算法对精确分类后的网页进行主题相关性排序,有效避免普通爬虫方法中出现的主题漂移问题.实验结果表明,不论是在相同时间还是相同页面数的条件下,该方法的页面收获率均高于单独使用朴素贝叶斯分类器或PageRank的收获率,即本方法能够在大量网页中更高效、准确地爬取电网事故信息. 展开更多
关键词 电网安全 人身事故 朴素贝叶斯模型 PAGERANK算法 主题爬虫
在线阅读 下载PDF
物联网海量不均衡数据组内方差SNM清洗算法
7
作者 伍阳 陈科基 《现代电子技术》 北大核心 2025年第3期124-128,共5页
由于物联网数据通常是不均衡的,导致采集的数据集中各个类别的样本数量差异很大,无法准确反映其内部的方差情况,使得数据文本相似度较高,为此,提出物联网海量不均衡数据组内方差SNM清洗算法。使用网络爬虫技术爬取海量不均衡数据,对不... 由于物联网数据通常是不均衡的,导致采集的数据集中各个类别的样本数量差异很大,无法准确反映其内部的方差情况,使得数据文本相似度较高,为此,提出物联网海量不均衡数据组内方差SNM清洗算法。使用网络爬虫技术爬取海量不均衡数据,对不平衡数据字段过滤处理,设计可伸缩滑动窗口方式改进SNM算法,计算不均衡数据组内方差,将其作为清洗不均衡数据的约束,通过对比物联网海量不均衡数据组内方差阈值,实现物联网海量不均衡数据清洗。实验结果表明:该方法具备较强的物联网海量不均衡数据清洗能力,且清洗后的物联网海量不平衡数据的文本相似度较低,应用性较强。 展开更多
关键词 物联网 不均衡数据 组内方差 SNM清洗算法 滑动窗口 网络爬虫 数据字段 约束条件
在线阅读 下载PDF
基于招聘网站的岗位需求分析——以数据工程师岗位为例
8
作者 赵赞 尹佳伟 +1 位作者 曾丽妃 杨静 《信息与电脑》 2025年第12期30-32,共3页
学校教学与人才市场需求不匹配是导致毕业生就业困难的关键因素。针对此问题,文章提出了基于招聘网站的岗位需求分析方案:首先,运用爬虫技术在“智联招聘”网站爬取相关信息,并进行文本预处理;其次,使用LDA模型对模糊搜索出的相关岗位... 学校教学与人才市场需求不匹配是导致毕业生就业困难的关键因素。针对此问题,文章提出了基于招聘网站的岗位需求分析方案:首先,运用爬虫技术在“智联招聘”网站爬取相关信息,并进行文本预处理;其次,使用LDA模型对模糊搜索出的相关岗位名称与公司领域进行聚类,分析岗位涉及的行业类型和工作方向;最后,通过TD-IDF算法挖掘数据工程师岗位不同工作方向的技能需求。实验结果表明,该方案可为大数据专业本科精准教学提供理论和实证依据。 展开更多
关键词 岗位需求 爬虫技术 LDA模型 TD-IDF算法 数据工程师
在线阅读 下载PDF
基于深度学习算法的5G智慧图书馆用户行为预测
9
作者 刘心怡 《长江信息通信》 2025年第9期113-115,共3页
针对5G智慧图书馆用户行为预测实践中存在预测精度较低,时间成本较高的问题,提出基于深度学习算法的5G智慧图书馆用户行为预测。利用网络爬虫技术获取5G智慧图书馆用户借阅行为、入馆行为以及座位使用行为数据信息;对缺失数据补充、重... 针对5G智慧图书馆用户行为预测实践中存在预测精度较低,时间成本较高的问题,提出基于深度学习算法的5G智慧图书馆用户行为预测。利用网络爬虫技术获取5G智慧图书馆用户借阅行为、入馆行为以及座位使用行为数据信息;对缺失数据补充、重复数据删除清洗处理,利用深度学习算法中的卷积神经网络对历史用户行为数据深入挖掘,预测分析用户行为,实现基于深度学习算法的5G智慧图书馆用户行为预测。经实验证明,设计算法预测误差为±0.1%,单位预测时间不超过300ms,可以实现对5G智慧图书馆用户行为精准、快速预测。 展开更多
关键词 深度学习算法 智慧图书馆 用户行为 网络爬虫技术 卷积神经网络
在线阅读 下载PDF
爬行虫算法设计与程序实现 被引量:14
10
作者 杜亚军 严兵 宋亮 《计算机应用》 CSCD 北大核心 2004年第1期33-35,共3页
爬行虫算法是搜索引擎探讨的热点。通过分析现有爬行虫算法设计和程序实现的主要方式 ,权衡其利弊 ,总结出一个适合于中小型网站网页下载的爬行虫算法。并使用jBuider8.0工具实现了该算法。通过实验分析 ,该程序下载的网页数的速度为 18... 爬行虫算法是搜索引擎探讨的热点。通过分析现有爬行虫算法设计和程序实现的主要方式 ,权衡其利弊 ,总结出一个适合于中小型网站网页下载的爬行虫算法。并使用jBuider8.0工具实现了该算法。通过实验分析 ,该程序下载的网页数的速度为 1882 4 2个网页 /分和 4 1.92 74 .5 9KB/秒。 展开更多
关键词 爬行虫算法 爬行虫程序 搜索引擎
在线阅读 下载PDF
商品评论聚焦爬虫算法设计与实现 被引量:10
11
作者 方美玉 郑小林 +2 位作者 陈德人 华艺 施艳 《吉林大学学报(工学版)》 EI CAS CSCD 北大核心 2012年第S1期377-381,共5页
从商品评论抽取算法出发,使用开放应用编程接口调用和链接跟踪的方法,分别设计了基于通用爬虫原理和开放应用编程接口(OpenAPI)的商品评论聚焦爬虫算法。在此基础上实现了淘宝网和京东网商品评论收集程序。最后将两者与通用爬虫算法进... 从商品评论抽取算法出发,使用开放应用编程接口调用和链接跟踪的方法,分别设计了基于通用爬虫原理和开放应用编程接口(OpenAPI)的商品评论聚焦爬虫算法。在此基础上实现了淘宝网和京东网商品评论收集程序。最后将两者与通用爬虫算法进行比较,证实了二者的程序设计具有针对性强、数据采集实时性好、易嵌入开发等优点,为实时评论数据采集技术的研究提供了新思路。 展开更多
关键词 计算机软件 商品评论 开放应用编程接口 聚焦爬虫 爬虫算法
在线阅读 下载PDF
一种改进的主题网络蜘蛛搜索算法 被引量:18
12
作者 林海霞 原福永 +1 位作者 陈金森 刘俊峰 《计算机工程与应用》 CSCD 北大核心 2007年第10期174-176,共3页
主题网络蜘蛛搜索策略是专业搜索引擎的核心技术。但是目前的主题搜索算法往往存在很大贪婪性,难以在全局范围内找到最优解。通过比较分析发现Best-First算法虽然有它的不足,但是它在几种算法中表现的性能最优。故以Best-First算法为基... 主题网络蜘蛛搜索策略是专业搜索引擎的核心技术。但是目前的主题搜索算法往往存在很大贪婪性,难以在全局范围内找到最优解。通过比较分析发现Best-First算法虽然有它的不足,但是它在几种算法中表现的性能最优。故以Best-First算法为基础,提出了BS-BS算法。对BS-BS算法进行性能评价,发现应用此算法搜索不但“召回率”有所提高,还能在一定程度上找到全局范围内的最优解。 展开更多
关键词 主题网络蜘蛛 Best—First算法 召回率
在线阅读 下载PDF
面向专用信息获取的用户定制主题网络爬虫技术研究 被引量:18
13
作者 薛丽敏 吴琦 李骏 《信息网络安全》 CSCD 2017年第2期12-21,共10页
进入大数据时代,互联网已成为各行各业进行信息采集的重要阵地。面对爆炸式增长的网络信息资源,如何快速高效地筛选出所需的信息成为亟需解决的现实难题。在互联网海量数据和专用信息采集人员之间构建一个满足特定需求的信息筛选机制,... 进入大数据时代,互联网已成为各行各业进行信息采集的重要阵地。面对爆炸式增长的网络信息资源,如何快速高效地筛选出所需的信息成为亟需解决的现实难题。在互联网海量数据和专用信息采集人员之间构建一个满足特定需求的信息筛选机制,可以大幅度提高专用信息获取工作效率。主题网络爬虫是所有互联网信息获取手段必须具备的首要环节,为了提高专用信息采集的准确性,文章进行了面向公开网络的用户定制主题网络爬虫技术研究。针对大数据时代信息筛选困难的问题,文章通过将用户的兴趣偏好融入到主题网络爬虫的抓取过程中,有效提高了信息筛选力度,并通过实验验证了文中方法能够提高查准率。 展开更多
关键词 大数据 主题网络爬虫 PAGERANK算法 行为分析 用户定制
在线阅读 下载PDF
基于爬虫技术的关键词关联推荐算法优化与实现 被引量:16
14
作者 刘爱琴 王友林 尚珊 《情报理论与实践》 CSSCI 北大核心 2018年第4期134-138,共5页
随着信息化技术的不断提高,知识性数据库不断向集成化、智能化的方向发展,信息检索功能不断发展和完善,在满足用户信息需求的便捷性方面有很大的提升。信息资源的极大丰富,使得信息查全率得到很大提高,但随之带来用户检索、筛选时间的增... 随着信息化技术的不断提高,知识性数据库不断向集成化、智能化的方向发展,信息检索功能不断发展和完善,在满足用户信息需求的便捷性方面有很大的提升。信息资源的极大丰富,使得信息查全率得到很大提高,但随之带来用户检索、筛选时间的增加,以及查准率的降低。为了解决这一矛盾,本研究融合网络爬虫技术和学术资源网站结构化数据的特征,将网站网页数据进行爬取、加工、整合,用结构化、可视化的图像数据辅助检索,实现了在缩小用户的筛查范围,提升用户检索的准确度的同时,以关联推荐方式提升用户在学术资源网站中信息检索的效率。 展开更多
关键词 信息检索 数据挖掘 网络爬虫 信息推荐 算法
原文传递
基于遗传算法的主题爬虫策略改进 被引量:4
15
作者 陈一峰 赵恒凯 +1 位作者 余小清 万旺根 《计算机仿真》 CSCD 北大核心 2010年第10期87-90,123,共5页
针对主题爬虫存在"主题漂移"的问题,为了快速抓取网页,提出了一种基于遗传算法的主题爬行改进策略。在现有遗传算法爬行策略的基础上新引入了PageRank算法,调整了以往网页主题相关度计算方式,以计算得到的网页PageRank和相关... 针对主题爬虫存在"主题漂移"的问题,为了快速抓取网页,提出了一种基于遗传算法的主题爬行改进策略。在现有遗传算法爬行策略的基础上新引入了PageRank算法,调整了以往网页主题相关度计算方式,以计算得到的网页PageRank和相关度值为依据来选择爬行中的遗传因子,并重新设置了适应度函数,在保证优越遗传因子(与主题相关且重要网页)被优先遗传的同时,减少了遗传因子在传递过程中的"主题漂移",从而使爬行到网页的重要性和主题相关性均有所提高。与以往基于遗传算法的策略相比较,在不影响查全率的情况下,与主题相关且重要的网页数可提升5%以上。 展开更多
关键词 主题爬虫 排序算法 遗传算法 网页信息
在线阅读 下载PDF
基于遗传算法的聚焦爬虫搜索策略 被引量:5
16
作者 曾广朴 范会联 《计算机工程》 CAS CSCD 北大核心 2010年第11期167-169,共3页
为了提高聚焦爬虫的搜索效率,提出一种结合内容评价和链接结构搜索策略的优点并利用小生境遗传算法进行全局寻优的搜索策略。改进遗传算子和小生境遗传算法,将待搜索的网页URL作为遗传个体,采用概率变迁规则和小生境淘汰运算引导搜索方... 为了提高聚焦爬虫的搜索效率,提出一种结合内容评价和链接结构搜索策略的优点并利用小生境遗传算法进行全局寻优的搜索策略。改进遗传算子和小生境遗传算法,将待搜索的网页URL作为遗传个体,采用概率变迁规则和小生境淘汰运算引导搜索方向。实验结果证明,与聚焦爬虫的其他实现技术相比,该策略在抓取主题相关网页时具有更高的查准率和查全率。 展开更多
关键词 聚焦爬虫 遗传算法 小生境 主题相关度
在线阅读 下载PDF
基于启发式查询词选择算法的Hidden Web获取研究 被引量:1
17
作者 姚全珠 杨增辉 +1 位作者 张楠 田元 《计算机工程与应用》 CSCD 北大核心 2007年第34期174-176,203,共4页
Hidden Web因为其隐蔽性而难以直接抓取,因此成为信息检索研究的一个新领域。提出了一种获取Hidden Web信息的方法,讨论了实现的关键技术。通过设计提出的启发式查询词选择算法,提高了抓取的效率。实验证明了该模型和算法的有效性。
关键词 信息检索 Hidden WEB 爬虫 启发式算法
在线阅读 下载PDF
一种基于大数据技术的舆情监控系统 被引量:10
18
作者 曹彬 顾怡立 +1 位作者 谢珍真 陈震 《信息网络安全》 2014年第12期32-36,共5页
随着互联网的普及,社交网络已经成为人们生活中至关重要的一部分。这种新媒体时代的潮流促进了信息的流动和传播,同时也带来了海量的媒体内容与用户数据。社交媒体分析是舆情监控系统的主要内容,舆情数据的分析、处理与监控是新媒体时... 随着互联网的普及,社交网络已经成为人们生活中至关重要的一部分。这种新媒体时代的潮流促进了信息的流动和传播,同时也带来了海量的媒体内容与用户数据。社交媒体分析是舆情监控系统的主要内容,舆情数据的分析、处理与监控是新媒体时代带来的新的技术问题之一。近年来的大数据处理计算技术提供了处理海量数据的成熟解决方案。大数据处理平台有很多种,其中Hadoop具有成熟的社区,其架构稳定且易于使用。在文本分类方面,LDA统计模型方法给文本分类问题带来了新的处理办法。因此,文章提出了一个基于成熟开源架构的舆情监控系统,系统基于Hadoop平台,以Nutch作为爬虫,使用Solr实现核心的索引查找功能。整个平台在海量数据处理方面展现了较高的分析处理效率,在应对海量数据带来的问题的同时还提供了智能的分析与统计功能。 展开更多
关键词 舆情监控 爬虫 搜索 LDA算法 社交媒体
在线阅读 下载PDF
磁吸附爬壁机器人控制系统的研究 被引量:4
19
作者 门广亮 赵言正 王炎 《基础自动化》 CSCD 1995年第5期40-42,共3页
在研制爬壁机器人基础上,比较了磁吸附爬壁机器人的各种吸附与驱动方式的优缺点,设计了机器人的控制系统,推导出控制算法,并实验结果表明控制系统能满足工作要求。
关键词 爬壁机器人 磁吸附机器人 控制系统 机器人
在线阅读 下载PDF
一种基于链接和内容分析的自适应主题爬虫算法 被引量:4
20
作者 朱庆生 徐宁 周瑜 《计算机与现代化》 2015年第9期77-80,89,共5页
主题网络爬虫是主题搜索引擎中的一种关键技术,针对OTIE算法参数考虑不全的问题,提出结合链接和网页内容分析的自适应算法,通过结合网页链接重要性和内容相关性得分得到主题网页下载优先级的综合评分,同时考虑在爬取主题网页中的隧道穿... 主题网络爬虫是主题搜索引擎中的一种关键技术,针对OTIE算法参数考虑不全的问题,提出结合链接和网页内容分析的自适应算法,通过结合网页链接重要性和内容相关性得分得到主题网页下载优先级的综合评分,同时考虑在爬取主题网页中的隧道穿越问题。从ODP中选择主题和种子网页,将本算法与Best-First算法、Shark-Search算法和OTIE算法进行比较。实验结果表明,本算法不仅具有明显较好的查全率,而且具有很好的查准率。 展开更多
关键词 主题爬虫 OTIE算法 Shark—Search算法 隧道穿越
在线阅读 下载PDF
上一页 1 2 8 下一页 到第
使用帮助 返回顶部