期刊文献+
共找到59篇文章
< 1 2 3 >
每页显示 20 50 100
基于机器学习的Web网络爬虫算法优化研究
1
作者 刘俊培 贾继洋 +2 位作者 班岚 迟欢 孙沛叶 《软件》 2024年第4期4-7,共4页
随着互联网的不断发展,网络爬虫在信息获取和数据挖掘等领域中的应用越来越广泛。同时在互联网相关应用中,机器学习技术成为一种非常重要的手段,能够完成更加高效和准确的网络爬取。然而,现有的网络爬虫算法还存在着很多问题,比如效率... 随着互联网的不断发展,网络爬虫在信息获取和数据挖掘等领域中的应用越来越广泛。同时在互联网相关应用中,机器学习技术成为一种非常重要的手段,能够完成更加高效和准确的网络爬取。然而,现有的网络爬虫算法还存在着很多问题,比如效率低下、容易被封禁等。因此,本文对现有的网络爬虫算法进行分析和总结,找出其中存在的问题和不足之处,提出一种基于机器学习的网络爬虫算法优化方法,使其更加智能和自适应,以期更好地满足实际应用的需求。 展开更多
关键词 机器学习 web网络爬虫算法 算法优化
在线阅读 下载PDF
改进的PageRank在Web信息搜集中的应用 被引量:12
2
作者 秦拯 张玲 李娜 《计算机研究与发展》 EI CSCD 北大核心 2006年第6期1044-1049,共6页
PageRank是一种用于网页排序的算法,它利用网页间的相互引用关系评价网页的重要性·但由于它对每条出链赋予相同的权值,忽略了网页与主题的相关性,容易造成主题漂移现象·在分析了几种PageRank算法基础上,提出了一种新的基于主... PageRank是一种用于网页排序的算法,它利用网页间的相互引用关系评价网页的重要性·但由于它对每条出链赋予相同的权值,忽略了网页与主题的相关性,容易造成主题漂移现象·在分析了几种PageRank算法基础上,提出了一种新的基于主题分块的PageRank算法·该算法按照网页结构对网页进行分块,依照各块与主题的相关性大小对块中的链接传递不同的PageRank值,并能根据已访问的链接对块进行相关性反馈·实验表明,所提出的算法能较好地改进搜索结果的精确度· 展开更多
关键词 PAGERANK算法 主题分块 web信息搜集
在线阅读 下载PDF
基于启发式查询词选择算法的Hidden Web获取研究 被引量:1
3
作者 姚全珠 杨增辉 +1 位作者 张楠 田元 《计算机工程与应用》 CSCD 北大核心 2007年第34期174-176,203,共4页
Hidden Web因为其隐蔽性而难以直接抓取,因此成为信息检索研究的一个新领域。提出了一种获取Hidden Web信息的方法,讨论了实现的关键技术。通过设计提出的启发式查询词选择算法,提高了抓取的效率。实验证明了该模型和算法的有效性。
关键词 信息检索 Hidden web 爬虫 启发式算法
在线阅读 下载PDF
Deep Web爬虫爬行策略研究 被引量:13
4
作者 郑冬冬 崔志明 《计算机工程与设计》 CSCD 北大核心 2006年第17期3154-3158,共5页
如今Web上越来越多的信息可以通过查询接口来获得,为了获取某DeepWeb站点的页面用户不得不键入一系列的关键词集。由于没有直接指向DeepWeb页面的静态链接,当前大多搜索引擎不能发现和索引这些页面。然而,近来研究表明DeepWeb站点提供... 如今Web上越来越多的信息可以通过查询接口来获得,为了获取某DeepWeb站点的页面用户不得不键入一系列的关键词集。由于没有直接指向DeepWeb页面的静态链接,当前大多搜索引擎不能发现和索引这些页面。然而,近来研究表明DeepWeb站点提供的高质量的信息对许多用户来说是非常有价值。这里研究了怎样建立起一个有效的DeepWeb爬虫,它可以自动发现和下载DeepWeb页面。由于DeepWeb惟一“入口点”是查询接口,DeepWeb爬虫设计面对的主要挑战是怎样对查询接口自动产生有意义的查询。这里提出一种针对查询接口查询自动产生问题的理论框架。通过在实际DeepWeb站点上的实验证明了此方法是非常有效的。 展开更多
关键词 DEEP web DEEP web爬虫 查询选择 查询效能 适应性爬行算法
在线阅读 下载PDF
深入解析Web主题爬虫的关键性原理 被引量:8
5
作者 王芳 陈海建 《微型电脑应用》 2011年第7期32-34,70,共4页
随着互联网的快速发展,搜索引擎的应用越来越重要,作为搜索引擎的首要组成部分网络爬虫一直备受人们的关注。主题爬虫作为网络爬虫的重要种类使用越来越广泛,深入分析的网络主题爬虫关键性原理有助于根据需求设计出科学合理的爬虫。
关键词 网络爬虫 主题爬虫 爬虫算法
在线阅读 下载PDF
基于网络爬虫与TF-IDF算法的非遗产品创新
6
作者 王菁 杨晓翔 《佳木斯大学学报(自然科学版)》 2025年第8期52-54,74,共4页
非遗产品创新无法满足当前流行趋势,提出基于网络爬虫与TF-IDF算法的非遗产品创新方法。以百度百科、天猫商城为对象基于网络爬虫技术爬取非遗产品创新热点的网络词条,构造一个语料库粗糙集;利用TF-IDF算法对语料库进行精确搜索,在传统T... 非遗产品创新无法满足当前流行趋势,提出基于网络爬虫与TF-IDF算法的非遗产品创新方法。以百度百科、天猫商城为对象基于网络爬虫技术爬取非遗产品创新热点的网络词条,构造一个语料库粗糙集;利用TF-IDF算法对语料库进行精确搜索,在传统TF-IDF算法中引入词跨度,选取权重最高的前n个作为非遗产品创新设计的关键词,获得符合非遗产品创新设计需求的结果。测试结果显示:该方法抽取的非遗创新关键词与人工抽取结果更契合,准确度均在90%以上,基于网络爬虫与TF-IDF算法的非遗产品创新具有良好的推广应用前景。 展开更多
关键词 网络爬虫 TF-IDF算法 语料库 词频率 非遗创新 产品
在线阅读 下载PDF
基于主题网络爬虫思想的Web数据挖掘算法探讨 被引量:1
7
作者 景冰 《景德镇学院学报》 2020年第3期66-68,共3页
本文提出一种基于主题网络爬虫思想的Web数据挖掘算法,通过主题网络爬虫尽可能对Web数据进行分类整合处理,促进页面检索效率的提升,在此基础之上与贝叶斯网络算法相结合,基于关联规则对Web数据进行挖掘,并通过仿真实验的方式验证整套算... 本文提出一种基于主题网络爬虫思想的Web数据挖掘算法,通过主题网络爬虫尽可能对Web数据进行分类整合处理,促进页面检索效率的提升,在此基础之上与贝叶斯网络算法相结合,基于关联规则对Web数据进行挖掘,并通过仿真实验的方式验证整套算法的可操作性。 展开更多
关键词 主题网络爬虫 数据挖掘 算法
在线阅读 下载PDF
物联网海量不均衡数据组内方差SNM清洗算法
8
作者 伍阳 陈科基 《现代电子技术》 北大核心 2025年第3期124-128,共5页
由于物联网数据通常是不均衡的,导致采集的数据集中各个类别的样本数量差异很大,无法准确反映其内部的方差情况,使得数据文本相似度较高,为此,提出物联网海量不均衡数据组内方差SNM清洗算法。使用网络爬虫技术爬取海量不均衡数据,对不... 由于物联网数据通常是不均衡的,导致采集的数据集中各个类别的样本数量差异很大,无法准确反映其内部的方差情况,使得数据文本相似度较高,为此,提出物联网海量不均衡数据组内方差SNM清洗算法。使用网络爬虫技术爬取海量不均衡数据,对不平衡数据字段过滤处理,设计可伸缩滑动窗口方式改进SNM算法,计算不均衡数据组内方差,将其作为清洗不均衡数据的约束,通过对比物联网海量不均衡数据组内方差阈值,实现物联网海量不均衡数据清洗。实验结果表明:该方法具备较强的物联网海量不均衡数据清洗能力,且清洗后的物联网海量不平衡数据的文本相似度较低,应用性较强。 展开更多
关键词 物联网 不均衡数据 组内方差 SNM清洗算法 滑动窗口 网络爬虫 数据字段 约束条件
在线阅读 下载PDF
基于深度学习算法的5G智慧图书馆用户行为预测
9
作者 刘心怡 《长江信息通信》 2025年第9期113-115,共3页
针对5G智慧图书馆用户行为预测实践中存在预测精度较低,时间成本较高的问题,提出基于深度学习算法的5G智慧图书馆用户行为预测。利用网络爬虫技术获取5G智慧图书馆用户借阅行为、入馆行为以及座位使用行为数据信息;对缺失数据补充、重... 针对5G智慧图书馆用户行为预测实践中存在预测精度较低,时间成本较高的问题,提出基于深度学习算法的5G智慧图书馆用户行为预测。利用网络爬虫技术获取5G智慧图书馆用户借阅行为、入馆行为以及座位使用行为数据信息;对缺失数据补充、重复数据删除清洗处理,利用深度学习算法中的卷积神经网络对历史用户行为数据深入挖掘,预测分析用户行为,实现基于深度学习算法的5G智慧图书馆用户行为预测。经实验证明,设计算法预测误差为±0.1%,单位预测时间不超过300ms,可以实现对5G智慧图书馆用户行为精准、快速预测。 展开更多
关键词 深度学习算法 智慧图书馆 用户行为 网络爬虫技术 卷积神经网络
在线阅读 下载PDF
Web渗透测试的信息抓取策略研究 被引量:2
10
作者 宋雅楠 刘萍 《计算机系统应用》 2017年第8期232-237,共6页
文章研究了在渗透测试中Web站点的信息抓取的问题.针对Web渗透测试对于信息抓取的全面性、高效性的需求,本文通过对Web站点进行研究分析,提出了基于导航链接的网络爬虫策略,并通过减少迭代次数对传统的MD5去重算法进行了改进,优化了URL... 文章研究了在渗透测试中Web站点的信息抓取的问题.针对Web渗透测试对于信息抓取的全面性、高效性的需求,本文通过对Web站点进行研究分析,提出了基于导航链接的网络爬虫策略,并通过减少迭代次数对传统的MD5去重算法进行了改进,优化了URL去重的效率.通过实验验证表明,该爬虫策略的信息抓取覆盖率和网页下载效率均有所提高. 展开更多
关键词 网络爬虫 web信息抓取 URL去重 MD5算法 覆盖率
在线阅读 下载PDF
Website Search Engine Optimization: Geographical and Cultural Point of View
11
作者 Osama Rababah Muhannad Al-Shboul +1 位作者 Fawaz Al-Zaghoul Rawan Ghnemat 《Journal of Software Engineering and Applications》 2014年第13期1087-1095,共9页
The concept of Webpage visibility is usually linked to search engine optimization (SEO), and it is based on global in-link metric [1]. SEO is the process of designing Webpages to optimize its potential to rank high on... The concept of Webpage visibility is usually linked to search engine optimization (SEO), and it is based on global in-link metric [1]. SEO is the process of designing Webpages to optimize its potential to rank high on search engines, preferably on the first page of the results page. The purpose of this research study is to analyze the influence of local geographical area, in terms of cultural values, and the effect of local society keywords in increasing Website visibility. Websites were analyzed by accessing the source code of their homepages through Google Chrome browser. Statistical analysis methods were selected to assess and analyze the results of the SEO and search engine visibility (SEV). The results obtained suggest that the development of Web indicators to be included should consider a local idea of visibility, and consider a certain geographical context. The geographical region that the researchers are considering in this research is the Hashemite kingdom of Jordan (HKJ). The results obtained also suggest that the use of social culture keywords leads to increase the Website visibility in search engines as well as localizes the search area such as google.jo, which localizes the search for HKJ. 展开更多
关键词 SEARCH ENGINE OPTIMIZATION web crawlers SEARCH ENGINE algorithms SEARCH ENGINE VISIBILITY JORDAN
暂未订购
基于大数据的深度学习网络爬虫算法在信息搜集与处理中的应用 被引量:4
12
作者 于平 《科技资讯》 2024年第16期55-57,共3页
旨在利用大数据和深度学习技术优化网络爬虫算法,以更好地满足信息搜集与处理的需求。首先,使用大数据技术进行数据收集;其次,引入词频反转文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)权重作为输入特征的初始权重,并... 旨在利用大数据和深度学习技术优化网络爬虫算法,以更好地满足信息搜集与处理的需求。首先,使用大数据技术进行数据收集;其次,引入词频反转文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)权重作为输入特征的初始权重,并利用传播激活算法来优化爬虫算法;最后,对多模态信息进行整合。为了测试基于大数据的深度学习网络爬虫算法在信息搜集与处理中的应用效果,将其与传统方法进行了比较。通过实验发现,在统一资源定位器(Uniform Resource Locator,URL)数量为10000时,提出的方法的覆盖率可达92.9%,而传统方法的覆盖率仅为73.7%。研究表明:所提出的基于大数据的深度学习网络爬虫算法在信息收集方面具有更高的覆盖率和更好的准确性。 展开更多
关键词 网络爬虫算法 深度学习 信息收集和处理 大数据
在线阅读 下载PDF
基于知识图谱的恶意软件信息检测方法研究 被引量:2
13
作者 桑道松 《九江学院学报(自然科学版)》 CAS 2024年第3期79-84,共6页
互联网的发展导致恶意软件信息类型种类繁多,为检测获取更深层次的恶意软件信息,研究基于知识图谱的恶意软件信息检测方法,提升恶意软件信息检测效果。利用文本挖掘技术中的Python网络爬虫技术,采集软件有效信息;通过信息增益算法,在采... 互联网的发展导致恶意软件信息类型种类繁多,为检测获取更深层次的恶意软件信息,研究基于知识图谱的恶意软件信息检测方法,提升恶意软件信息检测效果。利用文本挖掘技术中的Python网络爬虫技术,采集软件有效信息;通过信息增益算法,在采集的软件有效信息内,提取软件信息特征;在双向长短期记忆神经网络内输入软件信息特征,输出软件信息实体识别结果,并抽取软件信息实体间的关系;依据实体消岐技术,对抽取的软件信息实体关系进行知识融合,得到软件信息知识图谱;利用图推理算法,处理软件信息知识图谱,得到恶意软件信息检测结果。实验证明:该方法可有效采集软件有效信息,并提取软件信息特征,建立软件信息知识图谱;该方法可有效检测恶意软件信息,且检测精度较高。 展开更多
关键词 知识图谱 恶意软件 信息检测 Python网络爬虫 神经网络 图推理算法
在线阅读 下载PDF
基于知识图谱的通信网络链路数据安全保护方法 被引量:1
14
作者 赵雪琴 《长江信息通信》 2024年第10期66-68,共3页
链路数据安全保护是通信网络防御机制中重要组成部分,采用计算机技术对链路数据进行保护,保证链路数据的完整性和安全性,但目前通信网络攻击和入侵种类较多,频次较高,链路数据安全保护具有较高的难度,现实中保护效果并不理想,丢包率和... 链路数据安全保护是通信网络防御机制中重要组成部分,采用计算机技术对链路数据进行保护,保证链路数据的完整性和安全性,但目前通信网络攻击和入侵种类较多,频次较高,链路数据安全保护具有较高的难度,现实中保护效果并不理想,丢包率和误码率均比较高,无法达到预期的保护效果,为此提出基于知识图谱的通信网络链路数据安全保护方法。采用网络爬虫对通信网络数据获取,并利用Bloom-Filter算法对数据进行过滤,通过关系筛选和抽取,建立链路数据安全知识图谱,利用知识图谱识别通信网络攻击与入侵行为,通过对攻击与入侵拦截,实现基于知识图谱的通信网络链路数据安全保护。经实验证明,设计方法应用下通信网络链路丢包率和误码率均在1%以下,在通信网络链路数据安全保护方面具有良好的应用前景。 展开更多
关键词 知识图谱 通信网络 链路数据 安全保护 网络爬虫 Bloom-Filter算法
在线阅读 下载PDF
基于深度哈希算法的学生画像个性化推荐系统的设计与实现 被引量:1
15
作者 钟亚妹 薛慧丽 《河北省科学院学报》 CAS 2024年第1期39-45,共7页
为了提升学生画像个性化推荐的效果,研究设计了一种基于深度哈希算法的学生画像个性化推荐系统。通过使用深度哈希算法结合经过处理的学生信息,进行了学生信息特征标签的提取,并构建了学生画像标签维度模型,从而提升了学生画像的生动性... 为了提升学生画像个性化推荐的效果,研究设计了一种基于深度哈希算法的学生画像个性化推荐系统。通过使用深度哈希算法结合经过处理的学生信息,进行了学生信息特征标签的提取,并构建了学生画像标签维度模型,从而提升了学生画像的生动性。根据学生画像标注的学生特征,在学校课程资源特征数据集中进行搜索匹配,并根据排序后的检索结果生成推荐结果。实验结果表明,该系统能够有效地采集和预处理学生信息,并成功构建学生画像,完成学生画像的个性化推荐。 展开更多
关键词 深度哈希算法 学生画像 个性化推荐 学生行为属性 网络爬虫技术 标签维度模型
在线阅读 下载PDF
一种改进的主题网络蜘蛛搜索算法 被引量:18
16
作者 林海霞 原福永 +1 位作者 陈金森 刘俊峰 《计算机工程与应用》 CSCD 北大核心 2007年第10期174-176,共3页
主题网络蜘蛛搜索策略是专业搜索引擎的核心技术。但是目前的主题搜索算法往往存在很大贪婪性,难以在全局范围内找到最优解。通过比较分析发现Best-First算法虽然有它的不足,但是它在几种算法中表现的性能最优。故以Best-First算法为基... 主题网络蜘蛛搜索策略是专业搜索引擎的核心技术。但是目前的主题搜索算法往往存在很大贪婪性,难以在全局范围内找到最优解。通过比较分析发现Best-First算法虽然有它的不足,但是它在几种算法中表现的性能最优。故以Best-First算法为基础,提出了BS-BS算法。对BS-BS算法进行性能评价,发现应用此算法搜索不但“召回率”有所提高,还能在一定程度上找到全局范围内的最优解。 展开更多
关键词 主题网络蜘蛛 Best—First算法 召回率
在线阅读 下载PDF
面向专用信息获取的用户定制主题网络爬虫技术研究 被引量:18
17
作者 薛丽敏 吴琦 李骏 《信息网络安全》 CSCD 2017年第2期12-21,共10页
进入大数据时代,互联网已成为各行各业进行信息采集的重要阵地。面对爆炸式增长的网络信息资源,如何快速高效地筛选出所需的信息成为亟需解决的现实难题。在互联网海量数据和专用信息采集人员之间构建一个满足特定需求的信息筛选机制,... 进入大数据时代,互联网已成为各行各业进行信息采集的重要阵地。面对爆炸式增长的网络信息资源,如何快速高效地筛选出所需的信息成为亟需解决的现实难题。在互联网海量数据和专用信息采集人员之间构建一个满足特定需求的信息筛选机制,可以大幅度提高专用信息获取工作效率。主题网络爬虫是所有互联网信息获取手段必须具备的首要环节,为了提高专用信息采集的准确性,文章进行了面向公开网络的用户定制主题网络爬虫技术研究。针对大数据时代信息筛选困难的问题,文章通过将用户的兴趣偏好融入到主题网络爬虫的抓取过程中,有效提高了信息筛选力度,并通过实验验证了文中方法能够提高查准率。 展开更多
关键词 大数据 主题网络爬虫 PAGERANK算法 行为分析 用户定制
在线阅读 下载PDF
基于爬虫技术的关键词关联推荐算法优化与实现 被引量:16
18
作者 刘爱琴 王友林 尚珊 《情报理论与实践》 CSSCI 北大核心 2018年第4期134-138,共5页
随着信息化技术的不断提高,知识性数据库不断向集成化、智能化的方向发展,信息检索功能不断发展和完善,在满足用户信息需求的便捷性方面有很大的提升。信息资源的极大丰富,使得信息查全率得到很大提高,但随之带来用户检索、筛选时间的增... 随着信息化技术的不断提高,知识性数据库不断向集成化、智能化的方向发展,信息检索功能不断发展和完善,在满足用户信息需求的便捷性方面有很大的提升。信息资源的极大丰富,使得信息查全率得到很大提高,但随之带来用户检索、筛选时间的增加,以及查准率的降低。为了解决这一矛盾,本研究融合网络爬虫技术和学术资源网站结构化数据的特征,将网站网页数据进行爬取、加工、整合,用结构化、可视化的图像数据辅助检索,实现了在缩小用户的筛查范围,提升用户检索的准确度的同时,以关联推荐方式提升用户在学术资源网站中信息检索的效率。 展开更多
关键词 信息检索 数据挖掘 网络爬虫 信息推荐 算法
原文传递
基于ID3分类算法的深度网络爬虫设计 被引量:4
19
作者 王舜燕 李蕾 吴兵华 《现代图书情报技术》 CSSCI 北大核心 2008年第6期41-45,共5页
针对目前Web信息挖掘中存在的信息覆盖率较低的问题,对网络爬虫系统进行研究,提出一种针对深度网络的、基于ID3分类算法的Web页面收集方法。对Web页面的特征进行分析、处理和分类,提取包含深度网页的表单,通过自动提交这些表单来进行更... 针对目前Web信息挖掘中存在的信息覆盖率较低的问题,对网络爬虫系统进行研究,提出一种针对深度网络的、基于ID3分类算法的Web页面收集方法。对Web页面的特征进行分析、处理和分类,提取包含深度网页的表单,通过自动提交这些表单来进行更深和更广的页面获取,实验表明该方法可以有效减少现有搜索引擎的盲区,改善搜索结果。 展开更多
关键词 网络爬虫 深度网络 ID3算法
在线阅读 下载PDF
基于Linux的网络爬虫系统 被引量:8
20
作者 王锋 王伟 +1 位作者 张璟 罗作民 《计算机工程》 CAS CSCD 北大核心 2010年第1期280-282,共3页
针对目前影响爬虫程序效率的诸多关键因素,在研究爬虫程序内部运行机理的基础上,进行架构优化,改进爬虫程序中的相关算法。在Linux网络环境下,通过对实现的爬虫程序运行进行检测,反馈出该解决方案和改进之处具有可行性,提高了页面抓取... 针对目前影响爬虫程序效率的诸多关键因素,在研究爬虫程序内部运行机理的基础上,进行架构优化,改进爬虫程序中的相关算法。在Linux网络环境下,通过对实现的爬虫程序运行进行检测,反馈出该解决方案和改进之处具有可行性,提高了页面抓取的效率和爬虫程序的整体性能。 展开更多
关键词 网络爬虫 URL调度 DNS解析 哈希算法
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部