期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
基于URL定位信息的BBS数据挖掘方法研究 被引量:2
1
作者 赵哲 马晓珺 《科技通报》 北大核心 2014年第4期206-208,共3页
利用Web页面的采集序位和被检索页面的相关信息和主题,使得以主题为分块的网络爬虫算法,能够尽可能多地把整个Web按照主题为依据进行分块整合,可以采用对URL定位信息,提高了页面的高效检索能力。仿真实验中表明,提出的主题相关爬虫算法... 利用Web页面的采集序位和被检索页面的相关信息和主题,使得以主题为分块的网络爬虫算法,能够尽可能多地把整个Web按照主题为依据进行分块整合,可以采用对URL定位信息,提高了页面的高效检索能力。仿真实验中表明,提出的主题相关爬虫算法能够跨越BBS中URL网页中的断裂带,提高了URL网页的召回率,也不至于因为网页的断裂而中止检索。算法精度分析表明,误判点都在等分线附近徘徊,偏差不大,表明算法精度较高。 展开更多
关键词 网络爬虫算法 URL定位信息 BBS信息检索 数据挖掘
在线阅读 下载PDF
基于路由注入的快速DHT网络资源发现方法 被引量:1
2
作者 耿焕同 陈华 李辉健 《计算机工程与设计》 北大核心 2016年第2期313-318,362,共7页
为提高抓取海量DHT节点上的网络资源效率,提出一种基于路由注入的DHT网络爬虫方法。结合Kademlia算法的特点,针对路由表各区间计算查询目标ID,获取已知节点保存的所有节点信息,提高遍历节点的速度;在与网络节点交互的过程中,生成适应已... 为提高抓取海量DHT节点上的网络资源效率,提出一种基于路由注入的DHT网络爬虫方法。结合Kademlia算法的特点,针对路由表各区间计算查询目标ID,获取已知节点保存的所有节点信息,提高遍历节点的速度;在与网络节点交互的过程中,生成适应已知节点路由表的爬虫节点ID,达到注入对方路由表的目的;实现持续地抓取对方节点的资源。实验结果表明,该方法既找到了路由表的最佳注入区间,提高了注入成功率,使得获取DHT网络资源的效率提高,并在Btbook网站中得到成功应用。 展开更多
关键词 DHT网络 路由注入 网络爬虫 Kademlia算法 Btbook
在线阅读 下载PDF
基于蚁群算法的无线通信网络安全漏洞检测方法 被引量:9
3
作者 李梅 朱明宇 《计算机测量与控制》 2022年第10期51-56,109,共7页
针对无线通信网络存在因漏洞数据大量累积,而造成通信网络运行速率下降的问题,提出基于蚁群算法的无线通信网络安全漏洞检测方法;根据最大、最小蚂蚁系统定义原则,采用蚁群算法,建立完整的数学模型表达式;结合网络爬虫技术,将待测数据... 针对无线通信网络存在因漏洞数据大量累积,而造成通信网络运行速率下降的问题,提出基于蚁群算法的无线通信网络安全漏洞检测方法;根据最大、最小蚂蚁系统定义原则,采用蚁群算法,建立完整的数学模型表达式;结合网络爬虫技术,将待测数据载荷单元整理成既定组合形式,遵循绕过规则,提取待测安全漏洞数据;分析SQL注释语句与URL编码条件,设置动态化查询指令,选取其中表现为空的信息字节,建立信息剥离表达式,实现无线通信网络安全漏洞检测;实验结果表明,设计方法的漏洞信息检测量均值达到了4.37 Mb,该检测方法有效提高了检测量,解决了因漏洞数据大量累积而造成的通信网络运行速率下降的问题。 展开更多
关键词 蚁群算法 无线通信网络 安全漏洞检测 爬虫技术 载荷单元 动态指令
在线阅读 下载PDF
基于自然语言处理与智能语义识别的舆情监测预警模型研究 被引量:7
4
作者 张君第 《电子设计工程》 2022年第17期165-169,共5页
做好高校舆情分析与预警具有重要的社会意义,针对传统的网络舆情分析方法依靠人工筛选,费时费力、准确度低且无法进行海量数据分析的问题,基于自然语言处理算法,构建了一种舆情监测预警模型。该模型通过TF-IDF算法对文本特征进行提取,... 做好高校舆情分析与预警具有重要的社会意义,针对传统的网络舆情分析方法依靠人工筛选,费时费力、准确度低且无法进行海量数据分析的问题,基于自然语言处理算法,构建了一种舆情监测预警模型。该模型通过TF-IDF算法对文本特征进行提取,使用基于径向量函数的神经网络模型对数据进行训练,实现舆情分析与预警的功能。数值实验测试结果表明,文中所构建算法模型的精确度指标和效率相较其他对比算法均有明显提高,证明了该算法模型可以对网络舆论进行有效的监测和预警。 展开更多
关键词 舆情监测 TF-IDF算法 RFB神经网络 Scrapy爬虫框架 自然语言处理 深度学习
在线阅读 下载PDF
基于HMM的主题爬虫问题研究
5
作者 曹琨 《河南科技》 2016年第17期27-28,共2页
对HMM爬虫中K-means算法的K值选取方法作出相应改进,然后针对爬取网页的内容与主题相关度不高的问题,对隐马尔科夫模型的假设条件进行修改,完成改进后的隐马尔科夫爬虫设计。
关键词 网络爬虫 算法 改进
在线阅读 下载PDF
网络爬虫的专题机构数据空间信息采集方法 被引量:13
6
作者 杨宇 孙亚琴 闫志刚 《测绘科学》 CSCD 北大核心 2019年第7期122-127,140,共7页
针对海量专题机构数据空间信息和属性信息缺失的问题,该文使用专题机构信息网站作为信息源,以深度优先策略网络爬虫作为信息获取方法,提出了一种基于网络爬虫框架的专题机构数据空间信息采集方法。在网络爬虫方法关键功能模块中,设计了... 针对海量专题机构数据空间信息和属性信息缺失的问题,该文使用专题机构信息网站作为信息源,以深度优先策略网络爬虫作为信息获取方法,提出了一种基于网络爬虫框架的专题机构数据空间信息采集方法。在网络爬虫方法关键功能模块中,设计了一种基于词元的字符串相似度矩阵算法来提高机构检索列表匹配准确度,并提出了一种基于决策树模式的行政区划信息识别和抽取算法用以实现地址字符串中行政区划的准确识别和提取。通过具体实现和实验测试,证明该方法能有效地实现专题机构数据空间信息和属性信息的采集,并具有较高的时间效率和准确率,可作为机构数据空间信息采集的一种有效方法。 展开更多
关键词 泛在网络 空间信息采集 网络爬虫 矩阵算法 决策树
原文传递
重要Tor暗网站点的验证码快速识别和数据采集 被引量:4
7
作者 龙军 王轶骏 薛质 《计算机应用与软件》 北大核心 2022年第7期315-321,共7页
针对面向Tor暗网的数据采集和信息监控的任务,为了解决爬取重要Web站点中所遇到的验证码自动识别这个技术难点,设计一套结合CNN网络、GRU网络和ctc loss的快速识别模型,并将其应用到Tor暗网站点的数据采集系统中去。一段时间的实际运行... 针对面向Tor暗网的数据采集和信息监控的任务,为了解决爬取重要Web站点中所遇到的验证码自动识别这个技术难点,设计一套结合CNN网络、GRU网络和ctc loss的快速识别模型,并将其应用到Tor暗网站点的数据采集系统中去。一段时间的实际运行结果充分证明了该Tor暗网数据采集系统能够快速、准确地识别重要Tor暗网站点的验证码,自动绕过检验机制后爬取并存储站点的数据信息,从而有力支撑了暗网数据提炼、分析和挖掘的后续工作。 展开更多
关键词 Tor暗网 CNN网络 GRU网络 ctc loss算法 Scrapy爬虫
在线阅读 下载PDF
基于爬虫技术与智能算法的网络舆情监测 被引量:3
8
作者 雍龙泉 贾伟 张建科 《智能计算机与应用》 2021年第4期35-38,共4页
采用网络爬虫技术从百度指数获取某一"热门事件"的数据,并对这些数据进行预处理,进而建立网络舆情的Logistic微分方程模型。结合已有数据,采用智能算法确定微分方程解中的3个关键参数;最后应用于网络舆情预测。
关键词 网络舆情 爬虫技术 百度指数 Logistic微分方程模型 智能算法
在线阅读 下载PDF
基于网络爬虫的电力故障信息检索引擎设计 被引量:2
9
作者 杨峰 林钰杰 吴丽贤 《微型电脑应用》 2019年第8期87-90,共4页
针对当前电力故障信息搜索的低效问题,结合计算机信息技术,提出一种基于网络爬虫的检索引擎。为实现该引擎,先对网络爬虫的原理进行了分析,同时为提高网络爬虫抓取的准确度,在URL提取后,引入KMP算法对故障信息字符进行匹配,以提高匹配... 针对当前电力故障信息搜索的低效问题,结合计算机信息技术,提出一种基于网络爬虫的检索引擎。为实现该引擎,先对网络爬虫的原理进行了分析,同时为提高网络爬虫抓取的准确度,在URL提取后,引入KMP算法对故障信息字符进行匹配,以提高匹配的效率和准确度。在完成上述的抓取后,通过JSOUP完成对信息的解析,得到目标网页链接。为验证上述方案,通过ETL完成数据库搭建,并采用Eclipse3.1+My SQL5.0+Tomcat5.5完成对引擎平台的开发。最后通过配网台账抽取,验证了本方案的可行性。 展开更多
关键词 网络爬虫 改进KMP算法 故障信息
在线阅读 下载PDF
赌博网站自动识别技术研究 被引量:1
10
作者 杨哲 陈应虎 《信息安全研究》 CSCD 2023年第5期440-445,共6页
网络赌博存在严重的信息安全风险,有效发现判定赌博网站对维护国家金融稳定有着十分重要的意义.针对赌博网站发现困难的问题,提出一种赌博网站自动识别技术方案,该方案根据云平台的AS信息获取其拥有的IP网段,遍历IP反向解析域名后进行... 网络赌博存在严重的信息安全风险,有效发现判定赌博网站对维护国家金融稳定有着十分重要的意义.针对赌博网站发现困难的问题,提出一种赌博网站自动识别技术方案,该方案根据云平台的AS信息获取其拥有的IP网段,遍历IP反向解析域名后进行分布式爬取以获得网站截图.针对赌博网站判定困难的问题(例如有的赌博网站仅是一幅包含赌博APP下载链接的图片),方案利用dHash算法对正样本进行清洗,训练卷积神经网络(CNN)进行网站二分类.实验结果表明方案泛化能力较强、人工参与少,可在一定程度上解决赌博网站发现、识别方面存在的问题. 展开更多
关键词 网络赌博 卷积神经网络(CNN) dHash算法 分布式爬虫 云平台 自动识别
在线阅读 下载PDF
基于python的分布式网络反爬虫数据有序性研究 被引量:4
11
作者 朱镕申 孙川钘 潘虹 《计算机仿真》 北大核心 2023年第5期426-429,447,共5页
爬虫产生的负面影响导致网站无法正常访问、运行,故反爬虫技术应运而生,针对反爬虫数据存在的无序性问题,提出面向分布式网络反爬虫数据有序性研究,降低数据后续处理难度。基于python语言及其Scrapy结构,架构分步式网络反爬虫模型,采取... 爬虫产生的负面影响导致网站无法正常访问、运行,故反爬虫技术应运而生,针对反爬虫数据存在的无序性问题,提出面向分布式网络反爬虫数据有序性研究,降低数据后续处理难度。基于python语言及其Scrapy结构,架构分步式网络反爬虫模型,采取人为纠错、主成分分析线性降维以及数据转换等预处理手段,获取特征清晰的反爬虫数据集;根据反爬虫数据样本集与训练集的合并集,结合有向图,利用k最邻近分类算法划分反爬虫数据类别,针对分布式网络反爬虫数据的无序性,设计比特序列递推算法,赋予反爬虫数据有序性。仿真阶段中,经对比百度图片与反爬取到的图片顺序,验证所提方法的有效性,通过探索带宽环境对数据有序性的影响可知,其有序性不受带宽环境影响。 展开更多
关键词 分布式网络 反爬虫数据 有序性 分类算法
在线阅读 下载PDF
基于知识图谱的恶意软件信息检测方法研究 被引量:2
12
作者 桑道松 《九江学院学报(自然科学版)》 CAS 2024年第3期79-84,共6页
互联网的发展导致恶意软件信息类型种类繁多,为检测获取更深层次的恶意软件信息,研究基于知识图谱的恶意软件信息检测方法,提升恶意软件信息检测效果。利用文本挖掘技术中的Python网络爬虫技术,采集软件有效信息;通过信息增益算法,在采... 互联网的发展导致恶意软件信息类型种类繁多,为检测获取更深层次的恶意软件信息,研究基于知识图谱的恶意软件信息检测方法,提升恶意软件信息检测效果。利用文本挖掘技术中的Python网络爬虫技术,采集软件有效信息;通过信息增益算法,在采集的软件有效信息内,提取软件信息特征;在双向长短期记忆神经网络内输入软件信息特征,输出软件信息实体识别结果,并抽取软件信息实体间的关系;依据实体消岐技术,对抽取的软件信息实体关系进行知识融合,得到软件信息知识图谱;利用图推理算法,处理软件信息知识图谱,得到恶意软件信息检测结果。实验证明:该方法可有效采集软件有效信息,并提取软件信息特征,建立软件信息知识图谱;该方法可有效检测恶意软件信息,且检测精度较高。 展开更多
关键词 知识图谱 恶意软件 信息检测 Python网络爬虫 神经网络 图推理算法
在线阅读 下载PDF
基于大数据技术与网络爬虫的创新创业竞赛服务 被引量:3
13
作者 李阳阳 《自动化与仪器仪表》 2022年第10期150-154,共5页
针对传统创新创业竞赛服务数据采集效率低下,信息过于分散,导致信息质量差的问题,设计一个基于大数据技术与主题网络爬虫技术的创新创业竞赛服务系统。系统主要分为数据采集、消息订阅、智能推荐和大数据存储功能模块。首先采用主题网... 针对传统创新创业竞赛服务数据采集效率低下,信息过于分散,导致信息质量差的问题,设计一个基于大数据技术与主题网络爬虫技术的创新创业竞赛服务系统。系统主要分为数据采集、消息订阅、智能推荐和大数据存储功能模块。首先采用主题网络爬虫方法进行信息爬取;然后采用大数据技术的向量空间模型VSM算法和改进协同过滤推荐算法对采集数据进行过滤清洗和智能推荐,以此实现各个功能模块的设计。实验结果表明,提出的主题网络爬虫方法对不同信息的平均采集速度均保持在8.6 ms上下,系统数据采集效率显著提升。提出的VSM算法对数据处理后的平均相似度取值为0.833,十分接近标准值0.75,说明本系统提升了数据采集质量。由此可知,设计的系统满足创新创业竞赛服务需求,具有一定的可行性。 展开更多
关键词 创新创业竞赛 大数据技术 网络爬虫 向量空间模型 协同过滤推荐算法
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部