期刊导航
期刊开放获取
vip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
13
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于URL定位信息的BBS数据挖掘方法研究
被引量:
2
1
作者
赵哲
马晓珺
《科技通报》
北大核心
2014年第4期206-208,共3页
利用Web页面的采集序位和被检索页面的相关信息和主题,使得以主题为分块的网络爬虫算法,能够尽可能多地把整个Web按照主题为依据进行分块整合,可以采用对URL定位信息,提高了页面的高效检索能力。仿真实验中表明,提出的主题相关爬虫算法...
利用Web页面的采集序位和被检索页面的相关信息和主题,使得以主题为分块的网络爬虫算法,能够尽可能多地把整个Web按照主题为依据进行分块整合,可以采用对URL定位信息,提高了页面的高效检索能力。仿真实验中表明,提出的主题相关爬虫算法能够跨越BBS中URL网页中的断裂带,提高了URL网页的召回率,也不至于因为网页的断裂而中止检索。算法精度分析表明,误判点都在等分线附近徘徊,偏差不大,表明算法精度较高。
展开更多
关键词
网络爬虫算法
URL定位信息
BBS信息检索
数据挖掘
在线阅读
下载PDF
职称材料
基于路由注入的快速DHT网络资源发现方法
被引量:
1
2
作者
耿焕同
陈华
李辉健
《计算机工程与设计》
北大核心
2016年第2期313-318,362,共7页
为提高抓取海量DHT节点上的网络资源效率,提出一种基于路由注入的DHT网络爬虫方法。结合Kademlia算法的特点,针对路由表各区间计算查询目标ID,获取已知节点保存的所有节点信息,提高遍历节点的速度;在与网络节点交互的过程中,生成适应已...
为提高抓取海量DHT节点上的网络资源效率,提出一种基于路由注入的DHT网络爬虫方法。结合Kademlia算法的特点,针对路由表各区间计算查询目标ID,获取已知节点保存的所有节点信息,提高遍历节点的速度;在与网络节点交互的过程中,生成适应已知节点路由表的爬虫节点ID,达到注入对方路由表的目的;实现持续地抓取对方节点的资源。实验结果表明,该方法既找到了路由表的最佳注入区间,提高了注入成功率,使得获取DHT网络资源的效率提高,并在Btbook网站中得到成功应用。
展开更多
关键词
DHT网络
路由注入
网络爬虫
Kademlia算法
Btbook
在线阅读
下载PDF
职称材料
基于蚁群算法的无线通信网络安全漏洞检测方法
被引量:
9
3
作者
李梅
朱明宇
《计算机测量与控制》
2022年第10期51-56,109,共7页
针对无线通信网络存在因漏洞数据大量累积,而造成通信网络运行速率下降的问题,提出基于蚁群算法的无线通信网络安全漏洞检测方法;根据最大、最小蚂蚁系统定义原则,采用蚁群算法,建立完整的数学模型表达式;结合网络爬虫技术,将待测数据...
针对无线通信网络存在因漏洞数据大量累积,而造成通信网络运行速率下降的问题,提出基于蚁群算法的无线通信网络安全漏洞检测方法;根据最大、最小蚂蚁系统定义原则,采用蚁群算法,建立完整的数学模型表达式;结合网络爬虫技术,将待测数据载荷单元整理成既定组合形式,遵循绕过规则,提取待测安全漏洞数据;分析SQL注释语句与URL编码条件,设置动态化查询指令,选取其中表现为空的信息字节,建立信息剥离表达式,实现无线通信网络安全漏洞检测;实验结果表明,设计方法的漏洞信息检测量均值达到了4.37 Mb,该检测方法有效提高了检测量,解决了因漏洞数据大量累积而造成的通信网络运行速率下降的问题。
展开更多
关键词
蚁群算法
无线通信网络
安全漏洞检测
爬虫技术
载荷单元
动态指令
在线阅读
下载PDF
职称材料
基于自然语言处理与智能语义识别的舆情监测预警模型研究
被引量:
7
4
作者
张君第
《电子设计工程》
2022年第17期165-169,共5页
做好高校舆情分析与预警具有重要的社会意义,针对传统的网络舆情分析方法依靠人工筛选,费时费力、准确度低且无法进行海量数据分析的问题,基于自然语言处理算法,构建了一种舆情监测预警模型。该模型通过TF-IDF算法对文本特征进行提取,...
做好高校舆情分析与预警具有重要的社会意义,针对传统的网络舆情分析方法依靠人工筛选,费时费力、准确度低且无法进行海量数据分析的问题,基于自然语言处理算法,构建了一种舆情监测预警模型。该模型通过TF-IDF算法对文本特征进行提取,使用基于径向量函数的神经网络模型对数据进行训练,实现舆情分析与预警的功能。数值实验测试结果表明,文中所构建算法模型的精确度指标和效率相较其他对比算法均有明显提高,证明了该算法模型可以对网络舆论进行有效的监测和预警。
展开更多
关键词
舆情监测
TF-IDF算法
RFB神经网络
Scrapy爬虫框架
自然语言处理
深度学习
在线阅读
下载PDF
职称材料
基于HMM的主题爬虫问题研究
5
作者
曹琨
《河南科技》
2016年第17期27-28,共2页
对HMM爬虫中K-means算法的K值选取方法作出相应改进,然后针对爬取网页的内容与主题相关度不高的问题,对隐马尔科夫模型的假设条件进行修改,完成改进后的隐马尔科夫爬虫设计。
关键词
网络爬虫
算法
改进
在线阅读
下载PDF
职称材料
网络爬虫的专题机构数据空间信息采集方法
被引量:
13
6
作者
杨宇
孙亚琴
闫志刚
《测绘科学》
CSCD
北大核心
2019年第7期122-127,140,共7页
针对海量专题机构数据空间信息和属性信息缺失的问题,该文使用专题机构信息网站作为信息源,以深度优先策略网络爬虫作为信息获取方法,提出了一种基于网络爬虫框架的专题机构数据空间信息采集方法。在网络爬虫方法关键功能模块中,设计了...
针对海量专题机构数据空间信息和属性信息缺失的问题,该文使用专题机构信息网站作为信息源,以深度优先策略网络爬虫作为信息获取方法,提出了一种基于网络爬虫框架的专题机构数据空间信息采集方法。在网络爬虫方法关键功能模块中,设计了一种基于词元的字符串相似度矩阵算法来提高机构检索列表匹配准确度,并提出了一种基于决策树模式的行政区划信息识别和抽取算法用以实现地址字符串中行政区划的准确识别和提取。通过具体实现和实验测试,证明该方法能有效地实现专题机构数据空间信息和属性信息的采集,并具有较高的时间效率和准确率,可作为机构数据空间信息采集的一种有效方法。
展开更多
关键词
泛在网络
空间信息采集
网络爬虫
矩阵算法
决策树
原文传递
重要Tor暗网站点的验证码快速识别和数据采集
被引量:
4
7
作者
龙军
王轶骏
薛质
《计算机应用与软件》
北大核心
2022年第7期315-321,共7页
针对面向Tor暗网的数据采集和信息监控的任务,为了解决爬取重要Web站点中所遇到的验证码自动识别这个技术难点,设计一套结合CNN网络、GRU网络和ctc loss的快速识别模型,并将其应用到Tor暗网站点的数据采集系统中去。一段时间的实际运行...
针对面向Tor暗网的数据采集和信息监控的任务,为了解决爬取重要Web站点中所遇到的验证码自动识别这个技术难点,设计一套结合CNN网络、GRU网络和ctc loss的快速识别模型,并将其应用到Tor暗网站点的数据采集系统中去。一段时间的实际运行结果充分证明了该Tor暗网数据采集系统能够快速、准确地识别重要Tor暗网站点的验证码,自动绕过检验机制后爬取并存储站点的数据信息,从而有力支撑了暗网数据提炼、分析和挖掘的后续工作。
展开更多
关键词
Tor暗网
CNN网络
GRU网络
ctc
loss算法
Scrapy爬虫
在线阅读
下载PDF
职称材料
基于爬虫技术与智能算法的网络舆情监测
被引量:
3
8
作者
雍龙泉
贾伟
张建科
《智能计算机与应用》
2021年第4期35-38,共4页
采用网络爬虫技术从百度指数获取某一"热门事件"的数据,并对这些数据进行预处理,进而建立网络舆情的Logistic微分方程模型。结合已有数据,采用智能算法确定微分方程解中的3个关键参数;最后应用于网络舆情预测。
关键词
网络舆情
爬虫技术
百度指数
Logistic微分方程模型
智能算法
在线阅读
下载PDF
职称材料
基于网络爬虫的电力故障信息检索引擎设计
被引量:
2
9
作者
杨峰
林钰杰
吴丽贤
《微型电脑应用》
2019年第8期87-90,共4页
针对当前电力故障信息搜索的低效问题,结合计算机信息技术,提出一种基于网络爬虫的检索引擎。为实现该引擎,先对网络爬虫的原理进行了分析,同时为提高网络爬虫抓取的准确度,在URL提取后,引入KMP算法对故障信息字符进行匹配,以提高匹配...
针对当前电力故障信息搜索的低效问题,结合计算机信息技术,提出一种基于网络爬虫的检索引擎。为实现该引擎,先对网络爬虫的原理进行了分析,同时为提高网络爬虫抓取的准确度,在URL提取后,引入KMP算法对故障信息字符进行匹配,以提高匹配的效率和准确度。在完成上述的抓取后,通过JSOUP完成对信息的解析,得到目标网页链接。为验证上述方案,通过ETL完成数据库搭建,并采用Eclipse3.1+My SQL5.0+Tomcat5.5完成对引擎平台的开发。最后通过配网台账抽取,验证了本方案的可行性。
展开更多
关键词
网络爬虫
改进KMP算法
故障信息
在线阅读
下载PDF
职称材料
赌博网站自动识别技术研究
被引量:
1
10
作者
杨哲
陈应虎
《信息安全研究》
CSCD
2023年第5期440-445,共6页
网络赌博存在严重的信息安全风险,有效发现判定赌博网站对维护国家金融稳定有着十分重要的意义.针对赌博网站发现困难的问题,提出一种赌博网站自动识别技术方案,该方案根据云平台的AS信息获取其拥有的IP网段,遍历IP反向解析域名后进行...
网络赌博存在严重的信息安全风险,有效发现判定赌博网站对维护国家金融稳定有着十分重要的意义.针对赌博网站发现困难的问题,提出一种赌博网站自动识别技术方案,该方案根据云平台的AS信息获取其拥有的IP网段,遍历IP反向解析域名后进行分布式爬取以获得网站截图.针对赌博网站判定困难的问题(例如有的赌博网站仅是一幅包含赌博APP下载链接的图片),方案利用dHash算法对正样本进行清洗,训练卷积神经网络(CNN)进行网站二分类.实验结果表明方案泛化能力较强、人工参与少,可在一定程度上解决赌博网站发现、识别方面存在的问题.
展开更多
关键词
网络赌博
卷积神经网络(CNN)
dHash算法
分布式爬虫
云平台
自动识别
在线阅读
下载PDF
职称材料
基于python的分布式网络反爬虫数据有序性研究
被引量:
4
11
作者
朱镕申
孙川钘
潘虹
《计算机仿真》
北大核心
2023年第5期426-429,447,共5页
爬虫产生的负面影响导致网站无法正常访问、运行,故反爬虫技术应运而生,针对反爬虫数据存在的无序性问题,提出面向分布式网络反爬虫数据有序性研究,降低数据后续处理难度。基于python语言及其Scrapy结构,架构分步式网络反爬虫模型,采取...
爬虫产生的负面影响导致网站无法正常访问、运行,故反爬虫技术应运而生,针对反爬虫数据存在的无序性问题,提出面向分布式网络反爬虫数据有序性研究,降低数据后续处理难度。基于python语言及其Scrapy结构,架构分步式网络反爬虫模型,采取人为纠错、主成分分析线性降维以及数据转换等预处理手段,获取特征清晰的反爬虫数据集;根据反爬虫数据样本集与训练集的合并集,结合有向图,利用k最邻近分类算法划分反爬虫数据类别,针对分布式网络反爬虫数据的无序性,设计比特序列递推算法,赋予反爬虫数据有序性。仿真阶段中,经对比百度图片与反爬取到的图片顺序,验证所提方法的有效性,通过探索带宽环境对数据有序性的影响可知,其有序性不受带宽环境影响。
展开更多
关键词
分布式网络
反爬虫数据
有序性
分类算法
在线阅读
下载PDF
职称材料
基于知识图谱的恶意软件信息检测方法研究
被引量:
2
12
作者
桑道松
《九江学院学报(自然科学版)》
CAS
2024年第3期79-84,共6页
互联网的发展导致恶意软件信息类型种类繁多,为检测获取更深层次的恶意软件信息,研究基于知识图谱的恶意软件信息检测方法,提升恶意软件信息检测效果。利用文本挖掘技术中的Python网络爬虫技术,采集软件有效信息;通过信息增益算法,在采...
互联网的发展导致恶意软件信息类型种类繁多,为检测获取更深层次的恶意软件信息,研究基于知识图谱的恶意软件信息检测方法,提升恶意软件信息检测效果。利用文本挖掘技术中的Python网络爬虫技术,采集软件有效信息;通过信息增益算法,在采集的软件有效信息内,提取软件信息特征;在双向长短期记忆神经网络内输入软件信息特征,输出软件信息实体识别结果,并抽取软件信息实体间的关系;依据实体消岐技术,对抽取的软件信息实体关系进行知识融合,得到软件信息知识图谱;利用图推理算法,处理软件信息知识图谱,得到恶意软件信息检测结果。实验证明:该方法可有效采集软件有效信息,并提取软件信息特征,建立软件信息知识图谱;该方法可有效检测恶意软件信息,且检测精度较高。
展开更多
关键词
知识图谱
恶意软件
信息检测
Python网络爬虫
神经网络
图推理算法
在线阅读
下载PDF
职称材料
基于大数据技术与网络爬虫的创新创业竞赛服务
被引量:
3
13
作者
李阳阳
《自动化与仪器仪表》
2022年第10期150-154,共5页
针对传统创新创业竞赛服务数据采集效率低下,信息过于分散,导致信息质量差的问题,设计一个基于大数据技术与主题网络爬虫技术的创新创业竞赛服务系统。系统主要分为数据采集、消息订阅、智能推荐和大数据存储功能模块。首先采用主题网...
针对传统创新创业竞赛服务数据采集效率低下,信息过于分散,导致信息质量差的问题,设计一个基于大数据技术与主题网络爬虫技术的创新创业竞赛服务系统。系统主要分为数据采集、消息订阅、智能推荐和大数据存储功能模块。首先采用主题网络爬虫方法进行信息爬取;然后采用大数据技术的向量空间模型VSM算法和改进协同过滤推荐算法对采集数据进行过滤清洗和智能推荐,以此实现各个功能模块的设计。实验结果表明,提出的主题网络爬虫方法对不同信息的平均采集速度均保持在8.6 ms上下,系统数据采集效率显著提升。提出的VSM算法对数据处理后的平均相似度取值为0.833,十分接近标准值0.75,说明本系统提升了数据采集质量。由此可知,设计的系统满足创新创业竞赛服务需求,具有一定的可行性。
展开更多
关键词
创新创业竞赛
大数据技术
网络爬虫
向量空间模型
协同过滤推荐算法
原文传递
题名
基于URL定位信息的BBS数据挖掘方法研究
被引量:
2
1
作者
赵哲
马晓珺
机构
安阳师范学院计算机与信息工程学院
安阳师范学院公共计算机教学部
出处
《科技通报》
北大核心
2014年第4期206-208,共3页
文摘
利用Web页面的采集序位和被检索页面的相关信息和主题,使得以主题为分块的网络爬虫算法,能够尽可能多地把整个Web按照主题为依据进行分块整合,可以采用对URL定位信息,提高了页面的高效检索能力。仿真实验中表明,提出的主题相关爬虫算法能够跨越BBS中URL网页中的断裂带,提高了URL网页的召回率,也不至于因为网页的断裂而中止检索。算法精度分析表明,误判点都在等分线附近徘徊,偏差不大,表明算法精度较高。
关键词
网络爬虫算法
URL定位信息
BBS信息检索
数据挖掘
Keywords
network crawler algorithm
URL location information
BBS information retrieval
data mining
分类号
TP393 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于路由注入的快速DHT网络资源发现方法
被引量:
1
2
作者
耿焕同
陈华
李辉健
机构
南京信息工程大学计算机与软件学院
南京信息工程大学江苏省网络监控中心
出处
《计算机工程与设计》
北大核心
2016年第2期313-318,362,共7页
基金
国家自然科学基金项目(41430427)
江苏省青蓝工程基金项目(2012)
文摘
为提高抓取海量DHT节点上的网络资源效率,提出一种基于路由注入的DHT网络爬虫方法。结合Kademlia算法的特点,针对路由表各区间计算查询目标ID,获取已知节点保存的所有节点信息,提高遍历节点的速度;在与网络节点交互的过程中,生成适应已知节点路由表的爬虫节点ID,达到注入对方路由表的目的;实现持续地抓取对方节点的资源。实验结果表明,该方法既找到了路由表的最佳注入区间,提高了注入成功率,使得获取DHT网络资源的效率提高,并在Btbook网站中得到成功应用。
关键词
DHT网络
路由注入
网络爬虫
Kademlia算法
Btbook
Keywords
DHT
network
routing table injection
DHT
crawler
Kademlia
algorithm
Btbook
分类号
TP393.0 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于蚁群算法的无线通信网络安全漏洞检测方法
被引量:
9
3
作者
李梅
朱明宇
机构
苏州高博软件技术职业学院信息与软件学院
出处
《计算机测量与控制》
2022年第10期51-56,109,共7页
基金
江苏省高等职业教育高水平专业群(苏教职函[2021]1号)
江苏省高等职业教育高水平骨干专业建设项目(苏教高[2017]17号)。
文摘
针对无线通信网络存在因漏洞数据大量累积,而造成通信网络运行速率下降的问题,提出基于蚁群算法的无线通信网络安全漏洞检测方法;根据最大、最小蚂蚁系统定义原则,采用蚁群算法,建立完整的数学模型表达式;结合网络爬虫技术,将待测数据载荷单元整理成既定组合形式,遵循绕过规则,提取待测安全漏洞数据;分析SQL注释语句与URL编码条件,设置动态化查询指令,选取其中表现为空的信息字节,建立信息剥离表达式,实现无线通信网络安全漏洞检测;实验结果表明,设计方法的漏洞信息检测量均值达到了4.37 Mb,该检测方法有效提高了检测量,解决了因漏洞数据大量累积而造成的通信网络运行速率下降的问题。
关键词
蚁群算法
无线通信网络
安全漏洞检测
爬虫技术
载荷单元
动态指令
Keywords
ant colony
algorithm
wireless communication
network
security vulnerability detection
crawler
technology
load cell
dynamic instruction
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于自然语言处理与智能语义识别的舆情监测预警模型研究
被引量:
7
4
作者
张君第
机构
陕西铁路工程职业技术学院
出处
《电子设计工程》
2022年第17期165-169,共5页
基金
陕西省职业技术教育学会2021年度规划课题(2021SZXGH12)
中国高等教育学会职业技术教育分会2020年度课题(GZYYB202081)。
文摘
做好高校舆情分析与预警具有重要的社会意义,针对传统的网络舆情分析方法依靠人工筛选,费时费力、准确度低且无法进行海量数据分析的问题,基于自然语言处理算法,构建了一种舆情监测预警模型。该模型通过TF-IDF算法对文本特征进行提取,使用基于径向量函数的神经网络模型对数据进行训练,实现舆情分析与预警的功能。数值实验测试结果表明,文中所构建算法模型的精确度指标和效率相较其他对比算法均有明显提高,证明了该算法模型可以对网络舆论进行有效的监测和预警。
关键词
舆情监测
TF-IDF算法
RFB神经网络
Scrapy爬虫框架
自然语言处理
深度学习
Keywords
public opinion monitoring
TF-IDF
algorithm
RFB neural
network
Scrapy
crawler
frame
natural language processing
deep learning
分类号
TN99 [电子电信—信号与信息处理]
在线阅读
下载PDF
职称材料
题名
基于HMM的主题爬虫问题研究
5
作者
曹琨
机构
新乡学院计算机与信息工程学院
出处
《河南科技》
2016年第17期27-28,共2页
文摘
对HMM爬虫中K-means算法的K值选取方法作出相应改进,然后针对爬取网页的内容与主题相关度不高的问题,对隐马尔科夫模型的假设条件进行修改,完成改进后的隐马尔科夫爬虫设计。
关键词
网络爬虫
算法
改进
Keywords
network
crawler
algorithm
improvement
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
网络爬虫的专题机构数据空间信息采集方法
被引量:
13
6
作者
杨宇
孙亚琴
闫志刚
机构
中国矿业大学环境与测绘学院
出处
《测绘科学》
CSCD
北大核心
2019年第7期122-127,140,共7页
基金
国家自然科学基金青年科学基金项目(41301433)
中央高校基本科研业务费专项(2017XKQY019)
文摘
针对海量专题机构数据空间信息和属性信息缺失的问题,该文使用专题机构信息网站作为信息源,以深度优先策略网络爬虫作为信息获取方法,提出了一种基于网络爬虫框架的专题机构数据空间信息采集方法。在网络爬虫方法关键功能模块中,设计了一种基于词元的字符串相似度矩阵算法来提高机构检索列表匹配准确度,并提出了一种基于决策树模式的行政区划信息识别和抽取算法用以实现地址字符串中行政区划的准确识别和提取。通过具体实现和实验测试,证明该方法能有效地实现专题机构数据空间信息和属性信息的采集,并具有较高的时间效率和准确率,可作为机构数据空间信息采集的一种有效方法。
关键词
泛在网络
空间信息采集
网络爬虫
矩阵算法
决策树
Keywords
ubiquitous
network
spatial information acquisition
Web
crawler
matrix
algorithm
decision tree
分类号
TP391 [自动化与计算机技术—计算机应用技术]
原文传递
题名
重要Tor暗网站点的验证码快速识别和数据采集
被引量:
4
7
作者
龙军
王轶骏
薛质
机构
上海交通大学电子信息与电气工程学院
出处
《计算机应用与软件》
北大核心
2022年第7期315-321,共7页
基金
国家重点研发计划项目“网络空间安全”重点专项(2016QY01W0202)。
文摘
针对面向Tor暗网的数据采集和信息监控的任务,为了解决爬取重要Web站点中所遇到的验证码自动识别这个技术难点,设计一套结合CNN网络、GRU网络和ctc loss的快速识别模型,并将其应用到Tor暗网站点的数据采集系统中去。一段时间的实际运行结果充分证明了该Tor暗网数据采集系统能够快速、准确地识别重要Tor暗网站点的验证码,自动绕过检验机制后爬取并存储站点的数据信息,从而有力支撑了暗网数据提炼、分析和挖掘的后续工作。
关键词
Tor暗网
CNN网络
GRU网络
ctc
loss算法
Scrapy爬虫
Keywords
Tor dark web
CNN
network
GRU
network
Ctc loss
algorithm
Scrapy
crawler
分类号
TP3 [自动化与计算机技术—计算机科学与技术]
在线阅读
下载PDF
职称材料
题名
基于爬虫技术与智能算法的网络舆情监测
被引量:
3
8
作者
雍龙泉
贾伟
张建科
机构
陕西理工大学数学与计算机科学学院
陕西省工业自动化重点实验室
西安邮电大学理学院
出处
《智能计算机与应用》
2021年第4期35-38,共4页
基金
国家自然科学基金(11401357)
陕西省教育厅重点科学研究计划项目(20JS021)
+2 种基金
陕西理工大学科研项目(SLGYQZX2002)
陕西理工大学教学改革研究项目(SLGYJG2015)
陕西省重点研发计划项目(2021SF-480)
文摘
采用网络爬虫技术从百度指数获取某一"热门事件"的数据,并对这些数据进行预处理,进而建立网络舆情的Logistic微分方程模型。结合已有数据,采用智能算法确定微分方程解中的3个关键参数;最后应用于网络舆情预测。
关键词
网络舆情
爬虫技术
百度指数
Logistic微分方程模型
智能算法
Keywords
network
public opinion
crawler
technology
Baidu Index
Logistic differential equation model
intelligent
algorithm
分类号
G206 [文化科学—传播学]
C912 [经济管理]
在线阅读
下载PDF
职称材料
题名
基于网络爬虫的电力故障信息检索引擎设计
被引量:
2
9
作者
杨峰
林钰杰
吴丽贤
机构
广东电网有限责任公司佛山供电局
出处
《微型电脑应用》
2019年第8期87-90,共4页
文摘
针对当前电力故障信息搜索的低效问题,结合计算机信息技术,提出一种基于网络爬虫的检索引擎。为实现该引擎,先对网络爬虫的原理进行了分析,同时为提高网络爬虫抓取的准确度,在URL提取后,引入KMP算法对故障信息字符进行匹配,以提高匹配的效率和准确度。在完成上述的抓取后,通过JSOUP完成对信息的解析,得到目标网页链接。为验证上述方案,通过ETL完成数据库搭建,并采用Eclipse3.1+My SQL5.0+Tomcat5.5完成对引擎平台的开发。最后通过配网台账抽取,验证了本方案的可行性。
关键词
网络爬虫
改进KMP算法
故障信息
Keywords
network
crawler
Improved KMP
algorithm
Fault information
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
赌博网站自动识别技术研究
被引量:
1
10
作者
杨哲
陈应虎
机构
国家计算机网络与信息安全管理中心云南分中心
出处
《信息安全研究》
CSCD
2023年第5期440-445,共6页
文摘
网络赌博存在严重的信息安全风险,有效发现判定赌博网站对维护国家金融稳定有着十分重要的意义.针对赌博网站发现困难的问题,提出一种赌博网站自动识别技术方案,该方案根据云平台的AS信息获取其拥有的IP网段,遍历IP反向解析域名后进行分布式爬取以获得网站截图.针对赌博网站判定困难的问题(例如有的赌博网站仅是一幅包含赌博APP下载链接的图片),方案利用dHash算法对正样本进行清洗,训练卷积神经网络(CNN)进行网站二分类.实验结果表明方案泛化能力较强、人工参与少,可在一定程度上解决赌博网站发现、识别方面存在的问题.
关键词
网络赌博
卷积神经网络(CNN)
dHash算法
分布式爬虫
云平台
自动识别
Keywords
online gambling
convolutional neural
network
dHash
algorithm
distributed
crawler
cloud platform
automatic recognition
分类号
TP183 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
基于python的分布式网络反爬虫数据有序性研究
被引量:
4
11
作者
朱镕申
孙川钘
潘虹
机构
电子科技大学成都学院
出处
《计算机仿真》
北大核心
2023年第5期426-429,447,共5页
基金
分布式数据库隐私信息增量式更新方法仿真(2017ZY0725)。
文摘
爬虫产生的负面影响导致网站无法正常访问、运行,故反爬虫技术应运而生,针对反爬虫数据存在的无序性问题,提出面向分布式网络反爬虫数据有序性研究,降低数据后续处理难度。基于python语言及其Scrapy结构,架构分步式网络反爬虫模型,采取人为纠错、主成分分析线性降维以及数据转换等预处理手段,获取特征清晰的反爬虫数据集;根据反爬虫数据样本集与训练集的合并集,结合有向图,利用k最邻近分类算法划分反爬虫数据类别,针对分布式网络反爬虫数据的无序性,设计比特序列递推算法,赋予反爬虫数据有序性。仿真阶段中,经对比百度图片与反爬取到的图片顺序,验证所提方法的有效性,通过探索带宽环境对数据有序性的影响可知,其有序性不受带宽环境影响。
关键词
分布式网络
反爬虫数据
有序性
分类算法
Keywords
Distributed
network
Anti-
crawler
data
Order
Nearest neighbor classification
algorithm
分类号
TP399 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于知识图谱的恶意软件信息检测方法研究
被引量:
2
12
作者
桑道松
机构
黄山开放大学
出处
《九江学院学报(自然科学版)》
CAS
2024年第3期79-84,共6页
基金
安徽省高等学校省级质量工程项目教学研究项目(编号2021jyxm0309)的研究成果之一。
文摘
互联网的发展导致恶意软件信息类型种类繁多,为检测获取更深层次的恶意软件信息,研究基于知识图谱的恶意软件信息检测方法,提升恶意软件信息检测效果。利用文本挖掘技术中的Python网络爬虫技术,采集软件有效信息;通过信息增益算法,在采集的软件有效信息内,提取软件信息特征;在双向长短期记忆神经网络内输入软件信息特征,输出软件信息实体识别结果,并抽取软件信息实体间的关系;依据实体消岐技术,对抽取的软件信息实体关系进行知识融合,得到软件信息知识图谱;利用图推理算法,处理软件信息知识图谱,得到恶意软件信息检测结果。实验证明:该方法可有效采集软件有效信息,并提取软件信息特征,建立软件信息知识图谱;该方法可有效检测恶意软件信息,且检测精度较高。
关键词
知识图谱
恶意软件
信息检测
Python网络爬虫
神经网络
图推理算法
Keywords
knowledge graph
malicious software
information detection
python web
crawler
neural
network
s
graph inference
algorithm
分类号
TP393 [自动化与计算机技术—计算机应用技术]
TP391.41 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于大数据技术与网络爬虫的创新创业竞赛服务
被引量:
3
13
作者
李阳阳
机构
西安明德理工学院
出处
《自动化与仪器仪表》
2022年第10期150-154,共5页
基金
陕西省高等教育学会2021年高等教育科学研究项目《新时代创新创业教育体系构建研究》(XGH21020)
西安明德理工学院2021年度教学改革研究项目《中华优秀传统文化教育融入《网络营销》课堂教育教学研究与实践》(JG2021ZD07)。
文摘
针对传统创新创业竞赛服务数据采集效率低下,信息过于分散,导致信息质量差的问题,设计一个基于大数据技术与主题网络爬虫技术的创新创业竞赛服务系统。系统主要分为数据采集、消息订阅、智能推荐和大数据存储功能模块。首先采用主题网络爬虫方法进行信息爬取;然后采用大数据技术的向量空间模型VSM算法和改进协同过滤推荐算法对采集数据进行过滤清洗和智能推荐,以此实现各个功能模块的设计。实验结果表明,提出的主题网络爬虫方法对不同信息的平均采集速度均保持在8.6 ms上下,系统数据采集效率显著提升。提出的VSM算法对数据处理后的平均相似度取值为0.833,十分接近标准值0.75,说明本系统提升了数据采集质量。由此可知,设计的系统满足创新创业竞赛服务需求,具有一定的可行性。
关键词
创新创业竞赛
大数据技术
网络爬虫
向量空间模型
协同过滤推荐算法
Keywords
innovation and entrepreneurship competition
big data technology
network
crawler
vector space model
collaborative filtering recommendation
algorithm
分类号
TP392 [自动化与计算机技术—计算机应用技术]
原文传递
题名
作者
出处
发文年
被引量
操作
1
基于URL定位信息的BBS数据挖掘方法研究
赵哲
马晓珺
《科技通报》
北大核心
2014
2
在线阅读
下载PDF
职称材料
2
基于路由注入的快速DHT网络资源发现方法
耿焕同
陈华
李辉健
《计算机工程与设计》
北大核心
2016
1
在线阅读
下载PDF
职称材料
3
基于蚁群算法的无线通信网络安全漏洞检测方法
李梅
朱明宇
《计算机测量与控制》
2022
9
在线阅读
下载PDF
职称材料
4
基于自然语言处理与智能语义识别的舆情监测预警模型研究
张君第
《电子设计工程》
2022
7
在线阅读
下载PDF
职称材料
5
基于HMM的主题爬虫问题研究
曹琨
《河南科技》
2016
0
在线阅读
下载PDF
职称材料
6
网络爬虫的专题机构数据空间信息采集方法
杨宇
孙亚琴
闫志刚
《测绘科学》
CSCD
北大核心
2019
13
原文传递
7
重要Tor暗网站点的验证码快速识别和数据采集
龙军
王轶骏
薛质
《计算机应用与软件》
北大核心
2022
4
在线阅读
下载PDF
职称材料
8
基于爬虫技术与智能算法的网络舆情监测
雍龙泉
贾伟
张建科
《智能计算机与应用》
2021
3
在线阅读
下载PDF
职称材料
9
基于网络爬虫的电力故障信息检索引擎设计
杨峰
林钰杰
吴丽贤
《微型电脑应用》
2019
2
在线阅读
下载PDF
职称材料
10
赌博网站自动识别技术研究
杨哲
陈应虎
《信息安全研究》
CSCD
2023
1
在线阅读
下载PDF
职称材料
11
基于python的分布式网络反爬虫数据有序性研究
朱镕申
孙川钘
潘虹
《计算机仿真》
北大核心
2023
4
在线阅读
下载PDF
职称材料
12
基于知识图谱的恶意软件信息检测方法研究
桑道松
《九江学院学报(自然科学版)》
CAS
2024
2
在线阅读
下载PDF
职称材料
13
基于大数据技术与网络爬虫的创新创业竞赛服务
李阳阳
《自动化与仪器仪表》
2022
3
原文传递
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部