期刊文献+
共找到40篇文章
< 1 2 >
每页显示 20 50 100
网页向量化表示:一种优化网络爬虫质量的方法
1
作者 武强 官却多杰 周庆国 《计算机应用与软件》 北大核心 2025年第6期350-355,共6页
搜索引擎的性能一定程度上依赖网络爬虫(网络内容获取)的能力。受到深度学习向量化表示和卷积神经网络技术启发,关注计算机对于信息(自然语言和图片)理解与信息的关联性,提出网页向量表示(Page2Vec)算法,并基于Page2Vec算法构建爬虫-过... 搜索引擎的性能一定程度上依赖网络爬虫(网络内容获取)的能力。受到深度学习向量化表示和卷积神经网络技术启发,关注计算机对于信息(自然语言和图片)理解与信息的关联性,提出网页向量表示(Page2Vec)算法,并基于Page2Vec算法构建爬虫-过滤(Crawler-Filter)算法。实验表明:Crawler-Filter算法在网络爬虫过程中,能够在覆盖合理的内容的同时绕过低质量或无关内容。 展开更多
关键词 搜索引擎 网络爬虫 网页向量表示算法 爬虫过滤算法
在线阅读 下载PDF
基于协同过滤算法的电影推荐系统设计与实现
2
作者 邢艳芳 《信息技术》 2025年第5期9-14,共6页
电影作为海量信息的一个重要载体,存在信息过载问题,因此将推荐算法应用于电影推荐具有重大意义。文中主要研究基于协同过滤算法的电影推荐系统,该系统主要由三部分组成,包括前台的电影界面展示、系统的推荐算法以及后台数据集;首先,该... 电影作为海量信息的一个重要载体,存在信息过载问题,因此将推荐算法应用于电影推荐具有重大意义。文中主要研究基于协同过滤算法的电影推荐系统,该系统主要由三部分组成,包括前台的电影界面展示、系统的推荐算法以及后台数据集;首先,该系统通过网络爬虫爬取与电影相关的数据;其次,通过协同过滤算法过滤出用户感兴趣的电影;最后,通过图形用户界面进行数据交互,针对数据集中的用户推荐数据集中的相关电影,系统最终的运行结果与预期呈现的结果基本一致。 展开更多
关键词 推荐系统 协同过滤算法 爬虫 图形用户界面 电影数据
在线阅读 下载PDF
基于知识图谱的通信网络链路数据安全保护方法 被引量:1
3
作者 赵雪琴 《长江信息通信》 2024年第10期66-68,共3页
链路数据安全保护是通信网络防御机制中重要组成部分,采用计算机技术对链路数据进行保护,保证链路数据的完整性和安全性,但目前通信网络攻击和入侵种类较多,频次较高,链路数据安全保护具有较高的难度,现实中保护效果并不理想,丢包率和... 链路数据安全保护是通信网络防御机制中重要组成部分,采用计算机技术对链路数据进行保护,保证链路数据的完整性和安全性,但目前通信网络攻击和入侵种类较多,频次较高,链路数据安全保护具有较高的难度,现实中保护效果并不理想,丢包率和误码率均比较高,无法达到预期的保护效果,为此提出基于知识图谱的通信网络链路数据安全保护方法。采用网络爬虫对通信网络数据获取,并利用Bloom-Filter算法对数据进行过滤,通过关系筛选和抽取,建立链路数据安全知识图谱,利用知识图谱识别通信网络攻击与入侵行为,通过对攻击与入侵拦截,实现基于知识图谱的通信网络链路数据安全保护。经实验证明,设计方法应用下通信网络链路丢包率和误码率均在1%以下,在通信网络链路数据安全保护方面具有良好的应用前景。 展开更多
关键词 知识图谱 通信网络 链路数据 安全保护 网络爬虫 Bloom-Filter算法
在线阅读 下载PDF
基于机器视觉的履带运输车智能视频监控报警方法研究 被引量:4
4
作者 吴希凡 李贺龙 +3 位作者 王辉 郭建婷 周宏宇 陈洪生 《智能建筑与智慧城市》 2024年第7期25-27,共3页
为发挥履带运输车更高的效能与价值,引进机器视觉,开展履带运输车智能视频监控报警方法的设计研究。根据运输车的现场作业环境与工作需求,进行CCD工业相机的选型,确定需要采集的视频数据,设计基于机器视觉的履带运输车进行视频智能采集... 为发挥履带运输车更高的效能与价值,引进机器视觉,开展履带运输车智能视频监控报警方法的设计研究。根据运输车的现场作业环境与工作需求,进行CCD工业相机的选型,确定需要采集的视频数据,设计基于机器视觉的履带运输车进行视频智能采集;利用集成机器视觉后履带运输车智能视频分析模块,进行监控视频干扰信息过滤处理;引进边缘算子,自动识别视频中的关键信息,以此辨识不同物体,实现视频源中价值信息的提取与事故现场定位、预警。实例应用实验结果表明:在实际应用中,设计的方法可以满足运输车智能视频监控报警需求,且报警具有较强的即时性。 展开更多
关键词 机器视觉 智能视频 监控 过滤处理 报警方法 履带运输车
在线阅读 下载PDF
基于改进鱼群算法的履带式收割机路径跟踪
5
作者 王芳 张伟 +1 位作者 申珂 刘中峰 《山西农业大学学报(自然科学版)》 CAS 北大核心 2024年第4期109-117,共9页
[目的]农田环境的复杂性对履带式收割机的路径跟踪精度提出了严峻挑战。为了提升收割机在农田作业中的路径跟踪性能,减少跟踪偏差,本研究提出了一种基于改进鱼群算法的履带式收割机全田块路径跟踪方法。[方法]根据履带式收割机的结构特... [目的]农田环境的复杂性对履带式收割机的路径跟踪精度提出了严峻挑战。为了提升收割机在农田作业中的路径跟踪性能,减少跟踪偏差,本研究提出了一种基于改进鱼群算法的履带式收割机全田块路径跟踪方法。[方法]根据履带式收割机的结构特性,将其作业过程简化为二维平面上的运动形式。通过结合全局与局部坐标系的转换,构建了收割机运动轨迹的数学模型,并进一步建立了相邻时刻履带式收割机全田块作业的运动模型。随后,根据不同作业状态,以收割机的前视距离作为关键参数,确定增益系数,从而获取其实时控制变量。为优化路径跟踪效果,引入了粒子滤波算法对鱼群算法进行改进,并以此构建了目标函数。在目标求解过程中,通过算法的不断迭代和优化,实现了收割机路径的精准跟踪。[结果]经过多次试验验证,在设定不同起始偏差点的情况下,本文提出的方法表现出了良好的跟踪性能。应用本文方法后,作业路径跟踪平均响应时间为0.52 s,最小转弯半径为5.0 m,平均偏差0.8 m,最小偏差0.5 m,与设定路线基本一致。这一结果充分证明了本文设计方法的有效性。[结论]综上所述,本文提出的基于改进鱼群算法的履带式收割机全田块路径跟踪方法,能够准确实现收割机在复杂农田环境中的精准跟踪,跟踪效果好,具有广泛的应用价值。 展开更多
关键词 粒子滤波 鱼群算法 履带式收割机 路径跟踪 农田作业
在线阅读 下载PDF
基于本体语义的定题爬虫 被引量:11
6
作者 郑健珍 林坤辉 +1 位作者 周昌乐 康恺 《山东大学学报(理学版)》 CAS CSCD 北大核心 2006年第3期106-110,共5页
定题爬虫能迅速获取网络上特定主题的大量信息,对专业搜索引擎及数据挖掘应用都具有重大价值.针对目前通用的基于关键词主题过滤策略的不足,在概念聚集思想启发下,提出了基于本体语义的主题过滤策略.同时根据网页具有不同位置不同信息... 定题爬虫能迅速获取网络上特定主题的大量信息,对专业搜索引擎及数据挖掘应用都具有重大价值.针对目前通用的基于关键词主题过滤策略的不足,在概念聚集思想启发下,提出了基于本体语义的主题过滤策略.同时根据网页具有不同位置不同信息重要性的特点,提出了改进的加权特征项权值计算公式,实现基于语义的网页实时过滤.为进一步提高爬虫的工作效率提出链接相关度预测算法.对比实验表明此策略具有可行性. 展开更多
关键词 定题爬虫 主题过滤 本体语义 链接分析
在线阅读 下载PDF
基于分层结构保留的增量网络爬虫算法 被引量:3
7
作者 胡廉民 张泽斌 +2 位作者 徐威迪 黄翰 李英 《计算机应用研究》 CSCD 北大核心 2013年第8期2381-2385,共5页
为了提高目前爬虫算法抓取结果的有效性,提出了一种旨在获取有效信息的改进网络爬虫算法,主要设计了信息的分层结构保留策略和URL过滤模式。在改进算法中,网络资源定位符被分层存储,在保留信息全部拓扑关系的基础上,将交错复杂的URL网... 为了提高目前爬虫算法抓取结果的有效性,提出了一种旨在获取有效信息的改进网络爬虫算法,主要设计了信息的分层结构保留策略和URL过滤模式。在改进算法中,网络资源定位符被分层存储,在保留信息全部拓扑关系的基础上,将交错复杂的URL网络系统从一个图结构变为一个层次分明的树结构。在执行结构模式下,实现了增量爬虫算法。仿真实验以实际网站的BBS为测试数据,结果表明,改进算法比现有网络爬虫算法在爬行速度、下载效率与信息有效性等方面有较大的优势。因此,分层结构策略与URL过滤模式可以在增加少量计算时间的前提下极大提高爬虫抓取页面的有效性。 展开更多
关键词 网络爬虫 URL过滤器 层次结构保存 频率模型
在线阅读 下载PDF
基于动态污点传播模型的DOM XSS漏洞检测 被引量:5
8
作者 贾文超 汪永益 +1 位作者 施凡 常超 《计算机应用研究》 CSCD 北大核心 2014年第7期2119-2122,2126,共5页
由于存在恶意代码不回显等特点,DOM XSS漏洞(DOM型跨站脚本漏洞)隐蔽性较强,利用传统的特征匹配的方法无法检测。分析DOM XSS漏洞的形成原理,提出一种基于动态污点传播模型的DOM XSS漏洞检测算法,重点研究污点引入和污点检查,利用混合... 由于存在恶意代码不回显等特点,DOM XSS漏洞(DOM型跨站脚本漏洞)隐蔽性较强,利用传统的特征匹配的方法无法检测。分析DOM XSS漏洞的形成原理,提出一种基于动态污点传播模型的DOM XSS漏洞检测算法,重点研究污点引入和污点检查,利用混合驱动爬虫实现自动化检测,采用函数劫持等方法检测污点数据的执行,并设计实现了原型系统DOM-XSScaner。在实验环境中与现有工具进行对比实验,实验数据显示原型系统提高了检测未过滤DOM XSS漏洞的准确率、召回率和效率,证明提出的算法能对DOM XSS漏洞进行有效检测。 展开更多
关键词 DOM XSS 动态污点传播 混合驱动爬虫 函数劫持 包过滤
在线阅读 下载PDF
网络竞争情报主题采集技术研究 被引量:5
9
作者 田雪筠 《图书与情报》 CSSCI 北大核心 2014年第5期132-137,共6页
文章设计与实现了一种网络竞争情报的主题采集系统。该系统在进行主题预测时采用的基于改进的朴素贝叶斯算法提高了主题判断准确率,在进行链接预测时采用的基于规则与锚文本主题相似度结合的算法,避免了URL锚文本较短和噪声的问题。与... 文章设计与实现了一种网络竞争情报的主题采集系统。该系统在进行主题预测时采用的基于改进的朴素贝叶斯算法提高了主题判断准确率,在进行链接预测时采用的基于规则与锚文本主题相似度结合的算法,避免了URL锚文本较短和噪声的问题。与宽度优先的采集技术相比,通过实验验证该方法具有明显的优越性。 展开更多
关键词 竞争情报 主题爬虫 链接过滤 主题过滤
在线阅读 下载PDF
基于概率模型的主题爬虫的研究和实现 被引量:7
10
作者 白玉昭 梁久祯 《计算机工程与科学》 CSCD 北大核心 2013年第1期160-165,共6页
在现有多种主题爬虫的基础上,提出了一种基于概率模型的主题爬虫。它综合抓取过程中获得的多方面的特征信息来进行分析,并运用概率模型计算每个URL的优先值,从而对URL进行过滤和排序。基于概率模型的主题爬虫解决了大多数爬虫抓取策略... 在现有多种主题爬虫的基础上,提出了一种基于概率模型的主题爬虫。它综合抓取过程中获得的多方面的特征信息来进行分析,并运用概率模型计算每个URL的优先值,从而对URL进行过滤和排序。基于概率模型的主题爬虫解决了大多数爬虫抓取策略单一这个缺陷,它与以往主题爬虫的不同之处是除了使用主题相关度评价指标外,还使用了历史评价指标和网页质量评价指标,较好地解决了"主题漂移"和"隧道穿越"问题,同时保证了资源的质量。最后通过多组实验验证了其在主题网页召回率和平均主题相关度上的优越性。 展开更多
关键词 主题爬虫 概率模型 URL过滤 URL排序 优先值
在线阅读 下载PDF
基于Python爬虫技术的虚假数据溯源与过滤 被引量:8
11
作者 陈丛 周力臻 《计算机仿真》 北大核心 2021年第3期346-350,共5页
针对现有网络虚假数据追踪与过滤方法中存在的追踪定位精度低、过滤覆盖范围小的问题,提出基于Python爬虫技术的虚假数据溯源与途中过滤。将虚假数据覆盖的网络划分为相同大小的网格,根据一定概率标记数据包;分析Python爬虫抓取过程,以... 针对现有网络虚假数据追踪与过滤方法中存在的追踪定位精度低、过滤覆盖范围小的问题,提出基于Python爬虫技术的虚假数据溯源与途中过滤。将虚假数据覆盖的网络划分为相同大小的网格,根据一定概率标记数据包;分析Python爬虫抓取过程,以适用多场景、界面可视化、负载均衡为系统设计目标,设计爬虫管理器、采集器与内嵌浏览器硬件设备;结合系统爬取数据流程描述各软件模块的协作方式;在系统中部署节点,建立协作关系区域,利用布隆过滤器生成数据包,通过共享密钥证明MAC是否合法,启动溯源过程;在溯源途中若节点不存在任何一个密钥,则将其过滤,完成虚假数据溯源与途中过滤。仿真结果证明,上述方对虚假数据的过滤效果较高,且对虚假数据溯源定位精度较高。 展开更多
关键词 爬虫技术 虚假数据 途中过滤 共享密钥 负载均衡
在线阅读 下载PDF
基于Python爬虫技术的虚假数据溯源与途中过滤分析 被引量:2
12
作者 王景 《河南科技》 2021年第22期27-30,共4页
面对不同网络系统场景下存在虚假数据溯源精度低、过滤执行范围小等问题,提出利用Python爬虫技术的虚假数据处理方案,将虚假数据覆盖的网络空间划分为多个网格,在网格系统中布置多个节点,利用爬虫管理器、采集器等软件,对网页、应用程... 面对不同网络系统场景下存在虚假数据溯源精度低、过滤执行范围小等问题,提出利用Python爬虫技术的虚假数据处理方案,将虚假数据覆盖的网络空间划分为多个网格,在网格系统中布置多个节点,利用爬虫管理器、采集器等软件,对网页、应用程序界面的数据进行Python爬虫抓取,标记抓取到的数据包,再使用共享密钥对sink网关节点获得的数据包做出其消息认证码(Message Authentication Code,MAC)地址是否合法的判断,若不合法则启动虚假数溯源,过滤掉无用的密钥节点。 展开更多
关键词 Python爬虫技术 虚假数据 溯源 途中过滤分析
在线阅读 下载PDF
基于Heritrix的网络爬虫研究与应用 被引量:4
13
作者 刘高军 夏景隆 《软件导刊》 2013年第5期123-125,共3页
主要介绍了主题搜索引擎、网络爬虫的基本概念和Heritrix系统的体系结构,分析了Heritrix的工作流程,在Heritrix框架的基础上进行扩展和优化。通过一个实例,实现了对京东网图书信息的抓取,为建立面向图书信息的垂直搜索引擎提供了网页信... 主要介绍了主题搜索引擎、网络爬虫的基本概念和Heritrix系统的体系结构,分析了Heritrix的工作流程,在Heritrix框架的基础上进行扩展和优化。通过一个实例,实现了对京东网图书信息的抓取,为建立面向图书信息的垂直搜索引擎提供了网页信息资源。 展开更多
关键词 网络爬虫 主题搜索引擎 HERITRIX URL地址去重 BKDRHash算法
在线阅读 下载PDF
基于高斯混合模型的履带拖拉机转弯半径控制方法 被引量:7
14
作者 王猛 赵博 +3 位作者 王长伟 李宏伟 刘阳春 方宪法 《农业机械学报》 EI CAS CSCD 北大核心 2020年第S01期557-563,共7页
履带拖拉机采用差速转向,转向可控性差,影响自动导航性能,为提高履带拖拉机自动导航的性能,以液压传动控制行星差速转向履带拖拉机为研究对象,建立履带拖拉机转弯半径数学模型。构建每个控制量下转弯半径均值和方差计算方法,建立基于卡... 履带拖拉机采用差速转向,转向可控性差,影响自动导航性能,为提高履带拖拉机自动导航的性能,以液压传动控制行星差速转向履带拖拉机为研究对象,建立履带拖拉机转弯半径数学模型。构建每个控制量下转弯半径均值和方差计算方法,建立基于卡尔曼滤波和局部加权回归的转弯半径均值和方差更新方法。分别针对直线路径跟踪和掉头建立基于高斯混合模型的履带拖拉机转弯半径控制方法。采用纯跟踪算法分别以不同的初始位置偏差进行自动导航仿真试验,得到导航轨迹、位置偏差和角度偏差。以农夫NF702型履带拖拉机为平台,分别以不同车速进行导航试验,试验结果表明,在初始航向角为0,车速分别为1.0、1.5 m/s时,导航平均误差分别为-0.62 cm和0.28 cm,导航误差绝对值极值分别为10.14 cm和8.10 cm,导航误差绝对值均值分别为2.34 cm和2.57 cm,导航均方根误差分别为3.77 cm和3.99 cm。本文提出的基于高斯混合模型的履带拖拉机转弯半径控制方法可应用到液压传动控制行星差速转向履带拖拉机自动导航领域,满足实际田间作业需求。 展开更多
关键词 履带拖拉机 自动导航 高斯混合模型 转弯半径 卡尔曼滤波
在线阅读 下载PDF
基于统计模型的主题爬虫的研究与实现 被引量:3
15
作者 金明珠 丁岳伟 《计算机工程与设计》 CSCD 北大核心 2010年第16期3700-3704,共5页
在研究了现存的主题爬虫的基础上,提出了一种基于统计模型的主题爬虫,它对抓取过程中可获得的信息进行分析,并运用统计模型计算的结果过滤URL,有效地解决了偏好特定主题的用户检索和Web信息的索引等相关问题。实验结果表明,与基于链接... 在研究了现存的主题爬虫的基础上,提出了一种基于统计模型的主题爬虫,它对抓取过程中可获得的信息进行分析,并运用统计模型计算的结果过滤URL,有效地解决了偏好特定主题的用户检索和Web信息的索引等相关问题。实验结果表明,与基于链接和网页内容分析的主题爬虫相比,该主题爬虫能够在检索较少的网页时,抓取到较多的与主题相关的网页,提高了抓取精度。 展开更多
关键词 统计模型 主题爬虫 URL过滤 特征信息 字段
在线阅读 下载PDF
基于用户群的智能主题爬虫 被引量:3
16
作者 赵燕 陈晓云 +1 位作者 莫明辉 汤勇 《广西师范大学学报(自然科学版)》 CAS 北大核心 2007年第2期230-233,共4页
提出一个基于用户群的智能主题爬虫系统CITC。它首先对用户群日志进行挖掘,得到相应的知识库。在知识库的指导下,CITC采用多重选择策略,对网页进行选择性爬取。实验结果表明,此系统能够基于用户群兴趣有效地抓取目的网页。
关键词 用户群 网页对偶筛选 知识库 主题爬虫 相关度
在线阅读 下载PDF
基于动态主题库的主题爬虫 被引量:4
17
作者 金明珠 丁岳伟 《计算机应用》 CSCD 北大核心 2009年第B12期44-46,共3页
通过对基于不同策略过滤URL的主题爬虫的研究,提出了一种基于动态主题库的主题爬虫。它能够在运行期间实时地更新主题库,提高了对URL过滤的准确度。实验表明,所提的主题爬虫能够在相对较少的时间中,检索尽量少的网络空间,抓取到较多与... 通过对基于不同策略过滤URL的主题爬虫的研究,提出了一种基于动态主题库的主题爬虫。它能够在运行期间实时地更新主题库,提高了对URL过滤的准确度。实验表明,所提的主题爬虫能够在相对较少的时间中,检索尽量少的网络空间,抓取到较多与主题相关的网页。 展开更多
关键词 主题爬虫 动态主题库 URL过滤 主题相关度 未知字段
在线阅读 下载PDF
基于Larbin的网络爬虫体系结构的研究与改进 被引量:2
18
作者 李跃健 朱程荣 《计算机技术与发展》 2012年第7期147-150,170,共5页
Larbin是一种开源的网络爬虫/网络蜘蛛,抓取效率极高。它的url去重方法的设计,效率极高,占用的内存非常小,理论上下载6400万网页,使用的内存只有8M,然而它的冲突将会对它的性能大打折扣,实际上当达到10%的url时就已经有很大的冲突概率,... Larbin是一种开源的网络爬虫/网络蜘蛛,抓取效率极高。它的url去重方法的设计,效率极高,占用的内存非常小,理论上下载6400万网页,使用的内存只有8M,然而它的冲突将会对它的性能大打折扣,实际上当达到10%的url时就已经有很大的冲突概率,导致内存利用率的降低以及很多网页不能被抓取。通过研究布隆过滤器,将url的hash算法进行改进,把原本一对一的映射变成多对一的映射,减小了冲突概率,同时也将大大地提高Larbin在url内存方面的利用率。经过实验检验,使用布隆过滤器,同样8M内存,当达到10%的url占有率时,采用7个映射,可以使得冲突概率最小,达到0.82%,而没采用Bloom filter的冲突概率则达到了10%。 展开更多
关键词 Larbin 爬虫 哈希算法 url去重 布隆过滤器
在线阅读 下载PDF
基于农业领域的网络爬虫 被引量:1
19
作者 吴菊英 贾炅昊 冯秀芳 《电脑开发与应用》 2012年第8期30-32,共3页
以农业环境为背景,在搜索引擎基础而又非常重要的部分——网络爬虫的基础上,提出了改进的爬虫设计,其中采用了主题相关性判断和网页选择器筛选的方法,并且通过建立对应的农产品词库,结果表明在农业领域的搜索相关性上有大幅度的提高。
关键词 网络爬虫 URL过滤 农业搜索 主题相关性 聚焦模型
在线阅读 下载PDF
浅谈布隆过滤器在内容管理系统中的应用 被引量:1
20
作者 单劼 王纯 《软件》 2016年第1期28-31,43,共5页
内容管理系统的内容采集主要由爬虫进行搜集,但内容重复与否绝大多数情况下是根据内容所在的页面URI进行判定。作为一个完善的内容管理系统,必须具备对已有内容资源的识别功能。本文通过介绍布隆过滤器,并与传统的判重方式进行对比,同... 内容管理系统的内容采集主要由爬虫进行搜集,但内容重复与否绝大多数情况下是根据内容所在的页面URI进行判定。作为一个完善的内容管理系统,必须具备对已有内容资源的识别功能。本文通过介绍布隆过滤器,并与传统的判重方式进行对比,同时改进布隆过滤器并应用于内容管理系统的资源判重的功能中,解决了内存占用无限增加,查询时间不断增长,记录内容无法删除等问题,实现了高效快速的资源判重。 展开更多
关键词 计算机工程 布隆过滤器 内容管理系统 爬虫 哈希
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部