期刊文献+
共找到42篇文章
< 1 2 3 >
每页显示 20 50 100
一种基于并行Bloom Filter的高速URL查找算法 被引量:7
1
作者 周舟 付文亮 +1 位作者 嵩天 刘庆云 《电子学报》 EI CAS CSCD 北大核心 2015年第9期1833-1840,共8页
URL查找是众多网络系统中重要的组成部分,如URL过滤系统、Web缓存等.随着互联网的迅速发展,URL查找面临的主要挑战是实现大规模URL集合下的高速查找,同时保证低存储和低功耗.本文提出了一种基于并行Bloom Filter的URL查找算法,CaBF.该... URL查找是众多网络系统中重要的组成部分,如URL过滤系统、Web缓存等.随着互联网的迅速发展,URL查找面临的主要挑战是实现大规模URL集合下的高速查找,同时保证低存储和低功耗.本文提出了一种基于并行Bloom Filter的URL查找算法,CaBF.该算法高度并行化,提供大规模URL集合下的高速最长前缀匹配,并很好地适应集合中不同数量的URL组件.理论分析和真实网络数据集上的实验表明,该算法相比现有算法可以降低假阳性概率达一个数量级(或者在满足相同假阳性概率的前提下降低存储和硬件逻辑资源消耗).此外,该方法的体系结构很容易映射到FPGA等硬件器件上,提供每秒超过150M次的URL查找速度. 展开更多
关键词 url查找 布鲁姆过滤器 最长前缀匹配 现场可编程门阵列
在线阅读 下载PDF
一种面向大规模URL过滤的多模式串匹配算法 被引量:14
2
作者 刘燕兵 邵妍 +2 位作者 王勇 刘庆云 郭莉 《计算机学报》 EI CSCD 北大核心 2014年第5期1159-1169,共11页
对大量有害的URL进行过滤,是目前网络安全应用系统中所亟需的关键技术.使用经典的串匹配算法检测庞大的URL规则集,需要消耗大量的计算资源和存储资源,性能十分低下.该文设计了一种适合于大规模URL过滤的多模式串匹配算法——SOGOPT.该... 对大量有害的URL进行过滤,是目前网络安全应用系统中所亟需的关键技术.使用经典的串匹配算法检测庞大的URL规则集,需要消耗大量的计算资源和存储资源,性能十分低下.该文设计了一种适合于大规模URL过滤的多模式串匹配算法——SOGOPT.该算法在经典的SOG算法基础上,针对URL规则的特点,提出了最优窗口选择、模式串分组规约这两种优化技术,大幅度提高了SOG算法的匹配速度,在大规模URL规则集上效果尤其显著.该文设计的算法非常适合于大规模(100万级)URL实时在线匹配的应用环境. 展开更多
关键词 多模式串匹配 url过滤 最优窗口选择 模式串分组规约 信息安全 网络安全
在线阅读 下载PDF
基于Bloom Filter的大规模网页去重策略研究 被引量:15
3
作者 丁振国 吴宝贵 辛友强 《现代图书情报技术》 CSSCI 北大核心 2008年第3期45-50,共6页
针对大规模信息采集,运用Bloom Filter及其改进算法,在误差允许的条件下,通过URL散列运算可以有效地对同源网页进行去重。实践证明,通过对其参数进行合理的调整,可以达到满意的结果。
关键词 布隆过滤器 散列函数 url 网页去重
在线阅读 下载PDF
基于哈希表的高性能URL过滤器研究 被引量:3
4
作者 郑卫斌 张德运 +2 位作者 丁会宁 李继华 高磊 《小型微型计算机系统》 CSCD 北大核心 2005年第2期178-180,共3页
防火墙通过 URL 过滤控制对因特网信息资源的访问 .为了在高速防火墙上实现 URL 过滤 ,本文提出了位图法以改进URL过滤器的哈希表数据结构 ,提高哈希表查找速度 ;提出了快速压缩法 ,降低过滤器的空间占用 .经过位图法和快速压缩法改进 ... 防火墙通过 URL 过滤控制对因特网信息资源的访问 .为了在高速防火墙上实现 URL 过滤 ,本文提出了位图法以改进URL过滤器的哈希表数据结构 ,提高哈希表查找速度 ;提出了快速压缩法 ,降低过滤器的空间占用 .经过位图法和快速压缩法改进 ,并应用高速缓存优化后 ,采用实验对 U RL 过滤器进行性能评价 ,发现 URL 过滤的平均时间下降了 2 5 3.7% ,空间下降了2 5 .7% . 展开更多
关键词 url过滤 哈希表 数据结构 防火墙
在线阅读 下载PDF
一种去除重复URL的算法 被引量:5
5
作者 苏国荣 杨岳湘 邓劲生 《广西师范大学学报(自然科学版)》 CAS 北大核心 2010年第1期122-126,共5页
通过对Bloom Filter算法及其改进型在Web信息采集时的去重策略进行分析,结合Dynamic Bloom Filter算法,采用动态数组对集合元素进行表示,提出了一种去重应用策略,实现了对集合中重复URL的频度查询和删除操作支持,最后使用该去重策略进... 通过对Bloom Filter算法及其改进型在Web信息采集时的去重策略进行分析,结合Dynamic Bloom Filter算法,采用动态数组对集合元素进行表示,提出了一种去重应用策略,实现了对集合中重复URL的频度查询和删除操作支持,最后使用该去重策略进行了实验并和其他策略进行了比较,实验证明该应用策略能够在误判率较低的情况下取得较好的去重效果。 展开更多
关键词 布隆过滤器 散列函数 url 网页去重
在线阅读 下载PDF
基于URL过滤与内容过滤的网络净化模型 被引量:5
6
作者 李石君 李洲 +1 位作者 余军 张科 《计算机技术与发展》 2006年第1期5-7,16,共4页
在信息时代里,信息爆炸似地增长着,而为数众多的不良信息充斥其中。针对这种现状,许多的公司与研究机构都提出了自己的过滤模型。文中在研究过去模型的基础上,提出了一种高效可靠的网络净化模型。该模型在运用WCCP协议的前提下,结合了UR... 在信息时代里,信息爆炸似地增长着,而为数众多的不良信息充斥其中。针对这种现状,许多的公司与研究机构都提出了自己的过滤模型。文中在研究过去模型的基础上,提出了一种高效可靠的网络净化模型。该模型在运用WCCP协议的前提下,结合了URL过滤和内容过滤这两种过滤方法对网络信息进行过滤,改进了传统的URL过滤算法。 展开更多
关键词 WCCP协议 ORE过滤 内容过滤 缓存
在线阅读 下载PDF
一种快速的基于URL的垃圾邮件过滤系统 被引量:3
7
作者 詹川 卢显良 +1 位作者 侯孟书 邢茜 《计算机科学》 CSCD 北大核心 2005年第8期55-56,66,共3页
垃圾邮件是当前Internet上关注一个焦点问题,随着垃圾邮件的伪装技术的不断更新,以前主要的几种垃圾邮件过滤技术面临着新的挑战。针对目前垃圾邮件大都含有要宣传网站的URL地址的特点,我们构建了一个基于URL的垃圾邮件过滤系统,通过查... 垃圾邮件是当前Internet上关注一个焦点问题,随着垃圾邮件的伪装技术的不断更新,以前主要的几种垃圾邮件过滤技术面临着新的挑战。针对目前垃圾邮件大都含有要宣传网站的URL地址的特点,我们构建了一个基于URL的垃圾邮件过滤系统,通过查询邮件中是否含有URL黑名单中的URL地址,来识别垃圾邮件。在URL地址查询过程中,采用Hplf散列函数来加速查询。通过试验测试,该系统能有效地减少垃圾邮件的数量。 展开更多
关键词 url 垃圾邮件 邮件过滤 散列函数 邮件过滤系统 url地址 Internet 焦点问题 伪装技术 过滤技术
在线阅读 下载PDF
一种新型的基于URL过滤的反垃圾邮件技术 被引量:3
8
作者 吴峻 李洋 《计算机应用研究》 CSCD 北大核心 2008年第5期1537-1539,共3页
在深入分析了传统垃圾邮件过滤技术不足的基础上,提出并实现了一种新型的基于URL过滤的垃圾邮件过滤技术(URLbased spamfiltering,UBSF)。该方法通过对比从到来邮件中提取的URL与URL库中存储的URL信息的相似性来判定垃圾邮件。通过语料... 在深入分析了传统垃圾邮件过滤技术不足的基础上,提出并实现了一种新型的基于URL过滤的垃圾邮件过滤技术(URLbased spamfiltering,UBSF)。该方法通过对比从到来邮件中提取的URL与URL库中存储的URL信息的相似性来判定垃圾邮件。通过语料库以及构建实际系统原型的测试,表明该方法具有准确性高、误报率低以及实时处理速度快的优点。 展开更多
关键词 网络安全 垃圾邮件过滤 url过滤的垃圾邮件过滤技术 统一资源定位符库
在线阅读 下载PDF
URL重写技术实现网站伪静态 被引量:1
9
作者 许礼捷 周立峰 《沙洲职业工学院学报》 2010年第1期6-9,18,共5页
介绍网站伪静态的概念,提出动态网站实现伪静态的几种生成方式,并选用ISAPI_Rewrite重写技术,详细阐述网站伪静态的实现过程,包括ISAPI筛选器的配置、URL重写规则的设计等关键步骤,最后说明伪静态技术在完善网站方面的作用。
关键词 伪静态 url重写 ISAPI筛选器
在线阅读 下载PDF
Web语料抓取中基于相似度的URL过滤规则生成算法
10
作者 陈荟慧 舒云星 林丽 《模式识别与人工智能》 EI CSCD 北大核心 2014年第7期631-637,共7页
Web语料是语料库的重要组成部分,但对冗余URL的访问开支影响大规模语料爬取工作的质量和效率,使用高效的URL过滤规则可提高Web爬取的质量和效率.因网站虚拟目录下的文件分布不均匀,为发现目标文件聚集区域,提出一种生成URL过滤规则的方... Web语料是语料库的重要组成部分,但对冗余URL的访问开支影响大规模语料爬取工作的质量和效率,使用高效的URL过滤规则可提高Web爬取的质量和效率.因网站虚拟目录下的文件分布不均匀,为发现目标文件聚集区域,提出一种生成URL过滤规则的方法.该方法使用正则表达式将URL元素通配化,归并相同元素后划分为子集,再计算子集内URL之间的相似度,并根据相似程度较高的URL构造虚拟目录树,基于虚拟目录树生成语料爬取的URL过滤规则和分类规则.文中详细介绍虚拟目录树的生成算法,并通过实验对比不同相似度阈值对目录树生成结果和URL过滤效果的影响. 展开更多
关键词 url相似度 Web语料爬取 url过滤 语料分类
在线阅读 下载PDF
基于CPat-Tree的URL索引模型裁剪方法
11
作者 赵泽宇 闫华 《计算机工程》 CAS CSCD 北大核心 2008年第7期53-55,共3页
海量URL会造成网络内容过滤系统索引效率低下。该文提出一种基于CPat-Tree改进的URL分级信息存储模型的裁剪算法,通过键值相似度实现键聚类,直接对存储数组遍历以合并相似的叶子节点,减少索引占用空间,提高查询效率。该方法裁剪前后的... 海量URL会造成网络内容过滤系统索引效率低下。该文提出一种基于CPat-Tree改进的URL分级信息存储模型的裁剪算法,通过键值相似度实现键聚类,直接对存储数组遍历以合并相似的叶子节点,减少索引占用空间,提高查询效率。该方法裁剪前后的存储空间变化效果取决于键相似度,因此其具有良好的扩展性。 展开更多
关键词 CPat-Tree方法 裁剪 url数据库 内容过滤
在线阅读 下载PDF
恶意URL多层过滤检测模型策略研究 被引量:4
12
作者 刘健 赵刚 郑运鹏 《信息安全研究》 2016年第1期80-85,共6页
恶意URL检测始终是Web安全领域的研究热点.提出了恶意URL多级检测过滤模型,共分成4层过滤器:黑白名单过滤器、朴素贝叶斯过滤器、CART决策树过滤器和支持向量机过滤器.对多层过滤模型的几个关键策略进行了讨论,包括过滤器层的投票策略... 恶意URL检测始终是Web安全领域的研究热点.提出了恶意URL多级检测过滤模型,共分成4层过滤器:黑白名单过滤器、朴素贝叶斯过滤器、CART决策树过滤器和支持向量机过滤器.对多层过滤模型的几个关键策略进行了讨论,包括过滤器层的投票策略、过滤器顺序策略以及过滤阈值的调优策略.过滤器投票策略中讨论了单独投票、并行投票和加权并行投票3种投票方法,过滤器顺序策略讨论了4种过滤器的先后顺序,过滤器阈值策略讨论了过滤阈值的确定方法.通过实验验证了多层过滤检测模型中以上策略讨论结果的有效性,根据实验结果实现了Web应用. 展开更多
关键词 恶意url 投票策略 机器学习 分类算法 多层过滤模型
在线阅读 下载PDF
基于URL聚类的新型web筛选机制研究
13
作者 梁志荣 《微计算机信息》 北大核心 2006年第07X期291-293,共3页
由于传统的筛选方法在执行效率和准确率上都不能满足网页信息提取的需要,我们提出了一种新的基于领域知识的筛选方法。这种方法不仅通过网页的内容进行筛选,而且利用网页特点,通过URL聚类的方法进行筛选。实验表明,这种方法提取效率和... 由于传统的筛选方法在执行效率和准确率上都不能满足网页信息提取的需要,我们提出了一种新的基于领域知识的筛选方法。这种方法不仅通过网页的内容进行筛选,而且利用网页特点,通过URL聚类的方法进行筛选。实验表明,这种方法提取效率和准确性都要高于传统的算法。 展开更多
关键词 url 聚类 网页 筛选机制
在线阅读 下载PDF
面向移动终端的URL过滤方法 被引量:1
14
作者 刘夏 刘萍 +1 位作者 刘燕兵 谭建龙 《计算机工程与应用》 CSCD 北大核心 2011年第18期68-72,共5页
在移动终端内容安全检测中",黑名单"过滤是一种常用的手段,但有限的存储空间制约了它的应用。根据"黑名单"过滤特点研究了一种多串匹配算法的改进,以Aho-Corasick算法为例,采用两种启发式策略从不等长的URL串中提... 在移动终端内容安全检测中",黑名单"过滤是一种常用的手段,但有限的存储空间制约了它的应用。根据"黑名单"过滤特点研究了一种多串匹配算法的改进,以Aho-Corasick算法为例,采用两种启发式策略从不等长的URL串中提取具有代表性的、等长的模式子串,并使用双数组进一步压缩。在Nokia 5230上的测试表明,该算法的存储空间是经典AC算法的0.7%,而速度可达到95%以上。 展开更多
关键词 移动终端 AHO-CORASICK算法 空间压缩 启发式策略 url过滤
在线阅读 下载PDF
JSP中URL重写的实现
15
作者 颜一鸣 《软件导刊》 2012年第3期24-26,共3页
针对搜索引擎对动态网页抓取率不高的问题,提出使用URL重写技术优化网页URL地址解决方法。分析了JSP实现URL重写的机制,并重点论述了用JSP进行URL重写的技术实现。
关键词 JSP url重写 过滤器 正则表达式
在线阅读 下载PDF
简单高效的URL消重的方法 被引量:2
16
作者 龚秋艳 陈良育 曾振柄 《计算机应用》 CSCD 北大核心 2010年第A01期49-50,53,共3页
在Web信息采集的过程中,为了避免对同一页面的重复下载,需要对URL进行消重。当URL数量变得非常庞大时,URL编码、计算和存储将会给网页消重性能造成很大的影响。通过对URL网址的观察和工程实践,提出一种简单高效的K-PickHash算法,能够快... 在Web信息采集的过程中,为了避免对同一页面的重复下载,需要对URL进行消重。当URL数量变得非常庞大时,URL编码、计算和存储将会给网页消重性能造成很大的影响。通过对URL网址的观察和工程实践,提出一种简单高效的K-PickHash算法,能够快速对绝大多数的URL生成唯一编码,同时保证较低的碰撞率。实验结果证明,计算相同数量的URL时,K-PickHfIp算法所占用的时间小于信息—摘要算法(MD5)的1/3,内存使用比MD5节省1/3,碰撞率也控制在可接受的范围。 展开更多
关键词 url消重 K—PickHash MD5
在线阅读 下载PDF
双结构网络中URL去重机制研究 被引量:1
17
作者 袁志伟 杨鹏 刘旋 《太原理工大学学报》 CAS 北大核心 2016年第1期68-74,共7页
针对双结构网络的特点及其URL去重面临的挑战,根据Bloom Filter的工作原理,提出一种基于可扩展的动态可分裂Bloom Filter的URL去重机制,并在原型系统中进行实现和部署。实验结果表明,该机制能够有效适用于大规模、高性能和分布式的双结... 针对双结构网络的特点及其URL去重面临的挑战,根据Bloom Filter的工作原理,提出一种基于可扩展的动态可分裂Bloom Filter的URL去重机制,并在原型系统中进行实现和部署。实验结果表明,该机制能够有效适用于大规模、高性能和分布式的双结构网络爬虫应用。 展开更多
关键词 统一内容标签去重 动态可分裂 布隆过滤器 双结构网络 网络爬虫
在线阅读 下载PDF
一种高速URL过滤算法的研究与应用 被引量:2
18
作者 黄诚 《现代计算机》 2016年第2期13-16,共4页
当前,传统防火墙的URL过滤方式只是对于规则库中的URL进行过滤,对于新增的涉黄涉暴网站无能为力,或者管理员响应迟钝。针对当前这种现状,提出一种局域网内URL过滤系统,基于网络爬虫和敏感词过滤技术通过爬去网页文本和对于网页文本分析... 当前,传统防火墙的URL过滤方式只是对于规则库中的URL进行过滤,对于新增的涉黄涉暴网站无能为力,或者管理员响应迟钝。针对当前这种现状,提出一种局域网内URL过滤系统,基于网络爬虫和敏感词过滤技术通过爬去网页文本和对于网页文本分析来判断指定URL是否合法。考虑到匹配效率和本过滤系统所使用的内存空间,使用MD5对URL计算摘要值,在此之上建立黑白名单,再结合Bloom Filter算法和改进的Hash表数据结构用以实现对URL的高速过滤。 展开更多
关键词 url过滤 网络爬虫 敏感词过滤 BLOOM filter HASH表 MD5
在线阅读 下载PDF
基于URL的网页内容过滤器的设计与实现 被引量:7
19
作者 周澔宇 《计算机工程》 EI CAS CSCD 北大核心 2006年第7期81-83,共3页
讨论了基于URL的网页内容过滤器的设计与实现。通过对Linux系统内核模块的分析,设计通过网络包截获、网络包过滤两个步骤进行过滤器的实现。在设计过程中,探讨并实现了URL阻挡树模型、上下层通信的技术(上下层大规模数据传输和内核主动... 讨论了基于URL的网页内容过滤器的设计与实现。通过对Linux系统内核模块的分析,设计通过网络包截获、网络包过滤两个步骤进行过滤器的实现。在设计过程中,探讨并实现了URL阻挡树模型、上下层通信的技术(上下层大规模数据传输和内核主动发信号给进程的技术)和包的截获技术。 展开更多
关键词 网员内容过滤器 网络包截获 网络包过滤 阻挡树
在线阅读 下载PDF
基于大规模URL模式串匹配方法的网络过滤算法 被引量:2
20
作者 齐国顺 尚方 刘生 《黑龙江电力》 CAS 2018年第4期367-372,共6页
针对电力信息网络需要处理海量URL(Uniform Resource Locator,URL)审查过滤的情况,提出了以经典的Wu-Manber算法为基础进行改良的一种大规模URL模式串匹配算法。该方法采用减少哈希冲突和精确校验次数的设计理念,同时引入多种优化措施,... 针对电力信息网络需要处理海量URL(Uniform Resource Locator,URL)审查过滤的情况,提出了以经典的Wu-Manber算法为基础进行改良的一种大规模URL模式串匹配算法。该方法采用减少哈希冲突和精确校验次数的设计理念,同时引入多种优化措施,达到提高算法的匹配性能的目标。通过真实数据集上的测试表明,该算法的内存消耗较低,在大规模URL快速匹配方面的性能有很大提高。该检测方法可以应用到多个网络过滤场合。 展开更多
关键词 大规模 url 网络过滤
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部