期刊文献+
共找到866篇文章
< 1 2 44 >
每页显示 20 50 100
基于EMO-GAN的恶意URL检测框架
1
作者 耿海军 蔚超 +3 位作者 胡治国 郭小英 池浩田 杨静 《计算机应用研究》 北大核心 2025年第2期582-591,共10页
随着万维网的广泛应用和网络威胁的日益严峻,统一资源定位符(uniform resource locator,URL)的安全性成为了网络安全领域的研究热点,如何有效检测并防范恶意URL已经成为了业内非常关注的问题。针对恶意URL检测中存在的数据获取困难、特... 随着万维网的广泛应用和网络威胁的日益严峻,统一资源定位符(uniform resource locator,URL)的安全性成为了网络安全领域的研究热点,如何有效检测并防范恶意URL已经成为了业内非常关注的问题。针对恶意URL检测中存在的数据获取困难、特征表示不足以及模型概念漂移挑战,提出了一种基于EMO-GAN的恶意URL检测框架(EMO-GAN-based malicious URL detection framework,EMO-GANUDF)。该框架通过结合极度随机树(extremely randomized trees,ET)和边缘生成对抗网络(margin generative adversarial network,MarginGAN)进行半监督学习,有效解决了数据获取困难问题。在特征提取上,该框架提出了一种综合统计、字符和词汇特征的特征表示方法,实现了URL的高效特征表示。此外,为了应对模型概念漂移问题,该框架提出了一种支持在线学习(online learning)的分类器,增强了模型拓展性和适应性。在多个数据集和不同检测方法上进行对比实验,所提方法在Malicious URLs公开数据集上达到了99%的准确率和84%的F 1分数,较其他检测方法取得了更好的效果,证明了其有效性及优越性。 展开更多
关键词 恶意url 极度随机树 半监督学习 生成对抗网络 在线学习
在线阅读 下载PDF
基于字符串相似度的URL聚类方法研究
2
作者 刘翼 田亮亮 +2 位作者 高明 李凯茵 叶倩 《现代电子技术》 北大核心 2025年第11期84-88,共5页
内容分发网络(CDN)被用于解决网络访问负荷过载的问题。然而,同一网络服务可能包含多个域名,导致网页主题分类结果精确度和检索效率降低。文中提出一种基于字符串相似度算法的URL聚类方法,首先,获取校园网络7×24 h的真实流量数据,... 内容分发网络(CDN)被用于解决网络访问负荷过载的问题。然而,同一网络服务可能包含多个域名,导致网页主题分类结果精确度和检索效率降低。文中提出一种基于字符串相似度算法的URL聚类方法,首先,获取校园网络7×24 h的真实流量数据,利用协议分析抽取特征信息,转化为数据集;其次,进行数据清洗与处理,去除缺省字段和错误字段,将相同数据条目集成;最后,采用字符串相似度算法计算URL之间的距离作为聚类算法的特征,并采用K-means聚类算法划分相似URL,达到将多个不同域名分类到相同网络服务的目的。实验通过对5种不同方法进行比较发现,Levenshtein算法的平均轮廓系数达到了91.4%,较其他方法平均提高12%,能够有效应对精确度降低和检索效率低下的问题。 展开更多
关键词 数据聚类 字符串相似度 轮廓系数法 协议分析 K-MEANS url CDN Levenshtein算法
在线阅读 下载PDF
基于Stacking集成学习的恶意URL识别方法
3
作者 孙杨 邱祥锋 《集美大学学报(自然科学版)》 2025年第2期179-185,共7页
针对传统URL(uniform resource locator)检测方法在恶意URL检测时存在的精确率不高、实时性差等问题,提出一种基于Stacking集成学习的算法模型。该模型用ADB(adaptive boosting)、LR(logistic regression)、SVM(support vector machine)... 针对传统URL(uniform resource locator)检测方法在恶意URL检测时存在的精确率不高、实时性差等问题,提出一种基于Stacking集成学习的算法模型。该模型用ADB(adaptive boosting)、LR(logistic regression)、SVM(support vector machine)、GBDT(gradient boosting decision tree)和GNB(gaussian naive bayes)5种机器学习算法作为初级分类器,其多层结构使不同机器学习模型之间可以优势互补,提升检测系统的整体性能表现。最后,通过在测试集上进行性能评估,选出性能最优的集成组合。实验结果表明,基于Stacking方法融合基学习器的集成学习模型在召回率、准确率、精确率、F 1值等多项指标上优于传统机器学习模型,对恶意URL检测的准确率可达96.77%。 展开更多
关键词 恶意url 机器识别 Stacking模型 集成学习 基学习器
在线阅读 下载PDF
基于多粒度分层建模的恶意URL检测模型
4
作者 肖军弼 牟丹 《计算机与数字工程》 2025年第2期505-509,共5页
恶意URL检测对于网络安全防护十分重要。针对传统机器学习中特征信息损失和现有深度学习方法上下文建模不充分的问题,论文提出了一种基于多粒度分层建模的恶意URL检测模型。该方法从字符和词汇两个特征粒度上进行建模,对于每个特征粒度... 恶意URL检测对于网络安全防护十分重要。针对传统机器学习中特征信息损失和现有深度学习方法上下文建模不充分的问题,论文提出了一种基于多粒度分层建模的恶意URL检测模型。该方法从字符和词汇两个特征粒度上进行建模,对于每个特征粒度先使用卷积神经网络建模局部上下文信息,引入注意力机制进一步建模上下文信息得到信息增强的特征表示,将特征多粒度建模和上下文分层建模相结合充分提取URL的特征表示来进行恶意检测。实验结果表明,论文模型的准确率达到98%,相较于现有方法在性能上有一定的提升。 展开更多
关键词 恶意url 分层建模 卷积神经网络 注意力机制
在线阅读 下载PDF
引入注意力机制的恶意URL检测算法研究 被引量:1
5
作者 刘拥民 翟佳慧 +2 位作者 徐卓农 邓伟豪 麻海志 《河北工业科技》 2025年第3期221-230,共10页
为解决传统模型在处理长统一资源定位系统(uniform resource locator,URL)时难以捕捉全局和局部特征的问题,提出了一种基于分层注意力机制的BERT-CNN模型。该模型通过来自变换器的双向编码器表征量(bidirectional encoder representatio... 为解决传统模型在处理长统一资源定位系统(uniform resource locator,URL)时难以捕捉全局和局部特征的问题,提出了一种基于分层注意力机制的BERT-CNN模型。该模型通过来自变换器的双向编码器表征量(bidirectional encoder representations from transformers,BERT)模块捕捉URL的全局语义信息,并利用卷积神经网络(convolutional neural network,CNN)提取URL的局部特征,在BERT和CNN之间引入分层注意力机制,在不同层次上动态分配注意力权重,加强捕捉URL中的关键信息;引入稀疏注意力机制,减少模型的计算复杂度和内存开销,同时保留BERT的全局语义理解能力;在公开的恶意URL检测数据集上进行对比实验、消融实验以及可视化实验,验证所提模型的性能。结果表明:基于分层注意力机制的BERT-CNN模型在检测恶意URL时的准确率达到了96.8%,相比基线BERT-CNN模型提高了2.5个百分点;F 1分数达到了95.3%,相比基线BERT-CNN模型提高了2.1个百分点。引入注意力机制的恶意URL检测模型在捕捉URL全局和局部特征方面具有显著优势,可为异常流量检测提供新的技术路径和解决方案。 展开更多
关键词 自然语言处理 卷积神经网络 恶意url BERT模型 分层注意力机制
在线阅读 下载PDF
CBi_AT:基于字符级和单词级的恶意URL检测
6
作者 郭应政 袁建廷 钱育蓉 《计算机应用与软件》 北大核心 2025年第5期332-340,共9页
针对恶意URL的高效检测问题,目前基于黑名单的检测方法时效性差且适应性弱,基于传统机器学习的检测方法效率和准确率较低。该文充分考虑URL的语义含义和时序特征,设计一种混合神经网络模型(CBi_AT),同时从字符级和单词级水平处理URL,有... 针对恶意URL的高效检测问题,目前基于黑名单的检测方法时效性差且适应性弱,基于传统机器学习的检测方法效率和准确率较低。该文充分考虑URL的语义含义和时序特征,设计一种混合神经网络模型(CBi_AT),同时从字符级和单词级水平处理URL,有效地捕获URL字符串的语义含义和时序特征,并引入多组注意力机制,抽取URL数据之间的关联性和依赖关系。实验结果表明,该混合神经网络模型能够高效检测恶意URL,可达到99.86%的准确率和99.85%的F1值。 展开更多
关键词 网络安全 恶意url 混合神经网络模型 注意力机制
在线阅读 下载PDF
APEA:一种恶意URL新型识别方法
7
作者 张慧菲 杨秀璋 彭国军 《网络与信息安全学报》 2025年第6期77-91,共15页
在数字化时代,随着网络攻击手段不断进化,恶意网页识别已成为网络安全领域的一大挑战。传统的卷积神经网络在恶意网页检测中取得了显著成果,但无法捕获长距离依赖关系且语义捕获能力有限。因此,设计一种新型深度学习模型自适应位置感知... 在数字化时代,随着网络攻击手段不断进化,恶意网页识别已成为网络安全领域的一大挑战。传统的卷积神经网络在恶意网页检测中取得了显著成果,但无法捕获长距离依赖关系且语义捕获能力有限。因此,设计一种新型深度学习模型自适应位置感知嵌入与注意力(adaptive positionally-aware embedding and attention,APEA),为恶意网页识别提出研究新思路。APEA模型采用比Transformer模型更细粒度的字符级信息,以增强模型对恶意统一资源定位符(uniform resource locator,URL)文本中细节特征的感知能力;与Transformer模型类似,将输入的嵌入信息与位置编码相结合,以显式注入顺序信息;新增了全局信息共享机制,有效融合局部和全局特征,以提升模型对复杂恶意URL模式的识别能力。设计的自适应动态权重机制,使模型能够根据不同输入灵活调整多头自注意力机制的各个头的权重,从而捕获更多特征。实验结果表明,相较于现有的基于机器学习和深度学习恶意URL检测方法,APEA模型在检测的准确率、精确率、召回率、F1分数上都表现更好。消融实验结果表明,全局信息共享机制和自适应调整的动态权重更新机制对模型性能的提升均有贡献,相比去掉这两个机制的模型,APEA模型各指标均有2.8%左右的提升。 展开更多
关键词 APEA 恶意url识别 全局信息 TRANSFORMER
在线阅读 下载PDF
A content aware chunking scheme for data de-duplication in archival storage systems
8
作者 Nie Xuejun Qin Leihua Zhou Jingli 《High Technology Letters》 EI CAS 2012年第1期45-50,共6页
Based on variable sized chunking, this paper proposes a content aware chunking scheme, called CAC, that does not assume fully random file contents, but tonsiders the characteristics of the file types. CAC uses a candi... Based on variable sized chunking, this paper proposes a content aware chunking scheme, called CAC, that does not assume fully random file contents, but tonsiders the characteristics of the file types. CAC uses a candidate anchor histogram and the file-type specific knowledge to refine how anchors are determined when performing de- duplication of file data and enforces the selected average chunk size. CAC yields more chunks being found which in turn produces smaller average chtmks and a better reduction in data. We present a detailed evaluation of CAC and the experimental results show that this scheme can improve the compression ratio chunking for file types whose bytes are not randomly distributed (from 11.3% to 16.7% according to different datasets), and improve the write throughput on average by 9.7%. 展开更多
关键词 data de-duplicate content aware chunking (CAC) candidate anchor histogram (CAH)
在线阅读 下载PDF
Hash Table Assisted Efficient File Level De-Duplication Scheme in SD-IoV Assisted Sensing Devices
9
作者 Ghawar Said Ata Ullah +4 位作者 Anwar Ghani Muhammad Azeem Khalid Yahya Muhammad Bilal Sayed Chhattan Shah 《Intelligent Automation & Soft Computing》 2023年第10期83-99,共17页
The Internet of Things(IoT)and cloud technologies have encouraged massive data storage at central repositories.Software-defined networks(SDN)support the processing of data and restrict the transmission of duplicate va... The Internet of Things(IoT)and cloud technologies have encouraged massive data storage at central repositories.Software-defined networks(SDN)support the processing of data and restrict the transmission of duplicate values.It is necessary to use a data de-duplication mechanism to reduce communication costs and storage overhead.Existing State of the art schemes suffer from computational overhead due to deterministic or random tree-based tags generation which further increases as the file size grows.This paper presents an efficient file-level de-duplication scheme(EFDS)where the cost of creating tags is reduced by employing a hash table with key-value pair for each block of the file.Further,an algorithm for hash table-based duplicate block identification and storage(HDBIS)is presented based on fingerprints that maintain a linked list of similar duplicate blocks on the same index.Hash tables normally have a consistent time complexity for lookup,generating,and deleting stored data regardless of the input size.The experiential results show that the proposed EFDS scheme performs better compared to its counterparts. 展开更多
关键词 Hash table de-duplication linked list IoT sensing devices
在线阅读 下载PDF
基于组件分割的钓鱼URL检测方法
10
作者 钟文康 王添 张功萱 《信息安全学报》 2025年第1期130-142,共13页
URL作为钓鱼网站最直接也是最重要的特征,利用深度学习的方法对分词后的URL字符序列进行特征提取,可以极大的提升基于URL的钓鱼网站识别的准确率。将URL按照不同组件进行分割是URL常见的分词手段,该方法能够对不同组件进行多粒度的特征... URL作为钓鱼网站最直接也是最重要的特征,利用深度学习的方法对分词后的URL字符序列进行特征提取,可以极大的提升基于URL的钓鱼网站识别的准确率。将URL按照不同组件进行分割是URL常见的分词手段,该方法能够对不同组件进行多粒度的特征判别,但是这一方法未能在钓鱼网站的URL检测中得到有效应用,尚缺乏深入的研究。此外,现有的基于深度学习的钓鱼网站URL检测方法由于实验数据以及模型训练方法上的局限性,在泛化能力和误报率方面仍存在不足,难以满足真实环境中复杂的识别需求。为解决上述问题,本文提出了一种基于组件分割的钓鱼URL检测方法:(1)该方法首先对URL的不同组件进行分割,并对各组件依次进行字符级分词、截断填充及编码,使得深度学习模型能够对不同组件采取不同层级的管理从而进行细粒度的特征判别。(2)为了避免卷积神经网络中采用的池化策略过于关注局部特征而忽视特征整体空间结构的问题,本文所提方法将对融合后的各组件特征利用胶囊网络进一步提取。(3)在模型训练方法中引入对抗训练机制,对多嵌入层进行独立对抗训练,以满足模型对各组件的差异化处理,从而进一步提升模型的泛化能力。最后,在百万级的样本数据集中,与现有的最先进的同类方法相比,所提方法在钓鱼URL的识别准确率上提升0.86%,误报率降低1.08%,F1-Score提升0.95%。 展开更多
关键词 钓鱼url检测 胶囊网络 对抗训练 数据处理 深度学习
在线阅读 下载PDF
Evidence-based literature review:De-duplication a cornerstone for quality
11
作者 Barbara Hammer Elettra Virgili Federico Bilotta 《World Journal of Methodology》 2023年第5期390-398,共9页
Evidence-based literature reviews play a vital role in contemporary research,facilitating the synthesis of knowledge from multiple sources to inform decisionmaking and scientific advancements.Within this framework,de-... Evidence-based literature reviews play a vital role in contemporary research,facilitating the synthesis of knowledge from multiple sources to inform decisionmaking and scientific advancements.Within this framework,de-duplication emerges as a part of the process for ensuring the integrity and reliability of evidence extraction.This opinion review delves into the evolution of de-duplication,highlights its importance in evidence synthesis,explores various de-duplication methods,discusses evolving technologies,and proposes best practices.By addressing ethical considerations this paper emphasizes the significance of deduplication as a cornerstone for quality in evidence-based literature reviews. 展开更多
关键词 Duplicate publications as topic Databases BIBLIOGRAPHIC Artificial intelligence Systematic reviews as topic Review literature as topic de-duplication Duplicate references Reference management software
在线阅读 下载PDF
高效的基于段模式的恶意URL检测方法 被引量:10
12
作者 林海伦 李焱 +2 位作者 王伟平 岳银亮 林政 《通信学报》 EI CSCD 北大核心 2015年第S1期141-148,共8页
提出一种高效的基于段模式的检测恶意URL的方法,该方法首先解析已标注的恶意URL中的域名、路径名和文件名3个语义段,然后通过建立以三元组为词项的倒排索引快速计算恶意URL每个语义段的模式,最后基于倒排索引查找到的段模式来判定给定的... 提出一种高效的基于段模式的检测恶意URL的方法,该方法首先解析已标注的恶意URL中的域名、路径名和文件名3个语义段,然后通过建立以三元组为词项的倒排索引快速计算恶意URL每个语义段的模式,最后基于倒排索引查找到的段模式来判定给定的URL是否是恶意URL。不仅如此,该方法还支持基于Jaccard的随机域名识别技术来判定包含随机域名的恶意URL。实验结果表明,与当前先进的基准方法相比,该方法具有较好的性能和可扩展性。 展开更多
关键词 恶意url 段模式 三元组 倒排索引 随机域名
在线阅读 下载PDF
基于URL主题的查询分类方法 被引量:14
13
作者 张宇 宋巍 +1 位作者 刘挺 李生 《计算机研究与发展》 EI CSCD 北大核心 2012年第6期1298-1305,共8页
互联网上很多资源蕴含人类群体智慧.分类网站目录人工地对网站按照主题进行组织.基于网站目录中具有主题标注的URL设计URL主题分类器,结合伪相关反馈技术以及搜索引擎查询日志,提出了自动、快速、有效的查询主题分类方法.具体地,方法为... 互联网上很多资源蕴含人类群体智慧.分类网站目录人工地对网站按照主题进行组织.基于网站目录中具有主题标注的URL设计URL主题分类器,结合伪相关反馈技术以及搜索引擎查询日志,提出了自动、快速、有效的查询主题分类方法.具体地,方法为2种策略的结合.策略1通过计算搜索结果中URL的主题分布预测查询主题,策略2基于查询日志点击关系,利用具有主题标注的URL,对查询进行标注获取数据并训练统计分类器预测查询主题.实验表明,方法可获得比当前最好算法更好的准确率,更好的在线处理效率并且可基于查询日志自动获取训练数据,具有良好的可扩展性. 展开更多
关键词 查询分类 url分类 查询日志 伪相关反馈 统计学习
在线阅读 下载PDF
一种面向大规模URL过滤的多模式串匹配算法 被引量:14
14
作者 刘燕兵 邵妍 +2 位作者 王勇 刘庆云 郭莉 《计算机学报》 EI CSCD 北大核心 2014年第5期1159-1169,共11页
对大量有害的URL进行过滤,是目前网络安全应用系统中所亟需的关键技术.使用经典的串匹配算法检测庞大的URL规则集,需要消耗大量的计算资源和存储资源,性能十分低下.该文设计了一种适合于大规模URL过滤的多模式串匹配算法——SOGOPT.该... 对大量有害的URL进行过滤,是目前网络安全应用系统中所亟需的关键技术.使用经典的串匹配算法检测庞大的URL规则集,需要消耗大量的计算资源和存储资源,性能十分低下.该文设计了一种适合于大规模URL过滤的多模式串匹配算法——SOGOPT.该算法在经典的SOG算法基础上,针对URL规则的特点,提出了最优窗口选择、模式串分组规约这两种优化技术,大幅度提高了SOG算法的匹配速度,在大规模URL规则集上效果尤其显著.该文设计的算法非常适合于大规模(100万级)URL实时在线匹配的应用环境. 展开更多
关键词 多模式串匹配 url过滤 最优窗口选择 模式串分组规约 信息安全 网络安全
在线阅读 下载PDF
中国大学网站URL引用网络结构特征与相关因素研究 被引量:8
15
作者 唐川 刘春江 +3 位作者 徐婧 张娟 张勐 房俊民 《情报杂志》 CSSCI 北大核心 2014年第4期46-51,共6页
以100所中国大学网站所构成的URL引用网络为对象,借助社会网络分析方法揭示了其主要网络特征,并结合大学的科研能力、师资力量、国家支持力度、区域政治经济水平等,探索了可能影响网络结构的相关因素。研究发现:中国大学网站URL引用网... 以100所中国大学网站所构成的URL引用网络为对象,借助社会网络分析方法揭示了其主要网络特征,并结合大学的科研能力、师资力量、国家支持力度、区域政治经济水平等,探索了可能影响网络结构的相关因素。研究发现:中国大学网站URL引用网络具有明显的核心-边缘结构特征,此结构受大学科研能力、师资力量和国家支持力度等因素影响;存在若干信息交流能力较强的网站,且大学网站的信息交流能力与大学科研能力、师资力量、国家支持力度与所在区域政治经济水平等因素紧密相关。 展开更多
关键词 大学网站 url引用网络 网络结构 社会网络 相关因素
在线阅读 下载PDF
基于异常特征的钓鱼网站URL检测技术 被引量:45
16
作者 黄华军 钱亮 王耀钧 《信息网络安全》 2012年第1期23-25,67,共4页
典型的网络钓鱼是采用群发垃圾邮件,欺骗用户点击钓鱼网站URL地址,登录并输入个人机密信息的一种攻击手段。文章通过分析钓鱼网站URL地址的结构和词汇特征,提出一种基于异常特征的钓鱼网站URL检测方法。抽取钓鱼网站URL地址中4个结构特... 典型的网络钓鱼是采用群发垃圾邮件,欺骗用户点击钓鱼网站URL地址,登录并输入个人机密信息的一种攻击手段。文章通过分析钓鱼网站URL地址的结构和词汇特征,提出一种基于异常特征的钓鱼网站URL检测方法。抽取钓鱼网站URL地址中4个结构特征、8个词汇特征,组成12个特征的特征向量,用SVM进行训练和分类。对PhishTank上7291条钓鱼网站URL分类实验,检测出7134条钓鱼网站URL,准确率达到97.85%。 展开更多
关键词 网络钓鱼 钓鱼网站url 支持向量机 特征向量
在线阅读 下载PDF
一种基于并行Bloom Filter的高速URL查找算法 被引量:7
17
作者 周舟 付文亮 +1 位作者 嵩天 刘庆云 《电子学报》 EI CAS CSCD 北大核心 2015年第9期1833-1840,共8页
URL查找是众多网络系统中重要的组成部分,如URL过滤系统、Web缓存等.随着互联网的迅速发展,URL查找面临的主要挑战是实现大规模URL集合下的高速查找,同时保证低存储和低功耗.本文提出了一种基于并行Bloom Filter的URL查找算法,CaBF.该... URL查找是众多网络系统中重要的组成部分,如URL过滤系统、Web缓存等.随着互联网的迅速发展,URL查找面临的主要挑战是实现大规模URL集合下的高速查找,同时保证低存储和低功耗.本文提出了一种基于并行Bloom Filter的URL查找算法,CaBF.该算法高度并行化,提供大规模URL集合下的高速最长前缀匹配,并很好地适应集合中不同数量的URL组件.理论分析和真实网络数据集上的实验表明,该算法相比现有算法可以降低假阳性概率达一个数量级(或者在满足相同假阳性概率的前提下降低存储和硬件逻辑资源消耗).此外,该方法的体系结构很容易映射到FPGA等硬件器件上,提供每秒超过150M次的URL查找速度. 展开更多
关键词 url查找 布鲁姆过滤器 最长前缀匹配 现场可编程门阵列
在线阅读 下载PDF
基于域名信息的钓鱼URL探测 被引量:9
18
作者 郑礼雄 李青山 +1 位作者 李素科 袁春阳 《计算机工程》 CAS CSCD 2012年第10期108-110,共3页
提出一种基于域名信息的钓鱼URL探测方法。使用编辑距离寻找与已知正常域名相似的域名,根据域名信息提取域名单词最大匹配特征、域名分割特征和URL分割特征,利用上述特征训练分类器,由此判断其他URL是否为钓鱼URL。在真实数据集上的实... 提出一种基于域名信息的钓鱼URL探测方法。使用编辑距离寻找与已知正常域名相似的域名,根据域名信息提取域名单词最大匹配特征、域名分割特征和URL分割特征,利用上述特征训练分类器,由此判断其他URL是否为钓鱼URL。在真实数据集上的实验结果表明,该方法钓鱼URL正确检测率达94%。 展开更多
关键词 钓鱼攻击 钓鱼url探测 域名 支持向量机 编辑距离
在线阅读 下载PDF
一种快速的基于URL的垃圾邮件过滤系统 被引量:3
19
作者 詹川 卢显良 +1 位作者 侯孟书 邢茜 《计算机科学》 CSCD 北大核心 2005年第8期55-56,66,共3页
垃圾邮件是当前Internet上关注一个焦点问题,随着垃圾邮件的伪装技术的不断更新,以前主要的几种垃圾邮件过滤技术面临着新的挑战。针对目前垃圾邮件大都含有要宣传网站的URL地址的特点,我们构建了一个基于URL的垃圾邮件过滤系统,通过查... 垃圾邮件是当前Internet上关注一个焦点问题,随着垃圾邮件的伪装技术的不断更新,以前主要的几种垃圾邮件过滤技术面临着新的挑战。针对目前垃圾邮件大都含有要宣传网站的URL地址的特点,我们构建了一个基于URL的垃圾邮件过滤系统,通过查询邮件中是否含有URL黑名单中的URL地址,来识别垃圾邮件。在URL地址查询过程中,采用Hplf散列函数来加速查询。通过试验测试,该系统能有效地减少垃圾邮件的数量。 展开更多
关键词 url 垃圾邮件 邮件过滤 散列函数 邮件过滤系统 url地址 Internet 焦点问题 伪装技术 过滤技术
在线阅读 下载PDF
一种去除重复URL的算法 被引量:5
20
作者 苏国荣 杨岳湘 邓劲生 《广西师范大学学报(自然科学版)》 CAS 北大核心 2010年第1期122-126,共5页
通过对Bloom Filter算法及其改进型在Web信息采集时的去重策略进行分析,结合Dynamic Bloom Filter算法,采用动态数组对集合元素进行表示,提出了一种去重应用策略,实现了对集合中重复URL的频度查询和删除操作支持,最后使用该去重策略进... 通过对Bloom Filter算法及其改进型在Web信息采集时的去重策略进行分析,结合Dynamic Bloom Filter算法,采用动态数组对集合元素进行表示,提出了一种去重应用策略,实现了对集合中重复URL的频度查询和删除操作支持,最后使用该去重策略进行了实验并和其他策略进行了比较,实验证明该应用策略能够在误判率较低的情况下取得较好的去重效果。 展开更多
关键词 布隆过滤器 散列函数 url 网页去重
在线阅读 下载PDF
上一页 1 2 44 下一页 到第
使用帮助 返回顶部