期刊文献+
共找到864篇文章
< 1 2 44 >
每页显示 20 50 100
基于CharacterBERT的恶意URL检测模型
1
作者 王旭 李松朔 +1 位作者 姜久雷 乐德广 《现代电子技术》 北大核心 2026年第5期83-88,96,共7页
传统URL检测方法主要依赖黑名单和启发式规则,在应对新型URL变体时存在局限。随着BERT模型被引入恶意URL检测领域,仍存在词汇表依赖、未登录词处理能力不足、语义细粒度较低等问题。为此,文中提出一种基于CharacterBERT与URL结构特征相... 传统URL检测方法主要依赖黑名单和启发式规则,在应对新型URL变体时存在局限。随着BERT模型被引入恶意URL检测领域,仍存在词汇表依赖、未登录词处理能力不足、语义细粒度较低等问题。为此,文中提出一种基于CharacterBERT与URL结构特征相融合的恶意URL检测模型。该模型采用字符级卷积神经网络(CharacterCNN),摆脱对预定义词汇表的依赖,并通过可变形卷积核提取更精细的语义信息。此外,设计了门控融合网络单元,结合子域名数量、敏感词、URL长度等结构信息来增强恶意URL识别能力。实验结果表明,所提模型在Grambeddings和kaggle_1数据集上均取得了最佳性能,F1值分别达到97.88%和99.83%,展现出卓越的性能,在实际安全场景中具有较高的应用价值。 展开更多
关键词 CharacterBERT 特征融合 恶意url检测 网络安全 字符级卷积神经网络 金字塔注意力
在线阅读 下载PDF
A Comparative Analysis of Machine Learning Algorithms for Spam and Phishing URL Classification
2
作者 Tran Minh Bao Kumar Shashvat +1 位作者 Nguyen Gia Nhu Dac-Nhuong Le 《Computers, Materials & Continua》 2026年第5期838-855,共18页
The sudden growth of harmful web pages,including spam and phishing URLs,poses a greater threat to global cybersecurity than ever before.These URLs are commonly utilised to trick people into divulging confidential deta... The sudden growth of harmful web pages,including spam and phishing URLs,poses a greater threat to global cybersecurity than ever before.These URLs are commonly utilised to trick people into divulging confidential details or to stealthily deploy malware.To address this issue,we aimed to assess the efficiency of popular machine learning and neural network models in identifying such harmful links.To serve our research needs,we employed two different datasets:the PhiUSIIL dataset,which is specifically designed to address phishing URL detection,and another dataset developed to uncover spam links by examining the wording and structure of every URL.Our strategy was to train and evaluate four classificationmodels,namely RandomForest,SupportVectorMachine(SVM),Naive Bayes,and Artificial Neural Networks(ANN),under two different feature engineering approaches:statistical text-based analysis and heuristic-based structural features.The results are in,and they are stunning:Random Forest and ANN models were always the best.During our research,we achieved some outstanding results.On the PhiUSIIL phishing dataset,the model achieved an accuracy of 99.99%,and on the spam dataset,it attained an accuracy of 99.62%.Studies surpass any previously reported findings,firmly establishing the efficacy of machine learning and neural networks in detecting malicious URLs.Not only does this work reinforce the superiority of these in-demand models,but it also sets a high bar for subsequent research and development in the field.In general,this provides the direction for building smarter,faster,and more precise tools that can spot online threats as they develop. 展开更多
关键词 Web security PHISHING malicious url DOManalysis TRANSFORMER GNN evaluation adversarial ML LLM safety
在线阅读 下载PDF
基于EMO-GAN的恶意URL检测框架
3
作者 耿海军 蔚超 +3 位作者 胡治国 郭小英 池浩田 杨静 《计算机应用研究》 北大核心 2025年第2期582-591,共10页
随着万维网的广泛应用和网络威胁的日益严峻,统一资源定位符(uniform resource locator,URL)的安全性成为了网络安全领域的研究热点,如何有效检测并防范恶意URL已经成为了业内非常关注的问题。针对恶意URL检测中存在的数据获取困难、特... 随着万维网的广泛应用和网络威胁的日益严峻,统一资源定位符(uniform resource locator,URL)的安全性成为了网络安全领域的研究热点,如何有效检测并防范恶意URL已经成为了业内非常关注的问题。针对恶意URL检测中存在的数据获取困难、特征表示不足以及模型概念漂移挑战,提出了一种基于EMO-GAN的恶意URL检测框架(EMO-GAN-based malicious URL detection framework,EMO-GANUDF)。该框架通过结合极度随机树(extremely randomized trees,ET)和边缘生成对抗网络(margin generative adversarial network,MarginGAN)进行半监督学习,有效解决了数据获取困难问题。在特征提取上,该框架提出了一种综合统计、字符和词汇特征的特征表示方法,实现了URL的高效特征表示。此外,为了应对模型概念漂移问题,该框架提出了一种支持在线学习(online learning)的分类器,增强了模型拓展性和适应性。在多个数据集和不同检测方法上进行对比实验,所提方法在Malicious URLs公开数据集上达到了99%的准确率和84%的F 1分数,较其他检测方法取得了更好的效果,证明了其有效性及优越性。 展开更多
关键词 恶意url 极度随机树 半监督学习 生成对抗网络 在线学习
在线阅读 下载PDF
基于字符串相似度的URL聚类方法研究
4
作者 刘翼 田亮亮 +2 位作者 高明 李凯茵 叶倩 《现代电子技术》 北大核心 2025年第11期84-88,共5页
内容分发网络(CDN)被用于解决网络访问负荷过载的问题。然而,同一网络服务可能包含多个域名,导致网页主题分类结果精确度和检索效率降低。文中提出一种基于字符串相似度算法的URL聚类方法,首先,获取校园网络7×24 h的真实流量数据,... 内容分发网络(CDN)被用于解决网络访问负荷过载的问题。然而,同一网络服务可能包含多个域名,导致网页主题分类结果精确度和检索效率降低。文中提出一种基于字符串相似度算法的URL聚类方法,首先,获取校园网络7×24 h的真实流量数据,利用协议分析抽取特征信息,转化为数据集;其次,进行数据清洗与处理,去除缺省字段和错误字段,将相同数据条目集成;最后,采用字符串相似度算法计算URL之间的距离作为聚类算法的特征,并采用K-means聚类算法划分相似URL,达到将多个不同域名分类到相同网络服务的目的。实验通过对5种不同方法进行比较发现,Levenshtein算法的平均轮廓系数达到了91.4%,较其他方法平均提高12%,能够有效应对精确度降低和检索效率低下的问题。 展开更多
关键词 数据聚类 字符串相似度 轮廓系数法 协议分析 K-MEANS url CDN Levenshtein算法
在线阅读 下载PDF
基于Stacking集成学习的恶意URL识别方法
5
作者 孙杨 邱祥锋 《集美大学学报(自然科学版)》 2025年第2期179-185,共7页
针对传统URL(uniform resource locator)检测方法在恶意URL检测时存在的精确率不高、实时性差等问题,提出一种基于Stacking集成学习的算法模型。该模型用ADB(adaptive boosting)、LR(logistic regression)、SVM(support vector machine)... 针对传统URL(uniform resource locator)检测方法在恶意URL检测时存在的精确率不高、实时性差等问题,提出一种基于Stacking集成学习的算法模型。该模型用ADB(adaptive boosting)、LR(logistic regression)、SVM(support vector machine)、GBDT(gradient boosting decision tree)和GNB(gaussian naive bayes)5种机器学习算法作为初级分类器,其多层结构使不同机器学习模型之间可以优势互补,提升检测系统的整体性能表现。最后,通过在测试集上进行性能评估,选出性能最优的集成组合。实验结果表明,基于Stacking方法融合基学习器的集成学习模型在召回率、准确率、精确率、F 1值等多项指标上优于传统机器学习模型,对恶意URL检测的准确率可达96.77%。 展开更多
关键词 恶意url 机器识别 Stacking模型 集成学习 基学习器
在线阅读 下载PDF
数字馆藏URL管理的有关问题
6
作者 杜奕才 《现代情报》 北大核心 2005年第9期95-97,共3页
本文介绍国外图书馆在管理指向数字化馆藏URL方面的经验,主要列举了管理中的一些问题,集中于由馆员生成和维护的URL。
关键词 url管理 url类型 始点url 格式url
在线阅读 下载PDF
基于多粒度分层建模的恶意URL检测模型
7
作者 肖军弼 牟丹 《计算机与数字工程》 2025年第2期505-509,共5页
恶意URL检测对于网络安全防护十分重要。针对传统机器学习中特征信息损失和现有深度学习方法上下文建模不充分的问题,论文提出了一种基于多粒度分层建模的恶意URL检测模型。该方法从字符和词汇两个特征粒度上进行建模,对于每个特征粒度... 恶意URL检测对于网络安全防护十分重要。针对传统机器学习中特征信息损失和现有深度学习方法上下文建模不充分的问题,论文提出了一种基于多粒度分层建模的恶意URL检测模型。该方法从字符和词汇两个特征粒度上进行建模,对于每个特征粒度先使用卷积神经网络建模局部上下文信息,引入注意力机制进一步建模上下文信息得到信息增强的特征表示,将特征多粒度建模和上下文分层建模相结合充分提取URL的特征表示来进行恶意检测。实验结果表明,论文模型的准确率达到98%,相较于现有方法在性能上有一定的提升。 展开更多
关键词 恶意url 分层建模 卷积神经网络 注意力机制
在线阅读 下载PDF
基于组件分割的钓鱼URL检测方法 被引量:1
8
作者 钟文康 王添 张功萱 《信息安全学报》 2025年第1期130-142,共13页
URL作为钓鱼网站最直接也是最重要的特征,利用深度学习的方法对分词后的URL字符序列进行特征提取,可以极大的提升基于URL的钓鱼网站识别的准确率。将URL按照不同组件进行分割是URL常见的分词手段,该方法能够对不同组件进行多粒度的特征... URL作为钓鱼网站最直接也是最重要的特征,利用深度学习的方法对分词后的URL字符序列进行特征提取,可以极大的提升基于URL的钓鱼网站识别的准确率。将URL按照不同组件进行分割是URL常见的分词手段,该方法能够对不同组件进行多粒度的特征判别,但是这一方法未能在钓鱼网站的URL检测中得到有效应用,尚缺乏深入的研究。此外,现有的基于深度学习的钓鱼网站URL检测方法由于实验数据以及模型训练方法上的局限性,在泛化能力和误报率方面仍存在不足,难以满足真实环境中复杂的识别需求。为解决上述问题,本文提出了一种基于组件分割的钓鱼URL检测方法:(1)该方法首先对URL的不同组件进行分割,并对各组件依次进行字符级分词、截断填充及编码,使得深度学习模型能够对不同组件采取不同层级的管理从而进行细粒度的特征判别。(2)为了避免卷积神经网络中采用的池化策略过于关注局部特征而忽视特征整体空间结构的问题,本文所提方法将对融合后的各组件特征利用胶囊网络进一步提取。(3)在模型训练方法中引入对抗训练机制,对多嵌入层进行独立对抗训练,以满足模型对各组件的差异化处理,从而进一步提升模型的泛化能力。最后,在百万级的样本数据集中,与现有的最先进的同类方法相比,所提方法在钓鱼URL的识别准确率上提升0.86%,误报率降低1.08%,F1-Score提升0.95%。 展开更多
关键词 钓鱼url检测 胶囊网络 对抗训练 数据处理 深度学习
在线阅读 下载PDF
引入注意力机制的恶意URL检测算法研究 被引量:1
9
作者 刘拥民 翟佳慧 +2 位作者 徐卓农 邓伟豪 麻海志 《河北工业科技》 2025年第3期221-230,共10页
为解决传统模型在处理长统一资源定位系统(uniform resource locator,URL)时难以捕捉全局和局部特征的问题,提出了一种基于分层注意力机制的BERT-CNN模型。该模型通过来自变换器的双向编码器表征量(bidirectional encoder representatio... 为解决传统模型在处理长统一资源定位系统(uniform resource locator,URL)时难以捕捉全局和局部特征的问题,提出了一种基于分层注意力机制的BERT-CNN模型。该模型通过来自变换器的双向编码器表征量(bidirectional encoder representations from transformers,BERT)模块捕捉URL的全局语义信息,并利用卷积神经网络(convolutional neural network,CNN)提取URL的局部特征,在BERT和CNN之间引入分层注意力机制,在不同层次上动态分配注意力权重,加强捕捉URL中的关键信息;引入稀疏注意力机制,减少模型的计算复杂度和内存开销,同时保留BERT的全局语义理解能力;在公开的恶意URL检测数据集上进行对比实验、消融实验以及可视化实验,验证所提模型的性能。结果表明:基于分层注意力机制的BERT-CNN模型在检测恶意URL时的准确率达到了96.8%,相比基线BERT-CNN模型提高了2.5个百分点;F 1分数达到了95.3%,相比基线BERT-CNN模型提高了2.1个百分点。引入注意力机制的恶意URL检测模型在捕捉URL全局和局部特征方面具有显著优势,可为异常流量检测提供新的技术路径和解决方案。 展开更多
关键词 自然语言处理 卷积神经网络 恶意url BERT模型 分层注意力机制
在线阅读 下载PDF
CBi_AT:基于字符级和单词级的恶意URL检测
10
作者 郭应政 袁建廷 钱育蓉 《计算机应用与软件》 北大核心 2025年第5期332-340,共9页
针对恶意URL的高效检测问题,目前基于黑名单的检测方法时效性差且适应性弱,基于传统机器学习的检测方法效率和准确率较低。该文充分考虑URL的语义含义和时序特征,设计一种混合神经网络模型(CBi_AT),同时从字符级和单词级水平处理URL,有... 针对恶意URL的高效检测问题,目前基于黑名单的检测方法时效性差且适应性弱,基于传统机器学习的检测方法效率和准确率较低。该文充分考虑URL的语义含义和时序特征,设计一种混合神经网络模型(CBi_AT),同时从字符级和单词级水平处理URL,有效地捕获URL字符串的语义含义和时序特征,并引入多组注意力机制,抽取URL数据之间的关联性和依赖关系。实验结果表明,该混合神经网络模型能够高效检测恶意URL,可达到99.86%的准确率和99.85%的F1值。 展开更多
关键词 网络安全 恶意url 混合神经网络模型 注意力机制
在线阅读 下载PDF
APEA:一种恶意URL新型识别方法
11
作者 张慧菲 杨秀璋 彭国军 《网络与信息安全学报》 2025年第6期77-91,共15页
在数字化时代,随着网络攻击手段不断进化,恶意网页识别已成为网络安全领域的一大挑战。传统的卷积神经网络在恶意网页检测中取得了显著成果,但无法捕获长距离依赖关系且语义捕获能力有限。因此,设计一种新型深度学习模型自适应位置感知... 在数字化时代,随着网络攻击手段不断进化,恶意网页识别已成为网络安全领域的一大挑战。传统的卷积神经网络在恶意网页检测中取得了显著成果,但无法捕获长距离依赖关系且语义捕获能力有限。因此,设计一种新型深度学习模型自适应位置感知嵌入与注意力(adaptive positionally-aware embedding and attention,APEA),为恶意网页识别提出研究新思路。APEA模型采用比Transformer模型更细粒度的字符级信息,以增强模型对恶意统一资源定位符(uniform resource locator,URL)文本中细节特征的感知能力;与Transformer模型类似,将输入的嵌入信息与位置编码相结合,以显式注入顺序信息;新增了全局信息共享机制,有效融合局部和全局特征,以提升模型对复杂恶意URL模式的识别能力。设计的自适应动态权重机制,使模型能够根据不同输入灵活调整多头自注意力机制的各个头的权重,从而捕获更多特征。实验结果表明,相较于现有的基于机器学习和深度学习恶意URL检测方法,APEA模型在检测的准确率、精确率、召回率、F1分数上都表现更好。消融实验结果表明,全局信息共享机制和自适应调整的动态权重更新机制对模型性能的提升均有贡献,相比去掉这两个机制的模型,APEA模型各指标均有2.8%左右的提升。 展开更多
关键词 APEA 恶意url识别 全局信息 TRANSFORMER
在线阅读 下载PDF
基于URL模式集的主题爬虫 被引量:19
12
作者 胡萍瑞 李石君 《计算机应用研究》 CSCD 北大核心 2018年第3期694-699,726,共7页
为提高主题爬虫的性能,依据站点信息组织的特点和URL的特征,提出一种基于URL模式集的主题爬虫。爬虫分两个阶段,在实验爬虫阶段,采集站点样本数据,采用基于URL前缀树的模式构建算法构建URL模式,形成模式关系图,并利用HITS算法分析该模... 为提高主题爬虫的性能,依据站点信息组织的特点和URL的特征,提出一种基于URL模式集的主题爬虫。爬虫分两个阶段,在实验爬虫阶段,采集站点样本数据,采用基于URL前缀树的模式构建算法构建URL模式,形成模式关系图,并利用HITS算法分析该模式关系图,计算出各模式的重要度;在聚焦爬虫阶段,无须预先下载页面,即可利用生成的URL模式判断页面是否主题相关和能否指导爬虫深入抓取,并根据URL模式的重要度预测待抓取链接优先级。实验表明,该爬虫相比现有的主题爬虫能快速引导爬虫抓取主题相关页面,保证爬虫的查准率和查全率,有效提高爬虫抓取效率。 展开更多
关键词 主题爬虫 url模式 url前缀树 模式关系图 url模式重要性
在线阅读 下载PDF
一种快速的基于URL的垃圾邮件过滤系统 被引量:3
13
作者 詹川 卢显良 +1 位作者 侯孟书 邢茜 《计算机科学》 CSCD 北大核心 2005年第8期55-56,66,共3页
垃圾邮件是当前Internet上关注一个焦点问题,随着垃圾邮件的伪装技术的不断更新,以前主要的几种垃圾邮件过滤技术面临着新的挑战。针对目前垃圾邮件大都含有要宣传网站的URL地址的特点,我们构建了一个基于URL的垃圾邮件过滤系统,通过查... 垃圾邮件是当前Internet上关注一个焦点问题,随着垃圾邮件的伪装技术的不断更新,以前主要的几种垃圾邮件过滤技术面临着新的挑战。针对目前垃圾邮件大都含有要宣传网站的URL地址的特点,我们构建了一个基于URL的垃圾邮件过滤系统,通过查询邮件中是否含有URL黑名单中的URL地址,来识别垃圾邮件。在URL地址查询过程中,采用Hplf散列函数来加速查询。通过试验测试,该系统能有效地减少垃圾邮件的数量。 展开更多
关键词 url 垃圾邮件 邮件过滤 散列函数 邮件过滤系统 url地址 Internet 焦点问题 伪装技术 过滤技术
在线阅读 下载PDF
利用URL-Key进行查询分类 被引量:2
14
作者 李雪伟 吕学强 +1 位作者 董志安 刘克会 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2015年第2期220-226,共7页
针对查询分类问题,借助互联网中人工组织的分类网站领域URL,利用URL-key在各个类别中使用的频度,提出基于方差的领域URL-key识别方法,利用机器翻译、拼音翻译和搜索结果反馈等技术对URL-key进行过滤,构建领域URL-key。然后结合伪相关反... 针对查询分类问题,借助互联网中人工组织的分类网站领域URL,利用URL-key在各个类别中使用的频度,提出基于方差的领域URL-key识别方法,利用机器翻译、拼音翻译和搜索结果反馈等技术对URL-key进行过滤,构建领域URL-key。然后结合伪相关反馈技术,选取URL-key为特征,构建URL-key向量,利用SVM对查询串进行分类。实验结果表明,该方法不仅F值比对比方法提高7%,而且资源的使用也远远小于对比方法,提高了系统的时效性。 展开更多
关键词 查询分类 url url-key 伪相关反馈
在线阅读 下载PDF
A Filter-Based Feature Selection Framework to Detect Phishing URLs Using Stacking Ensemble Machine Learning
15
作者 Nimra Bari Tahir Saleem +3 位作者 Munam Shah Abdulmohsen Algarni Asma Patel Insaf Ullah 《Computer Modeling in Engineering & Sciences》 2025年第10期1167-1187,共21页
Today,phishing is an online attack designed to obtain sensitive information such as credit card and bank account numbers,passwords,and usernames.We can find several anti-phishing solutions,such as heuristic detection,... Today,phishing is an online attack designed to obtain sensitive information such as credit card and bank account numbers,passwords,and usernames.We can find several anti-phishing solutions,such as heuristic detection,virtual similarity detection,black and white lists,and machine learning(ML).However,phishing attempts remain a problem,and establishing an effective anti-phishing strategy is a work in progress.Furthermore,while most antiphishing solutions achieve the highest levels of accuracy on a given dataset,their methods suffer from an increased number of false positives.These methods are ineffective against zero-hour attacks.Phishing sites with a high False Positive Rate(FPR)are considered genuine because they can cause people to lose a lot ofmoney by visiting them.Feature selection is critical when developing phishing detection strategies.Good feature selection helps improve accuracy;however,duplicate features can also increase noise in the dataset and reduce the accuracy of the algorithm.Therefore,a combination of filter-based feature selection methods is proposed to detect phishing attacks,including constant feature removal,duplicate feature removal,quasi-feature removal,correlated feature removal,mutual information extraction,and Analysis of Variance(ANOVA)testing.The technique has been tested with differentMachine Learning classifiers:Random Forest,Artificial Neural Network(ANN),Ada-Boost,Extreme Gradient Boosting(XGBoost),Logistic Regression,Decision Trees,Gradient Boosting Classifiers,Support Vector Machine(SVM),and two types of ensemble models,stacking and majority voting to gain A low false positive rate is achieved.Stacked ensemble classifiers(gradient boosting,randomforest,support vector machine)achieve 1.31%FPR and 98.17%accuracy on Dataset 1,2.81%FPR and Dataset 3 shows 2.81%FPR and 97.61%accuracy,while Dataset 2 shows 3.47%FPR and 96.47%accuracy. 展开更多
关键词 Phishing detection feature selection phishing detection stacking ensemble machine learning phishing url
在线阅读 下载PDF
基于主题语义URL的信息搜索方法研究 被引量:2
16
作者 林晶 彭小宁 《计算机应用与软件》 CSCD 2015年第6期42-45,共4页
为提高主题网络爬虫的效率及收获率,提出一种基于主题语义URL的信息搜索方法。该方法将种子URL映射到主题树的主题结点上,以主题路径上的主题文本扩充种子URL的语义,引导爬虫高效准确地抓取主题页面,并利用链接重要度与页面重要度因子... 为提高主题网络爬虫的效率及收获率,提出一种基于主题语义URL的信息搜索方法。该方法将种子URL映射到主题树的主题结点上,以主题路径上的主题文本扩充种子URL的语义,引导爬虫高效准确地抓取主题页面,并利用链接重要度与页面重要度因子在抓取过程中自动选育新的URL优良种子。重点阐述上述搜索方法的原理及其在系统中的实现。实验结果表明,该搜索方法能有效改善网络爬虫的搜索效率及收获率,且种子链接的选育性能良好。 展开更多
关键词 主题树 url语义 搜索引擎 主题-url映射
在线阅读 下载PDF
一种基于MPAN的钓鱼URL检测方法 被引量:4
17
作者 张桥 卜佑军 +2 位作者 陈博 曹东伟 张稣荣 《信息工程大学学报》 2021年第4期443-449,共7页
为解决日益严峻的网络钓鱼问题,提出一种基于消息传递注意力网络(Message Passing Attention Network,MPAN)的钓鱼URL检测方法。此方法相对于传统的机器学习和黑名单检测方法,无需人工提取特征且能识别新出现的钓鱼网页。首先基于敏感... 为解决日益严峻的网络钓鱼问题,提出一种基于消息传递注意力网络(Message Passing Attention Network,MPAN)的钓鱼URL检测方法。此方法相对于传统的机器学习和黑名单检测方法,无需人工提取特征且能识别新出现的钓鱼网页。首先基于敏感词分词的方法对URL分词,以提升利用URL数据信息的程度。然后通过MPAN获取URL中长距离、非连续的单词交互信息,基于自动提取的特征检测钓鱼网页。实验结果表明,基于MPAN的钓鱼网页检测方法能够达到较高的准确率、召回率、F1值。 展开更多
关键词 消息传递注意力网络 钓鱼url 机器学习 黑名单 url分词
在线阅读 下载PDF
Web语料抓取中基于相似度的URL过滤规则生成算法
18
作者 陈荟慧 舒云星 林丽 《模式识别与人工智能》 EI CSCD 北大核心 2014年第7期631-637,共7页
Web语料是语料库的重要组成部分,但对冗余URL的访问开支影响大规模语料爬取工作的质量和效率,使用高效的URL过滤规则可提高Web爬取的质量和效率.因网站虚拟目录下的文件分布不均匀,为发现目标文件聚集区域,提出一种生成URL过滤规则的方... Web语料是语料库的重要组成部分,但对冗余URL的访问开支影响大规模语料爬取工作的质量和效率,使用高效的URL过滤规则可提高Web爬取的质量和效率.因网站虚拟目录下的文件分布不均匀,为发现目标文件聚集区域,提出一种生成URL过滤规则的方法.该方法使用正则表达式将URL元素通配化,归并相同元素后划分为子集,再计算子集内URL之间的相似度,并根据相似程度较高的URL构造虚拟目录树,基于虚拟目录树生成语料爬取的URL过滤规则和分类规则.文中详细介绍虚拟目录树的生成算法,并通过实验对比不同相似度阈值对目录树生成结果和URL过滤效果的影响. 展开更多
关键词 url相似度 Web语料爬取 url过滤 语料分类
在线阅读 下载PDF
一种面向大规模URL过滤的多模式串匹配算法 被引量:14
19
作者 刘燕兵 邵妍 +2 位作者 王勇 刘庆云 郭莉 《计算机学报》 EI CSCD 北大核心 2014年第5期1159-1169,共11页
对大量有害的URL进行过滤,是目前网络安全应用系统中所亟需的关键技术.使用经典的串匹配算法检测庞大的URL规则集,需要消耗大量的计算资源和存储资源,性能十分低下.该文设计了一种适合于大规模URL过滤的多模式串匹配算法——SOGOPT.该... 对大量有害的URL进行过滤,是目前网络安全应用系统中所亟需的关键技术.使用经典的串匹配算法检测庞大的URL规则集,需要消耗大量的计算资源和存储资源,性能十分低下.该文设计了一种适合于大规模URL过滤的多模式串匹配算法——SOGOPT.该算法在经典的SOG算法基础上,针对URL规则的特点,提出了最优窗口选择、模式串分组规约这两种优化技术,大幅度提高了SOG算法的匹配速度,在大规模URL规则集上效果尤其显著.该文设计的算法非常适合于大规模(100万级)URL实时在线匹配的应用环境. 展开更多
关键词 多模式串匹配 url过滤 最优窗口选择 模式串分组规约 信息安全 网络安全
在线阅读 下载PDF
高效的基于段模式的恶意URL检测方法 被引量:10
20
作者 林海伦 李焱 +2 位作者 王伟平 岳银亮 林政 《通信学报》 EI CSCD 北大核心 2015年第S1期141-148,共8页
提出一种高效的基于段模式的检测恶意URL的方法,该方法首先解析已标注的恶意URL中的域名、路径名和文件名3个语义段,然后通过建立以三元组为词项的倒排索引快速计算恶意URL每个语义段的模式,最后基于倒排索引查找到的段模式来判定给定的... 提出一种高效的基于段模式的检测恶意URL的方法,该方法首先解析已标注的恶意URL中的域名、路径名和文件名3个语义段,然后通过建立以三元组为词项的倒排索引快速计算恶意URL每个语义段的模式,最后基于倒排索引查找到的段模式来判定给定的URL是否是恶意URL。不仅如此,该方法还支持基于Jaccard的随机域名识别技术来判定包含随机域名的恶意URL。实验结果表明,与当前先进的基准方法相比,该方法具有较好的性能和可扩展性。 展开更多
关键词 恶意url 段模式 三元组 倒排索引 随机域名
在线阅读 下载PDF
上一页 1 2 44 下一页 到第
使用帮助 返回顶部