期刊文献+
共找到859篇文章
< 1 2 43 >
每页显示 20 50 100
基于EMO-GAN的恶意URL检测框架
1
作者 耿海军 蔚超 +3 位作者 胡治国 郭小英 池浩田 杨静 《计算机应用研究》 北大核心 2025年第2期582-591,共10页
随着万维网的广泛应用和网络威胁的日益严峻,统一资源定位符(uniform resource locator,URL)的安全性成为了网络安全领域的研究热点,如何有效检测并防范恶意URL已经成为了业内非常关注的问题。针对恶意URL检测中存在的数据获取困难、特... 随着万维网的广泛应用和网络威胁的日益严峻,统一资源定位符(uniform resource locator,URL)的安全性成为了网络安全领域的研究热点,如何有效检测并防范恶意URL已经成为了业内非常关注的问题。针对恶意URL检测中存在的数据获取困难、特征表示不足以及模型概念漂移挑战,提出了一种基于EMO-GAN的恶意URL检测框架(EMO-GAN-based malicious URL detection framework,EMO-GANUDF)。该框架通过结合极度随机树(extremely randomized trees,ET)和边缘生成对抗网络(margin generative adversarial network,MarginGAN)进行半监督学习,有效解决了数据获取困难问题。在特征提取上,该框架提出了一种综合统计、字符和词汇特征的特征表示方法,实现了URL的高效特征表示。此外,为了应对模型概念漂移问题,该框架提出了一种支持在线学习(online learning)的分类器,增强了模型拓展性和适应性。在多个数据集和不同检测方法上进行对比实验,所提方法在Malicious URLs公开数据集上达到了99%的准确率和84%的F 1分数,较其他检测方法取得了更好的效果,证明了其有效性及优越性。 展开更多
关键词 恶意url 极度随机树 半监督学习 生成对抗网络 在线学习
在线阅读 下载PDF
基于字符串相似度的URL聚类方法研究
2
作者 刘翼 田亮亮 +2 位作者 高明 李凯茵 叶倩 《现代电子技术》 北大核心 2025年第11期84-88,共5页
内容分发网络(CDN)被用于解决网络访问负荷过载的问题。然而,同一网络服务可能包含多个域名,导致网页主题分类结果精确度和检索效率降低。文中提出一种基于字符串相似度算法的URL聚类方法,首先,获取校园网络7×24 h的真实流量数据,... 内容分发网络(CDN)被用于解决网络访问负荷过载的问题。然而,同一网络服务可能包含多个域名,导致网页主题分类结果精确度和检索效率降低。文中提出一种基于字符串相似度算法的URL聚类方法,首先,获取校园网络7×24 h的真实流量数据,利用协议分析抽取特征信息,转化为数据集;其次,进行数据清洗与处理,去除缺省字段和错误字段,将相同数据条目集成;最后,采用字符串相似度算法计算URL之间的距离作为聚类算法的特征,并采用K-means聚类算法划分相似URL,达到将多个不同域名分类到相同网络服务的目的。实验通过对5种不同方法进行比较发现,Levenshtein算法的平均轮廓系数达到了91.4%,较其他方法平均提高12%,能够有效应对精确度降低和检索效率低下的问题。 展开更多
关键词 数据聚类 字符串相似度 轮廓系数法 协议分析 K-MEANS url CDN Levenshtein算法
在线阅读 下载PDF
基于Stacking集成学习的恶意URL识别方法
3
作者 孙杨 邱祥锋 《集美大学学报(自然科学版)》 2025年第2期179-185,共7页
针对传统URL(uniform resource locator)检测方法在恶意URL检测时存在的精确率不高、实时性差等问题,提出一种基于Stacking集成学习的算法模型。该模型用ADB(adaptive boosting)、LR(logistic regression)、SVM(support vector machine)... 针对传统URL(uniform resource locator)检测方法在恶意URL检测时存在的精确率不高、实时性差等问题,提出一种基于Stacking集成学习的算法模型。该模型用ADB(adaptive boosting)、LR(logistic regression)、SVM(support vector machine)、GBDT(gradient boosting decision tree)和GNB(gaussian naive bayes)5种机器学习算法作为初级分类器,其多层结构使不同机器学习模型之间可以优势互补,提升检测系统的整体性能表现。最后,通过在测试集上进行性能评估,选出性能最优的集成组合。实验结果表明,基于Stacking方法融合基学习器的集成学习模型在召回率、准确率、精确率、F 1值等多项指标上优于传统机器学习模型,对恶意URL检测的准确率可达96.77%。 展开更多
关键词 恶意url 机器识别 Stacking模型 集成学习 基学习器
在线阅读 下载PDF
基于多粒度分层建模的恶意URL检测模型
4
作者 肖军弼 牟丹 《计算机与数字工程》 2025年第2期505-509,共5页
恶意URL检测对于网络安全防护十分重要。针对传统机器学习中特征信息损失和现有深度学习方法上下文建模不充分的问题,论文提出了一种基于多粒度分层建模的恶意URL检测模型。该方法从字符和词汇两个特征粒度上进行建模,对于每个特征粒度... 恶意URL检测对于网络安全防护十分重要。针对传统机器学习中特征信息损失和现有深度学习方法上下文建模不充分的问题,论文提出了一种基于多粒度分层建模的恶意URL检测模型。该方法从字符和词汇两个特征粒度上进行建模,对于每个特征粒度先使用卷积神经网络建模局部上下文信息,引入注意力机制进一步建模上下文信息得到信息增强的特征表示,将特征多粒度建模和上下文分层建模相结合充分提取URL的特征表示来进行恶意检测。实验结果表明,论文模型的准确率达到98%,相较于现有方法在性能上有一定的提升。 展开更多
关键词 恶意url 分层建模 卷积神经网络 注意力机制
在线阅读 下载PDF
引入注意力机制的恶意URL检测算法研究 被引量:1
5
作者 刘拥民 翟佳慧 +2 位作者 徐卓农 邓伟豪 麻海志 《河北工业科技》 2025年第3期221-230,共10页
为解决传统模型在处理长统一资源定位系统(uniform resource locator,URL)时难以捕捉全局和局部特征的问题,提出了一种基于分层注意力机制的BERT-CNN模型。该模型通过来自变换器的双向编码器表征量(bidirectional encoder representatio... 为解决传统模型在处理长统一资源定位系统(uniform resource locator,URL)时难以捕捉全局和局部特征的问题,提出了一种基于分层注意力机制的BERT-CNN模型。该模型通过来自变换器的双向编码器表征量(bidirectional encoder representations from transformers,BERT)模块捕捉URL的全局语义信息,并利用卷积神经网络(convolutional neural network,CNN)提取URL的局部特征,在BERT和CNN之间引入分层注意力机制,在不同层次上动态分配注意力权重,加强捕捉URL中的关键信息;引入稀疏注意力机制,减少模型的计算复杂度和内存开销,同时保留BERT的全局语义理解能力;在公开的恶意URL检测数据集上进行对比实验、消融实验以及可视化实验,验证所提模型的性能。结果表明:基于分层注意力机制的BERT-CNN模型在检测恶意URL时的准确率达到了96.8%,相比基线BERT-CNN模型提高了2.5个百分点;F 1分数达到了95.3%,相比基线BERT-CNN模型提高了2.1个百分点。引入注意力机制的恶意URL检测模型在捕捉URL全局和局部特征方面具有显著优势,可为异常流量检测提供新的技术路径和解决方案。 展开更多
关键词 自然语言处理 卷积神经网络 恶意url BERT模型 分层注意力机制
在线阅读 下载PDF
CBi_AT:基于字符级和单词级的恶意URL检测
6
作者 郭应政 袁建廷 钱育蓉 《计算机应用与软件》 北大核心 2025年第5期332-340,共9页
针对恶意URL的高效检测问题,目前基于黑名单的检测方法时效性差且适应性弱,基于传统机器学习的检测方法效率和准确率较低。该文充分考虑URL的语义含义和时序特征,设计一种混合神经网络模型(CBi_AT),同时从字符级和单词级水平处理URL,有... 针对恶意URL的高效检测问题,目前基于黑名单的检测方法时效性差且适应性弱,基于传统机器学习的检测方法效率和准确率较低。该文充分考虑URL的语义含义和时序特征,设计一种混合神经网络模型(CBi_AT),同时从字符级和单词级水平处理URL,有效地捕获URL字符串的语义含义和时序特征,并引入多组注意力机制,抽取URL数据之间的关联性和依赖关系。实验结果表明,该混合神经网络模型能够高效检测恶意URL,可达到99.86%的准确率和99.85%的F1值。 展开更多
关键词 网络安全 恶意url 混合神经网络模型 注意力机制
在线阅读 下载PDF
基于组件分割的钓鱼URL检测方法
7
作者 钟文康 王添 张功萱 《信息安全学报》 2025年第1期130-142,共13页
URL作为钓鱼网站最直接也是最重要的特征,利用深度学习的方法对分词后的URL字符序列进行特征提取,可以极大的提升基于URL的钓鱼网站识别的准确率。将URL按照不同组件进行分割是URL常见的分词手段,该方法能够对不同组件进行多粒度的特征... URL作为钓鱼网站最直接也是最重要的特征,利用深度学习的方法对分词后的URL字符序列进行特征提取,可以极大的提升基于URL的钓鱼网站识别的准确率。将URL按照不同组件进行分割是URL常见的分词手段,该方法能够对不同组件进行多粒度的特征判别,但是这一方法未能在钓鱼网站的URL检测中得到有效应用,尚缺乏深入的研究。此外,现有的基于深度学习的钓鱼网站URL检测方法由于实验数据以及模型训练方法上的局限性,在泛化能力和误报率方面仍存在不足,难以满足真实环境中复杂的识别需求。为解决上述问题,本文提出了一种基于组件分割的钓鱼URL检测方法:(1)该方法首先对URL的不同组件进行分割,并对各组件依次进行字符级分词、截断填充及编码,使得深度学习模型能够对不同组件采取不同层级的管理从而进行细粒度的特征判别。(2)为了避免卷积神经网络中采用的池化策略过于关注局部特征而忽视特征整体空间结构的问题,本文所提方法将对融合后的各组件特征利用胶囊网络进一步提取。(3)在模型训练方法中引入对抗训练机制,对多嵌入层进行独立对抗训练,以满足模型对各组件的差异化处理,从而进一步提升模型的泛化能力。最后,在百万级的样本数据集中,与现有的最先进的同类方法相比,所提方法在钓鱼URL的识别准确率上提升0.86%,误报率降低1.08%,F1-Score提升0.95%。 展开更多
关键词 钓鱼url检测 胶囊网络 对抗训练 数据处理 深度学习
在线阅读 下载PDF
基于深度学习的恶意URL检测与研究 被引量:1
8
作者 校景中 胡鑫 +1 位作者 张亮 吴宜融 《西南民族大学学报(自然科学版)》 2024年第6期660-665,共6页
在数字化时代,网络安全问题尤为突出,特别是恶意URL的广泛传播对个人隐私和企业安全构成严重威胁.尽管现有研究在英文环境下取得了进展,但中文网络环境的研究相对较少,且缺乏大规模的中文网URL数据集.为了填补这一空白,本研究构建了一... 在数字化时代,网络安全问题尤为突出,特别是恶意URL的广泛传播对个人隐私和企业安全构成严重威胁.尽管现有研究在英文环境下取得了进展,但中文网络环境的研究相对较少,且缺乏大规模的中文网URL数据集.为了填补这一空白,本研究构建了一个大规模的中文网URL数据集,并提出了一种基于双向长短期记忆网络(BiLSTM)和注意力增强卷积神经网络(Attention-augmented CNN)的混合模型(BiAC),用于检测恶意URL.BiAC模型通过深度融合BiLSTM捕捉的时序和语法特征,以及Attention-augmented CNN提取的语义特征,显著提升了检测的准确性和效率.实验结果显示,BiAC模型在恶意中文网URL检测任务上具有97.53%的准确率和93.05%的F1 Score,超越了传统模型.这一成果不仅验证了模型设计的有效性,也凸显了构建专门针对中文环境的数据集的重要性,对提升网络安全防护能力具有重要的现实意义和应用价值. 展开更多
关键词 深度学习 恶意url检测 卷积神经网络
在线阅读 下载PDF
基于多尺度注意力特征融合的恶意URL检测研究
9
作者 马栋林 陈伟杰 +1 位作者 赵宏 宋佳佳 《电子测量技术》 北大核心 2024年第20期15-23,共9页
针对当前恶意URL检测模型在处理复杂结构和多样化字符组合的URL时,存在特征提取单一和检测精度不高的问题,提出了一种基于多尺度注意力特征融合的恶意URL检测模型。首先,采用Character Embeddings和DistilBERT方法分别对字符和单词进行... 针对当前恶意URL检测模型在处理复杂结构和多样化字符组合的URL时,存在特征提取单一和检测精度不高的问题,提出了一种基于多尺度注意力特征融合的恶意URL检测模型。首先,采用Character Embeddings和DistilBERT方法分别对字符和单词进行编码,以捕获URL字符串中字符级和词级特征表示。其次,通过改进卷积神经网络(CNN)提取不同尺度的字符结构特征和词级语义特征,并结合双向长短期记忆网络(BiLSTM)进一步提取深层次序列特征。此外,为了实现字符级与词级多尺度特征的动态融合,创新性地引入注意力特征融合模块(AFF),有效降低信息冗余并提升对长距离序列特征的提取能力。实验结果表明,所提模型与其他基准模型相比,准确率提升了0.32%~4.7%,F1分数提升了0.46%~5.5%,并在ISCX-URL2016等数据集上也达到了较好的测效果。 展开更多
关键词 恶意url检测 多尺度特征 卷积神经网络 双向长短时记忆网络 注意力特征融合
原文传递
数字馆藏URL管理的有关问题
10
作者 杜奕才 《现代情报》 北大核心 2005年第9期95-97,共3页
本文介绍国外图书馆在管理指向数字化馆藏URL方面的经验,主要列举了管理中的一些问题,集中于由馆员生成和维护的URL。
关键词 url管理 url类型 始点url 格式url
在线阅读 下载PDF
融合对抗训练与BERT-CNN-BiLSTM多通道神经网络的恶意URL检测研究
11
作者 刘卓娴 王靖亚 石拓 《信息网络安全》 CSCD 北大核心 2024年第12期1922-1932,共11页
恶意URL是一种用于定位网络资源的标识符,常被用于实施欺骗、勒索和窃取信息等恶意行为,是近年来多种网络攻击的重要媒介,给受害者造成了巨大损失。针对恶意URL攻击日益猖獗的现状,以及恶意URL本身特征复杂、混淆性强且欺骗性高的问题,... 恶意URL是一种用于定位网络资源的标识符,常被用于实施欺骗、勒索和窃取信息等恶意行为,是近年来多种网络攻击的重要媒介,给受害者造成了巨大损失。针对恶意URL攻击日益猖獗的现状,以及恶意URL本身特征复杂、混淆性强且欺骗性高的问题,同时考虑现有研究中特征提取不充分以及对模型鲁棒性和泛化能力关注不够的局限性,文章提出一种融合对抗训练与BERT-CNN-BiLSTM多通道神经网络的恶意URL检测模型。该模型将URL视为文本序列,利用BERT模型进行预处理,分别通过CNN层和Bi LSTM层提取局部语义特征和捕捉上下文语序特征,并通过FGM对抗训练方法对Embedding层施加扰动,从而提升模型的准确性和鲁棒性。在公开数据集上的实验结果表明,该模型在URL二分类任务中的分类准确率达到97.2%。消融实验和对比实验进一步验证了该模型在多个评价指标上的显著优势。此外,该模型在针对恶意URL更加精细化分类的任务中同样表现优异,在URL五分类任务中的分类准确率达到98.25%。 展开更多
关键词 对抗训练 BERT 多通道神经网络 恶意url检测
在线阅读 下载PDF
基于混合嵌入和胶囊网络的恶意URL分类模型
12
作者 于晓琪 金彦亮 《工业控制计算机》 2024年第2期114-116,共3页
作为最常见的网络安全威胁之一,恶意URL攻击每年都会造成巨大的经济损失,尽管研究人员已经提出了许多方法来检测恶意URL,但现有方法存在不能充分利用URL提供的有用信息和对URL中的区分性特征提取不充分的问题,导致分类性能不佳。提出了... 作为最常见的网络安全威胁之一,恶意URL攻击每年都会造成巨大的经济损失,尽管研究人员已经提出了许多方法来检测恶意URL,但现有方法存在不能充分利用URL提供的有用信息和对URL中的区分性特征提取不充分的问题,导致分类性能不佳。提出了一种基于混合嵌入和胶囊网络的恶意URL分类模型,引入高速网络和胶囊网络从URL的混合嵌入表示中提取区分性特征,提高了模型的分类性能。在公开数据集ISCX-URL2016上的实验结果表明,该文模型与其他基线方法相比,实现了更好的分类性能,能够有效应对混淆技术的多样性。 展开更多
关键词 恶意url分类 胶囊网络 高速网络 深度学习
在线阅读 下载PDF
基于URL模式集的主题爬虫 被引量:18
13
作者 胡萍瑞 李石君 《计算机应用研究》 CSCD 北大核心 2018年第3期694-699,726,共7页
为提高主题爬虫的性能,依据站点信息组织的特点和URL的特征,提出一种基于URL模式集的主题爬虫。爬虫分两个阶段,在实验爬虫阶段,采集站点样本数据,采用基于URL前缀树的模式构建算法构建URL模式,形成模式关系图,并利用HITS算法分析该模... 为提高主题爬虫的性能,依据站点信息组织的特点和URL的特征,提出一种基于URL模式集的主题爬虫。爬虫分两个阶段,在实验爬虫阶段,采集站点样本数据,采用基于URL前缀树的模式构建算法构建URL模式,形成模式关系图,并利用HITS算法分析该模式关系图,计算出各模式的重要度;在聚焦爬虫阶段,无须预先下载页面,即可利用生成的URL模式判断页面是否主题相关和能否指导爬虫深入抓取,并根据URL模式的重要度预测待抓取链接优先级。实验表明,该爬虫相比现有的主题爬虫能快速引导爬虫抓取主题相关页面,保证爬虫的查准率和查全率,有效提高爬虫抓取效率。 展开更多
关键词 主题爬虫 url模式 url前缀树 模式关系图 url模式重要性
在线阅读 下载PDF
网络信息资源归档挑战与对策——基于URL无序性和时效性差异的视角
14
作者 刘冰 《兰台内外》 2024年第16期31-33,共3页
根据西方网络信息资源归档最新理论与实践成果及将异常现象作为示踪剂的研究方法,本研究尝试将网络信息资源归档系统的后台异常现象引导至前台讨论,从URL无序性和时效性差异的研究视角阐释解构、规范URL的必要性以及通过自动代码或搜索... 根据西方网络信息资源归档最新理论与实践成果及将异常现象作为示踪剂的研究方法,本研究尝试将网络信息资源归档系统的后台异常现象引导至前台讨论,从URL无序性和时效性差异的研究视角阐释解构、规范URL的必要性以及通过自动代码或搜索工具对时间戳展开简单聚合或排序的弊端,提出超越以算法为中心的归档逻辑并广泛关注网络基础设施动态与关系互动或对我国网络信息资源归档研究具有一定启示。 展开更多
关键词 网络档案 异常现象 算法 url 时效性
在线阅读 下载PDF
一种快速的基于URL的垃圾邮件过滤系统 被引量:3
15
作者 詹川 卢显良 +1 位作者 侯孟书 邢茜 《计算机科学》 CSCD 北大核心 2005年第8期55-56,66,共3页
垃圾邮件是当前Internet上关注一个焦点问题,随着垃圾邮件的伪装技术的不断更新,以前主要的几种垃圾邮件过滤技术面临着新的挑战。针对目前垃圾邮件大都含有要宣传网站的URL地址的特点,我们构建了一个基于URL的垃圾邮件过滤系统,通过查... 垃圾邮件是当前Internet上关注一个焦点问题,随着垃圾邮件的伪装技术的不断更新,以前主要的几种垃圾邮件过滤技术面临着新的挑战。针对目前垃圾邮件大都含有要宣传网站的URL地址的特点,我们构建了一个基于URL的垃圾邮件过滤系统,通过查询邮件中是否含有URL黑名单中的URL地址,来识别垃圾邮件。在URL地址查询过程中,采用Hplf散列函数来加速查询。通过试验测试,该系统能有效地减少垃圾邮件的数量。 展开更多
关键词 url 垃圾邮件 邮件过滤 散列函数 邮件过滤系统 url地址 Internet 焦点问题 伪装技术 过滤技术
在线阅读 下载PDF
利用URL-Key进行查询分类 被引量:2
16
作者 李雪伟 吕学强 +1 位作者 董志安 刘克会 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2015年第2期220-226,共7页
针对查询分类问题,借助互联网中人工组织的分类网站领域URL,利用URL-key在各个类别中使用的频度,提出基于方差的领域URL-key识别方法,利用机器翻译、拼音翻译和搜索结果反馈等技术对URL-key进行过滤,构建领域URL-key。然后结合伪相关反... 针对查询分类问题,借助互联网中人工组织的分类网站领域URL,利用URL-key在各个类别中使用的频度,提出基于方差的领域URL-key识别方法,利用机器翻译、拼音翻译和搜索结果反馈等技术对URL-key进行过滤,构建领域URL-key。然后结合伪相关反馈技术,选取URL-key为特征,构建URL-key向量,利用SVM对查询串进行分类。实验结果表明,该方法不仅F值比对比方法提高7%,而且资源的使用也远远小于对比方法,提高了系统的时效性。 展开更多
关键词 查询分类 url url-key 伪相关反馈
在线阅读 下载PDF
Securing Web by Predicting Malicious URLs
17
作者 Imran Khan Meenakshi Megavarnam 《Journal of Cyber Security》 2024年第1期117-130,共14页
A URL(Uniform Resource Locator)is used to locate a digital resource.With this URL,an attacker can perform a variety of attacks,which can lead to serious consequences for both individuals and organizations.Therefore,at... A URL(Uniform Resource Locator)is used to locate a digital resource.With this URL,an attacker can perform a variety of attacks,which can lead to serious consequences for both individuals and organizations.Therefore,attackers create malicious URLs to gain access to an organization’s systems or sensitive information.It is crucial to secure individuals and organizations against these malicious URLs.A combination of machine learning and deep learning was used to predict malicious URLs.This research contributes significantly to the field of cybersecurity by proposing a model that seamlessly integrates the accuracy of machine learning with the swiftness of deep learning.The strategic fusion of Random Forest(RF) and Multilayer Perceptron(MLP)with an accuracy of 81% represents a noteworthy advancement,offering a balanced solution for robust cybersecurity.This study found that by combining RF and MLP,an efficient model was developed with an accuracy of 81%and a training time of 33.78 s. 展开更多
关键词 Malicious urls PREDICTION machine learning deep learning random forest multilayer perceptron securing web
在线阅读 下载PDF
基于主题语义URL的信息搜索方法研究 被引量:2
18
作者 林晶 彭小宁 《计算机应用与软件》 CSCD 2015年第6期42-45,共4页
为提高主题网络爬虫的效率及收获率,提出一种基于主题语义URL的信息搜索方法。该方法将种子URL映射到主题树的主题结点上,以主题路径上的主题文本扩充种子URL的语义,引导爬虫高效准确地抓取主题页面,并利用链接重要度与页面重要度因子... 为提高主题网络爬虫的效率及收获率,提出一种基于主题语义URL的信息搜索方法。该方法将种子URL映射到主题树的主题结点上,以主题路径上的主题文本扩充种子URL的语义,引导爬虫高效准确地抓取主题页面,并利用链接重要度与页面重要度因子在抓取过程中自动选育新的URL优良种子。重点阐述上述搜索方法的原理及其在系统中的实现。实验结果表明,该搜索方法能有效改善网络爬虫的搜索效率及收获率,且种子链接的选育性能良好。 展开更多
关键词 主题树 url语义 搜索引擎 主题-url映射
在线阅读 下载PDF
一种基于MPAN的钓鱼URL检测方法 被引量:3
19
作者 张桥 卜佑军 +2 位作者 陈博 曹东伟 张稣荣 《信息工程大学学报》 2021年第4期443-449,共7页
为解决日益严峻的网络钓鱼问题,提出一种基于消息传递注意力网络(Message Passing Attention Network,MPAN)的钓鱼URL检测方法。此方法相对于传统的机器学习和黑名单检测方法,无需人工提取特征且能识别新出现的钓鱼网页。首先基于敏感... 为解决日益严峻的网络钓鱼问题,提出一种基于消息传递注意力网络(Message Passing Attention Network,MPAN)的钓鱼URL检测方法。此方法相对于传统的机器学习和黑名单检测方法,无需人工提取特征且能识别新出现的钓鱼网页。首先基于敏感词分词的方法对URL分词,以提升利用URL数据信息的程度。然后通过MPAN获取URL中长距离、非连续的单词交互信息,基于自动提取的特征检测钓鱼网页。实验结果表明,基于MPAN的钓鱼网页检测方法能够达到较高的准确率、召回率、F1值。 展开更多
关键词 消息传递注意力网络 钓鱼url 机器学习 黑名单 url分词
在线阅读 下载PDF
Web语料抓取中基于相似度的URL过滤规则生成算法
20
作者 陈荟慧 舒云星 林丽 《模式识别与人工智能》 EI CSCD 北大核心 2014年第7期631-637,共7页
Web语料是语料库的重要组成部分,但对冗余URL的访问开支影响大规模语料爬取工作的质量和效率,使用高效的URL过滤规则可提高Web爬取的质量和效率.因网站虚拟目录下的文件分布不均匀,为发现目标文件聚集区域,提出一种生成URL过滤规则的方... Web语料是语料库的重要组成部分,但对冗余URL的访问开支影响大规模语料爬取工作的质量和效率,使用高效的URL过滤规则可提高Web爬取的质量和效率.因网站虚拟目录下的文件分布不均匀,为发现目标文件聚集区域,提出一种生成URL过滤规则的方法.该方法使用正则表达式将URL元素通配化,归并相同元素后划分为子集,再计算子集内URL之间的相似度,并根据相似程度较高的URL构造虚拟目录树,基于虚拟目录树生成语料爬取的URL过滤规则和分类规则.文中详细介绍虚拟目录树的生成算法,并通过实验对比不同相似度阈值对目录树生成结果和URL过滤效果的影响. 展开更多
关键词 url相似度 Web语料爬取 url过滤 语料分类
在线阅读 下载PDF
上一页 1 2 43 下一页 到第
使用帮助 返回顶部