期刊文献+
共找到859篇文章
< 1 2 43 >
每页显示 20 50 100
基于EMO-GAN的恶意URL检测框架
1
作者 耿海军 蔚超 +3 位作者 胡治国 郭小英 池浩田 杨静 《计算机应用研究》 北大核心 2025年第2期582-591,共10页
随着万维网的广泛应用和网络威胁的日益严峻,统一资源定位符(uniform resource locator,URL)的安全性成为了网络安全领域的研究热点,如何有效检测并防范恶意URL已经成为了业内非常关注的问题。针对恶意URL检测中存在的数据获取困难、特... 随着万维网的广泛应用和网络威胁的日益严峻,统一资源定位符(uniform resource locator,URL)的安全性成为了网络安全领域的研究热点,如何有效检测并防范恶意URL已经成为了业内非常关注的问题。针对恶意URL检测中存在的数据获取困难、特征表示不足以及模型概念漂移挑战,提出了一种基于EMO-GAN的恶意URL检测框架(EMO-GAN-based malicious URL detection framework,EMO-GANUDF)。该框架通过结合极度随机树(extremely randomized trees,ET)和边缘生成对抗网络(margin generative adversarial network,MarginGAN)进行半监督学习,有效解决了数据获取困难问题。在特征提取上,该框架提出了一种综合统计、字符和词汇特征的特征表示方法,实现了URL的高效特征表示。此外,为了应对模型概念漂移问题,该框架提出了一种支持在线学习(online learning)的分类器,增强了模型拓展性和适应性。在多个数据集和不同检测方法上进行对比实验,所提方法在Malicious URLs公开数据集上达到了99%的准确率和84%的F 1分数,较其他检测方法取得了更好的效果,证明了其有效性及优越性。 展开更多
关键词 恶意url 极度随机树 半监督学习 生成对抗网络 在线学习
在线阅读 下载PDF
基于字符串相似度的URL聚类方法研究
2
作者 刘翼 田亮亮 +2 位作者 高明 李凯茵 叶倩 《现代电子技术》 北大核心 2025年第11期84-88,共5页
内容分发网络(CDN)被用于解决网络访问负荷过载的问题。然而,同一网络服务可能包含多个域名,导致网页主题分类结果精确度和检索效率降低。文中提出一种基于字符串相似度算法的URL聚类方法,首先,获取校园网络7×24 h的真实流量数据,... 内容分发网络(CDN)被用于解决网络访问负荷过载的问题。然而,同一网络服务可能包含多个域名,导致网页主题分类结果精确度和检索效率降低。文中提出一种基于字符串相似度算法的URL聚类方法,首先,获取校园网络7×24 h的真实流量数据,利用协议分析抽取特征信息,转化为数据集;其次,进行数据清洗与处理,去除缺省字段和错误字段,将相同数据条目集成;最后,采用字符串相似度算法计算URL之间的距离作为聚类算法的特征,并采用K-means聚类算法划分相似URL,达到将多个不同域名分类到相同网络服务的目的。实验通过对5种不同方法进行比较发现,Levenshtein算法的平均轮廓系数达到了91.4%,较其他方法平均提高12%,能够有效应对精确度降低和检索效率低下的问题。 展开更多
关键词 数据聚类 字符串相似度 轮廓系数法 协议分析 K-MEANS url CDN Levenshtein算法
在线阅读 下载PDF
基于Stacking集成学习的恶意URL识别方法
3
作者 孙杨 邱祥锋 《集美大学学报(自然科学版)》 2025年第2期179-185,共7页
针对传统URL(uniform resource locator)检测方法在恶意URL检测时存在的精确率不高、实时性差等问题,提出一种基于Stacking集成学习的算法模型。该模型用ADB(adaptive boosting)、LR(logistic regression)、SVM(support vector machine)... 针对传统URL(uniform resource locator)检测方法在恶意URL检测时存在的精确率不高、实时性差等问题,提出一种基于Stacking集成学习的算法模型。该模型用ADB(adaptive boosting)、LR(logistic regression)、SVM(support vector machine)、GBDT(gradient boosting decision tree)和GNB(gaussian naive bayes)5种机器学习算法作为初级分类器,其多层结构使不同机器学习模型之间可以优势互补,提升检测系统的整体性能表现。最后,通过在测试集上进行性能评估,选出性能最优的集成组合。实验结果表明,基于Stacking方法融合基学习器的集成学习模型在召回率、准确率、精确率、F 1值等多项指标上优于传统机器学习模型,对恶意URL检测的准确率可达96.77%。 展开更多
关键词 恶意url 机器识别 Stacking模型 集成学习 基学习器
在线阅读 下载PDF
基于多粒度分层建模的恶意URL检测模型
4
作者 肖军弼 牟丹 《计算机与数字工程》 2025年第2期505-509,共5页
恶意URL检测对于网络安全防护十分重要。针对传统机器学习中特征信息损失和现有深度学习方法上下文建模不充分的问题,论文提出了一种基于多粒度分层建模的恶意URL检测模型。该方法从字符和词汇两个特征粒度上进行建模,对于每个特征粒度... 恶意URL检测对于网络安全防护十分重要。针对传统机器学习中特征信息损失和现有深度学习方法上下文建模不充分的问题,论文提出了一种基于多粒度分层建模的恶意URL检测模型。该方法从字符和词汇两个特征粒度上进行建模,对于每个特征粒度先使用卷积神经网络建模局部上下文信息,引入注意力机制进一步建模上下文信息得到信息增强的特征表示,将特征多粒度建模和上下文分层建模相结合充分提取URL的特征表示来进行恶意检测。实验结果表明,论文模型的准确率达到98%,相较于现有方法在性能上有一定的提升。 展开更多
关键词 恶意url 分层建模 卷积神经网络 注意力机制
在线阅读 下载PDF
引入注意力机制的恶意URL检测算法研究 被引量:1
5
作者 刘拥民 翟佳慧 +2 位作者 徐卓农 邓伟豪 麻海志 《河北工业科技》 2025年第3期221-230,共10页
为解决传统模型在处理长统一资源定位系统(uniform resource locator,URL)时难以捕捉全局和局部特征的问题,提出了一种基于分层注意力机制的BERT-CNN模型。该模型通过来自变换器的双向编码器表征量(bidirectional encoder representatio... 为解决传统模型在处理长统一资源定位系统(uniform resource locator,URL)时难以捕捉全局和局部特征的问题,提出了一种基于分层注意力机制的BERT-CNN模型。该模型通过来自变换器的双向编码器表征量(bidirectional encoder representations from transformers,BERT)模块捕捉URL的全局语义信息,并利用卷积神经网络(convolutional neural network,CNN)提取URL的局部特征,在BERT和CNN之间引入分层注意力机制,在不同层次上动态分配注意力权重,加强捕捉URL中的关键信息;引入稀疏注意力机制,减少模型的计算复杂度和内存开销,同时保留BERT的全局语义理解能力;在公开的恶意URL检测数据集上进行对比实验、消融实验以及可视化实验,验证所提模型的性能。结果表明:基于分层注意力机制的BERT-CNN模型在检测恶意URL时的准确率达到了96.8%,相比基线BERT-CNN模型提高了2.5个百分点;F 1分数达到了95.3%,相比基线BERT-CNN模型提高了2.1个百分点。引入注意力机制的恶意URL检测模型在捕捉URL全局和局部特征方面具有显著优势,可为异常流量检测提供新的技术路径和解决方案。 展开更多
关键词 自然语言处理 卷积神经网络 恶意url BERT模型 分层注意力机制
在线阅读 下载PDF
CBi_AT:基于字符级和单词级的恶意URL检测
6
作者 郭应政 袁建廷 钱育蓉 《计算机应用与软件》 北大核心 2025年第5期332-340,共9页
针对恶意URL的高效检测问题,目前基于黑名单的检测方法时效性差且适应性弱,基于传统机器学习的检测方法效率和准确率较低。该文充分考虑URL的语义含义和时序特征,设计一种混合神经网络模型(CBi_AT),同时从字符级和单词级水平处理URL,有... 针对恶意URL的高效检测问题,目前基于黑名单的检测方法时效性差且适应性弱,基于传统机器学习的检测方法效率和准确率较低。该文充分考虑URL的语义含义和时序特征,设计一种混合神经网络模型(CBi_AT),同时从字符级和单词级水平处理URL,有效地捕获URL字符串的语义含义和时序特征,并引入多组注意力机制,抽取URL数据之间的关联性和依赖关系。实验结果表明,该混合神经网络模型能够高效检测恶意URL,可达到99.86%的准确率和99.85%的F1值。 展开更多
关键词 网络安全 恶意url 混合神经网络模型 注意力机制
在线阅读 下载PDF
基于组件分割的钓鱼URL检测方法
7
作者 钟文康 王添 张功萱 《信息安全学报》 2025年第1期130-142,共13页
URL作为钓鱼网站最直接也是最重要的特征,利用深度学习的方法对分词后的URL字符序列进行特征提取,可以极大的提升基于URL的钓鱼网站识别的准确率。将URL按照不同组件进行分割是URL常见的分词手段,该方法能够对不同组件进行多粒度的特征... URL作为钓鱼网站最直接也是最重要的特征,利用深度学习的方法对分词后的URL字符序列进行特征提取,可以极大的提升基于URL的钓鱼网站识别的准确率。将URL按照不同组件进行分割是URL常见的分词手段,该方法能够对不同组件进行多粒度的特征判别,但是这一方法未能在钓鱼网站的URL检测中得到有效应用,尚缺乏深入的研究。此外,现有的基于深度学习的钓鱼网站URL检测方法由于实验数据以及模型训练方法上的局限性,在泛化能力和误报率方面仍存在不足,难以满足真实环境中复杂的识别需求。为解决上述问题,本文提出了一种基于组件分割的钓鱼URL检测方法:(1)该方法首先对URL的不同组件进行分割,并对各组件依次进行字符级分词、截断填充及编码,使得深度学习模型能够对不同组件采取不同层级的管理从而进行细粒度的特征判别。(2)为了避免卷积神经网络中采用的池化策略过于关注局部特征而忽视特征整体空间结构的问题,本文所提方法将对融合后的各组件特征利用胶囊网络进一步提取。(3)在模型训练方法中引入对抗训练机制,对多嵌入层进行独立对抗训练,以满足模型对各组件的差异化处理,从而进一步提升模型的泛化能力。最后,在百万级的样本数据集中,与现有的最先进的同类方法相比,所提方法在钓鱼URL的识别准确率上提升0.86%,误报率降低1.08%,F1-Score提升0.95%。 展开更多
关键词 钓鱼url检测 胶囊网络 对抗训练 数据处理 深度学习
在线阅读 下载PDF
A Filter-Based Feature Selection Framework to Detect Phishing URLs Using Stacking Ensemble Machine Learning
8
作者 Nimra Bari Tahir Saleem +3 位作者 Munam Shah Abdulmohsen Algarni Asma Patel Insaf Ullah 《Computer Modeling in Engineering & Sciences》 2025年第10期1167-1187,共21页
Today,phishing is an online attack designed to obtain sensitive information such as credit card and bank account numbers,passwords,and usernames.We can find several anti-phishing solutions,such as heuristic detection,... Today,phishing is an online attack designed to obtain sensitive information such as credit card and bank account numbers,passwords,and usernames.We can find several anti-phishing solutions,such as heuristic detection,virtual similarity detection,black and white lists,and machine learning(ML).However,phishing attempts remain a problem,and establishing an effective anti-phishing strategy is a work in progress.Furthermore,while most antiphishing solutions achieve the highest levels of accuracy on a given dataset,their methods suffer from an increased number of false positives.These methods are ineffective against zero-hour attacks.Phishing sites with a high False Positive Rate(FPR)are considered genuine because they can cause people to lose a lot ofmoney by visiting them.Feature selection is critical when developing phishing detection strategies.Good feature selection helps improve accuracy;however,duplicate features can also increase noise in the dataset and reduce the accuracy of the algorithm.Therefore,a combination of filter-based feature selection methods is proposed to detect phishing attacks,including constant feature removal,duplicate feature removal,quasi-feature removal,correlated feature removal,mutual information extraction,and Analysis of Variance(ANOVA)testing.The technique has been tested with differentMachine Learning classifiers:Random Forest,Artificial Neural Network(ANN),Ada-Boost,Extreme Gradient Boosting(XGBoost),Logistic Regression,Decision Trees,Gradient Boosting Classifiers,Support Vector Machine(SVM),and two types of ensemble models,stacking and majority voting to gain A low false positive rate is achieved.Stacked ensemble classifiers(gradient boosting,randomforest,support vector machine)achieve 1.31%FPR and 98.17%accuracy on Dataset 1,2.81%FPR and Dataset 3 shows 2.81%FPR and 97.61%accuracy,while Dataset 2 shows 3.47%FPR and 96.47%accuracy. 展开更多
关键词 Phishing detection feature selection phishing detection stacking ensemble machine learning phishing url
在线阅读 下载PDF
基于深度学习的恶意URL检测与研究 被引量:1
9
作者 校景中 胡鑫 +1 位作者 张亮 吴宜融 《西南民族大学学报(自然科学版)》 2024年第6期660-665,共6页
在数字化时代,网络安全问题尤为突出,特别是恶意URL的广泛传播对个人隐私和企业安全构成严重威胁.尽管现有研究在英文环境下取得了进展,但中文网络环境的研究相对较少,且缺乏大规模的中文网URL数据集.为了填补这一空白,本研究构建了一... 在数字化时代,网络安全问题尤为突出,特别是恶意URL的广泛传播对个人隐私和企业安全构成严重威胁.尽管现有研究在英文环境下取得了进展,但中文网络环境的研究相对较少,且缺乏大规模的中文网URL数据集.为了填补这一空白,本研究构建了一个大规模的中文网URL数据集,并提出了一种基于双向长短期记忆网络(BiLSTM)和注意力增强卷积神经网络(Attention-augmented CNN)的混合模型(BiAC),用于检测恶意URL.BiAC模型通过深度融合BiLSTM捕捉的时序和语法特征,以及Attention-augmented CNN提取的语义特征,显著提升了检测的准确性和效率.实验结果显示,BiAC模型在恶意中文网URL检测任务上具有97.53%的准确率和93.05%的F1 Score,超越了传统模型.这一成果不仅验证了模型设计的有效性,也凸显了构建专门针对中文环境的数据集的重要性,对提升网络安全防护能力具有重要的现实意义和应用价值. 展开更多
关键词 深度学习 恶意url检测 卷积神经网络
在线阅读 下载PDF
基于多尺度注意力特征融合的恶意URL检测研究
10
作者 马栋林 陈伟杰 +1 位作者 赵宏 宋佳佳 《电子测量技术》 北大核心 2024年第20期15-23,共9页
针对当前恶意URL检测模型在处理复杂结构和多样化字符组合的URL时,存在特征提取单一和检测精度不高的问题,提出了一种基于多尺度注意力特征融合的恶意URL检测模型。首先,采用Character Embeddings和DistilBERT方法分别对字符和单词进行... 针对当前恶意URL检测模型在处理复杂结构和多样化字符组合的URL时,存在特征提取单一和检测精度不高的问题,提出了一种基于多尺度注意力特征融合的恶意URL检测模型。首先,采用Character Embeddings和DistilBERT方法分别对字符和单词进行编码,以捕获URL字符串中字符级和词级特征表示。其次,通过改进卷积神经网络(CNN)提取不同尺度的字符结构特征和词级语义特征,并结合双向长短期记忆网络(BiLSTM)进一步提取深层次序列特征。此外,为了实现字符级与词级多尺度特征的动态融合,创新性地引入注意力特征融合模块(AFF),有效降低信息冗余并提升对长距离序列特征的提取能力。实验结果表明,所提模型与其他基准模型相比,准确率提升了0.32%~4.7%,F1分数提升了0.46%~5.5%,并在ISCX-URL2016等数据集上也达到了较好的测效果。 展开更多
关键词 恶意url检测 多尺度特征 卷积神经网络 双向长短时记忆网络 注意力特征融合
原文传递
融合对抗训练与BERT-CNN-BiLSTM多通道神经网络的恶意URL检测研究
11
作者 刘卓娴 王靖亚 石拓 《信息网络安全》 CSCD 北大核心 2024年第12期1922-1932,共11页
恶意URL是一种用于定位网络资源的标识符,常被用于实施欺骗、勒索和窃取信息等恶意行为,是近年来多种网络攻击的重要媒介,给受害者造成了巨大损失。针对恶意URL攻击日益猖獗的现状,以及恶意URL本身特征复杂、混淆性强且欺骗性高的问题,... 恶意URL是一种用于定位网络资源的标识符,常被用于实施欺骗、勒索和窃取信息等恶意行为,是近年来多种网络攻击的重要媒介,给受害者造成了巨大损失。针对恶意URL攻击日益猖獗的现状,以及恶意URL本身特征复杂、混淆性强且欺骗性高的问题,同时考虑现有研究中特征提取不充分以及对模型鲁棒性和泛化能力关注不够的局限性,文章提出一种融合对抗训练与BERT-CNN-BiLSTM多通道神经网络的恶意URL检测模型。该模型将URL视为文本序列,利用BERT模型进行预处理,分别通过CNN层和Bi LSTM层提取局部语义特征和捕捉上下文语序特征,并通过FGM对抗训练方法对Embedding层施加扰动,从而提升模型的准确性和鲁棒性。在公开数据集上的实验结果表明,该模型在URL二分类任务中的分类准确率达到97.2%。消融实验和对比实验进一步验证了该模型在多个评价指标上的显著优势。此外,该模型在针对恶意URL更加精细化分类的任务中同样表现优异,在URL五分类任务中的分类准确率达到98.25%。 展开更多
关键词 对抗训练 BERT 多通道神经网络 恶意url检测
在线阅读 下载PDF
基于混合嵌入和胶囊网络的恶意URL分类模型
12
作者 于晓琪 金彦亮 《工业控制计算机》 2024年第2期114-116,共3页
作为最常见的网络安全威胁之一,恶意URL攻击每年都会造成巨大的经济损失,尽管研究人员已经提出了许多方法来检测恶意URL,但现有方法存在不能充分利用URL提供的有用信息和对URL中的区分性特征提取不充分的问题,导致分类性能不佳。提出了... 作为最常见的网络安全威胁之一,恶意URL攻击每年都会造成巨大的经济损失,尽管研究人员已经提出了许多方法来检测恶意URL,但现有方法存在不能充分利用URL提供的有用信息和对URL中的区分性特征提取不充分的问题,导致分类性能不佳。提出了一种基于混合嵌入和胶囊网络的恶意URL分类模型,引入高速网络和胶囊网络从URL的混合嵌入表示中提取区分性特征,提高了模型的分类性能。在公开数据集ISCX-URL2016上的实验结果表明,该文模型与其他基线方法相比,实现了更好的分类性能,能够有效应对混淆技术的多样性。 展开更多
关键词 恶意url分类 胶囊网络 高速网络 深度学习
在线阅读 下载PDF
网络信息资源归档挑战与对策——基于URL无序性和时效性差异的视角
13
作者 刘冰 《兰台内外》 2024年第16期31-33,共3页
根据西方网络信息资源归档最新理论与实践成果及将异常现象作为示踪剂的研究方法,本研究尝试将网络信息资源归档系统的后台异常现象引导至前台讨论,从URL无序性和时效性差异的研究视角阐释解构、规范URL的必要性以及通过自动代码或搜索... 根据西方网络信息资源归档最新理论与实践成果及将异常现象作为示踪剂的研究方法,本研究尝试将网络信息资源归档系统的后台异常现象引导至前台讨论,从URL无序性和时效性差异的研究视角阐释解构、规范URL的必要性以及通过自动代码或搜索工具对时间戳展开简单聚合或排序的弊端,提出超越以算法为中心的归档逻辑并广泛关注网络基础设施动态与关系互动或对我国网络信息资源归档研究具有一定启示。 展开更多
关键词 网络档案 异常现象 算法 url 时效性
在线阅读 下载PDF
Securing Web by Predicting Malicious URLs
14
作者 Imran Khan Meenakshi Megavarnam 《Journal of Cyber Security》 2024年第1期117-130,共14页
A URL(Uniform Resource Locator)is used to locate a digital resource.With this URL,an attacker can perform a variety of attacks,which can lead to serious consequences for both individuals and organizations.Therefore,at... A URL(Uniform Resource Locator)is used to locate a digital resource.With this URL,an attacker can perform a variety of attacks,which can lead to serious consequences for both individuals and organizations.Therefore,attackers create malicious URLs to gain access to an organization’s systems or sensitive information.It is crucial to secure individuals and organizations against these malicious URLs.A combination of machine learning and deep learning was used to predict malicious URLs.This research contributes significantly to the field of cybersecurity by proposing a model that seamlessly integrates the accuracy of machine learning with the swiftness of deep learning.The strategic fusion of Random Forest(RF) and Multilayer Perceptron(MLP)with an accuracy of 81% represents a noteworthy advancement,offering a balanced solution for robust cybersecurity.This study found that by combining RF and MLP,an efficient model was developed with an accuracy of 81%and a training time of 33.78 s. 展开更多
关键词 Malicious urls PREDICTION machine learning deep learning random forest multilayer perceptron securing web
在线阅读 下载PDF
北山地下实验室场区及周边环境空气氡浓度水平调查研究 被引量:1
15
作者 夏子通 凌辉 +1 位作者 范文哲 贺三军 《世界核地质科学》 2025年第1期146-154,共9页
采用径迹法对北山地下实验室场区和周边区域的空气氡浓度进行为期一年的调查,查明区域的氡浓度本底水平,分析人为活动和气象因素对氡浓度的影响。结果表明,区域空气氡浓度范围介于10~64 Bq·m^(-3)之间,平均值为27 Bq·m^(-3),... 采用径迹法对北山地下实验室场区和周边区域的空气氡浓度进行为期一年的调查,查明区域的氡浓度本底水平,分析人为活动和气象因素对氡浓度的影响。结果表明,区域空气氡浓度范围介于10~64 Bq·m^(-3)之间,平均值为27 Bq·m^(-3),场区外、科研管理区和运行维护区的氡浓度水平差异较小,人为活动对区域氡浓度的影响较为有限;根据皮尔逊相关系数分析结果,氡浓度与温度呈正相关,不同季节的氡浓度差异与温度相关性分析结果一致;风速对氡浓度的影响较为复杂,两者没有表现出明显的相关性。本研究为北山地下实验室的氡气长期监测及健康风险评估提供数据支撑和经验反馈。 展开更多
关键词 北山地下实验室 皮尔逊相关系数 花岗岩 固体径迹法
在线阅读 下载PDF
一种面向大规模URL过滤的多模式串匹配算法 被引量:14
16
作者 刘燕兵 邵妍 +2 位作者 王勇 刘庆云 郭莉 《计算机学报》 EI CSCD 北大核心 2014年第5期1159-1169,共11页
对大量有害的URL进行过滤,是目前网络安全应用系统中所亟需的关键技术.使用经典的串匹配算法检测庞大的URL规则集,需要消耗大量的计算资源和存储资源,性能十分低下.该文设计了一种适合于大规模URL过滤的多模式串匹配算法——SOGOPT.该... 对大量有害的URL进行过滤,是目前网络安全应用系统中所亟需的关键技术.使用经典的串匹配算法检测庞大的URL规则集,需要消耗大量的计算资源和存储资源,性能十分低下.该文设计了一种适合于大规模URL过滤的多模式串匹配算法——SOGOPT.该算法在经典的SOG算法基础上,针对URL规则的特点,提出了最优窗口选择、模式串分组规约这两种优化技术,大幅度提高了SOG算法的匹配速度,在大规模URL规则集上效果尤其显著.该文设计的算法非常适合于大规模(100万级)URL实时在线匹配的应用环境. 展开更多
关键词 多模式串匹配 url过滤 最优窗口选择 模式串分组规约 信息安全 网络安全
在线阅读 下载PDF
高效的基于段模式的恶意URL检测方法 被引量:10
17
作者 林海伦 李焱 +2 位作者 王伟平 岳银亮 林政 《通信学报》 EI CSCD 北大核心 2015年第S1期141-148,共8页
提出一种高效的基于段模式的检测恶意URL的方法,该方法首先解析已标注的恶意URL中的域名、路径名和文件名3个语义段,然后通过建立以三元组为词项的倒排索引快速计算恶意URL每个语义段的模式,最后基于倒排索引查找到的段模式来判定给定的... 提出一种高效的基于段模式的检测恶意URL的方法,该方法首先解析已标注的恶意URL中的域名、路径名和文件名3个语义段,然后通过建立以三元组为词项的倒排索引快速计算恶意URL每个语义段的模式,最后基于倒排索引查找到的段模式来判定给定的URL是否是恶意URL。不仅如此,该方法还支持基于Jaccard的随机域名识别技术来判定包含随机域名的恶意URL。实验结果表明,与当前先进的基准方法相比,该方法具有较好的性能和可扩展性。 展开更多
关键词 恶意url 段模式 三元组 倒排索引 随机域名
在线阅读 下载PDF
基于URL主题的查询分类方法 被引量:14
18
作者 张宇 宋巍 +1 位作者 刘挺 李生 《计算机研究与发展》 EI CSCD 北大核心 2012年第6期1298-1305,共8页
互联网上很多资源蕴含人类群体智慧.分类网站目录人工地对网站按照主题进行组织.基于网站目录中具有主题标注的URL设计URL主题分类器,结合伪相关反馈技术以及搜索引擎查询日志,提出了自动、快速、有效的查询主题分类方法.具体地,方法为... 互联网上很多资源蕴含人类群体智慧.分类网站目录人工地对网站按照主题进行组织.基于网站目录中具有主题标注的URL设计URL主题分类器,结合伪相关反馈技术以及搜索引擎查询日志,提出了自动、快速、有效的查询主题分类方法.具体地,方法为2种策略的结合.策略1通过计算搜索结果中URL的主题分布预测查询主题,策略2基于查询日志点击关系,利用具有主题标注的URL,对查询进行标注获取数据并训练统计分类器预测查询主题.实验表明,方法可获得比当前最好算法更好的准确率,更好的在线处理效率并且可基于查询日志自动获取训练数据,具有良好的可扩展性. 展开更多
关键词 查询分类 url分类 查询日志 伪相关反馈 统计学习
在线阅读 下载PDF
中国大学网站URL引用网络结构特征与相关因素研究 被引量:8
19
作者 唐川 刘春江 +3 位作者 徐婧 张娟 张勐 房俊民 《情报杂志》 CSSCI 北大核心 2014年第4期46-51,共6页
以100所中国大学网站所构成的URL引用网络为对象,借助社会网络分析方法揭示了其主要网络特征,并结合大学的科研能力、师资力量、国家支持力度、区域政治经济水平等,探索了可能影响网络结构的相关因素。研究发现:中国大学网站URL引用网... 以100所中国大学网站所构成的URL引用网络为对象,借助社会网络分析方法揭示了其主要网络特征,并结合大学的科研能力、师资力量、国家支持力度、区域政治经济水平等,探索了可能影响网络结构的相关因素。研究发现:中国大学网站URL引用网络具有明显的核心-边缘结构特征,此结构受大学科研能力、师资力量和国家支持力度等因素影响;存在若干信息交流能力较强的网站,且大学网站的信息交流能力与大学科研能力、师资力量、国家支持力度与所在区域政治经济水平等因素紧密相关。 展开更多
关键词 大学网站 url引用网络 网络结构 社会网络 相关因素
在线阅读 下载PDF
一种基于并行Bloom Filter的高速URL查找算法 被引量:7
20
作者 周舟 付文亮 +1 位作者 嵩天 刘庆云 《电子学报》 EI CAS CSCD 北大核心 2015年第9期1833-1840,共8页
URL查找是众多网络系统中重要的组成部分,如URL过滤系统、Web缓存等.随着互联网的迅速发展,URL查找面临的主要挑战是实现大规模URL集合下的高速查找,同时保证低存储和低功耗.本文提出了一种基于并行Bloom Filter的URL查找算法,CaBF.该... URL查找是众多网络系统中重要的组成部分,如URL过滤系统、Web缓存等.随着互联网的迅速发展,URL查找面临的主要挑战是实现大规模URL集合下的高速查找,同时保证低存储和低功耗.本文提出了一种基于并行Bloom Filter的URL查找算法,CaBF.该算法高度并行化,提供大规模URL集合下的高速最长前缀匹配,并很好地适应集合中不同数量的URL组件.理论分析和真实网络数据集上的实验表明,该算法相比现有算法可以降低假阳性概率达一个数量级(或者在满足相同假阳性概率的前提下降低存储和硬件逻辑资源消耗).此外,该方法的体系结构很容易映射到FPGA等硬件器件上,提供每秒超过150M次的URL查找速度. 展开更多
关键词 url查找 布鲁姆过滤器 最长前缀匹配 现场可编程门阵列
在线阅读 下载PDF
上一页 1 2 43 下一页 到第
使用帮助 返回顶部