期刊文献+
共找到968篇文章
< 1 2 49 >
每页显示 20 50 100
分布式Web Crawler的研究:结构、算法和策略 被引量:23
1
作者 叶允明 于水 +2 位作者 马范援 宋晖 张岭 《电子学报》 EI CAS CSCD 北大核心 2002年第12A期2008-2011,共4页
本文介绍了一个大型分布式Web Crawler系统——Igloo 1.2版。它采用分布式的系统结构,通过我们设计的二级哈希映射算法使系统可以进行高效的任务分割,并且系统的规模动态可扩展.爬行网页的质量是评价Crawler的一个重要指标,Igloo以PageR... 本文介绍了一个大型分布式Web Crawler系统——Igloo 1.2版。它采用分布式的系统结构,通过我们设计的二级哈希映射算法使系统可以进行高效的任务分割,并且系统的规模动态可扩展.爬行网页的质量是评价Crawler的一个重要指标,Igloo以PageRank值作为网页质量评价的标准,从而提高了爬行质量.加快爬行速度的关键是如何解除Crawler系统中的性能瓶颈,本文对此也作了详细的讨论,并提出了一种基于“滞后合并”策略的UBL数据库存取方法.实验表明,Igloo在保持高性能的同时能快速爬行到高质量的网页. 展开更多
关键词 web爬虫 爬行策略 分布式系统 计算机网络 网页
在线阅读 下载PDF
Design of a Web Crawler for Water Quality Monitoring Data and Data Visualization
2
作者 Ziwen Yu Jianjun Zhang +6 位作者 Wenwu Tan Ziyi Xiong Peilun Li Liangqing Meng Haijun Lin Guang Sun Peng Guo 《Journal on Big Data》 2022年第2期135-143,共9页
Many countries are paying more and more attention to the protection of water resources at present,and how to protect water resources has received extensive attention from society.Water quality monitoring is the key wo... Many countries are paying more and more attention to the protection of water resources at present,and how to protect water resources has received extensive attention from society.Water quality monitoring is the key work to water resources protection.How to efficiently collect and analyze water quality monitoring data is an important aspect of water resources protection.In this paper,python programming tools and regular expressions were used to design a web crawler for the acquisition of water quality monitoring data from Global Freshwater Quality Database(GEMStat)sites,and the multi-thread parallelism was added to improve the efficiency in the process of downloading and parsing.In order to analyze and process the crawled water quality data,Pandas and Pyecharts are used to visualize the water quality data to show the intrinsic correlation and spatiotemporal relationship of the data. 展开更多
关键词 Water quality monitoring data web crawler data visualization
在线阅读 下载PDF
BP网络在Web Crawler中的应用
3
作者 张艳艳 《微计算机信息》 北大核心 2008年第27期95-96,119,共3页
本文介绍了Web Crawler和BP网络的基本原理,在此基础上,应用BP网络对网页变化的时间间隔进行建模,通过BP算法训练得到一个预测模型,预测出各网页的变化时间间隔,通过与实际采集的时间间隔相比较判断网页是否发生变化。实验证明,BP网络... 本文介绍了Web Crawler和BP网络的基本原理,在此基础上,应用BP网络对网页变化的时间间隔进行建模,通过BP算法训练得到一个预测模型,预测出各网页的变化时间间隔,通过与实际采集的时间间隔相比较判断网页是否发生变化。实验证明,BP网络能够有效预测网页变化的时间间隔,指导增量更新。 展开更多
关键词 webcrawler BP网络 预测模型
在线阅读 下载PDF
增量更新Crawler进行Web收集方法研究 被引量:2
4
作者 程菲 汪建海 罗键 《计算机工程与科学》 CSCD 2006年第12期28-30,98,共4页
本文针对目前Web信息挖掘中存在的各种问题,对网络爬虫系统进行研究,提出了一种基于HTTP协议原理、旨在减少网络爬虫系统运行时网络流量的Web页面收集方法———增量更新Crawler方法。该方法通过Web预取技术对现有的Web链接数据库进行... 本文针对目前Web信息挖掘中存在的各种问题,对网络爬虫系统进行研究,提出了一种基于HTTP协议原理、旨在减少网络爬虫系统运行时网络流量的Web页面收集方法———增量更新Crawler方法。该方法通过Web预取技术对现有的Web链接数据库进行演化更新,可以在减少网络流量的同时获得接近现有网络爬虫系统的效果。 展开更多
关键词 信息检索 网络爬虫 增量更新
在线阅读 下载PDF
基于机器学习的Web网络爬虫算法优化研究
5
作者 刘俊培 贾继洋 +2 位作者 班岚 迟欢 孙沛叶 《软件》 2024年第4期4-7,共4页
随着互联网的不断发展,网络爬虫在信息获取和数据挖掘等领域中的应用越来越广泛。同时在互联网相关应用中,机器学习技术成为一种非常重要的手段,能够完成更加高效和准确的网络爬取。然而,现有的网络爬虫算法还存在着很多问题,比如效率... 随着互联网的不断发展,网络爬虫在信息获取和数据挖掘等领域中的应用越来越广泛。同时在互联网相关应用中,机器学习技术成为一种非常重要的手段,能够完成更加高效和准确的网络爬取。然而,现有的网络爬虫算法还存在着很多问题,比如效率低下、容易被封禁等。因此,本文对现有的网络爬虫算法进行分析和总结,找出其中存在的问题和不足之处,提出一种基于机器学习的网络爬虫算法优化方法,使其更加智能和自适应,以期更好地满足实际应用的需求。 展开更多
关键词 机器学习 web网络爬虫算法 算法优化
在线阅读 下载PDF
Web前端组件中的跨站脚本攻击检测算法研究
6
作者 李新荣 谢绍敏 《现代电子技术》 北大核心 2024年第14期30-34,共5页
前端组件涉及多个数据流,包括用户输入、服务器返回的数据等,恶意脚本会隐藏在这些数据流中,且跨站脚本攻击存在变异性和不确定性,导致对其检测困难。因此,提出一种Web前端组件中的跨站脚本攻击检测算法。使用基于网络爬虫的Web前端组... 前端组件涉及多个数据流,包括用户输入、服务器返回的数据等,恶意脚本会隐藏在这些数据流中,且跨站脚本攻击存在变异性和不确定性,导致对其检测困难。因此,提出一种Web前端组件中的跨站脚本攻击检测算法。使用基于网络爬虫的Web前端组件跨站脚本信息抓取模型,抓取不重复冗余的Web前端组件跨站脚本信息;再将所抓取的脚本信息作为多分类支持向量机算法的训练样本。检测之前,在权威Web漏洞提交平台Exploit-db中,提取大规模变形跨站脚本信息样本,使用训练完毕的多分类支持向量机对抓取的脚本信息进行分类和检测。实验结果表明,所提算法对100条反射型跨站脚本攻击、50条存储型跨站脚本攻击、10条DOM型跨站脚本攻击的数据分类结果准确,且分类结果的样本分布中,攻击跨站脚本会按照攻击类型有序分布。 展开更多
关键词 web前端组件 跨站脚本 攻击检测 网络爬虫 信息抓取 多分类支持向量机
在线阅读 下载PDF
Chameleon聚类算法在Web开源情报主题挖掘中的应用研究
7
作者 方世敏 《信息技术》 2024年第11期63-68,76,共7页
信息时代的开源情报传播速度快、体量大、时效性强,大量数据难以用人工进行分析,为了解决对海量数据分析的效率,研究设计了Web开源情报信息处理方法。该方法首先利用网络爬虫通过URL爬取目标情报,之后用DOM树对网页内容进行整理,采用Tex... 信息时代的开源情报传播速度快、体量大、时效性强,大量数据难以用人工进行分析,为了解决对海量数据分析的效率,研究设计了Web开源情报信息处理方法。该方法首先利用网络爬虫通过URL爬取目标情报,之后用DOM树对网页内容进行整理,采用TextRank算法提取关键词并使用Chameleon聚类算法构建主题挖掘模型,该模型用于情报主题生成,自动进行情报主题分析。性能测试表明,基于Chameleon聚类算法的Web开源情报信息处理方法能够对开源情报进行有效分析。 展开更多
关键词 CHAMELEON web开源情报 主题挖掘 网络爬虫
在线阅读 下载PDF
广西非遗文化知识图谱构建与数据处理研究 被引量:1
8
作者 张涛 周卫 《智能计算机与应用》 2025年第3期72-78,共7页
非物质文化遗产代表着地区文化历史的沉淀,是中华优秀传统文化的重要组成部分,也是人类文明的宝贵财富,具有无可替代的历史文化价值。对于维护文化多样性来说,保护和传承非物质文化遗产至关重要。然而,在当前网络环境下,广西的非物质文... 非物质文化遗产代表着地区文化历史的沉淀,是中华优秀传统文化的重要组成部分,也是人类文明的宝贵财富,具有无可替代的历史文化价值。对于维护文化多样性来说,保护和传承非物质文化遗产至关重要。然而,在当前网络环境下,广西的非物质文化遗产信息存在着杂乱无章、结构不清晰的问题。针对此问题,通过采用Python爬虫技术,对广西非物质文化遗产信息进行了系统采集,通过应用自然语言处理模型、特别是命名实体识别和关系抽取技术,能够将其中的非结构化信息转化为结构化数据,随后对这些数据进行了全面整理和清洗。最终,运用知识图谱技术的强大信息整合和表示能力,成功构建出一个结构清晰的广西非物质文化遗产知识图谱。 展开更多
关键词 知识图谱 Python爬虫 命名实体识别 关系抽取 Neo4j图数据库 RoBERTa
在线阅读 下载PDF
基于大数据的装配式建筑密封胶应用性能与可靠性分析
9
作者 李元元 《粘接》 2025年第2期5-8,共4页
为了提高建筑的整体防水性能和耐久性,分析基于大数据的装配式建筑密封胶应用性能可靠性。使用基于Python的网络爬虫技术构建装配式建筑密封胶相关专利功能语料库,以此为基础制备装配式建筑用硅烷改性密封胶。测试硅烷偶联剂用量为0.4%~... 为了提高建筑的整体防水性能和耐久性,分析基于大数据的装配式建筑密封胶应用性能可靠性。使用基于Python的网络爬虫技术构建装配式建筑密封胶相关专利功能语料库,以此为基础制备装配式建筑用硅烷改性密封胶。测试硅烷偶联剂用量为0.4%~3.2%时对密封胶表干时间、固化时间、粘接强度以及稀释剂用量对密封胶拉伸强度影响,最后测试光照老化和浸水老化对密封胶耐老化性能影响。试验结果表明,硅烷偶联剂用量为1.6%时表干时间较短,固化时间较优且粘接强度较高,稀释剂用量为11%时密封胶拉伸强度最优。该密封胶经过长时间光照老化、浸水老化和加热老化后具有较强耐老化性能。 展开更多
关键词 装配式建筑 密封胶 表干时间 网络爬虫 硅烷偶联剂
在线阅读 下载PDF
Deep Learning-Based NLP Framework for Public Sentiment Analysis on Green Consumption:Evidence from Social Media
10
作者 Luyu Ma Xiu Cheng +2 位作者 Zongyan Xing Yue Wu Weiwei Jiang 《Computers, Materials & Continua》 2025年第11期3921-3943,共23页
Green consumption(GC)are crucial for achieving the SustainableDevelopmentGoals(SDGs).However,few studies have explored public attitudes toward GC using social media data,missing potential public concerns captured thro... Green consumption(GC)are crucial for achieving the SustainableDevelopmentGoals(SDGs).However,few studies have explored public attitudes toward GC using social media data,missing potential public concerns captured through big data.To address this gap,this study collects and analyzes public attention toward GC using web crawler technology.Based on the data from Sina Weibo,we applied RoBERTa,an advanced NLP model based on transformer architecture,to conduct fine-grained sentiment analysis of the public’s attention,attitudes and hot topics on GC,demonstrating the potential of deep learning methods in capturing dynamic and contextual emotional shifts across time and regions.Among the sample(N=188,509),53.91% expressed a positive attitude,with variation across different times and regions.Temporally,public interest in GC has shown an annual growth rate of 30.23%,gradually shifting fromfulfilling basic needs to prioritizing entertainment consumption.Spatially,GC is most prevalent in the southeast coastal regions of China,with Beijing ranking first across five evaluated domains.Individuals and government-affiliated accounts play a key role in public discussions on social networks,accounting for 45.89% and 30.01% of user reviews,respectively.A significant positive correlation exists between economic development and public attention to GC,as indicated by a Pearson correlation coefficient of 0.55.Companies,in particular,exhibit cautious behavior in the early stages of green product adoption,prioritizing profitability before making substantial investments.These findings provide valuable insights into the evolving public perception of GC,contributing to the development of more effective environmental policies in China. 展开更多
关键词 Green-consumption RoBERTa web crawler text sentiment analysis STAKEHOLDER
在线阅读 下载PDF
基于R语言的上市公司企业社会责任数据采集系统设计
11
作者 张益明 《山西电子技术》 2025年第1期70-72,共3页
数字经济时代下,高效的数据采集非常关键。不同于大部分基于Python的自动数据采集的是,着重介绍R语言环境下上市公司企业社会责任数据采集系统的设计,并测试了多线程技术下的采集效率。所介绍设计方案可以为其他财经数据的抓取提供有效... 数字经济时代下,高效的数据采集非常关键。不同于大部分基于Python的自动数据采集的是,着重介绍R语言环境下上市公司企业社会责任数据采集系统的设计,并测试了多线程技术下的采集效率。所介绍设计方案可以为其他财经数据的抓取提供有效的技术支持。 展开更多
关键词 数据采集 R 网页解析 爬虫 数据挖掘
在线阅读 下载PDF
基于网络爬虫及双词主题模型的4个主流在线平台帕金森病患者健康信息需求分析 被引量:1
12
作者 朱傲雪 毛惠娜 +2 位作者 谢惠玲 王梅 邓绮兰 《护理学报》 2025年第11期20-27,共8页
目的探索主流在线平台帕金森病患者的健康信息需求,为护理人员开展针对性健康信息服务提供依据。方法抓取4个主流在线平台的帕金森病交流文本,应用Python软件和双词主题模型(Biterm Topic Model,BTM),挖掘帕金森病患者健康信息需求并进... 目的探索主流在线平台帕金森病患者的健康信息需求,为护理人员开展针对性健康信息服务提供依据。方法抓取4个主流在线平台的帕金森病交流文本,应用Python软件和双词主题模型(Biterm Topic Model,BTM),挖掘帕金森病患者健康信息需求并进行主题划分,使用Gephi软件绘制各主题的关键词共现图。结果各主流在线平台的主题分析显示:知乎、贴吧、小红书、好大夫平台分别析出3、4、5、5个主题;对上述4个平台汇总的32852条文本进行分析,析出6类帕金森病健康信息需求:症状管理(“睡眠-疼痛-乏力”症状群加重疾病负担)、药物治疗(存在错误用药认知及不规范调药行为)、居家管理(饮食与运动管理缺乏可操作性指导)、家属照护(替代搜寻存在信息简化与报告失真风险)、手术治疗(术前适应证评估与术后药物-程控协同不明确)、疾病诊断(基层难以确诊患者在线求助专家)。结论帕金森病患者的健康信息需求以内容多维性和“患者-家属”双主体为特征,为护士实施多方联动、精准全面的健康信息服务提供新的证据支持。 展开更多
关键词 帕金森病 健康信息需求 网络爬虫 双词主题模型 主流在线平台
暂未订购
一种通用Web信息采集系统的设计与实现 被引量:11
13
作者 吴丽辉 王斌 余智华 《计算机工程》 EI CAS CSCD 北大核心 2005年第3期123-124,194,共3页
介绍了一种通用的Web信息采集系统,给出了系统总体结构,分析了信息采集器、采集控制服务器和信息发布服务器,讨论了系统实际的应用。实践证明,该系统能够对Internet信息进行自动采集,并对今后的应用提供充分的支持,具有良好的通用性。
关键词 web信息 通用性 采集系统 服务器 信息发布 信息采集 设计 证明 实际 系统总体结构
在线阅读 下载PDF
面向Web的信息收集工具的设计与开发 被引量:14
14
作者 潘春华 常敏 武港山 《计算机应用研究》 CSCD 北大核心 2002年第6期144-147,共4页
随着互联网的发展以及网上信息的日益丰富 ,传统的信息处理已经延伸到互联网领域。在对互联网上的信息进行处理时 ,常常要将分布在互联网各处的Web页面下载到本地供进一步处理 ;这便是所讨论的Web页面收集工具的核心功能。该页面收集系... 随着互联网的发展以及网上信息的日益丰富 ,传统的信息处理已经延伸到互联网领域。在对互联网上的信息进行处理时 ,常常要将分布在互联网各处的Web页面下载到本地供进一步处理 ;这便是所讨论的Web页面收集工具的核心功能。该页面收集系统在综合使用Web页面间的链接关系和页面内容的基础上 ,增加了多层次的页面过滤模块 ,可用来收集特定领域内的Web页面 ;同时可采用多机并行收集的方法提高页面收集的效率 ;采用大型数据库存放元收集信息 ,并对收集到的页面进行压缩 ,能够支持海量数据的收集 ;动态更新机制的实施使得下载到本地的页面信息能够得到及时的更新。 展开更多
关键词 web 信息收集工具 设计 页面收集 信息处理 网络爬虫 万维网 INTERNET
在线阅读 下载PDF
基于主题的Web信息采集系统的设计与实现 被引量:23
15
作者 李盛韬 赵章界 余智华 《计算机工程》 CAS CSCD 北大核心 2003年第17期102-104,共3页
基于主题的Web信息采集是信息检索领域内一个新兴且有实用价值的方向,也是信息处理技术中的一个研究热点。文章分析了主题Web信息采集的基本问题,提出了难点以及相关的解决方案,并在此基础上设计实现了“天达”主题Web信息采集系统。
关键词 信息采集 信息检索 信息处理 主题采集
在线阅读 下载PDF
分布式Web信息采集系统的研究与设计 被引量:10
16
作者 李盛韬 成绫 余智华 《计算机工程与应用》 CSCD 北大核心 2003年第16期162-166,182,共6页
Web信息的急速膨胀,使得Web信息采集面临一个巨大的挑战。针对这一情况,实现了一个分布式Web信息采集系统,以提高一般Web信息采集的能力。文章论述了分布式信息采集的基本原理、分类、难点以及相应的对策,并就该分布式Web信息采集系统... Web信息的急速膨胀,使得Web信息采集面临一个巨大的挑战。针对这一情况,实现了一个分布式Web信息采集系统,以提高一般Web信息采集的能力。文章论述了分布式信息采集的基本原理、分类、难点以及相应的对策,并就该分布式Web信息采集系统进行了仔细的剖析。最后,对分布式Web信息采集的发展作了一个展望。 展开更多
关键词 信息采集 分布式 搜索引擎 信息处理 web
在线阅读 下载PDF
改进的PageRank在Web信息搜集中的应用 被引量:12
17
作者 秦拯 张玲 李娜 《计算机研究与发展》 EI CSCD 北大核心 2006年第6期1044-1049,共6页
PageRank是一种用于网页排序的算法,它利用网页间的相互引用关系评价网页的重要性·但由于它对每条出链赋予相同的权值,忽略了网页与主题的相关性,容易造成主题漂移现象·在分析了几种PageRank算法基础上,提出了一种新的基于主... PageRank是一种用于网页排序的算法,它利用网页间的相互引用关系评价网页的重要性·但由于它对每条出链赋予相同的权值,忽略了网页与主题的相关性,容易造成主题漂移现象·在分析了几种PageRank算法基础上,提出了一种新的基于主题分块的PageRank算法·该算法按照网页结构对网页进行分块,依照各块与主题的相关性大小对块中的链接传递不同的PageRank值,并能根据已访问的链接对块进行相关性反馈·实验表明,所提出的算法能较好地改进搜索结果的精确度· 展开更多
关键词 PAGERANK算法 主题分块 web信息搜集
在线阅读 下载PDF
基于Python的全球7级大震趋势研判系统设计与实现
18
作者 马亚伟 孟令媛 +5 位作者 臧阳 韩颜颜 姜祥华 王月 解孟雨 杨志高 《地震研究》 北大核心 2025年第3期450-459,共10页
为提高全球7级以上地震的震后应急效率,设计并实现了一套基于Python的全球7级大震趋势研判系统。针对不同机构对同一地震测定的地震信息存在差异的问题,如震级标度不一致、定位存在差异等,通过统计历史地震提出了利用“时间差小于10 s... 为提高全球7级以上地震的震后应急效率,设计并实现了一套基于Python的全球7级大震趋势研判系统。针对不同机构对同一地震测定的地震信息存在差异的问题,如震级标度不一致、定位存在差异等,通过统计历史地震提出了利用“时间差小于10 s且定位误差小于2°即可确定为同一地震”的规则对相同地震进行匹配的规则;在上述规则下,利用Python爬虫技术获取地震目录及震源机制解等数据;利用PyGMT实现了地震分布等各类图件的自动绘制;最后实现了震后趋势研判PPT文档的自动产出。实际应用表明,该系统可以快速产出全球7级以上地震分布、历史地震、地质构造、震源机制解及其与大陆强震的统计关系等震后趋势研判资料,平均运行时间在1分钟内,显著提高全球7级以上大震的震后应急效率。 展开更多
关键词 网络爬虫 7级以上大震 地震应急 震后趋势研判
在线阅读 下载PDF
Web恶意代码主动检测与分析系统的设计与实现 被引量:5
19
作者 倪平 陈正果 +1 位作者 欧阳雄弈 王冬 《计算机应用》 CSCD 北大核心 2011年第A02期106-108,共3页
在深入研究了客户端蜜罐的基础上,提出了动态与静态相结合的Web恶意代码检测方法,实现了Web恶意代码主动检测与分析系统(HoneyCat)。该系统主动对指定的网站进行检测,并对可疑的页面进行分析,通过动态跟踪检测IE进程对注册表和文件的操... 在深入研究了客户端蜜罐的基础上,提出了动态与静态相结合的Web恶意代码检测方法,实现了Web恶意代码主动检测与分析系统(HoneyCat)。该系统主动对指定的网站进行检测,并对可疑的页面进行分析,通过动态跟踪检测IE进程对注册表和文件的操作以及其网络行为,发现是否存在可疑行为,然后对有可疑行为的网页进行静态分析。静态分析利用漏洞特征库定位恶意代码的准确位置和所利用的漏洞。对于无法识别所利用漏洞的页面生成一个分析文件,为手工分析提供帮助,有助于对漏洞的研究,并有机会发掘未知漏洞。经过测试发现该系统运行稳定,准确率高,能有效地检测出页面中的恶意代码。 展开更多
关键词 web恶意代码 客户端蜜罐 网络爬虫 动态检测 静态分析
在线阅读 下载PDF
Deep Web爬虫爬行策略研究 被引量:13
20
作者 郑冬冬 崔志明 《计算机工程与设计》 CSCD 北大核心 2006年第17期3154-3158,共5页
如今Web上越来越多的信息可以通过查询接口来获得,为了获取某DeepWeb站点的页面用户不得不键入一系列的关键词集。由于没有直接指向DeepWeb页面的静态链接,当前大多搜索引擎不能发现和索引这些页面。然而,近来研究表明DeepWeb站点提供... 如今Web上越来越多的信息可以通过查询接口来获得,为了获取某DeepWeb站点的页面用户不得不键入一系列的关键词集。由于没有直接指向DeepWeb页面的静态链接,当前大多搜索引擎不能发现和索引这些页面。然而,近来研究表明DeepWeb站点提供的高质量的信息对许多用户来说是非常有价值。这里研究了怎样建立起一个有效的DeepWeb爬虫,它可以自动发现和下载DeepWeb页面。由于DeepWeb惟一“入口点”是查询接口,DeepWeb爬虫设计面对的主要挑战是怎样对查询接口自动产生有意义的查询。这里提出一种针对查询接口查询自动产生问题的理论框架。通过在实际DeepWeb站点上的实验证明了此方法是非常有效的。 展开更多
关键词 DEEP web DEEP web爬虫 查询选择 查询效能 适应性爬行算法
在线阅读 下载PDF
上一页 1 2 49 下一页 到第
使用帮助 返回顶部