期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于网络爬虫的网页目标数据精准抓取方法 被引量:3
1
作者 高祖彦 《自动化与仪器仪表》 2024年第10期38-42,共5页
从海量的网络数据中提取出有价值的信息,为数据分析等应用提供强大的数据支持,网页目标数据的精准抓取的准确性和效率直接影响到后续数据分析和处理的效果,目前方法无法保障爬取数据的数量和质量,导致抓取到的数据不够完善,容易出现重... 从海量的网络数据中提取出有价值的信息,为数据分析等应用提供强大的数据支持,网页目标数据的精准抓取的准确性和效率直接影响到后续数据分析和处理的效果,目前方法无法保障爬取数据的数量和质量,导致抓取到的数据不够完善,容易出现重复性数据。因此,提出基于网络爬虫的网页目标数据精准抓取方法。详细分析网络爬虫的爬取过程,采用主题爬虫策略中的爬行器爬行指定网页,采用链接分析器中的基于HITS算法的网页链接分析算法,计算所有链接的权威值,选择权威值较高的链接作为下载目标;再利用目标数据主体识别器中的向量空间模型计算网页中待抓取数据与主题特征向量之间的相关性,按照相关性大小依次抓取网页中的数据,直至达到设定的停止条件后,从下载的网页中精准抓取所需数据。经实验分析可知:该方法可精准评估不同网页的权威性,在抓取数据时,可以保持较高的目标数据收获率,还能够提供一定的实时性与灵活性。 展开更多
关键词 网络爬虫 网页目标数据 精准抓取 主题爬虫 向量空间模型 收获率
原文传递
基于PowerBuilder实现多层分布式应用
2
作者 张益星 郭芳 《湖南工程学院学报(自然科学版)》 2007年第2期63-66,共4页
介绍了PowerDynamo的工作原理,以及在PowerBuider开发环境中基于PowerDynamo、JaguarCTS建立Web应用的技术核算,详细说明了如何使用PowerBuider创建Webtarget站点、创建网页及编写脚本。
关键词 PowerDynamo应用服务器 web数据窗口 webtarget
在线阅读 下载PDF
大数据背景下网络调查样本的建模推断问题研究——以广义Boosted模型的倾向得分推断为例 被引量:14
3
作者 刘展 潘莹丽 《统计研究》 CSSCI 北大核心 2019年第9期93-103,共11页
随着大数据和网络的不断发展,网络调查越来越广泛,大部分网络调查样本属于非概率样本,难以采用传统的抽样推断理论进行推断,如何解决网络调查样本的推断问题是大数据背景下网络调查发展的迫切需求。本文首次从建模的角度提出了解决该问... 随着大数据和网络的不断发展,网络调查越来越广泛,大部分网络调查样本属于非概率样本,难以采用传统的抽样推断理论进行推断,如何解决网络调查样本的推断问题是大数据背景下网络调查发展的迫切需求。本文首次从建模的角度提出了解决该问题的基本思路:一是入样概率的建模推断,可以考虑构建基于机器学习与变量选择的倾向得分模型来估计入样概率推断总体;二是目标变量的建模推断,可以考虑直接对目标变量建立参数、非参数或半参数超总体模型进行估计;三是入样概率与目标变量的双重建模推断,可以考虑进行倾向得分模型与超总体模型的加权估计与混合推断。最后,以基于广义Boosted模型的入样概率建模推断为例演示了具体解决方法。 展开更多
关键词 大数据 网络调查样本 入样概率 目标变量 建模推断
在线阅读 下载PDF
网页数据采集算法及在住户调查中的应用 被引量:7
4
作者 沈承放 莫达隆 黄文韬 《统计与决策》 CSSCI 北大核心 2021年第7期52-56,共5页
目前网页数据获取技术仍然存在着动态网页难以解析、网络爬虫速度慢、抓取内容不准确等现象,为了避免此类情况的发生,文章设计了一套基于Selenium的多线程网页数据采集与分析算法。该算法的数据采集部分主要应用了python中用于自动运行... 目前网页数据获取技术仍然存在着动态网页难以解析、网络爬虫速度慢、抓取内容不准确等现象,为了避免此类情况的发生,文章设计了一套基于Selenium的多线程网页数据采集与分析算法。该算法的数据采集部分主要应用了python中用于自动运行和操作浏览器的Selenium库,完美地解决了动态和静态页面数据信息的获取问题,无界面版本浏览器、多线程网络爬虫技术以及关键词判别程序的使用,在很大程度上提高了网络爬虫速度和抓取内容准确度。并将该算法应用到在精准扶贫形式下的住户工资性收入调查数据的准确性判别中。最后以某地区人才市场网为例,抓取各行业工资水平的实时数据,通过对调查数据与抓取数据的比较分析判别住户调查中工资数据的准确性。 展开更多
关键词 网页数据采集算法 住户调查 网络爬虫 多线程 精准扶贫 PYTHON SELENIUM
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部