期刊导航
期刊开放获取
vip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
4
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于网络爬虫的网页目标数据精准抓取方法
被引量:
3
1
作者
高祖彦
《自动化与仪器仪表》
2024年第10期38-42,共5页
从海量的网络数据中提取出有价值的信息,为数据分析等应用提供强大的数据支持,网页目标数据的精准抓取的准确性和效率直接影响到后续数据分析和处理的效果,目前方法无法保障爬取数据的数量和质量,导致抓取到的数据不够完善,容易出现重...
从海量的网络数据中提取出有价值的信息,为数据分析等应用提供强大的数据支持,网页目标数据的精准抓取的准确性和效率直接影响到后续数据分析和处理的效果,目前方法无法保障爬取数据的数量和质量,导致抓取到的数据不够完善,容易出现重复性数据。因此,提出基于网络爬虫的网页目标数据精准抓取方法。详细分析网络爬虫的爬取过程,采用主题爬虫策略中的爬行器爬行指定网页,采用链接分析器中的基于HITS算法的网页链接分析算法,计算所有链接的权威值,选择权威值较高的链接作为下载目标;再利用目标数据主体识别器中的向量空间模型计算网页中待抓取数据与主题特征向量之间的相关性,按照相关性大小依次抓取网页中的数据,直至达到设定的停止条件后,从下载的网页中精准抓取所需数据。经实验分析可知:该方法可精准评估不同网页的权威性,在抓取数据时,可以保持较高的目标数据收获率,还能够提供一定的实时性与灵活性。
展开更多
关键词
网络爬虫
网页目标数据
精准抓取
主题爬虫
向量空间模型
收获率
原文传递
基于PowerBuilder实现多层分布式应用
2
作者
张益星
郭芳
《湖南工程学院学报(自然科学版)》
2007年第2期63-66,共4页
介绍了PowerDynamo的工作原理,以及在PowerBuider开发环境中基于PowerDynamo、JaguarCTS建立Web应用的技术核算,详细说明了如何使用PowerBuider创建Webtarget站点、创建网页及编写脚本。
关键词
PowerDynamo应用服务器
web
数据窗口
web
target
在线阅读
下载PDF
职称材料
大数据背景下网络调查样本的建模推断问题研究——以广义Boosted模型的倾向得分推断为例
被引量:
14
3
作者
刘展
潘莹丽
《统计研究》
CSSCI
北大核心
2019年第9期93-103,共11页
随着大数据和网络的不断发展,网络调查越来越广泛,大部分网络调查样本属于非概率样本,难以采用传统的抽样推断理论进行推断,如何解决网络调查样本的推断问题是大数据背景下网络调查发展的迫切需求。本文首次从建模的角度提出了解决该问...
随着大数据和网络的不断发展,网络调查越来越广泛,大部分网络调查样本属于非概率样本,难以采用传统的抽样推断理论进行推断,如何解决网络调查样本的推断问题是大数据背景下网络调查发展的迫切需求。本文首次从建模的角度提出了解决该问题的基本思路:一是入样概率的建模推断,可以考虑构建基于机器学习与变量选择的倾向得分模型来估计入样概率推断总体;二是目标变量的建模推断,可以考虑直接对目标变量建立参数、非参数或半参数超总体模型进行估计;三是入样概率与目标变量的双重建模推断,可以考虑进行倾向得分模型与超总体模型的加权估计与混合推断。最后,以基于广义Boosted模型的入样概率建模推断为例演示了具体解决方法。
展开更多
关键词
大数据
网络调查样本
入样概率
目标变量
建模推断
在线阅读
下载PDF
职称材料
网页数据采集算法及在住户调查中的应用
被引量:
7
4
作者
沈承放
莫达隆
黄文韬
《统计与决策》
CSSCI
北大核心
2021年第7期52-56,共5页
目前网页数据获取技术仍然存在着动态网页难以解析、网络爬虫速度慢、抓取内容不准确等现象,为了避免此类情况的发生,文章设计了一套基于Selenium的多线程网页数据采集与分析算法。该算法的数据采集部分主要应用了python中用于自动运行...
目前网页数据获取技术仍然存在着动态网页难以解析、网络爬虫速度慢、抓取内容不准确等现象,为了避免此类情况的发生,文章设计了一套基于Selenium的多线程网页数据采集与分析算法。该算法的数据采集部分主要应用了python中用于自动运行和操作浏览器的Selenium库,完美地解决了动态和静态页面数据信息的获取问题,无界面版本浏览器、多线程网络爬虫技术以及关键词判别程序的使用,在很大程度上提高了网络爬虫速度和抓取内容准确度。并将该算法应用到在精准扶贫形式下的住户工资性收入调查数据的准确性判别中。最后以某地区人才市场网为例,抓取各行业工资水平的实时数据,通过对调查数据与抓取数据的比较分析判别住户调查中工资数据的准确性。
展开更多
关键词
网页数据采集算法
住户调查
网络爬虫
多线程
精准扶贫
PYTHON
SELENIUM
在线阅读
下载PDF
职称材料
题名
基于网络爬虫的网页目标数据精准抓取方法
被引量:
3
1
作者
高祖彦
机构
恩施职业技术学院
出处
《自动化与仪器仪表》
2024年第10期38-42,共5页
基金
恩施职业技术学院自然科学研究项目:“基于Python的网络爬虫技术研究”(EZYQNZK201906)
恩施州科技局项目:旅游景区游客导览智能分析系统及景区智慧管控制度与应急指挥平台建设研究(D20220012)。
文摘
从海量的网络数据中提取出有价值的信息,为数据分析等应用提供强大的数据支持,网页目标数据的精准抓取的准确性和效率直接影响到后续数据分析和处理的效果,目前方法无法保障爬取数据的数量和质量,导致抓取到的数据不够完善,容易出现重复性数据。因此,提出基于网络爬虫的网页目标数据精准抓取方法。详细分析网络爬虫的爬取过程,采用主题爬虫策略中的爬行器爬行指定网页,采用链接分析器中的基于HITS算法的网页链接分析算法,计算所有链接的权威值,选择权威值较高的链接作为下载目标;再利用目标数据主体识别器中的向量空间模型计算网页中待抓取数据与主题特征向量之间的相关性,按照相关性大小依次抓取网页中的数据,直至达到设定的停止条件后,从下载的网页中精准抓取所需数据。经实验分析可知:该方法可精准评估不同网页的权威性,在抓取数据时,可以保持较高的目标数据收获率,还能够提供一定的实时性与灵活性。
关键词
网络爬虫
网页目标数据
精准抓取
主题爬虫
向量空间模型
收获率
Keywords
web
crawler
web target data
accurate grasp
theme crawler
vector space model
yield rate
分类号
TP391 [自动化与计算机技术—计算机应用技术]
原文传递
题名
基于PowerBuilder实现多层分布式应用
2
作者
张益星
郭芳
机构
湖南工程学院计算机科学系
出处
《湖南工程学院学报(自然科学版)》
2007年第2期63-66,共4页
文摘
介绍了PowerDynamo的工作原理,以及在PowerBuider开发环境中基于PowerDynamo、JaguarCTS建立Web应用的技术核算,详细说明了如何使用PowerBuider创建Webtarget站点、创建网页及编写脚本。
关键词
PowerDynamo应用服务器
web
数据窗口
web
target
Keywords
PowerDynamo
application server
web
data
windows
web
target
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
大数据背景下网络调查样本的建模推断问题研究——以广义Boosted模型的倾向得分推断为例
被引量:
14
3
作者
刘展
潘莹丽
机构
湖北大学数学与统计学学院
出处
《统计研究》
CSSCI
北大核心
2019年第9期93-103,共11页
基金
国家社会科学基金一般项目“大数据背景下网络调查样本的模型推断研究”(18BTJ022)的资助
文摘
随着大数据和网络的不断发展,网络调查越来越广泛,大部分网络调查样本属于非概率样本,难以采用传统的抽样推断理论进行推断,如何解决网络调查样本的推断问题是大数据背景下网络调查发展的迫切需求。本文首次从建模的角度提出了解决该问题的基本思路:一是入样概率的建模推断,可以考虑构建基于机器学习与变量选择的倾向得分模型来估计入样概率推断总体;二是目标变量的建模推断,可以考虑直接对目标变量建立参数、非参数或半参数超总体模型进行估计;三是入样概率与目标变量的双重建模推断,可以考虑进行倾向得分模型与超总体模型的加权估计与混合推断。最后,以基于广义Boosted模型的入样概率建模推断为例演示了具体解决方法。
关键词
大数据
网络调查样本
入样概率
目标变量
建模推断
Keywords
Big
data
web
Survey Samples
Inclusion Probability
target
Variables
Modeling Inference
分类号
TP311.13 [自动化与计算机技术—计算机软件与理论]
O212.1 [理学—概率论与数理统计]
在线阅读
下载PDF
职称材料
题名
网页数据采集算法及在住户调查中的应用
被引量:
7
4
作者
沈承放
莫达隆
黄文韬
机构
贺州学院数学与计算机学院
广西师范大学数学与统计学院
出处
《统计与决策》
CSSCI
北大核心
2021年第7期52-56,共5页
基金
国家社会科学基金西部项目(18XTJ002)
广西师范大学创新计划项目(XYCSZ2019088)
文摘
目前网页数据获取技术仍然存在着动态网页难以解析、网络爬虫速度慢、抓取内容不准确等现象,为了避免此类情况的发生,文章设计了一套基于Selenium的多线程网页数据采集与分析算法。该算法的数据采集部分主要应用了python中用于自动运行和操作浏览器的Selenium库,完美地解决了动态和静态页面数据信息的获取问题,无界面版本浏览器、多线程网络爬虫技术以及关键词判别程序的使用,在很大程度上提高了网络爬虫速度和抓取内容准确度。并将该算法应用到在精准扶贫形式下的住户工资性收入调查数据的准确性判别中。最后以某地区人才市场网为例,抓取各行业工资水平的实时数据,通过对调查数据与抓取数据的比较分析判别住户调查中工资数据的准确性。
关键词
网页数据采集算法
住户调查
网络爬虫
多线程
精准扶贫
PYTHON
SELENIUM
Keywords
web
page
data
acquisition algorithm
household survey
web
crawler
multithreading
target
ed poverty alleviation
python
Selenium
分类号
O212.1 [理学—概率论与数理统计]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于网络爬虫的网页目标数据精准抓取方法
高祖彦
《自动化与仪器仪表》
2024
3
原文传递
2
基于PowerBuilder实现多层分布式应用
张益星
郭芳
《湖南工程学院学报(自然科学版)》
2007
0
在线阅读
下载PDF
职称材料
3
大数据背景下网络调查样本的建模推断问题研究——以广义Boosted模型的倾向得分推断为例
刘展
潘莹丽
《统计研究》
CSSCI
北大核心
2019
14
在线阅读
下载PDF
职称材料
4
网页数据采集算法及在住户调查中的应用
沈承放
莫达隆
黄文韬
《统计与决策》
CSSCI
北大核心
2021
7
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部