期刊文献⁺

任意字段

题名或关键词

题名

关键词

文摘

作者

第一作者

机构

刊名

分类号

参考文献

作者简介

基金资助

栏目信息

基于Python爬虫技术的网页内容文本大数据提取方法研究被引量：1

Research on Extraction Method of Big Data of Web Content Text Based on Python Crawler Technology

下载PDF

导出

摘要现如今网站的页面布局较为复杂、展示内容与文本信息较多,在单位时间内提高文本大数据提取数量难度较大,基于此以Python爬虫技术为支撑,开展网页内容文本大数据提取方法的设计研究。首先,对网页内容进行综合解析,获取网页内容文本数据,计算网页内容文本复杂度;其次,引进Python爬虫技术,计算特征信息权重,进行文本大数据特征的识别;最后,通过提取的文本大数据特征,构建网页内容文本相空间,采集大数据矢量信息,根据预设的条件,进行大数据关键信息的维度划分及信息提取。通过实验对比,在相同的条件下对比传统方法,本文设计的方法提取文本大数据数量最多、能力最强,可以提取更多的文本大数据信息,即该方法的文本大数据提取能力较强。 Nowadays,the page layout of the website is more complex,and there are more display contents and text information,so it is difficult to increase the amount of text big data extraction in a unit time.Based on this,supported by Python crawler technology,the design and research on the extraction method of Web page content text big data are carried out.Firstly,it comprehensively analyzes the Web page content,obtains the Web page content text data,and calculates the Web page content text complexity;Secondly,it introduces Python crawler technology to calculate feature information weights for text big data feature recognition;Finally,by extracting text big data features,a Web page content text phase space is constructed,big data vector information is collected,and key information dimensions of big data are divided and extracted based on preset conditions.Through experimental comparison,compared with traditional methods under the same conditions,the method designed in this paper has the largest amount and the strongest ability to extract text big data,and can extract more text big data information,that is,the method has strong ability to extract text big data.

作者党浩予 DANG Hao-yu(Xi'an Mingde Institute of Technology,Xi'an 710124,Shaanxi)

机构地区西安明德理工学院

出处《电脑与电信》 2023年第8期90-93,共4页 Computer & Telecommunication

关键词 Python爬虫技术关联维度信息提取方法大数据文本网页内容 Python crawler technology associated dimension information extraction method big data text Web page content

分类号 TP391.3 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1要丽娟,石峰.数据挖掘技术在计算机网络入侵检测中的应用[J].集成电路应用,2023,40(7):222-223. 被引量：8
2龙香妤.基于网络爬虫技术的数据抓取程序的设计[J].技术与市场,2021,28(10):41-43. 被引量：7
3张磊,吴颖,杨建常.基于大数据挖掘的电力通信信号异常数据提取方法[J].科技通报,2022,38(6):35-38. 被引量：32
4崔欢欢.基于Python的网络爬虫技术研究[J].信息记录材料,2023,24(6):172-174. 被引量：2
5郭红建,陈一飞,梅轶群.基于高维聚类的文本大数据挖掘算法仿真[J].计算机仿真,2023,40(6):499-503. 被引量：5
6张君,王立.基于数据共享的大数据特征快速提取方法[J].自动化与仪器仪表,2022(8):66-70. 被引量：2
7刘国城.文本可视分析与审计大数据可视化[J].财会通讯,2021(23):13-20. 被引量：6
8刘伟权,王程,臧彧,胡倩,于尚书,赖柏锜.基于遥感大数据的信息提取技术综述[J].大数据,2022,8(2):28-57. 被引量：11
9李媛,王兰兰.基于遥感大数据的信息提取技术分析[J].网络安全和信息化,2023(1):17-20. 被引量：2
10赵放,任远.基于混合密码的互联网大数据隐匿性特征提取研究[J].电子设计工程,2021,29(23):171-174. 被引量：3

二级参考文献129

1张学军,万东胜,孙知信.基于LMD和模糊熵融合CSP的脑电信号特征提取方法[J].仪器仪表学报,2020(8):226-234. 被引量：26
2沈丰毅,王琴,蒋剑飞.基于改进卷积神经网络舰船的实时目标检测算法[J].计算机应用研究,2020,37(S01):316-319. 被引量：9
3方勇,张武,张丽,王雅楠.基于高光谱影像的地形图要素变化自动检测与更新方法研究[J].测绘通报,2007(7):51-53. 被引量：1
4张增,王兵,伍小洁,赵恩伟.无人机森林火灾监测中火情检测方法研究[J].遥感信息,2015,30(1):107-110. 被引量：40
5陈忠,赵忠明.基于区域生长的多尺度遥感图像分割算法[J].计算机工程与应用,2005,41(35):7-9. 被引量：29
6肖鹏峰,冯学智,赵书河,佘江峰.基于相位一致的高分辨率遥感图像分割方法[J].测绘学报,2007,36(2):146-151. 被引量：55
7赵琦,张智雄,孙坦.文本可视化及其主要技术方法研究[J].现代图书情报技术,2008(8):24-30. 被引量：25
8付迎春,速云中,钟小君.基于MODIS遥感影像的森林火灾火点检测方法[J].华南师范大学学报（自然科学版）,2008,40(3):112-118. 被引量：11
9谭玉敏,槐建柱,唐中实.一种边界引导的多尺度高分辨率遥感图像分割方法[J].红外与毫米波学报,2010,29(4):312-315. 被引量：19
10高新平.基于RS/GIS集成技术的洪水灾情估算研究[J].人民黄河,2011,33(1):3-5. 被引量：2

共引文献71

1金昌大.大数据背景下内部审计信息化问题及对策[J].信息记录材料,2022,23(1):173-175. 被引量：8
2熊传玉,徐尤华.在线文档数据抓取与汇总功能的实现[J].南方金属,2022(5):56-58. 被引量：3
3赵晓宇,殷海双.电气传动控制器局部干扰信号自动识别研究[J].自动化与仪表,2022,37(9):42-46. 被引量：2
4袁晶.基于大数据交互式的舰船通信移动终端UI设计[J].舰船科学技术,2022,44(19):154-157.
5魏心怡.在线考试系统中考试成绩图形化呈现的设计与开发[J].电子技术与软件工程,2022(21):239-242. 被引量：1
6宋光伟.基于小波变换的无线通信发射机信号转换异常检测方法[J].通信电源技术,2022,39(24):44-46.
7邓晓璐,姚松.基于Scrapy的新浪微博数据爬虫研究[J].现代信息科技,2023,7(3):44-47. 被引量：5
8刘航,刁子轩,侯坤於.无人值守变电站通信异常智能告警方法[J].通信电源技术,2023,40(2):48-50.
9李惠.油田措施方案数据半自动采集技术[J].化学工程与装备,2023(3):60-64.
10高宇,李进,卢明宇,秦雪薇,王正华.基于图像与雷达信息融合的校园巡逻车识别方案[J].黑龙江工业学院学报（综合版）,2023,23(4):65-69. 被引量：3

同被引文献4

1崔欢欢.基于Python的网络爬虫技术研究[J].信息记录材料,2023,24(6):172-174. 被引量：2
2郭万里.机器学习在语音识别与情感分析中的联合应用[J].网络安全和信息化,2023(11):61-63. 被引量：2
3赵子晨,杨锋,郭玉辉,陈又新,李钊扬,刘海涛.基于Hadoop技术的加速器大数据安全存储与高效分析系统设计[J].现代电子技术,2024,47(8):9-17. 被引量：12
4陈慧敏,刘知远,孙茂松.大语言模型时代的社会机遇与挑战[J].计算机研究与发展,2024,61(5):1094-1103. 被引量：51

引证文献1

1李程飞,梁薇,侯君荔.基于大语言模型及多模态信息融合的广播监测平台研究[J].广播电视信息,2025,32(S1):67-71.

1刘莎,李慧珍.中小学生劳动素养评价指标体系的实践研究[J].中文科技期刊数据库(全文版)教育科学,2023(12):127-130.
2包珺玮,乌兰吐雅,车有维,刘朝晖,刘朝霞.基于GF-6影像的农作物种植结构提取方法研究[J].北方农业学报,2023,51(4):112-121. 被引量：2
3任思远,王旭阳,李也桐.多模型融合的网络暴力识别[J].网络安全技术与应用,2023(11):31-33. 被引量：2
4李晓庆,周昕桐.数字化转型何以提升重污染企业全要素生产率?[J].南宁师范大学学报（哲学社会科学版）,2023,44(6):70-80. 被引量：2
5韦亮亮,石子健,高维明.乡村文化振兴背景下侗族刺绣图案的开发[J].纺织科技进展,2023(11):53-56. 被引量：1
6赵玲玲,赵清波.银行发展金融科技会影响流动性吗?--基于中国银行业的实证研究[J].新经济,2023(11):54-70. 被引量：1
7耿晓媛.投资者情绪的识别与统计——基于非结构数据的分析[J].科学决策,2023(11):156-169. 被引量：3
8周丰丰,张金楷.具有局部和全局注意力机制的图注意力网络学习单样本组学数据表征[J].吉林大学学报（理学版）,2023,61(6):1351-1357. 被引量：3
9廖孟光,李猛,褚楠,李少宁.基于GIS邻域分析的无人机倾斜影像阔叶林树高提取方法研究[J].遥感技术与应用,2023,38(5):1203-1214. 被引量：5
10向丽君,华李健,王剑君.基于专利视角的天津市锂离子电池隔膜产业分析[J].河南科技,2023,42(21):130-136.

电脑与电信

2023年第8期

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...

;

使用帮助返回顶部