基于DOM树统计关键词路径的WEB信息提取研究被引量：4

Research on WEB Information Extraction Based on DOM Tree Statistics Keyword Path

下载PDF

导出

摘要根据用户的需求提取WEB信息在WEB数据挖掘领域中起着重要的作用。本文以提取公司官网上的产品列表为目标,提出了一种基于DOM树统计关键词路径的方法来确定关键路径,根据关键路径来确定提取内容。过程主要分为候选关键词组的获取、企业公司官网产品页面的获取、web页面的DOM树建立以及确定关键路径及提取。本文提出了一种解决不同公司官网上网页结构差距较大问题的信息提取的方法。并且根据该方法实现了在汽车零部件生产厂商官网上提取需要的产品信息。 Extracting WEB information according to users’ requirements plays an important role in WEB data mining. Aiming at extracting the list of products on the company website, this paper proposes a method based on DOM tree statistics keyword path to determine the critical path and extract content according to the critical path. It is mainly divided into the acquisition of key phrase candidates, the acquisition of the product page of the company’s official website, the establishment of the DOM tree of the web page, and the determination of the key path and extraction. This paper proposes an information extraction method to solve the problem of large difference in web page structure on different companies’ official websites. According to this method, the required product information is extracted from the official website of the auto parts manufacturer.

作者赵建视梁俊卿吕笑琳黄学波冷悦张在军

机构地区青岛理工大学信息与控制工程学院

出处《计算机科学与应用》 2019年第2期181-187,共7页 Computer Science and Application

基金山东省优秀中青年科学家科研奖励基金(ZR2016FB21)提供支持.

关键词 DOM树关键路径关键词组信息提取

分类号 TP39 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献37

1曾伟辉,李淼.深层网络爬虫研究综述[J].计算机系统应用,2008,17(5):122-126. 被引量：40
2周德懋,李舟军.高性能网络爬虫:研究综述[J].计算机科学,2009,36(8):26-29. 被引量：97
3王建.手机浏览器的发展趋势[J].中国电信业,2012(6):76-77. 被引量：2
4林子皓.主题爬虫的设计与实现[J].计算机技术与发展,2014,24(8):99-102. 被引量：7
5孙立伟,何国辉,吴礼发.网络爬虫技术的研究[J].电脑知识与技术（过刊）,2010,0(15):4112-4115. 被引量：136
6苏秀芝.基于标题与文本相似度的网页正文提取算法[J].科技创新与应用,2016,6(25):57-58. 被引量：1
7毛东航,马思明,毛姝然,张金霞.基于android的教务管理系统[J].电子世界,2017,0(19):73-73. 被引量：3
8徐若然,周博雅,朱伯健,徐晓林.一体化智慧医疗体系的构建与发展策略研究[J].中国医院管理,2018,38(1):72-74. 被引量：72
9赵平,刘康,黎晓东.基于M-CM的建筑施工企业现场安全管理成熟度评价[J].安全与环境学报,2018,18(1):182-187. 被引量：14
10李健,马延周.支持DOM模板可视化配置的网页抽取方法[J].现代计算机,2018,24(7):56-60. 被引量：4

引证文献4

1郭晓宇,彭浩.基于Web页面结构的网页数据提取技术探究[J].产业与科技论坛,2020(18):66-67. 被引量：1
2李健.基于Gecko浏览器内核的谷歌翻译爬虫[J].现代计算机,2021,27(18):32-37.
3王群,张江波.基于OPM3模型的智慧医院建设全过程工程咨询模式研究[J].粉煤灰综合利用,2022,36(1):133-139. 被引量：4
4徐海蛟,张展鸿,周奕龙.基于HTTP分析模拟的移动教务查询系统研究[J].计算机科学与应用,2019,9(8):1569-1575.

二级引证文献5

1张晓双.全过程咨询在EPC项目中的应用分析[J].建筑与预算,2022(5):25-27. 被引量：1
2曹蕾.智慧医院建设之医疗废物智能管控方案[J].现代医院,2022,22(8):1260-1263. 被引量：3
3韩霄.网络安全大数据下的靶标系统的构建[J].微型电脑应用,2023,39(3):153-155. 被引量：1
4田鑫.电子档案在智慧医院建设中存在的问题与对策分析[J].办公室业务,2024(12):63-65.
5师明阳,王超.我国医院建设项目管理研究热点及趋势可视化分析[J].中国医院建筑与装备,2025,26(1):71-76.

1毛悦.张家川县博物馆馆藏精品书画赏析——以馆藏彭玉麟梅花立轴、吴大澂篆书六条屏、清代圣旨、张锐的牡丹猫蝶四合屏为例[J].文化创新比较研究,2018,2(22):50-51. 被引量：1
2詹建波,王浩,余婷婷,郑晗,谢姣,余振华,张莹,岳保山,余江,王旭.分离式卷烟的消费特征研究[J].新型工业化,2018,8(11):98-101. 被引量：3
3王灿,倪明,喻卫东,黎想.应用于拟态Web服务器的相似度求解方法[J].计算机系统应用,2019,28(1):75-80. 被引量：1
4原晓慧,王萍,张英,任凌,翟亮.基于边缘检测的海岸线自动提取研究[J].北京测绘,2019,33(2):148-152. 被引量：7
5路宝利.学艺商贾——中国传统商业学徒制研究[J].河南科技学院学报（社会科学版）,2017,37(10):39-44.
6王亮亮,高峰,艾合买提江.库尔班,郭子刚,吴威震.口腔幽门螺杆菌与胃幽门螺杆菌根除率关联性的Meta分析[J].中国临床研究,2019,32(2):211-215. 被引量：6
7让检测变得简单--堡盟VeriSens视觉传感器在汽车曲轴连杆加工中的应用[J].国内外机电一体化技术,2018,0(1):43-43.
8刘杨.基于PubMed数据库的HSP90文献分析[J].宝鸡文理学院学报（自然科学版）,2018,38(4):39-48. 被引量：2
9谢丽明,朱少强.浅谈SQL Server中Select语句的分组统计功能[J].科技视界,2018(34):99-101.
10何远宏.基于Python语言的Web数据挖掘研究[J].计算机产品与流通,2019,8(1):112-112. 被引量：4

计算机科学与应用

2019年第2期

浏览历史

内容加载中请稍等...

基于DOM树统计关键词路径的WEB信息提取研究被引量：4

同被引文献37

引证文献4

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于DOM树统计关键词路径的WEB信息提取研究 被引量：4

同被引文献37

引证文献4

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于DOM树统计关键词路径的WEB信息提取研究被引量：4