一种基于特征树的Web碎片信息抽取算法被引量：3

An extraction algorithm of web fragment information based on feature tree

下载PDF

导出

摘要为进一步解决Web碎片信息所特有的随意性给信息抽取带来的困难,通过对Web碎片信息DOM树的结构特征和Web碎片信息的文本特征(如时间、作者、信息等)进行研究,发现将两者相结合能有效地进行Web碎片信息抽取,提出一种基于特征树的Web碎片信息抽取算法.以新浪微博、腾讯微博、搜狐微博等在内的100个信息分享平台作为实验对象,实验结果表明,该算法具有良好的性能,可以达到较高的召回率与查准率. So as to resolve the message-extraction difficulty due to the randomness characterized by the web fragment information,the architectural features of DOM-tree and the textual features of the web fragment information,such as time,author and message,were explored and analyzed.Then,the efficient extraction of web fragment information can be accomplished by combining the aforementioned two factors.A new algorithm concerning the web fragment information has been proposed on the basis of DOM-tree.The 100 experimenting data that include Sina,Tencent,Sohu as for the experiment object,the experiments were made,the resuts show that the extracting algorithm to web fragment information has good performance and achieve the higher recalling rate and precision rate.

作者向程冠熊世桓

机构地区贵州师范学院数学与计算机科学学院

出处《兰州理工大学学报》 CAS 北大核心 2014年第1期104-107,共4页 Journal of Lanzhou University of Technology

基金贵州省优秀科技教育人才省长专项资金项目(黔省专合字(2012)82号)

关键词 WEB Web碎片信息 DOM树信息抽取召回率 Web DOM tree web fragment information information extraction recalling rate

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1宫继兵,唐杰,杨文军.通用抽取引擎框架:一种新的Web信息抽取方法的研究[J].计算机科学,2011,38(1):198-202. 被引量：3
2LIU Zehua, KEONG N W, PENG L E, et al. Towards building logical views of websites [J]. Data Knowledge Engineering, 2004,49:197-222.
3贡正仙,支丽艳,朱巧明,李培峰.基于网格的Web信息抽取系统的设计与实现[J].计算机应用与软件,2007,24(11):50-51. 被引量：2
4段晓丽,王宇,谷静,刘玮楠.基于正文特征及网页结构的主题网页信息抽取[J].计算机工程与应用,2012,48(30):151-156. 被引量：10
5于满泉,陈铁睿,许洪波.基于分块的网页信息解析器的研究与设计[J].计算机应用,2005,25(4):974-976. 被引量：55
6曹冬林,廖祥文,许洪波,白硕.基于网页格式信息量的博客文章和评论抽取模型[J].软件学报,2009,20(5):1282-1291. 被引量：14
7成卫青,于静,杨晶,杨龙.基于页面分类的Web信息抽取方法研究[J].计算机技术与发展,2013,23(1):54-58. 被引量：5
8SRIRAM B, FUHRY D, DEMIR E, et al. Short text classifica- tion in twitter to improve information filtering [C]//Proeeed- ings of SIGIR' 10. Geneva, Switzerland : Is. n. ], 2010.
9CHURCHILl. A L, LIODAKIS E G, YES H. Twitter rele- vance filterimg via joint bayes classifiers from user clustering [R]. Stanford: University of Stanford, 2010.
10WIEDERHOLD G. Mediators in the architecture of future in- formation systems [J]. IEEE Computer, 1992,25(3) : 38-49.

二级参考文献56

1周明建,高济,李飞.基于本体论的Web信息抽取[J].计算机辅助设计与图形学学报,2004,16(4):535-541. 被引量：34
2黄玲,陈龙.基于网页分块的正文信息提取方法[J].计算机应用,2008,28(S2):326-328. 被引量：13
3张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
4王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
5邹德清,金海,韩宗芬,石宣化,羌卫中.HowU网格自适应调度模型[J].小型微型计算机系统,2004,25(11):1889-1893. 被引量：7
6胡国平,张巍,王仁华.基于双层决策的新闻网页正文精确抽取[J].中文信息学报,2006,20(6):1-9. 被引量：16
7赵欣欣,索红光,刘玉树.基于标记窗的网页正文信息提取方法[J].计算机应用研究,2007,24(3):144-145. 被引量：33
8高强,张敬之,耿桦,潘金贵.基于重复模式的Web信息抽取[J].计算机科学,2007,34(4):210-212. 被引量：6
9王竞原,胡运发,葛家翔.XPath中的文本查询研究[J].计算机工程,2007,33(11):70-72. 被引量：7
10Miklau G, Suciu D. Containment and Equivalence for an XPath Fragment[C]//Proc. of Conf. on Principles of Database Systems. Madison, Wisconsin, USA: [s. n.], 2002: 65-76.

共引文献93

1孙皓,董守斌.基于标签密度的自适应正文提取方法[J].郑州大学学报（理学版）,2009,41(1):44-47. 被引量：3
2郑志材,张晶.基于JAVA的网络蜘蛛的设计与实现[J].硅谷,2009,2(14):46-47.
3贾志洋,高炜,王勇刚.结合信息检索技术的半监督文本分类方法[J].苏州大学学报（自然科学版）,2012,28(1):34-39. 被引量：1
4吴鹏飞,孟祥增,刘俊晓,马凤娟.网页区域分割与识别技术[J].现代计算机,2006(6):48-50. 被引量：4
5吴鹏飞,孟祥增,刘俊晓,马凤娟.基于结构与内容的网页主题信息提取研究[J].山东大学学报（理学版）,2006,41(3):41-44. 被引量：15
6郑俭,许家成,冯素梅,叶帮利.对因特网特殊教育资源的整合与多方式传播[J].中国特殊教育,2006(8):46-49. 被引量：4
7邵斐,孙济庆.一种适用于动态网页的网络蜘蛛爬行策略研究[J].情报杂志,2007,26(5):28-30. 被引量：5
8黄文蓓,杨静,顾君忠.基于分块的网页正文信息提取算法研究[J].计算机应用,2007,27(B06):24-26. 被引量：32
9张恒,屈景辉,张亮.网页文本信息提取及结果评价[J].微计算机应用,2007,28(9):921-924. 被引量：10
10李蕾,王劲林,白鹤,胡晶晶.基于FFT的网页正文提取算法研究与实现[J].计算机工程与应用,2007,43(30):148-151. 被引量：15

同被引文献23

1Imran R. Mansri, Sunita Sarawagi. Integrating Unstructured Data into Relation Databases [ J ]. JCDE, 2006, 3 (7) : 29.
2Tao Peng, Lianying Sun, Hong Bao. Research of Unstructured Data Transformation Based on XML [ J ]. International Conference on Intermet Technoeugy&Applieations, 2010, 20 (22) : 1 -4.
3Ying Chen, Sophia Yat Mei Lee, Chu - Ren Huang et al. A Robust Web Personal Name Information Extraction System [J]. Expert Systems with Application, 2012, 39 (3) : 2690 - 2699.
4刘若中.基于纯XML数据库和HL7的结构化电子病历研究与应用[J].医学信息学杂志,2009,30(9):38-40. 被引量：16
5李实,叶强,李一军,罗嗣卿.挖掘中文网络客户评论的产品特征及情感倾向[J].计算机应用研究,2010,27(8):3016-3019. 被引量：69
6吴麒,陈兴蜀,谭骏.基于权值优化的网页正文内容提取算法[J].华南理工大学学报（自然科学版）,2011,39(4):32-37. 被引量：8
7孙玲芳,夏聪.Web使用挖掘在用户行为分析中的应用[J].江苏科技大学学报（自然科学版）,2011,25(3):258-261. 被引量：6
8李实,李秋实.中文评论中产品特征挖掘的剪枝算法研究[J].计算机工程,2011,37(23):43-45. 被引量：8
9姚亚锋,蒋毅.模式匹配算法及其优化[J].南通职业大学学报,2011,25(4):98-100. 被引量：2
10邓世洲,王秀民,刘帆.基于病种的结构化电子病历探讨[J].医学信息学杂志,2012,33(7):11-14. 被引量：5

引证文献3

1张盈利,夏小玲.非结构化病理文本的结构化信息抽取方法[J].医学信息学杂志,2016,37(4):54-58. 被引量：3
2阳馨.基于信息功率谱的微博热点挖掘模型[J].兰州理工大学学报,2017,43(3):106-111. 被引量：1
3李昌兵,凌永亮,陶娅芝.基于网络评论中产品特征的提取优化[J].兰州理工大学学报,2017,43(5):105-109. 被引量：1

二级引证文献5

1金海.基于改进神经网络算法的微博热点预测系统设计[J].现代电子技术,2018,41(12):157-160. 被引量：4
2尚小溥,许吴环,赵红梅,张润彤,朱燊.中文超声文本结构化与知识网络构建方法研究[J].图书情报工作,2019,63(16):112-120. 被引量：3
3吕宏玉,樊坤,杨建林.面向App用户评论的软件特征挖掘研究[J].图书馆理论与实践,2019,0(7):106-112. 被引量：8
4周全,刘红,宋清坤.采用标准化结构化病理诊断报告对提升胃炎活检小标本病理诊断质量的影响[J].中华病理学杂志,2021,50(5):550-552. 被引量：3
5邓吉秋,邹毓,夏晨晨.文本化地质资料Markdown格式规范化方法[J].地质学刊,2022,46(2):120-135. 被引量：3

1钟琴,黄晓.用DOM树实现XML与高级语言的数据交互[J].微型机与应用,2003,22(9):7-10. 被引量：3
2恽佳丽,何军,黄厚宽.基于语料库的多词单位抽取算法[J].北京交通大学学报,2009,33(5):121-125.
3黄文博,燕杨.C/S结构与B/S结构的分析与比较[J].长春师范学院学报（自然科学版）,2006,25(4):56-58. 被引量：36
4刘全志,于治楼.基于CSS选择器的HTML信息抽取研究[J].信息技术与信息化,2015(3):100-102. 被引量：1
5韩义,刘利民,陈建辉.基于DOM、XML技术的网络信息系统研究[J].福建电脑,2005,21(7):42-43.
6李灵羽.LifePulp.com:社会化的灵感分享平台[J].互联网天地,2011(3):73-73.
7一种从网页中抽取评论内容的方法和装置[J].电脑与电信,2014(5):32-32.
8王功孝,吴渝,李伟生.基于粗糙集和集成学习的聊天知识抽取算法[J].广西师范大学学报（自然科学版）,2008,26(3):88-91. 被引量：4
9方奋奇,边学军.人脸图像的预处理[J].电脑知识与技术,2012,8(1X):663-664.
10刘兵,吴晓虹.基于Web的农产品价格提取在数据库教学中的研究与实践[J].教育教学论坛,2009(11X):114-115.

兰州理工大学学报

2014年第1期

浏览历史

内容加载中请稍等...

一种基于特征树的Web碎片信息抽取算法被引量：3

参考文献12

二级参考文献56

共引文献93

同被引文献23

引证文献3

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

一种基于特征树的Web碎片信息抽取算法 被引量：3

参考文献12

二级参考文献56

共引文献93

同被引文献23

引证文献3

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

一种基于特征树的Web碎片信息抽取算法被引量：3