基于混合条件模型的Web信息抽取被引量：2

Web Information Extraction Based on Hybrid Conditional Model

下载PDF

导出

摘要针对传统Web信息抽取的隐马尔可夫模型对初值十分敏感和在实际训练中极易得到局部最优模型参数,提出了一种最大熵和最大熵马尔可夫模型相结合的条件模型.该方法对输入的Web页面进行解析并构建HTML树,通过计算HTML子树结点的熵定位数据域,允许观察值表示任意重叠特征(像词、大写、HTML标记、语义)和定义状态序列给予观察序列的条件概率实现了Web信息抽取.实验结果表明,新的方法在精确度和召回率指标上比传统隐马尔可夫模型和最大熵马尔可夫模型具有更好的性能. The traditional HMM for Web information extraction is sensitive to the initial model parameters and easy to lead to a sub-optimal model in practice. A hybrid conditional model to combine maximum entropy and maximum entropy Markov model is put formard for Web information extraction. With this approach, the input Web page is parsed to build an HTML tree, data regions are located in each HTML subtree node by estimating the entropy, which allows observa- tions to be represented as arbitrary overlapping features（such as vocabulary, capitalization, HT- ML tags, and semantics）, and defines the conditional probability of state sequences given to observation sequences for Web information extraction. Experimental results show that the new approach improves the performance in precision and recall over traditional hidden Markov model and maximum entropy Markov model.

作者肖基毅朱道辉邹腊梅

机构地区南华大学计算机科学与技术学院

出处《郑州大学学报（理学版）》 CAS 2008年第3期52-55,共4页 Journal of Zhengzhou University:Natural Science Edition

基金湖南省自然科学基金资助项目编号04JJ40051 湖南省教育厅科研项目编号06c724

关键词 WEB信息抽取最大熵马尔可夫模型条件模型最大熵隐马尔可夫模型 Web information extraction maximum entropy Markov model conditional model maximum entropy hidden Markov model

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1Seymore K, McCallum A, Rosenfel R. Learning hidden Markov model structure for information extraction[C]//Proceedings of the AAAI-99 Workshop on Machine Learning for Information Extraction. Orlando, Florida, 1999:37-42.
2刘云中,林亚平,陈治平.基于隐马尔可夫模型的文本信息抽取[J].系统仿真学报,2004,16(3):507-510. 被引量：52
3Berger A, Pietra S, Pietra V. A maximum entropy approach to natural language processing[J]. Computational Languistics, 1996,22(1) :39-71.
4林亚平,刘云中,周顺先,陈治平,蔡立军.基于最大熵的隐马尔可夫模型文本信息抽取[J].电子学报,2005,33(2):236-240. 被引量：49
5McCallum A, Freitag D, Pereira F. Maximum entropy Markov models for information extraction and segmentation[C]// Proceedings of the Seventeenth International Conference on Machine Learning. San Francisco, 2000:591-598.
6Phan X, Horiguchi S, Ho T. Automated data extraction from the Web with conditional models[J]. Int J Business Intelligence and Data Mining, 2005,1(2) : 194-209.

二级参考文献25

1[1]A. McCallum, K. Nigam, J. Rennie, and K. Seymore. A machine learning approach to building Domain-Specific Search Engines [A]. In Proceedings of IJCAI-99 [C]. 622-667.
2[2]Ellien Riloff. Automatically Constructing a Dictionary for Information Extraction Task [A]. Proceeding for the Eleventh National Conference on Artificial Intelligence [C]. 1993. 811-816.
3[3]E. Riloff , R. Jones. Learning Dictionaries for Information Extraction by Multi-Level Bootstrapping [A]. Proceedings of the Sixteenth National Conference on Artificial Intelligence [C]. 1999. 811-816.
4[4]S. Soderland. Learning information extraction rules for semi-structured and free text [J]. Machine Learning, 1999, 1-44.
5[5]Kushmerick, N. Wrapper induction: efficiency and Expressiveness [J]. Artificial Intelligence,2000, Vol. 118, pp. 15--68.
6[6]Leek,T. R. Information Extraction Using Hidden Markov Models [D]. Master's thesis, UC san Diego,1997.
7[7]Kristie Seymore, Andrew McCallum, Ronal Rosenfel. Learning Hidden Markov Model Structure for Information Extract [A]. AAAI' 99 Workshop on Machine Learning for Information Extraction [C]. 1999. 37-42.
8[8]Dayne Frietag, Andrew McCallum. Information Extraction with HMMs and shrinkage [A]. In Proceedings of the AAAI'99 Workshop on Machine Learning for Information Extraction [C], 1999, pp. 31-36.
9[9]Freitag, D., & McCallum, A. Information extraction with HMM structures learned by stochastic optimization [A]. Proceedings of the Eighteenth Conference on Artificial Intelligence [C]. 2000.584-589.
10[10]Freitag, D., McCallum, A., and Pereira F. Maximum Entropy Markov Models for Information Extraction and Segmentation [A]. In proceedings of ICML-2000 [C]. 591-598.

共引文献86

1孔静静,于琦,李敬华,于彤,张竹绿,田野,祖雅琪.实体抽取综述及其在中医药领域的应用[J].世界科学技术-中医药现代化,2022,24(8):2957-2963. 被引量：9
2张雪英,闾国年,叶鹏.大数据地理信息系统:框架、技术与挑战[J].现代测绘,2020(6):1-8. 被引量：10
3贾钰峰,章蓬伟,邵小青,张玉茜.印刷维吾尔文识别后处理[J].智能计算机与应用,2020(4):239-242.
4王敬普,林亚平,周顺先,岳文.基于包装器模型的文本信息抽取[J].计算机应用,2006,26(3):655-658. 被引量：8
5王雷,陈治平,李志成.基于文本分块的多模板隐马尔可夫模型的文本信息抽取[J].山东大学学报（理学版）,2006,41(3):25-28. 被引量：4
6顾铮,顾平.信息抽取技术在中医研究中的应用[J].医学信息（西安上半月）,2007,20(1):27-30. 被引量：12
7聂哲,顾明.基于XML的政府公文信息抽取中间件的设计与实现[J].计算机工程与设计,2007,28(5):1158-1160.
8周顺先,林亚平,王耀南.基于主动学习隐马尔可夫模型的文本信息抽取[J].湖南大学学报（自然科学版）,2007,34(6):74-77. 被引量：3
9郑彦宁,化柏林,张新民.信息检索与信息抽取差异性探析[J].图书情报工作,2007,51(10):17-20. 被引量：1
10于江德,樊孝忠,尹继豪,顾益军.基于隐马尔可夫模型的中文科研论文信息抽取[J].计算机工程,2007,33(19):190-192. 被引量：9

同被引文献10

1林亚平,刘云中,周顺先,陈治平,蔡立军.基于最大熵的隐马尔可夫模型文本信息抽取[J].电子学报,2005,33(2):236-240. 被引量：49
2于满泉,陈铁睿,许洪波.基于分块的网页信息解析器的研究与设计[J].计算机应用,2005,25(4):974-976. 被引量：55
3陈琼,苏文健.基于网页结构树的Web信息抽取方法[J].计算机工程,2005,31(20):54-55. 被引量：24
4段军峰,黄维通,陆玉昌.中文网页分类研究与系统实现[J].计算机科学,2007,34(6):210-213. 被引量：12
5SEYMORE K, MCCALI.UM A, ROSENFEL R. Learning hidden Markov model structure for information extraction[C] //Pro-ceedings of the AAAI--99 Workshop on Machine Learning for Information Extraction. Orlando, 1999:37--42.
6BERGER A, PIETRA S, PIETRA V. A maximum entropy approach to natural language proeessing[J]. Computational Languis-ties, 1996,22(1) :39--71.
7MILOS K,MICHELANGEL D.MARCO G,et al. Recognition of common areas in a Web page using a visualization approaeh[C]//Aritifical Intelligence : Methodology, System, and Applications : 10th International Conference, AIMSA 2002. Berlin : Springer. 2002 : 203-212.
8朱明,黄云,蔡庆生.基于多知识的Web网页信息抽取方法[J].小型微型计算机系统,2001,22(9):1058-1061. 被引量：10
9张绍华,徐林昊,杨文柱,薛文玲,李天柱.基于样本实例的Web信息抽取[J].河北大学学报（自然科学版）,2001,21(4):431-437. 被引量：19
10刘云中,林亚平,陈治平.基于隐马尔可夫模型的文本信息抽取[J].系统仿真学报,2004,16(3):507-510. 被引量：52

引证文献2

1程显林,王敬山,韩冬,姜建国.互联网络科技信息自动抽取系统的开发[J].大庆石油学院学报,2008,32(6):103-105.
2任玉,樊勇,郑家恒.基于分块的网页主题文本抽取[J].广西师范大学学报（自然科学版）,2009,27(1):141-144. 被引量：5

二级引证文献5

1黄锋,吴华瑞.一种自适应的Web信息抽取规则自动生成方法[J].广西师范大学学报（自然科学版）,2010,28(1):127-130. 被引量：5
2夏天.基于扩展标记树的网页正文抽取[J].广西师范大学学报（自然科学版）,2011,29(1):133-137. 被引量：2
3孙明柱,魏海平.基于结构树的网页正文内容抽取方法[J].科学技术与工程,2011,11(28):6990-6993. 被引量：2
4郭淼霞.中文网页分类研究综述[J].赤峰学院学报（自然科学版）,2011,27(12):51-53.
5郝晓玲.网络舆情研判技术的研究进展[J].情报科学,2012,30(12):1901-1906. 被引量：8

1王胜,朱明.基于最大熵马尔可夫模型的地址信息抽取[J].计算机工程与应用,2005,41(21):192-194. 被引量：8
2王志超,刘惠义.一种基于隐马尔可夫模型的人脸识别方法[J].计算机应用与软件,2013,30(2):304-307. 被引量：8
3刘彦伯,韩家新.iOS平台下人脸识别系统实现研究[J].计算机工程与应用,2013,49(22):204-207. 被引量：4
4刘小军,王东峰,张丽飞,时永刚,邹谋炎.一种基于奇异值分解和隐马尔可夫模型的人脸识别方法[J].计算机学报,2003,26(3):340-344. 被引量：37
5孙秋成,谭庆昌,侯跃谦.一种基于隐马尔可夫模型的虹膜识别方法[J].工程与试验,2008,48(4):41-44. 被引量：1
6朱文球,刘强.基于条件随机域的上下文人类动作识别[J].计算机工程与应用,2008,44(28):180-183. 被引量：1
7林美红.CAD/CAE技术在称重传感器设计中的应用[J].北京轻工业学院学报,1999,17(4):14-18. 被引量：1
8韩京宇,杨科华,董逸生.基于特征的数据规格化方法[J].计算机应用研究,2008,25(9):2679-2683.
9田光辉,吴江,张德同,秦宝生.基于动态描述逻辑的UCON授权模型[J].计算机工程,2008,34(19):163-166. 被引量：4
10何学科.ANSYS软件在钢轨传感器设计中的应用[J].南华大学学报（自然科学版）,2007,21(1):109-112. 被引量：2

郑州大学学报（理学版）

2008年第3期

浏览历史

内容加载中请稍等...

基于混合条件模型的Web信息抽取被引量：2

参考文献6

二级参考文献25

共引文献86

同被引文献10

引证文献2

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于混合条件模型的Web信息抽取 被引量：2

参考文献6

二级参考文献25

共引文献86

同被引文献10

引证文献2

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于混合条件模型的Web信息抽取被引量：2