基于遗传算法和隐马尔可夫模型的Web信息抽取的改进被引量：7

Improvement of Web Information Extraction Based on Genetic Algorithm and Hidden Markov Model

下载PDF

导出

摘要为了进一步提高Web信息抽取的准确性和效率,针对Web信息抽取的遗传算法和一阶隐马尔可夫模型混合方法在初值选取和参数寻优上的不足,提出了一种遗传算法和二阶隐马尔可夫模型内嵌结合的改进方法。在分层预处理阶段,利用格式信息和文本特征将文本切分成文本行、块或单个的词等恰当的层次;然后采用内嵌的遗传算法和二阶隐马尔可夫混合模型训练参数,保留最优和次优染色体,修正Baum-Welch算法的初始参数,多次使用遗传算法微调二阶隐马尔可夫模型;最后用改进的Viterbi算法实现Web信息抽取。实验结果表明,改进方法在精确度、召回率指标和时间性能上均比遗传算法和一阶隐马尔可夫模型的混合方法具有更好的性能。 In order to further enhance the accuracy and efficiency of Web information extraction, for the shortcomings of hybrid method of genetic algorithm and first-order hidden Markov model in the initial value selection and parameter optimization, an improved combined method embedded with genetic algorithm and second-order hidden Markov model was presented. In the hierarchical preprocessing phase, text was segmented hierarchically into proper lines, blocks and words by using the format information and text features. And then the embedded genetic algorithm and second-order hidden Markov hybrid model were adopted to train parameters, and the optimal and sub-optimal chromosomes were all retained to modify initial parameters of Baumelch algorithm and genetic algorithm was used repeatedly to fine-tune the second,order hidden Markov model. Finally the improved Viterbi algorithm was used to extract Web information. Experi- mental results show that the new method improves the performance in precision,recall and time.

作者李荣胡志军郑家恒

机构地区忻州师范学院计算机系山西大学计算机与信息技术学院

出处《计算机科学》 CSCD 北大核心 2012年第3期196-199,215,共5页 Computer Science

基金国家自然科学基金(60775041) 山西省高校科技开发项目(20101120)资助

关键词 WEB信息抽取遗传算法二阶隐马尔可夫模型分层 Information extraction, Genetic algorithm, Second-order hidden markov model, Hierarchy

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1冀高峰,汤庸,道炜,吴桂宾,黄帆,王鹏.基于XML的自动学习Web信息抽取[J].计算机科学,2008,35(3):87-90. 被引量：10
2Skounakis M, Craven M, Ray S. Hierarchical hidden markov models for information extraction[C]//Proceedings of the 18th International Joint Conference on Artificial Intelligence Acaptr lco, Mexico: Morgan Kaufmann, 2003 : 427-433.
3祝伟华,卢熠,刘斌斌.基于HMM的Web信息抽取算法的研究与应用[J].计算机科学,2010,37(2):203-206. 被引量：12
4韦小丽,孙涌,张书奎,苗艳军.基于最大熵模型的本体概念获取方法[J].计算机工程,2009,35(24):114-116. 被引量：17
5Freitag D, McCallum A, Pereira F. Maximum Entropy Markov models for information extraction and segaTlentation[C]//Proceedings of the Seven teenth International Conference on Machine Learning. San Francisco: Morgan Kaufmann,2000:591-598.
6Bundschus M, DejoriI M, Stetter M, et al. Extraction of semantic biomedical relations from text using conditional random fields [J]. BioMed Central(BMC)Bioinformaties, 2008,9 : 207-220.
7Martens D, Baesens B, et al. Decompositional Rule Extraction from Support Vector Machines by Active Learning[J]. Knowledge and Data Engineering,2008,21(2) : 178-191.
8林亚平,刘云中,周顺先,陈治平,蔡立军.基于最大熵的隐马尔可夫模型文本信息抽取[J].电子学报,2005,33(2):236-240. 被引量：49
9张铭,银平,邓志鸿,杨冬青.SVM+BiHMM:基于统计方法的元数据抽取混合模型[J].软件学报,2008,19(2):358-368. 被引量：27
10王川,段德全,王晓东.基于改进的PSO和HMM的Web信息抽取算法[J].河南师范大学学报（自然科学版）,2010,38(5):65-68. 被引量：3

二级参考文献86

1林亚平,刘云中,周顺先,陈治平,蔡立军.基于最大熵的隐马尔可夫模型文本信息抽取[J].电子学报,2005,33(2):236-240. 被引量：49
2梁以敏,黄德根.基于完全二阶隐马尔可夫模型的汉语词性标注[J].计算机工程,2005,31(10):177-179. 被引量：25
3钱云涛,谢维信.一种由模糊逻辑神经元网络实现的聚类分析方法[J].西安电子科技大学学报,1995,22(1):1-7. 被引量：12
4钟敏娟,郝谦,刘云中.基于多模板隐马尔可夫模型的文本信息抽取算法[J].计算机工程,2006,32(2):203-205. 被引量：9
5王雷,陈治平,李志成.基于文本分块的多模板隐马尔可夫模型的文本信息抽取[J].山东大学学报（理学版）,2006,41(3):25-28. 被引量：4
6Freitag D,McCallurn A.lnforrnation extraction with HMMs and shrinkage[C]//Proceedings of the AAAI'99 Workshop on Maehine Learning for Information Extraction.Orlando,Florida: AAAi Press/ MIT Press, 1999:31-36.
7Freitag D,McCallum A.Information extraction with HMM structures learned by stochastic optimization[C]//Proceedings of the Eighteenth Conference on Artificial Intelligence.Austin,Texas: AAAI Press, 2000 : 584-589.
8Seymore K,McCallurn A,Rosenfeld R.Learning hidden Markov model structure for information extraction[C]//AAAI'99 Workshop on Machine Learning for Information Extraction.Orlando,Florida: AAAi Press/MIT Press, 1999:37-42.
9Freitag D,McCallum A,Pereira F.Maximum entropy Markov models for information extraction and seqmentation[C]//Proceedings of ICML- 2000.CA, USA : Morgan Kanfmann, 2000 : 591-598.
10Bouchaffra D,Tan J.Structural hidden Markov models using a relation of equivalence: application to automotive designs[J].Data Mining and Knowledge Discovery,2006, 12:79-96.

共引文献117

1孔静静,于琦,李敬华,于彤,张竹绿,田野,祖雅琪.实体抽取综述及其在中医药领域的应用[J].世界科学技术-中医药现代化,2022,24(8):2957-2963. 被引量：9
2张雪英,闾国年,叶鹏.大数据地理信息系统:框架、技术与挑战[J].现代测绘,2020(6):1-8. 被引量：10
3贾钰峰,章蓬伟,邵小青,张玉茜.印刷维吾尔文识别后处理[J].智能计算机与应用,2020(4):239-242.
4郑继明,李瑞仙,蒲兴成.基于单状态HMM的音频分类方法研究[J].计算机应用,2009,29(2):392-394.
5李学勇,高国红,孙甲霞.基于互信息和K-means聚类的信息安全风险评估[J].河南师范大学学报（自然科学版）,2011,39(2):152-155.
6王雷,陈治平,李志成.基于文本分块的多模板隐马尔可夫模型的文本信息抽取[J].山东大学学报（理学版）,2006,41(3):25-28. 被引量：4
7周顺先,林亚平,王耀南.基于主动学习隐马尔可夫模型的文本信息抽取[J].湖南大学学报（自然科学版）,2007,34(6):74-77. 被引量：3
8于江德,樊孝忠,尹继豪,顾益军.基于隐马尔可夫模型的中文科研论文信息抽取[J].计算机工程,2007,33(19):190-192. 被引量：9
9周顺先,林亚平,王耀南,易叶青.基于聚簇隐马尔可夫模型的文本信息抽取[J].系统仿真学报,2007,19(21):4926-4931. 被引量：2
10于江德,樊孝忠,尹继豪.基于条件随机场的中文科研论文信息抽取[J].华南理工大学学报（自然科学版）,2007,35(9):90-94. 被引量：12

同被引文献88

1刘国伟,尹洪宗,何锡文.不确定度评定中离群值的检验及计算机编程[J].冶金分析,2004,24(4):63-66. 被引量：14
2王吉发,冯晋,李汉铃.企业转型的内涵研究[J].统计与决策,2006,22(2):153-157. 被引量：68
3陈华根,李丽华,许惠平,陈冰.改进的非常快速模拟退火算法[J].同济大学学报（自然科学版）,2006,34(8):1121-1125. 被引量：50
4翟凤文,赫枫龄,左万利.字典与统计相结合的中文分词方法[J].小型微型计算机系统,2006,27(9):1766-1771. 被引量：42
5李丽双,黄德根,陈春荣,杨元生.SVM与规则相结合的中文地名自动识别[J].中文信息学报,2006,20(5):51-57. 被引量：32
6曾文,鄢军霞.城市GIS地名定位工具的设计及应用[J].地球科学（中国地质大学学报）,2006,31(5):725-728. 被引量：16
7王吉发,侯强.企业转型的系统化理论[M].沈阳:辽宁人民出版社,2012.
8CAI I)eng, YCI Shipeng, WEN Jirong, et aL VIPS= A vision based page segmentation algorithm [R]. Mcrosoft R:earch, 2003.
9Ari Ginsberg, John H Grant. Research on strategic change: theoretical and methodological issues [J]. Academy of Man- agement Proceedings, 1985 (9) : 11-15.
10Michael E Porter. Competitive Strategy [M]. New York: Si- mon & Schuster Ltd, 2004.

引证文献7

1李伟男,李书琴,景旭,魏露,李新乐.基于模拟退火算法和二阶HMM的Web信息抽取[J].计算机工程与设计,2014,35(4):1264-1268. 被引量：7
2王吉发,郭楠,蒋亚朋.企业转型因子的识别方法研究[J].华东经济管理,2014,28(7):121-125. 被引量：14
3刘志强,杨培培,倪捷,冯新颖.面向模拟驾驶训练的驾驶意图识别方法[J].重庆理工大学学报（自然科学）,2014,28(10):1-7. 被引量：2
4王宁,李石君.基于模拟退火算法和隐马尔可夫模型的文本信息抽取[J].微电子学与计算机,2014,31(12):52-56.
5王克永,刘纪平,罗安,王勇.前后缀与特征词相结合的地名地址提取[J].测绘通报,2016(2):64-68. 被引量：17
6王玉娇,耿思,李宁.东巴古籍资源的数字化及数据管理[J].电子测量与仪器学报,2017,31(4):636-643. 被引量：7
7林春杰,韩晓琴.基于半监督条件随机场的信息抽取方法[J].信息与电脑,2020,32(10):103-106. 被引量：1

二级引证文献48

1陈免慧,沈炜.嵌入式语音系统信息采集算法研究[J].工业控制计算机,2015,28(12):64-65. 被引量：2
2杨辉,李逸翔.上市公司供应链金融转型动因的实证分析[J].统计与决策,2017,33(9):183-185.
3李爱勤.多级索引驱动的地名信息检索方法[J].测绘科学,2017,42(4):103-107. 被引量：13
4王玉娇,李宁,陈若愚.XML数据库管理系统在古籍编目管理中的应用[J].北京信息科技大学学报（自然科学版）,2017,32(3):18-24. 被引量：1
5彭艳兵,谢馨庭.基于单DOM树特征预分类的自适应Web信息抽取方法[J].电子设计工程,2017,25(19):56-59. 被引量：4
6王思丽,刘巍,祝忠明,吴志强,王金平.基于CSpace的科技信息可配置化自动监测功能设计与实现[J].数据分析与知识发现,2017,1(10):85-93. 被引量：3
7熊峻峰,石和荣.基于开放式架构的DDS研究与实现[J].国外电子测量技术,2017,36(12):87-91. 被引量：5
8夏欣雨,朱春梅,吴国新.融合小波变换和模糊集的东巴古籍图像增强算法[J].北京信息科技大学学报（自然科学版）,2018,33(3):47-51. 被引量：3
9刘鹏程,胡骏,吴共庆.基于文本块密度和标签路径覆盖率的网页正文抽取[J].计算机应用研究,2018,35(6):1645-1650. 被引量：5
10李晓林,张懿,周华兵,李霖.基于C-F模型的中文地址行政区划辨识方法[J].计算机工程与设计,2018,39(7):2048-2053. 被引量：3

1周顺先,林亚平,王耀南,易叶青.基于二阶隐马尔可夫模型的文本信息抽取[J].电子学报,2007,35(11):2226-2231. 被引量：25
2王宁,李石君.基于模拟退火算法和隐马尔可夫模型的文本信息抽取[J].微电子学与计算机,2014,31(12):52-56.
3刘洁彬,宋茂强,赵方,杨志宇.基于上下文的二阶隐马尔可夫模型[J].计算机工程,2010,36(10):231-232. 被引量：6
4李春利,张磊,惠康华.HMM在手写数字结构信息建模中的应用[J].计算机工程与应用,2012,48(31):194-198.
5何维,王宇.基于句子的文本表示及中文文本分类研究[J].情报学报,2009,28(6):839-843. 被引量：3
6云俊,陈庆虎,王少梅.人工智能的新发展:人工神经网络及其应用[J].计算机工程与应用,2001,37(9):55-56. 被引量：12
7张俞平,黄真.用几何形体法求解并联机械手位置正解[J].太原重型机械学院学报,1991,12(1):42-51.
8甄子洋,王道波,刘文波,刘媛媛.变长度微粒群优化模糊聚类的自适应图像分割方法[J].光电子．激光,2009,20(1):99-102. 被引量：12
9菅小艳.基于不完整数据的EM算法初值选取[J].太原师范学院学报（自然科学版）,2010,9(1):79-81. 被引量：3
10秦晓波.一种基于聚类的入侵检测新方法[J].贵阳学院学报（自然科学版）,2008,3(1):19-22. 被引量：1

计算机科学

2012年第3期

浏览历史

内容加载中请稍等...

基于遗传算法和隐马尔可夫模型的Web信息抽取的改进被引量：7

参考文献12

二级参考文献86

共引文献117

同被引文献88

引证文献7

二级引证文献48

相关作者

相关机构

相关主题

浏览历史

基于遗传算法和隐马尔可夫模型的Web信息抽取的改进 被引量：7

参考文献12

二级参考文献86

共引文献117

同被引文献88

引证文献7

二级引证文献48

相关作者

相关机构

相关主题

浏览历史

基于遗传算法和隐马尔可夫模型的Web信息抽取的改进被引量：7