基于特征词统计的网页结构化信息抽取被引量：1

Web Pages Structured Information Extraction Based on Feature Words Statistics

下载PDF

导出

摘要作为垂直搜索的关键技术之一,网页结构化信息抽取近年来得到越来越多的关注.网页结构化信息抽取通过打碎网页,从中提取"精细化"、"条目化"的信息,存储在数据库中,通过对数据库的查询达到垂直搜索"精准"的目的.已有的方法大多是基于规则的模型和基于隐马尔可夫的模型,这些方法要么依赖特定网页结构,适用性差;要么依赖大量的训练样本,训练效率低.结合垂直搜索特定领域特征词数量有限的特点和统计方法,提出基于特征词统计的结构化信息抽取技术,解决了只能抽取特定HTML标记节点和单个信息块的问题,关键信息块的抽取平均准确率为97%. As one of the key technologies of vertical search,web pages structured information extraction gets more and more attention.Web pages structured information extraction breaks web pages,from which it extracts the ＂fine＂ and the ＂item＂ of information,to store in the database.Through queries on the database vertical searches achieves the ＂precise＂ purpose.Most existing methods are based on rule model or based on hidden Markov model.Those methods either relies on a specific page structure,the applicability is poor,or relies on a large number of training samples,the training is inefficient.Combining vertical search specific areas which the characteristics of a limited number of feature words and a statistical method,this paper presented the structured information extraction technology based on feature words statistics to solve the problem that only specific HTML tag＇s nodes or only the single block can be extracted.The average accuracy rate of key information block extraction is 97 %.

作者陈志雄朱向庆

机构地区嘉应学院电子信息工程学院

出处《嘉应学院学报》 2011年第2期18-21,共4页 Journal of Jiaying University

基金广东省自然科学基金项目(9251401501000002) 梅州市科学技术局嘉应学院联合自然科学研究项目(08KJ08)

关键词垂直搜索信息抽取结构化特征词统计 vertical search information extraction structured feature words statistics

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献7

1胡亮,袁芳,齐芸芸.农业垂直搜索引擎信息抽取的研究[J].计算机工程与设计,2009,30(5):1115-1118. 被引量：4
2任仲晟,薛永生.基于页面标签的Web结构化数据抽取[J].计算机科学,2007,34(10):133-136. 被引量：8
3刘云中,林亚平,陈治平.基于隐马尔可夫模型的文本信息抽取[J].系统仿真学报,2004,16(3):507-510. 被引量：52
4邓健爽,郑启伦,彭宏,林旭东.基于关键词聚类和节点距离的网页信息抽取[J].计算机科学,2007,34(4):213-216. 被引量：8
5李朝,彭宏,叶苏南,张欢,杨亲遥.基于DOM树的可适应性Web信息抽取[J].计算机科学,2009,36(7):202-203. 被引量：16
6周佳颖,朱珍民,高晓芳.基于统计与正文特征的中文网页正文抽取研究[J].中文信息学报,2009,23(5):80-85. 被引量：16
7王舒,朱敏,张明,牛颢,赵瑜.一种基于特征符号的网页主题信息抽取方法[J].计算机应用研究,2009,26(12):4539-4541. 被引量：4

二级参考文献69

1欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
2陈兰,左志宏,熊毅,孟令谦.一种新的基于Ontology的信息抽取方法[J].计算机应用研究,2004,21(8):155-157. 被引量：18
3于满泉,陈铁睿,许洪波.基于分块的网页信息解析器的研究与设计[J].计算机应用,2005,25(4):974-976. 被引量：55
4彭波,闫宏飞.搜索引擎检索系统质量评估[J].计算机研究与发展,2005,42(10):1706-1711. 被引量：10
5刘非凡,赵军,吕碧波,徐波,于浩,夏迎炬.面向商务信息抽取的产品命名实体识别研究[J].中文信息学报,2006,20(1):7-13. 被引量：48
6王志琪,王永成.HTML文件的文本信息预处理技术[J].计算机工程,2006,32(5):46-48. 被引量：12
7彭波.大规模搜索引擎检索系统框架与实现要点[J].计算机工程与科学,2006,28(3):1-4. 被引量：20
8邓尚民,孙玉伟.信息抽取系统的研究现状[J].现代图书情报技术,2006(3):55-58. 被引量：23
9刘艳敏,刘飚,封化民,宋国森,方勇.Web页面主题信息抽取研究与实现[J].计算机工程与应用,2006,42(21):146-148. 被引量：11
10邓健爽,郑启伦,彭宏,林旭东.基于关键词聚类和节点距离的网页信息抽取[J].计算机科学,2007,34(4):213-216. 被引量：8

共引文献98

1宋远君,赵铭远,马静.基于本体的无人机情报获取与分析系统研究[J].计算机科学,2012,39(S3):215-219. 被引量：1
2黄玲,陈龙.基于网页分块的正文信息提取方法[J].计算机应用,2008,28(S2):326-328. 被引量：13
3王敬普,林亚平,周顺先,岳文.基于包装器模型的文本信息抽取[J].计算机应用,2006,26(3):655-658. 被引量：8
4王雷,陈治平,李志成.基于文本分块的多模板隐马尔可夫模型的文本信息抽取[J].山东大学学报（理学版）,2006,41(3):25-28. 被引量：4
5顾铮,顾平.信息抽取技术在中医研究中的应用[J].医学信息（西安上半月）,2007,20(1):27-30. 被引量：12
6聂哲,顾明.基于XML的政府公文信息抽取中间件的设计与实现[J].计算机工程与设计,2007,28(5):1158-1160.
7郑彦宁,化柏林,张新民.信息检索与信息抽取差异性探析[J].图书情报工作,2007,51(10):17-20. 被引量：1
8于江德,樊孝忠,尹继豪,顾益军.基于隐马尔可夫模型的中文科研论文信息抽取[J].计算机工程,2007,33(19):190-192. 被引量：9
9周顺先,林亚平,王耀南,易叶青.基于聚簇隐马尔可夫模型的文本信息抽取[J].系统仿真学报,2007,19(21):4926-4931. 被引量：2
10于江德,樊孝忠,尹继豪.基于条件随机场的中文科研论文信息抽取[J].华南理工大学学报（自然科学版）,2007,35(9):90-94. 被引量：12

同被引文献7

1罗欣,夏德麟,晏蒲柳.基于词频差异的特征选取及改进的TF-IDF公式[J].计算机应用,2005,25(9):2031-2033. 被引量：56
2张敏.基于Web的个性化信息检索关键技术研究[J].计算机时代,2006(3):37-38. 被引量：4
3徐静秋,朱征宇,谭明红,任翔.基于二级向量描述的搜索引擎个性化服务模型[J].计算机科学,2007,34(11):89-93. 被引量：5
4刘静,李华亮.个性化搜索引擎中兴趣学习方法的研究[J].计算机时代,2009(11):31-34. 被引量：1
5韩立毛,鞠时光,羊晶璟.个性化搜索引擎中网页特征描述的研究[J].计算机工程与应用,2011,47(11):94-97. 被引量：2
6于洪波.网页特征提取技术研究[J].山东理工大学学报（自然科学版）,2011,25(2):107-110. 被引量：3
7周序生,李爽.网页自动分类的建模与仿真研究[J].计算机仿真,2011,28(10):121-124. 被引量：3

引证文献1

1李力沛,罗颖.面向Web检索服务的个性化词典的研究与实现[J].计算机时代,2012(11):1-3.

1霍永,罗钊.垂直搜索引擎浅析[J].广西警官高等专科学校学报,2009,22(4):38-41. 被引量：1
2丁点,王永贵,曹丰,沈昕,郭亚平,李旭东.编辑Flash MX对象[J].电子与电脑,2002(7):120-129.
3赵岩（翻译）,马俨（摄影）.框框的美丽[J].中外食品工业（贝太厨房）,2005(11):52-52.
4打碎主频神话[J].电子与电脑,2001(11):102-103.
5郝爱峰.网页结构化信息抽取技术方法研究[J].山西电子技术,2008(4):75-76. 被引量：3
6岳国伟,梁永全.基于Agent的Web页面结构化信息抽取[J].计算机研究与发展,2007,44(z2):344-349.
7邵堃,杨春磊,钱立宾,方帅.基于模式匹配的结构化信息抽取[J].模式识别与人工智能,2014,27(8):758-768. 被引量：6
8胡尊美.一种改进的路由标记方案[J].微计算机信息,2011,27(12):114-115.
9ZT.打碎安装程序的不破金身[J].大众软件,2006(17):63-64.
10流沙.＂经验＂被打碎[J].全国优秀作文选（美文精粹）,2017,0(4):38-39.

嘉应学院学报

2011年第2期

浏览历史

内容加载中请稍等...

基于特征词统计的网页结构化信息抽取被引量：1

参考文献7

二级参考文献69

共引文献98

同被引文献7

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于特征词统计的网页结构化信息抽取 被引量：1

参考文献7

二级参考文献69

共引文献98

同被引文献7

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于特征词统计的网页结构化信息抽取被引量：1