基于机器学习的HTML标题抽取被引量：4

Title Extraction from HTML Document Based on Machine Learning

下载PDF

导出

摘要标题是描述一个HTML文档主题的重要信息,但常常不能被准确指明。本文通过对过去标题抽取方法优缺点的总结和进一步分析,提出了通过机器学习策略进行标题抽取的方法。我们将HTML格式及DOM树结构等信息引入了机器学习标题抽取过程中,并通过实验验证了我们提出方法的可行性。 Title is important information to describe one HTML document.But it is not always correctly indicated in the title tag.In this paper,we propose a approach to extract title from the body of HTML which involving machine learning method.We use HTML format information and DOM structure information as feature in title extract, and proof it feasibility via experiment.

作者朱青吕晓旭

机构地区北京工业大学

出处《微计算机信息》 2010年第9期15-16,11,共3页 Control & Automation

关键词机器学习标题信息抽取 Machine Learning Title Information Extraction

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献5

1Yunhua Hu, Guomao Xin, Ruihua Song, Guoping Hu, Shuming Shi, Yunbo Cao, and Hang Li. Title Extraction from Bodies of HTML Documents and its Application to Web Page Retrieval [J].The 28th Annual International ACM SIGIR Conference (SIGIR'2005), August 2005.
2黄骥,姜利群,殷兆麟.一种新型的基于样本的Web信息检索技术[J].微计算机信息,2009,25(3):238-239. 被引量：5
3Freitag, D. Machine Learning for Information Extraction in Informal Domains [J]. Machine Learning, 39 (2/3), p 169- 202,2000.
4Craven, T.C. HTML Tags as Extraction Cues for Web Page Description Construction [J]Informing Science Journal, Volume 6, 2003.
5Zhang, M., Song, R. and Ma, S. DF or IDF? On the use of HTML primary feature fields for Web IR [J]. In Proceedings of the Twelfth International World Wide Web Conference (WWW2003), 2003.

二级参考文献5

1杨占华,杨燕.数据挖掘在智能搜索引擎中的应用[J].微计算机信息,2006,22(04X):244-246. 被引量：22
2Nicholas. Regression testing for wrapper maintenance. AAAI/ AAI 1999: pp 74-79
3ED Wilson. The Knowledge Discovery Process Problem Solving Methodology [c]. Computer Associates International, Inc. 1998
4王腾蛟,唐世渭,杨冬青,刘云峰.半结构化数据的局部精确模式提取方法[J].第十七届全国数据库学术会议(NDBC2000),2000,10:22-28.
5Jiawei, Han, Micheline Kamber. Data Mining: Concepts and Techniques. 2000, 187-198.

共引文献4

1韩中元,韩咏,马威,崔硕.中文信息检索中二元文法索引策略的改进[J].微计算机信息,2010,26(15):33-34. 被引量：2
2王志华,魏斌,李占波,赵伟.基于本体的Web信息抽取系统[J].计算机工程与设计,2012,33(7):2634-2639. 被引量：13
3金燕.基于本体的Web信息抽取研究综述[J].图书馆学研究,2012(16):2-6. 被引量：1
4王聪,周沫.Web信息检索及应用设计优化技术研究[J].信息通信,2013,26(5):102-104.

同被引文献28

1游贵荣,陆玉昌.基于统计和机器学习的中文Web网页正文内容抽取[J].福建商业高等专科学校学报,2009(2):68-72. 被引量：5
2黄玲,陈龙.基于网页分块的正文信息提取方法[J].计算机应用,2008,28(S2):326-328. 被引量：13
3张引,陈敏,廖小飞.大数据应用的现状与展望[J].计算机研究与发展,2013,50(S2):216-233. 被引量：391
4王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
5郭太飞,何洁月.归纳学习XPATH Web信息提取规则[J].计算机技术与发展,2007,17(3):98-101. 被引量：7
6王强,关毅,王晓龙.基于标题类别语义识别的文本分类算法研究[J].电子与信息学报,2007,29(12):2885-2890. 被引量：6
7Xue Yewei, Hu Yunhua, Xin Guomao, et al. Web page ti- tle extraction and its application [ J ]. Information Process- ing and Management, 2007,43 (5) : 1332-1347.
8Fan Jian, Luo Ping, Joshi P. Title identification of Web article pages using HTML and visual features [ C ]/! Pro- ceedings of the International Society for Optical Engineer- ing, 2011. 2011,7879.
9Jericho HTML Parser. Jericho HTML Parser [ EB/OL]. ht- tp ://jericho. htmlparser, net/docs/index, html, 2015-03-10.
10程娟.基于机器学习的网页文本抽取技术[J].图书馆学研究,2008(5):21-22. 被引量：1

引证文献4

1刘建华,张智雄,谢靖,邹益民.基于规则的网络文本资源标题快速自动识别方法[J].现代图书情报技术,2011(6):27-31. 被引量：6
2张兵,汤进,罗斌.基于超链接和DOM结构树的网页标题实时抽取方法[J].计算机与现代化,2015(8):84-88. 被引量：2
3彭圳生,巩青歌,高志强,段妍羽,曾子贤.基于密度及文本特征的新闻标题抽取算法[J].中文信息学报,2018,32(10):78-86. 被引量：6
4何春辉.一种基于文本相似度的网页新闻标题自动抽取算法[J].湖南城市学院学报（自然科学版）,2019,28(1):58-61. 被引量：2

二级引证文献15

1丁振凡.基于Tika语义分析的文档标题提取研究[J].长沙大学学报,2012,26(5):69-71. 被引量：1
2李传席,张智雄,刘建华,钱力.半监督的网络科技信息分类模型[J].现代图书情报技术,2014(11):53-58.
3张兵,汤进,罗斌.基于超链接和DOM结构树的网页标题实时抽取方法[J].计算机与现代化,2015(8):84-88. 被引量：2
4张敏,刘建华,谢靖.网络科技信息监测中富文档识别与信息提取技术研究[J].情报科学,2017,35(1):128-132. 被引量：9
5何春辉.一种基于文本相似度的网页新闻标题自动抽取算法[J].湖南城市学院学报（自然科学版）,2019,28(1):58-61. 被引量：2
6吕容政,刘嘉勇.基于决策树的自适应网页正文抽取方法[J].现代计算机,2019,25(7):16-22.
7陈志泊,李钰曼,许福,冯国明,师栋瑜,崔晓晖.基于TextRank和簇过滤的林业文本关键信息抽取研究[J].农业机械学报,2020,51(5):207-214. 被引量：16
8刘辉.基于强类别特征的文本相似度计算及其性能评估[J].软件工程,2020,23(10):5-7. 被引量：2
9汪涛,夏彬.基于文本集密度的社交媒体软件内容推荐系统设计研究[J].现代电子技术,2021,44(12):73-77. 被引量：4
10邱桂华,李贤阳,肖宝,阳建中.一种基于智能组卷的试题库随机分段抽题算法[J].北部湾大学学报,2020,35(11):31-35. 被引量：4

1张奇,郝志峰,温雯,蔡瑞初.基于互信息度量的Web信息抽取[J].计算机应用与软件,2013,30(12):15-18. 被引量：5
2彭文滔,叶飞跃,李霞,员红娟.信息抽取中基于DOM树的过滤器方法的研究[J].微计算机信息,2008,24(30):217-219. 被引量：4
3白秋产,金春霞,章慧,周海岩.词共现文本主题聚类算法[J].计算机工程与科学,2013,35(7):164-168. 被引量：13
4陈金梁,李青.基于本体的领域文档主题抽取方法研究[J].电脑开发与应用,2014,27(9):44-47.
5吴敏纲,詹沐清.Web信息抽取技术在景德镇旅游电子商务中的应用[J].信息与电脑（理论版）,2014,0(10):134-135.
6袁晓峰.基于词语相关度的文档主题抽取算法[J].成都大学学报（自然科学版）,2012,31(4):367-369.
7沙丽华.基于RDF语义标注的领域文档主题描述方法研究[J].电子技术与软件工程,2015(13):196-197.
8卢远征,叶晓彤.XML的DOM树结构在WEB挖掘中的应用[J].四川理工学院学报（自然科学版）,2013,26(3):64-67. 被引量：2
9曾义聪,邱春荣.基于本体概念图的web文档主题爬取探讨[J].科技创新导报,2010,7(8):24-25.
10李朝,彭宏,叶苏南,张欢,杨亲遥.基于DOM树的可适应性Web信息抽取[J].计算机科学,2009,36(7):202-203. 被引量：16

微计算机信息

2010年第9期

浏览历史

内容加载中请稍等...

基于机器学习的HTML标题抽取被引量：4

参考文献5

二级参考文献5

共引文献4

同被引文献28

引证文献4

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

基于机器学习的HTML标题抽取 被引量：4

参考文献5

二级参考文献5

共引文献4

同被引文献28

引证文献4

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

基于机器学习的HTML标题抽取被引量：4