摘要
标题是描述一个HTML文档主题的重要信息,但常常不能被准确指明。本文通过对过去标题抽取方法优缺点的总结和进一步分析,提出了通过机器学习策略进行标题抽取的方法。我们将HTML格式及DOM树结构等信息引入了机器学习标题抽取过程中,并通过实验验证了我们提出方法的可行性。
Title is important information to describe one HTML document.But it is not always correctly indicated in the title tag.In this paper,we propose a approach to extract title from the body of HTML which involving machine learning method.We use HTML format information and DOM structure information as feature in title extract, and proof it feasibility via experiment.
出处
《微计算机信息》
2010年第9期15-16,11,共3页
Control & Automation
关键词
机器学习
标题
信息抽取
Machine Learning
Title
Information Extraction