基于文档特征的Web主题文本提取

Web Topic Text Extraction Based on Document Features

下载PDF

导出

摘要 Web主题文本提取是从Web页面中找出文本型主题内容,对Web信息过滤具有重大作用。针对目前Web主题文本提取算法复杂而且响应速度较慢的不足,提出一种新的Web主题文本提取方法。该方法直接从HTML文档结构本身的特征出发,提取文档中文本的多个特征,并设计了一个有效的公式综合利用提取特征来定位主题文本。实验表明该算法简单、快速、有效,能很好地运用于Web信息过滤。 Extraction of Web topic text is to find the text topic information from the Web pages, it is important for the Web information filtering. Because of the complicated computation and the slow response in extraction of the Web topic text, presents a new method. This method, directly using the structure of the HTML document, can extract several statistics from the HTML document and design a formula to locate the topic text. Experiments show that, the method is proved to be a simple, fast and effective way to filter the Web information.

作者黄振晗

机构地区福建广播电视大学莆田分校

出处《现代计算机》 2009年第8期26-30,共5页 Modern Computer

关键词主题文本文本特征结构树 Topic Text Text Feature Structured Tree

分类号 TP393.09 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：71
2吴鹏飞,孟祥增,刘俊晓,马凤娟.基于结构与内容的网页主题信息提取研究[J].山东大学学报（理学版）,2006,41(3):41-44. 被引量：15
3王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
4张清军,朱才连.基于统计的中文文本主题自动提取研究[J].四川大学学报（工程科学版）,2004,36(3):97-100. 被引量：7
5Dongyu Shi, Zhengwei Qi, Cheng Fu,et al. An Information Retrieval Model Based on Probabilistic Network. IEEE, SCC ,2004:423-426.
6Deng Cai, Shipeng Yu ,Ji-Rong Wen ,et al. VIPS:A Vision Based Page Segmentation Algorithm[R]. Microsoft Technical Report, MSR-TR-2003-79,2003.
7Kjefil Norvag, Randi Oyri. News Item Extraction for Text Mining in Web Newspapers. IEEE, WIRI, 2005: 195-204.

二级参考文献25

1荆涛,左万利.基于可视布局信息的网页噪音去除算法[J].华南理工大学学报（自然科学版）,2004,32(Z1):84-87.
2张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
3常育红,姜哲,朱小燕.基于标记树表示方法的页面结构分析[J].计算机工程与应用,2004,40(16):129-132. 被引量：24
4朱精南,赵明生.网页版面中区域几何信息的确定[J].计算机工程,2004,30(10):45-48. 被引量：4
5王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
6于满泉,陈铁睿,许洪波.基于分块的网页信息解析器的研究与设计[J].计算机应用,2005,25(4):974-976. 被引量：55
7胡飞.基于标记树的Web页面区域划分和搜索方法[J].计算机科学,2005,32(8):182-185. 被引量：7
8O Buyukkokten, H Garcia-Molina, A Paepcke. Accordion summarization for end-game browsing on PDAs and cellular phones. In: Proc of ACM Conf on Human Factors in Computing Systems(CHI 2001). New York: ACM Press, 2001. 213～220
9Wang Tengjiao, Tang Shiwei, Yang Dongqing, et al. COMIIX:Towards effective WEB information extraction, integration and query answering. In: Proc of SIGMOD' 02. New York: ACM Press, 2002. 620
10Liu Ling, Pu Calton, Han Wei. XWRAP: An XML-enabled wrapper construction system for Web information sources. In:Proc of the 16th Int'l Conf on Data Engineering. Washington:IEEE Computer Society Press, 2000. 611～621

共引文献157

1赵彦斌,李庆华,赵峰.Web网页语义树的构造与利用[J].华中科技大学学报（自然科学版）,2005,33(Z1):229-231.
2王哲.基于特征码的网页去重算法研究[J].山东电大学报,2009(1):14-16. 被引量：4
3郑长松,傅彦,佘莉.基于模板的Web信息自动提取方法[J].计算机应用研究,2009,26(2):570-572. 被引量：9
4张聚弘,山岚.基于页面对比分析的数据提取[J].计算机与数字工程,2006,34(1):49-52. 被引量：1
5吴鹏飞,孟祥增,刘俊晓,马凤娟.网页区域分割与识别技术[J].现代计算机,2006(6):48-50. 被引量：4
6吴鹏飞,孟祥增,刘俊晓,马凤娟.基于结构与内容的网页主题信息提取研究[J].山东大学学报（理学版）,2006,41(3):41-44. 被引量：15
7许文,都云程,李渝勤,施水才.一种通用HTML网页主题信息提取方法[J].现代图书情报技术,2007(1):40-43. 被引量：11
8贺智平,徐学洲,李爱玲.一种基于信息熵的Web页面主题信息抽取方法[J].计算机工程与应用,2007,43(4):164-166. 被引量：6
9赵欣欣,索红光,刘玉树.基于标记窗的网页正文信息提取方法[J].计算机应用研究,2007,24(3):144-145. 被引量：33
10谢华,刘卫国.基于局部语义的网页净化算法[J].计算机系统应用,2007,16(5):25-28.

1金菁.提取帮助文档中的主题文本[J].软件世界,1999(1):96-97.
2王兰成,朱建华.数字图书馆Web学术资源信息的分块采集研究[J].中国科技资源导刊,2012,44(6):76-80.
3郭辉,蔡庆生.Web主题信息监控系统设计与实现[J].计算机应用,2003,23(8):41-43. 被引量：1
4刘红,邵晓良,胡吉兵.基于页面内容和链接结构的超链接主题预测算法[J].现代图书情报技术,2005(5):41-45. 被引量：1
5杨俊,李志蜀.基于DOM的WEB主题信息抽取[J].四川大学学报（自然科学版）,2008,45(5):1077-1080. 被引量：11
6李艳生,汪自云.基于遗传算法的Web主题库成长技术研究[J].湖北师范学院学报（自然科学版）,2010,30(4):38-42. 被引量：1
7吴方龙.Web主题网页内容安全监管研究[J].科技与生活,2010(7):20-22.
8蒲强,李鑫,刘启和,杨国纬.一种Web主题文本通用提取方法[J].计算机应用,2007,27(6):1394-1396. 被引量：5
9衣治安,律佳.基于逻辑实现的模糊匹配算法在Web信息过滤中的应用[J].郑州轻工业学院学报（自然科学版）,2009,24(3):59-61.
10徐义峰,陈春明,徐云青.粗糙集理论在Web信息过滤中的应用研究[J].计算机系统应用,2007,16(3):40-42. 被引量：2

现代计算机

2009年第8期

浏览历史

内容加载中请稍等...

基于文档特征的Web主题文本提取

参考文献7

二级参考文献25

共引文献157

相关作者

相关机构

相关主题

浏览历史