网页信息抽取及其自动文本分类的实现被引量：7

Extraction of Homepage Text Information and Realization of Text Automatic Categorization

下载PDF

导出

摘要 Web页面中常包含非主题信息的内容,网页必须剔除这些无用的信息后才能形成有用的文本信息。文本分类对文本信息的进一步加工处理至关重要,是信息搜索领域的另一研究课题。为了剔除网页中的无用信息,提出一种基于HTML自身结构特点的网页正文信息抽取方法,同时结合文章标题信息,实现文本自动分类的简易分类方法。该方法可以提高网页正文提取及其自动文本分类的效率。实验证明,该方法是可行的。 The non-subject information is often contained in the Web homepage. The useless information must be rejected in the process of forming the useful text information. The text classification is very important to the text information further processing. It has become another research topic in the information search field. Proposed a method of extracting the text information based on the HTML unique feature, simultaneously, and unified the article title information, and realized the text automatic categorization. The method is proved to feasible and realizable to enhance the homepage extraction and text categorization through the detailed demonstration.

作者赵金仿赵艳缪建明

机构地区江苏科技大学电子信息学院中国科学院声学研究所

出处《计算机技术与发展》 2008年第10期37-39,共3页 Computer Technology and Development

基金国家自然科学基金(60573064)

关键词标记文本分类信息抽取 lag text categorization information extraction

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1郭庚麒.Web文本挖掘技术[J].计算机与网络,2004,30(1):114-116. 被引量：10
2冯伟华,苗长芬.基于Web的网页信息抽取方法的研究[J].洛阳工业高等专科学校学报,2005,15(3):30-31. 被引量：4
3许文,都云程,李渝勤,施水才.一种通用HTML网页主题信息提取方法[J].现代图书情报技术,2007(1):40-43. 被引量：11
4程传鹏.中文网页分类的研究与实现[J].中原工学院学报,2007,18(1):61-64. 被引量：13
5王晓霞,尹四清.网页分类技术的研究[J].机械工程与自动化,2007(1):75-77. 被引量：1

二级参考文献26

1欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：71
2韩家威.《数据挖掘》[M].北京:高等教育出版社,2001.5..
3林杰斌.《数据挖掘与OLAP》[M].北京:清华大学出版社,2003.1..
4IonMuslea, Steve Minton, and Craig A.Knoblock. A hierarchical approach to wrapper induction[C].Proceedings of the Third International Conference on Autonomous Agents,Seattle,WA,1999.221-227.
5G.Wiederhold. Mediators in the architecture of Future Information Systems [J].IEEE Computer, 1992,(3).
6Michael W Berry， Murray Browne. Understand Search Engines:Mathematical Modeling and Text Retrieval. Philadelphia:Society for Industrial and Applied Mathematics, 1999, 116
7Buyukkokten O, Garcia2Molina H, Paepcke A. Accordion summarization for end -game browsing on PDAs and cellular phones. In: Proc of ACM Conf on Human Factors in Computing Systems( CHI 2001 ). New York:ACM Press, 2001. 213 -220
8Yi L, Liu B, Li X. Eliminating Noisy Information in Web Pages for Data Mining. http://www, cs. uic. edu/- liub/publications/kdd2003 -WebNoise. pdf ( Accessed Oct. 17,2005 )
9Suhit Gupta, Gail Kaiser, David Neistadt, Peter Grimm, "DOM -based Content Extraction of HTML Documents", 12th International World Wide Web Conference, 2003 (5) : 207 - 214
10Stenback j, Hegaret P L, Hors A L. Document Object Model ( DOM )Level 2 HTML Specification. http://www. w3. org/TR/2003/REC -DOM - Level - 2 - HTML - 20030109/DOM2 - HTML. html#html -ID - 1176245063,2003 ( Accessed Oct. 17,2005 )

共引文献34

1李颖,阎保平.Web文本挖掘在互联网信息统计中的研究与设计[J].微电子学与计算机,2005,22(1):62-65. 被引量：5
2陈朵玲,胡肖锋.基于Web文本挖掘技术的企业竞争情报系统研究[J].情报杂志,2005,24(6):22-24. 被引量：15
3黎琳,赵英.Web内容挖掘在数字图书馆中的应用[J].图书馆学研究,2006(2):19-21. 被引量：9
4刘进锋,荣冈.Web文本挖掘在辅助研究中的应用[J].情报科学,2006,24(3):400-404. 被引量：1
5LI Yu,WANG Yan-bin,GOU Xin,SU Yi-bing,WANG Gang.Risk assessment of heavy metals in soils and vegetables around nonferrous metals mining and smelting sites,Baiyin,China[J].Journal of Environmental Sciences,2006,18(6):1124-1134. 被引量：87
6汪克夷,齐丽云.基于文本聚类的客户知识获取和应用研究[J].管理学报,2007,4(3):273-278. 被引量：4
7许高建.基于Web的文本挖掘技术研究[J].计算机技术与发展,2007,17(6):187-190. 被引量：19
8黄永文,李广建.数字图书馆中的ETL应用研究综述[J].现代图书情报技术,2007(12):1-5. 被引量：6
9陈震,马铭,李欣.基于网页分类与加权的网民聚类方法研究[J].北华大学学报（自然科学版）,2008,9(3):284-288.
10李若鹏,李翔,林祥,李建华.基于DK算法的互联网热点主动发现研究与实现[J].计算机技术与发展,2008,18(9):1-4. 被引量：10

同被引文献53

1周明建,高济,李飞.基于本体论的Web信息抽取[J].计算机辅助设计与图形学学报,2004,16(4):535-541. 被引量：34
2王茹,宋瀚涛,陆玉昌.网页数据自动抽取系统[J].计算机工程与应用,2004,40(19):135-138. 被引量：8
3黄晓斌,邱明辉.网络信息过滤方法的比较研究[J].大学图书馆学报,2005,23(1):42-48. 被引量：18
4李向阳,戴江山,张亚非.一种Web信息抽取规则的优化方法[J].兰州理工大学学报,2006,32(1):90-93. 被引量：3
5于满泉,骆卫华,许洪波,白硕.话题识别与跟踪中的层次化话题识别技术研究[J].计算机研究与发展,2006,43(3):489-495. 被引量：49
6李石君,于俊清,欧伟杰.基于HTML模式代数的Web信息提取方法[J].计算机研究与发展,2006,43(9):1644-1650. 被引量：8
7张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78. 被引量：121
8刘畅.综合搜索引擎与垂直搜索引擎的比较研究[J].情报科学,2007,25(1):97-102. 被引量：49
9翁小清,沈钧毅.基于滑动窗口的多变量时间序列异常数据的挖掘[J].计算机工程,2007,33(12):102-104. 被引量：16
10仲华,崔志明.基于XML的信息抽取和多层向量空间技术研究[J].计算机技术与发展,2007,17(7):49-52. 被引量：4

引证文献7

1周登,戴玉刚,付涛.基于树结构的Web信息抽取[J].计算机技术与发展,2009,19(9):38-41. 被引量：3
2甘雨,陈炳丰.自动分类和自动摘要在应急预案管理中的应用[J].现代计算机,2009,15(10):99-102.
3邓爱萍.网络热点发现与跟踪算法研究[J].计算机与现代化,2009(12):122-124. 被引量：2
4邓爱萍.网络热点信息发现系统的设计与实现[J].微计算机信息,2010,26(18):138-139.
5殷彬,杨会志.灵活结构网页的正文提取[J].计算机技术与发展,2011,21(9):111-113. 被引量：3
6吴绍兵.基于贝叶斯网络的信息提取技术研究[J].计算机技术与发展,2012,22(11):225-228. 被引量：1
7刘丹,崔阳.基于B2B垂直搜索的网页信息抽取系统研究[J].计算机技术与发展,2013,23(2):153-156.

二级引证文献9

1魏颖颖,熊淑华,李冲.基于CSS的网页下拉菜单设计与实现[J].计算机技术与发展,2011,21(4):17-20. 被引量：5
2成卫青,于静,杨晶,杨龙.基于页面分类的Web信息抽取方法研究[J].计算机技术与发展,2013,23(1):54-58. 被引量：5
3姬鑫,钟诚.基于分块的新闻网页信息抽取算法[J].计算机应用与软件,2015,32(4):317-322. 被引量：6
4阮娟.基于XPath的新闻信息抽取系统设计与实现[J].智能计算机与应用,2015,5(2):58-61. 被引量：3
5吴绍兵,王昌梅.基于马尔科夫链的民族地区毒品犯罪预测研究[J].计算机与数字工程,2015,43(7):1270-1273. 被引量：6
6李文杰,化存才,何伟全.网络舆情热点事件的可控性和筛选数学模型分析[J].情报科学,2016,34(6):37-42. 被引量：3
7周亦,周明全,王学松,黄友良.大数据环境下历史人物知识图谱构建与实现[J].系统仿真学报,2016,28(10):2560-2566. 被引量：18
8杨长春,袁敏.基于交互关系的突发事件热度预测研究[J].现代情报,2017,37(3):40-45. 被引量：4
9杜博远,王美清,陈长福,陈飞.基于结构一致和特征学习的网页信息标签提取[J].计算机工程与应用,2017,53(7):74-78. 被引量：3

1缪建明,张全,赵金仿.基于文章标题信息的汉语自动文本分类[J].计算机工程,2008,34(20):13-14. 被引量：2
2王超,蔡润波.百科实例的分类算法探究[J].科技创新与应用,2015,5(13):47-49. 被引量：1
3王彦博.制作考场模板巧用页眉变化[J].电脑爱好者,2012(11):68-68.
4江珊.让Excel标题栏如影随形[J].软件指南,2012(2):40-40.
5黄敏.如何修改CCDOS—2．13H版本标题信息[J].电脑,1992(6):49-50.
6杨柳青,李晓东,耿光刚.基于布局相似性的网页正文内容提取研究[J].计算机应用研究,2015,32(9):2581-2586. 被引量：10
7赵欣欣,索红光,刘玉树.基于标记窗的网页正文信息提取方法[J].计算机应用研究,2007,24(3):144-145. 被引量：33
8朱全银,周培,尹永华,陈浮,刘金岭.基于Web数据挖掘的多因素科技专家信息提取方法[J].淮阴工学院学报,2013,22(5):23-27. 被引量：1
9王霞.锁定Excel表格标题栏两法[J].信息化建设,2009(6):59-59.
10胡尚滨（Blackest）.用户模式下的数据报过滤[J].黑客防线,2008(10):85-91.

计算机技术与发展

2008年第10期

浏览历史

内容加载中请稍等...

网页信息抽取及其自动文本分类的实现被引量：7

参考文献5

二级参考文献26

共引文献34

同被引文献53

引证文献7

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

网页信息抽取及其自动文本分类的实现 被引量：7

参考文献5

二级参考文献26

共引文献34

同被引文献53

引证文献7

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

网页信息抽取及其自动文本分类的实现被引量：7