基于HTML结构的Web文本主题挖掘研究被引量：1

Research of Web Text Mining Based on HTML Modal

下载PDF

导出

摘要随着数据挖掘应用的深入,非结构化和半结构化数据的挖掘,将成为下一个数据挖掘应用的热点。文本挖掘是一种典型的非结构化数据挖掘,而Web挖掘则是典型的半结构化数据挖掘。所以将信息处理技术中的汉语分词、信息抽取、语义分析等技术应用到Web挖掘研究技术是必然的发展趋势。本文根据Web挖掘的特点,运用数据抽取进行数据结构转换并把语义分析技术应用到数据抽取的过程中的思想,以便使数据提取更加准确。 This paper focuses on the key technology in information Processing of Chinese and uses this technology for web text mining. It has become an inevitable trend to apply the Chinese word segmentation information processing technologies, information extraction and semantic analysis technologies to the study of Web mining technology. So,, according to the characteristics of Web mining, data extraction will be used for data structure conversion and the semantic analysis technology will be apply to data extraction processing so as to ensure the accuracy of the data extraction.

作者隋丽萍徐承韬李瑞芳

机构地区沈阳化工学院计算机学院

出处《电脑与电信》 2007年第1期47-51,共5页 Computer & Telecommunication

关键词数据挖掘 WEB 自动分词数据提取语义分析 data mining Web Chinese segment data extraction semantic analysis

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献4

1袁占亭,张秋余,李威.数据抽取及语义分析在Web数据挖掘中的应用[J].计算机工程与设计,2005,26(6):1425-1427. 被引量：6
2马玉春,宋瀚涛.Web中文文本分词技术研究[J].计算机应用,2004,24(4):134-135. 被引量：39
3陈建华,包煊.Web挖掘系统的设计与实现[J].计算机工程,2002,28(8):141-142. 被引量：5
4苏新宁[等].数据仓库和数据挖掘[M]清华大学出版社,2006.

二级参考文献10

1张国煊王小华.快速书面汉语自动分词系统及其算法设计[J].计算机研究与发展,1993,30(1):61-65.
2.中国新闻社[EB/OL].http://www.chinanews.com.cn/,2003-10-01.
3边肇祺张学工.模式识别（第二版）[M].北京:清华大学出版社,1999.12.
4刘挺,吴岩,王开铸.最大概率分词问题及其解法[J].哈尔滨工业大学学报,1998,30(6):37-41. 被引量：16
5姜明强,顾君忠.基于DOM的结构化搜索引擎[J].计算机应用研究,2000,17(6):52-55. 被引量：1
6王继成,潘金贵,张福炎.Web文本挖掘技术研究[J].计算机研究与发展,2000,37(5):513-520. 被引量：276
7吴闽泉,刘俊平,刘方早,陈滋.基于Web页面的动态模糊查询方法[J].计算机应用研究,2000,17(10):28-29. 被引量：1
8欧振猛,余顺争.中文分词算法在搜索引擎应用中的研究[J].计算机工程与应用,2000,36(8):80-82. 被引量：20
9李晓黎,刘继敏,史忠植.基于支持向量机与无监督聚类相结合的中文网页分类器[J].计算机学报,2001,24(1):62-68. 被引量：108
10孙健,王伟,钟义信.基于K-最近距离的自动文本分类的研究[J].北京邮电大学学报,2001,24(1):42-46. 被引量：13

共引文献47

1刘春辉,金顺福,刘国华,李颖.基于优化最大匹配与统计结合的汉语分词方法[J].燕山大学学报,2009,33(2):124-129. 被引量：9
2徐吉,朱兰娟.用于网络搜索引擎的中文分词消岐算法[J].微型电脑应用,2011(4):52-54.
3关丽红.基于特定数学模型的语义抽取研究[J].白城师范学院学报,2012,26(3):11-13.
4祁亨年.支持向量机及其应用研究综述[J].计算机工程,2004,30(10):6-9. 被引量：196
5谭浩,贾自艳,史忠植.新闻专题的高效组织和生成新方法[J].科技导报,2004,22(7):48-51.
6翟凤文,赫枫龄,左万利.基于统计规则的交集型歧义处理方法[J].吉林大学学报（理学版）,2006,44(2):223-228. 被引量：9
7孙铁利,王圆.一个基于人工神经网络的Web文本过滤系统[J].计算机时代,2006(6):9-11.
8翟凤文,赫枫龄,左万利.字典与统计相结合的中文分词方法[J].小型微型计算机系统,2006,27(9):1766-1771. 被引量：42
9张利,张立勇,张晓淼,耿铁锁,岳宗阁.基于改进BP网络的中文歧义字段分词方法研究[J].大连理工大学学报,2007,47(1):131-135. 被引量：12
10聂哲,顾明.基于XML的政府公文信息抽取中间件的设计与实现[J].计算机工程与设计,2007,28(5):1158-1160.

同被引文献8

1许建潮,胡明.中文Web文本的特征获取与分类[J].计算机工程,2005,31(8):24-25. 被引量：24
2彭曙蓉,王耀南.针对小文本的Web数据挖掘技术及其应用[J].微计算机信息,2006,22(07X):203-205. 被引量：10
3孟海涛.基于模糊聚类的学术期刊数据挖掘算法[J].盐城工学院学报（自然科学版）,2006,19(4):68-70. 被引量：2
4孙双,贺樑,杨静,顾君忠.一种改进的web文档关键词权重计算方法(英文)[J]Journal of Shanghai University(English Edition),2008(03).
5谭颖.文本挖掘中的聚类算法研究[D]吉林大学,吉林大学2009.
6Linghui Gong,Jianping Zeng,Shiyong Zhang.Text stream clusteringalgorithm based on adaptive feature selection. Expert Systems withApplications . 2011
7Trotman,Andrew.Choosing document structure weights. Info-rmation Processing and Management . 2005
8李清峰,周伟林,何静,丁小玲.一种基于模糊聚类的文本挖掘新方法[J].计算机应用研究,2009,26(12):4453-4456. 被引量：1

引证文献1

1毛太田,邹凯,毛静,周军.基于模糊集的Web文本最大支撑树聚类算法[J].现代情报,2011,31(11):21-25.

1隋丽萍,徐承韬,李瑞芳.基于HTML结构的Web文本主题挖掘研究[J].西安外事学院学报,2007,0(1):102-105.
2高强,张敬之,耿桦,潘金贵.基于重复模式的Web信息抽取[J].计算机科学,2007,34(4):210-212. 被引量：6
3李智辉,卢苇.Web文本主题挖掘技术研究[J].计算机教育,2005(11):34-36. 被引量：2
4王昱.基于ExtJS的JSON数据交换格式研究[J].现代计算机,2013,19(2):61-62. 被引量：3
5栾虹.HTML文档分类中的词元权重算法[J].山东师范大学学报（自然科学版）,2005,20(2):22-25. 被引量：1
6郭晓,蒋宗礼.基于网页结构与链接关系的中文文本分类方法[J].现代电子技术,2010,33(22):54-56. 被引量：3
7袁占亭,张秋余,李威.数据抽取及语义分析在Web数据挖掘中的应用[J].计算机工程与设计,2005,26(6):1425-1427. 被引量：6
8胡军伟,秦奕青,张伟.正则表达式在Web信息抽取中的应用[J].北京信息科技大学学报（自然科学版）,2011,26(6):86-89. 被引量：43
9崔慧超,刘莉.应用聚类技术分类提取Web页面[J].电脑知识与技术,2010,6(1):212-213.
10宋睿华,马少平,张敏.一种提高Web信息检索精度的分段检索方法[J].广西师范大学学报（自然科学版）,2003,21(A01):151-155. 被引量：2

电脑与电信

2007年第1期

浏览历史

内容加载中请稍等...

基于HTML结构的Web文本主题挖掘研究被引量：1

参考文献4

二级参考文献10

共引文献47

同被引文献8

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于HTML结构的Web文本主题挖掘研究 被引量：1

参考文献4

二级参考文献10

共引文献47

同被引文献8

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于HTML结构的Web文本主题挖掘研究被引量：1