分层聚类算法在文本挖掘中的应用

the Hierarchical Clustering Algorithm in Text Mining Application

导出

摘要随着Internet技术的高速发展,如何从海量的Web信息中快速而有效地获得所需信息也就成为一项重要课题,而数据挖掘技术是解决这一难题的有效办法。其中数据挖掘中的聚类方法是用来发现数据分布的一项重要方法。本文首先阐述了Web挖掘的有关理论,然后针对Web挖掘中的分层聚类法进行了较为详细的论述,最后使用该算法并结合改进的特征权值计算方法和文本相似度的计算方法,建立了训练文本库。 With the development of Internet technique,How to acquire the useful information quickly and effectively from information-sea has become a very important problem,but data mining is effective method to solve this problem.Therein,Clustering is an important technology in Data Mining for the discovery of data distribution.This paper described the theory of Web mining and web mining for and hierarchical clustering method,a more detailed discussion,the final use of the algorithm is combined with the improved feature weight calculation method and text similarity calculation method established a training text database.

作者刘卓徐斌

机构地区苏州科技学院电子与信息工程学院

出处《网络安全技术与应用》 2010年第7期61-62,共2页 Network Security Technology & Application

关键词数据挖掘 WEB文本挖掘分层聚类算法 web text mining data mining Hierarchical Clustering Algorithm

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献8

1张红云,石阳,马垣.数据挖掘中聚类算法比较研究[J].鞍山钢铁学院学报,2001,24(5):364-367. 被引量：12
2孙丽华,张积东,李静梅.一种改进的kNN方法及其在文本分类中的应用[J].应用科技,2002,29(2):25-27. 被引量：36
3罗三定,陆文彦,王浩,贾维嘉.基于概念的文本类别特征提取与文本模糊匹配[J].计算机工程与应用,2002,38(16):97-99. 被引量：22
4顾立帆,王永成.联想树分析法及其在无词库中文自动标引中的应用[J].情报学报,1992,11(5):354-360. 被引量：9
5邹腊梅,肖基毅,龚向坚.Web文本挖掘技术研究[J].情报杂志,2007,26(2):53-55. 被引量：14
6何新贵,彭甫阳.中文文本的关键词自动抽取和模糊分类[J].中文信息学报,1999,13(1):9-15. 被引量：54
7于琨,糜仲春,蔡庆生.可应用于互联网的自学习中文关键词抽取算法[J].中国科学技术大学学报,2002,32(3):381-384. 被引量：8
8王继成,潘金贵,张福炎.Web文本挖掘技术研究[J].计算机研究与发展,2000,37(5):513-520. 被引量：276

二级参考文献42

1何建章.汉语科技文献自动抽词的探讨与试验[J].情报科学,1987,8(4):35-45. 被引量：3
2金博,史彦军,滕弘飞,艾景波.自动文摘技术及应用[J].计算机应用研究,2004,21(12):13-15. 被引量：4
3许建潮,胡明.中文Web文本的特征获取与分类[J].计算机工程,2005,31(8):24-25. 被引量：24
4Geofrey Z.Liu.语义矢量空间模式（SVSM）及其试验评价——自然语言处理与文献自动标引[J].情报学报,1996,15(6):402-413. 被引量：4
5李中.汉语文献自动标引的技术途径及展望[J].情报科学技术,1990,(4):34-37.
6[1]ZHANG T, RAMAKRISHNAN R, LIVNY M. BIRCH: An Efficient Data Clustering Method for very Large Database [ A ] . In: Proc of the ACM SIGMOD Int's Conf on Management of Data[ C]. Montreal Canada:ACM Press, 1996.83-94.
7[2]SANDER F,ESTER M,KRIEGEL HP,XUX.The Algorithm GDBSCAN and its Applications. Data Mining and Knowledge Discovery[J]. KLUWER Academic Publishers, 1998,2: 178-192.
8[3]Ng RT,CALBERSON J.Etficient and Effective Clustering Methods for Spatial Data Mining[A] .In:Porc of the VLDB Conference[C]. Santiago, Chile, 1994. 144-155.
9[5]GEHRKE J, AGRAWAL R, GUNOPULOS D. Automatic Subspace Clustering of High Dimensional Data for Data Mining Applicaitons[J]. ACM SIMOD, 1998,72(2) :94-105.
10[6]CHRISTOPHER J,PHILIP K.Chan,Systems for Knowledge Discovery in Databases IEEE Ttans[J] .On Knowledge and Data Engineering, 1993,5(6) :903-913.

共引文献407

1兰晓芳,刘霞,肖毅.基于Django的校友在线平台的设计与实现[J].办公自动化,2021,26(18):17-18. 被引量：3
2张莉.网页自动分类技术概念分析[J].娄底职业技术学院学报（职教与经济研究）,2007(2):58-62.
3王志明,沙莎.Web文本挖掘技术在新闻主题检测中的应用研究[J].长沙大学学报,2007,21(5):58-60. 被引量：2
4张脂平,林世平.Web文本挖掘中特征提取算法的分析及改进[J].福州大学学报（自然科学版）,2004,32(z1):63-66. 被引量：1
5杨斌,孟志青.一种文本分类数据挖掘的技术[J].湘潭大学自然科学学报,2001,23(4):34-37. 被引量：10
6李爱国,白冰.基于内容图像检索的Web搜索器[J].郑州大学学报（理学版）,2009,41(2):60-62. 被引量：1
7周云真,舒建文,王平根.数据挖掘在基于WEB的智能远程教育中的应用[J].文教资料,2006(27):154-155. 被引量：1
8郑泠.Web数据挖掘技术应用[J].科技经济市场,2006(12):302-303.
9姚轶.浅谈网络文本挖掘分类[J].科技风,2009(3). 被引量：1
10周涛,李军,陆惠玲.WEB数据挖掘技术研究[J].汉中师范学院学报,2004,22(3):86-90. 被引量：1

1陈永强,刘惠颖.一种基于密度的数据流聚类分析算法[J].科技创新导报,2009,6(22):20-20.
2苏进,张佑生.一种分层聚类模型及其在电信行业的应用[J].计算机工程,2005,31(22):110-112.
3袁小群,方卿,尹浩.一种新的服务器部署及其关键技术[J].小型微型计算机系统,2012,33(9):1987-1991.
4祝迎春.二阶聚类模型及其应用[J].市场研究,2005(1):40-42. 被引量：10
5顾明.使用二次连接神经网络的基于ART的分层聚类算法[J].计算机科学,2006,33(11):128-131. 被引量：1
6贾瑞玉,查丰,耿锦威,宁再早.一种基于引力的分层聚类算法[J].计算机技术与发展,2011,21(3):76-78. 被引量：2
7罗菲菲,刘贵全,安景琪,张婷慧.一种分层聚类方法及其应用研究[J].成都理工大学学报（自然科学版）,2005,32(6):649-652. 被引量：3
8李琳,李肯立,朱雅丽.图形处理器在分层聚类算法中的通用计算研究[J].计算机应用研究,2008,25(8):2319-2321. 被引量：1
9李琳,孙士兵,王静,赵磊.图形处理器在分层聚类算法中的通用计算研究(英文)[J].衡阳师范学院学报,2008,29(6):72-76.
10李朝鹏,李肯立,成运,李朝健.基于数据预处理的并行分层聚类算法[J].计算机应用研究,2010,27(1):71-73. 被引量：4

网络安全技术与应用

2010年第7期

浏览历史

内容加载中请稍等...

分层聚类算法在文本挖掘中的应用

参考文献8

二级参考文献42

共引文献407

相关作者

相关机构

相关主题

浏览历史