文本聚类算法的设计与实现被引量：5

Research and implementation of text clustering algorithm

下载PDF

导出

摘要为了有效地提高文本聚类的质量和效率,在对已有的层次聚类和K-means算法分析和研究的基础上,针对互联网信息处理量大、实时性高的特点,设计并实现了一种用于高维稀疏相似矩阵的文本聚类算法。该算法结合了层次聚类和K-means聚类的思想,根据一个阈值来控制聚类算法的选取和新簇的建立,并通过文本特征提取和文档相似度矩阵计算实现文本聚类。实验结果表明,该算法的召回率和正确率更高。 To improve the quality and efficiency of text clustering effectively, based on the analysis and research of the hierarchical clustering and k-means algorithms, a kind of text clustering algorithm for a higher-dimensional sparse matrix is designed and implemented for the characteristic of large quantity of internet information and high real-time. The algorithm combines the ideas of the hierarchical clustering and K-means clustering, which controls the selection of clustering algorithm and the establishment of new clusters through a threshold and realizes text clustering through extraction of text feature and calculation of text similarity matrix. Experiments showed that the accuracy and recall rate of this algorithm are higher.

作者石晓敬韩燮

机构地区中北大学电子与计算机科学技术学院

出处《计算机工程与设计》 CSCD 北大核心 2010年第9期2013-2015,2019,共4页 Computer Engineering and Design

关键词中文文本文本分类聚类算法层次聚类 K-MEANS Chinese texts text classification clustering algorithm hierarchical clustering K-means

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献6

1高宏宾,杨海振,张小彬.一种改进的文本聚类方法[J].自动化技术与应用,2008,27(9):30-32. 被引量：3
2龚静,李安民.一种改进的k-means中文文本聚类算法[J].湖南工业大学学报,2008,22(2):52-54. 被引量：13
3黄旭,朱艳琴,罗喜召.实时文本分类系统的研究与实现[J].计算机工程,2008,34(18):87-88. 被引量：5
4李江华,杨书新,刘利峰.基于概念格的文本聚类[J].计算机应用,2008,28(9):2328-2330. 被引量：3
5行小帅,潘进,焦李成.基于免疫规划的K-means聚类算法[J].计算机学报,2003,26(5):605-610. 被引量：81
6赵敏涯.文本自动分类算法的比较与研究[J].电脑知识与技术（过刊）,2009,15(2X):1183-1184. 被引量：1

二级参考文献31

1王斌,潘文锋.基于内容的垃圾邮件过滤技术综述[J].中文信息学报,2005,19(5):1-10. 被引量：129
2郭莉,张吉,谭建龙.基于后缀树模型的文本实时分类系统的研究和实现[J].中文信息学报,2005,19(5):16-23. 被引量：12
3朱红灿,孟志青.一种基于SOM和层次凝聚的中文文本聚类方法[J].湘潭大学自然科学学报,2005,27(3):36-40. 被引量：8
4刘远超,王晓龙,徐志明,关毅.文档聚类综述[J].中文信息学报,2006,20(3):55-62. 被引量：65
5何峰.一种基于粗糙集理论的文本分类方法[J].自动化与信息工程,2006,27(3):1-3. 被引量：4
6[1]Steinbach M,Karypis G,Kumar V.A Comparison of Document Clustering Techniques[R].Technical Report,Dept.of Computer and Information Science,Linkoping,1995:143-150.
7[2]Fasulo D.An Analysis of Recent Work in Clustering Algorithms[R].Technical Report UW-CSE-01-03-02,University of Washington,1999:176-186.
8[3]Duda Ro,Hart PE.Pattern Classification and Scene Analysis[M].New York:John Wiley and Sons,1973:143-146.
9[4]Selim SZ,Alsultan K.A Simulated Annealing Algorithm for the Clustering Problem[J].Pattern Recognition,191,24(10):1003-1008.
10Tom M Mitchell.曾华军张银奎译.机器学习[M].北京:机械工业出版社,2003..

共引文献98

1秦亮,张文广,周绍磊,史贤俊.基于Parzen窗估计的核k-means聚类方法[J].计算机工程,2011,37(S1):217-219. 被引量：1
2钟将,吴中福,吴开贵,欧灵.基于人工免疫网络的动态聚类算法[J].电子学报,2004,32(8):1268-1272. 被引量：23
3钟将,吴中福,吴开贵,杨强.基于Tabu搜索的聚类算法研究[J].计算机科学,2005,32(1):172-174.
4吕强,俞金寿.基于混合遗传算法的K-Means最优聚类算法[J].华东理工大学学报（自然科学版）,2005,31(2):219-222. 被引量：8
5杨海东,胡月明,邓飞其.基于DNA编码的人工免疫模型在土壤质量评价中的应用[J].农业工程学报,2005,21(6):40-44. 被引量：2
6陈浩,何婷婷,姬东鸿.基于k-means聚类的无导词义消歧[J].中文信息学报,2005,19(4):10-16. 被引量：16
7YANG Hai-Dong,HU Yue-Ming,DENG Fei-Qi,CHEN Fei-Xiang,WANG Fei.Application of Immune Algorithm to Evaluation of Soil Resource Quality[J].Pedosphere,2005,15(5):660-668. 被引量：3
8唐桂忠,张广明,朱炜.免疫规划K-均值聚类算法识别电梯群控交通流模式[J].计算机测量与控制,2005,13(9):938-940. 被引量：2
9蔡江辉,张华煜.离群数据挖掘方法研究[J].电脑开发与应用,2005,18(12):46-47. 被引量：1
10王炜,林命週,马钦忠,赵利飞.数据挖掘及其在地震预报中的应用前景[J].国际地震动态,2005,26(12):1-13. 被引量：11

同被引文献62

1郭景峰,赵玉艳,边伟峰,李晶.基于改进的凝聚性和分离性的层次聚类算法[J].计算机研究与发展,2008,45(Z1):202-206.
2吴帆,李石君.一种高效的层次聚类分析算法[J].计算机工程,2004,30(9):70-71. 被引量：14
3傅兰生.科技期刊论文题名、作者、文摘、关键词等有关国家标准的应用分析[J].现代图书情报技术,1995(4):38-40. 被引量：2
4尉景辉,何丕廉,孙越恒.基于K-Means的文本层次聚类算法研究[J].计算机应用,2005,25(10):2323-2324. 被引量：18
5骆卫华,于满泉,许洪波,王斌,程学旗.基于多策略优化的分治多层聚类算法的话题发现研究[J].中文信息学报,2006,20(1):29-36. 被引量：38
6周涓,熊忠阳,张玉芳,任芳.基于最大最小距离法的多中心聚类算法[J].计算机应用,2006,26(6):1425-1427. 被引量：72
7任江涛,孙婧昊,施潇潇,黄焕宇,印鉴.一种用于文本聚类的改进的K均值算法[J].计算机应用,2006,26(B06):73-75. 被引量：24
8贺玲,吴玲达,蔡益朝.数据挖掘中的聚类算法综述[J].计算机应用研究,2007,24(1):10-13. 被引量：235
9胡燕,吴虎子,钟珞.中文文本分类中基于词性的特征提取方法研究[J].武汉理工大学学报,2007,29(4):132-135. 被引量：27
10袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：157

引证文献5

1王振宇,吴泽衡,唐远华.基于多向量和二次聚类的话题检测[J].计算机工程与设计,2012,33(8):3214-3218. 被引量：3
2张紫玄,王雪颖,王昊.题名与关键词在文献内容揭示中的对比研究——基于农产品品牌评价领域[J].情报科学,2017,35(10):88-93. 被引量：13
3党燕,许志伟,刘利民,王宇,赵思远.基于Single-Pass算法的网络舆情文本增量聚类算法研究[J].内蒙古工业大学学报（自然科学版）,2017,36(5):364-372. 被引量：1
4杨丹,朱世玲,卞正宇.基于改进的K-means算法在文本挖掘中的应用[J].计算机技术与发展,2019,29(4):68-71. 被引量：9
5周世杰.层次聚类的算法研究[J].课程教育研究,2018(40):240-241. 被引量：4

二级引证文献30

1何强,邓鑫,李川,严中成,漆雁斌.农产品品牌提高农业竞争力的机理与实证分析——以四川省91个县域的农产品地理标志为例[J].中国农业资源与区划,2023,44(1):241-252. 被引量：32
2徐建民,张猛,吴树芳.基于话题的事件相似度计算[J].计算机工程与设计,2014,35(4):1193-1197. 被引量：4
3肖红,许少华.改进的话题检测和跟踪算法研究[J].计算机技术与发展,2014,24(9):84-88. 被引量：3
4李欣雨,袁方,刘宇,李琮.面向中文新闻话题检测的多向量文本聚类方法[J].郑州大学学报（理学版）,2016,48(2):47-52. 被引量：6
5叶新明.学术论文标题尾词的趋同化特征分析[J].大学图书情报学刊,2018,36(5):112-119. 被引量：2
6陈红琳,魏瑞斌.期刊论文标题与关键词表达信息的差异性分析[J].现代情报,2019,39(7):162-169. 被引量：9
7徐建国,韩琮师.改进K-means算法在高校舆情中的应用[J].软件导刊,2019,18(7):142-144. 被引量：4
8王军,银宝.思想政治教育学科发展现状与纵向比较分析（2011—2018年）——基于5种期刊高被引论文的视角[J].思想教育研究,2019,0(11):29-35. 被引量：9
9窦方坤,曹皓伟,徐建良.基于文本元素的PDF表格区域识别方法研究[J].软件导刊,2020,19(1):113-116. 被引量：6
10王荻智,李建宏,施运梅.基于K-means的政府公文聚类方法[J].软件导刊,2020,19(6):201-204. 被引量：4

1李众,梁志剑.一种改进的文本聚类算法[J].陕西科技大学学报（自然科学版）,2008,26(6):163-166.
2李春青.文本聚类算法研究[J].软件导刊,2015,14(1):74-76. 被引量：5
3张筱丹.Web文本挖掘的研究[J].科技信息,2009(4):165-166.
4吴建东,何月顺,黄笑鹃.基于RMI的分布式计算实现[J].计算机与现代化,2007(8):8-10. 被引量：2
5姜伦,丁华福,于飞.基于k-均值的文本聚类算法及改进[J].中国科技博览,2009(9):208-208.
6鲍翠梅.支持向量机在文本特征提取中的应用研究[J].计算机应用与软件,2010,27(5):197-199. 被引量：1
7曲颖.基于模糊神经网络的Web文本挖掘系统[J].电脑知识与技术,2010(11):8838-8839.
8马世霞,刘丹,贾世杰.基于蚁群算法的文本聚类算法[J].计算机工程,2010,36(8):206-207. 被引量：5
9王金水,唐郑熠,薛醒思.基于词性标注的文本聚类算法[J].福建工程学院学报,2015,13(4):372-375.
10李根,王亚刚,周小伟,张凤登.一种基于密度均值的谱聚类算法[J].电子科技,2016,29(8):74-77. 被引量：6

计算机工程与设计

2010年第9期

浏览历史

内容加载中请稍等...

文本聚类算法的设计与实现被引量：5

参考文献6

二级参考文献31

共引文献98

同被引文献62

引证文献5

二级引证文献30

相关作者

相关机构

相关主题

浏览历史

文本聚类算法的设计与实现 被引量：5

参考文献6

二级参考文献31

共引文献98

同被引文献62

引证文献5

二级引证文献30

相关作者

相关机构

相关主题

浏览历史

文本聚类算法的设计与实现被引量：5