基于K-Means改进算法在微博话题发现中的应用研究被引量：4

Application of Improved Algorithm Based on K-Means in Microblog Topic Discovery

下载PDF

导出

摘要在传统的K-means算法中,聚类结果很大程度依赖于随机选择的初始聚类中心点以及人工指定的k值.为了提高聚类精度,本文提出了利用最小距离与平均聚集度来对初始聚类中心点进行选取,将层次聚类CURE算法得到的聚簇数作为k值,从而使聚类精度得到提高.最后,将改进后的K-means算法应用到微博话题发现中,通过对实验结果分析,证明该算法提高了聚类结果精度. In the traditional K-means algorithm, the clustering results greatly depend on the random selection of initial cluster centers and the artificial K values. In order to improve the clustering accuracy, this paper proposes to select the initial cluster centers by using the minimum distance and the average clustering degree. The number of clusters is obtained by the hierarchical clustering CURE algorithm as K value, so that the clustering accuracy can be improved. Finally, the improved K-means algorithm is applied to the micro-blog topic discovery. Through the analysis of the experimental results, it is proved that the algorithm can improve the accuracy of clustering results.

作者张云伟宋安军

机构地区上海海事大学信息工程学院

出处《计算机系统应用》 2016年第10期308-311,共4页 Computer Systems & Applications

基金国家自然科学基金(61502298)

关键词 K-MEANS 微博话题聚类 K-means microblog topic clustering

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1蒋盛益,麦智凯,庞观松,吴美玲,王连喜.微博信息挖掘技术研究综述[J].图书情报工作,2012,56(17):136-142. 被引量：28
2樊宁.K均值聚类算法在银行客户细分中的研究[J].计算机仿真,2011,28(3):369-372. 被引量：25
3孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1108
4汪中,刘贵全,陈恩红.一种优化初始中心点的K-means算法[J].模式识别与人工智能,2009,22(2):299-304. 被引量：145

二级参考文献38

1赵法信,王国业.数据挖掘中聚类分析算法研究[J].通化师范学院学报,2005,26(2):11-13. 被引量：13
2刘英姿,吴昊.客户细分方法研究综述[J].管理工程学报,2006,20(1):53-57. 被引量：86
3李洁,高新波,焦李成.基于特征加权的模糊聚类新算法[J].电子学报,2006,34(1):89-92. 被引量：117
4李永森,杨善林,马溪骏,胡笑旋,陈增明.空间聚类算法中的K值优化问题研究[J].系统仿真学报,2006,18(3):573-576. 被引量：39
5滕云,杨琴.网络弱关系与个人社会资本获取[J].重庆社会科学,2007(2):122-124. 被引量：13
6钱线,黄萱菁,吴立德.初始化K-means的谱方法[J].自动化学报,2007,33(4):342-346. 被引量：32
7张建萍,刘希玉.基于聚类分析的K-means算法研究及应用[J].计算机应用研究,2007,24(5):166-168. 被引量：128
8袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：157
9王永恒,贾焰,杨树强.海量短语信息文本聚类技术研究[J].计算机工程,2007,33(14):38-40. 被引量：13
10Han J, Kamber M. Data Mining Concepts and Techniques. Orlando, USA: Morgan Kaufmann Publishers, 2001

共引文献1283

1丁小军,陈杰,李霖,徐碧通,朱晓姝.一种基于聚类结果稳定性来确定聚类数的方法[J].玉林师范学院学报,2020(3):43-47. 被引量：2
2王玥,李文权,梁爽,余静财.基于改进聚类算法的共享汽车网点选址研究[J].武汉理工大学学报,2021,43(2):79-85. 被引量：1
3林耿堃,盛积良.乡村振兴时代背景下农民消费结构变迁研究[J].农业农村部管理干部学院学报,2021(2):76-81. 被引量：3
4高显义,林欣晖.基于文本聚类的变电工程变更特征识别研究[J].建筑经济,2020,41(S02):200-203. 被引量：3
5毛颖颖,杨新凯.融合拓扑势的自适应层次聚类算法研究[J].计算机应用研究,2020,37(S01):37-39.
6张睿恺,吴克河.基于优化特征集的LeNet-5攻击检测模型的态势感知技术[J].计算机应用研究,2020,37(S01):287-289. 被引量：4
7李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
8尧少波,蒋励剑,赵文文,卢铮,吴昌聚,陈伟芳.耦合聚类的数据驱动稀薄流非线性本构计算方法[J].航空学报,2022,43(S02):43-56. 被引量：1
9段桂芹.基于改进密度的簇内均值最小距离聚类算法[J].智能计算机与应用,2021,11(12):82-86. 被引量：2
10何睿,余娜,李淼,张峻巍,王浩杰,赵玉茗.基于单细胞RNA测序数据的细胞类型聚类算法[J].智能计算机与应用,2020,10(7):104-108. 被引量：3

同被引文献38

1洪宇,张宇,刘挺,李生.话题检测与跟踪的评测及研究综述[J].中文信息学报,2007,21(6):71-87. 被引量：153
2赵慧,刘希玉,崔海青.网格聚类算法[J].计算机技术与发展,2010,20(9):83-85. 被引量：30
3崔凯,周斌,贾焰,梁政.一种基于LDA的在线主题演化挖掘模型[J].计算机科学,2010,37(11):156-159. 被引量：37
4单斌,李芳.基于LDA话题演化研究方法综述[J].中文信息学报,2010,24(6):43-49. 被引量：91
5周炜奔,石跃祥.基于密度的K-means聚类中心选取的优化算法[J].计算机应用研究,2012,29(5):1726-1728. 被引量：49
6曹鹏,李博,栗伟,赵大哲.结合X-means聚类的自适应随机子空间组合分类算法[J].计算机应用,2013,33(2):550-553. 被引量：5
7潘大庆.基于层次聚类的微博敏感话题检测算法研究[J].广西民族大学学报（自然科学版）,2012,18(4):56-59. 被引量：5
8苏勇,黄烨,周冬.基于网格结构的二次CLARANS聚类算法[J].计算机应用与软件,2013,30(3):287-290. 被引量：2
9肖春景,乔永卫,贺怀清,李建伏.基于最佳聚类准则的多级模糊态势评估方法[J].计算机应用研究,2013,30(4):1011-1014. 被引量：5
10张永,浮盼盼,张玉婷.基于分层聚类及重采样的大规模数据分类[J].计算机应用,2013,33(10):2801-2803. 被引量：5

引证文献4

1张文军,王建平,范世平,张柳霞.基于类中心与边界自寻优的聚类算法[J].计算机系统应用,2017,26(11):118-123.
2周炜翔,张仰森,张良.面向微博热点事件的话题检测及表述方法研究[J].计算机应用研究,2019,36(12):3565-3569. 被引量：15
3王立平,赵晖.融合词向量与关键词提取的微博话题发现[J].现代计算机,2020,26(23):3-9. 被引量：2
4范怡敏.基于多个特征的多层次微博检索方法研究[J].软件工程,2021,24(8):31-33.

二级引证文献17

1张新香,赵彩霞.影响电影微博互动效果的隐藏主题探究方法及应用[J].知识管理论坛,2020(5):283-291. 被引量：1
2李海明.基于SSDKmeans算法的微博热点话题发现研究[J].软件导刊,2019,18(9):173-175. 被引量：1
3张龙翔,曹云鹏,王海峰.面向大数据复杂应用的GPU协同计算模型[J].计算机应用研究,2020,37(7):2049-2053. 被引量：4
4李静,戴丽娜.基于整数线性模拟的多样性关键信息抽取仿真[J].计算机仿真,2020,37(10):365-368.
5王胜,张仰森,张雯,蒋玉茹,张睿.基于SL-LDA的领域标签获取方法[J].计算机科学,2020,47(11):95-100. 被引量：2
6席耀一,高鑫,王小明,云建飞.基于ETM模型的中亚国家“一带一路”网络舆情热点检测[J].情报杂志,2020,39(11):82-89. 被引量：5
7秦贺然,王东波.数字人文下的先秦古汉语关键词抽取应用——以《春秋经传》为例[J].图书馆杂志,2020,39(11):97-105. 被引量：12
8叶天宽,黎伟健,彭涛,胡莉琼,陈钦顺,朱凯亮.基于评改一体化提升互联网5G产品NPS的方法研究[J].科技传播,2021,13(3):159-162.
9薛涛,郭莹,胡伟华.基于LDA2Vec联合训练的热点主题识别方法[J].西安工程大学学报,2021,35(4):95-101. 被引量：3
10陈述,习俊博,王建平,陈云.水电工程施工安全隐患关联规则挖掘[J].中国安全科学学报,2021,31(8):75-82. 被引量：21

1邹伟平,邓庚盛.聚类分析在入侵检测系统中的改进[J].科技广场,2011(7):95-98. 被引量：1
2彭玉青,高红灿,张媛媛,董良.基于Hadoop的微博热点话题发现的聚类算法[J].软件,2016,37(10):46-50. 被引量：2
3杨照峰,樊爱宛,樊爱京.改进的SOM和K-Means结合的入侵检测方法[J].制造业自动化,2010,32(12):4-5. 被引量：1
4孙红艳,张鹏.改进的遗传算法在聚类分析中的应用[J].电脑知识与技术,2011,7(12X):9408-9409. 被引量：1
5陈光平,王文鹏,黄俊.一种改进初始聚类中心选择的K-means算法[J].小型微型计算机系统,2012,33(6):1320-1323. 被引量：41
6刘建华,樊晓平,瞿志华.一种基于相似度的新型粒子群算法[J].控制与决策,2007,22(10):1155-1159. 被引量：20
7赖锦辉,梁松.一种消除孤立点的微博热点话题发现方法[J].计算机应用与软件,2014,31(1):105-107. 被引量：8
8曾庆山,张贵勇.基于距离阈值的自适应K-均值聚类算法[J].郑州大学学报（理学版）,2016,48(4):90-94. 被引量：5
9肖频.基于模糊关联规则和遗传算法的入侵检测[J].电脑编程技巧与维护,2009(10):117-118. 被引量：1
10乔小妮,张明新,史变霞.一种基于密度的K-means算法[J].电脑开发与应用,2008,21(10):9-11. 被引量：3

计算机系统应用

2016年第10期

浏览历史

内容加载中请稍等...

基于K-Means改进算法在微博话题发现中的应用研究被引量：4

参考文献4

二级参考文献38

共引文献1283

同被引文献38

引证文献4

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

基于K-Means改进算法在微博话题发现中的应用研究 被引量：4

参考文献4

二级参考文献38

共引文献1283

同被引文献38

引证文献4

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

基于K-Means改进算法在微博话题发现中的应用研究被引量：4