基于高权重词集的增量聚类算法研究被引量：1

Chinese Text Clustering Research And Implementation

下载PDF

导出

摘要文本聚类作为一种无监督的机器学习方法,已经成为对文本信息进行有效地组织、摘要和导航的重要手段,为越来越多的研究人员所关注。本文以网络论坛的话题发现和追踪为背景,通过对论坛中的帖子进行聚类分析而获取话题。本文以层次聚类算法为基础,进行改进,提出高权重词集的概念,基于此设计并实现了增量聚类算法,通过实验验证了该算法适应动态数据以及时间、空间复杂性上的优越性,证明了系统在设计的时候采用的系统架构的合理性及必要性。 As an unsupervised machine learning method, text clustering becomes an important means of organizing, abstracting and navigating text message, which draws more and more attention from researchers. This article takes the network forum＇s topic discovery and tracing as the background, through cluster analysis of the forum posts to access topics. This paper proposes a concept named high weight words collection and on the basis ofit, incremental clustering algorithm is improved from hierarchical clustering algorithm. Experimental results show that the algorithm can adapt to dynamic data as well as the superiority of time and space complexity. Besides, a certain number of text tests have proved the rationality and necessity in the design of the system architecture.

作者王丹张兆心宋颖慧

机构地区哈尔滨工业大学网络与信息安全技术研究中心

出处《微计算机信息》 2011年第2期170-172,共3页 Control & Automation

关键词文本聚类高权重词集层次聚类增量聚类 text clustering high weight words collection hierarchical clustering algorithm incremental clustering

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献6

1刘远超,王晓龙,徐志明,关毅.文档聚类综述[J].中文信息学报,2006,20(3):55-62. 被引量：65
2G Sahon, AWong, C Yang. A vector space model for automatic indexing[J]. Communications of the ACM,1975,18(11):613-620.
3焦慧,刘迁,王玉英,贾惠波.优化初始值的K均值中文文本聚类[J].微计算机信息,2009,25(21):142-144. 被引量：6
4Silva, HB, Brito P, da Costa, JP. A partitional clustering algorithm validated by a clustering tendency index based on graph theory [J].Pattern Recognition,2006,39(5).
5Dash, M, Liu, H '1 +1 >2": merging distance and density based clustering[A].7th International Conference on Database Systems for Advanced Applications (DASFAA 2001)[C].2001.
6门国尊.用于信息检索的文本聚类技术[J].今日科苑,2008(20):165-165. 被引量：1

二级参考文献48

1陈浩,何婷婷,姬东鸿.基于k-means聚类的无导词义消歧[J].中文信息学报,2005,19(4):10-16. 被引量：16
2Han J.W.,Kamber M.Data mining concepts and Techniques[M].Beijing:China Machine Press,2001.
3Jain A.K.,Murty M.N.,Flynn P.J.Data clustering:A review[J].ACM Computing Surveys,1999,31(3):265-281.
4Michael Steinbaeh.A comparison of document clustering techniques[C].KDD'2000,Technical report of University of Minnesota,2000.
5Salton G.,Wong A.,Yang C.S.On the spoeifieation of term values in automatic indexing[J].Journal of Documentation,1973,29(4):351-372.
6史忠值.知识发现[M].北京：清华大学出版社,2002.21-56.
7Regina Barzilay,Min-Yen Kan,and Kathleen R.McKeown.Simfinder:A Flexible Clustering Tool for Summarization[A].In proceedings of the Workshop on Summarization in NAACL 01[C].Pittsburg,Pennsylvania,USA:June 2001.
8Zheng Chen,Wei-Ying Ma,Jinwen Ma.Learning to Cluster Web Search Results[A].In:proceedings of the 27th Annual International ACM SIGIR Conference[C].Sheffield,South Yorkshire,UK,July 2004,210 -217.
9Y.C.Fang,S.Parthasarathy,F.Schwartz.Using Clustering to Boost Text Classification[J].In:proceedings of the IEEE ICDM Workshop on Text Mining,Maebashi City,Japan,2002.
10A.Rauber,and M.Frühwirth.Automatically Analyzing and Organizing Music Archives[A].In:proceedings of the 5.European Conference on Research and Advanced Technology for Digital Libraries (ECDL 2001)[C].Darmstadt,Germany,2001.

共引文献69

1吴英杰,李军莲,孙海霞,王蕾,陈颖.基于著者共现的CBM机构名称规范研究[J].医学信息学杂志,2019,40(12):48-53. 被引量：3
2李春妍,王勇.个性化服务中用户兴趣聚类算法研究[J].信息技术,2007,31(10):77-80. 被引量：3
3庞秀丽,冯玉强,姜维.电子商务个性化文档推荐技术研究[J].中国管理科学,2008,16(S1):581-586. 被引量：10
4张云,冯博琴,麻首强,刘连梦.蚁群-遗传融合的文本聚类算法[J].西安交通大学学报,2007,41(10):1146-1150. 被引量：15
5王晓东,郭雷,方俊,杨宁,邓涛.一种基于本体的抽象度可调文档聚类[J].计算机工程与应用,2007,43(29):172-175. 被引量：3
6王凌峰.基于构成要素的聚类算法[J].统计与决策,2007,23(19):26-28. 被引量：1
7谷波,李济洪,刘开瑛.基于COSA算法的中文文本聚类[J].中文信息学报,2007,21(6):65-70. 被引量：9
8丘志宏,宫雷光.利用上下文提高文本聚类的效果[J].中文信息学报,2007,21(6):109-115. 被引量：9
9索红光,王玉伟.一种用于文本聚类的改进k-means算法[J].山东大学学报（理学版）,2008,43(1):60-64. 被引量：34
10蔡荣太,王延杰.矢量聚类及其在稀疏分量分析中的应用[J].计算机工程,2008,34(5):8-10.

同被引文献4

1Naohiro Matsumura (2005). Collaborative Communication Strategies in Online Community, The Fourth International Workshop on Social Intelligence Design. (SID2005), Stanford,March.
2http://www.tianya.crdpublicforum/content/funinfo/1/2193160.shtml.
3高俊波,杨静.在线论坛中的意见领袖分析[J].电子科技大学学报,2007,36(6):1249-1252. 被引量：30
4朱亚楠,毛国平,孙圣军.对复杂网络结构测度指标库的研究[J].微计算机信息,2009,25(36):153-155. 被引量：3

引证文献1

1王丹,张伟哲,卢珺珈.基于高权重词集的论坛影响力发现研究[J].微计算机信息,2011,27(10):99-101. 被引量：1

二级引证文献1

1卢珺珈,张宏莉,张玥.基于BBS的热点话题发现与态势预测技术的研究[J].智能计算机与应用,2012,2(2):1-5. 被引量：14

1徐雄,王锁萍,曹磊.联机增量聚类算法研究[J].南京邮电学院学报（自然科学版）,2004,24(4):17-19.
2吴楠.通过增量聚类预处理分区的一种序列模式挖掘方法[J].宿州学院学报,2008,23(2):102-103.
3周英,孙名松.基于聚类的网络入侵检测系统模型[J].哈尔滨理工大学学报,2007,12(1):39-42.
4尹倩,张翠.动态增量聚类算法在足球运动员跑动能力挖掘中的应用[J].长沙大学学报,2017,31(2):54-57. 被引量：1
5吴伊萍.面向网络论坛话题发现的文本处理技术研究[J].赤峰学院学报（自然科学版）,2011,27(11):32-34.
6黄艳兰.2005,我一“网”情深[J].互联网天地,2006(2):63-63.
7优质潜水员.练就论坛“顶”字诀[J].电脑乐园,2007(10):18-18.
8罗丹.叶元土：网络是最经济实惠的交流平台[J].海洋与渔业（水产前沿）,2011(9):32-34.
9尔东.女人要嫁给懒老公九大经典理由[J].农业知识（百姓新生活）,2010(10):18-20.
10张学波,李晓梅.分布式环境下几种矩阵乘并行算法分析与比较[J].装备指挥技术学院学报,2003,14(4):82-85.

微计算机信息

2011年第2期

浏览历史

内容加载中请稍等...

基于高权重词集的增量聚类算法研究被引量：1

参考文献6

二级参考文献48

共引文献69

同被引文献4

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于高权重词集的增量聚类算法研究 被引量：1

参考文献6

二级参考文献48

共引文献69

同被引文献4

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于高权重词集的增量聚类算法研究被引量：1