一种基于自动阈值发现的文本聚类方法被引量：16

A Text Clustering Method Based on Auto-Selected Threshold

下载PDF

导出

摘要文本聚类随着网上文本的激增以及实际应用中的需求 ,引起了人们越来越多的重视通过分析文本的特征以及常用的文本聚类方法 ,提出了一种对文本进行细致划分获取细化簇、并在细化簇基础上进行聚类的文本聚类方法在聚类过程中 ,采用曲线的多项式拟合技术提出了一种自动发现阈值的方法 ,并把该方法应用于细化簇的寻找步骤中与凝聚的层次聚类方法的实验比较结果表明 ,使用自动阈值发现的方法在时间消耗、聚类效果。 Text clustering is becoming more and more popular due to the increasing of texts on Web and the requirements in real application In this paper a novel text clustering method is proposed, in which cluster texts are clustered into fine clusters firstly, and then the fine clusters are clustered using agglomerative nesting clustering method A method that can select threshold automatically in clustering process is also proposed, based on multinomial simulation technique This method is applied in the clustering algorithm The experiments show that the algorithm adopted has a good result in computational complexity, clustering effect and tolerance of outliers

作者张猛王大玲于戈

机构地区东北大学信息科学与工程学院

出处《计算机研究与发展》 EI CSCD 北大核心 2004年第10期1748-1753,共6页 Journal of Computer Research and Development

基金国家自然科学基金项目 ( 60 173 0 5 1)

关键词文本聚类细化簇自动阈值发现 text clustering fine clusters auto-selected threshold

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献8

1J MacQueen. Some methods for classification and analysis of multivariate observation. In: Proc of the 5th Berkeley Symp Math Statist and Prob 1. California; University of California Press,1967. 281～297
2L Kaufman, P J Rousseeuw. Finding Groups in Data: An Introduction to Cluster Analysis. New York: John Wiley & Sons,1990
3M Ankerst, M M Breunig, H P Kriegel, et al. OPTICS:Ordering points to identify the clustering structure. In: Proc of the 1999 ACM SIGMOD Int'l Conf on Management of Data (SIGMOD' 99). New York: ACM Press, 1999. 164～169
4苏中,马少平,杨强,张宏江.基于Web-Log Mining的Web文档聚类[J].软件学报,2002,13(1):99-104. 被引量：29
5A Hotho, G Stumme. Conceptual clustering of text clusters.FGML Workshop, Hannover, 2002
6D S Modha, W S Spangler. Feature weighting in k-means clustering. Machine Learning, 2003, 52(3): 217～237
7F Beil, M Ester, X Xu. Frequent term-based text clustering. In:Proc of 2002 Int Conf Knowledge Discovery and Data Mining.New York: ACM Press, 2002. 436～442
8B B Wang, R I McKay, Hussein AAbbass, etal. A comparative study for domain ontology guided feature extraction. In: Proc of 26th Australian Computer Science Conference (ACSC2003).Darlinghurst, Australia: Australian Computer Society Inc, 2003.69～ 78

二级参考文献6

1Ng, R., Han, J. Efficient and effective clustering methods for data mining. In: Bocca, J.B., Jarke, M., Zaniolo, C., eds. Proceedings of the 1994 International Conference on Very Large Data Bases (VLDB'94). Santiago, Chile: Morgan Kaufmann, 1994. 144～155.
2Ester, M., Kriegal, H.P, Sander, J. A density-based algorithm for discovering clusters in large spatial databases with noise. In: Simoudis, Evangelos, Han, Jia-wei, Fayyad, U.M., eds. KDD'96--Proceedings of the 2nd International Conference on Knowledge Discovery and Data Mining. AAAI Press, 1996.
3Kaufman, L., Rousseeuw, P. J. Finding Groups in Data: an Introduction to Cluster Analysis. John Wiley & Sons, 1990.
4Sibson, R. SLINK: an optimally efficient algorithm for the single-link cluster method. The Computer Journal, 1973,16(1):20～34.
5Bouguettaya, A. On-Line clustering. IEEE Transactions on Knowledge and Data Engineering. 1996,8(2):333～339.
6Voorhees, E.M. Implementing agglomerative hierarchical clustering algorithms for use in document retrieval. Information Processing and Management, 1986,22:465～476.

共引文献28

1朱克斌,唐菁,杨炳儒.Web文本挖掘系统及聚类分析算法[J].计算机工程,2004,30(13):138-139. 被引量：7
2杜威,邹先霞,魏长华.基于OLAP的Web日志挖掘的研究与探讨[J].计算机与现代化,2004(12):106-109. 被引量：3
3郭岩,白硕,于满泉.Web使用信息挖掘综述[J].计算机科学,2005,32(1):1-7. 被引量：50
4王勇,吕扬生.DICOM医学图像扩展模型的研究[J].中国生物医学工程学报,2005,24(1):89-92. 被引量：3
5李伟,黄颖.文本聚类算法的比较[J].科技情报开发与经济,2006,16(22):234-236. 被引量：4
6龚静,李英杰.文本聚类算法的分析与比较[J].湖南环境生物职业技术学院学报,2006,12(3):283-286. 被引量：2
7宋江春,沈钧毅.一种新的Web用户群体和URL聚类算法的研究[J].控制与决策,2007,22(3):284-288. 被引量：11
8洪宇,张宇,刘挺,郑伟,龚诚,李生.基于层次聚类的自适应信息过滤学习算法[J].中文信息学报,2007,21(3):47-53.
9索红光,杨涛.基于互信息的Web文档聚类方法[J].广西师范大学学报（自然科学版）,2007,25(2):131-134. 被引量：3
10戴维迪,王文俊,侯越先,王英,张璐.Document Clustering Based on Constructing Density Tree[J].Transactions of Tianjin University,2008,14(1):21-26.

同被引文献112

1郭景峰,赵玉艳,边伟峰,李晶.基于改进的凝聚性和分离性的层次聚类算法[J].计算机研究与发展,2008,45(z1):202-206. 被引量：15
2孙茂松,黄昌宁,方捷.汉语搭配定量分析初探[J].中国语文,1997(1):29-38. 被引量：58
3黄钢石,陆建江,张亚非.基于NMF的文本聚类方法[J].计算机工程,2004,30(11):113-114. 被引量：9
4刘丽珍,宋瀚涛,陆玉昌.基于二次熵的互信息特征选取方法的研究[J].计算机科学,2004,31(12):135-136. 被引量：2
5刘涛,吴功宜,陈正.一种高效的用于文本聚类的无监督特征选择算法[J].计算机研究与发展,2005,42(3):381-386. 被引量：37
6张敏,林川,马少平.使用遗传算法的信息检索动态参数学习方法[J].计算机研究与发展,2005,42(3):486-492. 被引量：4
7刘丽珍,宋瀚涛,陆玉昌.Dimensionality Reduction by Mutual Information for Text Classification[J].Journal of Beijing Institute of Technology,2005,14(1):32-36. 被引量：2
8马张华,陈文广.查询优化与动态自动聚类系统[J].大学图书馆学报,2005,23(3):34-40. 被引量：7
9王永厚.中国农业古籍及其珍藏[J].农业图书情报学刊,1995(A01):100-103. 被引量：12
10叶吉祥,谭冠政,路秋静.基于核的非凸数据模糊K-均值聚类研究[J].计算机工程与设计,2005,26(7):1784-1785. 被引量：7

引证文献16

1雷庆,吴扬扬.识别和抽取XM L文档中的关系信息及其出现模式[J].清华大学学报（自然科学版）,2005,45(S1):1757-1761. 被引量：3
2王素格,彭其伟,张武.基于遗传算法的自然语言参数阈值优化方法[J].测试技术学报,2006,20(1):75-81. 被引量：1
3王燕.基于信息熵的标称变量聚类算法研究[J].计算机应用,2006,26(8):1904-1905. 被引量：2
4王燕.聚类类别数目自动学习算法研究[J].计算机工程与设计,2007,28(2):252-253. 被引量：6
5索红光,杨涛.基于互信息的Web文档聚类方法[J].广西师范大学学报（自然科学版）,2007,25(2):131-134. 被引量：3
6索红光,王玉伟.一种用于文本聚类的改进k-means算法[J].山东大学学报（理学版）,2008,43(1):60-64. 被引量：34
7索红光,王玉伟.基于参考区域的k-means文本聚类算法[J].计算机工程与设计,2009,30(2):401-403. 被引量：9
8常娥.农史专题资料自动编纂系统的构建与测试[J].图书馆学研究,2009(6):10-14. 被引量：4
9陈志敏,沈洁,赵耀.一种基于DOM的Web文档主题划分方法[J].计算机应用与软件,2009,26(8):59-61.
10乔石,陈礼青.安全组播核心问题研究[J].淮阴工学院学报,2009,18(5):43-47.

二级引证文献90

1丁小军,陈杰,李霖,徐碧通,朱晓姝.一种基于聚类结果稳定性来确定聚类数的方法[J].玉林师范学院学报,2020(3):43-47. 被引量：2
2雷庆,吴扬扬,缑锦.从复杂XML文档中抽取目标关系片段的方法[J].郑州大学学报（理学版）,2009,41(1):40-43.
3吴红艳.基于smart AGENT的纺织企业竞争情报智能采集方法[J].中原工学院学报,2006,17(4):72-74.
4方玉,赵英.基于XML的Web内容挖掘探索[J].情报探索,2007(2):68-69.
5苏云辉,张莹,白清源,谢丽聪,谢伙生.基于访问兴趣度的用户事务聚类方法[J].广西师范大学学报（自然科学版）,2007,25(4):248-251. 被引量：2
6胡吉明,胡昌平.基于群体网络行为的用户聚合分析[J].情报杂志,2008,27(7):71-73. 被引量：4
7史旗凯,郭菊娥.基于管理问题信息抽取的主题识别研究[J].情报科学,2008,26(10):1558-1562.
8史旗凯,郭菊娥,马续补,叶金凤.基于SMA信息抽取的事实主题的识别研究[J].情报学报,2009,28(1):82-87. 被引量：1
9魏建香,刘怀,苏新宁.基于遗传算法的文档聚类算法的设计与仿真(英文)[J].南京大学学报（自然科学版）,2009,45(3):432-438. 被引量：4
10雷庆,熊汉琛.基于标记二叉树的XML数据模式提取算法[J].计算机工程与设计,2009,30(13):3205-3208. 被引量：1

1郭鑫,陈千,向阳.基于特征本体的文本流主题检测研究[J].计算机应用研究,2016,33(2):396-399.
2雷新勇,周群.基于局域网评分中阈值设置和评分一致性研究[J].考试研究,2006,2(4):64-75. 被引量：2

计算机研究与发展

2004年第10期

浏览历史

内容加载中请稍等...

一种基于自动阈值发现的文本聚类方法被引量：16

参考文献8

二级参考文献6

共引文献28

同被引文献112

引证文献16

二级引证文献90

相关作者

相关机构

相关主题

浏览历史

一种基于自动阈值发现的文本聚类方法 被引量：16

参考文献8

二级参考文献6

共引文献28

同被引文献112

引证文献16

二级引证文献90

相关作者

相关机构

相关主题

浏览历史

一种基于自动阈值发现的文本聚类方法被引量：16