基于非对称相似度的文本聚类方法被引量：7

Text clustering based on asymmetric similarity

导出

摘要文本聚类具有数据稀疏性的特点,常见的聚类方法采用基于距离的相异度,为了增强文档的区分特征,提出一种基于非对称相似度的方法,来度量文档对象之间的关联。定义了文本对象之间的非对称相似度度量。利用文本非对称相似度矩阵的稀疏特性,采用强连通构件的划分方法对文本对象进行聚类分析。并通过迭代的方法形成聚类结果的概念层次。实验结果表明:非对称相似度比距离相异度具有更高的准确率和更少的执行时间,当聚类结果簇数目达到较小时,准确率提高约为20%。 Text clustering data sets have sparse data spaces, with existing text clustering methods using distance-based dissimilarity to measure the document similarity. The document discrimination ability can be strengthened by a asymmetric similarity approach for text clustering. The asymmetric similarity is measured by a clustering analysis of the strong components of the sparse matrix. The approach provides a conceptual structure after the hierarchical clustering. Tests on textual data sets show that the asymmetric similarity measure provides higher precision with less run time than the distance-based dissimilarity method. With small numbers of clusters, the accuracy is improved by about 20%.

作者宋韶旭李春平

机构地区清华大学软件学院

出处《清华大学学报（自然科学版）》 EI CAS CSCD 北大核心 2006年第7期1325-1328,共4页 Journal of Tsinghua University(Science and Technology)

基金国家"八六三"高技术项目(2002AA444120)

关键词机器学习文字信息处理文本聚类 machine learning text information processing text clustering

分类号 TP181 [自动化与计算机技术—控制理论与控制工程] TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1Han J,Kamber M.Data Mining:Concept and Techniques[M].San Fransisco:Morgan Kaufmann Publishers,2001.
2Salton G,Wong A,Yang C S.A vector space model for automatic indexing[J].Communications of the ACM,1975,18(11):613-620.
3Modha D,Spangler S.Feature weighting in k-means clustering[J].Machine Learning,2003,52(3):217-237.
4Beil F,Ester M,Xu X.Frequent term-based text clustering[C]∥ Proc 8th Int Conf on Knowledge Discovery and Data Mining.New York:ACM Press,2002:436-442.
5Pissanetzky S.Sparse Matrix Technology[M].London:Academic Press,1984.
6Lewis D,Yang Y,Rose T,et al.RCV1:a new benchmark collection for text categorization research[J].Journal of Machine Learning Research,2004,5(Apr):361-397.

同被引文献57

1宰新宇,田学东.基于公式描述结构和词嵌入的科技文档检索方法[J].数据分析与知识发现,2020,4(1):131-138. 被引量：4
2徐建锁,王正欧.基于LSI和自组织神经网络的高效文本聚类方法[J].天津大学学报（自然科学与工程技术版）,2004,37(11):1026-1030. 被引量：7
3徐海霞.聚类分析在Web文本挖掘中的应用[J].情报杂志,2004,23(12):99-101. 被引量：5
4金博,史彦军,滕弘飞.基于语义理解的文本相似度算法[J].大连理工大学学报,2005,45(2):291-297. 被引量：80
5赵亚琴,周献中.一种基于小生境遗传算法的中文文本聚类新方法[J].计算机工程,2006,32(6):206-208. 被引量：4
6任江涛,孙婧昊,施潇潇,黄焕宇,印鉴.一种用于文本聚类的改进的K均值算法[J].计算机应用,2006,26(B06):73-75. 被引量：24
7朱红灿,唐毅.一种基于动态SOM的增量中文文本聚类方法[J].图书情报工作,2007,51(6):116-119. 被引量：2
8彭京,杨冬青,唐世渭,付艳,蒋汉奎.一种基于语义内积空间模型的文本聚类算法[J].计算机学报,2007,30(8):1354-1363. 被引量：45
9Dhillon I S, Modha D S. Concept decompositions for large sparse text data using clustering [ J]. Machine Learning, 2001, 42(1): 143-175.
10Foo S, Li H. Chinese word segmentation and its effect on information retrieval [J]. Information Processing and Management, 2004, 40(1): 161 - 190.

引证文献7

1王伟.文本自动聚类技术研究[J].情报杂志,2009,28(2):94-97. 被引量：6
2唐果,陈宏刚.基于BBS热点主题发现的文本聚类方法[J].计算机工程,2010,36(7):79-81. 被引量：14
3赵凤飞,覃征.支持科技项目评审的信息处理技术[J].清华大学学报（自然科学版）,2011,51(11):1696-1700. 被引量：2
4张文萍,黎春兰.基于文本空间表示模型的文本相似度计算研究[J].现代情报,2013,33(2):21-23. 被引量：4
5李晶,顾国强.一种改进的FCM检索结果聚类算法研究[J].软件产业与工程,2014(5):39-41.
6徐建民,王鑫.科技文档间非对称关系的双模态度量方法[J].河北大学学报（自然科学版）,2021,41(5):587-598. 被引量：1
7张国防,王鑫,徐建民.基于主题词共现的文档非对称关系量化研究[J].数据分析与知识发现,2023,7(3):110-120. 被引量：2

二级引证文献29

1李梅,阚峻岭,汪贵生.一种虚拟社区话题相关性算法的研究[J].铜陵学院学报,2011,10(1):89-90.
2金春霞,周海岩.位置加权文本聚类算法[J].计算机工程与科学,2011,33(6):154-158. 被引量：6
3黄美璇.基于主题发现的舆情分析系统的设计与实现[J].北京联合大学学报,2012,26(1):33-36. 被引量：5
4郭金龙,许鑫,陆宇杰.人文社会科学研究中文本挖掘技术应用进展[J].图书情报工作,2012,56(8):10-17. 被引量：26
5岳强斌,欧渊,石倩.装备维修流程设计需求聚类分析[J].重庆理工大学学报（自然科学）,2012,26(12):65-69. 被引量：1
6谌志群,徐宁,王荣波.基于主题演化图的网络论坛热点跟踪[J].情报科学,2013,31(3):147-150. 被引量：22
7王东波,朱丹浩.面向汉语句法功能分布知识库的词汇类别知识挖掘研究[J].现代图书情报技术,2013(3):33-37. 被引量：5
8李勇,张克亮,李伟刚.基于微博的网络舆情分析系统设计[J].计算技术与自动化,2013,32(2):123-127. 被引量：5
9白秋产,金春霞,章慧,周海岩.词共现文本主题聚类算法[J].计算机工程与科学,2013,35(7):164-168. 被引量：13
10王东波,朱丹浩.基于CABOSFV聚类算法的汉语词汇类别知识挖掘研究[J].计算机科学,2013,40(7):211-215. 被引量：1

1王彬.从硬盘上找回丢失的文件[J].计算机系统应用,1994,3(12):53-55.
2盖新玲.文字信息处理[J].科技情报开发与经济,2008,18(1):167-168.
3唐松,肖谷.文字信息处理技术的新发展—文字识别技术[J].无线电,1989(12):2-3.
4严旗令.一种改进的协同过滤推荐算法[J].软件导刊,2016,15(4):63-65. 被引量：2
5李桂林,陈晓云.关于聚类分析中相似度的讨论[J].计算机工程与应用,2004,40(31):64-65. 被引量：26
6罗可,蔡碧野,吴一帆,谢中科,张丽.数据挖掘中聚类的研究[J].计算机工程与应用,2003,39(20):182-184. 被引量：31
7翟玲.网络入侵检测算法研究[J].软件,2013,34(4):57-58. 被引量：5
8许云,张锋.Using SVM to construct a Chinese dependency parser[J].Journal of Zhejiang University-Science A(Applied Physics & Engineering),2006,7(2):199-203. 被引量：1
9佟加.庆夫.《新疆2000民文多文种软件》操作系统和编辑系统出台[J].语言与翻译,1999,0(1):9-9.
10曹雁锋,张先伟.一种强连通判定算法[J].计算机应用与软件,2007,24(4):152-153. 被引量：2

清华大学学报（自然科学版）

2006年第7期

浏览历史

内容加载中请稍等...

基于非对称相似度的文本聚类方法被引量：7

参考文献6

同被引文献57

引证文献7

二级引证文献29

相关作者

相关机构

相关主题

浏览历史

基于非对称相似度的文本聚类方法 被引量：7

参考文献6

同被引文献57

引证文献7

二级引证文献29

相关作者

相关机构

相关主题

浏览历史

基于非对称相似度的文本聚类方法被引量：7