文本聚类中权重计算的对偶性策略被引量：20

The Duplex Strategy of Term Weighting in Text Clustering

下载PDF

导出

摘要在文本聚类/分类处理中,一个重要步骤就是寻找文本的合理表示.在被广泛采用的向量空间模型中,一个文本被表示成一个向量,向量的各维是特征项,而向量空间模型的核心问题就是如何进行特征的抽取和选择.在特征的权重计算中,存在一种对偶性现象.利用迭代的方法来处理和利用这种对偶性,获得了文本的隐含概念.实验结果表明,采用概念空间代替原始词空间来表示文本,能够得到更好的聚类结果. An important step in text mining is to find a reasonable representation of the text. In the popular VSM (vector space module), where a text is represented as a vector, the coral problem is to term extraction, selection and weighting. An iteration method is proposed to deal with the duplex phenomena found in term weighting and compute out the latent concept. Experimental results show that the latent concept could help to get better clustering results.

作者卜东波白硕李国杰

机构地区中国科学院计算技术研究所

出处《软件学报》 EI CSCD 北大核心 2002年第11期2083-2089,共7页 Journal of Software

基金国家自然科学基金资助项目(69773008)~~

关键词文本聚类权重计算对偶性策略向量空间模型特征抽取隐含概念空间汉字信息处理 text clustering vector space module term extraction duplex latent concept

分类号 TP391.12 [自动化与计算机技术—计算机应用技术] TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献5

1Salton, G. Automatic Text Processing. Addison-Wesley Publishing Company, 1988.
2Hartigan, J.A. Clustering Algorithms, Yale University, John Wiley&Sons, New York, London, 1975.
3Kleinberg, J. Authoritative sources in a hyperlinked environment, In: Proceedings of the ACM-SIAM Symposium on Discrete Algorithms. 1998. http://www.cs.cornell.edu/home/kleinber/.
4Dumais, S.T. LSI meets TREC: a status report. In: Harman, D., ed. Proceedings of the 1st Text Retrieval Conference (TREC1). National Institute of Standards and Technology, 1993. 137～152.
5Dumais, S.T. Latent semantic indexing (LSI) and TREC-2. In: Harman, D., ed. Proceedings of the 2nd Text Retrieval Conference (TREC2). National Institute of Standards and Technology, 1994. 105～116.

同被引文献157

1曾玉.信息检索的模糊聚类分析模型[J].情报学报,2004,23(4):433-436. 被引量：15
2李莹,张晓辉,王华勇,常桂然.一种应用向量聚合技术的KNN中文文本分类方法[J].小型微型计算机系统,2004,25(6):993-996. 被引量：13
3钟敏娟,林亚平,陈治平.基于分类和关键词组抽取的信息检索算法[J].系统仿真学报,2004,16(5):1009-1012. 被引量：11
4王知津,郑红军.基于集合理论的信息检索模型[J].情报科学,2004,22(11):1288-1291. 被引量：6
5刘涛,吴功宜,陈正.一种高效的用于文本聚类的无监督特征选择算法[J].计算机研究与发展,2005,42(3):381-386. 被引量：37
6赵万磊,王永吉,张学杰,李娟.一种优化初始中心点的K平均文本聚类算法[J].计算机应用,2005,25(9):2037-2040. 被引量：6
7赵军,金千里,徐波.面向文本检索的语义计算[J].计算机学报,2005,28(12):2068-2078. 被引量：27
8牛强,王志晓,陈岱,夏士雄.基于支持向量机的Web文本分类方法[J].微电子学与计算机,2006,23(9):102-104. 被引量：19
9苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：394
10侯自新等.线性代数及其应用[M].南开大学出版社,1990.373,325-326.

引证文献20

1蒋宗礼,李宪雷,徐学可.基于主题Hub值的元搜索[J].北京工业大学学报,2009,35(3):397-402. 被引量：1
2刘海峰,王元元,张学仁.基于VSM的模糊标引文本检索若干问题研究[J].图书情报工作,2006,50(S2):127-130.
3王映,常毅,谭建龙,白硕.基于N元汉字串模型的文本表示和实时分类的研究与实现[J].计算机工程与应用,2005,41(5):88-91. 被引量：5
4马国俊,贠卫国.基于潜在语义索引的中文文本聚类的研究[J].现代电子技术,2005,28(10):58-59. 被引量：4
5林华兵,傅清祥.基于文本相似度的关键词分类算法[J].福建电脑,2005,21(8):46-47. 被引量：1
6常浩,陈莉.基于摘要的web内容挖掘研究[J].微计算机信息,2006,22(08X):302-304. 被引量：1
7刘海峰,王元元,王倩.基于分类的VSM模式下文本检索研究[J].情报科学,2006,24(11):1700-1703. 被引量：11
8刘海峰,张学仁,王倩.基于聚类的VSM模糊标引模式下文本检索问题研究[J].工程地质计算机应用,2007(1):7-12. 被引量：1
9余轶军,林怀忠,陈纯.基于竞争凝聚的个性化网页推荐[J].浙江大学学报（工学版）,2007,41(2):239-244. 被引量：1
10彭京,杨冬青,唐世渭,付艳,蒋汉奎.一种基于语义内积空间模型的文本聚类算法[J].计算机学报,2007,30(8):1354-1363. 被引量：45

二级引证文献135

1高飞,鱼江,任芳,黄保瑞,次旺多吉.四维文档向量模型的k-means新闻文本聚类算法[J].西藏大学学报（社会科学版）,2013,28(4):109-112.
2施晓华,黄冀.信息检索新技术[J].中国信息导报,2005(3):47-49. 被引量：1
3毕克新,王新武.加拿大的兽医生物制品管理[J].检验检疫科学,2005,15(2):58-60.
4战立强,刘大昕.基于网页模糊分类的用户兴趣度分析方法[J].计算机工程与应用,2005,41(15):188-190. 被引量：2
5施晓华,黄骥.信息检索新技术应用[J].情报科学,2005,23(8):1225-1228. 被引量：9
6郭莉,张吉,谭建龙.基于后缀树模型的文本实时分类系统的研究和实现[J].中文信息学报,2005,19(5):16-23. 被引量：12
7王曰芬,宋爽,苗露.共现分析在知识服务中的应用研究[J].现代图书情报技术,2006(4):29-34. 被引量：60
8孔晨妍,侯汉清.《中国图书馆分类法》类目更新途径之探讨[J].中国索引,2006,4(4):42-45.
9孔晨妍,侯汉清.《中国图书馆分类法》类目更新途径之探讨[J].图书馆工作与研究,2007(1):22-25. 被引量：6
10李金波.国内外联想式信息检索研究综述[J].图书馆学研究,2007(6):48-52. 被引量：1

1徐红升,王听忠.基于形式概念分析与评分机制的本体查询系统[J].洛阳师范学院学报,2009,28(2):87-91.
2钟晓旭.层次聚类方法在关键词提取上的研究应用[J].电脑知识与技术（过刊）,2009,0(6):1483-1484. 被引量：1
3周敏,彭国华,叶正麟,安晓虹,王树勋.可展曲面的几何设计与形状调节[J].中国机械工程,2006,17(24):2554-2557. 被引量：7
4胡钢,吉晓民,秦新强,沈晓芹.4次带参Bézier可展曲面的设计[J].上海交通大学学报,2012,46(4):601-606. 被引量：3
5胡钢,吉晓民,秦新强.带多参数B样条上可展曲面的几何设计与形状调节[J].应用科学学报,2012,30(3):324-330.
6侯忠生,韩志刚.非线性系统参数估计及与之对偶的自适应控制[J].自动化学报,1995,21(1):122-125. 被引量：7
7陈文,刘绍清,郑若鹢,黄河清.覆盖粗糙集上下近似的对偶性分析[J].计算机与现代化,2012(7):1-5.
8张秋余,刘洋.使用基于SVM的局部潜在语义索引进行文本分类[J].计算机应用,2007,27(6):1382-1384. 被引量：4
9倪敏敏,王会方.基于点集凸包的Delaunay三角剖分实时算法研究[J].价值工程,2015,34(9):317-318. 被引量：1
10李凯,秦新强,胡钢,岳丽.λ、μ-B样条上可展曲面的几何设计[J].计算机工程与应用,2011,47(13):201-203.

软件学报

2002年第11期

浏览历史

内容加载中请稍等...

文本聚类中权重计算的对偶性策略被引量：20

参考文献5

同被引文献157

引证文献20

二级引证文献135

相关作者

相关机构

相关主题

浏览历史

文本聚类中权重计算的对偶性策略 被引量：20

参考文献5

同被引文献157

引证文献20

二级引证文献135

相关作者

相关机构

相关主题

浏览历史

文本聚类中权重计算的对偶性策略被引量：20