期刊文献+

面向离散文本舆情分析的分聚类方案 被引量:3

Discrete Text Classification and Clustering for Public Opinion Analysis
原文传递
导出
摘要 离散文本已经成为一种占据重要地位的舆情信息表现形式,根据离散文本的特点,提出基于特征概念网的离散文本舆情信息的分聚类框架,在此基础上给出分聚类方案。在聚类算法中,运用了遗传算法的全局并行搜索能力、k-means的高效局部聚类能力和小生境的保持种群多样性抑制漂移能力;在分类算法中,先将训练文本库进行类内聚类成子类,对子类构建特征概念网以生成替代该子类的文本,再用KNN算法进行分类。最后结合舆情分析进一步提出了可用的改进方案。 Discrete text has occupied an important position in public-opinion information. In order to analyze public opinion efficiently, this paper proposes a kind of high-performance classification and clustering algorithm according to characteristics of network discrete text based on characteristic concept network. This clustering algorithm integrates the efficiency of k-means, the parallel global search ability of genetic algorithms and the capability to maintain population diversity of Niche method to cluster texts. And in the classification algorithm, the sub-category is clustered into the training library first and then the text is classified by using KNN algorithm. Finally, some improvements are given.
出处 《信息安全与通信保密》 2010年第2期65-67,共3页 Information Security and Communications Privacy
基金 国家自然科学基金资助项目(批准号:60772098) 国家重大基础研究973计划项目(编号:2010CB731400) 教育部新世纪优秀人才支持计划项目(编号:NCET-06-0393) 上海市曙光学者基金资助项目
关键词 离散文本 特征概念网 小生境遗传算法 KNN分类 舆情分析 discrete text characteristic concept network Niche genetic algorithms KNN classification public opinion analysis
  • 相关文献

参考文献3

二级参考文献12

  • 1徐建斌,施亚东.基于概念的文本自动分类研究的综述[J].福建电脑,2005,21(2):2-4. 被引量:3
  • 2樊兴华,孙茂松.一种高性能的两类中文文本分类方法[J].计算机学报,2006,29(1):124-131. 被引量:70
  • 3赵丰年,刘林,商建云.基于概念的文本过滤模型[J].计算机工程与应用,2006,42(4):186-188. 被引量:11
  • 4闫蓉,张蕾.一种新的汉语词义消歧方法[J].计算机技术与发展,2006,16(3):22-25. 被引量:3
  • 5Miller G A.Introduction to WordNet:an on-line lexical database[J]. International Journal of Lexicography, 1990,3 (4) : 235 -244.
  • 6Kaski S.Statistical aspects of the WEBSOM system in organizing document eolleetions[J].Computer Science and Statistics, 1998(29): 281-290.
  • 7Sebastiani F.Machine learning in automated text categorization[J]. ACM Computing Surveys, 2002,34( 1 ).
  • 8[2]Cavnar W,Trenkle J.N-Gram-Based Text Categorization[C].In:Proceedings of Third Annual Symposium on Document Analysis and Information Retrieval.Las Vegas:UNLV,1994,161 ~ 175.
  • 9[3]Salton G,Wong A,Yang C S.A Vector Space Model for Automatic Indexing[J].Communications of the ACM,1975,18(11):613~620.
  • 10[4]Joachims T.Text Categorization with Support Vector Machines Learning with Many Relevant Features[C].In:The 10th European Conference on Machine Learning(ECML).Berlin:Springer,1998,137~142.

共引文献20

同被引文献13

引证文献3

二级引证文献12

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部