期刊文献+

基于KPCA和RBF网络的文本分类研究 被引量:12

Text Categorization Based on KPCA and RBF Neural Network
在线阅读 下载PDF
导出
摘要 基于词空间的分类方法很难处理文本的高维特性和复杂相关性,为此文中提出了基于核的主成分分析和径向基神经网络的文本分类算法.首先利用核主成分分析选择合适的核函数从高维特征空间中提取文本向量的主成分,实现了文本输入空间的降维和语义特征空间的抽取,然后在语义特征空间中训练径向基神经网络分类器,并利用训练得到的分类器进行文本分类工作.实验结果表明:核主成分分析不仅实现了降维,而且能在大幅减减少径向基神经网络训练时间的基础上显著提高其分类精度. It is difficult for methods based on word spaces to handle with the high dimensionality characteristic and complex correlation of the texts vectors. To solve this problem, a algorithm based on kernel principal component analysis and RBF neural network is proposed. First, this new algorithm employs KPCA with a appropriate kernel function to find the principal components of the input vectors in the high dimensional feature space, which effectively reduces the dimensionality of input vectors and gets the semantic feature space. Then, we train a RBF neural network in the semantic feature space. The experiment results show that the new method can effectively reduce the dimensionality of the data sets and notably enhance the classification precision while reduces the training time of the RBF networks.
作者 杨俊 陈贤富
出处 《微电子学与计算机》 CSCD 北大核心 2010年第3期122-125,共4页 Microelectronics & Computer
关键词 文本分类 特征选择 核主成分分析 径向基神经网络 text categorization feature selection KPCA RBF neural networks
  • 相关文献

参考文献7

  • 1苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量:394
  • 2Yang Y, Pedersen J O. A comparative study on feature selection in text categorization[C]//Proceedings of the 14th ICML. USA: Nashville 1997 : 412 - 420.
  • 3Cover T M. The best two independent measurements are not the two best[J].IEEE Transactions on Systems, Man and Cybernetics, 1974(4) :116- 117.
  • 4Scholkopf B, Smola A, Muller K R. Nonlinear component analysis as a kernel eigenvalue probtem[J ]. Neural Computation, 1998,10(5): 1299 - 1319.
  • 5崔志明,谢春丽.基于Web的文本挖掘研究[J].微电子学与计算机,2002,19(10):51-53. 被引量:14
  • 6Li YH, Jain A K. Classification of the text document[J]. The Computer Journal, 1998,41 (8) :537 - 546.
  • 7王俊英,郭景峰,霍峥.中文文本分类系统的设计与实现[J].微电子学与计算机,2006,23(z1):262-265. 被引量:3

二级参考文献7

  • 1王建会,王洪伟,申展,胡运发.一种实用高效的文本分类算法[J].计算机研究与发展,2005,42(1):85-93. 被引量:21
  • 2李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量:98
  • 3王实 高文.数据挖掘中的聚类方法[M].,2000..
  • 4[2]David D Lewis,et al.Training algorithms for linear text classifiers[C].Proceedings of the 19th Annual International ACM-SIGIR、Conference,Konstanz:Hartung-Gorre Verlag,1996:298~306
  • 5[3]Mc Callum A,et al.A Comparison of event models for naive bayes text classification[C].AAAI-98 Workshop on Learning for Text Categorization,Madison,Wisconsin,AAAI Press,1998:509~516
  • 6[4]Belur V Dasarathy.Nearest neighbor(NN) norms:NN pattern classification techniques[C].IEEE Computer Society Press,Las Alamitos,California,1991
  • 7陈毅松,汪国平,董士海.基于支持向量机的渐进直推式分类学习算法[J].软件学报,2003,14(3):451-460. 被引量:89

共引文献408

同被引文献96

引证文献12

二级引证文献49

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部