期刊文献+

改进的简单贝叶斯文本分类 被引量:6

An improved Bayesian text categorization system
在线阅读 下载PDF
导出
摘要 对简单贝叶斯分类中的条件概率加权因子进行了改进,引进了体现词语分类贡献大小的类别区别度,新的加权方法为频率与类别区别度的乘积,既强调了区别度高的词语,降低了常见词的影响,又体现了区别度高的词语频次的积极作用.实验证明,在约3万篇测试集上(共15个大类,244个小类),该改进比原来的加权方法提高了分类效果:大类和小类微平均分别提高了约18.9%和7.6%. The weighted factor of conditional probability in Naive-Bayes was ameliorated, the new factor is product of word's kinds-difference and frequency, which emphasizes words with high word' s kinds- difference, incarnates frequency's positivity, on the contrary, reduces the affect of common words. In corpus with 3 ten thousand documents, 15 kinds and 244 sub-kinds, the experiment verified this means: MicroF1 increase of 18.9 percent of parent-category, MicroF1 increase of 7.6 percent of sub-category.
作者 刘华
出处 《暨南大学学报(自然科学与医学版)》 CAS CSCD 北大核心 2007年第1期48-51,共4页 Journal of Jinan University(Natural Science & Medicine Edition)
基金 教育部"国家语言资源监测"项目(L2004-01-01-04)
关键词 文本分类 简单贝叶斯 词语类别区别度 text categorization Naive-Bayes word's kinds-difference
  • 相关文献

参考文献8

  • 1YANG Y M. An evaluation of statistical approaches to text categorization [ J ]. Journal of Information Retrieval,1999,1(2) : 67 -88.
  • 2JOACHIMS T. Text categorization with support vector machines: learning with many relevant features [ C ]//Proceedings of ECML - 98, 10th European Conference on Machine Learning. Berlin: Springer, 1997 : 137 - 142.
  • 3YANG Y, LIU X. A re-examination of text categorization methods[ C ]//GEY F, HEARST M, RONG R, et al.Proc. of the 22nd ACM Int'l Conf. on Research and Development in Information Retrieval (SIGIR-99). Berkeley: ACM Press, 1999:42-49.
  • 4王灏,黄厚宽,田盛丰.文本分类实现技术[J].广西师范大学学报(自然科学版),2003,21(A01):173-179. 被引量:15
  • 5周雪忠.中文文本分类特征表示及分类方法比较研究[ C ]//Advances in Computation of Oriental Languages.北京:清华大学出版社,2003.
  • 6陈克利.基于大规模真实文本的平衡语料分析与文本分类方法[C]..Advances in Computation of Oriental Languages[C].北京:清华大学出版社,2003..
  • 7施彤年,卢忠良,荣融,王家云.多类多标签汉语文本自动分类的研究[J].情报学报,2003,22(3):306-309. 被引量:11
  • 8张宇,刘挺,文勖.基于改进贝叶斯模型的问题分类[J].中文信息学报,2005,19(2):100-105. 被引量:47

二级参考文献13

  • 1VladimirN.Vapnik(著) 张学工(译).统计学习理论的本质[M]:第一版[M].北京:清华大学出版社,2000.85-155.
  • 2Dell Zhang and Wee Sun Lee. Question Classification using Support Vector Machines[ C]. Annual ACM Conference on Research and Development in Infomation Retrieval archive Proceedings of the 26th annual international ACM SIGIR confference, USA, 2002.
  • 3Cody Kwok, Oren Etzioni and Daniel S. Weld. Scaling Question Answering to the Web[J]. ACM Transactions on Information Systems (TOIS) archive Volume19 , Issue 3. 2001: 242 - 262.
  • 4Xin Li, Dan Roth, Learning Question Classifiers [ C ]. COLING'02, Aug, 2002,556 - 562.
  • 5Ulf Hermjakob. Parsing and Question Classification for Question parsing and Question Classification for Question Answering[A]. Proceedings of the ACL Workshop on Question Answering[ C]. Toulouse, France, 1999,17- 22.
  • 6邹涛,王继成,朱华宇,金翔宇,张福炎.WWW上的信息挖掘技术及实现[J].计算机研究与发展,1999,36(8):1019-1024. 被引量:120
  • 7林鸿飞,贡大跃,张跃,姚天顺.可视化中文文本挖掘模型[J].计算机科学,2000,27(4):37-41. 被引量:13
  • 8王继成,潘金贵,张福炎.Web文本挖掘技术研究[J].计算机研究与发展,2000,37(5):513-520. 被引量:276
  • 9李晓黎,刘继敏,史忠植.概念推理网及其在文本分类中的应用[J].计算机研究与发展,2000,37(9):1032-1038. 被引量:57
  • 10陆建江,张文献.中文文本分类器的设计[J].计算机工程与应用,2002,38(15):49-51. 被引量:10

共引文献77

同被引文献34

引证文献6

二级引证文献19

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部