期刊文献+

一种不需分词的中文文本分类方法 被引量:5

Chinese Text Classification Without Word Segmentation
在线阅读 下载PDF
导出
摘要 提出了一种不需分词的n元语法文本分类方法.与传统文本分类模型相比,该方法在字的级别上利用了n元语法模型,文本分类时无需进行分词,并且避免了可能造成有用信息丢失的特征选择过程.由于字的数量远小于词的数量,所以该分类方法与其它在词级别上的分类方法相比,有效地降低了数据稀疏带来的影响.系统地研究了模型中的关键因素以及它们对分类结果的影响.使用中文TREC提供的数据进行实验,结果表明,综合评价指标Fβ=1达到86.8%. Proposes an approach for Chinese language text classification without word segmentation based on n-gram language modeling. Unlike the case of traditional text classification models, the approach based on character level n-gram modeling avoids word segmentation and explicit feature selection procedures that tends to lose significant amount of useful information. It greatly reduces the problem of sparsity of data, because the size of the vocabulary made up of characters is smaller than that formed from words. Systematic study of key factors in language modeling and their influence on classification shows that the estimated index based on experiments on Chinese TREC attained 86.8%.
出处 《北京理工大学学报》 EI CAS CSCD 北大核心 2005年第9期778-781,共4页 Transactions of Beijing Institute of Technology
基金 云南省信息技术基金资助项目(2002IT03)
关键词 文本分类 分词 n元语法模型 text classification word segmentation n-gram model
  • 相关文献

参考文献2

二级参考文献16

  • 1吴军,王作英,禹锋,王侠.汉语语料的自动分类[J].中文信息学报,1995,9(4):25-32. 被引量:24
  • 2苏新宁,徐进鸿,史九林.档案自动分类算法研究[J].情报学报,1995,14(3):194-200. 被引量:11
  • 3叶新明.基于《中图法》的中文文献自动分类[J].情报学报,1995,14(6):423-433. 被引量:11
  • 4邹涛.基于WWW的信息发现技术研究(博士学位论文)[M].南京:南京大学,1999..
  • 5廉庆荣(译),矩阵计算,1983年
  • 6Yang Y,Mayo Clin ACM Trans,1994年,12卷,3期
  • 7刘开瑛,第二届计算语言学联合学术会议论文集,1993年
  • 8Belkin N J,Communication ACM,1992年,35卷,12期
  • 9Chang Y Q,Pattern Recognition,1992年,35卷,1期
  • 10张金槐,线性模型参数估计及改进,1992年

共引文献59

同被引文献71

引证文献5

二级引证文献63

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部