摘要
文本分类是文本挖掘的基础和核心。文中系统地介绍了文本分类过程中涉及的各种关键技术,对特征表示、特征提取、文本分类方法及分类模型评估进行了较为详细地论述。最后,提出了文本分类中存在的问题及今后的发展。
Text categorization is the basis and core of textual data mining. This survey introduces key techniques to every step of categorization process, including feature representation, feature extraction, the algorithms of text classification and model evaluation. Lastly, it presents some existing problems and future developments in text categorization field.
出处
《微计算机信息》
北大核心
2006年第05X期209-211,共3页
Control & Automation
基金
四川省重大基础研究项目(04JY029-001-4)
关键词
文本挖掘
文本分类
特征表示
特征抽取
模型评估
text mining
text categorization
feature representation
feature extraction
model evaluation