摘要
利用改进的信息增益特征选择的方法 ,对文本进行了有效的自动聚类。从语料库中抽取了 2 5 0篇文本 ,利用向量空间模型和信息增益特征降维方法 ,构造文本特征向量 ,并最终利用 C-均值方法聚类 ,聚类结果精度、召回率、F- measure分别达到 0 .82、0 .88、0 .
This paper applies the improved information gain method to the text clustering. Retrieving 250 from the corpus, according to Vector Space Model and the information gain feature selection method,construct the text feature vector;use C-means to automatic clustering, the precision、recall and F-measure are 0.82、0.88、0.83.
出处
《现代图书情报技术》
CSSCI
北大核心
2004年第12期7-9,共3页
New Technology of Library and Information Service
基金
国家社会科学基金项目部分研究成果 (项目编号 :0 0 BTQ0 15 )
浙江省教育厅高校科研项目
编号为 2 0 0 40 997
关键词
信息增益
特征选择
聚类
Information gain Feature selection Clustering