摘要
本文提出了一种在小样本数据下、无需分词处理的科技文献分类器建造方法.分析了科技文献的特点,提出了抽取科技文献的关键词作为分类特征词条,以文献的标题、关键词和摘要作为文档主题信息进行词频统计分析建立分类器.最后分别进行了基于最近邻决策和K-邻近决策的分类效果实验研究,实验证明基于欧氏距离相似性测度和基于余弦相似性测度的文本分类效果并不存在显著的差别,K-邻近决策的分类效果要优于最近邻决策的分类效果.
出处
《情报学报》
CSSCI
北大核心
2003年第4期451-456,共6页
Journal of the China Society for Scientific and Technical Information