摘要
KNN算法是一种在人工智能领域如专家系统、数据挖掘、模式识别等方面广泛应用的算法。该算法简单有效,易于实现。但是KNN算法在决定测试样本的类别时,是把所求的该测试样本的K个最近邻是等同看待的,即不考虑这K个最近邻能表达所属类别的程度。由于训练样本的分布是不均匀的,每个样本对分类的贡献也就不一样,因此有必要有区别的对待训练样本集合中的每个样本。利用聚类算法,求出训练样本集合中每个训练样本的隶属度,利用隶属度来区别对待测试样本的K个最近邻。通过实验证明,改进后的KNN算法较好的精确性。
KNN is of the best text categorization algorithm and is used widely.The uneven distribution in training set will affect categorization result negatively.This paper prsents an improved KNN method and verifies its effectiveness by the experiments.The classification performance is promoted.
出处
《计算机工程与应用》
CSCD
北大核心
2009年第7期153-155,158,共4页
Computer Engineering and Applications
关键词
K近邻
隶属度
文本分类
K-Nearest Neighbour(KNN)
membership degree
text classification