针对以高斯核函数为相似性度量的传统谱聚类算法需人为设置尺度参数,相似度与样本分布结构无关的问题,定义了在自然k近邻基础上的共享邻居,结合数据点的近邻信息构造了能反映区域密度的多尺度参数,以新的尺度参数重新定义了相似性度量,...针对以高斯核函数为相似性度量的传统谱聚类算法需人为设置尺度参数,相似度与样本分布结构无关的问题,定义了在自然k近邻基础上的共享邻居,结合数据点的近邻信息构造了能反映区域密度的多尺度参数,以新的尺度参数重新定义了相似性度量,提出了一种基于相对邻近度的自适应谱聚类算法(Adaptive Spectral Clustering based on Relative Proximity,RPASC)。改进的尺度参数结合了间隔尺度、顺序尺度及比例尺度等特性,体现了数据点之间的相对位置关系,反映了不同密度簇的分布特征和空间结构,提高了算法对不同分布数据集的适应性。新的相似性度量通过灵活调整局部尺度参数的大小,自适应地缩小不同密度簇边界上数据点的相似度,使聚类的簇边界更明确,有利于发现真实的簇形态。通过在人工合成数据集和UCI真实数据集上进行的实验,验证了RPASC算法在多个聚类性能指标上的有效性。展开更多
文摘针对以高斯核函数为相似性度量的传统谱聚类算法需人为设置尺度参数,相似度与样本分布结构无关的问题,定义了在自然k近邻基础上的共享邻居,结合数据点的近邻信息构造了能反映区域密度的多尺度参数,以新的尺度参数重新定义了相似性度量,提出了一种基于相对邻近度的自适应谱聚类算法(Adaptive Spectral Clustering based on Relative Proximity,RPASC)。改进的尺度参数结合了间隔尺度、顺序尺度及比例尺度等特性,体现了数据点之间的相对位置关系,反映了不同密度簇的分布特征和空间结构,提高了算法对不同分布数据集的适应性。新的相似性度量通过灵活调整局部尺度参数的大小,自适应地缩小不同密度簇边界上数据点的相似度,使聚类的簇边界更明确,有利于发现真实的簇形态。通过在人工合成数据集和UCI真实数据集上进行的实验,验证了RPASC算法在多个聚类性能指标上的有效性。