聚类分析是常见的数据挖掘方法,时间序列数据挖掘可以将海量时序信息转化成有组织的知识。由于时间序列具有高维度、非线性等特点,大多数聚类算法无法直接应用在原始时间序列数据上并取得令人满意的效果。研究如何在维数约简的同时尽可...聚类分析是常见的数据挖掘方法,时间序列数据挖掘可以将海量时序信息转化成有组织的知识。由于时间序列具有高维度、非线性等特点,大多数聚类算法无法直接应用在原始时间序列数据上并取得令人满意的效果。研究如何在维数约简的同时尽可能多地保留数据的内蕴特征,识别代表知识的真正有趣的模式,具有重要意义。现有大多数时间序列聚类算法没有考虑数据集的局部结构,而数据集的局部结构对聚类性能有较大影响。提出一种基于局部线性嵌入(Locally Linear Embedding,LLE)和高斯混合模型(Gaussian Mixture Model,GMM)的时间序列聚类算法。首先从保留数据集局部结构的角度,使用LLE将每个高维时间序列样本表示为其k近邻的线性组合,并在低维空间进行重构,在保持数据集局部几何结构的同时实现维数约简;然后使用GMM从概率分布的角度进行聚类分析。与已有方法相比,该方法在单变量时间序列聚类上具有更优的效果。展开更多
负荷曲线聚类是电力大数据研究的基础,通过聚类来挖掘用户的用电模式,从而为电力调控提供决策。针对传统的聚类方法难以处理高维多变量数据,提取时间特征较困难,存在特征提取与聚类过程分离的问题,采用基于一维卷积自编码器的深度卷积...负荷曲线聚类是电力大数据研究的基础,通过聚类来挖掘用户的用电模式,从而为电力调控提供决策。针对传统的聚类方法难以处理高维多变量数据,提取时间特征较困难,存在特征提取与聚类过程分离的问题,采用基于一维卷积自编码器的深度卷积嵌入聚类方法(deep convolutional embedded clustering based on one-dimensional convolution autoencoder,DCEC-1D),对负荷曲线进行聚类并提取典型负荷曲线。首先,用一维卷积自编码器(one-dimensional convolutional autoencoder,1D-CAE)提取特征,送入K-means得到初始簇中心;然后,利用自定义的聚类层对提取的负荷特征进行软分布;最后,为防止扭曲嵌入空间,将聚类损失和重构损失相结合作为损失函数联合优化,得到最终的聚类结果。算例分析以美国加州大学欧文分校(University of California Irvine,UCI)提出的数据集中的葡萄牙居民用户实际采集数据为研究对象,通过戴维森堡丁指数(Davies-Bouldin index,DBI),CH分数(Calinski-Harabaz index,CHI),轮廓系数(Silhouette coefficient,SC)这3个聚类指标进行定量分析,并通过t分布随机邻域嵌入(t-distributed stochastic neighborhood embedding,TSNE)进行可视化分析。试验结果表明,相较于传统的K-means、主成分分析法(principal components analysis,PCA)+K-means,该方法聚类指标有大幅度提升。对比基于局部结构保留的深度嵌入聚类(improved deep embedded clustering,IDEC),基于一维卷积的深度嵌入聚类(deep embedding clustering method based on one dimensional convolutional auto-encoder,DEC-1D-CAE)和1D-CAE+K-means,所提方法的DBI分别降低了约0.15、0.08和1.50,CHI提高了约19384.92、12488.48和36485.72,SC提高了约0.10、0.05和0.63。展开更多
文摘聚类分析是常见的数据挖掘方法,时间序列数据挖掘可以将海量时序信息转化成有组织的知识。由于时间序列具有高维度、非线性等特点,大多数聚类算法无法直接应用在原始时间序列数据上并取得令人满意的效果。研究如何在维数约简的同时尽可能多地保留数据的内蕴特征,识别代表知识的真正有趣的模式,具有重要意义。现有大多数时间序列聚类算法没有考虑数据集的局部结构,而数据集的局部结构对聚类性能有较大影响。提出一种基于局部线性嵌入(Locally Linear Embedding,LLE)和高斯混合模型(Gaussian Mixture Model,GMM)的时间序列聚类算法。首先从保留数据集局部结构的角度,使用LLE将每个高维时间序列样本表示为其k近邻的线性组合,并在低维空间进行重构,在保持数据集局部几何结构的同时实现维数约简;然后使用GMM从概率分布的角度进行聚类分析。与已有方法相比,该方法在单变量时间序列聚类上具有更优的效果。
文摘负荷曲线聚类是电力大数据研究的基础,通过聚类来挖掘用户的用电模式,从而为电力调控提供决策。针对传统的聚类方法难以处理高维多变量数据,提取时间特征较困难,存在特征提取与聚类过程分离的问题,采用基于一维卷积自编码器的深度卷积嵌入聚类方法(deep convolutional embedded clustering based on one-dimensional convolution autoencoder,DCEC-1D),对负荷曲线进行聚类并提取典型负荷曲线。首先,用一维卷积自编码器(one-dimensional convolutional autoencoder,1D-CAE)提取特征,送入K-means得到初始簇中心;然后,利用自定义的聚类层对提取的负荷特征进行软分布;最后,为防止扭曲嵌入空间,将聚类损失和重构损失相结合作为损失函数联合优化,得到最终的聚类结果。算例分析以美国加州大学欧文分校(University of California Irvine,UCI)提出的数据集中的葡萄牙居民用户实际采集数据为研究对象,通过戴维森堡丁指数(Davies-Bouldin index,DBI),CH分数(Calinski-Harabaz index,CHI),轮廓系数(Silhouette coefficient,SC)这3个聚类指标进行定量分析,并通过t分布随机邻域嵌入(t-distributed stochastic neighborhood embedding,TSNE)进行可视化分析。试验结果表明,相较于传统的K-means、主成分分析法(principal components analysis,PCA)+K-means,该方法聚类指标有大幅度提升。对比基于局部结构保留的深度嵌入聚类(improved deep embedded clustering,IDEC),基于一维卷积的深度嵌入聚类(deep embedding clustering method based on one dimensional convolutional auto-encoder,DEC-1D-CAE)和1D-CAE+K-means,所提方法的DBI分别降低了约0.15、0.08和1.50,CHI提高了约19384.92、12488.48和36485.72,SC提高了约0.10、0.05和0.63。