k-均值聚类在高维大数据上的高效算法研究进展

Recent Advances in Efficient Algorithms for k-Means Clustering on High-dimensional Big Data

下载PDF

导出

摘要聚类是机器学习中的经典任务,旨在根据相似度度量将数据划分为若干簇。k-均值聚类作为最基本的聚类模型,自提出以来已被深入研究并在众多领域得到广泛应用。聚焦k-均值模型的求解问题,从理论计算机科学的视角出发,介绍k-均值的(接近)线性时间的快速近似算法的研究进展。此外,简要讨论其他相关大数据计算模型中的聚类算法的相关进展,包括动态、数据流与并行计算等计算模型。 Clustering is a classic task in machine learning.The goal of clustering is to partition data points into groups,with respect to a similarity measure.As one of the most fundamental models for clustering,k-means has been extensively studied and widely applied.This paper focuses on the computational issue of solving k-means efficiently,and discusses the progress of(near-)linear time approximation algorithms for k-means,from the perspective of theoretical computer science.It also briefly discusses the status of clustering algorithms in various big data computational models,including dynamic,streaming and distributed computing.

作者高贵晨姜少峰 GAO Guichen;JIANG Shaofeng(School of Computer Science,Peking University,Beijing 100871,China)

机构地区北京大学计算机学院

出处《计算机科学》北大核心 2026年第4期24-32,共9页 Computer Science

基金国家自然科学基金(62572006)。

关键词 K-均值欧氏空间近线性时间算法亚线性算法 k-means Euclidean spaces Near-linear time algorithms Sublinear algorithms

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

1王敏,张文健,吴云顺.基于PPELT算法的多维时间序列变点检测[J].统计与决策,2025,41(23):61-67.
2曹志刚.经济学与运筹学的交叉:一个值得更加关注的研究领域[J].中国经济学,2022(3):254-256.
3张金良,刘一硕.基于NSGA-Ⅲ算法的氢能产业园区多能联供系统低碳经济调度[J].太阳能学报,2026,47(3):564-574.
4蔡满乐,何伟骅.基于电阻距离的图和复杂网络的相似度问题研究[J].应用数学进展,2024,13(4):1585-1598.
5徐正,曹建成,方世杰.基于数据的核电采购用户画像及卓越绩效管理探索[J].中国核电,2025,18(4):483-492.
6彭章,陆瑶,牛美龄,周欣怡.基于机器学习的公司避税预测研究[J].管理科学学报,2026,29(2):64-80.
7芦睿.基于深度学习的数字图书馆跨模态快速检索方法[J].大众科学,2026,47(3):10-12.
8王佰盛,苗世洪,谭昊宇,姚福星,张迪,李程昊.面向低穿场景的配电网大规模分布式光伏静态聚类及等值建模方法[J].太阳能学报,2026,47(3):722-731.
9李阳博,郭百恩,沈尧,杨蕾,魏育新,陈蕊丽,胡书良.基于图神经网络的赤足和穿袜足迹识别算法研究[J].计算机科学与探索,2026,20(3):773-784.
10陈蔚骏,傅育熙,龙环.向量加法系统可达性问题复杂性下界研究综述[J].软件学报,2026,37(1):1-33.

计算机科学

2026年第4期

浏览历史

内容加载中请稍等...

k-均值聚类在高维大数据上的高效算法研究进展

相关作者

相关机构

相关主题

浏览历史