基于改进聚类算法的多维数据异常点挖掘研究

Research on Multi-dimensional Data Outlier Mining Based on Improved Clustering Algorithm

下载PDF

导出

摘要为精准识别数据异常点,提高对多维数据的利用率,基于改进聚类算法的应用,以多维数据为例,开展异常点挖掘方法的设计研究。获取数据挖掘中的自相关函数,结合数据之间的相似数据,进行其属性分布排列处理,提取多维数据关联特征;将提取到的多维数据关联特征进行语义规则聚类,突出多维数据中的异常点;引进基于云分段熵值的辨识方法,基于极值(多维数据的最大值、最小值)挖掘异常数据点。对比实验结果表明,设计的方法不仅可以挖掘多维数据异常点,还能在确保多维数据异常点特征数量挖掘与实际值高度一致的基础上,确保数据挖掘结果不会受到数据量增加的影响。 In order to achieve accurate identification of data outliers and improve the utilization of multidimensional data,based on the application of improved clustering algorithms,this study focuses on the design and research of outlier mining methods using multidimensional data as an example.Obtain autocorrelation functions in data mining,combine similar data between them,arrange their attribute distributions,and extract multidimensional data association features;Perform semantic rule clustering on the extracted multidimensional data associated features to highlight outliers in the multidimensional data;Introduce an identification method based on cloud segmentation entropy value,and use extreme values(maximum and minimum values of multidimensional data)to mine abnormal data points.The comparative experimental results show that the designed method can not only achieve the mining of multi-dimensional data outliers,but also ensure that the feature quantity of multidimensional data outliers is highly consistent with the actual values,and ensure that the data mining results are not affected by the increase in data volume.

作者武江毅 WU Jiangyi(Sichuan Vocational and Technical College of Chemical Industry,Luzhou,Sichuan 646300,China)

机构地区四川化工职业技术学院

出处《智能物联技术》 2025年第4期50-55,共6页 Technology of Io T& AI

关键词改进聚类算法关联特征提取挖掘方法特征聚类异常点多维数据 improved clustering algorithm association feature extraction mining methods feature clustering outlier points multidimensional data

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献18

1张旭,张超,詹银虎,毛庆洲.基于星点位置预测的线阵全站仪天文测量异常数据剔除方法[J].测绘学报,2023,52(4):571-578. 被引量：10
2高勃,柴学科,朱明皓.基于MOPSO算法改进的异常点检测方法[J].计算机集成制造系统,2024,30(7):2319-2327. 被引量：4
3侯立,杨成佳.船舶通信网络异常数据自动检测和剔除方法[J].舰船科学技术,2023,45(19):173-176. 被引量：4
4魏泰,贺少雄,胡子武,曹立新.基于改进孤立森林算法的风电机组异常数据清洗[J].科学技术与工程,2024,24(9):3691-3699. 被引量：13
5李特,王荣喜,高建民.风电机组数据采集与监控系统异常数据识别方法[J].西安交通大学学报,2024,58(3):106-116. 被引量：22
6张志厚,刘慰心,石泽玉,张健,路润琪,谢小国,徐正宣,张天一.低纬度磁异常的初始模型约束全卷积神经网络化极方法[J].地球物理学报,2023,66(1):412-429. 被引量：4
7黄晓地,朱晓曦,吴淑慧,胡中峰.基于集体离群点挖掘的城市交通异常检测研究[J].合肥工业大学学报（自然科学版）,2023,46(9):1237-1246. 被引量：5
8佟哲,周阳,顾飞,朱兴龙,李伟,王勇.基于压力载荷谱的挖掘机行走液压系统液压泵异常检测方法[J].机床与液压,2024,52(16):233-239. 被引量：6
9胡诗苑,高金良,钟丹,武睿,刘路明.供水管网流量监测数据异常值检测方法对比分析[J].中国给水排水,2024,40(3):53-59. 被引量：5
10蒲黔辉,张子怡,肖图刚,洪彧,文旭光.基于时间序列压缩分割的监测数据异常识别算法研究[J].桥梁建设,2024,54(3):15-23. 被引量：15

二级参考文献189

1冯斌,张又文,唐昕,郭创新,王坚俊,杨强,王慧芳.基于BiLSTM-Attention神经网络的电力设备缺陷文本挖掘[J].中国电机工程学报,2020,40(S01):1-10. 被引量：67
2王晓玲,谢怀宇,王佳俊,陈文龙,蔡志坚,刘宗显.基于Bootstrap和ICS-MKELM算法的大坝变形预测[J].水力发电学报,2020,39(3):106-120. 被引量：39
3陈树文.高炉专家系统在太钢高炉的应用[J].山西冶金,2019,0(6):117-119. 被引量：6
4陆晓蕾,倪斌.基于预训练语言模型的BERT-CNN多层级专利分类研究[J].中文信息学报,2021,35(11):70-79. 被引量：29
5邹同华,高云鹏,伊慧娟,徐长宝,夏睿,吴聪.基于Thompson tau-四分位和多点插值的风电功率异常数据处理[J].电力系统自动化,2020(15):156-165. 被引量：53
6张旭,张超,时春霖,詹银虎,王若璞.图像全站仪相机的一种快速标定方法[J].测绘科学,2022,47(7):53-59. 被引量：4
7方迎尧,张培琴,刘浩军.低磁纬度地区ΔT异常解释的途径与方法[J].物探与化探,2006,30(1):48-54. 被引量：31
8周大镯,李敏强.基于序列重要点的时间序列分割[J].计算机工程,2008,34(23):14-16. 被引量：28
9周董,刘鹏.VDBSCAN:变密度聚类算法[J].计算机工程与应用,2009,45(11):137-141. 被引量：22
10夏鲁宁,荆继武.SA-DBSCAN:一种自适应基于密度聚类算法[J].中国科学院研究生院学报,2009,26(4):530-538. 被引量：84

共引文献130

1靳维,刘舒,王业宁,梁睿.室内变压器多物理场模型建立及异常油温修正实验[J].实验技术与管理,2023,40(10):111-118. 被引量：4
2李金花.基于关联规则的医院内部审计异常信息挖掘方法[J].信息与电脑,2023,35(21):211-213. 被引量：2
3曾霞,宋一鸣,康利娟.基于大数据技术的无线传感网络异常节点深度挖掘方法[J].信息与电脑,2024,36(5):178-180. 被引量：1
4张旭,毛庆洲,时春霖,胡庆武,金光,周昊,谢亦.基于2.5D标定扇的线阵相机内参数标定方法[J].红外与激光工程,2024,53(4):172-182. 被引量：2
5刘韵艺,汤渊,苏盛,吴裕宙,王晓倩.基于STL-Bayesian时空模型的分布式光伏系统异常检测[J].中国电力,2024,57(5):222-231. 被引量：6
6何远景,李光龙.基于LLM的金融市场波动率高频数据异常检测方法[J].常熟理工学院学报,2024,38(2):89-94.
7岳雯,王建,王凯轩,刘自圣,闫硕杰,彭雅萱.利用数据流进行供水二次管网的漏损控制技术分析[J].北方建筑,2024,9(4):77-82. 被引量：1
8卢冠华,余涛,吴毓峰,潘振宁,陈俊斌,邓柏荣.基于MAGAT的风电场功率缺失数据填充方法[J].电网技术,2024,48(8):3391-3400. 被引量：2
9何乐乐.全站仪导线测量方法优化及应用效果分析[J].西部探矿工程,2024,36(9):164-166. 被引量：1
10WAN Xin-ei,SI Zhan-jun.Improved YOLOv8s-Based Night Vehicle Detection[J].印刷与数字媒体技术研究,2024(4):76-85. 被引量：1

1杨雯婷,林剑.基于MINFLUX超分辨成像与改进聚类算法的突触纳米结构解析[J].建模与仿真,2025,14(4):628-637.
2刘士李,赵迎迎,陈付雷,沈磊,施晓敏.基于改进聚类算法的电力工程数据识别与标记方法研究[J].微型电脑应用,2025,41(4):93-97.
3杨隆浩,陈江鸿,叶菲菲,王应明.基于规则聚类和参数学习的扩展置信规则库推理模型[J].控制与决策,2024,39(8):2685-2693. 被引量：5
4苏卫江,王鹏,姚凌峰.基于奇异值分解的含新能源电力系统状态自动化监测系统[J].电子设计工程,2025,33(16):173-177.
5陈建林,吴丽娟,孙文魁.基于聚类算法的智能辅助竞赛系统设计研究[J].自动化与仪器仪表,2025(5):202-206.
6赵兴华,张智博,朱国勤,吴拼,方元政,姚运仕,于树源.基于多尺度半监督模型的电机轴承故障诊断[J].机械制造与自动化,2025,54(4):68-72.
7宋巍,丁水鑫,董明媚,岳心阳,杨扬,张文博.基于曲线拟合和动态阈值的海洋数据异常检测方法[J].海洋科学进展,2025,43(3):510-522.
8孙鹏麒,胡家祯,黄小华,孙佳龙,李根,陶启友,袁太平,庞国良,胡昱.基于YOLO的养殖鱼群全向声呐实时监测方法研究与应用[J].中国水产科学,2025,32(3):409-419. 被引量：2
9廖姗,邓紫薇,魏文璇,刘丙龙,彭亚军,何泽云.基于数据挖掘和网络药理学分析何泽云教授治疗肾病综合征的用药规律及核心药对作用机制[J].中医临床研究,2025,17(11):78-84.
10徐伟,冷静.基于改进孤立森林的大规模网络入侵攻击检测研究[J].现代电子技术,2025,48(15):98-102. 被引量：1

智能物联技术

2025年第4期

浏览历史

内容加载中请稍等...

基于改进聚类算法的多维数据异常点挖掘研究

参考文献18

二级参考文献189

共引文献130

相关作者

相关机构

相关主题

浏览历史