一种改进的距离度量的聚类算法被引量：3

An improved distance metric clustering algorithm

下载PDF

导出

摘要针对传统的K均值聚类分析,不考虑对象中每个变量在聚类过程中体现作用的不同,而是统一看待,用这样计算的距离来表示两个对象的相似度并不确切。文中提出了一种基于距离度量的聚类算法,算法使用新的距离度量代替了K均值聚类算法的欧式距离,应用新的距离度量之后,数据点的权重不再只为1或0,而是由系数来确定,这就将硬划分转化为软划分。最后经过实验证明了改进的聚类算法比传统的K均值聚类收敛速度有了很大提高,提高了算法的执行效率。 Traditional K-means clustering analysis does not consider the different objects in each variable to reflect the role of the clustering process, but a unified look at the distance calculated in this way to represent the similarity between two objects is not exact. This paper presents a clustering algorithm based on distance metric, the algorithm uses a new distance metric instead of Euclidean distance of the K-means clustering algorithm, and apply the new distance measure, the data points in the right weight is no longer only for 1 or 0, while determinect by the coefficient, which will be hard to divide into soft division. The experiments show that the improved clustering algorithm has been greatly improved convergence rate than the traditional K-means clustering to improve the efficiency of the implementation of the algorithm.

作者李健森白万民

机构地区西安工业大学

出处《电子设计工程》 2012年第22期86-88,共3页 Electronic Design Engineering

关键词数据挖掘算法欧氏距离 K均值聚类分析 data mining algorithm Euclidean distance K-means clustering analysis

分类号 TP302 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献8

1赵立平.电了商务概论[M].上海:复旦大学出版社,2000.
2夏惠芬,董卫民.基于关联规则的Web挖掘技术研究[J].现代电子技术,2011,34(16):100-102. 被引量：4
3乔智勇,刘志镜.Web数据挖掘系统的设计及实现研究[J].计算机工程与设计,2002,23(7):36-38. 被引量：17
4高阳.中国数据挖掘研究进展[J].南京大学学报（自然科学版）,2011,47(4):351-353. 被引量：27
5丁金龙.基于Web数据挖掘技术下的个性化信息服务[J].现代情报,2010,30(3):67-70. 被引量：4
6Martin Gaedke,Klaus Turowski. Integrating Web-based e- commerce applications with business application systems[J]. Netnomics, 2000:98-100.
7Schafer J B,Konstan J A,Riedl J. E-Commerce recommen- dation applications[J]. Data Mining and Knowledge Discovery, 2001:32-35.
8Ordonez C,Ezquerra N,Santana C A. Constraining and sum- marizing association rules in medical data[J]. Knowledge and Information Systems, 2005:76-78.

二级参考文献27

1赵红霞,赵玉梅.Web数据挖掘在电子商务中的应用[J].华南金融电脑,2004,12(11):96-99. 被引量：10
2张淼,张国鹏.个性化远程教育平台的研究与实现[J].计算机时代,2004(8):36-37. 被引量：6
3郭岩,白硕,于满泉.Web使用信息挖掘综述[J].计算机科学,2005,32(1):1-7. 被引量：50
4杨小平.利用数据挖掘提升Internet个性化服务[J].统计与决策,2005,21(09X):130-131. 被引量：4
5王中海.基于Web的数据挖掘——网络挖掘[J].图书馆学刊,2006,28(3):35-36. 被引量：3
6潘有能.基于XML的Web日志挖掘研究[J].现代图书情报技术,2006(5):62-64. 被引量：2
7韩家炜.数据挖掘概念与技术[M].范明,孟小峰,译.北京:机械工业出版社,2006.
8[1]Steve Lawrence, Lee Giles C. Searching the World Wide Web [J]. Science. 1998,280:98-100.
9[2]Steve Lawrence, Lee GilesC. Accessibility of Information on the Web [J]. Nature. 1999,400:107-109.
10[3]http://www.eefind.com[EB].

共引文献48

1唐建国,胡芒谷.Web数据挖掘对Web数据检索的支持作用[J].情报学报,2004,23(4):452-455. 被引量：4
2魏刚.基层银行反洗钱工作存在的问题及建议[J].理论观察,2005(5):163-164. 被引量：3
3彭曙蓉,王耀南,杨文忠.基于马尔可夫链的Web访问序列挖掘算法[J].计算机工程与设计,2006,27(2):332-334. 被引量：4
4薛鸿民.Web数据挖掘技术研究[J].现代电子技术,2006,29(15):99-101. 被引量：13
5刘炜,陈俊杰.一种Web使用模式挖掘模型的设计[J].计算机应用研究,2007,24(3):184-186. 被引量：6
6明德廷,李娟,尹怡欣.基于Web Service的数据挖掘系统的研究与应用[J].计算机工程与设计,2007,28(9):1995-1997. 被引量：7
7李欣苗,张朋柱,张兴学.团队创新信息关系的自动识别方法及其应用[J].管理科学学报,2007,10(5):28-39. 被引量：8
8马辉民,王超一,方轶.B2C电子商务网站商品信息搜索系统研究[J].武汉理工大学学报（信息与管理工程版）,2008,30(1):121-123. 被引量：1
9张贵红.Web使用模式挖掘技术[J].黑龙江科技信息,2008(6):65-65.
10李娟,董军.Web数据挖掘技术综述[J].南京工业职业技术学院学报,2008,8(2):55-57. 被引量：4

同被引文献42

1葛少云,尹页秀,于建成,刘昱.开发小区中压配电网规划[J].中国电力,2003,36(z1):1-5. 被引量：12
2王成山,魏海洋,肖峻,谢莹华,王凯军.变电站选址定容两阶段优化规划方法[J].电力系统自动化,2005,29(4):62-66. 被引量：62
3马文胜,任建锋,夏云.基于粒子群算法的变电站电压无功综合控制[J].中国电力,2006,39(4):24-28. 被引量：3
4刘自发,张建华.基于改进多组织粒子群体优化算法的配电网络变电站选址定容[J].中国电机工程学报,2007,27(1):105-111. 被引量：68
5李金超,李庚银,牛东晓,李金颖.基于改进BP神经网络的配电变电站选址研究[J].华东电力,2007,35(3):10-12. 被引量：8
6牛卫平,刘自发,张建华,闫景信.基于GIS和微分进化算法的变电站选址及定容[J].电力系统自动化,2007,31(18):82-86. 被引量：30
7闫丽梅,许爱华,任爽,陈娟.一种变电站选址的新方法[J].高电压技术,2007,33(9):75-79. 被引量：16
8TanPN,SteinbachM,KumarV.数据挖掘导论[M].范明,范宏建,译.北京:人民邮电出版社.2011.
9Watts D J, Strogatz S H. Collective dynamics of 'small- world' networks [ J ]. Nature, 1998,393 (6684) :440.
10TanPN,SteinbachM,KumarVipin.范明,范宏建等译.数据挖掘导论.北京:人民邮电出版社,2011.

引证文献3

1李小娇,马吉明,张向梅.一种具有分类细化功能的垃圾语言识别方法[J].郑州轻工业学院学报（自然科学版）,2014,29(1):94-97. 被引量：1
2林卓琼,彭显刚,刘艺,祖凯涛,林利祥.基于K-均值聚类粒子群算法的变电站定容选址[J].陕西电力,2015,43(11):60-64. 被引量：5
3丁晓琴,张德生.基于AHP和CRITIC综合赋权的K-means算法[J].计算机系统应用,2016,25(7):182-186. 被引量：16

二级引证文献22

1左宇,顾琨,李博江,李玲,杨智元,曹晖,张钢,王雨晗.基于改进K-均值聚类的电动机群聚合[J].陕西电力,2016,44(10):32-37. 被引量：3
2贺禹强,刘故帅,肖异瑶,张忠会.基于改进GA-PSO混合算法的变电站选址优化[J].电力系统保护与控制,2017,45(23):143-150. 被引量：21
3周坚,石永革,何美斌.基于A-D模型的K-means算法在通话异常客户挖掘中的应用[J].电信科学,2018,34(4):81-89. 被引量：4
4余卓立.基于全生命周期的建筑材料环保评价及可行性分析研究[J].环境科学与管理,2018,43(9):171-176.
5陈覃霞,刘盾,梁德翠.粗糙集理论和信息熵的AHP改进方法[J].计算机科学与探索,2018,12(3):484-493. 被引量：15
6朱一真,王伟,张世玉,王巍洁.吉林省27家创新主导型中药企业技术竞争力评价[J].中华医学图书情报杂志,2018,27(9):8-14. 被引量：4
7黄华花,陈景海,王圣江.多指标综合评分法优选金山开胃丸的成型工艺[J].中医药导报,2019,25(8):52-55. 被引量：7
8程杉,苏高参.基于CAPSO的含分布式电源的配电网动态重构[J].电网与清洁能源,2018,34(12):27-33. 被引量：7
9张海波,李文莉.以预测区间边界为约束的风电功率场景预测方法[J].电网与清洁能源,2018,34(12):48-52. 被引量：5
10范文杰,肖湘宁,陶顺.基于综合权重的电压暂降严重度多指标评估方法[J].电力电容器与无功补偿,2019,40(4):137-144. 被引量：11

1邱冬生.基于改进量子遗传算法的K均值聚类分析[J].硅谷,2011,4(5):19-19.
2牛征,刘吉臻,牛玉广.基于主元分析的火电厂生产过程故障检测研究[J].华北电力大学学报（自然科学版）,2005,32(4):31-35. 被引量：8
3王文俊,张军英.一种非负矩阵分解的快速方法[J].计算机工程与应用,2009,45(25):1-2. 被引量：9
4于睿,陆南.基于K均值聚类算法的位置指纹定位技术[J].信息技术,2015,39(10):185-188. 被引量：6
5牛征,刘吉臻,牛玉广.动态多主元模型故障检测方法在变工况过程中的应用[J].动力工程,2005,25(4):554-558. 被引量：18
6王秀慧,王丽珍,麻淑芳.结合语义的改进FTC文本聚类算法[J].计算机工程与设计,2014,35(2):515-519. 被引量：5
7苏凯勇,陈华.基于动态数据库的测井相分析[J].测井技术,2008,32(4):342-345. 被引量：4
8王文俊,张军英,杨利英.基于类别保留投影的基因表达数据降维方法[J].四川大学学报（工程科学版）,2009,41(6):153-157.
9李薇.基于云模型的多维关联规则研究[J].计算机光盘软件与应用,2011(2):57-58.
10田永青,杨斌,李志,朱仲英.一种关系数据库中基于云模型关联规则的提取[J].上海交通大学学报,2003,37(4):512-515. 被引量：5

电子设计工程

2012年第22期

浏览历史

内容加载中请稍等...

一种改进的距离度量的聚类算法被引量：3

参考文献8

二级参考文献27

共引文献48

同被引文献42

引证文献3

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

一种改进的距离度量的聚类算法 被引量：3

参考文献8

二级参考文献27

共引文献48

同被引文献42

引证文献3

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

一种改进的距离度量的聚类算法被引量：3