属性加权的类属型数据非模聚类被引量：7

Non-Mode Clustering of Categorical Data with Attributes Weighting

下载PDF

导出

摘要类属型数据广泛分布于生物信息学等许多应用领域,其离散取值的特点使得类属数据聚类成为统计机器学习领域一项困难的任务.当前的主流方法依赖于类属属性的模进行聚类优化和相关属性的权重计算.提出一种非模的类属型数据统计聚类方法.首先,基于新定义的相异度度量,推导了属性加权的类属数据聚类目标函数.该函数以对象与簇之间的平均距离为基础,从而避免了现有方法以模为中心导致的问题.其次,定义了一种类属型数据的软子空间聚类算法.该算法在聚类过程中根据属性取值的总体分布,而不仅限于属性的模,赋予每个属性衡量其与簇类相关程度的权重,实现自动的特征选择.在合成数据和实际应用数据集上的实验结果表明,与现有的基于模的聚类算法和基于蒙特卡罗优化的其他非模算法相比,该算法有效地提高了聚类结果的质量. While categorical data are widely used in many applications such as Bioinformatics, clustering categorical data is a difficult task in the filed of statistical machine learning due to the characteristic of the data which can only take discrete values. Typically, the mainstream methods are dependent on the mode of the categorical attributes in order to optimize the clusters and weight the relevant attributes. A non-mode approach is proposed for statistically clustering of categorical data in this paper. First, based on a newly defined dissimilarity measure, an objective function with attributes weighting is derived for categorical data clustering. The objective function is defined based on the average distance between the objects and the clusters, therefore overcomes the problems in the existing methods based on the mode category. Then, a soft-subspace clustering algorithm is proposed for clustering categorical data. In this algorithm, each attribute is assigned with weights measuring its degree of relevance to the clusters in terms of the overall distribution of categories instead of the mode category, enabling automatic feature selection during the clustering process. Experimental results carried out on some synthetic datasets and real-world datasets demonstrate that the proposed method significantly improves clustering quality.

作者陈黎飞郭躬德

机构地区福建师范大学数学与计算机科学学院

出处《软件学报》 EI CSCD 北大核心 2013年第11期2628-2641,共14页 Journal of Software

基金国家自然科学基金(61175123)

关键词聚类类属型数据模属性加权 clustering categorical data mode attribute weighting

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献3

1皋军,王士同.具有特征排序功能的鲁棒性模糊聚类方法[J].自动化学报,2009,35(2):145-153. 被引量：16
2孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1108
3梁吉业,白亮,曹付元.基于新的距离度量的K-Modes聚类算法[J].计算机研究与发展,2010,47(10):1749-1755. 被引量：49

二级参考文献32

1沈红斌,王士同,吴小俊.离群模糊核聚类算法[J].软件学报,2004,15(7):1021-1029. 被引量：37
2于剑,李翠霞.Novel Cluster Validity Index for FCM Algorithm[J].Journal of Computer Science & Technology,2006,21(1):137-140. 被引量：6
3李洁,高新波,焦李成.基于特征加权的模糊聚类新算法[J].电子学报,2006,34(1):89-92. 被引量：117
4陈宗海,文锋,聂建斌,吴晓曙.基于节点生长k-均值聚类算法的强化学习方法[J].计算机研究与发展,2006,43(4):661-666. 被引量：13
5YANG Chunmei,WAN Baikun,GAO Xiaofeng.Selections of data preprocessing methods and similarity metrics for gene cluster analysis[J].Progress in Natural Science:Materials International,2006,16(6):607-613. 被引量：4
6王丽娟,关守义,王晓龙,王熙照.基于属性权重的Fuzzy C Mean算法[J].计算机学报,2006,29(10):1797-1803. 被引量：47
7Han Jiawei,Kamber M.Data Mining Concepts and Techniques[M].San Francisco:Morgan Kaufmann,2001.
8Brendan J F,Delbert D.Clustering by passing messages between data points[J].Science,2007,315(16):972-976.
9Zhang Jiangshe,Liang Yiuwing.Improved possibilistic c-means clustering algorithms[J].IEEE Trans on Fuzzy Systems,2004,12(2):209-217.
10Mac Q J.Some methods for classification and analysis of multivariate observation[C]//Proc of the 5th Berkley Symp on Mathematical Statistics and Probability.Berkley,California:University of California Press,1967:281-297.

共引文献1163

1丁小军,陈杰,李霖,徐碧通,朱晓姝.一种基于聚类结果稳定性来确定聚类数的方法[J].玉林师范学院学报,2020(3):43-47. 被引量：2
2王玥,李文权,梁爽,余静财.基于改进聚类算法的共享汽车网点选址研究[J].武汉理工大学学报,2021,43(2):79-85. 被引量：1
3林耿堃,盛积良.乡村振兴时代背景下农民消费结构变迁研究[J].农业农村部管理干部学院学报,2021(2):76-81. 被引量：3
4高显义,林欣晖.基于文本聚类的变电工程变更特征识别研究[J].建筑经济,2020,41(S02):200-203. 被引量：3
5毛颖颖,杨新凯.融合拓扑势的自适应层次聚类算法研究[J].计算机应用研究,2020,37(S01):37-39.
6张睿恺,吴克河.基于优化特征集的LeNet-5攻击检测模型的态势感知技术[J].计算机应用研究,2020,37(S01):287-289. 被引量：4
7李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
8尧少波,蒋励剑,赵文文,卢铮,吴昌聚,陈伟芳.耦合聚类的数据驱动稀薄流非线性本构计算方法[J].航空学报,2022,43(S02):43-56. 被引量：1
9段桂芹.基于改进密度的簇内均值最小距离聚类算法[J].智能计算机与应用,2021,11(12):82-86. 被引量：2
10何睿,余娜,李淼,张峻巍,王浩杰,赵玉茗.基于单细胞RNA测序数据的细胞类型聚类算法[J].智能计算机与应用,2020,10(7):104-108. 被引量：3

同被引文献48

1ALPAYDIN E.机器学习导论[M].北京:机械工业出版社,2009:245-251.
2Roiger R J,Geatz M W.数据挖掘教程[M].翁敬农,译.北京:清华大学出版社,2003.
3孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1108
4GETHSIYAL AUGASTA M, KATHIRVALAVAKUMAR T. A new discretization algorithm based on range coefficient of dispersion and skewers for neural networks classifier [ J]. Applied Soft Computing, 2012, 12(2): 619-625.
5WONG T-T. A hybrid discretization method for naive Bayesian c/as- sifiers [ J]. Pattern Recognition, 2012, 45(6) : 2321 - 2325.
6HUANG W, PAN Y, WU J. Supervised discretization with GK-t [ J]. Procedia Computer Science, 2013, 17:114 -120.
7FERREIRA A J, FERREIRA A J. An unsupervised approach to feature discretization and selection [J]. Pattern Recognition, 2012, 45(9): 3048 -3060.
8GUPTA A, MEHROTRAB K G, MOHANB C. A clustering-based discretization for supervised learning [ J]. Statistics and Probability Letters, 2010, 80(9): 816-824.
9CHEN S, TANG L, LIU W, et al. An improved method of disereti- zation of continuous attributes [ J]. Procedia Environmental Sci- ences, 2011, 11(A) : 213 -217.
10MONTALVAO J, CANUTOB J. Clustering ensembles and space dis- cretizatiou--a new regard toward diversity and consensus [ J]. Pat- tern Recognition Letters, 2010, 15(1) : 2415 -2424.

引证文献7

1陶刚,闫永刚,刘俊,邹娇.基于改进的SOM聚类连续属性离散化算法[J].计算机应用,2015,35(A01):89-92. 被引量：7
2张豪,陈黎飞,郭躬德.基于符号熵的序列相似性度量方法[J].计算机工程,2016,42(5):201-206. 被引量：6
3赵兴旺,梁吉业.一种基于信息熵的混合数据属性加权聚类算法[J].计算机研究与发展,2016,53(5):1018-1028. 被引量：45
4朱杰,陈黎飞.类属数据的贝叶斯聚类算法[J].计算机应用,2017,37(4):1026-1031. 被引量：2
5赵谦,陈云翔.基于一致性修正的多属性大群体决策方法[J].火力与指挥控制,2018,43(1):32-36. 被引量：1
6安宁,江思源,唐晨,杨矫云.融合单纯形映射与熵加权的聚类方法[J].计算机工程与应用,2020,56(9):148-155. 被引量：4
7李顺勇,崔文秀,荆鹏霏.一种基于信息熵的加权聚类算法[J].云南民族大学学报（自然科学版）,2020,29(6):568-576. 被引量：4

二级引证文献68

1冯建英,石岩,王博,穆维松.基于聚类分析的数据挖掘技术及其农业应用研究进展[J].农业机械学报,2022,53(S01):201-212. 被引量：21
2权振亚,沈丽虹,赵富强.基于内禀尺度分量符号熵和ANNC的齿轮故障诊断方法[J].机械强度,2020,42(1):29-35. 被引量：3
3岳金柱,王德来.对易县“两山”划分和“四荒”拍卖的思考[J].河北林果研究,2000,15(1):20-23. 被引量：3
4詹益旺,胡斌杰.基于DVTD的移动用户出行模式识别研究[J].计算机工程,2016,42(7):72-76. 被引量：2
5梁吉业,钱宇华,李德玉,胡清华.面向大数据的粒计算理论与方法研究进展[J].大数据,2016,2(4):13-23. 被引量：16
6张晶,陈垚,范洪博,孙俊.基于信息物理融合系统执行器输出事件的价值评价调度策略[J].计算机应用,2017,37(6):1663-1669. 被引量：1
7孙林,刘弱南,张霄雨,孙印杰,宋黎明.一种基于粗糙均方残基的模糊双聚类方法[J].河南师范大学学报（自然科学版）,2017,45(5):93-100. 被引量：4
8王鸿超,曲婉嘉,徐忠林,刘颖.基于情报融合的雷达毁伤效果评估[J].战术导弹技术,2017(3):104-112.
9李艳,张庆,田苏慧敏.改进的数据挖掘模糊聚类算法研究与分析[J].宁夏师范学院学报,2018,39(1):36-47. 被引量：2
10杨旭华,朱钦鹏,童长飞.基于Laplacian中心性的密度聚类算法[J].计算机科学,2018,45(1):292-296. 被引量：2

1朱杰,陈黎飞.类属数据的贝叶斯聚类算法[J].计算机应用,2017,37(4):1026-1031. 被引量：2
2冯新营,计华,张化祥.基于聚类优化的RBF神经网络多标记学习算法[J].山东大学学报（理学版）,2012,47(5):63-67. 被引量：2
3贾宗维,崔军,于慧娟.基于相异度度量的图聚类方法[J].山西农业大学学报（自然科学版）,2009,29(3):284-288. 被引量：2
4曹晓霞.基于聚类优化的模糊OLAP查询技术研究[J].杭州电子科技大学学报（自然科学版）,2013,33(1):48-51.
5徐小良,陈金奎,吴优.基于聚类优化的Web服务发现方法[J].计算机工程,2011,37(9):68-70. 被引量：9
6李洁,高新波,焦李成.一种基于修正划分模糊度的聚类有效性函数[J].系统工程与电子技术,2005,27(4):723-726. 被引量：8
7张丽,刘希玉,李章泉.基于蚁群算法的聚类优化[J].计算机工程,2010,36(9):190-191. 被引量：10
8张丽,刘希玉.基于微粒群算法的聚类算法改进[J].计算机技术与发展,2010,20(11):126-129.
9侯迪波,周泽魁.能处理定性参数输入的推广模糊神经网络软测量建模方法[J].传感技术学报,2006,19(3):895-899. 被引量：1
10王小黎.图聚类的相异度度量方法研究[J].光盘技术,2009(2):38-39.

软件学报

2013年第11期

浏览历史

内容加载中请稍等...

属性加权的类属型数据非模聚类被引量：7

参考文献3

二级参考文献32

共引文献1163

同被引文献48

引证文献7

二级引证文献68

相关作者

相关机构

相关主题

浏览历史

属性加权的类属型数据非模聚类 被引量：7

参考文献3

二级参考文献32

共引文献1163

同被引文献48

引证文献7

二级引证文献68

相关作者

相关机构

相关主题

浏览历史

属性加权的类属型数据非模聚类被引量：7