离群数据规则挖掘的决策树构造方法

Decision tree construction method for outliers rule mining

下载PDF

导出

摘要提出了一种针对离群数据规则挖掘的决策树构造方法。通过给出一个平均致密度的新定义和对离群数据产生机制的深入分析,提出离群数据的致密度往往比正常样本数据高的新认识,指出离群数据本质上也是不平衡数据,基于此提出了一种自动标记离群数据的新算法,并进一步在该算法和C4.5算法部分功能的基础上提出了一种基于离群数据自动标记的模糊决策树构造方法。仿真实验结果表明,该方法具有高效的离群数据规则挖掘能力,能处理不平衡数据,优化决策树的结构,挖掘出更高信任度的规则,有一定的实用价值。 A new decision tree construction method for outliers rule mining is presented. By studying the producing mechanism of outliers, a definition of average denseness for data distribution is given, the higher density ofoutliers than that of normal data is pointed out, and the outliers is essentially imbalanced data, too. Based on the above, an auto-tagging outliers ALTO algorithm is given. Further, an ATO-based fuzzy decision tree generation method FDTM is proposed, which constructs the decision tree by the form tree function of C4.5 finally. Experimental results demonstrate that the FDTM outperforms the C4.5 at the aspects ofthe efficiency of outliers rule mining, the confidence of the mining rules, the capability of tackling the imbalanced data and optimizing the construction of the decision tree.

作者王瑞伟李志华

机构地区江南大学信息工程学院

出处《计算机工程与设计》 CSCD 北大核心 2011年第5期1781-1784,共4页 Computer Engineering and Design

关键词离群数据平均致密度覆盖决策树规则挖掘 outliers average denseness cover decision tree rule mining

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献11

1徐翔,刘建伟,罗雄麟.离群点挖掘研究[J].计算机应用研究,2009,26(1):34-40. 被引量：27
2张宁.离群点检测算法研究[J].桂林电子科技大学学报,2009,29(1):22-25. 被引量：5
3沈红斌,王士同,吴小俊.离群模糊核聚类算法[J].软件学报,2004,15(7):1021-1029. 被引量：37
4栾丽华,吉根林.决策树分类技术研究[J].计算机工程,2004,30(9):94-96. 被引量：129
5李志华,王士同.基于离群聚类的异常入侵检测研究[J].系统工程与电子技术,2009,31(5):1227-1230. 被引量：2
6张启蕊,张凌,董守斌,谭景华.训练集类别分布对文本分类的影响[J].清华大学学报（自然科学版）,2005,45(S1):1802-1805. 被引量：27
7叶志飞,文益民,吕宝粮.不平衡分类问题研究综述[J].智能系统学报,2009,4(2):148-156. 被引量：74
8林智勇,郝志峰,杨晓伟.不平衡数据分类的研究现状[J].计算机应用研究,2008,25(2):332-336. 被引量：46
9周荃,王崇骏,王王君,陈世福.PC4.5:用于不均衡数据集的C4.5改进算法[J].计算机辅助工程,2006,15(3):23-26. 被引量：2
10鲍翠梅.基于主动学习的加权支持向量机的分类[J].计算机工程与设计,2009,30(4):966-970. 被引量：3

二级参考文献179

1张启蕊,张凌,董守斌,谭景华.训练集类别分布对文本分类的影响[J].清华大学学报（自然科学版）,2005,45(S1):1802-1805. 被引量：27
2庄东,陈英.基于加权近似支持向量机的文本分类[J].清华大学学报（自然科学版）,2005,45(S1):1787-1790. 被引量：16
3Zheng Binxiang,Du Xiuhua & Xi Yugeng Institute of Automation, Shanghai Jiaotong University,Shanghai 200030,P.R.China.Outliers Mining in Time Series Data Sets[J].Journal of Systems Engineering and Electronics,2002,13(1):93-97. 被引量：3
4沈红斌,王士同,吴小俊.离群模糊核聚类算法[J].软件学报,2004,15(7):1021-1029. 被引量：37
5贾银山,贾传荧.一种加权支持向量机分类算法[J].计算机工程,2005,31(12):23-25. 被引量：20
6邓赵红,王士同.鲁棒性的模糊聚类神经网络[J].软件学报,2005,16(8):1415-1422. 被引量：11
7王勇,高亮,杨辉华.网络入侵异常检测的实时方法[J].桂林电子工业学院学报,2005,25(5):1-5. 被引量：4
8李勇国,田大钢.数据库营销响应建模的一种新的数据挖掘方法[J].桂林电子工业学院学报,2005,25(5):23-26. 被引量：5
9陆介平,倪巍伟,孙志挥.基于关联分析的高维空间异常点发现[J].应用科学学报,2006,24(1):60-63. 被引量：2
10段丹青,陈松乔,杨卫平.网络入侵检测中的支持向量机主动学习算法[J].计算机工程与应用,2006,42(1):117-119. 被引量：5

共引文献337

1罗丹.一种基于多维高斯云模型的过采样方法[J].周口师范学院学报,2020(2):104-107. 被引量：1
2陈超,赫春晓.一种基于二叉决策树的植被分类方法研究[J].现代测绘,2019,0(5):28-31.
3高子寒,宋燕.基于边界增强和去噪的自适应双权重过采样方法研究[J].智能计算机与应用,2022,12(1):58-64. 被引量：1
4冯泽磊,吴美凤.动态浮箱数据清洗方法在电力系统中的应用[J].发电技术,2019,40(S1):109-113. 被引量：5
5吕佳,熊浩.一种新城市气温模式分类的聚类算法[J].数学的实践与认识,2007,37(8):55-60.
6张伟.数据挖掘中的ID3算法研究与实现[J].软件导刊,2010,9(5):176-178. 被引量：2
7贾志洋,高炜,王勇刚.结合信息检索技术的半监督文本分类方法[J].苏州大学学报（自然科学版）,2012,28(1):34-39. 被引量：1
8赵小明,孙晓璇,李攀,胡绍波.基于决策树分类算法的平行志愿填报及研究[J].思想战线,2010,36(S1):348-351. 被引量：2
9李剑波.数据挖掘技术在高校贫困生综合评价中的应用[J].商业文化（学术版）,2009,0(7):299-301. 被引量：5
10沈红斌,杨杰,王士同,陈宁江.采样定理、视觉原理及无监督聚类分析理论[J].上海交通大学学报,2005,39(4):544-548. 被引量：3

1陈赫贝,王念桥.XMLSchema与DTD的比较及应用[J].微机发展,2004,14(1):66-68. 被引量：3
2张元.基于分水岭变换的高分辨率遥感图像分割[J].黑龙江工程学院学报,2015,29(3):16-18.
3孙宁,肖国强,杨恒,邱开金.压缩域中基于自动标记的图像分割[J].计算机工程与应用,2012,48(23):168-172. 被引量：1
4张胜男,苑玮琦.圆阵列平面靶标特征点的自动标记[J].计算机工程与应用,2016,52(5):169-172. 被引量：1
5周冬初,鞠凤娟,郭东珲.基于Struts2框架校验数据及整合正则表达式的实现方法[J].计算机与现代化,2011(1):85-87. 被引量：4
6李士进,陶剑,万定生,冯钧.多分类器实例协同训练遥感图像检索[J].遥感学报,2010,14(3):493-506. 被引量：10
7吴洁.可视化的数据标准化转换系统的设计与研究[J].计算机与现代化,2009(8):80-83. 被引量：4
8杜志文,曾文华.网格计算在文本分类中的应用[J].微电子学与计算机,2006,23(z1):221-222.
9王明佳,王延杰,张旭光.利用邻域象素合成实现对目标的快速自动标记[J].微型机与应用,2005,24(9):49-51. 被引量：1
10徐怡,李龙澍,李学俊.基于SOFM和遗传算法的定量数据规则提取[J].系统工程理论与实践,2008,28(7):150-154.

计算机工程与设计

2011年第5期

浏览历史

内容加载中请稍等...

离群数据规则挖掘的决策树构造方法

参考文献11

二级参考文献179

共引文献337

相关作者

相关机构

相关主题

浏览历史