数据挖掘中数据预处理关键技术研究被引量：10

Research on Data Preprocessing Key Technology in Data Mining

下载PDF

导出

摘要数据挖掘中划分训练集和测试集数据是数据预处理阶段的一个基础。实际上,训练集的选择在推导良好的分类规则方面是一个重要因素。传统的关联规则挖掘的方法是基于统计算法将数据集分成训练集和测试集。本文提出了采用遗传算法,将原始数据集分为采样集和验证集。然后采用遗传算法找到一个合适的分割将样本集分成训练集和测试集。通过实验,使用该算法得到的训练集作为关联规则挖掘算法的输入,可以产生高准确率的分类规则。 Divided into a training set and a test set of data in data mining is a basis of the data pre-processing stage. In fact, the choice of the training set is an important factor in the derivation of the good classification rules. The traditional association rule mining algorithm based on statistical data and divided into a training set and a test set. In this paper, we propose the use of genetic algorithms, the original data set is divided into sample collection validation set. Then using genetic algorithms to find an appropriate split of the sample set is divided into a training set and a test set. Experiments use the training set as association rule mining algorithm input, the algorithm can produce high accuracy classification rules.

作者解二虎

机构地区集宁师范学院计算机系

出处《科技通报》北大核心 2013年第12期211-213,共3页 Bulletin of Science and Technology

关键词预处理数据挖掘遗传算法 preconditioning data mining and genetic algorithm

分类号 TP133 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献5

1徐章艳,张师超,区玉明,卢景丽,刘美玲.挖掘关联规则中的一种优化的Apriori算法[J].计算机工程,2003,29(19):83-84. 被引量：50
2高宏宾,潘谷,黄义明.基于频繁项集特性的Apriori算法的改进[J].计算机工程与设计,2007,28(10):2273-2275. 被引量：25
3陆叶,王丽珍,张晓峰.从不确定数据集中挖掘频繁Co-location模式[J].计算机科学与探索,2009,3(6):656-664. 被引量：20
4汪中才,黎永碧.基于数据挖掘的入侵检测系统研究[J].科技通报,2012,28(8):150-152. 被引量：20
5陈莉,焦李成.基于关系代数的关联规则挖掘算法[J].西北大学学报（自然科学版）,2005,35(6):691-694. 被引量：16

二级参考文献39

1冯中毅,董海棠.一种新的频集发现算法P&FP[J].兰州交通大学学报,2004,23(6):81-84. 被引量：2
2陈莉,焦李成.基于自适应聚类的数据预处理算法I[J].计算机应用与软件,2005,22(3):28-29. 被引量：9
3何小东,刘卫国.数据挖掘中关联规则挖掘算法比较研究[J].计算机工程与设计,2005,26(5):1265-1268. 被引量：36
4黄建设.一种改进的关联规则算法探讨[J].计算机仿真,2005,22(12):72-75. 被引量：6
5刘翠娟,王保义,秦艳凯.基于项集特性的关联规则挖掘中Apriori算法的改进[J].山西电子技术,2005(6):20-22. 被引量：1
6何宏,肖建华,肖伟平.基于数组的频繁项目集的挖掘算法[J].邵阳学院学报（自然科学版）,2005,2(4):52-54. 被引量：4
7胡卫,张昌宏,吴晓平.校园网安全防火墙设计与实现[J].计算机与数字工程,2007,35(1):103-105. 被引量：4
8Shekhar S, Chawla S. Spatial databases: A tour[M]. [S.l.]: Prentice Hall, 2003.
9Shekhar S, Huang Y. Co-location rules mining: A summary of results[C]//Proc of International Symposium on Spatio and Temporal Database (SSTD), 2001.
10Huang Y, Shekhar S, Xiong H. Discovering colocation patterns from spatial data sets: A general approach[J]. IEEE Transactions on Knowledge and Data Engineering, 2004,16(12): 1472-1485.

共引文献114

1夏秀峰,张雅茜,丛丽晖,于戈.基于关联规则挖掘的一种改进Apriori算法[J].沈阳航空工业学院学报,2006,23(4):51-54. 被引量：1
2刘宏强.基于数据挖掘的冠心病发病相关因素研究分析[J].科技资讯,2008,6(10):207-208. 被引量：5
3吴磊,何嘉.基于项目集矩阵的AprioriHybral算法研究[J].成都信息工程学院学报,2009(1):43-47.
4高晓红.档案信息网络管理风险及安全防范措施[J].黑龙江档案,2006(2):8-8. 被引量：3
5高世健,王丽珍,肖清.一种基于U-AHC的不确定空间co-location模式挖掘算法[J].计算机研究与发展,2011,48(S3):60-66. 被引量：7
6肖清,陈红梅,王丽珍.基于DS理论的不确定空间co-location模式挖掘[J].云南大学学报（自然科学版）,2011,33(S2):182-187. 被引量：4
7陈洪泉,霍志凯.基于关联规则的网络入侵检测方法[J].电子科技大学学报,2009,38(S1):94-96. 被引量：4
8王华秋,王越,曹长修.基于机群结构的关联规则并行挖掘算法[J].重庆大学学报（自然科学版）,2004,27(8):92-95.
9徐章艳,刘美玲,张师超,卢景丽,区玉明.Apriori算法的三种优化方法[J].计算机工程与应用,2004,40(36):190-192. 被引量：71
10蔡卫东,徐章艳,杨炳儒.关联规则的高效向量法数据挖掘[J].济南大学学报（自然科学版）,2005,19(1):59-63. 被引量：1

同被引文献59

1姚和顺.快速原型法在医院信息系统项目中的应用[J].医学信息（医学与计算机应用）,2014,0(13):7-7. 被引量：2
2菅志刚,金旭.数据挖掘中数据预处理的研究与实现[J].计算机应用研究,2004,21(7):117-118. 被引量：57
3陆宁云,王福利,高福荣,王姝.间歇过程的统计建模与在线监测[J].自动化学报,2006,32(3):400-410. 被引量：64
4梅宏,申峻嵘.软件体系结构研究进展[J].软件学报,2006,17(6):1257-1275. 被引量：143
5王伟,王坤正,党小谦,柏传毅,王春生,时志斌,杨华清,樊立宏.中老年人人群骨关节炎的流行病学研究[J].中国老年学杂志,2007,27(6):566-568. 被引量：75
6[美]陈封能,[美]斯坦巴赫,[美]库玛尔著,范明等译.数据挖掘导论(完整版)[M].人民邮电拙版社,2011.
7Han, Micheline Karnber. Data Mining: Concepts and Tech-nique[ M ]. USA: Morgan Kaufn ann Publishers, 2001.
8JiaweiHan,MichelineKamber.数据挖掘概念与技术[M].机械工业出版社.2005.
9A Famili, et alEvangelos Simoudis. Data Preprocessing and In- telligent Data Analysis [J]. Intelligent Data Analysis, 1997, (1): 3-23.
10Roobaert.D.Direct SVM: A fast and simple support vector machine perception[].Proceedings of IEEE Signal Processing Society Workshop.2000

引证文献10

1罗锦坤.数据预处理关键技术应用研究[J].福建电脑,2014,30(3):4-6. 被引量：6
2胡秀.数据挖掘中数据预处理的研究[J].赤峰学院学报（自然科学版）,2015,31(5):5-6. 被引量：5
3张友海,李锋刚.基于Hadoop的并行化聚类系统的设计[J].赤峰学院学报（自然科学版）,2016,32(9):15-16.
4王佩,张兴平,高云,魏戌,杨伟,王浩,陈红玉.基于临床科研共享系统建立膝骨关节炎分级模型[J].中国骨伤,2018,31(6):528-533. 被引量：9
5冯宇.基于模糊规则预测模型的急性高血糖诊断[J].计算机技术与发展,2019,29(2):177-180.
6冯宇.基于张量偏最小二乘法的高维输出预测模型[J].计算机技术与发展,2019,29(7):114-118. 被引量：1
7文腾,高经纬,张兴平,高云,魏戌,王佩,王浩,陈红玉,姚晓梅.膝骨性关节炎分级预测软件的设计与开发[J].世界科学技术-中医药现代化,2019,21(5):936-942. 被引量：2
8许辉.数据挖掘中的数据预处理[J].电脑知识与技术,2022,18(4):27-28. 被引量：7
9罗卓君.基于人工智能的网络入侵检测与响应机制[J].通信电源技术,2024,41(9):196-198. 被引量：1
10陈芳,侯卓生,刘大钟.电力信息网络中差异化入侵数据挖掘方法研究[J].华东电力,2014,42(12):2672-2675. 被引量：3

二级引证文献32

1张玺,张学玲,张洪欣.基于Web日志的数据预处理方法研究[J].滨州学院学报,2014,30(6):98-104. 被引量：4
2胡秀.数据挖掘中数据预处理的研究[J].赤峰学院学报（自然科学版）,2015,31(5):5-6. 被引量：5
3李敏,刘晨,谯志.云中心海量交通数据预处理技术概述与应用实例[J].公路交通技术,2015,31(5):102-106. 被引量：2
4张琳瑜,王凤超,韩子玥.基于决策树的大学本科毕业生就业影响因素分析——以北京林业大学信息学院为例[J].中国林业教育,2017,35(2):46-51. 被引量：6
5刘瑞军.分布式环境下用户网络信息安全性检测仿真[J].计算机仿真,2017,34(8):421-424. 被引量：2
6曹岚,石磊.船闸机电系统远程故障诊断关键技术研究[J].中国水运（下半月）,2018,18(6):69-70. 被引量：1
7王小君.网络信息安全防范与Web数据挖掘系统的设计与研究[J].电子设计工程,2018,26(12):83-87. 被引量：9
8张泽,吕新,侯彤瑜.数据挖掘在农业信息化中的应用进展探析[J].信息记录材料,2019,20(1):215-216. 被引量：4
9卢玉婷,廖子龙.数据挖掘在数字化农业生产中的应用研究[J].信息与电脑,2016,28(3):143-143. 被引量：1
10赵悦品.网络信息安全防范与Web数据挖掘系统的设计与实现[J].现代电子技术,2017,40(4):61-65. 被引量：13

1段凡丁.数据库多项目的快速统计算法[J].微型机与应用,1992,11(10):18-19.
2胡燏,刘忠.浅析C语言的学习[J].中国西部科技,2006(29):33-34. 被引量：1
3曲守宁,董彩云,徐德军,吴桐.关联规则算法研究及其在教学系统中的应用[J].计算机系统应用,2005,14(4):20-23. 被引量：5
4何明,陈立潮.计算机判阅文字录入的一种统计算法[J].华北工学院学报,1998,19(1):71-73. 被引量：2
5徐东晖,蔡希尧.一种新型的基于WWW的应用开发平台[J].计算机科学,1998,25(3):70-72. 被引量：1
6张.高校数字图书馆混合型存储系统的设计[J].科技资讯,2007,5(24):256-256.
7韦伟.Delphi中利用文本流来实现测试对象文字的生成[J].电子商务,2010,11(11):57-57.
8张慧萍.用好msconfig控制台，系统启动更陕速[J].计算机应用文摘,2013(9):6-7.
9沈建春.企业办公自动化系统数据库设计[J].科技广场,2012(11):36-39.
10陈艺卓.Web日志挖掘中数据预处理的研究[J].信息与电脑（理论版）,2011,0(2):94-94. 被引量：2

科技通报

2013年第12期

浏览历史

内容加载中请稍等...

数据挖掘中数据预处理关键技术研究被引量：10

参考文献5

二级参考文献39

共引文献114

同被引文献59

引证文献10

二级引证文献32

相关作者

相关机构

相关主题

浏览历史

数据挖掘中数据预处理关键技术研究 被引量：10

参考文献5

二级参考文献39

共引文献114

同被引文献59

引证文献10

二级引证文献32

相关作者

相关机构

相关主题

浏览历史

数据挖掘中数据预处理关键技术研究被引量：10