基于典型数据集的数据预处理方法对比分析被引量：32

Comparative analysis of data preprocessing methodsbased on typical data set

下载PDF

导出

摘要针对多种数据预处理方式及其组合如何提升模型拟合效果这一问题,基于UCI Machine Learning Repository典型数据集,分别利用20种变量处理方式和4种变量选择方法对数据预处理,并对模型拟合效果对比分析,分别考查了多种数据预处理方式及其组合对常见分类模型和回归模型的影响.通过对实验结果的分析讨论,提出一种启发式算法,根据数据特征、模型特点以及研究问题种类等信息推荐数据预处理方法.在更广泛的数据集上的实验结果表明,该算法所推荐的数据预处理方法可以一定程度上提升模型拟合效果,节省手工选取数据预处理方法的开销. Aiming at the problem of how multiple data preprocessing methods and their combinations can improve model fitting effect,20 variable processing methods and 4 variable selection methods were used to preprocess the data based on typical data sets of UCI Machine Learning Repository,and the model fitting effects were compared and analyzed.The influence of various data preprocessing methods and their combinations on common classification models and regression models was separately examined.Through the analysis and discussion of experimental results,a heuristic algorithm was proposed to recommend data preprocessing methods based on data features,model characteristics and research types.The experimental results on more extensive data sets show that the data preprocessing method recommended by this algorithm can improve model fitting effect to a certain extent and save the cost of data preprocessing with manual selection methods.

作者李颜平吴刚 LI Yan-ping;WU Gang(School of Statistics and Data Science,Nankai University,Tianjin 300071,China;School of Computer Science and Engineering,Northeastern University,Shenyang 110004,China)

机构地区南开大学统计与数据科学学院东北大学计算机科学与工程学院

出处《沈阳工业大学学报》 CAS 北大核心 2022年第2期185-192,共8页 Journal of Shenyang University of Technology

基金国家重点研发计划项目(2019YFB1405300).

关键词数据预处理正态化归一化哑变量方差分析卡方检验互信息 Copula熵 data preprocessing normalization uniformization dummy variable analysis of variance chi-square test mutual information Copula entropy

分类号 TP306 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献9

1马立平.统计数据标准化──无量纲化方法──现代统计分析方法的学与用(三)[J].北京统计,2000(3):34-35. 被引量：176
2肖立华,张博,胡伟,陈继军,韩智忠.基于机器学习的电网工程量计价预测模型[J].沈阳工业大学学报,2021,43(3):241-246. 被引量：23
3赵宇,黄思明.带有变量选择过程的分类模型误差分析[J].数学的实践与认识,2010,40(17):200-209. 被引量：2
4唐勇波,桂卫华,彭涛,欧阳伟.基于互信息变量选择的变压器油中溶解气体浓度预测[J].仪器仪表学报,2013,34(7):1492-1498. 被引量：46
5马健,孙增圻.Mutual Information Is Copula Entropy[J].Tsinghua Science and Technology,2011,16(1):51-54. 被引量：26
6高建,周丽萍.基于Box-Cox变换的住宅特征价格理论研究[J].河北科技大学学报,2007,28(3):247-250. 被引量：8
7马健.基于Copula熵的变量选择[J].应用概率统计,2021,37(4):405-420. 被引量：8
8雷大江,杜萌,李智星,吴渝.稀疏多元逻辑回归问题优化算法研究[J].重庆邮电大学学报（自然科学版）,2019,31(3):354-366. 被引量：4
9陈思吉,王欣,申滨.一种基于支持向量机的认知无线电频谱感知方案[J].重庆邮电大学学报（自然科学版）,2019,31(3):313-322. 被引量：14

二级参考文献62

1肖燕彩,陈秀海,朱衡君.用改进的灰色多变量模型预测变压器油中溶解气体的浓度[J].电网技术,2006,30(10):86-89. 被引量：16
2肖燕彩,朱衡君,陈秀海.用灰色多变量模型预测变压器油中溶解的气体浓度[J].电力系统自动化,2006,30(13):64-67. 被引量：30
3Weston J, Elisseeff A, Schukopf B, Tipping M. Use of the zero norm with linear models and kernel methods[J]. J Mach Learn Res, 2003(3): 1439-1461.
4Forman G. An extensive empirical study of feature selection metrics for text classification[J]. J Mach Learn Res, 2003, 3: 1289-1305.
5Globerson A, Tishby N. Sufficient dimensionality reduction[J], J Mach Learn Res, 2003, 3: 1307- 1331.
6Tibshirani R. Regression shrinkage and selection via the lasso[J]. J Roy Statist Soc Ser B, 1996, 58(1): 267-288.
7Roweis S, Saul L. Nonlinear dimensionality reduction by locally linear embedding[J]. Science, 2000, 290(5500): 2323-2326.
8Tenenbaum J, Silva V, Langford J. A global geometric framework for nonlinear dimensionality reduction[J]. Science, 2000, 290(5500): 2319-2323.
9Balasubramanian M, Schwartz E L. The isomap algorithm and topological stability[J]. Science, 2000, 295(5552): 7.
10Scholkopf B. Statistical Learning and Kernel Methods[R]. CISM Courses and Lectures, International Centre for Mechanical Sciences, 2000, 431(23): 3-24.

共引文献296

1朱志鹏,何金文,潘春玲.闽江竹岐防洪堤加固前后流土渗透破坏概率分析[J].水利科技,2023(1):4-9. 被引量：1
2潘宜,解建仓,朱记伟,韩霁昌.陕西省卤泊滩盐碱地和谐生态系统评价体系[J].水利学报,2009,39(4):492-497. 被引量：12
3周大伟,安士凯,张静,张力民.概率积分参数选取的主成分回归分析[J].辽宁工程技术大学学报（自然科学版）,2013,32(11):1528-1532. 被引量：8
4许静新.托克托县土地利用总体规划实施评价[J].西部资源,2014(2):176-178. 被引量：1
5晋杰,韩建,杨泽中,于潇,宋春杰.基于t检验的车辆行驶阻力及相关系数可信度分析[J].交通节能与环保,2011,7(3):48-52.
6钱力,王学军.农村居民收入区域差异影响因素的实证分析[J].西北民族大学学报（哲学社会科学版）,2014(5):62-69.
7卢苏燕.法国多功能化农业的魅力[J].瞭望,2002(16):60-61. 被引量：2
8夏元友,蒋超.基于SIR维数压缩的边坡稳定性神经网络评价[J].武汉理工大学学报,2005,27(4):58-61. 被引量：2
9李勇,邵诚.软测量技术及其应用与发展[J].工业仪表与自动化装置,2005(5):6-11. 被引量：15
10丁立仲,卢剑波,徐文荣.浙西山区上梧溪小流域生态恢复工程效益评价研究[J].中国生态农业学报,2006,14(3):202-205. 被引量：19

同被引文献336

1林建军.浅谈我国消费品召回的特点及其重要意义[J].质量与市场,2020(20):46-48. 被引量：2
2蒋钢,仲崇军,陈纲,丁炜堃.模拟仿真技术在核应急软件平台中的应用与思考[J].中国应急管理科学,2020(11):32-39. 被引量：3
3袁建华.乡村旅游经济发展模式探究[J].山西财经大学学报,2024,46(S02):143-145. 被引量：16
4毛位新,崔伦,林晨,彭崇,龚行健,常盛.省级核应急场内外联合演习的组织与思考[J].中国辐射卫生,2022,31(4):451-455. 被引量：2
5冯建英,石岩,王博,穆维松.基于聚类分析的数据挖掘技术及其农业应用研究进展[J].农业机械学报,2022,53(S01):201-212. 被引量：20
6张兵.煤矿智能化综合管控平台研究[J].工矿自动化,2022,48(S02):65-69. 被引量：20
7宋军英,崔益伟,李欣然,钟伟,邹鑫,李培强.基于欧氏动态时间弯曲距离与熵权法的负荷曲线聚类方法[J].电力系统自动化,2020(15):87-98. 被引量：41
8吴昕,李磊,王维萌,宋亚军,李亮.微型电容式湿度探针的可行性研究[J].发电技术,2019,40(S1):84-89. 被引量：1
9王定成.温室环境的支持向量机回归建模[J].农业机械学报,2004,35(5):106-109. 被引量：32
10陈孝丑,余荣卓,林金叶,翁玉榛,李勇.杉木人工林最佳削度方程的研究[J].福建林业科技,2004,31(4):15-18. 被引量：5

引证文献32

1陈奕辰,黄翔,张晓萍,严洪,孙梦莲,陈翔宇,刘健,余坤勇.基于地基激光雷达的杉木哑变量削度方程研究[J].西南林业大学学报（自然科学）,2024,44(4):157-165. 被引量：3
2陆钊,温禧茜.基于数据中台架构MLSQL的大数据实验平台研发[J].信息技术与信息化,2022(7):118-121. 被引量：1
3麻剑钧,熊伟,夏先亮,屈春志,杨善解.湖南省县域农业农村信息化发展现状研究[J].湖南农业科学,2022(8):74-80. 被引量：1
4邵永运,惠丹.基于机器学习的中小微企业信贷风险评估模型实证分析[J].沈阳师范大学学报（自然科学版）,2022,40(4):289-293.
5陈壮,姜红,罗鸿斌,金虹毅.X射线荧光光谱法结合HCA-PCA-BPNN实现塑料快递包装袋识别分类[J].塑料工业,2022,50(11):138-144. 被引量：16
6龙建平,李德忠,陈佳佳,胡清,王央波,李聪.火电运行综合监测系统的设计与应用实践[J].能源与节能,2023(1):158-162. 被引量：1
7徐思红,张力丹,田晶晶,齐月,孙宁.消费品多源缺陷线索信息预处理研究[J].标准科学,2023(1):111-116. 被引量：1
8毛田野,李华,郑健,张骁骏.知识发现过程中的数据预处理技术研究[J].智能物联技术,2022,54(5):8-13. 被引量：3
9席伟光,童大为,费玉杰,徐天柏.应用于声纳的高性能扇形插值方法研究[J].电子制作,2023,31(5):75-80.
10苏宏伟,崔益伟,何文钦.考虑电网基建项目类型的后评价指标体系确定方法[J].电气技术与经济,2023(2):143-146. 被引量：4

二级引证文献93

1李爱东,曹利娜.农业信息化对农业经济增长的影响及对策[J].南方农机,2023,54(11):196-198. 被引量：4
2徐思红,田晶晶.消费品缺陷线索分析方法研究与应用[J].标准科学,2023(6):87-90. 被引量：1
3薛永航,白帆,李娜.基于扩散模型的图像去噪方法研究[J].装备制造技术,2023(8):67-70. 被引量：1
4梁博文.基于mini_Xception的动漫人物表情识别[J].信息与电脑,2023,35(15):158-161.
5张轶姿,郑渠岸,刘莹,刘树勇.电网项目后评价库的预警与预评价分析[J].集成电路应用,2023,40(10):148-149. 被引量：2
6卢璐,肖莹,吴雪,诸德律.电网项目环境影响评价与竣工环保验收的管理思考[J].电气技术与经济,2023(9):243-245. 被引量：6
7胡晓光,姜红,吴爱平,吴倩,吴兵,王阳.基于拉力数值的服装包装塑料袋分析研究[J].实验与分析,2023,1(2):97-101.
8董彩虹,胡少伟,田广环,孔熙贤,吴宏伟,李慧.基于电子鼻与GC-MS技术的鲜、干鱼腥草的比较研究及腥味成分相关性分析[J].中国药物警戒,2023,20(12):1368-1374. 被引量：4
9姜红,陈壮,郝小辉,倪婷婷.基于主成分分析-Fisher判别分析的食品类塑料瓶物证差分拉曼光谱分类[J].化学通报,2024,87(1):118-121. 被引量：3
10赵淋仙,徐纯艺,周玮玲,李燕燕,胡慧玲.基于感官评价及电子鼻结合GC-MS技术的木香精油香气成分分析[J].中药与临床,2023,14(6):12-16. 被引量：5

1林心怡,吴东.区块链技术与企业绩效:公司治理结构的调节作用[J].管理评论,2021,33(11):341-352. 被引量：37
2沈子奕,林杰.基于哑变量回归和混合效应的杉树树高-胸径模型[J].济南大学学报(自然科学版),2022,36(1):80-85. 被引量：4
3罗洪斌,岳彩荣,张国飞,金京,谷雷,朱泊东.基于哑变量和因子选择的森林蓄积量估测研究[J].西北林学院学报,2022,37(1):205-210. 被引量：12
4吴炜明,王延新.基于L曲线方法的Lasso正则化参数选择[J].西南师范大学学报（自然科学版）,2022,47(1):36-42. 被引量：4
5姚历强.福建省阔叶树地径材积表研制[J].福建林业科技,2021,48(4):67-73.
6朱宵彤,庞春颖,朱涵.基于深度学习的心血管疾病预测模型[J].计算机应用,2021,41(S02):346-350. 被引量：5
7郑德强,段明瑞,李小春,侯锐,吴立娟,王友信.临床研究中统计学方法的规范应用与典型案例解析[J].中国卒中杂志,2022,17(1):43-50. 被引量：6
8黄登香.高维回归中的几种变量选择方法[J].电子技术（上海）,2022,51(1):202-203.
9曾维佳,张日权.Lasso变量选择的分布式算法[J].应用概率统计,2022,38(1):99-110. 被引量：4
10马精晶,尚敏,秦大伟,任文昭,时佳音,赵晓云,姚泽伟,李凡.牙槽骨吸收高度在推断青少年年龄的应用[J].中国法医学杂志,2021,36(6):599-602. 被引量：3

沈阳工业大学学报

2022年第2期

浏览历史

内容加载中请稍等...

基于典型数据集的数据预处理方法对比分析被引量：32

参考文献9

二级参考文献62

共引文献296

同被引文献336

引证文献32

二级引证文献93

相关作者

相关机构

相关主题

浏览历史

基于典型数据集的数据预处理方法对比分析 被引量：32

参考文献9

二级参考文献62

共引文献296

同被引文献336

引证文献32

二级引证文献93

相关作者

相关机构

相关主题

浏览历史

基于典型数据集的数据预处理方法对比分析被引量：32