期刊文献+

统计数据预处理的理论与方法述评 被引量:34

The Theory and Methods of Data Preparation: An Overview
在线阅读 下载PDF
导出
摘要 统计数据预处理是提升数据质量的重要阶段,包括数据审查、数据清理、数据转换和数据验证四大步骤。根据处理对象的特点及每一步骤的不同目标,统计数据预处理可采用的方法包括描述及探索性分析、缺失值处理、异常值处理、数据变换技术、信度与效度检验、宏观数据诊断等六大类。选用恰当的方法开展统计数据预处理,有利于保证数据分析结论真实、有效。 In order to improve the quality of data for analyzing, data must be prepared. Data preparation can be decomposed to four steps such as data examination, data cleaning, data transformation and data validation. The methods of data preparation include descriptive and exploratory analysis, missing data analysis, outlier processing, transformation techniques, reliability and validity analysis, and national economic data diagnosis. Data preparation can be operated by software and some possible problems must be noticed.
作者 程开明
出处 《统计与信息论坛》 2007年第6期98-103,共6页 Journal of Statistics and Information
基金 2006年浙江省教育厅科研计划项目"统计数据质量诊断的方法与应用研究"(20061101)
关键词 数据质量 数据预处理 缺失值 异常值 数据诊断 data quality data preparation missing data outlier data diagnosis
  • 相关文献

参考文献11

  • 1TOM Soukup,IAN Davidson.可视化数据挖掘-数据可视化和数据挖掘的技术与工具[M].朱建秋,等,译.北京:电子工业出版社,2004:59-115.
  • 2岳希明,张曙光,等.中国经济增长速度研究与争论[M].北京:中信出版社,2002:3-51.
  • 3李金昌.论什么是统计数据质量[J].统计与决策,1998(9):6-8. 被引量:30
  • 4SOIBELMAN L M, HYUNJOO Kim. Data Preparation Process for Construction Knowledge Generation through Knowledge Disoovery in Databases[J]. Journal of Computing in Civil Engineering,2002(1):39-48.
  • 5RODERICH J A Little,RUBIN Donald B.缺失数据统计分析(中文版)[M].孙山泽,译.北京:中国统计出版社,2004:3-16.
  • 6李金昌,徐雪琪.数据挖掘质量问题探讨[J].统计研究,2004,21(7):49-52. 被引量:5
  • 7CARRIERE K C. Methods for Repeated Measures Data Analysis with Missing Values[J]. Journal of Statistical Planning and Inference, 1999(7) :221 - 236.
  • 8SMOLINSKI, WALCZAK, EINAX J W. Exploratory Analysis of Data Sets with Missing Elements and Outliers [J]. Chemosphere, 2002(49):233 - 245.
  • 9PYLE Dorian. Data Preparation for Data Mining[M]. Paperback, Bk&CD edition, 1999: 89-190.
  • 10ZAFFALON Marco. Exact Creedal Treatment of Missing Data[J]. Journal of Statistical Planning and Inference, 2002(105) :105- 122.

二级参考文献4

  • 1.[EB/OL].http ://www. dataquality. com.,.
  • 2Jia wei Hall, Micheline Kamer, "Data Mining Concepts and Techniques", Morgan Kanfmann Publishers, Inc .2001.
  • 3Erhard Rahm, et al. data Cleaning: Problems and Current Approaches[ EB/OL].
  • 4Rahm Erhard, Do Hong Hai," Data Cleaning: Problems and Current Approaches ", IEEE Bulletin of the Technical Committee on Data Engineering, Vol 23 NO. 4, December 2000.

共引文献36

同被引文献343

引证文献34

二级引证文献152

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部