摘要
文章对构建数据仓库中的数据清洗研究现状进行了论述。介绍了脏数据的类型与出现原因、数据清洗在国内外的研究现状、定义和对象,重点阐述了属性级异常数据和记录级异常数据的检测与处理算法;总结当前数据清洗研究的不足,并对今后数据清洗的研究进行展望。
The paper discussed research about data cleaning in the process of building data warehouse. In this paper are introduced the types of dirty data and reasons, research status of data cleaning at home and abroad, and definition and object of data cleaning. Algorithms of detection and data processing about abnormal data on attribute-level and record-level are emphasized. The weakness of data cleaning is clarified, and the future research topics of data cleaning are discussed.
出处
《图书与情报》
CSSCI
北大核心
2013年第5期22-28,共7页
Library & Information
基金
国家自科基金项目"面向知识服务的知识组织模式与应用研究"(项目编号:71273126)
江苏省2013年度普通高校研究生科研创新计划项目"本体构建技术及模型研究--以南京市地方志为例"(项目编号:CXZZ13_0070)研究成果之一
关键词
数据清洗
脏数据
异常数据检测
重复记录检测
data cleaning
dirty data
outlier data detect
duplicate record detect