摘要
数据清洗是数据仓库和数据挖掘中非常重要的一个环节。本文首先分析总结了数据清洗的有关概念,给出了数据清洗中需要解决的质量问题,并总结了解决这些问题的技术和方法。在此基础上提出了以人为中心的数据清洗过程模型。该模型集成了工作流技术、数据集成、数据转换和数据挖掘技术。给出了每个工具箱应该提供的基本功能。
Data cleansing is an important step both in data warehousing and data mining. This paper reviews some concepts on data cleansing, lists the data quality issues needed to be resolved in data cleansing process, and presents the techniques and methods for data cleansing firstly. Then a human-centered process model for data cleansing is proposed. It combines with workflow, data integration, data transformation, and data mining techniques. It also presents the main functions of each toolkits.
出处
《计算机科学》
CSCD
北大核心
2004年第5期52-55,共4页
Computer Science
基金
国家自然科学基金项目资助(项目编号:60173051)