可交互数据清洗系统研究
摘要
在数据仓库构建和数据集成中,面临着大量的数据清洗任务。要把数据清洗过程做得灵活并不容易,已有的工具过于依赖特定的应用。该文分析了数据质量中存在的问题,数据清洗技术的现状、发展趋势,同时提出了一个可交互的数据清洗框架。
出处
《工程地质计算机应用》
2004年第2期18-21,29,共5页
Engineering Geology Computer Application
二级参考文献31
-
1Bitton D,DeWitt D J.Duplicate record elimination in large data files.ACM Transactions on Database Systems,1983,8(2): 255~265
-
2Monge A E,Elkan C P.An efficient domain-independent algorithm for detecting approximately duplicate database records.1997
-
3Hernandez M,Stolfo S.The merge/purge problem for large databases.In:Proc.of the ACM SIGMOD International Conference on Management of Data,May 1995.127~138
-
4Monge A E,Elkan C P.The field matching problem: Algorithms and applications.In: Proc.of the 2nd Int.Conf.on Knowledge Discovery and Data Mining,1996.267~270
-
5Smith T F,Waterman M S.Identification of common molecular subsequences.Journal of Molecular Bilogy,1981,147:195~197
-
6Lowrance R,Wagner R A.An extension of the string-to-string correction problem.J.ACM,1975,22(2): 177~183
-
7Tarjian R E.Effiency of a good but not linear set union algorithm.Journal of the ACM,1975,22(2):215~225
-
8Aebi, D., Perrochon, L. Towards improving data quality. In: Sarda, N.L., ed. Proceedings of the International Conference on Information Systems and Management of Data. Delhi, 1993. 273~281.
-
9Wang, R.Y., Kon, H.B., Madnick, S.E. Data quality requirements analysis and modeling. In: Proceedings of the 9th International Conference on Data Engineering. Vienna: IEEE Computer Society, 1993. 670~677.
-
10Rahm, E., Do, H.H. Data cleaning: problems and current approaches. IEEE Data Engineering Bulletin, 2000,23(4):3~13.
共引文献298
-
1梁莉莉,布瑞丰.非遗视频直播的技术逻辑及其潜在风险——基于抖音平台的“田野”观察[J].青海民族研究,2022,33(3):136-141. 被引量:13
-
2王利民,李硕硕,王学鑫,冯志江,司亚超,邓全才,吴永强.基于grubbs检验的中水压力数据清洗[J].河北建筑工程学院学报,2022,40(4):144-147. 被引量:2
-
3丁小欧,王宏志,靳贺霖,高猛.时序数据错误检测与修复研究综述[J].智能计算机与应用,2021,11(12):1-6. 被引量:6
-
4周力,张勃.向Oracle进行数据移植的方法[J].沈阳大学学报,2003,15(2):38-39. 被引量:3
-
5宋峥嵘,朴春梅.数据质量与数据清理浅谈[J].今日科苑,2009(17).
-
6毕锟,刘军.ETL系统的设计及其研究[J].软件导刊,2010,9(5):173-175. 被引量:9
-
7曹建军,刁兴春,陈爽,邵衍振.数据清洗及其一般性系统框架[J].计算机科学,2012,39(S3):207-211. 被引量:32
-
8刘永楠,邹兆年,李建中,王海洁.数据完整性的评估方法[J].计算机研究与发展,2013,50(S1):230-238. 被引量:11
-
9李巍巍.大数据技术应用研究[J].自动化与仪器仪表,2016(7):195-196. 被引量:3
-
10邓莎莎,陈松乔.基于异构数据抽取清洗模型的元数据的研究[J].计算机工程与应用,2004,40(30):175-177. 被引量:5
-
1刘哲.数据清洗技术在网络教学评价体系中的应用[J].网络与信息,2011,25(8):40-41. 被引量:1
-
2彭秦晋.ETL中数据清洗技术分析与研究[J].晋中学院学报,2008,25(3):101-103. 被引量:3
-
3李明.在文本挖掘中引入数据清洗技术的前景探析[J].情报探索,2009(5):103-104. 被引量:3
-
4王时绘,伍江磊.ETL中数据清洗技术在税务系统中的应用[J].科技广场,2011(11):65-67. 被引量:3
-
5张枢.基于数据仓库的数据清洗算法研究[J].煤炭技术,2010,29(7):192-194. 被引量:5
-
6喻金平,徐琴.基于SOM网络聚类的数据清洗技术[J].科技广场,2005(8):57-59.
-
7郭志懋,周傲英.数据质量和数据清洗研究综述[J].软件学报,2002,13(11):2076-2082. 被引量:280
-
8鲍洪庆,石冰,王石.一个基于领域知识的数据清洗框架[J].信息技术与信息化,2005(5):100-103. 被引量:5
-
9王同磊,张进东.基于粒子滤波的RFID数据清洗方法研究[J].电子技术与软件工程,2014(4):214-215. 被引量:1
-
10靳丹,张磊,王洪军,王宝会.基于Hadoop的大数据清洗框架设计与应用[J].网络新媒体技术,2015,4(5):33-38. 被引量:6