基于无监督学习的数据清洗算法被引量：3

Data Cleaning Algorithm Based on Unsupervised Learning

下载PDF

导出

摘要为了解决数据仓库中相似重复记录的数据问题,提出了基于无监督学习的数据清洗算法。该算法采用基于Hebb ian假设的自适应学习方法,并通过相似度确定奖励和惩罚等级。在学习过程中根据需要增加新的聚类,在学习结束后,通过分析聚类情况删除错误的聚类,从而避免了死神经元问题并使聚类更加准确。实验表明,该算法能准确地完成实体识别。 To resolve the similarity and iteration record problem in the data warehouse, which is based on unsupervised learning was put forward. The learning method is based and the main idea of the learning is that the similarity level decides the rewarded and a data cleaning on the Hebbian algorithm postulate penalized rate. To over- come the problem of dead cluster a new cluster is constituted when no existing cluster is similar to one pattern. After learning, another important task is to detect whether there are wrong clusters, if one is found, the cluster will be deleted and combined with the cluster which is the most similar cluster to it, and thus the result of clustering is more accurate. In the experiments, the learning algorithm is applied to clustering task to check its capability and the results show that it performs accurately.

作者孙铁民于杰尚程田大新张丽华

机构地区吉林大学科技处吉林大学通信工程学院吉林大学计算机科学与技术学院

出处《吉林大学学报（信息科学版）》 CAS 2008年第6期599-604,共6页 Journal of Jilin University（Information Science Edition）

基金吉林省科技厅基金资助项目(20071103)

关键词数据仓库数据抽取数据转换数据清洗数据装载 data warehouse data extract data transform data cleaning data loading

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献14

1WAND Y, ANCHORING WANG R Y. Data Quality Dimensions in Ontological Foundations [J]. Commun ACM, 1996, 39 (11) : 86-95.
2STRONG DIANE M, LEE YANG W, WANG RICHARD Y. Data Quality in Context [J]. Commun ACM, 1997, 40 (5) : 103-110.
3VASSILIADIS P. Arktos : Towards the Modeling, Design, Control and Execution of ETL Processes [ J ]. Information System, 2001, 26 (8): 537-561.
4郭志懋,周傲英.数据质量和数据清洗研究综述[J].软件学报,2002,13(11):2076-2082. 被引量：282
5贾自艳,黄友平,罗平,李嘉佑,秦亮曦,史忠植.面向数据质量的ETL过程建模与实现[J].系统仿真学报,2004,16(5):907-911. 被引量：24
6HEMANDEZ M A, STOLFO S J. Real-World Data is Dirty: Data Cleansing and the Merge Ppurge Problem [ J]. Data Mining and Knowledge Discovery, 1998, 2 ( 1 ) : 9-37.
7RAMAN V, HELLERSTEtN J. Potter's Wheel: An Interactive Data Cleaning System [ C] ///Proceedings of the 27th International Conference on Very Large Databases. Roma: Morgan Kaufmann, 2001: 381-390.
8GALHARDAS H, FLORESCU D, SHASHA D. Declarative Data Cleaning: Language, Model and Algorithms [C]// Proceedings of the 27th International Conference on Very Large Databases. Cairo: Morgan Kaufmann, 2001 : 615-618.
9HIPP J, GUNTZER U, GRIMMER U. Data Quality Mining: Making a Virtue of Necessity [C]//Workshop on Research Lssues in Data Mining and Knowledge Discovery. Santa Barbara: ACM, 2001: 52-57.
10LEE D H, KIM M H. Database Summarization Using Fuzzy ISA Hierarchies [ J ]. IEEE Transition Systems, Man, and Cybernetics-Part B: Cybernetics, 1997, 27 (4) : 671-680.

二级参考文献35

1Panos Vassiliadis, Zografoula Vagena, Spiros Skiadopoulos, Nikos Karayannidis, Timos Sellis. ARKTOS: towards the modeling, design, control and execution of ETL processes[J]. Infornation Systems, 2001, 26(8):537-561.
2R.Y. Wang, V.c. Storey, C.P. Firth, A framework for analysis of data quality research[J]. IEEE Transactions on Knowledge and Data Engineering, 1995, 7(4): 623-640.
3H. Galhardas, D. Florescu, D. Shasha, E. Simon. AJAX: an extensible data cleaning tool[A] in Proceeding of the ACM SIGMOD International Conference on the Management of Data[C]. Dallas: TX, 2000.
4V. Borkar, K. Deshmuck, S. Sarawagi, Automatically extracting structure from free text addresses [J]. Bull. Techn. Committee Data Engineering, 2000, 23 (4): 27-32.
5V. Raman, J. Hellerstein, Potters wheel: an interactive framework for data cleaning and transformation[R], Technical Report, University of California at Berkeley, Computer Science Division, 2000.
6J. M. Hellerstein, M. Stonebraker, R. Caccia. Independent, open enterprise data integration [J]. Bull. Techn. Committee Data Engineering, 1999, 22 (1): 31-36.
7M. Jarke, M.A. Jeusfeld, C. Quix, P. Vassiliadis. Architecture and quality in data warehouses: an extended repository approach[J]. Information Systems, 1999, 24 (3) : 229-253.
8P. Vassiliadis, M. Bouzeghoub, C. Quix. Towards quality-oriented data warehouse usage and evolution[J], Information Systems, 2000, 25 (2) : 89-115.
9P. Vassiliadis, C. Quix, Y. Vassiliou, A model for data warehouse operational processes[C], Proceedings of the 12th Conference on Advanced Information Systems Engineering (CaiSE'00), Stockholm, Sweden, 2000.
10WHInmon著王志海译.Building the Data Warehouse (Second Edition)[M].北京:机械工业出版社,2000,5..

共引文献300

1梁莉莉,布瑞丰.非遗视频直播的技术逻辑及其潜在风险——基于抖音平台的“田野”观察[J].青海民族研究,2022,33(3):136-141. 被引量：13
2王利民,李硕硕,王学鑫,冯志江,司亚超,邓全才,吴永强.基于grubbs检验的中水压力数据清洗[J].河北建筑工程学院学报,2022,40(4):144-147. 被引量：2
3丁小欧,王宏志,靳贺霖,高猛.时序数据错误检测与修复研究综述[J].智能计算机与应用,2021,11(12):1-6. 被引量：6
4周力,张勃.向Oracle进行数据移植的方法[J].沈阳大学学报,2003,15(2):38-39. 被引量：3
5宋峥嵘,朴春梅.数据质量与数据清理浅谈[J].今日科苑,2009(17).
6毕锟,刘军.ETL系统的设计及其研究[J].软件导刊,2010,9(5):173-175. 被引量：9
7曹建军,刁兴春,陈爽,邵衍振.数据清洗及其一般性系统框架[J].计算机科学,2012,39(S3):207-211. 被引量：32
8刘永楠,邹兆年,李建中,王海洁.数据完整性的评估方法[J].计算机研究与发展,2013,50(S1):230-238. 被引量：11
9李巍巍.大数据技术应用研究[J].自动化与仪器仪表,2016(7):195-196. 被引量：3
10邓莎莎,陈松乔.基于异构数据抽取清洗模型的元数据的研究[J].计算机工程与应用,2004,40(30):175-177. 被引量：5

同被引文献89

1车万翔,刘挺,秦兵,李生.基于改进编辑距离的中文相似句子检索[J].高技术通讯,2004,14(7):15-19. 被引量：66
2陈伟,丁秋林.一种XML相似重复数据的清理方法研究[J].北京航空航天大学学报,2004,30(9):835-838. 被引量：7
3曹忠升,万劲伟.基于语义的数据清理技术[J].华中科技大学学报（自然科学版）,2005,33(2):76-78. 被引量：2
4韩京宇,徐立臻,董逸生.一种大数据量的相似记录检测方法[J].计算机研究与发展,2005,42(12):2206-2212. 被引量：32
5陈伟,丁秋林.可扩展数据清理软件平台的研究[J].电子科技大学学报,2006,35(1):100-103. 被引量：10
6朱恒民,王宁生.一种改进的相似重复记录检测方法[J].控制与决策,2006,21(7):805-808. 被引量：12
7陆凤霞,王静秋,王宁生.一种开放式数据清理框架[J].南京航空航天大学学报,2006,38(4):459-463. 被引量：3
8陈卓,贺明霞,刘相双.基于扩展凝聚点和网格的增量聚类算法[J].哈尔滨工业大学学报,2006,38(8):1382-1385. 被引量：5
9夏骄雄,徐俊,吴耿锋.数据清理中同体不同源数据的数化算法研究[J].计算机工程,2007,33(1):71-73. 被引量：5
10董宁.数据挖掘技术在CRM中的应用[J].计算机工程与设计,2007,28(6):1429-1432. 被引量：23

引证文献3

1陈光海.基于SOA的网上银行客户评估系统研究与实现[J].现代电子技术,2009,32(16):66-68.
2陈光海.基于SOA的网上银行客户评估系统的研究与实现[J].现代电子技术,2009,32(24):42-44. 被引量：3
3叶焕倬,吴迪.相似重复记录清理方法研究综述[J].现代图书情报技术,2010(9):56-66. 被引量：23

二级引证文献26

1张常士.完善商业银行个人高端客户管理的若干思考[J].邯郸职业技术学院学报,2010,23(2):37-39.
2翟晓娟.运用SOA构建促进复用的图书馆采访微服务模型[J].情报资料工作,2011,32(1):55-60. 被引量：4
3叶焕倬,吴迪.基于改进编辑距离的相似重复记录清理算法[J].现代图书情报技术,2011(7):82-90. 被引量：7
4刘雪琼,武刚,邓厚平.Web信息整合中的数据去重方法[J].计算机应用,2013,33(9):2493-2496. 被引量：4
5蒋勋,刘喜文.大数据环境下面向知识服务的数据清洗研究[J].图书与情报,2013(5):16-21. 被引量：49
6夏春梅.数据挖掘技术在银行信贷风险管理中的应用[J].现代电子技术,2014,37(4):78-81. 被引量：10
7马晓亭.大数据时代图书馆数据整合系统构建研究[J].图书馆建设,2014(6):83-87. 被引量：16
8郭文龙.基于长度过滤和有效权值的SNM改进算法[J].计算机工程与应用,2014,50(19):123-127. 被引量：7
9郭文龙,董建怀.基于模糊综合评判的相似重复记录清洗方法[J].北京信息科技大学学报（自然科学版）,2017,32(4):59-63. 被引量：3
10郑亚光,潘久辉.一种基于滑动分块的重复数据检测算法[J].计算机工程,2016,42(2):38-44. 被引量：8

1林好,蒋外文,王新颖,陈海鹏.基于神经网络的IDS网络行为学习算法[J].吉林大学学报（信息科学版）,2008,26(2):213-217.
2段文影,朱敏.基于粗糙集和自组织神经网络的聚类方法[J].江西科学,2009,27(4):569-571. 被引量：2
3贾庆贤,张迎春,管宇,陈雪芹.基于解析模型的非线性系统故障诊断方法综述[J].信息与控制,2012,41(3):356-364. 被引量：34
4王焱,周天宏.基于多粒度和激励机制的移动P2P网络动态信任模型[J].实验室研究与探索,2013,32(11):246-250. 被引量：1
5石晓荣,王青,张明廉,毕静.基于多传感器数据融合的机动目标跟踪自适应学习方法[J].系统仿真学报,2002,14(5):631-633. 被引量：8
6杨盈,李朝峰.基于距离学习法的模式识别[J].计算机技术与发展,2009,19(3):77-79. 被引量：1
7史艳翠,孟祥武,张玉洁,王立才.一种上下文移动用户偏好自适应学习方法[J].软件学报,2012,23(10):2533-2549. 被引量：11
8李长春.由大脑皮层神经元所组成的HEBBIAN细胞群仿真[J].系统仿真学报,1992,4(1):1-4.
9黄克军,叶茂,王雁东,李毅超.一种全局收敛的PCA神经网络学习算法[J].计算机科学,2004,31(5):153-155. 被引量：4
10邓建军,徐立鸿,吴启迪.单输入单输出模糊系统的自适应学习方法[J].微型电脑应用,2001,17(7):19-21. 被引量：5

吉林大学学报（信息科学版）

2008年第6期

浏览历史

内容加载中请稍等...

基于无监督学习的数据清洗算法被引量：3

参考文献14

二级参考文献35

共引文献300

同被引文献89

引证文献3

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

基于无监督学习的数据清洗算法 被引量：3

参考文献14

二级参考文献35

共引文献300

同被引文献89

引证文献3

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

基于无监督学习的数据清洗算法被引量：3