期刊文献+

大数据环境下档案数据清洗策略优化与验证

Optimization and Experimental Verification of Archive Data Cleaning Strategies in Big Data Environments
在线阅读 下载PDF
导出
摘要 为优化档案数据清洗策略,本文基于Kettle工具开展实验,对比不同清洗方式的效率差异。通过设计“去重”和“插入/更新”两种清洗模式,结合数据标准化处理,系统分析不同场景下的性能表现。结果表明:“去重”方式效率更高,适合全量清洗;“插入/更新”方式更适用于增量更新场景;数据标准化预处理后再导入数据库的方式显著优于直接导入。本文的研究为档案数据清洗策略选择提供了实证参考。 To optimize the archive data cleaning strategy,this study conducted experiments using the Kettle tool to compare the efficiency differences of different cleaning methods.By designing two cleaning modes,"deduplication"and"insertion/update",combined with data standardization processing,the system analyzes the performance in different scenarios.The results indicate that the"deduplication"method is more efficient and suitable for full cleaning;The'insert/update'method is more suitable for incremental update scenarios;The method of importing data into the database after standardization preprocessing is significantly better than importing directly.The study provides empirical reference for the selection of archive data cleaning strategies.
作者 陈旭辉 CHEN Xuhui(Fuzhou Fuda Jingwei Information Technology Co.,Ltd,Fuzhou,China,350000)
出处 《福建电脑》 2025年第10期42-48,共7页 Journal of Fujian Computer
关键词 数据清洗 Kettle工具 档案数据管理 Data Cleaning Kettle Tool Archive Data Management
  • 相关文献

参考文献2

二级参考文献5

共引文献6

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部