一种相似重复记录检测算法的改进研究被引量：4

Improved Method for Detecting Incremental Approximately Duplicate Records

下载PDF

导出

摘要相似重复记录检测是数据清洗领域中的一个重要方面。文中研究了在数据模式与匹配规则不变的前提下,数据集动态增加时近似重复记录的识别问题,针对基于聚类数算法精度不高、效率低下等问题提出一种改进算法。该算法运用等级法给属性赋予相应权重并约减属性,通过构造聚类树对相似记录进行聚类,增设了一个阈值以减少不必要的相似度比较次数,提高了算法的效率和准确率。最后通过实验证明了该算法的有效性,并提出了进一步的研究方向。 Cleaning approximately duplicate records is an important task in data cleaning.Problems of detecting approximately duplicate records when the data set is dynamically increased on the assumption of stable data model and matching rules are studied.An improved method is proposed to deal with problems in the method based on clustering tree.The proposed method appoints proper weight to each field of the record and reduces attributes through using ranked-based weights method;clusters duplicate records by creating a clustering tree.To improve the efficiency of this method,a limen is added into the arithmetic.Finally,the validity of this method is proved by experiment and further research directions are proposed.

作者戴颖李兴国赵启飞

机构地区合肥工业大学管理学院

出处《计算机技术与发展》 2010年第7期13-16,共4页 Computer Technology and Development

基金国家自然科学基金项目(70871033)

关键词相似重复记录增量式聚类树等级法 approximately duplicate record incremental clustering tree ranked-based method

分类号 TP311.5 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献10

1邱越峰,田增平,季文贇,周傲英.一种高效的检测相似重复记录的方法[J].计算机学报,2001,24(1):69-77. 被引量：73
2Hernandez M, Stolfo S. The Merge/Purge Problem for Large Databases[C]//Proceedings of the ACM SIGMOD International Conference on Management of Data. New York, USA: ACM, 1995:127 - 138.
3I-ternandez M,Stolfo S. Real-world data is dirty:data deansing and the merge/purge problem [J]. Data Mining and Knowledge Discovery, 1998,2 (1) :9 - 37.
4Monge A E. An adaptive and efficient algorithm for detecting approximately duplicate database records [ EB/OL ]. 2003 - 03. http://citeseer, nj. nee. eom/monge00adaptive, html.
5陈伟,王昊,朱文明.一种提高相似重复记录检测精度的方法[J].计算机应用与软件,2006,23(10):29-30. 被引量：8
6佘春红.基于优先队列的增量式重复记录识别[J].计算机应用,2003,23(9):61-63. 被引量：7
7许向阳,佘春红.近似重复记录的增量式识别算法[J].计算机工程与应用,2003,39(12):191-193. 被引量：4
8刘芳何飞.一种基于聚类树的增量式数据清洗算法.华中科技大学学报,2005,33(3):46-48.
9李星毅,包从剑,施化吉.数据仓库中的相似重复记录检测方法[J].电子科技大学学报,2007,36(6):1273-1277. 被引量：25
10Smith T F, Waterman M S. Identification of common molecular subeequences [J]. Journal of Molecular Biology, 1981,2 (3) :195 - 197.

二级参考文献36

1陈伟,丁秋林.数据清理中编辑距离的应用及Java编程实现[J].电脑与信息技术,2003,11(6):33-35. 被引量：9
2程国达,苏杭丽.一种检测汉语相似重复记录的有效方法[J].计算机应用,2005,25(6):1362-1365. 被引量：8
3李先国,梁涌.一种高效的适用于字词检索的数据结构[J].微电子学与计算机,2006,23(12):157-160. 被引量：2
4张永,迟忠先.位置编码在数据仓库ETL中的应用[J].计算机工程,2007,33(1):50-52. 被引量：12
5[1]Bitton D， DeWitt D J. Duplicate record elimination in large data files. ACM Trans Database Systems, 1983, 8(2):255-65
6[2]Hernandez M， Stolfo S. The Merge/Purge problem for large databases. In: Proc ACM SIGMOD International Conference on Management of Data, 1995. 127-138
7[3]Howard B Newcombe, Kennedy J M, Axford S J, James A P. Automatic linkage of vital records. Science, 1959, 130:954-959
8[4]DeWitt D J, Naught J F, Schneider D A. An evaluation of non-equijoin algorithms. In: Proc 17th International Conference on Very Large Databases, Barcelona, Spain, 1991. 443-452
9[5]Hylton J A. Identifying and merging related bibliographic records[MS dissertation]. MIT: MIT Laboratory for Computer Science Technical Report 678， 1996
10[6]Monge A E， Elkan C P. An efficient domain-independent algorithm for detecting approximately duplicate database records. In: Proc DMKD'97, Tucson Arizona, 1997

共引文献100

1秦建,董辉,吴习宇,余建桥.花卉数据仓库的设计开发[J].农业网络信息,2004(7):26-28.
2缪嘉嘉,吴刚,毛捍东,杨强,邓苏.一种基于条件概率分布的近似重复记录检测方法[J].小型微型计算机系统,2004,25(12):2164-2168. 被引量：3
3孟坚,董逸生,王永利.一种基于规则的交互式数据清洗技术[J].微机发展,2005,15(4):141-144. 被引量：4
4王志军,乐嘉锦.一种中文相似重复记录的检测方法[J].东华大学学报（自然科学版）,2005,31(2):37-40.
5沈睿芳,郭立甫,时希杰.数据挖掘中的数据预处理模型与算法研究[J].计算机系统应用,2005,14(7):44-46. 被引量：20
6肖国荣.银行零售贷款风险管理系统分析[J].福建电脑,2006,22(7):140-141.
7朱恒民,王宁生.一种改进的相似重复记录检测方法[J].控制与决策,2006,21(7):805-808. 被引量：12
8韩京宇,徐立臻,董逸生.数据质量研究综述[J].计算机科学,2008,35(2):1-5. 被引量：107
9王育红,陈军.GIS客户数据库更新的基本问题[J].地理信息世界,2008,6(1):5-12. 被引量：10
10刘哲,夏秀峰,宋晓燕,林桐.一种中文地址类相似重复信息的检测方法[J].小型微型计算机系统,2008,29(4):726-729. 被引量：7

同被引文献32

1陈伟,丁秋林.一种XML相似重复数据的清理方法研究[J].北京航空航天大学学报,2004,30(9):835-838. 被引量：7
2韩京宇,徐立臻,董逸生.一种大数据量的相似记录检测方法[J].计算机研究与发展,2005,42(12):2206-2212. 被引量：32
3Deshpande A, Cuestrln C, Madden S, et al. Model-driven Data Acquisition in Sensor Networks[ C]//Proeeedings of the 30th VLDB Conferonee. Toronto: [ s. n. ] ,2004:588-599.
4Barbara D, Garcia-Molina H, Porter D. The Management of Probabilistic Data[ J ]. IEEE Transactions on Knowledge and Data Engineering, 1992,4 (5) :487-502.
5Keulen M, Keijzer A, Alink W. A Probabilistic XML Approach to Data Integration[ C]//Proceedings of the 21st International Conference on Data Engineering. [ s. 1. ] : [ s. n. ] ,2005:459- 470.
6Elmagarmid A K, Ipeirotis P G, Verykios V S. Duplicate Re- cord Detection:A Survey[ J ]. IEEE Transactions on Knowl-edge and Data Engineering,2007,19( 1 ) :1-16.
7Keulen M, Keijzer A. Qualitative effects of knowledge rules and user feedback in probabilistie data integration [ J ]. VLDB journal,2009,18(5) :1191-1217.
8Data Quality : Concepts, Methodologies and Techniques ( Data- centrie Systems and Applications ) [ M ]. [ s. 1. ]: [ s. n. ], 2006.
9邓玮舛,余永权.数据挖掘中粗糙决策规则及其不确定性研究[J].计算机技术与发展,2008,18(8):50-53. 被引量：1
10周迪民,段国云.地理信息系统属性数据不确定性的研究[J].计算机技术与发展,2009,19(12):174-177. 被引量：7

引证文献4

1邓慧挺,毛宇光.不确定数据的重复记录检测[J].计算机技术与发展,2012,22(8):60-62.
2李军.一种相似重复记录检测算法的改进与应用[J].成都工业学院学报,2017,20(2):17-20. 被引量：4
3李军.基本近邻排序算法的改进与应用[J].宁夏师范学院学报,2017,38(3):72-77. 被引量：2
4袁满,穆永豪,王贵友,于再富.改进的SNM中文语义重复记录检测算法[J].吉林大学学报（信息科学版）,2021,39(3):348-356. 被引量：5

二级引证文献10

1马可,郑广海.一种针对关系数据库记录的相似重复记录检测算法[J].电脑知识与技术,2018,14(5):25-28. 被引量：5
2张苗苗,苏勇.基于SNM算法的大数据量中文商品清洗方法[J].计算机与数字工程,2019,47(3):625-627. 被引量：1
3蒋园,韩旭,马丹璇,罗登昌.相似重复数据检测的数据清洗算法优化[J].计算机技术与发展,2019,29(10):79-82. 被引量：7
4袁满,穆永豪,王贵友,于再富.改进的SNM中文语义重复记录检测算法[J].吉林大学学报（信息科学版）,2021,39(3):348-356. 被引量：5
5郑国勋,姚学坤,陈冠澎,胥政尧.长白山生态数据爬取及清洗研究[J].长春工程学院学报（自然科学版）,2021,22(4):82-86.
6张平,余顺.基于K-modes聚类分组的大数据相似重复记录检测研究[J].安徽职业技术学院学报,2022,21(1):24-29. 被引量：1
7周世杰,娄渊胜.基于字段过滤和伸缩窗口的SNM算法优化[J].计算机工程与科学,2022,44(4):699-706. 被引量：2
8胡文瑜,应康辉.实例层数据清洗技术研究[J].计算机技术与发展,2022,32(5):22-28. 被引量：7
9张平,程新莲.基于K-means的大数据相似重复记录检测[J].现代信息科技,2022,6(8):89-91.
10贺建英.改进的R-树的多维数据重复检测方法[J].电子设计工程,2023,31(3):74-80.

1陈伟,王昊,朱文明.一种提高相似重复记录检测精度的方法[J].计算机应用与软件,2006,23(10):29-30. 被引量：8
2鲁均云,李星毅,施化吉,马素琴.基于内码序值聚类的相似重复记录检测方法[J].计算机应用研究,2010,27(3):874-878. 被引量：8
3刘芳,何飞.基于聚类分析技术的数据清洗研究[J].计算机工程与科学,2005,27(6):70-71. 被引量：11
4王晓原,吴芳,邢丽.交通流冗余数据识别和约简方法[J].计算机应用,2009,29(4):1110-1113.
5李星毅,包从剑,施化吉.数据仓库中的相似重复记录检测方法[J].电子科技大学学报,2007,36(6):1273-1277. 被引量：25
6黄建琼.基于二次模糊评判的相似重复记录检测方法[J].江苏师范大学学报（自然科学版）,2016,34(1):39-42. 被引量：3
7吴庆辉,蔡海洋,吕精巧.基于改进型遗传神经网络的相似重复记录检测[J].计算机测量与控制,2011,19(5):1021-1023. 被引量：3
8李鑫,李军,丰继林,高方平,李忠.面向相似重复记录检测的特征优选方法[J].传感器与微系统,2011,30(2):37-40. 被引量：1
9曹小峰.基于相似重复记录检测的特征优选方法研究[J].计算机工程与设计,2009,30(23):5492-5495. 被引量：3
10陈伟.一种基于等级法的联网审计绩效评价方法[J].计算机科学,2010,37(11):111-116. 被引量：6

计算机技术与发展

2010年第7期

浏览历史

内容加载中请稍等...

一种相似重复记录检测算法的改进研究被引量：4

参考文献10

二级参考文献36

共引文献100

同被引文献32

引证文献4

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

一种相似重复记录检测算法的改进研究 被引量：4

参考文献10

二级参考文献36

共引文献100

同被引文献32

引证文献4

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

一种相似重复记录检测算法的改进研究被引量：4