一种检测多语言文本相似重复记录的综合方法被引量：26

A Synthetical Approach for Detecting Approximately Duplicate Database Records of Multi-Language Data

下载PDF

导出

摘要 1.前言随着信息技术的广泛应用,如何有效利用不断激增的数据成为企业的迫切问题.数据仓库和数据挖掘技术为企业从浩瀚的数据海洋中获取有用的知识提供了一种有效的手段.然而,现实世界中的数据往往存在着大量的质量问题,从简单的数据输入错误到相对较复杂的数据间的语义不一致性.如果数据的质量达不到要求,那么数据挖掘这类技术产生的结果也不会理想,甚至产生错误的分析结果,从而误导决策.可见提高数据质量的重要性. Detecting approximate duplicate records in database is a key problem related to data quality. In this paper, we present a synthetical approach for recognizing clusters of approximately duplicate records of multi-language data. The key ideas are: (1) an efficient algorithm for sorting multi-language data; (2)an efficient edit-distance based pair-wise comparison method for multi-language data; (3)using a priority queue of duplicates clusters and representative records strategy to respond adaptively to the. data scale.

作者俞荣华田增平周傲英

机构地区复旦大学计算机系

出处《计算机科学》 CSCD 北大核心 2002年第1期118-121,共4页 Computer Science

关键词数据仓库数据挖掘数据库信息重复多语言文本相似重复记录方法检测 Approximate duplicates records, Clustering, Pairwise comparison, Priority queue

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献8

1Bitton D,DeWitt D J.Duplicate record elimination in large data files.ACM Transactions on Database Systems,1983,8(2): 255～265
2Monge A E,Elkan C P.An efficient domain-independent algorithm for detecting approximately duplicate database records.1997
3Hernandez M,Stolfo S.The merge/purge problem for large databases.In:Proc.of the ACM SIGMOD International Conference on Management of Data,May 1995.127～138
4邱越峰,田增平,季文贇,周傲英.一种高效的检测相似重复记录的方法[J].计算机学报,2001,24(1):69-77. 被引量：73
5Monge A E,Elkan C P.The field matching problem: Algorithms and applications.In: Proc.of the 2nd Int.Conf.on Knowledge Discovery and Data Mining,1996.267～270
6Smith T F,Waterman M S.Identification of common molecular subsequences.Journal of Molecular Bilogy,1981,147:195～197
7Lowrance R,Wagner R A.An extension of the string-to-string correction problem.J.ACM,1975,22(2): 177～183
8Tarjian R E.Effiency of a good but not linear set union algorithm.Journal of the ACM,1975,22(2):215～225

二级参考文献12

1[1]Bitton D， DeWitt D J. Duplicate record elimination in large data files. ACM Trans Database Systems, 1983, 8(2):255-65
2[2]Hernandez M， Stolfo S. The Merge/Purge problem for large databases. In: Proc ACM SIGMOD International Conference on Management of Data, 1995. 127-138
3[3]Howard B Newcombe, Kennedy J M, Axford S J, James A P. Automatic linkage of vital records. Science, 1959, 130:954-959
4[4]DeWitt D J, Naught J F, Schneider D A. An evaluation of non-equijoin algorithms. In: Proc 17th International Conference on Very Large Databases, Barcelona, Spain, 1991. 443-452
5[5]Hylton J A. Identifying and merging related bibliographic records[MS dissertation]. MIT: MIT Laboratory for Computer Science Technical Report 678， 1996
6[6]Monge A E， Elkan C P. An efficient domain-independent algorithm for detecting approximately duplicate database records. In: Proc DMKD'97, Tucson Arizona, 1997
7[7]Kukich K. Techniques for automatically correcting words in text. ACM Computing Surveys, 1992, 24(4):377-439
8[8]Wagner R A， Fischer M J. The string-to-string correction problem. J ACM, 1974, 21(1):168-173
9[9]Lowrance R， Robert A Wagner. An extension of the string-to-string correction problem. J ACM, 1975， 22(2):177-183
10[10] Sellers P H. On the theory and computation of evolutionary distances. SIAM J Applied Mathematics, 1974, 26(4):787-793

共引文献72

1缪嘉嘉,吴刚,毛捍东,杨强,邓苏.一种基于条件概率分布的近似重复记录检测方法[J].小型微型计算机系统,2004,25(12):2164-2168. 被引量：3
2孟坚,董逸生,王永利.一种基于规则的交互式数据清洗技术[J].微机发展,2005,15(4):141-144. 被引量：4
3王志军,乐嘉锦.一种中文相似重复记录的检测方法[J].东华大学学报（自然科学版）,2005,31(2):37-40.
4肖国荣.银行零售贷款风险管理系统分析[J].福建电脑,2006,22(7):140-141.
5朱恒民,王宁生.一种改进的相似重复记录检测方法[J].控制与决策,2006,21(7):805-808. 被引量：12
6韩京宇,徐立臻,董逸生.数据质量研究综述[J].计算机科学,2008,35(2):1-5. 被引量：108
7刘哲,夏秀峰,宋晓燕,林桐.一种中文地址类相似重复信息的检测方法[J].小型微型计算机系统,2008,29(4):726-729. 被引量：7
8郭小瑛,曾广平.基于Web2．0的数据集成系统的设计与实现[J].微电子学与计算机,2008,25(6):34-37. 被引量：2
9张昌年.一种基于VSM的检测相似重复记录的方法[J].微电子学与计算机,2008,25(8):184-187. 被引量：10
10陈伟,Robin Qiu,刘思峰.一种基于数据匹配技术的审计证据获取方法[J].计算机科学,2008,35(8):183-187. 被引量：16

同被引文献280

1赵作鹏,尹志民,王潜平,许新征,江海峰.一种改进的编辑距离算法及其在数据处理中的应用[J].计算机应用,2009,29(2):424-426. 被引量：52
2徐祖友.王云五与四角号码检字法[J].辞书研究,1990(6):128-134. 被引量：10
3曹犟,邬晓钧,夏云庆,郑方.基于拼音索引的中文模糊匹配算法[J].清华大学学报（自然科学版）,2009(S1):1328-1332. 被引量：14
4车万翔,刘挺,秦兵,李生.基于改进编辑距离的中文相似句子检索[J].高技术通讯,2004,14(7):15-19. 被引量：66
5陈跃国,王京春.数据集成综述[J].计算机科学,2004,31(5):48-51. 被引量：141
6鲍玉斌,孙焕良,冷芳玲,王大玲,于戈.数据仓库环境下以用户为中心的数据清洗过程模型[J].计算机科学,2004,31(5):52-55. 被引量：15
7张进,易仁萍,陈伟.计算机审计中电子数据的清理研究[J].审计研究,2004(6):21-25. 被引量：10
8陈伟,丁秋林.数据清理中编辑距离的应用及Java编程实现[J].电脑与信息技术,2003,11(6):33-35. 被引量：9
9陈奕隆.美国自动地面观测系统[J].气象科技,1994,22(3):48-54. 被引量：11
10陈伟,陈耿,朱文明,王昊.基于业务规则的错误数据清理方法[J].计算机工程与应用,2005,41(14):172-174. 被引量：12

引证文献26

1王咏梅,陈家琪,耿玉良.一种可交互的数据清洗系统[J].计算机工程与设计,2005,26(4):955-957. 被引量：7
2陈伟,王昊,朱文明.一种提高相似重复记录检测精度的方法[J].计算机应用与软件,2006,23(10):29-30. 被引量：8
3刘哲,夏秀峰,宋晓燕,林桐.一种中文地址类相似重复信息的检测方法[J].小型微型计算机系统,2008,29(4):726-729. 被引量：7
4张昌年.一种基于VSM的检测相似重复记录的方法[J].微电子学与计算机,2008,25(8):184-187. 被引量：10
5陈伟,Robin Qiu,刘思峰.一种基于数据匹配技术的审计证据获取方法[J].计算机科学,2008,35(8):183-187. 被引量：16
6徐杨,冯克忠,马亚明.空间数据重复记录的清理方法研究[J].测绘科学,2008,33(6):125-126. 被引量：3
7陈德民.优化四位数的四则运算算式组合库[J].电脑编程技巧与维护,2009(22):27-29.
8鲁均云,李星毅,施化吉,马素琴.基于内码序值聚类的相似重复记录检测方法[J].计算机应用研究,2010,27(3):874-878. 被引量：8
9曹建军,刁兴春,汪挺,王芳潇.领域无关数据清洗研究综述[J].计算机科学,2010,37(5):26-29. 被引量：27
10刁兴春,谭明超,曹建军.一种融合多种编辑距离的字符串相似度计算方法[J].计算机应用研究,2010,27(12):4523-4525. 被引量：44

二级引证文献488

1梁莉莉,布瑞丰.非遗视频直播的技术逻辑及其潜在风险——基于抖音平台的“田野”观察[J].青海民族研究,2022,33(3):136-141. 被引量：13
2朱朦朦,武恺莉,洪宇,陈鑫,张民.面向问句复述识别的语义正交化匹配方法研究[J].中文信息学报,2021,35(11):34-42. 被引量：2
3冯钦,曹建军,郑奇斌,张磊,翁年凤,李红梅.基于多蚁群同步优化的多真值发现算法[J].计算机应用研究,2020,37(1):44-49. 被引量：3
4高攀.选煤厂生产设备智能运维与健康管理分析[J].洁净煤技术,2023,29(S01):134-139. 被引量：1
5王利民,李硕硕,王学鑫,冯志江,司亚超,邓全才,吴永强.基于grubbs检验的中水压力数据清洗[J].河北建筑工程学院学报,2022,40(4):144-147. 被引量：2
6丁小欧,王宏志,靳贺霖,高猛.时序数据错误检测与修复研究综述[J].智能计算机与应用,2021,11(12):1-6. 被引量：6
7周力,张勃.向Oracle进行数据移植的方法[J].沈阳大学学报,2003,15(2):38-39. 被引量：3
8宋峥嵘,朴春梅.数据质量与数据清理浅谈[J].今日科苑,2009(17).
9毕锟,刘军.ETL系统的设计及其研究[J].软件导刊,2010,9(5):173-175. 被引量：9
10Wally Smieliauskas,蒋益俊,陈伟.论审计证据与审计风险[J].南京审计学院学报,2013,10(3):82-88. 被引量：16

1铁路部提供网络订票注册身份信息重复解决方法[J].互联网天地,2012(1):8-8.
2信息化如何支持企业运营效率提升[J].网络与信息,2011,25(10):15-15. 被引量：1
3林德顺.基于Web的中职学校学生信息管理系统的设计与实现[J].信息与电脑（理论版）,2013(2):221-223. 被引量：1
4李福林,徐开勇,李立新.基于ESB的统一身份认证系统设计与实现[J].计算机应用,2012,32(1):52-55. 被引量：15
5孟祥旅.用VB合并EXCEL文档[J].中小学电教（综合）,2006(6):58-60. 被引量：1
6符永卫.应对EXCEL数据输入错误的特殊处理[J].科学与财富,2011(6):307-307.
7李源芳,庄丽,白国庆,高迪.基于网格化管理的智慧社区管理系统探究[J].价值工程,2017,36(3):92-94. 被引量：6
8张凯.输入数据校验设计与软件可靠性[J].电脑开发与应用,2004,17(2):17-18. 被引量：1
9李彪,于同刚.提高信息系统数据输入正确性的方法研究[J].信息技术,2015,39(3):25-28. 被引量：2
10李丽珍,吴兴兴,余雪丽,张淑梅.搜索引擎检索质量控制[J].太原理工大学学报,2003,34(3):333-335. 被引量：1

计算机科学

2002年第1期

浏览历史

内容加载中请稍等...

一种检测多语言文本相似重复记录的综合方法被引量：26

参考文献8

二级参考文献12

共引文献72

同被引文献280

引证文献26

二级引证文献488

相关作者

相关机构

相关主题

浏览历史

一种检测多语言文本相似重复记录的综合方法 被引量：26

参考文献8

二级参考文献12

共引文献72

同被引文献280

引证文献26

二级引证文献488

相关作者

相关机构

相关主题

浏览历史

一种检测多语言文本相似重复记录的综合方法被引量：26