概率数据库中近似函数依赖挖掘算法被引量：6

An Algorithm on Mining Approximate Functional Dependencies in Probabilistic Database

下载PDF

导出

摘要一个近似函数依赖(approximate functional dependency,AFD)是一个几乎成立的函数依赖,目前大部分工作仅限于从一般数据上挖掘近似函数依赖.有时数据是被组织成概率数据的形式,为了从挖掘概率数据中挖掘出可用的近似函数依赖,定义了概率近似函数依赖,它不同于任何一种以往的定义,并给出了在不确定数据中,置信概率的动态规划求解算法,由于动态规划算法复杂度较高,导出了候选依赖的概率下界来进行剪枝,随后给出了基于字典序的挖掘方法以及相应的剪枝策略,最后,在真实和合成的数据集上进行充分的实验,说明了挖掘算法的可扩展性和剪枝策略的高效性,并展示了有趣的挖掘结果. An approximate functional dependency（AFD）is a functional dependency almost hold,and the most existing works are only able to mine AFDs from general data.Sometimes,data is stored in probabilistic database,in order to mine AFDs from such type of data,we define the probabilistic AFD,namely（λ,δ）-AFD which is different from the previous definition.We propose a dynamic programming to compute the confidence probability of a candidate AFD and check if the confidence probability is more than the probability threshold,however,as the high time complexity of dynamic programming,we derive the lower bound based on Chernoff bound to prune candidates as much as possible.Then,under help of the anti-monotone property,we propose a mining algorithm based on lexicographical order and some pruning criterions to speed up the mining process. At last,experiments are performed on the synthetic and the real-life data sets,and the results show the effectiveness of the pruning criterions and the scalability of our mining algorithm,and we show the interesting results mined from DBLP data set.

作者苗东菁刘显敏李建中

机构地区哈尔滨工业大学计算机科学与技术学院

出处《计算机研究与发展》 EI CSCD 北大核心 2015年第12期2857-2865,共9页 Journal of Computer Research and Development

基金国家"九七三"重点基础研究发展计划基金项目(2012CB316200 2012CB316202) 国家自然科学基金项目(61402130)

关键词近似函数依赖数据挖掘概率数据库数据质量不一致性 approximate functional dependency（AFD） data mining probabilistic database data quality inconsistency

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献14

1Galiano F, Cubero J, Cuenca F, et al. Relational decomposition through partial functional dependencies [J]. Data & Knowledge Engineering, 2002, 43(2) : 207-234.
2Wolf G, Khatri H, Chokshi B, et al. Query processing over incomplete autonomous databases [C] //Proc of the 33rd Int Conf on Very Large Data Bases. New York: ACM, 2007: 651-662.
3Ilyas I, Markl V, Haas P, et al. Cords: Automatic discovery of correlations and soft functional dependencies [C] //Proc of the 2004 ACM SIGMOD Int Conf on Management of Data. New York: ACM, 2004:647-658.
4Nambiar U, Kambhampati S. Answering imprecise queries over autonomous Web databases [C] //Proc of the 22nd Int Conf on Data Engineering. Los Alamitos, CA: IEEE Computer Society, 2006:45-45.
5Wolf G, Khatri H, Chen Yi, et al. Quic: A system for handling imprecision & incompleteness in autonomous databases (demo)[C] //Proc of the 3rd Biennial Conf on Innovative Data Systems Research. New York: ACM, 2007: 263-268.
6Huhtala Y, Karkkainen J, Po::kka P, et al. TANE: An efficient algorithm for discovering functional and approximate dependencies [J]. The Compuler Journal, 1999, 42 (2): 100-111.
7Giannella C, Robertson E. On approximation measures for functional dependencies [J]. Information Systems, 2004, 29 (6) : 483-507.
8Yao Hong, Hamilton H. Mining functional dependencies from data [J]. Data Mining and Knowledge Discovery, 2008, 16(2) : 197-219.
9苗东菁,石胜飞,李建中.一种局部相关不确定数据库快照集合上的概率频繁最近邻算法[J].计算机研究与发展,2011,48(10):1812-1822. 被引量：12
10De S, Kambhampati S. Defining and mining functional dependencies in probabilistic databases EOI.:. [2014-05-20]. http://arxiv, org/abs/1005. 4714.

二级参考文献26

1Jeffery S R, Franklin M J, Garofalakis M. An adaptive RFID middleware for supporting metaphysical data independence [J]. The International Journal on Very Large Data Bases, 2008, 17(2): 265-289.
2Cheng R, Kalashnikov D V, Prabhakar S. Evaluating prubabilistic queries over imprecise data [C] //Proc of ACM SIGMOD'2003. New York: ACM, 2003: 551-562.
3Faradjian A, Gehrke J, Bonnet P. Gadt: A probability space ADT for representing and querying the physical world [C] // Proc of the 18th Int Conf on Data Engineering. Los Alamitos, CA: IEEE Computer Society, 2002: 201-211.
4Mokbel M F, Chow C Y, Aref W G. The new Casper: Query processing for location services without compromising privacy [C]//Proc of the 32nd Int Conf on Very Large Data Bases. NewYork: ACM, 2006:763-774.
5Dong X L, Berti Equille L, Srivastava D. Integrating conflicting data: The role of source dependence[J]. PVLDB, 2009, 2(1): 550-561.
6Bohm C, Pryakhin A, Schubert M. The Gauss-tree: Efficient object identification in databases of probabilistic feature vectors [C] //Proe of the 22nd Int Conf on Data Engineering. Los Alamitos, CA: IEEE Computer Society, 2006 : 9.
7Bleiholder J, Naumann F. Data fusion [J]. ACM Computing: Surveys, 2008, 41(1): 1-41.
8Lian Xiang, Chen Lei. A generic framework for handling uncertain data with local correlations [J]. Proc of the VLDB Endowment, 2010, 4(1): 12-21.
9Kanagal B, Deshpande A. Indexing correlated probabilistic databases [C] //Proc of ACM SIGMOD 2009. New York: ACM, 2009:455-468.
10Jordan M I. Graphical models [J]. In Statistical Science: Special Issue on Bayesian Statistics, 2004, 19(1): 140-155.

共引文献11

1张丽平,李松,赵纪桥,郝晓红.受限区域内的单纯型连续近邻链查询方法[J].计算机应用,2014,34(2):406-410. 被引量：4
2况爱农.基于OLE和VBA的数据库与WORD数据交互研究分析[J].电子技术与软件工程,2014(9):204-204.
3李松,张丽平,朱德龙,郝晓红.动态受限区域内的单纯型连续近邻链查询方法[J].计算机科学,2014,41(6):136-141. 被引量：6
4李松,张丽平,刘艳,郝晓红,杨和禹.障碍物环境下的动态单纯型连续近邻链查询[J].计算机工程,2014,40(8):52-57. 被引量：3
5张丽平,赵纪桥,李松,经海东,崔环宇.Voronoi图的构建与受限区域内的最近邻查询方法研究[J].计算机科学,2014,41(9):220-224. 被引量：7
6张丽平,李松,麻琳,唐远新,郝晓红.Voronoi图的生成及近邻关系查询方法[J].计算机应用,2014,34(12):3470-3474. 被引量：1
7李松,李林,王淼,崔环宇,张丽平.RTC树的构建与不确定近邻关系查询方法[J].计算机应用,2015,35(1):115-120. 被引量：1
8李松,张丽平,郝忠孝.动态数据集环境下的强邻近对查询[J].计算机研究与发展,2015,52(3):749-759. 被引量：9
9张丽平,李松,郝晓红,郝忠孝.障碍物增减情况下的单纯型连续近邻链查询[J].计算机工程与应用,2015,51(11):99-103. 被引量：2
10经海东,张丽平,郝晓红,李松,崔环宇.一种路网环境下的组k最近邻查询方法[J].小型微型计算机系统,2016,37(8):1667-1671. 被引量：1

同被引文献45

1刘永楠,邹兆年,李建中,王海洁.数据完整性的评估方法[J].计算机研究与发展,2013,50(S1):230-238. 被引量：11
2刘勇,吴必文,王东勇.一种台风路径相似检索的算法研究[J].气象,2006,32(7):18-24. 被引量：20
3薛根元,俞善贤,何风翩,陈国勇.云娜台风灾害特点与浙江省台风灾害初步研究[J].自然灾害学报,2006,15(4):39-47. 被引量：29
4朱天,白似雪.基于模式距离度量的时间序列相似性搜索[J].微计算机信息,2007,23(30):216-217. 被引量：8
5邹燕,赵平,乔林.基于台风年鉴资料的台风风-压公式重建[J].热带气象学报,2009,25(2):163-168. 被引量：9
6张国峰,张京红,田光辉,许向春,杨立荣.台风灾害评估中相似台风的筛选[J].湖北农业科学,2012,51(7):1334-1337. 被引量：9
7李默涵,李建中,高宏.数据时效性判定问题的求解算法[J].计算机学报,2012,35(11):2348-2360. 被引量：20
8李建中,刘显敏.大数据的一个重要方面:数据可用性[J].计算机研究与发展,2013,50(6):1147-1162. 被引量：264
9安冬,荣超群,杨丹,王骄.基于PSOA聚类和KMP算法的说话人识别方法[J].仪器仪表学报,2013,34(6):1306-1311. 被引量：8
10蒋勋,刘喜文.大数据环境下面向知识服务的数据清洗研究[J].图书与情报,2013(5):16-21. 被引量：49

引证文献6

1李建中,王宏志,高宏.大数据可用性的研究进展[J].软件学报,2016,27(7):1605-1625. 被引量：67
2武怀生,李秀明.基于VB+ACCESS的学生学籍管理系统的设计与实现[J].软件工程,2017,20(4):32-35. 被引量：6
3梁睿,张扬,何凡,廖振松.一种基于函数依赖的数据清洗方法[J].信息通信,2017,30(4):249-250.
4杨俊,赵林.基于多特征检测与支持向量回归的图像文本提取算法[J].光学技术,2018,44(5):609-616. 被引量：1
5张倩倩,李国和,郑艺峰.基于密度和半监督学习的数据修复与聚类[J].计算机工程与设计,2020,41(3):676-681. 被引量：1
6黄冬梅,郑霞,赵丹枫,王丽琳.一种多元台风时间序列的相似性度量方法[J].计算机应用研究,2019,36(3):844-850. 被引量：5

二级引证文献80

1王利民,李硕硕,王学鑫,冯志江,司亚超,邓全才,吴永强.基于grubbs检验的中水压力数据清洗[J].河北建筑工程学院学报,2022,40(4):144-147. 被引量：2
2丁小欧,王宏志,靳贺霖,高猛.时序数据错误检测与修复研究综述[J].智能计算机与应用,2021,11(12):1-6. 被引量：6
3黄乙中.浅谈数据治理建设方案[J].轻工科技,2020(1):65-67. 被引量：3
4张网娟,许国艳,李敏佳,朱帅.基于卷积神经网络的缺失数据填充方法[J].微电子学与计算机,2019,36(3):48-52. 被引量：9
5杨俊成,李淑霞.大数据分析在电商行业的应用[J].系统仿真技术,2017,13(1):18-21. 被引量：1
6翟光明,李国和,吴卫江,洪云峰,周晓明,汪静.基于Spark的人工蜂群改进算法[J].计算机应用,2017,37(7):1906-1910. 被引量：4
7庞金香.浅谈高校的数据清洗与整合[J].计算机时代,2017(8):39-42. 被引量：1
8罗彦福,钱晓东.基于局部密度的不确定数据聚类算法[J].数据分析与知识发现,2017,1(12):84-91. 被引量：2
9朝乐门,邢春晓,张勇.数据科学研究的现状与趋势[J].计算机科学,2018,45(1):1-13. 被引量：81
10段成.智能制造背景下工业大数据的数据质量控制探讨[J].机械设计与制造工程,2018,47(2):13-16. 被引量：9

1江彤,金宗安,谢东.概率数据库的聚集查询[J].计算机工程,2010,36(11):42-44. 被引量：1
2周智增,王新军.XML概率数据库中空值处理方法研究[J].计算机科学,2010,37(6):214-216.
3陈国青,唐晓辉.基于近似函数依赖的查询评估改进[J].工程数学学报,2007,24(6):951-956.
4张霄雁,孟祥福,马宗民,张文博,张霄鹏.基于近似函数依赖的关系数据属性权重评估方法[J].计算机科学,2013,40(2):172-176. 被引量：4
5李丽乐,刘国华,宋金玲,何丽荣,张宇.基于熵的视图安全性判定算法[J].计算机工程,2009,35(24):146-149.
6张奥千,宋韶旭,王建民.基于数据质量规则的缺失结果解释约减[J].计算机研究与发展,2013,50(S1):221-229. 被引量：2
7李春林.一种新的概率关系数据库系统[J].微计算机信息,2009,25(12):200-201.
8江彤.稳态的概率数据库探讨[J].湖南人文科技学院学报,2011,28(5):116-119.
9余萝,覃飙,刘勇.概率数据库中图类型的不等式查询语句的置信度计算[J].小型微型计算机系统,2015,36(5):996-1001. 被引量：1
10王雅瑜,熊婧,林军.概率数据库研究问题综述[J].现代计算机,2015,21(10):57-62.

计算机研究与发展

2015年第12期

浏览历史

内容加载中请稍等...

概率数据库中近似函数依赖挖掘算法被引量：6

参考文献14

二级参考文献26

共引文献11

同被引文献45

引证文献6

二级引证文献80

相关作者

相关机构

相关主题

浏览历史

概率数据库中近似函数依赖挖掘算法 被引量：6

参考文献14

二级参考文献26

共引文献11

同被引文献45

引证文献6

二级引证文献80

相关作者

相关机构

相关主题

浏览历史

概率数据库中近似函数依赖挖掘算法被引量：6