一种有效的挖掘数据流近似频繁项算法被引量：33

An Efficient Algorithm for Mining Approximate Frequent Item over Data Streams

下载PDF

导出

摘要数据流频繁项是指在数据流中出现频率超出指定阈值的数据项.查找数据流频繁项在网络故障监测、流数据分析以及流数据挖掘等多个领域有着广泛的应用.在数据流模型下,算法只能一遍扫描数据,并且可用的存储空间远远小于数据流的规模,因此,挖掘出所有准确的数据流频繁项通常是不可能的.提出一种新的挖掘数据流近似频繁项的算法.该算法的空间复杂性为O(ε^(-1)),每个数据项的平均处理时间为O(1),输出结果的频率误差界限为ε(1-s+ε)N,在目前已有的同类算法中均为最优. A frequent item of a data stream is a data point whose occurrence frequency is above a given threshold. Finding frequent item of data stream has wide applications in various fields, such as network traffic monitor, data stream OLAP and data stream mining, etc. In data stream model, the algorithm can only scan the data in one pass and the available memory space is very limited relative to the volume of a data stream, therefore it is usually unable to find all the accurate frequent items of a data stream. This paper proposes a novel algorithm to find e-approximate frequent items of a data stream, its space complexity is O（ε^-1） and the processing time for each item is O（1） in average. Moreover, the frequency error bound of the results returned by the proposed algorithm is ε（1-s＋ε）N. Among all the existed approaches, this method is the best.

作者王伟平李建中张冬冬郭龙江

机构地区哈尔滨工业大学计算机科学与技术学院

出处《软件学报》 EI CSCD 北大核心 2007年第4期884-892,共9页 Journal of Software

基金 SupportedbytheKeyProgramoftheNationalNaturalScienceFoundationofChinaunderGrantNo.60533110(国家自然科学基金重点项目) theNationalNaturalScienceFoundationofChinaunderGrantNo.60473075(国家自然科学基金) theKeyProgramofNaturalScienceFoundationofHeilongjiangProvinceofChinaunderGrantNo.zjg03-05(黑龙江省自然科学基金) theProgramforNewCenturyExcellentTalentsinUniversityofChinaunderGrantNo.NCET-05-0333(新世纪优秀人才支持计划)

关键词数据流数据挖掘频繁项 ε-近似 data stream data mining frequent item ε-approximate

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献13

1Babcock AK,Babu S,Datar M.Model and issues in data stream systems.In:Popa L,ed.Proc.of the 21st ACM SIGACT-SIGMOD-SIGART Symp.on Principles of Database Systems.Madison:ACM,2002.1-16.
2Fang M,Shivakumar N,Garcia-Molina H,Motwani R,Ullman J.Computing iceberg queries eefficiently.In:Gupta A,Shmueli O,Widom J,eds.Proc.of the 24th Int'l Conf.on Very Large Data Bases.New York:Morgan Kaufmann Publishers,1998.299-310.
3Agrawal R,Srikant R.Fast algorithms for mining association rules.In:Bocca JB,Jarke M,Zaniolo C,eds.Proc.of the 20th Int'l Conf.on Very Large Data Bases.Santiago:Morgan Kaufmann Publishers,1994.487-499.
4Estan C,Verghese G.New directions in traffic measurement and accounting:Focusing on the elephants,ignoring the mice.ACM Trans.on Computer Systems,2003,21(3):270-313.
5Charikar M,Chen K,Farach-Colton M.Finding frequent items in data streams.In:Widmayer P,Ruiz FT,Bueno RM,Hennessy M,Eidenbenz S,Conejo R,eds.Proc.of the Int'l Colloquium on Automata,Languages and Programming.Malaga:Springer-Verlag,2002.693-703.
6Cormode G,Muthukrishnan S.What's hot and what's not:Tracking most frequent items dynamically.In:Halevy AY,Ives ZG,Doan AH,eds.Proc.of the 22nd ACM SIGACT-SIGMOD-SIGART Symp.on Principles of Database Systems.San Diego:ACM Press,2003.296-306.
7Jin C,Qian W,Sha C,Yu JX,Zhou A.Dynamically maintaining frequent items over a data stream.In:Carbonell J,ed.Proc.of the 2003 ACM CIKM Int'l Conf.on Information and Knowledge Management.New Orleans:ACM Press,2003.287-294.
8Manku GS,Motwani R.Approximate frequency counts over data streams.In:Bernstein P,Ioannidis Y,Ramakrishnan R,eds.Proc.of the 28th Int'l Conf.on Very Large Data Bases.Hong Kong:Morgan Kaufmann Publishers,2002.346-357.
9Karp R,Papadimitriou C,Shenker S.A simple algorithm for finding frequent elements in sets and bags.Trans.on Database Systems,2003,28(1):51-55.
10Demaine E,López-Ortiz A,Munro JI.Frequency estimation of Internet packet streams with limited space.In:M(o)hring RH,Raman R,eds.Algorithms.ESA 2002,Proc.of the 10th Annual European Symp.Rome:Springer-Verlag,2002.348-360.

同被引文献512

1温泽逢,袁华.基于内容的图像过滤新方法[J].通信学报,2006,27(z1):280-284. 被引量：3
2冯登国,张阳,张玉清.信息安全风险评估综述[J].通信学报,2004,25(7):10-18. 被引量：313
3刘殷雷,刘玉葆,陈程.不确定性数据流上频繁项集挖掘的有效算法[J].计算机研究与发展,2011,48(S3):1-7. 被引量：14
4张玉,方滨兴,张永铮.高速网络监控中大流量对象的识别[J].中国科学：信息科学,2010,40(2):340-355. 被引量：11
5易彤,徐宝文,吴方君.一种基于FP树的挖掘关联规则的增量更新算法[J].计算机学报,2004,27(5):703-710. 被引量：32
6金澈清,钱卫宁,周傲英.流数据分析与管理综述[J].软件学报,2004,15(8):1172-1181. 被引量：163
7王大玲,于戈,鲍玉斌.一种具有最大推荐非空率的关联规则挖掘方法[J].软件学报,2004,15(8):1182-1188. 被引量：11
8陈安龙,唐常杰,陶宏才,元昌安,谢方军.基于极大团和FP-Tree的挖掘关联规则的改进算法[J].软件学报,2004,15(8):1198-1207. 被引量：30
9文伟平,卿斯汉,蒋建春,王业君.网络蠕虫研究与进展[J].软件学报,2004,15(8):1208-1219. 被引量：187
10于海斌,曾鹏,王忠锋,梁英,尚志军.分布式无线传感器网络通信协议研究[J].通信学报,2004,25(10):102-110. 被引量：120

引证文献33

1邝祝芳,阳国贵,辛动军.SWFPM:一种有效的数据流频繁项挖掘算法[J].计算机应用研究,2009,26(2):466-469. 被引量：4
2张玉,方滨兴,张永铮.高速网络监控中大流量对象的识别[J].中国科学：信息科学,2010,40(2):340-355. 被引量：11
3高宏宾,张小彬,杨海振.一种实时挖掘数据流近似频繁项的算法[J].计算机应用,2008,28(S2):219-222. 被引量：2
4李建中,高宏.无线传感器网络的研究进展[J].计算机研究与发展,2008,45(1):1-15. 被引量：442
5王秀坤,王铁存,周国能,冯维.挖掘数据流近似频繁项的改进算法[J].计算机工程与应用,2008,44(13):150-152.
6邝祝芳,谭骏珊,杨卫民,辛动军.基于渐增最小支持度函数的数据流频繁项挖掘[J].微电子学与计算机,2008,25(10):196-198.
7祖悦,党德玉.网格环境下基于分布式数据流频繁模式的数据更新算法[J].吉林化工学院学报,2009,26(1):54-58.
8吴枫,仲妍,金鑫,吴泉源,贾焰,杨树强.滑动窗口内进化数据流任意形状聚类算法[J].小型微型计算机系统,2009,30(5):887-890. 被引量：6
9蒲天银,秦拯.安全态势数据源近似频繁项分析算法应用[J].福建电脑,2009(8):84-84.
10张啸剑,邵超,张亚东.动态Web点击流中频繁访问序列的挖掘[J].计算机工程,2009,35(14):58-59. 被引量：1

二级引证文献548

1董武世.无线传感器网络QoS路由技术研究进展[J].湖北师范学院学报（自然科学版）,2008,28(3):8-13. 被引量：1
2高汉荣,冯冬芹.工业无线网络的现状及发展趋势[J].中国仪器仪表,2008(S1):87-89. 被引量：13
3张道远,潘巨龙,徐展翼.一种改进的传感器网络分簇分层路由协议[J].中国计量学院学报,2010,21(3):241-245. 被引量：2
4吕俊伟,蒋文涛,皇甫伟,王峰.传感器网络中基于自动校准的长周期时间同步算法[J].计算机研究与发展,2010,47(S2):96-100. 被引量：1
5乔钢柱,曾建潮.一种适用于动态环境的改进RSSI定位方法[J].计算机研究与发展,2010,47(S2):111-114. 被引量：8
6郭剑,孙力娟,王汝传,肖甫.面向无线多媒体传感器网络的移动Sink路径规划[J].计算机研究与发展,2010,47(S2):184-188. 被引量：1
7陈朋朋,郭忠文.传感设备模块接口标准化及可重用数据采集中间件设计[J].计算机研究与发展,2010,47(S2):288-292. 被引量：3
8吴帅,孙力娟,肖甫,郭剑,王汝传.面向三维的无线传感器网络覆盖增强算法[J].计算机研究与发展,2011,48(S2):106-110. 被引量：5
9蒋文涛,吕俊伟,朱红松,孙利民.TSIC:一种适用于间断性连通传感器网络的时间同步算法[J].计算机研究与发展,2011,48(S2):135-140.
10杨云,田浩澄,顾沈君,韩龙生,徐文春.无线传感器网络分层聚类路由算法[J].计算机研究与发展,2011,48(S2):158-165. 被引量：7

1石云辉,黄隽.基于.NET的网络故障监测报警系统的设计[J].微计算机信息,2008,24(30):119-120. 被引量：4
2赵耀宏,史泽林,罗海波,裴立力,韩国瑞.自适应红外图像直方图均衡增强算法[J].光电工程,2008,35(3):97-101. 被引量：24
3陈潇,周建国,晏蒲柳.基于贝叶斯网的网络故障监测方法[J].武汉大学学报（理学版）,2004,50(5):619-623. 被引量：2
4李学峰,李彩清,王文杰.网络故障监测中多智能Agent模型的研究与实现[J].微电子学与计算机,2007,24(1):59-62. 被引量：3
5杨静,张健沛,刘大昕.基于多支持向量机分类器的增量学习算法研究[J].哈尔滨工程大学学报,2006,27(1):103-106. 被引量：7
6王威.数据流频繁项挖掘算法——EC算法[J].武汉职业技术学院学报,2009,8(1):77-79.
7孙方涛,蒋励.一种高效的网络故障监测算法研究[J].西安邮电学院学报,2006,11(3):61-63.
8苟和平,景永霞,李勇.信息集成系统中的XML Schema匹配算法研究[J].佳木斯大学学报（自然科学版）,2014,32(3):455-458.
9刘建粉,李圣普.一种能量高效的WSN近似数据收集算法[J].计算机与数字工程,2013,41(12):1956-1958.
10李佳,张斌,喻莉,石冰心.基于自适应学习算法的智能代理网络故障监测[J].华中理工大学学报,1998,26(12):68-70. 被引量：1

软件学报

2007年第4期

浏览历史

内容加载中请稍等...

一种有效的挖掘数据流近似频繁项算法被引量：33

参考文献13

同被引文献512

引证文献33

二级引证文献548

相关作者

相关机构

相关主题

浏览历史

一种有效的挖掘数据流近似频繁项算法 被引量：33

参考文献13

同被引文献512

引证文献33

二级引证文献548

相关作者

相关机构

相关主题

浏览历史

一种有效的挖掘数据流近似频繁项算法被引量：33