期刊文献+
共找到65篇文章
< 1 2 4 >
每页显示 20 50 100
Continuous Outlier Monitoring on Uncertain Data Streams 被引量:1
1
作者 曹科研 王国仁 +3 位作者 韩东红 丁国辉 王爱侠 石凌旭 《Journal of Computer Science & Technology》 SCIE EI CSCD 2014年第3期436-448,共13页
Outlier detection on data streams is an important task in data mining. The challenges become even larger when considering uncertain data. This paper studies the problem of outlier detection on uncertain data streams. ... Outlier detection on data streams is an important task in data mining. The challenges become even larger when considering uncertain data. This paper studies the problem of outlier detection on uncertain data streams. We propose Continuous Uncertain Outlier Detection (CUOD), which can quickly determine the nature of the uncertain elements by pruning to improve the efficiency. Furthermore, we propose a pruning approach -- Probability Pruning for Continuous Uncertain Outlier Detection (PCUOD) to reduce the detection cost. It is an estimated outlier probability method which can effectively reduce the amount of calculations. The cost of PCUOD incremental algorithm can satisfy the demand of uncertain data streams. Finally, a new method for parameter variable queries to CUOD is proposed, enabling the concurrent execution of different queries. To the best of our knowledge, this paper is the first work to perform outlier detection on uncertain data streams which can handle parameter variable queries simultaneously. Our methods are verified using both real data and synthetic data. The results show that they are able to reduce the required storage and running time. 展开更多
关键词 outlier detection uncertain data stream data mining parameter variable query
原文传递
基于双缓冲区的概念漂移检测方法
2
作者 李盟 温伍正宏 潘甦 《计算机技术与发展》 2025年第3期103-108,共6页
在数据分析中概念漂移问题是经常发生的,这导致了模型不能适应数据分布的动态变化。针对如何处理流数据中的概念漂移这一问题进行了研究,以提高数据分析性能。为此,在在线序列极限学习机(OS-ELM)与漂移检测方法(DDM)结合(DDM-OS-ELM)的... 在数据分析中概念漂移问题是经常发生的,这导致了模型不能适应数据分布的动态变化。针对如何处理流数据中的概念漂移这一问题进行了研究,以提高数据分析性能。为此,在在线序列极限学习机(OS-ELM)与漂移检测方法(DDM)结合(DDM-OS-ELM)的基础上,提出了双缓冲区(缓冲区A和缓冲区B)方法。DDM-OS-ELM通过结合漂移检测机制和在线序列极限学习机来处理概念漂移,这种方法在检测到概念漂移时就会触发模型更新,在检测过程中,通过双缓冲区解决概念漂移的问题。缓冲区A是解决发生概念漂移后数据量不足导致无法重新训练模型这一问题;缓冲区B收集发生概念漂移后的数据,使模型适应概念漂移后的数据分布。实验结果表明,利用双缓冲区不仅可以减少模型更新次数,还提高了模型预测的精度。 展开更多
关键词 概念漂移 双缓冲区 在线序列极限学习机 漂移检测机制 不确定数据流
在线阅读 下载PDF
不确定大数据流分类的决策树模型构建仿真 被引量:1
3
作者 杨知玲 谭树杰 《计算机仿真》 2024年第5期532-535,542,共5页
在不确定大数据流分类过程中,受噪声和孤立点的干扰,导致处理效果和分类精度无法达到预期要求。为解决上述问题,提出一种基于决策树模型的不确定大数据流分类算法。通过采用在线字典学习算法,对不确定大数据流去噪处理,消除噪声对分类... 在不确定大数据流分类过程中,受噪声和孤立点的干扰,导致处理效果和分类精度无法达到预期要求。为解决上述问题,提出一种基于决策树模型的不确定大数据流分类算法。通过采用在线字典学习算法,对不确定大数据流去噪处理,消除噪声对分类过程产生的干扰。构建决策树,在剪枝过程中通过特征过滤算法,滤除不确定大数据流中掺杂的孤立点。将去噪后的不确定大数据流,输入决策树模型中,完成分类工作。实验结果表明,所提算法处理后的不确定大数据流振幅明显减小,且分类精度高,具有一定的应用价值。 展开更多
关键词 决策树模型 在线字典学习算法 特征过滤 不确定大数据流 数据分类
在线阅读 下载PDF
Classifying Uncertain and Evolving Data Streams with Distributed Extreme Learning Machine 被引量:1
4
作者 韩东红 张昕 王国仁 《Journal of Computer Science & Technology》 SCIE EI CSCD 2015年第4期874-887,共14页
Conventional classification algorithms are not well suited for the inherent uncertainty, potential concept drift, volume, and velocity of streaming data. Specialized algorithms are needed to obtain efficient and accur... Conventional classification algorithms are not well suited for the inherent uncertainty, potential concept drift, volume, and velocity of streaming data. Specialized algorithms are needed to obtain efficient and accurate classifiers for uncertain data streams. In this paper, we first introduce Distributed Extreme Learning Machine (DELM), an optimization of ELM for large matrix operations over large datasets. We then present Weighted Ensemble Classifier Based on Distributed ELM (WE-DELM), an online and one-pass algorithm for efficiently classifying uncertain streaming data with concept drift. A probability world model is built to transform uncertain streaming data into certain streaming data. Base classifiers are learned using DELM. The weights of the base classifiers are updated dynamically according to classification results. WE-DELM improves both the efficiency in learning the model and the accuracy in performing classification. Experimental results show that WE-DELM achieves better performance on different evaluation criteria, including efficiency, accuracy, and speedup. 展开更多
关键词 uncertain data stream CLASSIFICATION extreme learning machine distributed computing concept drift
原文传递
一种不确定数据流聚类算法 被引量:34
5
作者 张晨 金澈清 周傲英 《软件学报》 EI CSCD 北大核心 2010年第9期2173-2182,共10页
提出了EMicro算法,以解决不确定数据流上的聚类问题.与现有技术大多仅考虑元组间的距离不同,EMicro算法综合考虑了元组之间的距离与元组自身不确定性这两个因素,同时定义新标准来描述聚类结果质量.还提出了离群点处理机制,系统同时维护... 提出了EMicro算法,以解决不确定数据流上的聚类问题.与现有技术大多仅考虑元组间的距离不同,EMicro算法综合考虑了元组之间的距离与元组自身不确定性这两个因素,同时定义新标准来描述聚类结果质量.还提出了离群点处理机制,系统同时维护两个缓冲区,分别存放正常的微簇与潜在的离群点微簇,以期得到理想的性能.实验结果表明,与现有工作相比,EMicro的效率更高,且效果良好. 展开更多
关键词 不确定数据流 聚类 离群点
在线阅读 下载PDF
不确定性数据管理技术研究综述 被引量:186
6
作者 周傲英 金澈清 +1 位作者 王国仁 李建中 《计算机学报》 EI CSCD 北大核心 2009年第1期1-16,共16页
随着数据采集和处理技术的进步,人们对数据的不确定性的认识也逐步深入.在诸如经济、军事、物流、金融、电信等领域的具体应用中,数据的不确定性普遍存在.不确定性数据的表现形式多种多样,它们可以以关系型数据、半结构化数据、流数据... 随着数据采集和处理技术的进步,人们对数据的不确定性的认识也逐步深入.在诸如经济、军事、物流、金融、电信等领域的具体应用中,数据的不确定性普遍存在.不确定性数据的表现形式多种多样,它们可以以关系型数据、半结构化数据、流数据或移动对象数据等形式出现.目前,根据应用特点与数据形式差异,研究者已经提出了多种针对不确定数据的数据模型.这些不确定性数据模型的核心思想都源自于可能世界模型.可能世界模型从一个或多个不确定的数据源演化出诸多确定的数据库实例,称为可能世界实例,而且所有实例的概率之和等于1.尽管可以首先分别为各个实例计算查询结果,然后合并中间结果以生成最终查询结果,但由于可能世界实例的数量远大于不确定性数据库的规模,这种方法并不可行.因此,必须运用排序、剪枝等启发式技术设计新型算法,以提高效率.文中介绍了不确定性数据管理技术的概念、特点与挑战,综述了数据模型、数据预处理与集成、存储与索引、查询处理等方面的工作. 展开更多
关键词 不确定性数据 可能世界模型 数据集成 世系 不确定数据流
在线阅读 下载PDF
大数据环境下的不确定数据流在线分类算法 被引量:9
7
作者 吕艳霞 王翠荣 +1 位作者 王聪 于长永 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2016年第9期1245-1249,共5页
在大数据环境下,由于隐私保护、数据丢失等原因,数据普遍存在不确定性;数据流系统中数据不断地到达系统,只扫描一遍且不能一次性全部获得;所以要构建一个增量分类模型来处理不确定数据流分类.本文基于VFDT算法提出了WBVFDTu算法,该算法... 在大数据环境下,由于隐私保护、数据丢失等原因,数据普遍存在不确定性;数据流系统中数据不断地到达系统,只扫描一遍且不能一次性全部获得;所以要构建一个增量分类模型来处理不确定数据流分类.本文基于VFDT算法提出了WBVFDTu算法,该算法在学习和分类阶段都可快速而有效地分析不确定信息.在学习期间,采用Hoeffding分解定理构造决策树模型;在分类期间,在决策树的叶子节点利用加权贝叶斯分类算法提高模型的分类准确率和算法的执行效率.最终证明该算法能够非常快速地学习不确定数据流,提高分类的准确率. 展开更多
关键词 不确定数据流 加权贝叶斯 VFDT 分类算法 大数据
在线阅读 下载PDF
不确定数据流最大频繁项集挖掘算法研究 被引量:9
8
作者 刘慧婷 候明利 +1 位作者 赵鹏 姚晟 《计算机工程与应用》 CSCD 北大核心 2016年第19期72-77,93,共7页
对于大型数据,频繁项集挖掘显得庞大而冗余,挖掘最大频繁项集可以减少挖出的频繁项集的个数。可是对于不确定性数据流,传统判断项集是否频繁的方法已不能准确表达项集的频繁性,而且目前还没有在不确定数据流上挖掘最大频繁项集的相关研... 对于大型数据,频繁项集挖掘显得庞大而冗余,挖掘最大频繁项集可以减少挖出的频繁项集的个数。可是对于不确定性数据流,传统判断项集是否频繁的方法已不能准确表达项集的频繁性,而且目前还没有在不确定数据流上挖掘最大频繁项集的相关研究。因此,针对上述不足,提出了一种基于衰减模型的不确定性数据流最大频繁项集挖掘算法TUFSMax。该算法采用标记树结点的方法,使得算法不需要超集检测就可挖掘出所有的最大频繁项集,节约了超集检测时间。实验证明了提出的算法在时间和空间上具有高效性。 展开更多
关键词 不确定性数据流 最大频繁项集 超集检测
在线阅读 下载PDF
一种基于高斯混合模型的不确定数据流聚类方法 被引量:6
9
作者 曹振丽 孙瑞志 李勐 《计算机研究与发展》 EI CSCD 北大核心 2014年第S2期102-109,共8页
传感器的广泛应用产生了大量的不确定数据流,在聚类应用中,当输入数据为连续型随机变量时,现有基于离散型随机变量的聚类方法无法满足数据流应用在效率和精度上的要求.使用高斯混合模型作为不确定数据的基本表示形式,仅需要保存不同组... 传感器的广泛应用产生了大量的不确定数据流,在聚类应用中,当输入数据为连续型随机变量时,现有基于离散型随机变量的聚类方法无法满足数据流应用在效率和精度上的要求.使用高斯混合模型作为不确定数据的基本表示形式,仅需要保存不同组件的描述信息即可,可以更好地利用存储空间,完成对真实情况的逼近,在此基础上提出了一种可以发现时间维度上的不确定数据流聚类方法cumicro,该算法将时间直接作为数据属性,可直接查询某个时间维度的聚簇,避免了传统基于划分的聚类中较难发现非球状聚簇的问题.通过实验与经典算法umicro进行比较,证明了本文算法的有效性,并分析了不同K值、τ值下的聚类结果.最后得出结论,原始数据较密集时,相较原有基于离散模型的聚类,该算法具有准确度上的优势. 展开更多
关键词 高斯混合模型 不确定数据流 聚类 大数据 概要结构
在线阅读 下载PDF
不确定Skyline查询技术研究 被引量:5
10
作者 王意洁 李小勇 +2 位作者 杨永滔 祁亚斐 王广东 《计算机研究与发展》 EI CSCD 北大核心 2012年第10期2045-2053,共9页
当前不确定数据广泛存在于诸如传感器网络、RFID网络、基于位置服务、移动对象管理网上购物和市场监控等各种实际应用中.不确定Skyline查询作为不确定数据管理的一个重要方面,由于其在决策制定、市场分析、环境监控和数据挖掘等方面的... 当前不确定数据广泛存在于诸如传感器网络、RFID网络、基于位置服务、移动对象管理网上购物和市场监控等各种实际应用中.不确定Skyline查询作为不确定数据管理的一个重要方面,由于其在决策制定、市场分析、环境监控和数据挖掘等方面的重要作用,近年来在数据库和网络计算领域受到广泛关注.首先,概述了各种不确定数据类型上的Skyline查询定义,包括离散、连续概率分布模型以及不完全数据上的Skyline查询定义;其次,分析了不确定Skyline查询的特点,并在此基础上综述了现有的各种不确定数据集上的集中式和分布式Skyline查询方法,重点分析了各种算法的原理和优缺点;再次,介绍了不确定数据流上的Skyline查询定义并综述了各种不确定数据流上的Skyline查询方法;最后,基于最新研究动态指出了未来不确定Skyline查询研究的趋势. 展开更多
关键词 SKYLINE 概率 数据流 查询 不确定数据
在线阅读 下载PDF
不确定性数据流上频繁项集挖掘的有效算法 被引量:14
11
作者 刘殷雷 刘玉葆 陈程 《计算机研究与发展》 EI CSCD 北大核心 2011年第S3期1-7,共7页
在很多应用中,不确定性数据都是以流的形式产生,例如传感器网络数据,移动对象跟踪数据等等.已有的基于不确定性数据流的频繁项集挖掘算法往往具有数据流储存结构繁琐、维护困难以及算法的计算量大等缺点.针对这种情况,提出了一种有效的... 在很多应用中,不确定性数据都是以流的形式产生,例如传感器网络数据,移动对象跟踪数据等等.已有的基于不确定性数据流的频繁项集挖掘算法往往具有数据流储存结构繁琐、维护困难以及算法的计算量大等缺点.针对这种情况,提出了一种有效的数据结构SRUF-tree用于储存不确定性数据事务流的项集,该结构由全局树SRtree、临时表Table和窗口队列Queue三部分组成,其中全局树压缩着最近窗口容纳的所有的项集,临时表存储着每批项集的信息.基于该结构设计了一种新的算法SRUF-mine,它挖掘流频繁项集时只需要深度遍历全局树,动态维护SRUF-tree结构只需要处理窗口队列中最旧一批项集的临时表.理论和实验结果表明,SRUF-mine算法是一种有效的挖掘不确定性数据流频繁项集的算法,时空效率和扩展性均优于UF-streaming算法. 展开更多
关键词 不确定数据 数据流 频繁项集
在线阅读 下载PDF
基于自适应快速决策树的不确定数据流概念漂移分类算法 被引量:5
12
作者 刘志军 张杰 许广义 《控制与决策》 EI CSCD 北大核心 2016年第9期1609-1614,共6页
由于不确定数据流中一般隐藏着概念漂移问题,对其进行有效分类存在着很多困难.为此,提出一种基于自适应快速决策树的算法.该算法基于一般决策树算法的原理,以自适应学习规则计算信息增益,以无标记情景学习拆分原理检测不确定数据流中的... 由于不确定数据流中一般隐藏着概念漂移问题,对其进行有效分类存在着很多困难.为此,提出一种基于自适应快速决策树的算法.该算法基于一般决策树算法的原理,以自适应学习规则计算信息增益,以无标记情景学习拆分原理检测不确定数据流中的不确定数值属性,通过自适应快速决策树节点的拆分方法将不确定数值属性转化为不确定分类属性,以实现对不确定数据流的有效分类,进而有效检测到其中隐含的概念漂移现象.仿真结果验证了所提出方法的可靠性. 展开更多
关键词 不确定数据流 自适应快速决策树 概念漂移 数值属性 分类属性
原文传递
面向不确定感知数据的频繁项查询算法 被引量:8
13
作者 王爽 王国仁 《计算机学报》 EI CSCD 北大核心 2013年第3期571-581,共11页
随着计算机网络技术的快速发展,无线传感器网络产生了大量的感知数据流.同时,传感器自身的特点使得感知数据具有不确定的特征,因此需要对传感器网络中不确定感知数据流处理技术进行研究.在传感器网络中,频繁项查询在环境监控和关联规则... 随着计算机网络技术的快速发展,无线传感器网络产生了大量的感知数据流.同时,传感器自身的特点使得感知数据具有不确定的特征,因此需要对传感器网络中不确定感知数据流处理技术进行研究.在传感器网络中,频繁项查询在环境监控和关联规则挖掘等方面具有重要意义.文中首先提出了基本算法,用以连续维护传感器网络中的概率阈值频繁项查询结果.针对基本算法需要维护所有元素的问题,又提出了一种优化算法,算法在两方面进行了优化:(1)设计了一种通过预测元素概率上界的方法进行候选集的构造,仅维护必要信息从而提高查询效率;(2)设计了一种新的cp-list结构,可以压缩不同窗口候选集中的重复元素,降低存储开销.实验结果表明文中提出的算法可以减少连续维护传感器网络中频繁项查询的计算代价和存储空间. 展开更多
关键词 无线传感器网络 不确定数据流 频繁项 概率阈值 过滤 物联网
在线阅读 下载PDF
衰减窗口中的不确定数据流聚类算法 被引量:7
14
作者 屠莉 陈崚 《计算机应用研究》 CSCD 北大核心 2021年第9期2673-2677,2682,共6页
针对现实不确定数据流具备分布非凸性和包含大量噪声等特点,提出不确定数据流聚类算法Clu_Ustream(clustering on uncertain stream)来解决对近期数据进行实时高效聚类演化问题。首先,在线部分利用子窗口采样机制采集滑动窗口中的不确... 针对现实不确定数据流具备分布非凸性和包含大量噪声等特点,提出不确定数据流聚类算法Clu_Ustream(clustering on uncertain stream)来解决对近期数据进行实时高效聚类演化问题。首先,在线部分利用子窗口采样机制采集滑动窗口中的不确定流数据,采用双层概要统计结构链表存储概率密度网格的统计信息;然后,离线聚类过程中通过衰减窗口机制弱化老旧数据的影响,并定期对窗口中的过期子窗口进行清理;同时采用动态异常网格删除机制有效过滤离群点,从而降低算法的时空复杂度。在模拟数据集和网络入侵真实数据集上的仿真结果表明,Clu_Ustream算法与其他同类算法相比具有较高的聚类质量和效率。 展开更多
关键词 不确定数据流 聚类 衰减窗口 采样机制 密度网格 网络入侵
在线阅读 下载PDF
基于引力相似度和相对密度的不确定数据流聚类 被引量:5
15
作者 郑祺 黄德才 《上海交通大学学报》 EI CAS CSCD 北大核心 2016年第6期873-878,共6页
针对不确定数据流聚类问题,提出一种基于引力相似度和相对密度的聚类算法.采用在线/离线两阶段处理框架,综合考虑元组之间的相似度与元组自身的不确定性,利用引力相似度为每个不断到达的数据元组寻找可能归属的微簇,以新的离群点处理和... 针对不确定数据流聚类问题,提出一种基于引力相似度和相对密度的聚类算法.采用在线/离线两阶段处理框架,综合考虑元组之间的相似度与元组自身的不确定性,利用引力相似度为每个不断到达的数据元组寻找可能归属的微簇,以新的离群点处理和在线维护机制来适应数据流的演化情况,并在离线层使用相对密度算法进行聚类,不需要预先指定聚类数且可处理任意形状的微簇.实验结果表明,与现有的聚类方法相比,所提出的算法具有更高的聚类质量和准确度. 展开更多
关键词 不确定数据流 聚类 引力 相似度 相对密度 离群点
在线阅读 下载PDF
基于概率衰减窗口模型的不确定数据流频繁模式挖掘 被引量:15
16
作者 廖国琼 吴凌琴 万常选 《计算机研究与发展》 EI CSCD 北大核心 2012年第5期1105-1115,共11页
考虑到不确定数据流的不确定性,设计了一种新的概率频繁模式树PFP-tree和基于该树的概率频繁模式挖掘方法PFP-growth.PFP-growth使用事务性不确定数据流及概率衰减窗口模型,通过计算各概率数据项的期望支持度以发现概率频繁模式,其主要... 考虑到不确定数据流的不确定性,设计了一种新的概率频繁模式树PFP-tree和基于该树的概率频繁模式挖掘方法PFP-growth.PFP-growth使用事务性不确定数据流及概率衰减窗口模型,通过计算各概率数据项的期望支持度以发现概率频繁模式,其主要特点有:考虑到窗口内不同时间到达数据项的贡献度不同,采用概率衰减窗口模型计算期望支持度,以提高模式挖掘准确度;设置数据项索引表和事务索引表,以加快频繁模式树检索速度;通过剪枝删除不可能成为频繁模式的结点,以降低模式树的存储及检索开销;对每个结点都设立一个事务概率信息链表,以支持数据项在不同事务中具有不同概率的情形.实验结果表明,PFP-growth在保证挖掘模式准确度的前提下,在处理时间和内存空间等方面都具有较好的性能. 展开更多
关键词 不确定数据 数据流 概率频繁模式 频繁模式挖掘 数据挖掘
在线阅读 下载PDF
基于滑动窗口的不确定性数据流频繁项集挖掘算法 被引量:5
17
作者 刘慧婷 周开申 赵鹏 《计算机应用与软件》 CSCD 2015年第12期12-15,共4页
为了提高频繁项集挖掘算法的准确性,在不确定性数据流频繁项集挖掘算法SRUF-mine的基础上引入最大可能误差,提出一种基于滑动窗口的false-positive挖掘算法UFIM。UFIM算法对数据流进行分块处理,在内存中维护一个存储滑动窗口内频繁项集... 为了提高频繁项集挖掘算法的准确性,在不确定性数据流频繁项集挖掘算法SRUF-mine的基础上引入最大可能误差,提出一种基于滑动窗口的false-positive挖掘算法UFIM。UFIM算法对数据流进行分块处理,在内存中维护一个存储滑动窗口内频繁项集的概要数据结构,随着窗口的滑动对该概要结构进行增量更新。实验表明,与SRUF-mine相比,UFIM算法能获得较高的频繁项集挖掘的准确性。 展开更多
关键词 不确定性数据 数据流 频繁项集 滑动窗口
在线阅读 下载PDF
基于网格密度和引力的不确定数据流聚类算法 被引量:4
18
作者 邢长征 温培 《计算机应用研究》 CSCD 北大核心 2015年第1期98-101,共4页
为改进EMicro算法存在的不足提出了GDF-CUStreams算法。该算法采用网格特征向量存储数据的分布特征,通过更新网格特征向量合并成簇对不确定数据流聚类,对新数据点的到来采用增量聚类。通过网格密度和网格质心之间的距离判定网格是否是... 为改进EMicro算法存在的不足提出了GDF-CUStreams算法。该算法采用网格特征向量存储数据的分布特征,通过更新网格特征向量合并成簇对不确定数据流聚类,对新数据点的到来采用增量聚类。通过网格密度和网格质心之间的距离判定网格是否是零星网格,利用网格引力对簇边界进行优化,检测和删除零星网格,使簇边缘更加平滑,提高聚类精度。其中网格密度和网格质心都采用增量更新。实验结果表明,与EMicro算法相比,GDF-CUStreams效率更高且效果良好。 展开更多
关键词 不确定数据流 网格特征向量 网格密度 网格引力 零星网格
在线阅读 下载PDF
一种面向不确定数据流的聚类算法 被引量:2
19
作者 韩东红 王坤 +1 位作者 邵崇雷 马畅 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2016年第12期1677-1682,共6页
作为大数据的重要组成,产生于传感器、移动电话设备、社交网络等的不确定流数据因其具有流速可变、规模宏大、单遍扫描及不确定性等特点,传统聚类算法不能满足用户高效实时的查询要求.首先利用MBR(minimum bounding rectangle)描述不确... 作为大数据的重要组成,产生于传感器、移动电话设备、社交网络等的不确定流数据因其具有流速可变、规模宏大、单遍扫描及不确定性等特点,传统聚类算法不能满足用户高效实时的查询要求.首先利用MBR(minimum bounding rectangle)描述不确定元组的分布特性,并提出一种基于期望距离的不确定数据流聚类算法,计算期望距离范围的上下界剪枝距离较远的簇以减少计算量;其次针对簇内元组的分布特征提出了簇MBR的概念,提出一种基于空间位置关系的聚类算法,根据不确定元组MBR和簇MBR的空间位置关系排除距离不确定元组较远的簇,从而提高聚类算法效率;最后在合成数据集和真实数据集进行实验,结果验证了所提出算法的有效性和高效性. 展开更多
关键词 不确定数据流 聚类 大数据 数据挖掘 最小边界矩形
在线阅读 下载PDF
基于滑动窗口的Top-K概率频繁项查询算法研究 被引量:7
20
作者 王爽 王国仁 《计算机研究与发展》 EI CSCD 北大核心 2012年第10期2189-2197,共9页
频繁项查询在网络监控、网络入侵检测、关联规则挖掘等方面是一项非常重要的技术.该技术在静态的不确定数据中已经得到了深入的研究.但随着数据流特征和不确定性表现的日益明显,在不确定数据流环境下的查询已经成为一项新的研究课题.因... 频繁项查询在网络监控、网络入侵检测、关联规则挖掘等方面是一项非常重要的技术.该技术在静态的不确定数据中已经得到了深入的研究.但随着数据流特征和不确定性表现的日益明显,在不确定数据流环境下的查询已经成为一项新的研究课题.因此基于数据流普遍采用的滑动窗口模型,提出了一种高效的概率Top-K频繁项查询算法sTopK-UFI.该算法避免了每次窗口更新都重新计算查询答案,而是利用现有的计算结果进行增量更新,从而减少查询代价.另外,该算法基于窗口中的现有数据对未来可能成为频繁项的元素进行预测,并利用泊松分布计算元素成为频繁项的概率上下界,提出相应的过滤策略,可以显著减少检测数据的数量,提高查询效率.实验结果表明,所提出算法可以有效地减少候选集、降低搜索空间、改善在不确定数据流上的查询性能. 展开更多
关键词 Top—K 频繁项 不确定数据 数据流 滑动窗口
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部