-
题名基于Squeezer算法的文本数据流聚类
被引量:3
- 1
-
-
作者
尤薇佳
刘鲁
刘丹
李明
-
机构
北京航空航天大学经济管理学院
中国石油大学工商管理学院
-
出处
《控制与决策》
EI
CSCD
北大核心
2012年第4期542-546,共5页
-
基金
国家自然科学基金项目(90924020)
教育部博士点基金项目(200800060005)
阿里巴巴青年学者支持计划项目(活水计划Ali-2010-B-6)
-
文摘
为解决数据流聚类中的"链式数据"问题以及文本数据流存在的高维、稀疏、多主题问题,以Squeezer聚类算法为基础,重新定义了聚类过程中类的质心、半径和判别距离.提出了一种改进算法,通过加入数据预处理环节来提高聚类精度,通过投影聚类提高聚类效率并为簇赋予语义.最后通过在互联网新闻语料的聚类实验,表明了所提出的算法能够以较小的速度代价换来聚类效果的大幅提升,性能显著优于Squeezer算法.
-
关键词
文本数据流
squeezer算法
投影聚类
-
Keywords
text stream
squeezer algorithm projected clustering
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于Squeezer算法的数据流离群数据挖掘算法
被引量:1
- 2
-
-
作者
王超
倪志伟
朱小虎
-
机构
合肥工业大学
-
出处
《计算机技术与发展》
2008年第1期87-89,92,共4页
-
基金
国家自然科学基金项目(70631003)
安徽省教育厅科研项目(2006sk010)
-
文摘
由于数据流数据的动态性、时序性和数据量大等特点使得数据流上的数据挖掘变得更加困难和富有挑战。通过对Squeezer聚类算法的研究分析,并基于此算法提出了一种新的基于聚类的数据流离群数据检测算法O-Squeezer。把数据流看成一个随时间变化的过程,并将其分成许多数据分区,在每个数据块内用改进的O-Squeezer算法挖掘离群数据。理论分析和实验表明,算法可以有效发现数据流中的局部离群数据,算法是可行的。
-
关键词
数据挖掘
数据流离群数据
质心
squeezer聚类算法
-
Keywords
data mining
data stream outliers
centroid
squeezer cluster algorithm
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-