期刊文献+
共找到67篇文章
< 1 2 4 >
每页显示 20 50 100
CABOSFV algorithm for high dimensional sparse data clustering 被引量:7
1
作者 Sen Wu Xuedong Gao Management School, University of Science and Technology Beijing, Beijing 100083, China 《Journal of University of Science and Technology Beijing》 CSCD 2004年第3期283-288,共6页
An algorithm, Clustering Algorithm Based On Sparse Feature Vector (CABOSFV),was proposed for the high dimensional clustering of binary sparse data. This algorithm compressesthe data effectively by using a tool 'Sp... An algorithm, Clustering Algorithm Based On Sparse Feature Vector (CABOSFV),was proposed for the high dimensional clustering of binary sparse data. This algorithm compressesthe data effectively by using a tool 'Sparse Feature Vector', thus reduces the data scaleenormously, and can get the clustering result with only one data scan. Both theoretical analysis andempirical tests showed that CABOSFV is of low computational complexity. The algorithm findsclusters in high dimensional large datasets efficiently and handles noise effectively. 展开更多
关键词 CLUSTERING data mining sparse high dimensionality
在线阅读 下载PDF
Fast Computation of Sparse Data Cubes with Constraints 被引量:2
2
作者 FengYu-cai ChenChang-qing FengJian-lin XiangLong-gang 《Wuhan University Journal of Natural Sciences》 EI CAS 2004年第2期167-172,共6页
For a data cube there are always constraints between dimensions or among attributes in a dimension, such as functional dependencies. We introduce the problem that when there are functional dependencies, how to use the... For a data cube there are always constraints between dimensions or among attributes in a dimension, such as functional dependencies. We introduce the problem that when there are functional dependencies, how to use them to speed up the computation of sparse data cubes. A new algorithm CFD (Computation by Functional Dependencies) is presented to satisfy this demand. CFD determines the order of dimensions by considering cardinalities of dimensions and functional dependencies between dimensions together, thus reduce the number of partitions for such dimensions. CFD also combines partitioning from bottom to up and aggregate computation from top to bottom to speed up the computation further. CFD can efficiently compute a data cube with hierarchies in a dimension from the smallest granularity to the coarsest one. Key words sparse data cube - functional dependency - dimension - partition - CFD CLC number TP 311 Foundation item: Supported by the E-Government Project of the Ministry of Science and Technology of China (2001BA110B01)Biography: Feng Yu-cai (1945-), male, Professor, research direction: database system. 展开更多
关键词 sparse data cube functional dependency dimension PARTITION CFD
在线阅读 下载PDF
联邦学习在非独立同分布超高维场景中关键技术综述
3
作者 于长钺 廉贵清 苏伟 《信息技术与标准化》 2026年第1期50-56,62,共8页
针对联邦学习在非独立同分布与超高维数据耦合场景的性能退化、通信开销及特征筛选等挑战,从数据预处理、模型优化、通信优化三维度综述关键技术进展;结合自动驾驶、医疗健康、金融科技领域案例,验证隐私合规下模型效能提升的可行性。... 针对联邦学习在非独立同分布与超高维数据耦合场景的性能退化、通信开销及特征筛选等挑战,从数据预处理、模型优化、通信优化三维度综述关键技术进展;结合自动驾驶、医疗健康、金融科技领域案例,验证隐私合规下模型效能提升的可行性。指出当前研究在跨客户端特征对齐、稀疏结构一致性与理论保障的短板,展望跨域关联挖掘、自适应联邦框架及可验证安全机制的发展方向,为联邦学习在复杂超高维异构场景的落地应用提供理论与实践参考。 展开更多
关键词 联邦学习 非独立同分布 超高维数据 稀疏建模 隐私保护
在线阅读 下载PDF
分布式光纤网络中均一性序列数据异常值挖掘方法
4
作者 胡秋生 胡璋 +1 位作者 刘志鹏 曾文辉 《激光杂志》 北大核心 2026年第1期113-118,共6页
光纤网络中的均一性序列数据具有高维度的特点,数据在高维空间中的稀疏性较强,导致正常点和异常点之间的距离差异变得不明显,增加了准确挖掘异常值的难度。故提出针对分布式光纤网络中均一性序列数据的异常值挖掘方法。使用PCA降维方法... 光纤网络中的均一性序列数据具有高维度的特点,数据在高维空间中的稀疏性较强,导致正常点和异常点之间的距离差异变得不明显,增加了准确挖掘异常值的难度。故提出针对分布式光纤网络中均一性序列数据的异常值挖掘方法。使用PCA降维方法对均一性序列数据展开降维处理,采用LDA降维方法对降维后的数据再次展开降维处理,通过降低数据稀疏性,更准确地区分正常和异常数据的投影方向,使二者在低维空间中能够被更明显地区分,通过编码与解码的方式提取降维后的数据特征,将数据特征输入支持向量机内,输出均一性序列数据异常值挖掘结果。实验结果表明,该方法的误报率和漏报率均为0,F1评分分值一直保持在3分以上,提升了异常值的挖掘精度与准确性。 展开更多
关键词 分布式光纤 均一性序列数据 PCA与LDA的数据降维方法 稀疏自编码器 支持向量机
原文传递
基于混合算法的高维稀疏数据安全加密仿真 被引量:1
5
作者 张淑荣 李春平 《计算机仿真》 2025年第2期427-431,共5页
由于高维稀疏数据存在特征难提取、数据存在空值和缺失值等问题,导致对其安全加密难度较大。为了实现对高维稀疏数据安全加密,提出一种基于混合算法的数据安全加密方法。通过对高维稀疏数据值建立对象组,计算组内每个数据属性出现概率,... 由于高维稀疏数据存在特征难提取、数据存在空值和缺失值等问题,导致对其安全加密难度较大。为了实现对高维稀疏数据安全加密,提出一种基于混合算法的数据安全加密方法。通过对高维稀疏数据值建立对象组,计算组内每个数据属性出现概率,标记对象与属性值间相似性,取最大和最小相似性阈值作为参照,求解不同维度数据与阈值间所属关系。采用DES加密算法根据数据维度向量更改明文大小,实现高维和低维数据的密钥分配;利用ECC算法建立椭圆曲线和散列函数,计算数据点在曲线上的散列关系,设立发送端和接收端,通过求解数据在二者间数据稀疏性表达,给出适应度最高的密文,完成混合加密。实验结果表明,所提方法加密效果好,在数据量为1000GB时,其密文空间占比保持在7500B内。 展开更多
关键词 散列函数 高维稀疏数据 数据加密标准加密算法 纠错码加密算法 密钥分配
在线阅读 下载PDF
基于PI-DeepONet算法与稀疏测点数据的两类饱和软土固结行为预测
6
作者 尹掀浪 苏晶晶 +4 位作者 张升 盛岱超 何裕龙 李冉 兰鹏 《铁道科学与工程学报》 北大核心 2025年第10期4542-4552,共11页
为在稀疏测点超孔隙水压力数据条件下预测饱和软土的固结行为,引入物理信息深度算子网络(physics-informed deep operator network,PI-DeepONet)方法,并利用稀疏孔隙水压力测点数据对饱和土体全域内超孔隙水压力分布进行实时预测。通过... 为在稀疏测点超孔隙水压力数据条件下预测饱和软土的固结行为,引入物理信息深度算子网络(physics-informed deep operator network,PI-DeepONet)方法,并利用稀疏孔隙水压力测点数据对饱和土体全域内超孔隙水压力分布进行实时预测。通过分析常规黏土变形固结及软弱黏土大变形固结2个实例进行预测,引入相对L2误差和R2这2个评估指标,验证了PI-DeepONet算法在预测全域超孔隙水压力演化方面的性能,并与纯数据驱动的DeepONet算法的计算结果进行了对比。预测结果表明:在相同的测点数目和各测点拥有相同超孔隙水压力数据量的条件下,DeepONet算法对全域超孔隙水压力的预测绝对误差在10^(-2)~10^(-1)左右,而PI-DeepONet算法的绝对误差范围则在10^(−3)~10^(-2)左右,表现出更好的预测效果。其次,在常规黏土变形固结行为研究中,通过对超孔隙水压力数据添加3种不同噪声水平来模拟现场监测环境,观察到即使噪声水平达到5%,PI-DeepONet算法仍能在水压力数据稀疏且带噪声的条件下提供高质量的全域超孔隙水压力实时预测。最后,在软弱黏土大变形固结行为研究中,将PI-DeepONet算法运用于上下边界排水速率不同的固结问题中,发现训练好的一维模型在单一测点条件下,能对其他界面参数条件下饱和土体全域内超孔隙水压力分布规律进行准确预测,表明PIDeepONet算法能为岩土工程中相关问题提供新的解决办法。 展开更多
关键词 一维固结 稀疏数据 超孔隙水压力 界面参数 物理信息深度算子网络
在线阅读 下载PDF
基于稀疏子空间聚类算法的高维数据聚类研究
7
作者 王成礼 王洁 陈乃健 《自动化与仪器仪表》 2025年第1期84-88,共5页
针对医疗数据规模大、维度高的问题,由于采用传统的聚类算法对其处理计算复杂度较高,且准确率较低。研究基于稀疏子空间聚类算法设计了一种医疗数据分类方法,并引入了无监督度量学习对分类中的预处理过程进行优化,提出一种结合稀疏子空... 针对医疗数据规模大、维度高的问题,由于采用传统的聚类算法对其处理计算复杂度较高,且准确率较低。研究基于稀疏子空间聚类算法设计了一种医疗数据分类方法,并引入了无监督度量学习对分类中的预处理过程进行优化,提出一种结合稀疏子空间聚类算法和无监督度量学习的高维医疗数据分类方法。结果显示,设计方法的平均概率兰德指数为0.85,高于其他算法,设计方法的平均信息变化指数为1.54,低于其他算法,证明其鲁棒性较强。在不同数据集上,设计方法的误分率分别为1.2%和0.9%,证明了其分类精度较高。设计方法在处理高维医疗数据方面具有较高的可靠性,其能够在医疗数据分析领域发挥重要作用,并为精准医疗、疾病预测和诊断提供有力的支持。 展开更多
关键词 医疗数据 高维 稀疏子空间聚类 无监督度量学习
原文传递
群体稀疏张量分解的动态剪枝能场推荐框架
8
作者 周维柏 李长龙 +1 位作者 黄丹 李蓉 《佳木斯大学学报(自然科学版)》 2025年第8期48-51,59,共5页
为解决协同过滤推荐系统中多目标动态均衡与计算效率协同优化问题,提出基于稀疏特征建模与生物启发优化的混合框架。首先,通过张量Tucker分解提取低秩语义特征,结合改进谱聚类与动态剪枝技术消除稀疏子群噪声,以有效降低数据维度与计算... 为解决协同过滤推荐系统中多目标动态均衡与计算效率协同优化问题,提出基于稀疏特征建模与生物启发优化的混合框架。首先,通过张量Tucker分解提取低秩语义特征,结合改进谱聚类与动态剪枝技术消除稀疏子群噪声,以有效降低数据维度与计算复杂度;其次,构建群体稀疏度感知的动态权重集成模型,在隐因子分解基础上利用集成学习优化权重分布,缓解数据稀疏导致的预测误差;最后,将推荐参数映射至分子构象空间,借助仿生算法搜索全局Pareto最优解集。实验表明,该方法在推荐精度、多样性和计算效率等关键指标上显著优于现有主流算法。 展开更多
关键词 多目标优化 协同过滤 分子对接 张量分解 高维稀疏数据
在线阅读 下载PDF
基于高维非稀疏条件偏相关系数的估计研究
9
作者 杨静颖 晏梅 《重庆工商大学学报(自然科学版)》 2025年第3期118-126,共9页
目的针对不同偏相关系数的估计方法,提出在高维非稀疏条件下不同偏相关系数估计方法的算法性能、估计准确性和效率的探讨方法。方法现有Pcor估计方法的研究主要关注高维数据和稀疏性假设下偏相关关系的存在性,但是,在非稀疏条件下,Pcor... 目的针对不同偏相关系数的估计方法,提出在高维非稀疏条件下不同偏相关系数估计方法的算法性能、估计准确性和效率的探讨方法。方法现有Pcor估计方法的研究主要关注高维数据和稀疏性假设下偏相关关系的存在性,但是,在非稀疏条件下,Pcor估计方法的算法效率和估计准确性研究较为缺乏。本研究综合考虑了适用于非稀疏条件的偏相关系数估计方法,并采用正则化方法处理相应的高维回归模型,进一步探索估计方法对偏相关系数的估计性能和效率,为验证不同算法的估计表现,进行了大量的数值模拟实验,并分析了股票市场中的实际数据。结果在高维非稀疏条件下,无偏自适应LASSO和渐进无偏MCP在偏相关系数的估计中表现都很出色。结论在高维非稀疏条件下,偏相关系数的估计方法与高维稀疏条件下呈现出相似的特点:当Pcor为负值时,估计较为准确;当Pcor为正值时,估计存在一定的偏差。在正则化方法的选择上,无偏自适应LASSO和渐进无偏的MCP方法综合表现都优于相应的有偏LASSO方法,特别地,在小样本量下,自适应LASSO·RES算法表现较优,而在大样本量下,MCP·REG2较好,其中,REG2方法在Pcor取正值时效果最好。值得注意的是,相较于稀疏条件下控制变量得到有效控制,在非稀疏条件下控制变量的干扰和影响增多,因此当非稀疏条件越趋近于稀疏条件时,算法误差越低,效率越高;在适当的非稀疏性条件下,无偏自适应LASSO·RES和渐进无偏MCP·REG2算法都表现良好,也有较好的鲁棒性和稳定性;在较强非稀疏性条件下自适应LASSO·RF算法表现最好。 展开更多
关键词 偏相关系数 高维数据 非稀疏条件 正则化方法 LASSO 自适应LASSO MCP
在线阅读 下载PDF
A combined p-value test for the mean difference of high-dimensional data
10
作者 Wei Yu Wangli Xu Lixing Zhu 《Science China Mathematics》 SCIE CSCD 2019年第5期961-978,共18页
This paper proposes a novel method for testing the equality of high-dimensional means using a multiple hypothesis test. The proposed method is based on the maximum of standardized partial sums of logarithmic p-values ... This paper proposes a novel method for testing the equality of high-dimensional means using a multiple hypothesis test. The proposed method is based on the maximum of standardized partial sums of logarithmic p-values statistic. Numerical studies show that the method performs well for both normal and non-normal data and has a good power performance under both dense and sparse alternative hypotheses. For illustration, a real data analysis is implemented. 展开更多
关键词 HIGH-dimensional data EQUALITY of means multiple HYPOTHESIS testing sparse alternatives
原文传递
基于三维点云聚类的坡度估计方法 被引量:15
11
作者 李海波 曹云峰 +1 位作者 丁萌 庄丽葵 《计量学报》 CSCD 北大核心 2018年第3期304-309,共6页
为了提高火星探测器着陆时对坡度的估计精度,研究了一种基于三维点云数据聚类与随机搜索最优拟合平面的坡度估计方法。将通过激光雷达测量获得的三维点云数据进行稀疏表示,利用稀疏系数对数据点进行聚类与分割,划分子空间;对子空间中的... 为了提高火星探测器着陆时对坡度的估计精度,研究了一种基于三维点云数据聚类与随机搜索最优拟合平面的坡度估计方法。将通过激光雷达测量获得的三维点云数据进行稀疏表示,利用稀疏系数对数据点进行聚类与分割,划分子空间;对子空间中的数据点进行平面拟合,随机搜索最优拟合平面;根据最优拟合平面计算平面法向量之间夹角,其在数值上等于坡度角,从而完成坡度估计。实验表明:该方法可以对坡度进行较为准确的估计;与常用的坡度估计方法相比,相对误差较小。 展开更多
关键词 计量学 坡度估计 三维点云 稀疏表示 数据聚类
在线阅读 下载PDF
基于SS/OSF实现高维稀疏数据对象的聚类 被引量:5
12
作者 吴萍 宋瀚涛 +2 位作者 牛振东 张利萍 张聚礼 《北京理工大学学报》 EI CAS CSCD 北大核心 2006年第3期216-220,共5页
为了解决传统聚类方法处理高维稀疏数据对象时聚类结果不理想的问题,提出了SS/OSF聚类方法.该方法基于对象组相似度(SS)和对象组特征向量(OSF),并借助对象组特征向量的可加性实现.采用本方法得到高维稀疏数据对象的聚类结果后,可以根据... 为了解决传统聚类方法处理高维稀疏数据对象时聚类结果不理想的问题,提出了SS/OSF聚类方法.该方法基于对象组相似度(SS)和对象组特征向量(OSF),并借助对象组特征向量的可加性实现.采用本方法得到高维稀疏数据对象的聚类结果后,可以根据聚类结果中各个对象集合的上确界和下确界为新对象进行对象组分类.实验表明,与传统K-means聚类方法相比,随着数据对象数目的增加,该方法无论是在运行时间上,还是在聚类结果的准确度方面都有明显的改进. 展开更多
关键词 高维稀疏二态数据 对象组相似度 对象组特征向量 聚类 分类
在线阅读 下载PDF
相关子空间中的局部离群数据挖掘算法研究 被引量:17
13
作者 李永红 张继福 荀亚玲 《小型微型计算机系统》 CSCD 北大核心 2015年第3期460-465,共6页
针对高维数据集,采用局部稀疏差异和局部密度差异的度量因子,给出一种相关子空间中的局部离群数据挖掘算法.该算法根据K最近邻(K-NN),确定数据集中各数据对象的局部数据集,并依据属性值的稀疏因子生成全局的稀疏因子矩阵和局部稀疏因子... 针对高维数据集,采用局部稀疏差异和局部密度差异的度量因子,给出一种相关子空间中的局部离群数据挖掘算法.该算法根据K最近邻(K-NN),确定数据集中各数据对象的局部数据集,并依据属性值的稀疏因子生成全局的稀疏因子矩阵和局部稀疏因子矩阵,从而有效地反映了数据对象的局部稀疏程度;根据局部稀疏因子矩阵,计算属性维对应的局部稀疏差异因子,并确定数据对象对应的子空间定义向量,从而体现了具有任意性相关的相关子空间;如果数据对象存在相关子空间,则采用高斯误差函数体现相关子空间中各数据对象的局部密度差异,有效地降低了"维灾"的影响,使得离群数据的度量与相关子空间的维度无关,并能够度量相关子空间的数据对象,否则设置数据对象的局部密度差异为0,表明其为正常数据;选取局部密度差异(离群程度)最大的若干数据对象作为局部离群数据;最后采用UCI和恒星光谱数据集,实验验证了该算法的有效性. 展开更多
关键词 局部离群数据 高维数据集 局部稀疏差异 局部密度差异 相关子空间
在线阅读 下载PDF
结合L1和L2正则化约束的隐语义预测模型研究 被引量:7
14
作者 王德贤 何先波 +2 位作者 贺春林 周坤 陈敏治 《计算机工程与应用》 CSCD 北大核心 2019年第19期121-127,共7页
在大数据领域中预测高维稀疏矩阵中的缺失数据,通常采用随机梯度下降算法构造隐语义模型来对缺失数据进行预测。在随机梯度下降算法来求解模型的过程中经常加入正则化项来提高模型的性能,由于L1正则化项不可导,目前在隐语义模型中主要... 在大数据领域中预测高维稀疏矩阵中的缺失数据,通常采用随机梯度下降算法构造隐语义模型来对缺失数据进行预测。在随机梯度下降算法来求解模型的过程中经常加入正则化项来提高模型的性能,由于L1正则化项不可导,目前在隐语义模型中主要通过加入L2正则化项来构建隐语义模型(SGD_LF)。但因为L1正则化项能提高模型的稀疏性增强模型求解能力,因此提出一种基于L1和L2正则化约束的隐语义(SPGD_LF)模型。在通过构建目标函数时,同时引入L1和L2正则化项。由于目标函数满足利普希茨条件,并通过二阶的泰勒展开对目标函数进行逼近,构造出随机梯度下降的求解器,在随机梯度下降求解隐语义模型的过程中通过软阈值来处理L1正则化项所对应的边界优化问题。通过此优化方案,可以更好地表达目标矩阵中的已知数据在隐语义空间中的特征和对应的所属社区关系,提高了模型的泛化能力。通过在大型工业数据集上的实验表明,SPGD_LF模型的预测精度、稀疏性和收敛速度等性能都有显著提高。 展开更多
关键词 大数据应用 高维稀疏矩阵 隐语义
在线阅读 下载PDF
高维数据分类中的特征降维研究 被引量:5
15
作者 刘立月 黄兆华 刘遵雄 《江西师范大学学报(自然科学版)》 CAS 北大核心 2012年第2期131-134,共4页
以高维分类为目标,从分类的准确率与模型解释性角度探讨了降维的必要性,分析了特征选择与抽取2类方法特点,并对常用的特征抽取方法,包括主成分分析(PCA)、偏最小二乘(PLS)和非负矩阵分解(NMF)进行了阐述.考虑到约减后的数据缺乏稀疏性... 以高维分类为目标,从分类的准确率与模型解释性角度探讨了降维的必要性,分析了特征选择与抽取2类方法特点,并对常用的特征抽取方法,包括主成分分析(PCA)、偏最小二乘(PLS)和非负矩阵分解(NMF)进行了阐述.考虑到约减后的数据缺乏稀疏性与可解释性,提出了基于稀疏正则化的特征抽取模型,为高维特征降维提供了一种新思路. 展开更多
关键词 高维数据 降维 特征抽取 稀疏正则化
在线阅读 下载PDF
基于稀疏聚类的高维数据特征选择及应用 被引量:3
16
作者 张陶陶 胡亚南 +1 位作者 李扬 田茂再 《统计与决策》 CSSCI 北大核心 2017年第4期18-24,共7页
文章研究了一种高维数据聚类特征选择方法——稀疏聚类,稀疏聚类是通过对特征变量赋予权重,并添加lasso惩罚因子,压缩权重,得到对变量的权重排序,即重要性排序,使其在进行分类预测的同时达到自动剔除冗余变量的效果,从而起到了对高维数... 文章研究了一种高维数据聚类特征选择方法——稀疏聚类,稀疏聚类是通过对特征变量赋予权重,并添加lasso惩罚因子,压缩权重,得到对变量的权重排序,即重要性排序,使其在进行分类预测的同时达到自动剔除冗余变量的效果,从而起到了对高维数据聚类时的特征选择作用。将此方法运用于中国环保问题,将中国31个省份根据环保情况分为3类,并从现有的104个环保指标中筛选得到20个重要指标。 展开更多
关键词 稀疏聚类 高维数据 聚类 特征选择
在线阅读 下载PDF
基于排序思想的高维稀疏数据聚类 被引量:2
17
作者 祝琴 高学东 +2 位作者 武森 陈敏 陈华 《计算机工程》 CAS CSCD 北大核心 2010年第22期13-14,共2页
针对CABOSFV聚类算法对数据输入顺序的敏感性问题,提出融合排序思想的高属性维稀疏数据聚类算法,通过计算首次聚类中两两高属性维稀疏数据非零属性取值情况确定所需要计算差异度的集合组合,减小了算法复杂度。应用结果表明,该方法能提高... 针对CABOSFV聚类算法对数据输入顺序的敏感性问题,提出融合排序思想的高属性维稀疏数据聚类算法,通过计算首次聚类中两两高属性维稀疏数据非零属性取值情况确定所需要计算差异度的集合组合,减小了算法复杂度。应用结果表明,该方法能提高CABOSFV聚类的质量。 展开更多
关键词 高维稀疏数据 CABOSFV聚类 排序
在线阅读 下载PDF
考虑数据排序的改进CABOSFV聚类 被引量:2
18
作者 武森 王静 谭一松 《计算机工程与应用》 CSCD 北大核心 2011年第34期127-129,共3页
CABOSFV是基于稀疏特征进行高维数据聚类的高效算法,但算法的聚类质量受数据输入顺序的影响。针对此问题,提出考虑数据排序的改进CABOSFV聚类(CABOSFV_CS),通过定义稀疏性指数来描述数据的稀疏特征,并按照稀疏性指数升序对数据进行排序... CABOSFV是基于稀疏特征进行高维数据聚类的高效算法,但算法的聚类质量受数据输入顺序的影响。针对此问题,提出考虑数据排序的改进CABOSFV聚类(CABOSFV_CS),通过定义稀疏性指数来描述数据的稀疏特征,并按照稀疏性指数升序对数据进行排序以改进CABOSFV算法的聚类质量。采用UCI基准数据集进行实验,结果表明与传统的CABOSFV算法相比,CABOSFV_CS有效地提高了聚类准确率。 展开更多
关键词 CABOSFV算法 高维数据 稀疏特征 聚类
在线阅读 下载PDF
一种基于粒度原理的多指标综合Web用户聚类算法 被引量:3
19
作者 赵洁 董振宁 +1 位作者 张沙清 肖南峰 《计算机应用研究》 CSCD 北大核心 2011年第7期2427-2431,2435,共6页
为了解决传统聚类算法难以获得较好的Web用户聚类结果、使用的指标无法全面反映用户行为特征的问题,提出一种基于粒度原理的Web用户聚类算法。首先对离散化数据给出稀疏相似度和初始等价关系的定义,进行初次聚类;然后设计可变精度的二... 为了解决传统聚类算法难以获得较好的Web用户聚类结果、使用的指标无法全面反映用户行为特征的问题,提出一种基于粒度原理的Web用户聚类算法。首先对离散化数据给出稀疏相似度和初始等价关系的定义,进行初次聚类;然后设计可变精度的二次聚类模型对初始聚类结果进行修正;最后结合应用领域定义一种新的聚类质量评价模型。算法中面向Web用户引入多指标体系,各种指标既可独立考核,也可灵活组合,并同时兼顾决策者对指标的偏好。实验证明,该算法适用于Web用户的高维稀疏数据,不依赖样本的顺序,具有更广应用性,可提供多粒度分析结果,得到的聚类结果能真实反映数据的特征。 展开更多
关键词 WEB使用挖掘 粒度原理 高属性维稀疏数据 多指标 聚类质量评价
在线阅读 下载PDF
基于线性投影结构的非负矩阵分解 被引量:23
20
作者 李乐 章毓晋 《自动化学报》 EI CSCD 北大核心 2010年第1期23-39,共17页
非负矩阵分解(Non-negative matrix factorization,NMF)是一个近年来非常流行的非负数据处理方法,它常用于维数约减、特征提取和数据挖掘等.NMF定义中采用的数学模型基于非线性投影结构构造,这决定了NMF降维需借助计算量很大的迭代操作... 非负矩阵分解(Non-negative matrix factorization,NMF)是一个近年来非常流行的非负数据处理方法,它常用于维数约减、特征提取和数据挖掘等.NMF定义中采用的数学模型基于非线性投影结构构造,这决定了NMF降维需借助计算量很大的迭代操作来实现.此外,由此模型提取的NMF特征常不稀疏,这与NMF的设计期望相差甚远.为一并解决上述两个问题,本文提出了一个新的模型—基于线性投影结构的NMF(Linear projection-based NMF,LPBNMF),并构造了一个单调的LPBNMF算法.从数学的角度看,LPBNMF可理解为实现NMF的一种特殊方式.LPBNMF降维通过线性变换来完成,它所采用的数学模型的自身结构特点决定了由其得到的特征一定非常稀疏.大量的比较实验表明,LPBNMF的降维效率显著高于NMF,LPBNMF特征明显比NMF特征更稀疏和局部化.最后,基于AR人脸数据库的实验揭示,LPBNMF特征比NMF、LDA以及PCA等特征更适合于用最近邻分类法处理有遮挡人脸识别问题. 展开更多
关键词 非负矩阵分解 基于线性投影结构的非负矩阵分解 特征提取 数据描述 降维效率 稀疏特征 有遮挡人脸识别
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部