期刊文献+
共找到40篇文章
< 1 2 >
每页显示 20 50 100
A Data Stream Subspace Clustering Algorithm
1
作者 Xiang Yu Xiandong Xu Liandong Lin 《国际计算机前沿大会会议论文集》 2015年第1期97-99,共3页
The main aim of data stream subspace clustering is to find clusters in subspace in rational time accurately. The existing data stream subspace clustering algorithms are greatly influenced by parameters. Due to the fla... The main aim of data stream subspace clustering is to find clusters in subspace in rational time accurately. The existing data stream subspace clustering algorithms are greatly influenced by parameters. Due to the flaws of traditional data stream subspace clustering algorithms, we propose SCRP, a new data stream subspace clustering algorithm. SCRP has the advantages of fast clustering and being insensitive to outliers. When data stream changes, the changes will be recorded by the data structure named Region-tree, and the corresponding statistics information will be updated. Further SCRP can regulate clustering results in time when data stream changes. According to the experiments on real datasets and synthetic datasets, SCRP is superior to the existing data stream subspace clustering algorithms on both clustering precision and clustering speed, and it has good scalability to the number of clusters and dimensions. 展开更多
关键词 data MINING data STREAM SUBSPACE clustering FEATURE selection dimension reduction
在线阅读 下载PDF
Federated Sufficient Dimension Reduction Through High-Dimensional Sparse Sliced Inverse Regression
2
作者 Wenquan Cui Yue Zhao +1 位作者 Jianjun Xu Haoyang Cheng 《Communications in Mathematics and Statistics》 2025年第3期719-756,共38页
Federated learning has become a popular tool in the big data era nowadays.It trains a centralized model based on data from different clients while keeping data decentralized.In this paper,we propose a federated sparse... Federated learning has become a popular tool in the big data era nowadays.It trains a centralized model based on data from different clients while keeping data decentralized.In this paper,we propose a federated sparse sliced inverse regression algorithm for the first time.Our method can simultaneously estimate the central dimension reduction subspace and perform variable selection in a federated setting.We transform this federated high-dimensional sparse sliced inverse regression problem into a convex optimization problem by constructing the covariance matrix safely and losslessly.We then use a linearized alternating direction method of multipliers algorithm to estimate the central subspace.We also give approaches of Bayesian information criterion and holdout validation to ascertain the dimension of the central subspace and the hyperparameter of the algorithm.We establish an upper bound of the statistical error rate of our estimator under the heterogeneous setting.We demonstrate the effectiveness of our method through simulations and real world applications. 展开更多
关键词 Federated learning Sliced inverse regression Sufficient dimension reduction variable selection
原文传递
基于数据驱动的SCR出口NO_(x)排放预测模型
3
作者 李悦 《电站系统工程》 2025年第6期4-7,共4页
针对选择性催化还原(SCR)脱硝系统反应过程复杂,存在大惯性、非线性和强干扰性的特点,难以准确建立出口NOx浓度排放模型,提出一种考虑实验特征的基于深度学习的SCR出口NO_(x)排放量建模算法。首先,基于互信息(MI)分析变量与NO_(x)排放... 针对选择性催化还原(SCR)脱硝系统反应过程复杂,存在大惯性、非线性和强干扰性的特点,难以准确建立出口NOx浓度排放模型,提出一种考虑实验特征的基于深度学习的SCR出口NO_(x)排放量建模算法。首先,基于互信息(MI)分析变量与NO_(x)排放之间的时延特性,重构候选数据集,然后结合机理和套索算法(LASSO)分析特征变量重要性,选取与NO_(x)排放量最相关的变量。最后,设计深度神经网络结构并优化网络参数,建立SCR出口NO_(x)排放量预测模型。基于火电厂实际运行数据的实验结果表明,该模型能够满足实际生产对预测精度的要求。 展开更多
关键词 选择性催化还原 NO_(x)排放预测 神经网络 特征降维 数据重构
原文传递
一种基于区域划分的数据流子空间聚类方法 被引量:15
4
作者 于翔 印桂生 +1 位作者 许宪东 王建伟 《计算机研究与发展》 EI CSCD 北大核心 2014年第1期88-95,共8页
数据流子空间聚类的主要目的是在合理的时间段内准确找到数据流特征子空间中的聚类.现有的数据流子空间聚类算法受参数影响较大,通常要求预先给出聚类数目或特征子空间,且聚类结果不能及时反映数据流的变化情况.针对以上缺陷,提出一种... 数据流子空间聚类的主要目的是在合理的时间段内准确找到数据流特征子空间中的聚类.现有的数据流子空间聚类算法受参数影响较大,通常要求预先给出聚类数目或特征子空间,且聚类结果不能及时反映数据流的变化情况.针对以上缺陷,提出一种新的数据流子空间聚类算法SC-RP,SC-RP无需预先给出聚类数目或特征子空间,对孤立点不敏感,可实现快速聚类,通过区域树结构记录数据流的变化并及时更新统计信息,进而根据数据流的变化调整聚类结果.通过在真实数据集与仿真数据集上的实验,证明了SC-RP在聚类精度和速度上优于现有的数据流子空间聚类算法,且对聚类数目及数据维度均具有良好的伸缩性. 展开更多
关键词 数据挖掘 数据流 子空间聚类 特征选择 维度约简
在线阅读 下载PDF
基于主基底分析的变量筛选 被引量:18
5
作者 王惠文 仪彬 叶明 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2008年第11期1288-1291,共4页
利用Gram-Schmidt变换,提出一种主基底分析方法.解释并证明了Gram-Schmidt变换所删除的信息量.给出"主基底"的定义及构造方法,并提出"净信息含量比"的概念,用以测度所选基底包含的信息.该方法能在原始数据信息损失... 利用Gram-Schmidt变换,提出一种主基底分析方法.解释并证明了Gram-Schmidt变换所删除的信息量.给出"主基底"的定义及构造方法,并提出"净信息含量比"的概念,用以测度所选基底包含的信息.该方法能在原始数据信息损失尽可能小的前提下,排除所有的冗余变量以及变量集合中的重叠信息,得到一个正交的主基底,从而更有效地对大规模变量集合中的信息进行筛选.多角度的理论分析指出,主基底在尽可能多地携带原始变量信息的同时,还可保证样本点间的相似性改变最小.实际案例分析说明了该方法的合理性和有效性. 展开更多
关键词 Gram—Schmidt变换 变量筛选 数据降维 主基底
在线阅读 下载PDF
基于可变k近邻LLE数据降维的图像检索方法 被引量:10
6
作者 李勇 陈贺新 +2 位作者 赵刚 孙中华 陈绵书 《吉林大学学报(工学版)》 EI CAS CSCD 北大核心 2008年第4期946-949,共4页
在基于内容的图像检索中,其计算复杂度随着描述图像内容的特征向量的维数的增加而急剧增加,而应用局部嵌入算法(LLE)进行数据降维时,需要确定近邻点k的个数。根据图像特征在原空间的分布情况,提出了一种可变k近邻LLE的数据降维方法,使... 在基于内容的图像检索中,其计算复杂度随着描述图像内容的特征向量的维数的增加而急剧增加,而应用局部嵌入算法(LLE)进行数据降维时,需要确定近邻点k的个数。根据图像特征在原空间的分布情况,提出了一种可变k近邻LLE的数据降维方法,使得降维后的特征向量有效地保持了其在高维空间中的拓扑结构。实验结果表明,提出的可变k近邻LLE数据降维方法在基于内容的图像检索中有较高的检索准确率。 展开更多
关键词 信息处理技术 局部嵌入算法 可变k近邻 数据降维
在线阅读 下载PDF
基于弹性网降维及花授粉算法优化BP神经网络的短期电力负荷预测 被引量:46
7
作者 张淑清 杨振宁 +2 位作者 张立国 苑世钰 王志义 《仪器仪表学报》 EI CAS CSCD 北大核心 2019年第7期47-54,共8页
电力负荷预测为电力系统规划和运行提供可靠的决策依据。随着智能电网的全面发展,数据采集与监视控制系统(SCADA)获取数据量增加,数据的结构也更加复杂,负荷的频繁变化以及地区性的气象因素等都将影响负荷的预测的准确性。提出一种弹性... 电力负荷预测为电力系统规划和运行提供可靠的决策依据。随着智能电网的全面发展,数据采集与监视控制系统(SCADA)获取数据量增加,数据的结构也更加复杂,负荷的频繁变化以及地区性的气象因素等都将影响负荷的预测的准确性。提出一种弹性网(EN)进行大数据降维以及花授粉算法(FPA)优化BP神经网络的短期电力负荷预测方法。首先采用弹性网对负荷和气象等高维大数据进行选择和降维。弹性网通过在惩罚项中添加L1范数和L2范数,兼具了最小绝对值收缩及变量选择(LASSO)和岭回归的优点,克服了LASSO降维时因为数据内部存在共线性和群组效应而影响降维效果的问题;然后,考虑到BP神经网络权值和阈值容易受到初值的影响、收敛速度慢以及容易陷入局部最优,引入花授粉算法(FPA)优化BP神经网络,通过与粒子群算法(PSO)对比得出花授粉算法寻优速度更快,效果更好。本文方法应用于实际电力负荷预测,结果表明能有效提高预测精度。 展开更多
关键词 短期电力负荷预测 大数据变量选择及降维 最小绝对值收缩及变量选择 弹性网 花授粉算法优化BP神经网络
原文传递
光谱数据的特征挖掘降维方法 被引量:4
8
作者 戴琼海 张晶 +1 位作者 李菲菲 范静涛 《数据采集与处理》 CSCD 北大核心 2016年第6期1097-1105,共9页
"去繁存精"的光谱数据解耦方法可去除高维光谱数据的大量冗余,提炼其特征谱段,是光谱仪器得以广泛应用的重要基础。应用各异性和光谱特征优选方法普适性所构成的矛盾,在一定程度上制约了光谱仪器的应用。本文提出了序列前向选... "去繁存精"的光谱数据解耦方法可去除高维光谱数据的大量冗余,提炼其特征谱段,是光谱仪器得以广泛应用的重要基础。应用各异性和光谱特征优选方法普适性所构成的矛盾,在一定程度上制约了光谱仪器的应用。本文提出了序列前向选择(Sequential forward selection,SFS)的光谱特征自适应数据挖掘方法,生成最优变量组合作为支持向量机(Support vector machine,SVM)分类模型的输入,在对光谱数据降维的同时,实现了高精度的数据分类。本文方法可有效解决大量光谱数据的多类分类问题,并在红木分类中得到了实际验证和应用,为破解因光谱特征峰高度混叠而难以进行主观经验特征选择的困境提供了新思路。 展开更多
关键词 光谱数据 特征挖掘 序列前向选择 数据降维
在线阅读 下载PDF
基于神经网络的大规模数据集离群点检测算法 被引量:12
9
作者 高志宇 宋学坤 +2 位作者 肖俊生 闫培玲 孙新娟 《沈阳工业大学学报》 CAS 北大核心 2022年第4期420-425,共6页
针对传统方法在检测离群点时常因冗余数据的干扰而导致检测用时较长、检测准确率偏低的问题,设计了基于神经网络的大规模数据集离群点检测算法.采用核主成分分析方法对大规模数据集进行降维处理,去除其中存在的冗余数据,利用神经网络在... 针对传统方法在检测离群点时常因冗余数据的干扰而导致检测用时较长、检测准确率偏低的问题,设计了基于神经网络的大规模数据集离群点检测算法.采用核主成分分析方法对大规模数据集进行降维处理,去除其中存在的冗余数据,利用神经网络在误差函数的基础上实现对离群点的检测.结果表明:该算法的检测时间始终低于0.4 min,且检测准确率始终保持在90%以上,说明该算法能够快速、准确地检测大规模数据集中的离群点. 展开更多
关键词 神经网络 大规模数据集 离群点检测 冗余数据 降维处理 误差函数 核主成分分析 中心势值
在线阅读 下载PDF
大规模数据的分块SCAD惩罚回归分析 被引量:3
10
作者 蔡超 许启发 +1 位作者 蒋翠侠 王艳明 《数理统计与管理》 CSSCI 北大核心 2018年第6期1023-1040,共18页
受到计算内存的限制,大规模数据的回归分析往往难以奏效。为此,借用“化整为零”的思想,提出了一个新的回归分析方法:分块SCAD惩罚回归。该方法核心在于:将大规模数据划分成若干个块,对每一个块进行SCAD惩罚回归,最后将每个块的参数... 受到计算内存的限制,大规模数据的回归分析往往难以奏效。为此,借用“化整为零”的思想,提出了一个新的回归分析方法:分块SCAD惩罚回归。该方法核心在于:将大规模数据划分成若干个块,对每一个块进行SCAD惩罚回归,最后将每个块的参数估计结果进行简单平均作为全样本回归系数估计的近似。进一步,在理论上证明了分块SCAD惩罚回归的变量选择效果与渐近性质。数值模拟和实际应用结果表明:分块SCAD惩罚回归不仅能够显著降低计算内存的需求和计算时间,而且其变量选择、参数估计和预测结果等与全样本回归基本一致。 展开更多
关键词 回归分析 大规模数据 分块数据 SCAD惩罚 变量选择
原文传递
基于主基底分析的两阶段变量筛选方法 被引量:3
11
作者 仪彬 王惠文 +1 位作者 郭丽娟 关蓉 《系统工程》 CSCD 北大核心 2009年第9期116-119,共4页
在实际系统分析及建模中,人们往往需要保留一些特别重要的分析变量。本文改进了基于主基底的变量筛选方法,分两个阶段来筛选系统分析所需变量。用重要变量构建初始主基底超平面,作为筛选其他普通变量的起点。该方法既结合了人们的定性... 在实际系统分析及建模中,人们往往需要保留一些特别重要的分析变量。本文改进了基于主基底的变量筛选方法,分两个阶段来筛选系统分析所需变量。用重要变量构建初始主基底超平面,作为筛选其他普通变量的起点。该方法既结合了人们的定性分析经验,又保留了基于主基底分析的变量筛选方法能够自动筛选系统分析所需最简变量集合的特点,达到了数据降维目的。实际案例分析验证了该方法的有效性。 展开更多
关键词 系统工程方法论 变量筛选 Gram—Schmidt变换 数据降维 主基底
原文传递
基于高斯过程隐变量模型的图像数据降维算法 被引量:4
12
作者 郭莉莉 刘春光 +1 位作者 王迪 韩忠华 《控制工程》 CSCD 北大核心 2014年第5期687-690,共4页
针对传统谱算法在数据降维计算复杂度高的缺点,提出一种基于高斯过程隐变量模型的图像数据降维算法。首先,通过高斯过程(Gaussian Process,GP)建立图像数据的概率模型,得到图像数据的隐变量模型;其次,利用概率最大化原则得到最优超参数... 针对传统谱算法在数据降维计算复杂度高的缺点,提出一种基于高斯过程隐变量模型的图像数据降维算法。首先,通过高斯过程(Gaussian Process,GP)建立图像数据的概率模型,得到图像数据的隐变量模型;其次,利用概率最大化原则得到最优超参数,通过最优超参数求取最优数据降维结果;最后,实现图像数据降维。选取Yale,ORL两类数据集与传统算法进行人脸识别对比实验,实验结果表明:所提出的算法针对图像数据降维问题有较好的效果,结合支持向量机算法,可有效地对人脸图像进行识别,且有较高的识别率,从而体现出算法对高维数据降维的准确性。 展开更多
关键词 高斯过程隐变量模型 数据降维 人脸识别 超参数 概率最大化
原文传递
高维面板数据降维与变量选择方法研究 被引量:5
13
作者 张波 方国斌 《统计与信息论坛》 CSSCI 2012年第6期21-28,共8页
从介绍高维面板数据的一般特征入手,在总结高维面板数据在实际应用中所表现出的各种不同类型及其研究理论与方法的同时,主要介绍高维面板数据因子模型和混合效应模型;对混合效应模型随机效应和边际效应中的高维协方差矩阵以及经济数据... 从介绍高维面板数据的一般特征入手,在总结高维面板数据在实际应用中所表现出的各种不同类型及其研究理论与方法的同时,主要介绍高维面板数据因子模型和混合效应模型;对混合效应模型随机效应和边际效应中的高维协方差矩阵以及经济数据中出现的多指标大维数据的研究进展进行述评;针对高维面板数据未来的发展方向、理论与应用中尚待解决的一些关键问题进行分析与展望。 展开更多
关键词 高维 面板数据 降维 变量选择
在线阅读 下载PDF
高维数据选元:方法比较及其在纳税评估中的应用 被引量:1
14
作者 吴武清 汪成杰 +1 位作者 蒋勇 陈敏 《管理评论》 CSSCI 北大核心 2013年第8期10-20,共11页
线性回归中当备选变元的个数(p)大于样本量(n),尤其当p>>n时,很多经典的统计推断可能失效。因此,高维数据分析技术的理论和实证探讨很有必要。本文讨论了高维数据分析面临的3种新问题,并介绍了SIS、LASSO等6种高维选元方法。模拟... 线性回归中当备选变元的个数(p)大于样本量(n),尤其当p>>n时,很多经典的统计推断可能失效。因此,高维数据分析技术的理论和实证探讨很有必要。本文讨论了高维数据分析面临的3种新问题,并介绍了SIS、LASSO等6种高维选元方法。模拟部分选用了5种评价准则比较了上述6种方法的选元效果,对比后发现p/n比率和选元效果是相关的:p/n比率较高时SIS的选元效果最好,而当p/n比率降低,特别是降低到p<n的情形时,除平方根LASSO外的5种选元方法的选元效果趋近一致。在纳税评估中,行业细分一般会提高评估效果,但细分会使得备选变元的个数大于样本量,此时需要借助高维数据选元技术。本文使用SIS方法对某市13个细分行业的进项税额进行建模,研究结果表明SIS方法的选元效果显著。 展开更多
关键词 高维数据 降维 选元方法 SIS LASSO
原文传递
基于可分性判据排序的RBF神经网络属性选择方法 被引量:2
15
作者 文专 王正欧 《计算机工程》 CAS CSCD 北大核心 2004年第23期40-42,共3页
提出一种基于数据属性重要性排序的神经网络属性选择方法。该方法只需对部分属性进行训练,即可进行降维。它克服了现有的神经网络降维方法必须对全部属性进行训练的弊端,大大提高了属性选择的效率。该方法先用本文提出的一种简单的可分... 提出一种基于数据属性重要性排序的神经网络属性选择方法。该方法只需对部分属性进行训练,即可进行降维。它克服了现有的神经网络降维方法必须对全部属性进行训练的弊端,大大提高了属性选择的效率。该方法先用本文提出的一种简单的可分性判据方法对数据属性进行重要性排序,然后按重要次序用RBF神经网络进行属性选择。仿真实例表明,该方法具有良好的效果。 展开更多
关键词 属性选择 可分性判据 RBF神经网络 降维 排序 属性重要性 数据 方法 训练 克服
在线阅读 下载PDF
数据维数消减方法研究 被引量:2
16
作者 吴新玲 《计算机工程与设计》 CSCD 北大核心 2006年第16期3000-3002,共3页
对高维数据集合的维数消减方法及其应用进行了分类研究。将数据维数消减方法主要分为两类:子集选择法和数据变换法。基于统计数学和现有的数据挖掘模型,给出了这两类中的一些典型的维数消减方法,并对这些方法的主要特性和有效应用进行... 对高维数据集合的维数消减方法及其应用进行了分类研究。将数据维数消减方法主要分为两类:子集选择法和数据变换法。基于统计数学和现有的数据挖掘模型,给出了这两类中的一些典型的维数消减方法,并对这些方法的主要特性和有效应用进行了分析、探讨,给出了一些可行的方法实现策略。 展开更多
关键词 数据挖掘 维数消减 子集选择 数据变换 数据分析
在线阅读 下载PDF
基于变量选择深度信念神经网络的风速预测 被引量:6
17
作者 李大中 李昉 张克延 《华北电力大学学报(自然科学版)》 CAS 北大核心 2021年第1期62-68,共7页
风速波动具有随机性和不确定性,导致风速预测的准确度不高。准确的风速预测对于优化风电运行策略和提高发电效率具有重大意义。利用最大信息系数(Maximal Information Coefficient,MIC)对风机SCADA数据进行变量相关性分析,并以MIC值大... 风速波动具有随机性和不确定性,导致风速预测的准确度不高。准确的风速预测对于优化风电运行策略和提高发电效率具有重大意义。利用最大信息系数(Maximal Information Coefficient,MIC)对风机SCADA数据进行变量相关性分析,并以MIC值大小对原始变量排序,将包含7项变量的子集作为深度信念网络(Deep Belief Network,DBN)输入,得到MIC-DBN风速预测模型。基于风场实际数据将MIC-DBN模型与BP神经网络模型和GA-BP模型进行测试对比,实验结果表明,MIC-DBN风速预测模型的预测精度和泛化性能具有良好的效果。 展开更多
关键词 风场大数据 变量选择 深度信念网络 受限玻尔兹曼机 最大信息系数
在线阅读 下载PDF
基于互信息的变量选择方法 被引量:2
18
作者 周生彬 黄叶金 《统计与决策》 CSSCI 北大核心 2020年第1期20-23,共4页
文章基于解释变量与被解释变量之间的互信息提出一种新的变量选择方法:MI-SIS。该方法可以处理解释变量数目p远大于观测样本量n的超高维问题,即p=O(exp(nε))ε>0。另外,该方法是一种不依赖于模型假设的变量选择方法。数值模拟和... 文章基于解释变量与被解释变量之间的互信息提出一种新的变量选择方法:MI-SIS。该方法可以处理解释变量数目p远大于观测样本量n的超高维问题,即p=O(exp(nε))ε>0。另外,该方法是一种不依赖于模型假设的变量选择方法。数值模拟和实证研究表明,MI-SIS方法在小样本情形下能够有效地发现微弱信号。 展开更多
关键词 变量选择 互信息 非参数密度估计 超高维数据分析
在线阅读 下载PDF
大规模多视图数据的自降维K-means算法 被引量:1
19
作者 曹卫东 蔡浩天 《计算机应用研究》 CSCD 北大核心 2020年第10期2937-2940,2975,共5页
为了提升传统多视图K-means算法在高维数据中的聚类性能,提出了一种鲁棒性大规模多视图数据的自降维K-means算法RMSKMC(robust multi-view subKmeans clustering)。通过寻找单个视图上的最优子空间实现高维数据的自降维,利用非负矩阵分... 为了提升传统多视图K-means算法在高维数据中的聚类性能,提出了一种鲁棒性大规模多视图数据的自降维K-means算法RMSKMC(robust multi-view subKmeans clustering)。通过寻找单个视图上的最优子空间实现高维数据的自降维,利用非负矩阵分解(NMF)对损失函数进行重构,使不同视图共享相同的聚类指示矩阵从而实现多视图信息互补,完成大规模多视图数据的聚类。实验结果表明,在大规模多视图数据集上,该算法比其他多视图聚类算法资源消耗更小,并且能够进行更为准确的聚类。 展开更多
关键词 大规模数据 多视图 自降维 K-MEANS 信息互补
在线阅读 下载PDF
基于谱聚类算法的高速网络数据流快速分类方法研究 被引量:2
20
作者 张震 胡贵恒 +1 位作者 盖昊宇 任远林 《齐齐哈尔大学学报(自然科学版)》 2023年第5期24-30,共7页
当前高速网络数据流分类处理时,忽略了冗余数据对分类结果的影响,使得分类结果 F1值较低。因此,提出了基于谱聚类算法的高速网络数据流快速分类方法。采用主成分分析法对高速网络数据流进行降维处理。对所有数据流相关性特征进行选择,... 当前高速网络数据流分类处理时,忽略了冗余数据对分类结果的影响,使得分类结果 F1值较低。因此,提出了基于谱聚类算法的高速网络数据流快速分类方法。采用主成分分析法对高速网络数据流进行降维处理。对所有数据流相关性特征进行选择,去除冗余特征,保留有效的特征信息。应用支持向量机算法构建网络数据流快速分类模型,结合谱聚类算法对多数类样本进行聚类,组成新的数据集并将其输入到分类模型中得出相关的分类结果。实验结果表明,所提方法的平均F1值为0.95,F1值越大分类结果越准确,说明该方法能够满足高速网络数据流快速准确分类,具有优越的数据分类性能,应用价值更高。 展开更多
关键词 谱聚类算法 网络数据流 分类 特征选择 降维 支持向量机
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部