期刊文献+
共找到165篇文章
< 1 2 9 >
每页显示 20 50 100
QHF-CS: Quantum-Enhanced Heart Failure Prediction Using Quantum CNN with Optimized Feature Qubit Selection with Cuckoo Search in Skewed Clinical Data
1
作者 Prasanna Kottapalle Tan Kuan Tak +2 位作者 Pravin Ramdas Kshirsagar Gopichand Ginnela Vijaya Krishna Akula 《Computers, Materials & Continua》 2025年第8期3857-3892,共36页
Heart failure prediction is crucial as cardiovascular diseases become the leading cause of death worldwide,exacerbated by the COVID-19 pandemic.Age,cholesterol,and blood pressure datasets are becoming inadequate becau... Heart failure prediction is crucial as cardiovascular diseases become the leading cause of death worldwide,exacerbated by the COVID-19 pandemic.Age,cholesterol,and blood pressure datasets are becoming inadequate because they cannot capture the complexity of emerging health indicators.These high-dimensional and heterogeneous datasets make traditional machine learning methods difficult,and Skewness and other new biomarkers and psychosocial factors bias the model’s heart health prediction across diverse patient profiles.Modern medical datasets’complexity and high dimensionality challenge traditional predictionmodels like SupportVectorMachines and Decision Trees.Quantum approaches include QSVM,QkNN,QDT,and others.These Constraints drove research.The“QHF-CS:Quantum-Enhanced Heart Failure Prediction using Quantum CNN with Optimized Feature Qubit Selection with Cuckoo Search in Skewed Clinical Data”system was developed in this research.This novel system leverages a Quantum Convolutional Neural Network(QCNN)-based quantum circuit,enhanced by meta-heuristic algorithms—Cuckoo SearchOptimization(CSO),Artificial BeeColony(ABC),and Particle SwarmOptimization(PSO)—for feature qubit selection.Among these,CSO demonstrated superior performance by consistently identifying the most optimal and least skewed feature subsets,which were then encoded into quantum states for circuit construction.By integrating advanced quantum circuit feature maps like ZZFeatureMap,RealAmplitudes,and EfficientSU2,the QHF-CS model efficiently processes complex,high-dimensional data,capturing intricate patterns that classical models overlook.The QHF-CS model improves precision,recall,F1-score,and accuracy to 0.94,0.95,0.94,and 0.94.Quantum computing could revolutionize heart failure diagnostics by improving model accuracy and computational efficiency,enabling complex healthcare diagnostic breakthroughs. 展开更多
关键词 Accuracy quantum machine learning heart failure PREDICTION cuckoo search optimization(CSO) skewed clinical data quantum convolutional circuit
在线阅读 下载PDF
Bayesian Inference of Spatially Correlated Binary Data Using Skew-Normal Latent Variables with Application in Tooth Caries Analysis
2
作者 Solaiman Afroughi 《Open Journal of Statistics》 2015年第2期127-139,共13页
The analysis of spatially correlated binary data observed on lattices is an interesting topic that catches the attention of many scholars of different scientific fields like epidemiology, medicine, agriculture, biolog... The analysis of spatially correlated binary data observed on lattices is an interesting topic that catches the attention of many scholars of different scientific fields like epidemiology, medicine, agriculture, biology, geology and geography. To overcome the encountered difficulties upon fitting the autologistic regression model to analyze such data via Bayesian and/or Markov chain Monte Carlo (MCMC) techniques, the Gaussian latent variable model has been enrolled in the methodology. Assuming a normal distribution for the latent random variable may not be realistic and wrong, normal assumptions might cause bias in parameter estimates and affect the accuracy of results and inferences. Thus, it entails more flexible prior distributions for the latent variable in the spatial models. A review of the recent literature in spatial statistics shows that there is an increasing tendency in presenting models that are involving skew distributions, especially skew-normal ones. In this study, a skew-normal latent variable modeling was developed in Bayesian analysis of the spatially correlated binary data that were acquired on uncorrelated lattices. The proposed methodology was applied in inspecting spatial dependency and related factors of tooth caries occurrences in a sample of students of Yasuj University of Medical Sciences, Yasuj, Iran. The results indicated that the skew-normal latent variable model had validity and it made a decent criterion that fitted caries data. 展开更多
关键词 Spatial data LATENT Variable Autologistic Model skew-NORMAL Distribution BAYESIAN INFERENCE TOOTH CARIES
暂未订购
Run-Time Dynamic Resource Adjustment for Mitigating Skew in MapReduce 被引量:3
3
作者 Zhihong Liu Shuo Zhang +2 位作者 Yaping Liu Xiangke Wang Dong Yin 《Computer Modeling in Engineering & Sciences》 SCIE EI 2021年第2期771-790,共20页
MapReduce is a widely used programming model for large-scale data processing.However,it still suffers from the skew problem,which refers to the case in which load is imbalanced among tasks.This problem can cause a sma... MapReduce is a widely used programming model for large-scale data processing.However,it still suffers from the skew problem,which refers to the case in which load is imbalanced among tasks.This problem can cause a small number of tasks to consume much more time than other tasks,thereby prolonging the total job completion time.Existing solutions to this problem commonly predict the loads of tasks and then rebalance the load among them.However,solutions of this kind often incur high performance overhead due to the load prediction and rebalancing.Moreover,existing solutions target the partitioning skew for reduce tasks,but cannot mitigate the computational skew for map tasks.Accordingly,in this paper,we present DynamicAdjust,a run-time dynamic resource adjustment technique for mitigating skew.Rather than rebalancing the load among tasks,DynamicAdjust monitors the run-time execution of tasks and dynamically increases resources for those tasks that require more computation.In so doing,DynamicAdjust can not only eliminate the overhead incurred by load prediction and rebalancing,but also culls both the partitioning skew and the computational skew.Experiments are conducted based on a 21-node real cluster using real-world datasets.The results show that DynamicAdjust can mitigate the negative impact of the skew and shorten the job completion time by up to 40.85%. 展开更多
关键词 MAPREDUCE task scheduling resource allocation data skew big data
在线阅读 下载PDF
A Granularity-Aware Parallel Aggregation Method for Data Streams
4
作者 WANG Yong-li XU Hong-bing XU Li-zhen QIAN Jiang-bo LIU Xue-jun 《Wuhan University Journal of Natural Sciences》 EI CAS 2006年第1期133-137,共5页
This paper focuses on the parallel aggregation processing of data streams based on the shared-nothing architecture. A novel granularity-aware parallel aggregating model is proposed. It employs parallel sampling and li... This paper focuses on the parallel aggregation processing of data streams based on the shared-nothing architecture. A novel granularity-aware parallel aggregating model is proposed. It employs parallel sampling and linear regression to describe the characteristics of the data quantity in the query window in order to determine the partition granularity of tuples, and utilizes equal depth histogram to implement partitio ning. This method can avoid data skew and reduce communi cation cost. The experiment results on both synthetic data and actual data prove that the proposed method is efficient, practical and suitable for time-varying data streams processing. 展开更多
关键词 data streams parallel processing linear regression AGGREGATION data skew
在线阅读 下载PDF
基于Teradata的SQL性能调优
5
作者 宋轶 《现代计算机》 2009年第8期99-102,共4页
对Teradata数据仓库的系统架构做简单介绍,尤其是针对影响Teradata性能的底层因素进行必要的分析,并对实践过程中的遇到的常见问题进行总结和归纳,希望能给读者一些启发和帮助。
关键词 TERAdata 数据仓库 性能调节 数据倾斜
在线阅读 下载PDF
基于ASCABC的并行DCNN优化算法
6
作者 胡健 周奇航 毛伊敏 《计算机工程与设计》 北大核心 2025年第4期983-989,共7页
针对大数据环境下并行DCNN存在冗余计算过多、收敛速度慢、参数寻优能力差以及中间数据倾斜等问题提出一种基于Spark和ASCABC的DCNN-SASCABC算法。提出基于冯诺依曼熵的FMC-VNE策略来对特征图进行压缩,降低冗余计算;提出基于自适应人工... 针对大数据环境下并行DCNN存在冗余计算过多、收敛速度慢、参数寻优能力差以及中间数据倾斜等问题提出一种基于Spark和ASCABC的DCNN-SASCABC算法。提出基于冯诺依曼熵的FMC-VNE策略来对特征图进行压缩,降低冗余计算;提出基于自适应人工蜂群算法的MPT-ASCABC策略进行参数初始化,提高DCNN收敛速度与参数寻优能力;提出中间数据分配策略BA-ID重分配中间数据,解决Spark中间数据倾斜的问题。实验结果表明,所提算法提高了大数据环境下模型训练效率。 展开更多
关键词 SPARK 大数据 并行DCNN 冗余数据 自适应人工蜂群算法 参数初始化 数据倾斜
在线阅读 下载PDF
区间数据偏度系数的估计
7
作者 赵志文 臧嘉琦 《佳木斯大学学报(自然科学版)》 2025年第9期175-177,共3页
文献中定义了区间数据的度量以及数学期望、方差和协方差等数字特征.如何对区间数据的非对称性进行定量研究,目前还没有涉及.在此针对区间数据统计分析中的非对称性度量问题,定义了区间数据的偏度系数.基于区间样本,给出了区间数据偏度... 文献中定义了区间数据的度量以及数学期望、方差和协方差等数字特征.如何对区间数据的非对称性进行定量研究,目前还没有涉及.在此针对区间数据统计分析中的非对称性度量问题,定义了区间数据的偏度系数.基于区间样本,给出了区间数据偏度系数的矩估计量,同时证明了该估计量的相合性和渐近正态性.为验证所提方法的有效性,设计了蒙特卡洛模拟实验,利用Matlab生成不同分布下的区间数据,研究结果表明,该估计量具有较小的均方误差. 展开更多
关键词 区间数据 偏度系数 矩估计 渐近正态性
在线阅读 下载PDF
自适应的Spark数据均衡分区方法
8
作者 何玉林 吴东彤 黄哲学 《电子学报》 北大核心 2025年第8期2764-2778,共15页
Spark作为通用的计算引擎,以其简单、快速、可扩展的优势,被广泛地应用于大数据的处理和分析中.然而,Spark默认采用哈希分区或范围分区对数据进行划分,导致其在处理键倾斜分布的数据时,常常出现各分区数据量严重不均衡的问题.诸多优化... Spark作为通用的计算引擎,以其简单、快速、可扩展的优势,被广泛地应用于大数据的处理和分析中.然而,Spark默认采用哈希分区或范围分区对数据进行划分,导致其在处理键倾斜分布的数据时,常常出现各分区数据量严重不均衡的问题.诸多优化方法被提出,如迁移分区、贪心分区、反馈分区等,但往往存在数据传输量大、额外计算成本高、运行时间长等问题.为更好地缓解键倾斜分布问题带来的影响,本文提出了一种自适应的Spark数据均衡分区方法.该方法引入了奖惩思想对数据分区过程进行适当调控,同时对于数据量较大的键进行分割,使得各个分区的数据量相对均衡.该方法首先对数据采样并预估键权重.其次,按照键权重对样本数据降序排列,确保所有分区都有初始数据.再次,根据奖惩分配策略,自适应地更新各个分区的分配概率,并将待分配的键指向分配概率最高的分区.对于超过分区容量的键的数据,则分割为多个部分且指向不同分区.在所有样本数据分配完成后,获得自适应分区方案.在实际分区时,对于样本中出现的键对应的数据按照自适应分区方案进行分配;对于未出现的键对应的数据,则按照哈希方法进行分区.最后,通过实验验证,基于新方法设计的自适应均衡分区器(Adaptive Data Balanced Partitioner,ADBP)能够有效缓解键倾斜的负面影响.在真实数据集上,ADBP的WordCount程序总运行时间比自带分区器Hash、Range分别平均缩短了1.51%、29.90%,比现有基于学习自动机的自适应哈希分区器(Learning Automata Hash Partitioner,LAHP)、对倾斜的中间数据块进行拆分合并(Splitting and Combination algorithm for skew Intermediate Data block,SCID)算法、粗粒度放置和细粒度放置(Fined-Coarse Grained Intermediate Data Placement,FCGIDP)算法分别平均缩短了8.12%、21.64%、19.62%. 展开更多
关键词 数据倾斜 均衡分区 自适应分区 奖惩分配 SPARK
在线阅读 下载PDF
一种特殊实斜对称矩阵的逆谱问题
9
作者 陈思丹 雷英杰 《重庆理工大学学报(自然科学)》 北大核心 2025年第11期255-261,共7页
研究了一类特定结构的实斜对称矩阵的逆谱问题,从给定的顺序主子矩阵的极值特征值来构造该类矩阵。首先,给出双星树图的矩阵,并建立实斜对称矩阵与Hermitian矩阵之间的关系,利用该矩阵的所有顺序主子矩阵的特征值中虚部的最小值和最大... 研究了一类特定结构的实斜对称矩阵的逆谱问题,从给定的顺序主子矩阵的极值特征值来构造该类矩阵。首先,给出双星树图的矩阵,并建立实斜对称矩阵与Hermitian矩阵之间的关系,利用该矩阵的所有顺序主子矩阵的特征值中虚部的最小值和最大值作为其特征数据,重构此类矩阵。给出了这类矩阵存在的充要条件,并用对应算法和数值算例进行了验证。 展开更多
关键词 逆谱问题 顺序主子矩阵 谱数据 实斜对称矩阵
在线阅读 下载PDF
基于多要素3D特征提取的短期定量降水预报技术研究
10
作者 熊文睿 张恒德 +1 位作者 陆振宇 郭云谦 《南京信息工程大学学报》 北大核心 2025年第1期125-137,共13页
由于空间分辨率有限、物理参数化方案不够完善、泛化性较弱等原因,使得传统业务数值天气模式(NWP)在定量降水预报中存在固有偏差,而深度学习神经网络具有强大的非线性拟合能力、能够自主性学习到任务相关的关键特征、泛化性较高等优势,... 由于空间分辨率有限、物理参数化方案不够完善、泛化性较弱等原因,使得传统业务数值天气模式(NWP)在定量降水预报中存在固有偏差,而深度学习神经网络具有强大的非线性拟合能力、能够自主性学习到任务相关的关键特征、泛化性较高等优势,有望改善现状.为此,本文提出一种基于多要素3D特征提取的短期定量降水预报技术.基于欧洲中期天气预报中心(ECMWF)提供的高分辨率ECMWF-HRES(EC-Hres)模式预报数据,构建3D-QPF(3D-Quantitative Precipitation Forecast)语义分割模型,通过先分类后回归的耦合框架,捕捉多种降水相关要素数据的3D空间特征,得到与降水实况数据间的非线性关系,并增加准确率和召回率损失函数,进一步提升模型对偏态数据的预报效果.实验结果表明,3D-QPF的逐日累积降水预报不仅在晴雨量级(0.1 mm/(24 h))准确率评分稳定增长,在暴雨量级(50 mm/(24 h))的准确率评分也有明显提升,暴雨量级较EC-Hres的TS评分最高提升了15.8%,RMSE优化达到18.71%.经过长期检验,3D-QPF模型与EC-Hres、中国气象局全球模式(CMA-GFS)预报以及2D-Unet和3D-Unet等经典网络模型相比做出了有效的预报订正效果.此外,随着预报时效延长至72 h,模型的优化效果仍能够保持相对稳定. 展开更多
关键词 定量降水预报 语义分割 偏态数据 耦合方式
在线阅读 下载PDF
偏态纵向数据和生存数据的贝叶斯联合建模
11
作者 汪韫頔 戴家佳 毛围 《广西师范大学学报(自然科学版)》 北大核心 2025年第5期175-184,共10页
在纵向数据分析中,模型误差的正态性是一种常规假设,但这一假设可能违背真实数据特征。此外,忽略纵向数据与生存数据之间的相关性可能会造成分析结果的偏差。为解决这些问题,本文首先提出一种贝叶斯联合模型,纵向过程使用误差项服从Ske... 在纵向数据分析中,模型误差的正态性是一种常规假设,但这一假设可能违背真实数据特征。此外,忽略纵向数据与生存数据之间的相关性可能会造成分析结果的偏差。为解决这些问题,本文首先提出一种贝叶斯联合模型,纵向过程使用误差项服从Skew-t分布的线性混合效应模型进行建模,生存过程使用Cox比例风险模型;然后,通过Metropolis-Hastings(MH)算法和Gibbs抽样对联合模型中的未知参数进行贝叶斯估计,数值模拟结果表明:与传统估计方法相比,Skew-t方法在数据拟合方面表现出更优的性能;最后,将该方法应用于AIDS数据分析,经验证,该方法能够达到良好的拟合效果和准确的参数估计。 展开更多
关键词 纵向数据 生存数据 skew-t分布 贝叶斯估计 AIDS数据
在线阅读 下载PDF
融合多分组归并的券商数据Shuffle和数据倾斜算法
12
作者 曹亚坤 唐小勇 《大数据》 2025年第6期123-142,共20页
在证券行业,用户数据处理和分析是核心技术,对业务决策和风险控制具有重要的影响。然而,证券公司庞大的用户数据规模和复杂的数据关系导致大数据计算面临Shuffle操作和数据倾斜问题。现有的Shuffle和数据倾斜优化方法或依赖于硬件升级,... 在证券行业,用户数据处理和分析是核心技术,对业务决策和风险控制具有重要的影响。然而,证券公司庞大的用户数据规模和复杂的数据关系导致大数据计算面临Shuffle操作和数据倾斜问题。现有的Shuffle和数据倾斜优化方法或依赖于硬件升级,或存在领域局限性,难以针对性解决该问题。为此,基于证券行业用户数据的特点,提出了一种基于用户关系的多分组归并算法(multi group merging algorithm,MGMA)。该算法通过有效分组和优化处理策略,显著提升计算效率,并降低计算资源消耗。实验表明,相较于无优化对照组,MGMA算法的数据倾斜率为20%,内存占用为72%,计算用时为61%,且上述3项指标均优于其他4种对比优化方法。 展开更多
关键词 Shuffle操作 数据倾斜 预处理 券商数据
在线阅读 下载PDF
基于增量式分区策略的MapReduce数据均衡方法 被引量:25
13
作者 王卓 陈群 +2 位作者 李战怀 潘巍 尤立 《计算机学报》 EI CSCD 北大核心 2016年第1期19-35,共17页
MapReduce以其简洁的编程模型,被广泛应用于大规模和高维度数据集的处理,如日志分析、文档聚类和其他数据分析.开源系统Hadoop很好地实现了MapReduce模型,但由于自身采用一次分区机制,即通过Hash/Range分区函数对数据进行一次划分,导致... MapReduce以其简洁的编程模型,被广泛应用于大规模和高维度数据集的处理,如日志分析、文档聚类和其他数据分析.开源系统Hadoop很好地实现了MapReduce模型,但由于自身采用一次分区机制,即通过Hash/Range分区函数对数据进行一次划分,导致在处理密集数据时,Reduce端常会出现数据倾斜的问题.虽然系统为用户提供了自定义分区函数方法,但不幸的是在不清楚输入数据分布的情况下,数据倾斜问题很难被避免.为解决数据划分的不均衡,该文提出一种将分区向Reducer指派时按照多轮分配的分区策略.该方法首先在Map端产生多于Reducer个数的细粒度分区,同时在Mapper运行过程中实时统计各细粒度分区的数据量;然后由JobTracker根据全局的分区分布信息筛选出部分未分配的细粒度分区,并用代价评估模型将选中的细粒度分区分配到各Reducer上;依照此方法,经过多轮的筛选、分配,最终在执行Reduce()函数前,将所有细粒度分区分配到Reduce端,以此解决分区后各Reducer接收数据总量均衡的问题.最后在Zipf分布数据集和真实数据集上与现有的分区切分方法Closer进行了对比,增量式分区策略更好地解决了数据划分后的均衡问题. 展开更多
关键词 增量分配 细粒度分区 数据倾斜 均衡分区 MAPREDUCE 大数据
在线阅读 下载PDF
面向MapReduce的迭代式数据均衡分区策略 被引量:15
14
作者 张元鸣 蒋建波 +2 位作者 陆佳炜 徐俊 肖刚 《计算机学报》 EI CSCD 北大核心 2019年第8期1873-1885,共13页
MapReduce是一种适用于大数据处理的重要并行计算框架.然而,由于难以提前全面获得中间数据的分布规律,默认的数据分区策略往往会造成Reducer端的数据倾斜,会直接影响MapReduce的整体性能.为了实现数据均衡分区,本文提出一种迭代式数据... MapReduce是一种适用于大数据处理的重要并行计算框架.然而,由于难以提前全面获得中间数据的分布规律,默认的数据分区策略往往会造成Reducer端的数据倾斜,会直接影响MapReduce的整体性能.为了实现数据均衡分区,本文提出一种迭代式数据均衡分区策略,将每个Mapper节点要处理的数据块细分后以迭代方式循环处理,根据已迭代轮次的微分区分配结果决定当前迭代轮次的微分区分配方案,以不断调整历次迭代产生的数据倾斜,逐步实现数据均衡分区.给出了迭代式数据分区策略的分配时机、分配准则、分配评价模型和分配算法.基于公开的数据集,对迭代式数据均衡分区策略进行了详细测评,结果表明,该策略能够得到更均衡的数据分区结果,当数据集本身倾斜比较显著时,MapReduce整体性能比默认分区策略平均提高了11.1%和19.7%. 展开更多
关键词 MAPREDUCE 大数据 数据倾斜 迭代式数据分区 微分区 均衡分区
在线阅读 下载PDF
一种面向并行空间数据库的数据划分算法研究 被引量:26
15
作者 赵春宇 孟令奎 林志勇 《武汉大学学报(信息科学版)》 EI CSCD 北大核心 2006年第11期962-965,共4页
面向基于对象关系型数据库而构建的并行空间数据库系统,提出了一种基于Hilbert空间填充曲线的适合于矢量空间数据的数据划分算法。在充分考虑空间信息的海量特征以及矢量数据存储记录的不定长等特点的前提下,该算法可实现并行空间数据... 面向基于对象关系型数据库而构建的并行空间数据库系统,提出了一种基于Hilbert空间填充曲线的适合于矢量空间数据的数据划分算法。在充分考虑空间信息的海量特征以及矢量数据存储记录的不定长等特点的前提下,该算法可实现并行空间数据库中海量空间数据记录在多个存储设备上的均衡划分,以避免出现数据倾斜现象,从而提高了空间数据的检索与查询效率。 展开更多
关键词 并行空间数据库 数据划分 数据倾斜 Hilbert空间填充曲线
在线阅读 下载PDF
基于机器学习的文本分类技术研究进展 被引量:394
16
作者 苏金树 张博锋 徐昕 《软件学报》 EI CSCD 北大核心 2006年第9期1848-1859,共12页
文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.提出了基于机器学习的文本分类技术所面临的互联网内容信息处理等复杂应用的挑战,从模型、算法和评测等方面对其研究进展进行综述评论.... 文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.提出了基于机器学习的文本分类技术所面临的互联网内容信息处理等复杂应用的挑战,从模型、算法和评测等方面对其研究进展进行综述评论.认为非线性、数据集偏斜、标注瓶颈、多层分类、算法的扩展性及Web页分类等问题是目前文本分类研究的关键问题,并讨论了这些问题可能采取的方法.最后对研究的方向进行了展望. 展开更多
关键词 自动文本分类 机器学习 降维 核方法 未标注集 偏斜数据集 分级分类 大规模文本分类 Web页分类
在线阅读 下载PDF
MapReduce上基于抽样的数据划分最优化研究 被引量:14
17
作者 韩蕾 孙徐湛 +1 位作者 吴志川 陈立军 《计算机研究与发展》 EI CSCD 北大核心 2013年第S2期77-84,共8页
MapReduce是一个目前应用广泛的并行计算框架,如何解决Reduce节点的负载平衡问题是MapReduce程序执行效率的一个重要研究方向.基于抽样的划分是一种比较有效的数据划分方法,为了使得抽样方法发挥最大程度的效益,研究了抽样效果与其重要... MapReduce是一个目前应用广泛的并行计算框架,如何解决Reduce节点的负载平衡问题是MapReduce程序执行效率的一个重要研究方向.基于抽样的划分是一种比较有效的数据划分方法,为了使得抽样方法发挥最大程度的效益,研究了抽样效果与其重要影响因素之间的定量关系,并给出了相关理论及其证明推导,同时通过实验进一步验证了理论的正确性.基于研究的结果,可以在给定MapReduce环境中,通过分析数据特征,找到最优抽样样本规模,从而通过尽可能小的抽样代价来得到满足要求的数据划分.通过将研究成果应用在改进的Terasort算法上,以实例验证了其在MapRedece平台上的实际意义. 展开更多
关键词 抽样 MAPREDUCE框架 数据倾斜 负载平衡 数据集划分
在线阅读 下载PDF
一种基于动态划分的MapReduce负载均衡方法 被引量:11
18
作者 周家帅 王琦 高军 《计算机研究与发展》 EI CSCD 北大核心 2013年第S1期369-377,共9页
MapReduce作为一种分布式计算框架,在大规模数据处理中已经被广泛应用.负载均衡是影响分布式计算性能的关键因素.当前的MapReduce实现在给集群分发任务时,多采用Hash的随机划分方式,无法根据数据的分布情况来调整集群的负载,容易出现负... MapReduce作为一种分布式计算框架,在大规模数据处理中已经被广泛应用.负载均衡是影响分布式计算性能的关键因素.当前的MapReduce实现在给集群分发任务时,多采用Hash的随机划分方式,无法根据数据的分布情况来调整集群的负载,容易出现负载不均衡的问题.为解决这一问题,对当前的MapReduce框架进行拓展,根据对Map端中间结果的采样来动态确定Reduce任务数目以及划分函数,保证Reduce任务的负载均衡.具体地,对Map的结果进行采样,并将其发送给Job Tracker.Job Tracker根据采样数据的分布情况动态确定划分函数,以保证每个Reduce任务处理的记录数目均衡.更重要的是,在Hadoop框架内实现了负载均衡方法,测试结果证明方法具有良好的有效性、兼容性和可用性. 展开更多
关键词 MAPREDUCE 负载均衡 动态划分 数据倾斜 采样
在线阅读 下载PDF
基于Hadoop的MapReduce模型的研究与改进 被引量:36
19
作者 李玉林 董晶 《计算机工程与设计》 CSCD 北大核心 2012年第8期3110-3116,共7页
针对MapReduce模型中存在的多个Reduce任务之间完成时间差别较大的问题,分析了影响Reduce任务完成时间的因素,指出了MapReduce模型中Reduce任务节点存在数据倾斜问题,提出了一种改进型的MapReduce模型MBR(Map-Balance-Reduce)模型。通... 针对MapReduce模型中存在的多个Reduce任务之间完成时间差别较大的问题,分析了影响Reduce任务完成时间的因素,指出了MapReduce模型中Reduce任务节点存在数据倾斜问题,提出了一种改进型的MapReduce模型MBR(Map-Balance-Reduce)模型。通过添加Balance任务,对Map任务处理完成的中间数据进行均衡操作,使得分配到Reduce任务节点的数据比较均衡,从而确保Reduce任务的完成时间基本一致。仿真实验结果表明,经过Balance任务后,Map任务产生的中间数据能够比较均衡的分配给Reduce任务节点,达到数据计算均衡的目的,在一定程度上减少了整个作业的执行时间。 展开更多
关键词 MAPREDUCE模型 HADOOP 数据倾斜 云计算 并行编程
在线阅读 下载PDF
基于KNN算法的改进的一对多SVM多分类器 被引量:11
20
作者 刘雨康 张正阳 +1 位作者 陈琳琳 陈静 《计算机工程与应用》 CSCD 北大核心 2015年第24期126-131,共6页
针对传统支持向量机(SVM)多分类一对多算法存在的运算量大、耗时长、数据偏斜以及对最优超平面附近点分类易出错问题,提出了一种改进方法。将数据空间分为密集区和稀疏区,各类中密集点归于密集区,其余归于稀疏区。将每类中密集点连同它... 针对传统支持向量机(SVM)多分类一对多算法存在的运算量大、耗时长、数据偏斜以及对最优超平面附近点分类易出错问题,提出了一种改进方法。将数据空间分为密集区和稀疏区,各类中密集点归于密集区,其余归于稀疏区。将每类中密集点连同它附近的点用于训练得到相应的SVM分类器。在测试阶段,对密集区的待测样本用传统的一对多判别准则来做类别预测;对稀疏区的待测样本则采用K近邻(KNN)算法。数值实验结果表明,改进的算法在耗时和分类精度上都优于原算法,对解决一对多算法存在的问题有较好的成效。 展开更多
关键词 支持向量机(SVM) 一对多 K近邻(KNN) 数据偏斜
在线阅读 下载PDF
上一页 1 2 9 下一页 到第
使用帮助 返回顶部