期刊文献+
共找到164篇文章
< 1 2 9 >
每页显示 20 50 100
QHF-CS: Quantum-Enhanced Heart Failure Prediction Using Quantum CNN with Optimized Feature Qubit Selection with Cuckoo Search in Skewed Clinical Data
1
作者 Prasanna Kottapalle Tan Kuan Tak +2 位作者 Pravin Ramdas Kshirsagar Gopichand Ginnela Vijaya Krishna Akula 《Computers, Materials & Continua》 2025年第8期3857-3892,共36页
Heart failure prediction is crucial as cardiovascular diseases become the leading cause of death worldwide,exacerbated by the COVID-19 pandemic.Age,cholesterol,and blood pressure datasets are becoming inadequate becau... Heart failure prediction is crucial as cardiovascular diseases become the leading cause of death worldwide,exacerbated by the COVID-19 pandemic.Age,cholesterol,and blood pressure datasets are becoming inadequate because they cannot capture the complexity of emerging health indicators.These high-dimensional and heterogeneous datasets make traditional machine learning methods difficult,and Skewness and other new biomarkers and psychosocial factors bias the model’s heart health prediction across diverse patient profiles.Modern medical datasets’complexity and high dimensionality challenge traditional predictionmodels like SupportVectorMachines and Decision Trees.Quantum approaches include QSVM,QkNN,QDT,and others.These Constraints drove research.The“QHF-CS:Quantum-Enhanced Heart Failure Prediction using Quantum CNN with Optimized Feature Qubit Selection with Cuckoo Search in Skewed Clinical Data”system was developed in this research.This novel system leverages a Quantum Convolutional Neural Network(QCNN)-based quantum circuit,enhanced by meta-heuristic algorithms—Cuckoo SearchOptimization(CSO),Artificial BeeColony(ABC),and Particle SwarmOptimization(PSO)—for feature qubit selection.Among these,CSO demonstrated superior performance by consistently identifying the most optimal and least skewed feature subsets,which were then encoded into quantum states for circuit construction.By integrating advanced quantum circuit feature maps like ZZFeatureMap,RealAmplitudes,and EfficientSU2,the QHF-CS model efficiently processes complex,high-dimensional data,capturing intricate patterns that classical models overlook.The QHF-CS model improves precision,recall,F1-score,and accuracy to 0.94,0.95,0.94,and 0.94.Quantum computing could revolutionize heart failure diagnostics by improving model accuracy and computational efficiency,enabling complex healthcare diagnostic breakthroughs. 展开更多
关键词 Accuracy quantum machine learning heart failure PREDICTION cuckoo search optimization(CSO) skewed clinical data quantum convolutional circuit
在线阅读 下载PDF
Bayesian Inference of Spatially Correlated Binary Data Using Skew-Normal Latent Variables with Application in Tooth Caries Analysis
2
作者 Solaiman Afroughi 《Open Journal of Statistics》 2015年第2期127-139,共13页
The analysis of spatially correlated binary data observed on lattices is an interesting topic that catches the attention of many scholars of different scientific fields like epidemiology, medicine, agriculture, biolog... The analysis of spatially correlated binary data observed on lattices is an interesting topic that catches the attention of many scholars of different scientific fields like epidemiology, medicine, agriculture, biology, geology and geography. To overcome the encountered difficulties upon fitting the autologistic regression model to analyze such data via Bayesian and/or Markov chain Monte Carlo (MCMC) techniques, the Gaussian latent variable model has been enrolled in the methodology. Assuming a normal distribution for the latent random variable may not be realistic and wrong, normal assumptions might cause bias in parameter estimates and affect the accuracy of results and inferences. Thus, it entails more flexible prior distributions for the latent variable in the spatial models. A review of the recent literature in spatial statistics shows that there is an increasing tendency in presenting models that are involving skew distributions, especially skew-normal ones. In this study, a skew-normal latent variable modeling was developed in Bayesian analysis of the spatially correlated binary data that were acquired on uncorrelated lattices. The proposed methodology was applied in inspecting spatial dependency and related factors of tooth caries occurrences in a sample of students of Yasuj University of Medical Sciences, Yasuj, Iran. The results indicated that the skew-normal latent variable model had validity and it made a decent criterion that fitted caries data. 展开更多
关键词 Spatial data LATENT Variable Autologistic Model skew-NORMAL Distribution BAYESIAN INFERENCE TOOTH CARIES
暂未订购
基于ASCABC的并行DCNN优化算法
3
作者 胡健 周奇航 毛伊敏 《计算机工程与设计》 北大核心 2025年第4期983-989,共7页
针对大数据环境下并行DCNN存在冗余计算过多、收敛速度慢、参数寻优能力差以及中间数据倾斜等问题提出一种基于Spark和ASCABC的DCNN-SASCABC算法。提出基于冯诺依曼熵的FMC-VNE策略来对特征图进行压缩,降低冗余计算;提出基于自适应人工... 针对大数据环境下并行DCNN存在冗余计算过多、收敛速度慢、参数寻优能力差以及中间数据倾斜等问题提出一种基于Spark和ASCABC的DCNN-SASCABC算法。提出基于冯诺依曼熵的FMC-VNE策略来对特征图进行压缩,降低冗余计算;提出基于自适应人工蜂群算法的MPT-ASCABC策略进行参数初始化,提高DCNN收敛速度与参数寻优能力;提出中间数据分配策略BA-ID重分配中间数据,解决Spark中间数据倾斜的问题。实验结果表明,所提算法提高了大数据环境下模型训练效率。 展开更多
关键词 SPARK 大数据 并行DCNN 冗余数据 自适应人工蜂群算法 参数初始化 数据倾斜
在线阅读 下载PDF
区间数据偏度系数的估计
4
作者 赵志文 臧嘉琦 《佳木斯大学学报(自然科学版)》 2025年第9期175-177,共3页
文献中定义了区间数据的度量以及数学期望、方差和协方差等数字特征.如何对区间数据的非对称性进行定量研究,目前还没有涉及.在此针对区间数据统计分析中的非对称性度量问题,定义了区间数据的偏度系数.基于区间样本,给出了区间数据偏度... 文献中定义了区间数据的度量以及数学期望、方差和协方差等数字特征.如何对区间数据的非对称性进行定量研究,目前还没有涉及.在此针对区间数据统计分析中的非对称性度量问题,定义了区间数据的偏度系数.基于区间样本,给出了区间数据偏度系数的矩估计量,同时证明了该估计量的相合性和渐近正态性.为验证所提方法的有效性,设计了蒙特卡洛模拟实验,利用Matlab生成不同分布下的区间数据,研究结果表明,该估计量具有较小的均方误差. 展开更多
关键词 区间数据 偏度系数 矩估计 渐近正态性
在线阅读 下载PDF
Run-Time Dynamic Resource Adjustment for Mitigating Skew in MapReduce 被引量:3
5
作者 Zhihong Liu Shuo Zhang +2 位作者 Yaping Liu Xiangke Wang Dong Yin 《Computer Modeling in Engineering & Sciences》 SCIE EI 2021年第2期771-790,共20页
MapReduce is a widely used programming model for large-scale data processing.However,it still suffers from the skew problem,which refers to the case in which load is imbalanced among tasks.This problem can cause a sma... MapReduce is a widely used programming model for large-scale data processing.However,it still suffers from the skew problem,which refers to the case in which load is imbalanced among tasks.This problem can cause a small number of tasks to consume much more time than other tasks,thereby prolonging the total job completion time.Existing solutions to this problem commonly predict the loads of tasks and then rebalance the load among them.However,solutions of this kind often incur high performance overhead due to the load prediction and rebalancing.Moreover,existing solutions target the partitioning skew for reduce tasks,but cannot mitigate the computational skew for map tasks.Accordingly,in this paper,we present DynamicAdjust,a run-time dynamic resource adjustment technique for mitigating skew.Rather than rebalancing the load among tasks,DynamicAdjust monitors the run-time execution of tasks and dynamically increases resources for those tasks that require more computation.In so doing,DynamicAdjust can not only eliminate the overhead incurred by load prediction and rebalancing,but also culls both the partitioning skew and the computational skew.Experiments are conducted based on a 21-node real cluster using real-world datasets.The results show that DynamicAdjust can mitigate the negative impact of the skew and shorten the job completion time by up to 40.85%. 展开更多
关键词 MAPREDUCE task scheduling resource allocation data skew big data
在线阅读 下载PDF
基于多要素3D特征提取的短期定量降水预报技术研究
6
作者 熊文睿 张恒德 +1 位作者 陆振宇 郭云谦 《南京信息工程大学学报》 北大核心 2025年第1期125-137,共13页
由于空间分辨率有限、物理参数化方案不够完善、泛化性较弱等原因,使得传统业务数值天气模式(NWP)在定量降水预报中存在固有偏差,而深度学习神经网络具有强大的非线性拟合能力、能够自主性学习到任务相关的关键特征、泛化性较高等优势,... 由于空间分辨率有限、物理参数化方案不够完善、泛化性较弱等原因,使得传统业务数值天气模式(NWP)在定量降水预报中存在固有偏差,而深度学习神经网络具有强大的非线性拟合能力、能够自主性学习到任务相关的关键特征、泛化性较高等优势,有望改善现状.为此,本文提出一种基于多要素3D特征提取的短期定量降水预报技术.基于欧洲中期天气预报中心(ECMWF)提供的高分辨率ECMWF-HRES(EC-Hres)模式预报数据,构建3D-QPF(3D-Quantitative Precipitation Forecast)语义分割模型,通过先分类后回归的耦合框架,捕捉多种降水相关要素数据的3D空间特征,得到与降水实况数据间的非线性关系,并增加准确率和召回率损失函数,进一步提升模型对偏态数据的预报效果.实验结果表明,3D-QPF的逐日累积降水预报不仅在晴雨量级(0.1 mm/(24 h))准确率评分稳定增长,在暴雨量级(50 mm/(24 h))的准确率评分也有明显提升,暴雨量级较EC-Hres的TS评分最高提升了15.8%,RMSE优化达到18.71%.经过长期检验,3D-QPF模型与EC-Hres、中国气象局全球模式(CMA-GFS)预报以及2D-Unet和3D-Unet等经典网络模型相比做出了有效的预报订正效果.此外,随着预报时效延长至72 h,模型的优化效果仍能够保持相对稳定. 展开更多
关键词 定量降水预报 语义分割 偏态数据 耦合方式
在线阅读 下载PDF
偏态纵向数据和生存数据的贝叶斯联合建模
7
作者 汪韫頔 戴家佳 毛围 《广西师范大学学报(自然科学版)》 北大核心 2025年第5期175-184,共10页
在纵向数据分析中,模型误差的正态性是一种常规假设,但这一假设可能违背真实数据特征。此外,忽略纵向数据与生存数据之间的相关性可能会造成分析结果的偏差。为解决这些问题,本文首先提出一种贝叶斯联合模型,纵向过程使用误差项服从Ske... 在纵向数据分析中,模型误差的正态性是一种常规假设,但这一假设可能违背真实数据特征。此外,忽略纵向数据与生存数据之间的相关性可能会造成分析结果的偏差。为解决这些问题,本文首先提出一种贝叶斯联合模型,纵向过程使用误差项服从Skew-t分布的线性混合效应模型进行建模,生存过程使用Cox比例风险模型;然后,通过Metropolis-Hastings(MH)算法和Gibbs抽样对联合模型中的未知参数进行贝叶斯估计,数值模拟结果表明:与传统估计方法相比,Skew-t方法在数据拟合方面表现出更优的性能;最后,将该方法应用于AIDS数据分析,经验证,该方法能够达到良好的拟合效果和准确的参数估计。 展开更多
关键词 纵向数据 生存数据 skew-t分布 贝叶斯估计 AIDS数据
在线阅读 下载PDF
A Granularity-Aware Parallel Aggregation Method for Data Streams
8
作者 WANG Yong-li XU Hong-bing XU Li-zhen QIAN Jiang-bo LIU Xue-jun 《Wuhan University Journal of Natural Sciences》 EI CAS 2006年第1期133-137,共5页
This paper focuses on the parallel aggregation processing of data streams based on the shared-nothing architecture. A novel granularity-aware parallel aggregating model is proposed. It employs parallel sampling and li... This paper focuses on the parallel aggregation processing of data streams based on the shared-nothing architecture. A novel granularity-aware parallel aggregating model is proposed. It employs parallel sampling and linear regression to describe the characteristics of the data quantity in the query window in order to determine the partition granularity of tuples, and utilizes equal depth histogram to implement partitio ning. This method can avoid data skew and reduce communi cation cost. The experiment results on both synthetic data and actual data prove that the proposed method is efficient, practical and suitable for time-varying data streams processing. 展开更多
关键词 data streams parallel processing linear regression AGGREGATION data skew
在线阅读 下载PDF
基于Teradata的SQL性能调优
9
作者 宋轶 《现代计算机》 2009年第8期99-102,共4页
对Teradata数据仓库的系统架构做简单介绍,尤其是针对影响Teradata性能的底层因素进行必要的分析,并对实践过程中的遇到的常见问题进行总结和归纳,希望能给读者一些启发和帮助。
关键词 TERAdata 数据仓库 性能调节 数据倾斜
在线阅读 下载PDF
面向负载均衡的动态均衡分区策略 被引量:2
10
作者 杨迪 赵家伟 +1 位作者 王鹏 赵建平 《计算机应用与软件》 北大核心 2024年第8期46-52,共7页
针对MapReduce计算框架处理倾斜数据集时造成Reduce端出现负载不均衡现象,提出一种动态均衡分区策略。在mapper阶段提出基于分治法的数据切分原则处理任务传入的数据组;结合最佳适应算法思想设计动态分配原则逐步将切分后的数据块均衡... 针对MapReduce计算框架处理倾斜数据集时造成Reduce端出现负载不均衡现象,提出一种动态均衡分区策略。在mapper阶段提出基于分治法的数据切分原则处理任务传入的数据组;结合最佳适应算法思想设计动态分配原则逐步将切分后的数据块均衡分配到预分区链表中;根据分区索引分配到各Reduce节点上实现负载均衡。实验结果显示,动态均衡分区策略与两个基准模型相比任务执行时长平均降低了7.7%,表明动态均衡分区策略更好地解决了数据倾斜问题,降低了任务执行时间,验证了模型的有效性。 展开更多
关键词 MAPREDUCE 负载均衡 数据倾斜 数据分区
在线阅读 下载PDF
基于优先填补策略的Spark数据均衡分区方法 被引量:2
11
作者 何玉林 吴东彤 +1 位作者 Philippe Fournier-Viger 黄哲学 《电子学报》 EI CAS CSCD 北大核心 2024年第10期3322-3335,共14页
Spark作为基于内存计算的分布式大数据处理框架,运行速度快且通用性强.在任务计算过程中,Spark的默认分区器HashPartitioner在处理倾斜数据时,容易产生各个分区数据量不平衡的情况,导致资源利用率低且运行效率差.现存的Spark均衡分区改... Spark作为基于内存计算的分布式大数据处理框架,运行速度快且通用性强.在任务计算过程中,Spark的默认分区器HashPartitioner在处理倾斜数据时,容易产生各个分区数据量不平衡的情况,导致资源利用率低且运行效率差.现存的Spark均衡分区改进方法,例如多阶段分区、迁移分区和采样分区等,大多存在尺度把控难、通信开销成本高、对采样过度依赖等缺陷.为改善上述问题,本文提出了一种基于优先填补策略的分区方法,同时考虑了样本数据和非样本数据的分配,以便实现对全部数据的均衡分区.该方法在对数据采样并根据样本信息估算出每个键的权值后,将键按照权值大小降序排列,依次将键在满足分区容忍度的条件下分配到前面的分区中,为未被采样的键预留后面的分区空间,以获得针对样本数据的分区方案.Spark根据分区方案对样本中出现的键对应的数据进行分区,没有出现的键对应的数据则直接映射到可分配的最后一个分区中.实验结果表明,新分区方法能够有效实现Spark数据的均衡分区,在美国运输统计局发布的真实航空数据集上,基于该方法设计的优先填补分区器的总运行时间比HashPartitioner平均缩短了15.3%,比现有的均衡数据分区器和哈希键值重分配分区器分别平均缩短了38.7%和30.2%. 展开更多
关键词 均衡分区 优先填补策略 数据倾斜 Spark算子 大数据
在线阅读 下载PDF
三元概念的分布式并行构造算法
12
作者 李金海 王坤 陈强强 《模式识别与人工智能》 EI CSCD 北大核心 2024年第10期873-886,共14页
作为形式概念分析的扩展,三元概念分析在高维数据的理论和应用中均取得显著效果.然而,数据量的极速增长导致三元概念的生成算法的时间复杂度呈指数级增长,在现实应用中面临巨大挑战,需要构造并行算法.因此文中提出适用于大规模数据的三... 作为形式概念分析的扩展,三元概念分析在高维数据的理论和应用中均取得显著效果.然而,数据量的极速增长导致三元概念的生成算法的时间复杂度呈指数级增长,在现实应用中面临巨大挑战,需要构造并行算法.因此文中提出适用于大规模数据的三元概念分布式并行构造算法,首先给出对象-属性和属性-条件三元概念的相关理论,并证明所有三元概念可通过合并这两种类型的中间概念生成.然后,采用两阶段聚合策略,改进Spark框架中的弹性分布式数据集操作符,有效解决数据倾斜问题,明显提升算法的运行效率.最后,在多个公开数据集上的实验表明,文中算法在海量数据中的三元概念生成过程中表现高效. 展开更多
关键词 形式概念 三元概念 分布式并行 两阶段聚合 数据倾斜
在线阅读 下载PDF
异质数据下基于变点检验分段偏正态均值回归的参数估计
13
作者 姜喆 吴艳 吴刘仓 《昆明理工大学学报(自然科学版)》 北大核心 2024年第1期206-216,共11页
带有偏斜的异质数据广泛出现在大气科学、生物医学和经济学等领域.目前关于异质偏斜数据建模的方法还很少被提出,且现存的分段模型不能自动的对数据分段,大大限制了分段模型的应用场景.针对异质偏斜数据,提出了一种基于偏正态均值回归... 带有偏斜的异质数据广泛出现在大气科学、生物医学和经济学等领域.目前关于异质偏斜数据建模的方法还很少被提出,且现存的分段模型不能自动的对数据分段,大大限制了分段模型的应用场景.针对异质偏斜数据,提出了一种基于偏正态均值回归的分段模型,且在模型的参数估计部分改进了EM算法M步中的两点梯度下降算法,用显示解替代了文献[24]的迭代算法.使用MIC信息准则做模型的变点检验,同时估计变点的位置.通过数值模拟表明所提模型和算法的有效性.实例分析表明,所提分段偏正态回归模型的预测精度优于不分段偏正态回归模型下的预测精度,且具有更好的解释性. 展开更多
关键词 异质偏斜数据 变点检验 分段偏正态均值回归 EM算法优化 MIC信息准则
原文传递
带有不可忽略缺失偏正态数据下众数回归模型的贝叶斯分析
14
作者 谭佳玲 吴刘仓 陈慧媛 《数理统计与管理》 CSSCI 北大核心 2024年第5期865-878,共14页
诸多学科领域中大量数据都存在偏斜与缺失,针对不同的缺失机制,考虑相应的处理方法是必要的。基于众数是“最多水平”的标志值,本文提出了一种同时解决数据带有偏斜特征且存在不可忽略缺失时的估计方法。通过Logistic回归模型指定数据... 诸多学科领域中大量数据都存在偏斜与缺失,针对不同的缺失机制,考虑相应的处理方法是必要的。基于众数是“最多水平”的标志值,本文提出了一种同时解决数据带有偏斜特征且存在不可忽略缺失时的估计方法。通过Logistic回归模型指定数据缺失机制,借助Gibbs抽样与M-H算法相结合的混合抽样算法,获得参数的联合贝叶斯估计。模拟研究比较了不同缺失数据机制和不同先验设定所得的结果,随机模拟表明不同先验设置下具有一致的结论且不可忽略缺失机制模型处理缺失数据优于随机缺失机制模型。电子元件损坏数据的实例分析体现了方法的可行性。 展开更多
关键词 贝叶斯估计 众数回归模型 不可忽略缺失偏正态数据 GIBBS抽样 M-H算法
原文传递
一款0.16 mm^(2)基于180 nm CMOS采用全局去偏斜的半速率8×2.5 Gb/s时钟转发架构接收机
15
作者 杨力宏 李世新 +4 位作者 韩晨曦 云越恒 刘术彬 赵潇腾 朱樟明 《集成电路与嵌入式系统》 2024年第4期1-9,共9页
在时钟转发架构的高速有线通信接收机中,需要去偏斜电路实现时钟与数据之间的最佳采样关系,并保证多路数据的同步。本文提出了一种全局去偏斜方案,仅采用一路数据与时钟进行对齐,并通过时钟延时匹配与分布技术实现多路数据同步,减小了... 在时钟转发架构的高速有线通信接收机中,需要去偏斜电路实现时钟与数据之间的最佳采样关系,并保证多路数据的同步。本文提出了一种全局去偏斜方案,仅采用一路数据与时钟进行对齐,并通过时钟延时匹配与分布技术实现多路数据同步,减小了各通道独立去偏斜方案带来的功耗与面积开销。所提出的接收机由8路数据通道、1路半速率转发时钟通道与基于延迟锁定环路的全局去偏斜电路构成。基于180 nm CMOS工艺,在2.5 Gb/s数据率下,可去除输入时钟与数据任意偏斜,得到位于数据中心的采样相位,同时具有时钟占空比校准能力。在1.8 V电源电压下,所提出的接收机总功耗为187 mW,总面积为0.16 mm^(2),对比各通道独立去偏斜方案,功耗和面积开销分别节约了45.2%与62.8%。 展开更多
关键词 时钟转发 多路接收机 全局去偏斜 延迟锁定环路 时钟分布 数据同步 半速率
在线阅读 下载PDF
基于同构化角度的离群检测方法
16
作者 裴正中 赵旭俊 《计算机工程与设计》 北大核心 2024年第12期3622-3630,共9页
针对基于角度的离群检测方法普遍存在的计算成本高昂,且对超参数选择依赖性强的问题,提出一种基于角度的快速非参数方法HAOD。对数据集进行中心化处理并使用极坐标描;在此基础上,提出一种向量夹角计算函数的近似表示方法,采用该方法将... 针对基于角度的离群检测方法普遍存在的计算成本高昂,且对超参数选择依赖性强的问题,提出一种基于角度的快速非参数方法HAOD。对数据集进行中心化处理并使用极坐标描;在此基础上,提出一种向量夹角计算函数的近似表示方法,采用该方法将向量夹角用一维顺序结构表示,提升检测效率;引入经验累积分布函数分别计算向量夹角及向量模长的尾部概率,将其作为单维度尾部得分;改进单维度尾部得分的聚合方式,对原始向量及其反转向量的尾部得分进行聚合,获取最终离群得分。在ODDS和UCI高维数据集上进行实验,其结果表明,HAOD在检测效率上优于5种对比方法,分别平均提高了28.74%至84.71%。 展开更多
关键词 高维数据 离群检测 基于角度 数据同构化 极坐标表示 经验累积分布函数 偏度
在线阅读 下载PDF
基于增量式分区策略的MapReduce数据均衡方法 被引量:25
17
作者 王卓 陈群 +2 位作者 李战怀 潘巍 尤立 《计算机学报》 EI CSCD 北大核心 2016年第1期19-35,共17页
MapReduce以其简洁的编程模型,被广泛应用于大规模和高维度数据集的处理,如日志分析、文档聚类和其他数据分析.开源系统Hadoop很好地实现了MapReduce模型,但由于自身采用一次分区机制,即通过Hash/Range分区函数对数据进行一次划分,导致... MapReduce以其简洁的编程模型,被广泛应用于大规模和高维度数据集的处理,如日志分析、文档聚类和其他数据分析.开源系统Hadoop很好地实现了MapReduce模型,但由于自身采用一次分区机制,即通过Hash/Range分区函数对数据进行一次划分,导致在处理密集数据时,Reduce端常会出现数据倾斜的问题.虽然系统为用户提供了自定义分区函数方法,但不幸的是在不清楚输入数据分布的情况下,数据倾斜问题很难被避免.为解决数据划分的不均衡,该文提出一种将分区向Reducer指派时按照多轮分配的分区策略.该方法首先在Map端产生多于Reducer个数的细粒度分区,同时在Mapper运行过程中实时统计各细粒度分区的数据量;然后由JobTracker根据全局的分区分布信息筛选出部分未分配的细粒度分区,并用代价评估模型将选中的细粒度分区分配到各Reducer上;依照此方法,经过多轮的筛选、分配,最终在执行Reduce()函数前,将所有细粒度分区分配到Reduce端,以此解决分区后各Reducer接收数据总量均衡的问题.最后在Zipf分布数据集和真实数据集上与现有的分区切分方法Closer进行了对比,增量式分区策略更好地解决了数据划分后的均衡问题. 展开更多
关键词 增量分配 细粒度分区 数据倾斜 均衡分区 MAPREDUCE 大数据
在线阅读 下载PDF
面向MapReduce的迭代式数据均衡分区策略 被引量:15
18
作者 张元鸣 蒋建波 +2 位作者 陆佳炜 徐俊 肖刚 《计算机学报》 EI CSCD 北大核心 2019年第8期1873-1885,共13页
MapReduce是一种适用于大数据处理的重要并行计算框架.然而,由于难以提前全面获得中间数据的分布规律,默认的数据分区策略往往会造成Reducer端的数据倾斜,会直接影响MapReduce的整体性能.为了实现数据均衡分区,本文提出一种迭代式数据... MapReduce是一种适用于大数据处理的重要并行计算框架.然而,由于难以提前全面获得中间数据的分布规律,默认的数据分区策略往往会造成Reducer端的数据倾斜,会直接影响MapReduce的整体性能.为了实现数据均衡分区,本文提出一种迭代式数据均衡分区策略,将每个Mapper节点要处理的数据块细分后以迭代方式循环处理,根据已迭代轮次的微分区分配结果决定当前迭代轮次的微分区分配方案,以不断调整历次迭代产生的数据倾斜,逐步实现数据均衡分区.给出了迭代式数据分区策略的分配时机、分配准则、分配评价模型和分配算法.基于公开的数据集,对迭代式数据均衡分区策略进行了详细测评,结果表明,该策略能够得到更均衡的数据分区结果,当数据集本身倾斜比较显著时,MapReduce整体性能比默认分区策略平均提高了11.1%和19.7%. 展开更多
关键词 MAPREDUCE 大数据 数据倾斜 迭代式数据分区 微分区 均衡分区
在线阅读 下载PDF
一种面向并行空间数据库的数据划分算法研究 被引量:26
19
作者 赵春宇 孟令奎 林志勇 《武汉大学学报(信息科学版)》 EI CSCD 北大核心 2006年第11期962-965,共4页
面向基于对象关系型数据库而构建的并行空间数据库系统,提出了一种基于Hilbert空间填充曲线的适合于矢量空间数据的数据划分算法。在充分考虑空间信息的海量特征以及矢量数据存储记录的不定长等特点的前提下,该算法可实现并行空间数据... 面向基于对象关系型数据库而构建的并行空间数据库系统,提出了一种基于Hilbert空间填充曲线的适合于矢量空间数据的数据划分算法。在充分考虑空间信息的海量特征以及矢量数据存储记录的不定长等特点的前提下,该算法可实现并行空间数据库中海量空间数据记录在多个存储设备上的均衡划分,以避免出现数据倾斜现象,从而提高了空间数据的检索与查询效率。 展开更多
关键词 并行空间数据库 数据划分 数据倾斜 Hilbert空间填充曲线
在线阅读 下载PDF
基于机器学习的文本分类技术研究进展 被引量:393
20
作者 苏金树 张博锋 徐昕 《软件学报》 EI CSCD 北大核心 2006年第9期1848-1859,共12页
文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.提出了基于机器学习的文本分类技术所面临的互联网内容信息处理等复杂应用的挑战,从模型、算法和评测等方面对其研究进展进行综述评论.... 文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.提出了基于机器学习的文本分类技术所面临的互联网内容信息处理等复杂应用的挑战,从模型、算法和评测等方面对其研究进展进行综述评论.认为非线性、数据集偏斜、标注瓶颈、多层分类、算法的扩展性及Web页分类等问题是目前文本分类研究的关键问题,并讨论了这些问题可能采取的方法.最后对研究的方向进行了展望. 展开更多
关键词 自动文本分类 机器学习 降维 核方法 未标注集 偏斜数据集 分级分类 大规模文本分类 Web页分类
在线阅读 下载PDF
上一页 1 2 9 下一页 到第
使用帮助 返回顶部