期刊文献+
共找到2,044篇文章
< 1 2 103 >
每页显示 20 50 100
基于MapReduce的拷贝数变异测序数据并行处理方案
1
作者 何亨 程凯莉 +1 位作者 张葵 成淑君 《计算机工程》 北大核心 2025年第5期177-187,共11页
拷贝数变异(CNV)作为一种遗传变异,广泛存在于人类基因组的基因分布中。CNV检测效率的提升不仅可以为更多的病患提供更加快速精确的CNV检测结果,大幅降低医疗成本,同时又有利于药物的研发和临床应用。基于读段深度(RD)的方法是目前最为... 拷贝数变异(CNV)作为一种遗传变异,广泛存在于人类基因组的基因分布中。CNV检测效率的提升不仅可以为更多的病患提供更加快速精确的CNV检测结果,大幅降低医疗成本,同时又有利于药物的研发和临床应用。基于读段深度(RD)的方法是目前最为常用的CNV检测方法,对RD相关信息的处理时间较长,在CNV检测中时间占比较高。现有方法无法有效应用于全基因组分析,存在计算效率较低、检测精度下降的问题。基于RD的CNV检测方法,提出一种高效的测序数据并行处理方案EPPCNV。在EPPCNV中,设计2个MapReduce作业串行执行的方法,实现高效全基因组测序数据的并行处理,精准地完成RD相关信息的提取;为充分考虑到GC含量偏差对CNV检测结果的影响,对测序数据的RDs进行校正处理,保证最终检测结果的高灵敏度与高精确度;采用独立于具体CNV检测方法的高适配性数据处理方式,其最终生成的RD相关信息能够与多种主流CNV检测方法直接结合,在不改变原方法对CNV区域判定的基础上,实现方法整体性能的大幅提升。实验结果表明,EPPCNV的综合准确率高,分别与CNV-LOF、HBOS-CNV以及CNVnator 3种方法直接结合,能够显著提升原方法的计算效率,并保证检测结果的高灵敏度与高精确度。对于覆盖深度越高、数据量越大的测序数据,CNV检测方法与EPPCNV结合后计算效率的提升更为显著。 展开更多
关键词 拷贝数变异检测 mapreduce作业 测序数据处理 读段深度 全基因组
在线阅读 下载PDF
基于MapReduce的分类数据增量子空间聚类研究 被引量:1
2
作者 庞宁 《西南民族大学学报(自然科学版)》 2025年第1期71-76,共6页
基于细粒度属性子空间构建方法提出一种适用于分类数据的并行增量聚类算法SUC,该算法采用属性值-簇相似度度量方法,强化重要属性值对于类簇紧凑程度的正向影响力;在增量聚类阶段,更新属性权值,迭代形成增量类簇;采用MapReduce编程框架,... 基于细粒度属性子空间构建方法提出一种适用于分类数据的并行增量聚类算法SUC,该算法采用属性值-簇相似度度量方法,强化重要属性值对于类簇紧凑程度的正向影响力;在增量聚类阶段,更新属性权值,迭代形成增量类簇;采用MapReduce编程框架,实现算法SUC两阶段的并行化.在人工合成数据集、UCI数据集和真实数据集上,实验验证了算法的准确性、有效性和可扩展性. 展开更多
关键词 增量子空间聚类 细粒度属性权重 mapreduce聚类 分类数据
在线阅读 下载PDF
一种基于MapReduce的C4.5决策树并行化算法
3
作者 潘俊辉 王辉 +1 位作者 张强 王浩畅 《计算机与数字工程》 2025年第2期327-331,共5页
C4.5决策树是一种用于分类规则提取的有效算法,该算法在对中、小规模数据集进行处理时已取得不错的效果,但将其直接应用到大规模数据集上受到多方面的限制,而MapReduce框架对算法进行分布式实现是非常方便的。由此论文将MapReduce与C4.... C4.5决策树是一种用于分类规则提取的有效算法,该算法在对中、小规模数据集进行处理时已取得不错的效果,但将其直接应用到大规模数据集上受到多方面的限制,而MapReduce框架对算法进行分布式实现是非常方便的。由此论文将MapReduce与C4.5决策树相结合,提出了一种基于MapReduce的C4.5决策树并行化算法(MRCTA),该算法通过保留C4.5决策树自身的优点,在决策树的节点的构造中首先利用MapReduce对其分裂属性进行并行计算,然后利用所得的最优分裂属性对数据采用分布式分割完成树子节点的生成,同时为了避免产生过度学习现象在构造中将树深和节点覆盖样本的个数和类别比例作为算法终止的条件。最后通过实验对算法的有效性和效率进行了比较和分析。 展开更多
关键词 决策树 分布式算法 并行计算 mapreduce
在线阅读 下载PDF
基于MapReduce分布式模型的大数据精准搜索平台研究
4
作者 张莹 《自动化与仪器仪表》 2025年第6期47-51,共5页
在大数据时代背景下,网络舆论信息传播的速度飞速增长,如何高效、精准地搜索关键信息成为当前亟待解决的问题。为了实现网络舆情的实时精准监测,研究设计了基于MapReduce分布式模型的大数据精准搜索平台,该平台结合了分布式计算的高效... 在大数据时代背景下,网络舆论信息传播的速度飞速增长,如何高效、精准地搜索关键信息成为当前亟待解决的问题。为了实现网络舆情的实时精准监测,研究设计了基于MapReduce分布式模型的大数据精准搜索平台,该平台结合了分布式计算的高效性与精准搜索,通过数据分片与并行处理的方式,实现对大规模数据的高效分析与提取。并利用双向LSTM结构结合Softmax函数进行文本数据的情感判别与分类。结果表明,基于MapReduce模型的舆情搜索最长耗时为7561 s,最高加载时间为3202 s。研究平台的情感分析分类精确率、召回率和F1值分别为96.50%、93.89%和93.87%。在实际应用中,研究平台情感追踪的最大误差仅为3.12%。综上,研究的基于MapReduce分布式模型的大数据精准搜索平台,有效实现了大数据网络舆情的精准搜索和实时分析,有助于维护社会稳定。 展开更多
关键词 mapreduce 分布式模型 精准搜索 数据挖掘 网络舆情监测
原文传递
基于Hadoop和MapReduce的大数据处理算法优化研究 被引量:1
5
作者 张楠楠 戎真真 +1 位作者 杜帅兵 刘杨 《软件》 2025年第6期140-142,共3页
当前,信息技术飞速发展,大数据时代悄然来临,数据规模的急剧膨胀给传统数据处理方法带来了巨大的挑战。在大数据处理领域,Hadoop和MapReduce框架凭借其高效的分布式计算能力被广泛应用,但随着数据量的增加,其也暴露出计算性能、数据传... 当前,信息技术飞速发展,大数据时代悄然来临,数据规模的急剧膨胀给传统数据处理方法带来了巨大的挑战。在大数据处理领域,Hadoop和MapReduce框架凭借其高效的分布式计算能力被广泛应用,但随着数据量的增加,其也暴露出计算性能、数据传输及作业调度等方面的局限性。本文探讨了Hadoop和MapReduce框架在大数据处理中的应用及其局限性,并基于近年研究成果,提出了一系列优化措施,包括提高任务并行度、优化数据传输和改进调度策略。研究表明,这些优化手段可以有效提升大数据处理的效率和稳定性,从而推动大数据技术的进一步发展。 展开更多
关键词 大数据 HADOOP mapreduce 算法优化 计算性能 数据传输
在线阅读 下载PDF
基于MapReduce的数据倾斜优化方法研究
6
作者 王涛 王晓玲 王希胤 《软件工程与应用》 2025年第2期217-227,共11页
本文针对MapReduce框架在处理大规模数据时常见的数据倾斜问题,提出了一种基于抽样的映射分区优化方法。该方法通过水塘抽样算法对数据进行抽样,获取数据分布信息,并结合整体数据分布估计算法和映射分区算法实现数据的均衡分区。实验结... 本文针对MapReduce框架在处理大规模数据时常见的数据倾斜问题,提出了一种基于抽样的映射分区优化方法。该方法通过水塘抽样算法对数据进行抽样,获取数据分布信息,并结合整体数据分布估计算法和映射分区算法实现数据的均衡分区。实验结果表明,该方法在不同倾斜度下均表现出良好的性能,显著降低了作业执行时间,提高了分区的平衡性,提升了集群资源利用率。This paper proposes a sampling-based mapping partitioning optimization method to address the common data skew problem in the MapReduce framework when processing large-scale data. The method uses reservoir sampling to sample the data, obtain information on data distribution, and then combines the overall data distribution estimation algorithm and the mapping partitioning algorithm to achieve balanced data partitioning. Experimental results show that the proposed method performs well under different degrees of skewness, significantly reducing job execution time, improving partition balance, and enhancing cluster resource utilization. 展开更多
关键词 大数据处理 分布式计算 mapreduce框架 数据倾斜优化
在线阅读 下载PDF
MapReduce模型在大规模数据并行挖掘中的应用 被引量:1
7
作者 唐婧 杜微 周翼 《智能物联技术》 2024年第2期38-42,共5页
MapReduce并行编程模型通过定义良好的接口和运行支持库,能够自动并行执行大规模计算任务,隐藏底层实现细节,降低并行编程的难度。系统阐述MapReduce的基本工作原理及其工作流程,以TeraSort算法为例,针对其存在的问题,提出动态数据分区... MapReduce并行编程模型通过定义良好的接口和运行支持库,能够自动并行执行大规模计算任务,隐藏底层实现细节,降低并行编程的难度。系统阐述MapReduce的基本工作原理及其工作流程,以TeraSort算法为例,针对其存在的问题,提出动态数据分区和数据压缩等优化建议。研究成果表明,优化后的TeraSort算法能够显著缩短数据处理时间,优化系统的吞吐量,并改善资源分配的均衡性。 展开更多
关键词 mapreduce 大规模数据 并行挖掘 TeraSort
在线阅读 下载PDF
基于MapReduce和OpenMP混合编程的高分三号数据并行转换算法 被引量:1
8
作者 邱祥峰 《测绘与空间地理信息》 2024年第8期35-36,41,共3页
高分三号03与02、01卫星一起成功组网形成我国第一个海陆三星雷达卫星星座。针对PolSARpro软件存在高分三号数据转换较慢的问题,提出了一种按照该软件的数据格式要求对高分三号数据进行高效并行转换的算法。该算法基于MapReduce和Open M... 高分三号03与02、01卫星一起成功组网形成我国第一个海陆三星雷达卫星星座。针对PolSARpro软件存在高分三号数据转换较慢的问题,提出了一种按照该软件的数据格式要求对高分三号数据进行高效并行转换的算法。该算法基于MapReduce和Open MP进行混合编程,实现高分三号极化数据快速准确地转化为S2格式,最终采用KingMap V9.0软件编码实现了该算法并对真实的高分三号数据进行测试,验证了该算法的可扩展性、高效性、正确性和可行性。 展开更多
关键词 高分三号 合成孔径雷达 复数散射矩阵 OPENMP mapreduce KingMap
在线阅读 下载PDF
一种MapReduce系统能耗优化的任务调度算法
9
作者 王珏 《江西师范大学学报(自然科学版)》 CAS 北大核心 2024年第4期364-370,共7页
该文以能耗为目标,将一个作业中的任务调度问题表述为整数线性规划,并在遵循服务级别协议的前提下,通过优化Map和Reduce任务在slot上的调度策略来最小化系统的能耗,提出了一种能耗敏感型的任务调度算法.实验结果表明:与其他常用的算法相... 该文以能耗为目标,将一个作业中的任务调度问题表述为整数线性规划,并在遵循服务级别协议的前提下,通过优化Map和Reduce任务在slot上的调度策略来最小化系统的能耗,提出了一种能耗敏感型的任务调度算法.实验结果表明:与其他常用的算法相比,该算法在TeraSort、PageRank和k-means聚类工作负载上能够接近能耗的最小值. 展开更多
关键词 mapreduce 大数据 整数线性规划 调度策略
在线阅读 下载PDF
基于MapReduce的并行化电网运行数据处理方法研究 被引量:1
10
作者 黄新宇 高嵩 +2 位作者 邱刚 谭笑 陈杰 《电子设计工程》 2024年第4期98-102,共5页
在大规模新能源的新型电力系统中,由于云端电力数据存在结构复杂、数据量大及多维度的特点,因此不利于发挥数据对运行的指导作用,甚至有可能危害电力系统的安全、稳定运行。针对上述问题,文中提出了一种基于MapReduce的电网数据分析方... 在大规模新能源的新型电力系统中,由于云端电力数据存在结构复杂、数据量大及多维度的特点,因此不利于发挥数据对运行的指导作用,甚至有可能危害电力系统的安全、稳定运行。针对上述问题,文中提出了一种基于MapReduce的电网数据分析方法。其将云计算应用于新型电力系统,并构建了基于MapReduce云计算模型的并行化处理算法,进而提升了系统的响应速度。通过将该方法应用于电网的数据处理结果表明,所提方法可以有效地提高电网运行数据处理的准确性和工作效率。在海量数据的工况下,其处理效率约为30 min,且随着数据量的增加仍可保持稳定性与准确性,实现了网格化的并行分析。 展开更多
关键词 电网运行数据 mapreduce 并行计算 数据处理
在线阅读 下载PDF
基于MapReduce平台的大数据查询与处理优化算法 被引量:3
11
作者 何健 《电脑编程技巧与维护》 2024年第5期107-109,共3页
基于MapReduce编程并行计算框架、RSJ表连接算法等软件技术,构建了混合式MapReduce并行运算处理系统,通过读取元信息管理表的数据、提取表连接属性信息,按照表数据的属性列进行完整的数据复制与存储,得到合并汇总后完整的共享信息,使用... 基于MapReduce编程并行计算框架、RSJ表连接算法等软件技术,构建了混合式MapReduce并行运算处理系统,通过读取元信息管理表的数据、提取表连接属性信息,按照表数据的属性列进行完整的数据复制与存储,得到合并汇总后完整的共享信息,使用改进RSJ的分布式缓存表连接算法滤除不满足连接条件的数据。仿真实验表明,运用MapReduce并行计算框架和RSJ表连接算法进行数据处理,可减少Map端输出的数据量,缩短网络数据传输与处理时长,实现海量化大数据查询与处理的优化目标。 展开更多
关键词 mapreduce并行运算处理 表连接算法 大数据查询与处理 优化
在线阅读 下载PDF
无线传感网络中基于MapReduce的组合Skyline查询算法 被引量:1
12
作者 刘芳旭 董雷刚 《智能计算机与应用》 2024年第10期12-24,共13页
无线传感网络通过传感器节点能够收集到海量数据,利用组合Skyline查询技术可以在海量数据中获取以组合为单位的用户感兴趣的信息。然而,由于无线传感网络所处环境的不确定性及节点能量有限等问题,使得在海量数据下组合Skyline查询效率... 无线传感网络通过传感器节点能够收集到海量数据,利用组合Skyline查询技术可以在海量数据中获取以组合为单位的用户感兴趣的信息。然而,由于无线传感网络所处环境的不确定性及节点能量有限等问题,使得在海量数据下组合Skyline查询效率不太理想。针对该问题,提出一种基于MapReduce的组合Skyline查询算法(MR-GSKY算法),首先通过预处理操作去除无用点,然后将数据集分块,充分利用MapReduce分布式计算的特点,在Map阶段并行计算每一分块的键值对,再利用删减操作去除无用候选组合,在Reduce阶段执行扩展操作对不同键值对的组合进行整合并计算出组合Skyline的中间结果,通过多次Map和Reduce操作生成G-Skyline(n)。实验结果表明,该算法比现有算法具有更好的性能。 展开更多
关键词 无线传感网络 组合Skyline mapreduce 海量数据 分布式计算系统
在线阅读 下载PDF
基于MapReduce的负载均衡策略研究
13
作者 李冬月 尹铁源 《信息与电脑》 2024年第2期177-179,共3页
MapReduce是Hadoop集群框架中的重要组件,用于大规模数据集的并行运算。文章针对MapReduce中存在的负载均衡问题,提出基于抽样的两阶段哈希分区策略,采用二层抽样技术进行数据采样。在分区第一阶段使用Hash算法对样本进行初始分区,将各... MapReduce是Hadoop集群框架中的重要组件,用于大规模数据集的并行运算。文章针对MapReduce中存在的负载均衡问题,提出基于抽样的两阶段哈希分区策略,采用二层抽样技术进行数据采样。在分区第一阶段使用Hash算法对样本进行初始分区,将各分区大小与阈值比较,以确定是否是异常分区。在分区第二阶段融合了偏移分区和细粒度划分的思想,对异常分区进行二次哈希分区操作。实验结果表明,该策略有效解决了MapReduce中的负载均衡问题,减少了数据不平衡带来的性能损失,提高了资源的利用率。 展开更多
关键词 mapreduce 负载均衡 抽样
在线阅读 下载PDF
基于Hadoop和MapReduce实现词频的统计与排序 被引量:1
14
作者 孔瑞平 《电脑编程技巧与维护》 2024年第2期15-17,共3页
在大数据背景下,词频统计是被频繁提及的一个需求。一个词在文档中出现的频率越高就越重要,通过对每个词出现频率的统计而得出质的评价,从而为用户提供大量相关行业的数据信息,最终助力用户简便、快速地找到所需信息,为其做出精确、明... 在大数据背景下,词频统计是被频繁提及的一个需求。一个词在文档中出现的频率越高就越重要,通过对每个词出现频率的统计而得出质的评价,从而为用户提供大量相关行业的数据信息,最终助力用户简便、快速地找到所需信息,为其做出精确、明智、及时的决策保驾护航。因此,将在Hadoop集群环境下,运用MapReduce计算框架来实现英文单词的统计与排序功能。 展开更多
关键词 HADOOP集群 mapreduce计算框架 词频统计与排序
在线阅读 下载PDF
结合MapReduce框架的离群因子检测算法
15
作者 徐树奎 张煜 +2 位作者 李海霞 常海艳 张和伟 《火力与指挥控制》 CSCD 北大核心 2024年第11期128-132,共5页
离群因子检测目的是检测与大部分其他对象显著不同的数据对象。近年来,在某些分组计算应用场景下,数据量十分巨大,现有算法采用的欧氏距离计算开销不断增大,存在两个较有挑战性问题:1)组间数据对象数量十分巨大,计算耗时较长,开销较大;2... 离群因子检测目的是检测与大部分其他对象显著不同的数据对象。近年来,在某些分组计算应用场景下,数据量十分巨大,现有算法采用的欧氏距离计算开销不断增大,存在两个较有挑战性问题:1)组间数据对象数量十分巨大,计算耗时较长,开销较大;2)数据对象维度逐渐增多,算法时间开销大。将MapReduce计算框架与LOF算法相结合,解决上述问题。实验证明,引入了MapReduce分布式计算框架的改进算法可以有效提升大量数据中检测离群点的效率。 展开更多
关键词 离群因子检测 LOF算法 mapreduce框架 分布式计算
在线阅读 下载PDF
基于MapReduce集群框架的外观专利检索系统设计
16
作者 孙惠芬 《镇江高专学报》 2024年第2期77-81,共5页
基于MapReduce集群框架的外观专利检索系统设计旨在提高专利检索的效率和准确性。该系统以Hadoop分布式文件系统(HDFS)为存储基础,利用MapReduce并行计算模型实现专利数据的快速处理和检索。通过搭建Linux集群环境和分布式计算平台Hado... 基于MapReduce集群框架的外观专利检索系统设计旨在提高专利检索的效率和准确性。该系统以Hadoop分布式文件系统(HDFS)为存储基础,利用MapReduce并行计算模型实现专利数据的快速处理和检索。通过搭建Linux集群环境和分布式计算平台Hadoop,系统能有效加速外观专利检索,提高检索效率和准确性。 展开更多
关键词 外观专利检索系统 mapreduce集群框架 图像检索 全文检索技术
在线阅读 下载PDF
迭代式MapReduce研究进展 被引量:2
17
作者 李金忠 汤鹏杰 +1 位作者 夏洁武 谭云兰 《计算机工程与应用》 CSCD 北大核心 2015年第12期123-132,共10页
迭代计算普遍存在于大数据处理中,而传统的MapReduce不能显式地支持迭代计算。近几年,研究者扩展和改进原始MapReduce,已开发了若干迭代式MapReduce以更好地为大数据处理而支持迭代计算。对迭代式MapReduce编程框架进行综合评述,较详细... 迭代计算普遍存在于大数据处理中,而传统的MapReduce不能显式地支持迭代计算。近几年,研究者扩展和改进原始MapReduce,已开发了若干迭代式MapReduce以更好地为大数据处理而支持迭代计算。对迭代式MapReduce编程框架进行综合评述,较详细地阐述了这些研究成果,给出了它们各自的基本思想,并分析了它们各自的特点、优势和不足,且对比了它们所采用的一些技术。对迭代式MapReduce未来的发展趋势进行了展望。 展开更多
关键词 mapreduce 迭代计算 迭代式mapreduce 并行编程模型 大数据处理
在线阅读 下载PDF
Classification with Convolutional Neural Networks in MapReduce
18
作者 Min Chen 《Journal of Computer and Communications》 2024年第8期174-190,共17页
Deep learning (DL) techniques, more specifically Convolutional Neural Networks (CNNs), have become increasingly popular in advancing the field of data science and have had great successes in a wide array of applicatio... Deep learning (DL) techniques, more specifically Convolutional Neural Networks (CNNs), have become increasingly popular in advancing the field of data science and have had great successes in a wide array of applications including computer vision, speech, natural language processing, etc. However, the training process of CNNs is computationally intensive and has high computational cost, especially when the dataset is huge. To overcome these obstacles, this paper takes advantage of distributed frameworks and cloud computing to develop a parallel CNN algorithm. MapReduce is a scalable and fault-tolerant data processing tool that was developed to provide significant improvements in large-scale data-intensive applications in clusters. A MapReduce-based CNN (MCNN) is developed in this work to tackle the task of image classification. In addition, the proposed MCNN adopted the idea of adding dropout layers in the networks to tackle the overfitting problem. Close examination of the implementation of MCNN as well as how the proposed algorithm accelerates learning are discussed and demonstrated through experiments. Results reveal high classification accuracy and significant improvements in speedup, scaleup and sizeup compared to the standard algorithms. 展开更多
关键词 Distributed System Image Classification CNNS mapreduce OVERFITTING
在线阅读 下载PDF
基于MapReduce和Im2col的并行DCNN优化算法研究
19
作者 曾倩倩 《现代计算机》 2024年第23期81-84,共4页
为了提高深度卷积神经网络(DCNN)的图像并行处理能力,提高其图像识别的准确率和运行效率,研究过程以MapReduce并行计算框架和从图像到矩阵(Image to Column,Im2col)算法,分别进行原始图像特征并行提取和筛选、模型并行训练和参数并行更... 为了提高深度卷积神经网络(DCNN)的图像并行处理能力,提高其图像识别的准确率和运行效率,研究过程以MapReduce并行计算框架和从图像到矩阵(Image to Column,Im2col)算法,分别进行原始图像特征并行提取和筛选、模型并行训练和参数并行更新,构建了并行DCNN优化算法。在性能检测阶段,将全连接神经网络和基于特征图和并行计算熵的深度卷积神经网络算法作为对照组,对比TOP⁃1准确率、浮点运算量、损失函数振荡性、运算时长四项指标,结果显示,此次提出的并行DCNN优化算法性能最佳。 展开更多
关键词 mapreduce Im2col 并行DCNN 特征并行提取 模型并行训练 参数并行更新
在线阅读 下载PDF
一种基于MapReduce并行的模拟退火算法及其在VRPTW的应用
20
作者 崔姗姗 许莉薇 《滁州职业技术学院学报》 2024年第4期48-52,共5页
针对车辆调度问题的复杂组合优化情况,从不同的角度进行模型创建。文章研究带时间窗的车辆路径与调度问题的算法设计与分析。旨在借助模拟退火算法这个工具,构造适当的车辆行驶路线以实现运输成本的最优化。鉴于上述问题的内在困难,在Ma... 针对车辆调度问题的复杂组合优化情况,从不同的角度进行模型创建。文章研究带时间窗的车辆路径与调度问题的算法设计与分析。旨在借助模拟退火算法这个工具,构造适当的车辆行驶路线以实现运输成本的最优化。鉴于上述问题的内在困难,在Mapreduce框架下,利用全局优化和局部优化并行策略将模拟退火算法并行化,进而验证了Mapreduce框架下并行算法的高效性。对车辆路径问题的研究,可以灵活扩展其他组合优化问题,并且对促进运筹学学科的发展有重要的意义。 展开更多
关键词 车辆路径 模拟退火算法 并行算法 mapreduce框架 时间依赖
在线阅读 下载PDF
上一页 1 2 103 下一页 到第
使用帮助 返回顶部