期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
深度学习自适应学习率算法研究 被引量:28
1
作者 蒋文斌 彭晶 叶阁焰 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2019年第5期79-83,共5页
为了获得更好的收敛速度和训练效果,提出了根据模型测试准确率对学习率使用不同调整策略的自适应学习率调整算法.将训练过程分为前期、中期和后期三个阶段:在前期适当增大学习率,在中期和后期根据与测试准确率的增量相关的衰减因子函数... 为了获得更好的收敛速度和训练效果,提出了根据模型测试准确率对学习率使用不同调整策略的自适应学习率调整算法.将训练过程分为前期、中期和后期三个阶段:在前期适当增大学习率,在中期和后期根据与测试准确率的增量相关的衰减因子函数使用不同大小的学习率衰减因子减小学习率,增量越小表示模型越接近收敛,因而使用更小的衰减因子.基于MXNet框架,在数据集CIFAR-10和CIFAR-100上进行测试实验,结果表明所提出的方法在收敛速度和准确率收敛值方面都有更好的效果. 展开更多
关键词 深度学习 学习率 准确率 陈旧梯度 MXNet框架
原文传递
分布式深度学习框架下基于性能感知的DBS-SGD算法 被引量:13
2
作者 纪泽宇 张兴军 +2 位作者 付哲 高柏松 李靖波 《计算机研究与发展》 EI CSCD 北大核心 2019年第11期2396-2409,共14页
通过增加模型的深度以及训练数据的样本数量,深度神经网络模型能够在多个机器学习任务中获得更好的性能,然而这些必要的操作会使得深度神经网络模型训练的开销相应增大.因此为了更好地应对大量的训练开销,在分布式计算环境中对深度神经... 通过增加模型的深度以及训练数据的样本数量,深度神经网络模型能够在多个机器学习任务中获得更好的性能,然而这些必要的操作会使得深度神经网络模型训练的开销相应增大.因此为了更好地应对大量的训练开销,在分布式计算环境中对深度神经网络模型的训练过程进行加速成为了研发人员最常用的手段.随机梯度下降(stochastic gradient descent,SGD)算法是当前深度神经网络模型中最常见的训练算法之一,然而SGD在进行并行化的时候容易产生梯度过时问题,从而影响算法的整体收敛性.现有解决方案大部分针对的是各节点性能差别较小的高性能计算(high performance computing,HPC)环境,很少有研究考虑过各节点性能差别较大的集群环境.针对上述问题进行研究并提出了一种基于性能感知技术的动态batch size随机梯度下降算法(dynamic batch size SGD,DBS-SGD).该算法通过分析各节点的计算能力,对各节点的minibatch进行动态分配,从而保证了节点间每次迭代更新的时间基本一致,进而降低了节点的平均梯度过时值.提出的算法能够有效优化异步更新策略中存在的梯度过时问题.选用常用的图像分类基准Mnist和cifar10作为训练数据集,将该算法与异步随机梯度下降(asynchronous SGD,ASGD)算法、n-soft算法进行了对比.实验结果表明:在不损失加速比的情况下,Mnist数据集的loss函数值降低了60%,cifar数据集的准确率提升了约10%,loss函数值降低了10%,其性能高于ASGD算法和n-soft算法,接近同步策略下的收敛曲线. 展开更多
关键词 参数服务器 异步随机梯度下降算法 梯度过时 性能感知 数据并行
在线阅读 下载PDF
面向异构分布式机器学习的动态自适应并行加速方法 被引量:4
3
作者 马翔 申国伟 +2 位作者 郭春 崔允贺 陈意 《智能系统学报》 CSCD 北大核心 2023年第5期1099-1107,共9页
分布式机器学习因其优越的并行能力成为人工智能领域复杂模型训练的常用技术。然而,GPU升级换代非常快,异构集群环境下的分布式机器学习成为数据中心、研究机构面临的新常态。异构节点之间训练速度的差异使得现有并行方法难以平衡同步... 分布式机器学习因其优越的并行能力成为人工智能领域复杂模型训练的常用技术。然而,GPU升级换代非常快,异构集群环境下的分布式机器学习成为数据中心、研究机构面临的新常态。异构节点之间训练速度的差异使得现有并行方法难以平衡同步等待和陈旧梯度的影响,从而显著降低模型整体训练效率。针对该问题,提出了一种基于节点状态的动态自适应并行方法(dynamic adaptive synchronous parallel,DASP),利用参数服务器动态管理节点训练时的状态信息并对节点的并行状态进行划分,通过节点状态信息自适应调整每个节点的并行状态,以减少快速节点对全局模型参数的同步等待时间与陈旧梯度的产生,从而加快收敛效率。在公开数据集上的实验结果表明,DASP比主流方法收敛时间减少了16.9%~82.1%,并且训练过程更加稳定。 展开更多
关键词 异构集群 机器学习 数据并行 分布式训练 参数服务器 落后者 陈旧梯度 大规模深度学习
在线阅读 下载PDF
分组随机梯度下降法:掉队和延迟的平衡 被引量:5
4
作者 高翔 陈力 《中国科学技术大学学报》 CAS CSCD 北大核心 2020年第8期1156-1161,共6页
分布式随机梯度下降法被广泛应用于大规模机器学习,同步随机梯度下降法和异步随机梯度下降法是两个典型的分布式随机梯度下降法.在同步随机梯度下降法中,所有的工作节点都需要互相等待,导致训练速度受限于最慢的工作节点.在异步随机梯... 分布式随机梯度下降法被广泛应用于大规模机器学习,同步随机梯度下降法和异步随机梯度下降法是两个典型的分布式随机梯度下降法.在同步随机梯度下降法中,所有的工作节点都需要互相等待,导致训练速度受限于最慢的工作节点.在异步随机梯度下降法中,延迟的梯度会造成最终训练得到的模型很差.为此提出一种新的分布式随机梯度下降法:分组随机梯度下降法.该方法将通信和计算性能相近的工作节点划入同一组,这样就会将工作节点划分成若干的组.在同一组的工作节点以同步的方式工作,不同的组之间以异步的方式工作.由于组内的工作节点只需互相等待很短的时间,该方法可以缓解同步随机梯度下降法的掉队问题.由于组的数目远小于工作节点的数目,该方法梯度的延迟也很小.理论分析证明了该方法的收敛性.仿真结果表明,在异质集群中该方法的收敛速度比同步随机梯度下降法和异步随机梯度下降法更快. 展开更多
关键词 随机梯度下降 分布式机器学习 掉队者 延迟
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部