期刊文献+
共找到36篇文章
< 1 2 >
每页显示 20 50 100
Accelerating Hartree-Fock Self-consistent Field Calculation on C86/DCU Heterogenous Computing Platform
1
作者 Ji Qi Huimin Zhang +1 位作者 Dezun Shan Minghui Yang 《Chinese Journal of Chemical Physics》 2025年第1期81-94,I0056,共15页
In this study,we investigate the ef-ficacy of a hybrid parallel algo-rithm aiming at enhancing the speed of evaluation of two-electron repulsion integrals(ERI)and Fock matrix generation on the Hygon C86/DCU(deep compu... In this study,we investigate the ef-ficacy of a hybrid parallel algo-rithm aiming at enhancing the speed of evaluation of two-electron repulsion integrals(ERI)and Fock matrix generation on the Hygon C86/DCU(deep computing unit)heterogeneous computing platform.Multiple hybrid parallel schemes are assessed using a range of model systems,including those with up to 1200 atoms and 10000 basis func-tions.The findings of our research reveal that,during Hartree-Fock(HF)calculations,a single DCU ex-hibits 33.6 speedups over 32 C86 CPU cores.Compared with the efficiency of Wuhan Electronic Structure Package on Intel X86 and NVIDIA A100 computing platform,the Hygon platform exhibits good cost-effective-ness,showing great potential in quantum chemistry calculation and other high-performance scientific computations. 展开更多
关键词 Quantum chemistry Self-consistent field HARTREE-FOCK Electron repulsion inte-grals Heterogenous parallel computing C86/deep computing unit
在线阅读 下载PDF
面向国产异构DCU平台的大规模并行矩量法研究 被引量:2
2
作者 贾瑞鹏 林中朝 +2 位作者 左胜 张玉 杨美红 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2024年第2期76-83,共8页
面向国产异构众核处理器超级计算机发展趋势,实现了基于CPU+DCU国产异构并行系统的大规模并行高阶矩量法。在同构并行矩量法负载均衡策略的基础上,提出了一种“MPI+openMP+DCU”的高效异构并行编程框架,解决了计算任务与计算能力不匹配... 面向国产异构众核处理器超级计算机发展趋势,实现了基于CPU+DCU国产异构并行系统的大规模并行高阶矩量法。在同构并行矩量法负载均衡策略的基础上,提出了一种“MPI+openMP+DCU”的高效异构并行编程框架,解决了计算任务与计算能力不匹配的问题,实现了矩量法异构并行计算过程的负载均衡。采用细粒度任务划分策略与异步通信技术,对深度计算处理器计算过程进行了流水线优化设计,实现了计算与通信重叠,提升了矩量法异构协同计算的效率。通过与有限元法的仿真结果对比,验证了CPU+DCU异构并行矩量法的准确性。基于国产深度计算处理器异构平台的可扩展性分析结果表明,与单纯CPU计算相比,所实现的CPU+DCU异构协同计算方法能够获得5.5~7.0倍的加速效果,且在国家超级计算西安中心能够实现全系统运行,并行规模从360节点扩展到3 600节点(共1 036 800个处理器核心),并行效率可以达到约73.5%。 展开更多
关键词 高阶矩量法 国产异构并行系统 深度计算处理器 异构协同并行计算
在线阅读 下载PDF
国产DCU加速卡与MPS方法结合高效模拟带障碍物溃坝流动问题 被引量:2
3
作者 黄聪祎 赵伟文 万德成 《水动力学研究与进展(A辑)》 CSCD 北大核心 2024年第2期187-195,共9页
移动粒子半隐式方法(Moving Particle Semi-implicit, MPS)因其拉格朗日特性而具有独特优势,尤其适合用于模拟具有自由表面大变形特征的强非线性问题。然而,邻居粒子搜索和压力泊松方程求解的高计算开销限制了该方法在大规模应用场景中... 移动粒子半隐式方法(Moving Particle Semi-implicit, MPS)因其拉格朗日特性而具有独特优势,尤其适合用于模拟具有自由表面大变形特征的强非线性问题。然而,邻居粒子搜索和压力泊松方程求解的高计算开销限制了该方法在大规模应用场景中的实用性。图形处理器(GPU)因其多核架构,非常适合用于并行模拟处理这种相似且大量的问题。该文将自主开发的基于GPU加速的MPS算法程序移植到基于HIP编程环境的国产自主类GPU平台DCU (Deep Computing Unit,深度计算单元)上运行,开发了MPSDCU-SJTU求解器。利用MPSDCU-SJTU模拟了三维溃坝流动,其模拟结果与已公开发表的实验结果吻合良好。进一步比较了DCU平台加速前后的计算时长,证明MPSDCU-SJTU求解器能显著提升MPS方法的计算效率。 展开更多
关键词 移动粒子半隐式方法(MPS) 自由表面流动 深度计算单元(dcu) 异构计算
原文传递
A high-performance tensor computing unit for deep learning acceleration
4
作者 Qiang Zhou Tieli Sun +1 位作者 Taoran Shen York Xue 《Chip》 2025年第2期75-84,共10页
The increasing complexity of neural network applications has led to a demand for higher computational parallelism and more efficient synchronization in artificial intelligence(AI)chips.To achieve higher performance an... The increasing complexity of neural network applications has led to a demand for higher computational parallelism and more efficient synchronization in artificial intelligence(AI)chips.To achieve higher performance and lower power,a comprehensive and efficient approach is required to compile neural networks for implementation on dedicated hardware.Our first-generation deep learning accelerator,tensor computing unit,was presented with hardware and software solutions.It offered dedicated very long instruction words(VLIWs)instructions and multi-level repeatable direct memory access(DMA).The former lowers the instruction bandwidth requirement and makes it easier to parallelize the index and vector computations.The latter reduces the communication latency between the compute core and the asynchronous DMA,and also greatly alleviates the programming complexity.For operator implementation and optimization,the compiler-based data-flow generator and the instruction macro generator first produced a set of parameterized operators.Then,the tunerconfiguration generator pruned the search space and the distributed tuner framework selected the best data-flow pattern and corresponding parameters.Our tensor computing unit supports all the convolution parameters with full-shape dimensions.It can readily select proper operators to achieve 96%of the chip peak performance under certain shapes and find the best performance implementation within limited power.The evaluation of a large number of convolution shapes on our tensor computing unit chip shows the generated operators significantly outperform the handwritten ones,achieving 9%higher normalized performance than CUDA according to the silicon data. 展开更多
关键词 deep learning accelerator Programming model VLIW DMA Tensor computing unit
原文传递
面向DCU的LDS访存向量化优化 被引量:3
5
作者 杨思驰 赵荣彩 +1 位作者 韩林 王洪生 《计算机工程》 CAS CSCD 北大核心 2024年第2期206-213,共8页
在深度计算器(DCU)中,本地数据共享(LDS)是相较于全局内存延迟更低、带宽更高的关键存储部件。随着异构程序对LDS的使用越来越频繁,LDS访存效率低下成为限制异构程序性能的重要因素。此外,LDS访问过程中存在bank冲突的特性,使LDS的访问... 在深度计算器(DCU)中,本地数据共享(LDS)是相较于全局内存延迟更低、带宽更高的关键存储部件。随着异构程序对LDS的使用越来越频繁,LDS访存效率低下成为限制异构程序性能的重要因素。此外,LDS访问过程中存在bank冲突的特性,使LDS的访问应遵循一定原则才能高效利用,当线程间的数据访问呈现重叠的访存特征时,访问向量化指令会因此产生延迟。针对此问题,提出面向DCU的LDS访存向量化优化方法。通过实现连续数据访问的向量化,减少LDS的访问次数,降低访存耗时,由此提高程序访存效率。在此基础上,通过设计访存特征的判断方法,提出能够有效解决数据重叠的LDS访存向量化方法,实现一种面向国产通用加速器的LDS高效访存技术,确保向量化方法对访存效率的有效提升。实验结果表明:在使用LDS的异构程序中,LDS访存向量化实现后程序性能平均提升了22.6%,验证了所提方法的有效性;同时,向量化方法能够实现LDS线程间访存数据重叠问题的优化,使异构程序得到平均30%的性能提升。 展开更多
关键词 深度计算器 本地数据共享 访存向量化 访存特征 bank冲突
在线阅读 下载PDF
面向DCU非一致控制流的编译优化 被引量:2
6
作者 杨小艺 赵荣彩 +2 位作者 王洪生 韩林 徐坤坤 《计算机应用》 CSCD 北大核心 2023年第10期3170-3177,共8页
国产DCU采用单指令多线程(SIMT)的并行执行模型,在程序执行时核函数内会产生非一致控制流,导致线程束中的线程部分只能串行执行,即线程束分化。针对核函数的性能因线程束分化受到严重制约的问题,提出一种减少线程束分化时间的编译优化... 国产DCU采用单指令多线程(SIMT)的并行执行模型,在程序执行时核函数内会产生非一致控制流,导致线程束中的线程部分只能串行执行,即线程束分化。针对核函数的性能因线程束分化受到严重制约的问题,提出一种减少线程束分化时间的编译优化方法——部分控制流合并(PCFM)。首先,通过散度分析找到同构且含有大量相同指令和相似指令的可融合发散区域;其次,统计合并后节省的指令周期百分比,从而评估可融合发散区域的融合盈利;最后,查找对齐序列,并合并有收益的可融合发散区域。在DCU上使用PCFM测试从图形处理器(GPU)基准测试套件Rodinia和经典的排序算法中选择的测试用例,实验结果表明,PCFM对测试用例能够取得1.146的平均加速比,与分支融合+尾合并方法相比,使用PCFM的加速比平均提高了5.72%。可见,所提方法减少线程束分化的效果更好。 展开更多
关键词 dcu 单指令多线程 线程束分化 复杂控制流 编译优化
在线阅读 下载PDF
DeepFlame:基于深度学习和高性能计算的反应流模拟开源平台 被引量:2
7
作者 毛润泽 吴子恒 +2 位作者 徐嘉阳 章严 陈帜 《计算机工程与科学》 CSCD 北大核心 2024年第11期1901-1907,共7页
近年来,深度学习被广泛认为是加速反应流模拟的一种可靠方法。近期开发了一个名为DeepFlame的开源平台,可以在模拟反应流过程中实现对机器学习库和算法的支持。基于DeepFlame,成功地采用深度神经网络来计算化学反应源项,并对DeepFlame... 近年来,深度学习被广泛认为是加速反应流模拟的一种可靠方法。近期开发了一个名为DeepFlame的开源平台,可以在模拟反应流过程中实现对机器学习库和算法的支持。基于DeepFlame,成功地采用深度神经网络来计算化学反应源项,并对DeepFlame平台进行了高性能优化。首先,为了充分发挥深度神经网络(DNN)的加速潜力,研究实现了DeepFlame对DNN多卡并行推理的支持,开发了节点内分割算法和主从通信结构,并完成了DeepFlame向图形处理单元(GPU)和深度计算单元(DCU)的移植。其次,还基于Nvidia AmgX库在GPU上实现了偏微分方程求解和离散稀疏矩阵构造。最后,对CPU-GPU/DCU异构架构上的新版本DeepFlame的计算性能进行了评估。结果表明,仅利用单个GPU卡,在模拟具有反应性的泰勒格林涡(TGV)时可以实现的最大加速比达到15。 展开更多
关键词 计算流体力学 反应流动 深度神经网络 GPU 偏微分方程
在线阅读 下载PDF
Deep Learning Applied to Computational Mechanics:A Comprehensive Review,State of the Art,and the Classics 被引量:1
8
作者 Loc Vu-Quoc Alexander Humer 《Computer Modeling in Engineering & Sciences》 SCIE EI 2023年第11期1069-1343,共275页
Three recent breakthroughs due to AI in arts and science serve as motivation:An award winning digital image,protein folding,fast matrix multiplication.Many recent developments in artificial neural networks,particularl... Three recent breakthroughs due to AI in arts and science serve as motivation:An award winning digital image,protein folding,fast matrix multiplication.Many recent developments in artificial neural networks,particularly deep learning(DL),applied and relevant to computational mechanics(solid,fluids,finite-element technology)are reviewed in detail.Both hybrid and pure machine learning(ML)methods are discussed.Hybrid methods combine traditional PDE discretizations with ML methods either(1)to help model complex nonlinear constitutive relations,(2)to nonlinearly reduce the model order for efficient simulation(turbulence),or(3)to accelerate the simulation by predicting certain components in the traditional integration methods.Here,methods(1)and(2)relied on Long-Short-Term Memory(LSTM)architecture,with method(3)relying on convolutional neural networks.Pure ML methods to solve(nonlinear)PDEs are represented by Physics-Informed Neural network(PINN)methods,which could be combined with attention mechanism to address discontinuous solutions.Both LSTM and attention architectures,together with modern and generalized classic optimizers to include stochasticity for DL networks,are extensively reviewed.Kernel machines,including Gaussian processes,are provided to sufficient depth for more advanced works such as shallow networks with infinite width.Not only addressing experts,readers are assumed familiar with computational mechanics,but not with DL,whose concepts and applications are built up from the basics,aiming at bringing first-time learners quickly to the forefront of research.History and limitations of AI are recounted and discussed,with particular attention at pointing out misstatements or misconceptions of the classics,even in well-known references.Positioning and pointing control of a large-deformable beam is given as an example. 展开更多
关键词 deep learning breakthroughs network architectures backpropagation stochastic optimization methods from classic to modern recurrent neural networks long short-term memory gated recurrent unit attention transformer kernel machines Gaussian processes libraries Physics-Informed Neural Networks state-of-the-art history limitations challenges Applications to computational mechanics Finite-element matrix integration improved Gauss quadrature Multiscale geomechanics fluid-filled porous media Fluid mechanics turbulence proper orthogonal decomposition Nonlinear-manifold model-order reduction autoencoder hyper-reduction using gappy data control of large deformable beam
在线阅读 下载PDF
基于有限元法的细长杆动态扭转屈曲失稳分析与判定准则
9
作者 张强 赵帅 +2 位作者 竺可 许志 魏荣江 《化工自动化及仪表》 2025年第4期546-554,共9页
提出了细长杆非线性动态扭转屈曲的计算方法,研究了细长杆在动态扭转载荷下的屈曲行为。将细长杆离散成非线性梁单元,通过构造微小缺陷,采用隐式积分法,分析了细长杆在屈曲过程中的构型演变,屈曲构型依次经历了直杆状态、亚失稳状态和... 提出了细长杆非线性动态扭转屈曲的计算方法,研究了细长杆在动态扭转载荷下的屈曲行为。将细长杆离散成非线性梁单元,通过构造微小缺陷,采用隐式积分法,分析了细长杆在屈曲过程中的构型演变,屈曲构型依次经历了直杆状态、亚失稳状态和完全失稳状态。在细长杆动态扭转屈曲失稳过程中,分析了轴向位移、轴向速度、扭矩、动能和势能的动态响应,提出了基于扭矩峰值的细长杆动态临界失稳判定准则。开展了动态扭转屈曲实验,通过实验测试验证,发现该计算方法和失稳判定准则能够准确预测细长杆的动态临界扭转角,且避免了解析法中针对不同工况下的常数拟合。 展开更多
关键词 有限元 细长杆 动态扭转屈曲 动态临界扭转角 屈曲实验
在线阅读 下载PDF
数据处理单元赋能的智算中心网络拥塞控制机制 被引量:4
10
作者 陈锦前 郭少勇 +2 位作者 刘畅 亓峰 邱雪松 《通信学报》 北大核心 2025年第2期1-17,共17页
针对智算中心集群间交互频繁造成网络拥塞频发导致智能业务实时性难以保障的问题,以数据处理单元(DPU)为核心载体构建了深度强化学习算法驱动的拥塞控制模型,利用剪枝与量化融合的方式对模型进行压缩,并通过知识蒸馏方法生成高效梯度增... 针对智算中心集群间交互频繁造成网络拥塞频发导致智能业务实时性难以保障的问题,以数据处理单元(DPU)为核心载体构建了深度强化学习算法驱动的拥塞控制模型,利用剪枝与量化融合的方式对模型进行压缩,并通过知识蒸馏方法生成高效梯度增强决策树,实现调速动作与网络实时状态的精准匹配。仿真结果表明,所提机制在泛化能力和控制效果方面均优于现有方法,在多个压力测试场景中提升网络有效吞吐率与公平性指标JAIN10.8%和8.9%以上,降低P99端到端时延与丢包率17.31%和11.47%以上,降低并行计算场景下数据流传输任务完成时间11.23%以上,且具备应对网络状态突变的快速响应能力。 展开更多
关键词 拥塞控制 多智能体深度强化学习 智算中心网络 远程直接内存访问网络 数据处理单元
在线阅读 下载PDF
基于云边协同的抽油机故障检测研究与应用 被引量:1
11
作者 李锋 密杨 +2 位作者 叶茂 仉驰 涂娟 《化工自动化及仪表》 2025年第4期531-536,554,共7页
抽油机在石油开采中发生故障可能会导致生产中断,进而影响经济效益和生产安全。传统人工巡检方式效率较低,且常伴随能源浪费、有潜在安全隐患。为克服这些问题,设计了基于云边协同的故障检测与诊断系统。该系统充分利用云计算和边缘计... 抽油机在石油开采中发生故障可能会导致生产中断,进而影响经济效益和生产安全。传统人工巡检方式效率较低,且常伴随能源浪费、有潜在安全隐患。为克服这些问题,设计了基于云边协同的故障检测与诊断系统。该系统充分利用云计算和边缘计算的综合优势,大幅提升故障检测的效率和准确性。边缘计算节点能够在设备现场对传感器数据进行初步处理和实时分析,实时捕捉设备运行中的异常情况并及时报警。云计算平台负责处理从现场传输来的大数据,并进行深度学习模型的训练和应用。在某油田的实际生产经验证明:该系统能实现对设备状态的实时监控,不断提高故障预测的精度和诊断能力,提供更加科学和准确的维护建议,有效降低维护成本。由于减少了对人工巡检的依赖,同时提高了故障检测的准确性,油田的可靠性、安全性和经济效益显著提升,推动了油田生产的智能化和高效化发展。 展开更多
关键词 故障诊断 抽油机 云边协同 边缘计算 深度学习 实时监控
在线阅读 下载PDF
基于深度神经网络的桥牌叫牌策略研究
12
作者 王璐瑶 吴蕾 《应用科技》 2025年第1期198-204,共7页
桥牌是棋牌类游戏中最为复杂的游戏之一,由于其拥有着很多的隐藏信息,包含玩家之间的合作和竞争,同时也是不完全信息博弈的典型代表,具有重要的研究价值。定约桥牌包括2个部分:叫牌和打牌,而其中最具挑战性的任务是叫牌部分,它不仅需要... 桥牌是棋牌类游戏中最为复杂的游戏之一,由于其拥有着很多的隐藏信息,包含玩家之间的合作和竞争,同时也是不完全信息博弈的典型代表,具有重要的研究价值。定约桥牌包括2个部分:叫牌和打牌,而其中最具挑战性的任务是叫牌部分,它不仅需要队友之间的合作,还需要干扰对手之间的合作。文章以桥牌叫牌为研究对象,提出了一种基于深度神经网络的叫牌模型,用于给出下一步的叫牌决策。由于叫牌过程中的每一步都是密不可分的,当前的叫牌决策要受到之前的叫牌动作影响,所以文章采用了门控循环单元网络进行设计模型,并通过真实数据集的综合实验,验证了该模型的可行性以及相对于其他模型而言该模型对叫牌序列间关系更高的捕捉能力。 展开更多
关键词 定约桥牌 机器博弈 不完全信息 叫牌 合作与对抗 深度学习 神经网络 门控循环单元
在线阅读 下载PDF
海光深度计算处理器上分析模型驱动的矩阵乘性能优化
13
作者 水超洋 谭光明 《高技术通讯》 北大核心 2025年第12期1263-1276,共14页
本文提出一种国产海光深度计算处理器(deep compute unit,DCU)上基于分析模型的稠密矩阵乘优化方法。高性能的算法实现需要将软件优化精确映射到硬件特性上。在各种不同的中央处理器(central processing unit,CPU)架构上,分析模型已被... 本文提出一种国产海光深度计算处理器(deep compute unit,DCU)上基于分析模型的稠密矩阵乘优化方法。高性能的算法实现需要将软件优化精确映射到硬件特性上。在各种不同的中央处理器(central processing unit,CPU)架构上,分析模型已被证明是一种有效的优化方法,可以根据不同的架构参数确定软件参数并获得与专家优化实现相当的性能。国产海光DCU加速器是国产高性能芯片的成功代表之一,对国产芯片自主可控有重要意义。然而DCU加速器上算法优化却缺乏方法指导,面临关键算法参数确定难、性能低、过度依赖经验等问题。本文以矩阵乘法的优化作为研究案例,提出了基于海光DCU架构的矩阵乘分析模型。首先,从硬件和算法2个方面入手,分别对海光DCU的一般架构特征和矩阵乘算法进行建模。在此基础上,本研究从带宽分析、延迟分析和资源分析3个角度建立了矩阵乘法的算法参数选择与底层硬件架构之间的联系,以此快速确定不同类型矩阵乘法在不同架构DCU上的关键算法参数。实验结果表明,根据分析模型推导的算法参数与专家选择的一致,模型驱动优化实现的矩阵乘性能可以达到与专家实现相当的水平。分析模型驱动的矩阵乘性能优化研究不仅可以为国产海光DCU上其他稠密计算优化提供参考,还为隐式优化经验的方法化提供了一种可行思路。 展开更多
关键词 矩阵乘优化 分析模型 海光深度计算处理器
在线阅读 下载PDF
地质调查大数据研究的主要问题分析 被引量:59
14
作者 严光生 薛群威 +3 位作者 肖克炎 陈建平 缪谨励 余海龙 《地质通报》 CAS CSCD 北大核心 2015年第7期1273-1279,共7页
地质调查大数据包含地质调查工作中产生的多来源、多模态地质数据,以及公共服务与支撑管理产生的数据。一些与数据和计算有关的地质问题,限于当时的信息技术条件,没有得到很好的解决,解决这类地质问题及信息数据共享问题是地质调查大数... 地质调查大数据包含地质调查工作中产生的多来源、多模态地质数据,以及公共服务与支撑管理产生的数据。一些与数据和计算有关的地质问题,限于当时的信息技术条件,没有得到很好的解决,解决这类地质问题及信息数据共享问题是地质调查大数据处理技术的基本目标。在地质调查大数据处理技术中,应当积极开展多类型地质数据采集器、新型非易失性存储技术、分布式计算、内存计算技术产品开发与应用,然后集中开展、深度分析与挖掘、可视分析技术产品开发与应用,最终形成地质调查大数据处理技术体系与产品线,以产品应用推动资源共享,提升地质调查信息化服务品质。 展开更多
关键词 地质调查 大数据 地质数据采集器 分布式计算 内存计算 深度挖掘
在线阅读 下载PDF
GPU通用计算及其在计算智能领域的应用 被引量:16
15
作者 丁科 谭营 《智能系统学报》 CSCD 北大核心 2015年第1期1-11,共11页
在日趋复杂的图形处理任务的推动下,GPU已经演化成为具有众多计算核心、计算能力强大的通用计算设备,并被越来越多地应用于图形处理之外的计算领域。GPU具有高并行、低能耗和低成本的特点,在数据并行度高的计算任务中,相比与传统的CPU... 在日趋复杂的图形处理任务的推动下,GPU已经演化成为具有众多计算核心、计算能力强大的通用计算设备,并被越来越多地应用于图形处理之外的计算领域。GPU具有高并行、低能耗和低成本的特点,在数据并行度高的计算任务中,相比与传统的CPU平台有着显著的优势。随着GPU体系结构的不断演进以及开发平台的逐步完善,GPU已经进入到高性能计算的主流行列。GPU通用计算的普及,使个人和小型机构能有机会获得以往昂贵的大型、超级计算机才能提供的计算能力,并一定程度上改变了科学计算领域的格局和编程开发模式。GPU提供的强大计算能力极大地推动了计算智能的发展,并且已经在深度学习和群体智能优化方法等子领域获得了巨大的成功,更是在图像、语音等领域取得了突破性的进展。随着人工智能技术和方法的不断进步,GPU将在更多的领域获得更加广泛的应用。 展开更多
关键词 计算智能 群体智能 演化算法 机器学习 深度学习 图形处理器 GPU通用计算 异构计算 高性能计算
在线阅读 下载PDF
常减压蒸馏装置减压深拔效益初探 被引量:4
16
作者 李利辉 姜斌 严錞 《石油化工设计》 CAS 2011年第4期26-28,36,共3页
青岛炼油化工有限公司10 Mt/a常减压蒸馏装置的减压渣油作为焦化装置的原料,为原油实沸点(TBP)切割温度大于565℃的馏分,要达到这个要求,必须采用减压深拔技术。该装置已于2008年4月12日一次投产成功,装置至今一直生产平稳,操作正常,各... 青岛炼油化工有限公司10 Mt/a常减压蒸馏装置的减压渣油作为焦化装置的原料,为原油实沸点(TBP)切割温度大于565℃的馏分,要达到这个要求,必须采用减压深拔技术。该装置已于2008年4月12日一次投产成功,装置至今一直生产平稳,操作正常,各项指标达到或超过了设计值。根据青岛炼油化工有限公司常减压蒸馏装置、延迟焦化装置的生产数据,对这两个装置在常减压蒸馏实现减压深拔后的产品收率、产品质量、装置能耗等进行了分析、对比。说明设置焦化装置的炼油厂,减压深拔能较大地提高全厂的经济效益。 展开更多
关键词 常减压装置 焦化装置 减压深拔 收率 能耗
在线阅读 下载PDF
语义关系引导的面部动作单元分析 被引量:3
17
作者 李冠彬 张锐斐 +1 位作者 朱鑫 林倞 《软件学报》 EI CSCD 北大核心 2023年第6期2922-2941,共20页
面部动作单元分析旨在识别人脸图像每个面部动作单元的状态,可以应用于测谎,自动驾驶和智能医疗等场景.近年来,随着深度学习在计算机视觉领域的普及,面部动作单元分析逐渐成为人们关注的热点.面部动作单元分析可以分为面部动作单元检测... 面部动作单元分析旨在识别人脸图像每个面部动作单元的状态,可以应用于测谎,自动驾驶和智能医疗等场景.近年来,随着深度学习在计算机视觉领域的普及,面部动作单元分析逐渐成为人们关注的热点.面部动作单元分析可以分为面部动作单元检测和面部动作单元强度预测两个不同的任务,然而现有的主流算法通常只针对其中一个问题.更重要的是,这些方法通常只专注于设计更复杂的特征提取模型,却忽略了面部动作单元之间的语义相关性.面部动作单元之间往往存在着很强的相互关系,有效利用这些语义知识进行学习和推理是面部动作单元分析任务的关键.因此,通过分析不同人脸面部行为中面部动作单元之间的共生性和互斥性构建了基于面部动作单元关系的知识图谱,并基于此提出基于语义关系的表征学习算法(semantic relationship embedded representation learning,SRERL).在现有公开的面部动作单元检测数据集(BP4D、DISFA)和面部动作单元强度预测数据集(FERA2015、DISFA)上,SRERL算法均超越现有最优的算法.更进一步地,在BP4D+数据集上进行泛化性能测试和在BP4D数据集上进行遮挡测试,同样取得当前最优的性能. 展开更多
关键词 面部动作单元分析 深度学习 计算机视觉
在线阅读 下载PDF
基于残差模块的红螯螯虾虾卵计数方法的研究 被引量:2
18
作者 杨国伟 周超 +3 位作者 胡起立 孙丽慧 张俊杰 郭建林 《渔业现代化》 CSCD 2022年第4期60-69,共10页
红螯螯虾人工繁育中需要对离体虾卵进行准确计数。由于虾卵个体小、密度大、人工计数效率低且可能损伤虾卵,提出了一种基于残差模块的计算机视觉虾卵计数模型。该计数网络模型在前端编码器网络中集成残差模块,对虾卵位置信息进行特征提... 红螯螯虾人工繁育中需要对离体虾卵进行准确计数。由于虾卵个体小、密度大、人工计数效率低且可能损伤虾卵,提出了一种基于残差模块的计算机视觉虾卵计数模型。该计数网络模型在前端编码器网络中集成残差模块,对虾卵位置信息进行特征提取和下采样,在后端解码器网络中使用转置卷积,使模型可以自动学习上采样参数。与VGG-16、CSRNet等模型相比,基于残差模块的虾卵计数模型精度达98.88%,具有最低的平均绝对误差、均方误差以及最好的预测密度图质量,可有效解决密集虾卵计数的困难,为红螯螯虾虾卵计数提供了新方法。利用该模型的计算机视觉虾卵自动计数装置,结构简单、计数精准,可以应用于真实场景。 展开更多
关键词 红螯螯虾 虾卵计数 残差模块 密度图 深度学习 计算机视觉
在线阅读 下载PDF
基于混合平台的深空通信遥测接收机架构设计
19
作者 侯毅 刘荣科 +1 位作者 葛帅 赵岭 《飞行器测控学报》 2012年第S1期13-16,共4页
针对目前深空通信遥测信号接收机硬件实现存在的重配置及扩展灵活性较差的问题,提出了一种符合CCSDS(空间数据系统咨询委员会)标准基于混合平台的接收机架构设计。本设计充分利用了GPU(图形处理器)平台片上存储资源的低访问延迟特性、... 针对目前深空通信遥测信号接收机硬件实现存在的重配置及扩展灵活性较差的问题,提出了一种符合CCSDS(空间数据系统咨询委员会)标准基于混合平台的接收机架构设计。本设计充分利用了GPU(图形处理器)平台片上存储资源的低访问延迟特性、流多处理器的高速并行处理特性以及CUDA(统一计算架构)软件开发的配置灵活性,对接收过程中的帧同步和信道译码进行了高速实现。同时采用FPGA(现场可编程门阵列)对接收数据进行解调处理,通过CPU(中央处理器)对接收机内部数据流传输进行控制,实现了可重配置的混合平台接收机架构。实验结果表明本接收机架构在采用CCSDS标准的LDPC(低密度奇偶校验)编码时能够灵活切换多种码长码率模式,译码后数据吞吐率能够达到10 Mbit/s以上。 展开更多
关键词 深空通信 遥测接收机 混合平台 GPU(图形处理器
在线阅读 下载PDF
隐私计算环境下深度学习的GPU加速技术综述 被引量:3
20
作者 秦智翔 杨洪伟 +2 位作者 郝萌 何慧 张伟哲 《信息安全研究》 CSCD 北大核心 2024年第7期586-593,共8页
随着深度学习技术的不断发展,神经网络模型的训练时间越来越长,使用GPU计算对神经网络训练进行加速便成为一项关键技术.此外,数据隐私的重要性也推动了隐私计算技术的发展.首先介绍了深度学习、GPU计算的概念以及安全多方计算、同态加密... 随着深度学习技术的不断发展,神经网络模型的训练时间越来越长,使用GPU计算对神经网络训练进行加速便成为一项关键技术.此外,数据隐私的重要性也推动了隐私计算技术的发展.首先介绍了深度学习、GPU计算的概念以及安全多方计算、同态加密2种隐私计算技术,而后探讨了明文环境与隐私计算环境下深度学习的GPU加速技术.在明文环境下,介绍了数据并行和模型并行2种基本的深度学习并行训练模式,分析了重计算和显存交换2种不同的内存优化技术,并介绍了分布式神经网络训练过程中的梯度压缩技术.介绍了在隐私计算环境下安全多方计算和同态加密2种不同隐私计算场景下的深度学习GPU加速技术.简要分析了2种环境下GPU加速深度学习方法的异同. 展开更多
关键词 深度学习 GPU计算 隐私计算 安全多方计算 同态加密
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部