目前基于普通架构的视频检测速度较慢,难以满足网络视频实时监测的要求,为此提出一个基于众核处理器和图形处理单元(GPU)的视频检测方案。该方案基于众核处理器实现视频解码,基于GPU实现SURF(Speed Up Robust Features)和SVM(Support Ve...目前基于普通架构的视频检测速度较慢,难以满足网络视频实时监测的要求,为此提出一个基于众核处理器和图形处理单元(GPU)的视频检测方案。该方案基于众核处理器实现视频解码,基于GPU实现SURF(Speed Up Robust Features)和SVM(Support Vector Machine)的图像检测算法。与基于普通PC架构的视频检测方案相比,该方案的视频检测性能提升了10倍以上。展开更多
分子动力学(MD)模拟是研究硅纳米薄膜热力学性质的主要方法,但存在数据处理量大、计算密集、原子间作用模型复杂等问题,限制了MD模拟的深入应用。针对晶硅分子动力学模拟算法中数据访问不连续和大量分支判断造成并行资源浪费、线程等待...分子动力学(MD)模拟是研究硅纳米薄膜热力学性质的主要方法,但存在数据处理量大、计算密集、原子间作用模型复杂等问题,限制了MD模拟的深入应用。针对晶硅分子动力学模拟算法中数据访问不连续和大量分支判断造成并行资源浪费、线程等待等问题,结合Nvidia Tesla V100 GPU硬件体系结构特点,对晶硅MD模拟算法进行设计。通过全局内存的合并访存、循环展开、原子操作等优化方法,利用GPU强大并行计算和浮点运算能力,减少显存访问及算法执行过程中的分支冲突和判断指令,提升算法整体计算性能。测试结果表明,优化后的晶硅MD模拟算法的计算速度相比于优化前提升了1.69~1.97倍,相比于国际上主流的GPU加速MD模拟软件HOOMDblue和LAMMPS分别提升了3.20~3.47倍和17.40~38.04倍,具有较好的模拟加速效果。展开更多
音视频编码标准(audio video coding standard,AVS)中的视频标准具有较高的压缩性能以及较好的网络适应性,能满足在数字视频领域广泛应用的需求.提高AVS视频编码的速度、实现实时编码是满足数字视频应用需求的重要环节.提出了一种基于CP...音视频编码标准(audio video coding standard,AVS)中的视频标准具有较高的压缩性能以及较好的网络适应性,能满足在数字视频领域广泛应用的需求.提高AVS视频编码的速度、实现实时编码是满足数字视频应用需求的重要环节.提出了一种基于CPU+GPU的AVS视频并行编码方法,利用GPU完成编码器的运动估值以及整数变换和量化.实验结果表明,该方法能实现对1920×1080分辨率视频的实时编码.展开更多
文摘分子动力学(MD)模拟是研究硅纳米薄膜热力学性质的主要方法,但存在数据处理量大、计算密集、原子间作用模型复杂等问题,限制了MD模拟的深入应用。针对晶硅分子动力学模拟算法中数据访问不连续和大量分支判断造成并行资源浪费、线程等待等问题,结合Nvidia Tesla V100 GPU硬件体系结构特点,对晶硅MD模拟算法进行设计。通过全局内存的合并访存、循环展开、原子操作等优化方法,利用GPU强大并行计算和浮点运算能力,减少显存访问及算法执行过程中的分支冲突和判断指令,提升算法整体计算性能。测试结果表明,优化后的晶硅MD模拟算法的计算速度相比于优化前提升了1.69~1.97倍,相比于国际上主流的GPU加速MD模拟软件HOOMDblue和LAMMPS分别提升了3.20~3.47倍和17.40~38.04倍,具有较好的模拟加速效果。
文摘音视频编码标准(audio video coding standard,AVS)中的视频标准具有较高的压缩性能以及较好的网络适应性,能满足在数字视频领域广泛应用的需求.提高AVS视频编码的速度、实现实时编码是满足数字视频应用需求的重要环节.提出了一种基于CPU+GPU的AVS视频并行编码方法,利用GPU完成编码器的运动估值以及整数变换和量化.实验结果表明,该方法能实现对1920×1080分辨率视频的实时编码.