期刊文献+
共找到25篇文章
< 1 2 >
每页显示 20 50 100
国产SW26010-Pro处理器上3级BLAS函数众核并行优化 被引量:4
1
作者 胡怡 陈道琨 +5 位作者 杨超 马文静 刘芳芳 宋超博 孙强 史俊达 《软件学报》 EI CSCD 北大核心 2024年第3期1569-1584,共16页
BLAS(basic linear algebra subprograms)是最基本、最重要的底层数学库之一.在一个标准的BLAS库中,BLAS 3级函数涵盖的矩阵-矩阵运算尤为重要,在许多大规模科学与工程计算应用中被广泛调用.另外,BLAS 3级属于计算密集型函数,对充分发... BLAS(basic linear algebra subprograms)是最基本、最重要的底层数学库之一.在一个标准的BLAS库中,BLAS 3级函数涵盖的矩阵-矩阵运算尤为重要,在许多大规模科学与工程计算应用中被广泛调用.另外,BLAS 3级属于计算密集型函数,对充分发挥处理器的计算性能有至关重要的作用.针对国产SW26010-Pro处理器研究BLAS 3级函数的众核并行优化技术.具体而言,根据SW26010-Pro的存储层次结构,设计多级分块算法,挖掘矩阵运算的并行性.在此基础上,基于远程内存访问(remote memory access,RMA)机制设计数据共享策略,提高从核间的数据传输效率.进一步地,采用三缓冲、参数调优等方法对算法进行全面优化,隐藏直接内存访问(direct memory access,DMA)访存开销和RMA通信开销.此外,利用SW26010-Pro的两条硬件流水线和若干向量化计算/访存指令,还对BLAS 3级函数的矩阵-矩阵乘法、矩阵方程组求解、矩阵转置操作等若干运算进行手工汇编优化,提高了函数的浮点计算效率.实验结果显示,所提出的并行优化技术在SW26010-Pro处理器上为BLAS 3级函数带来了明显的性能提升,单核组BLAS 3级函数的浮点计算性能最高可达峰值性能的92%,多核组BLAS 3级函数的浮点计算性能最高可达峰值性能的88%. 展开更多
关键词 BLAS 3 SW26010-Pro众核处理器 直接内存访问 远程内存访问 浮点计算效率
在线阅读 下载PDF
龙芯3号互联系统的设计与实现 被引量:23
2
作者 王焕东 高翔 +1 位作者 陈云霁 胡伟武 《计算机研究与发展》 EI CSCD 北大核心 2008年第12期2001-2010,共10页
龙芯3号的互联结构设计采用了一种基于二维Mesh的可伸缩分布式多核结构,可为芯片级、主板级和系统级的互联提供统一的拓扑结构和逻辑设计.龙芯3号的对外接口采用扩展的HyperTransport协议,既可以用于连接IO,又可以实现多芯片的互联.在龙... 龙芯3号的互联结构设计采用了一种基于二维Mesh的可伸缩分布式多核结构,可为芯片级、主板级和系统级的互联提供统一的拓扑结构和逻辑设计.龙芯3号的对外接口采用扩展的HyperTransport协议,既可以用于连接IO,又可以实现多芯片的互联.在龙芯3号的互联结构中还设置了软件路由配置机制,可以在板级直接构筑中等规模的CC-NUMA系统和更大规模的NCC-NUMA系统,提供高效的通信机制.介绍了基于龙芯3号的多处理器系统互联架构.采用了双层可伸缩互联结构:片内由二维Mesh连接多个结点,结点内由交叉开关连接多个处理器核和二级缓存模块.片间无需额外硬件支持即可通过支持缓存一致性的HyperTransport接口实现16核的多处理器系统.利用层次化目录技术,龙芯3号还可以支持更大规模的多处理器系统.龙芯3号的互联架构为搭建简洁、高效、灵活、高度可扩展的共享存储多处理器系统提供了有力支持. 展开更多
关键词 龙芯3 多核 多片 体系结构 互联 处理器
在线阅读 下载PDF
A simplified hardware-friendly contour prediction algorithm in 3D-HEVC and parallelization design 被引量:1
3
作者 JIANG Lin DUAN Xueyao XIE Xiaoyan 《High Technology Letters》 EI CAS 2022年第4期392-400,共9页
After the extension of depth modeling mode 4(DMM-4)in 3D high efficiency video coding(3D-HEVC),the computational complexity increases sharply,which causes the real-time performance of video coding to be impacted.To re... After the extension of depth modeling mode 4(DMM-4)in 3D high efficiency video coding(3D-HEVC),the computational complexity increases sharply,which causes the real-time performance of video coding to be impacted.To reduce the computational complexity of DMM-4,a simplified hardware-friendly contour prediction algorithm is proposed in this paper.Based on the similarity between texture and depth map,the proposed algorithm directly codes depth blocks to calculate edge regions to reduce the number of reference blocks.Through the verification of the test sequence on HTM16.1,the proposed algorithm coding time is reduced by 9.42%compared with the original algorithm.To avoid the time consuming of serial coding on HTM,a parallelization design of the proposed algorithm based on reconfigurable array processor(DPR-CODEC)is proposed.The parallelization design reduces the storage access time,configuration time and saves the storage cost.Verified with the Xilinx Virtex 6 FPGA,experimental results show that parallelization design is capable of processing HD 1080p at a speed above 30 frames per second.Compared with the related work,the scheme reduces the LUTs by 42.3%,the REG by 85.5%and the hardware resources by 66.7%.The data loading speedup ratio of parallel scheme can reach 3.4539.On average,the different sized templates serial/parallel speedup ratio of encoding time can reach 2.446. 展开更多
关键词 depth modeling mode 4(DMM-4) contour prediction 3D high efficiency video coding(3D-HEVC) PARALLELIZATION reconfigurable array processor
在线阅读 下载PDF
基于3G通信的嵌入式图像传输系统
4
作者 谭宇华 张为 《信息技术》 2013年第10期89-91,94,共4页
嵌入式处理器以其高处理性能、低功耗、低成本、易裁剪、体积小等优势,在各类电子设备中越来越普及。3G通信则以其高传输速率、覆盖范围广、通信质量好等优点,适合大数量实时传输。结合两者的优势,文中设计了一种基于3G的嵌入式图像传... 嵌入式处理器以其高处理性能、低功耗、低成本、易裁剪、体积小等优势,在各类电子设备中越来越普及。3G通信则以其高传输速率、覆盖范围广、通信质量好等优点,适合大数量实时传输。结合两者的优势,文中设计了一种基于3G的嵌入式图像传输系统。该系统使用TCP传输协议,采用C/S服务模式,图像数据通过服务器转发。实验结果表明,图像能够稳定传输,基本满足实时传输要求。 展开更多
关键词 嵌入式 3G C S 图像传输
在线阅读 下载PDF
三轴联动数控雕刻机加减速控制算法的研究 被引量:7
5
作者 侯艳艳 王洪君 王丽丽 《组合机床与自动化加工技术》 2006年第7期49-51,共3页
提出了一种改进的三轴联动数控雕刻机加减速控制算法。采用取256个离散速度作为基准点速度,在拐点处进行判断,提前预测加减速步数。在保证雕刻机不失步、不超步的情况下,使速度变化最小,提高了雕刻机的整体运行速度,同时克服了频繁加减... 提出了一种改进的三轴联动数控雕刻机加减速控制算法。采用取256个离散速度作为基准点速度,在拐点处进行判断,提前预测加减速步数。在保证雕刻机不失步、不超步的情况下,使速度变化最小,提高了雕刻机的整体运行速度,同时克服了频繁加减速导致的失步。在TMS320VC5402型DSP和FPGA芯片组合的控制系统中运行,改善了运动稳定性,提高了加工速度与精度。 展开更多
关键词 三轴联动数控雕刻机 加减速控制 DSP
在线阅读 下载PDF
基于ARM的酒精浓度监测仪 被引量:3
6
作者 李军 申俊泽 苏冰 《电子设计工程》 2011年第18期90-92,共3页
研究设计了一种具有检测和超限报警功能的空气酒精浓度监测仪。该设计方案在无操作系统环境下采用FS2410开发板,MQ-3酒精传感器,通过S3C2410处理器控制各个功能模块。系统将传感器输出的模拟信号输入ADC进行A/D模数转换,再进行数据处理... 研究设计了一种具有检测和超限报警功能的空气酒精浓度监测仪。该设计方案在无操作系统环境下采用FS2410开发板,MQ-3酒精传感器,通过S3C2410处理器控制各个功能模块。系统将传感器输出的模拟信号输入ADC进行A/D模数转换,再进行数据处理,通过LCD显示。当酒精浓度超限时,蜂鸣器报警。文中详细介绍了系统硬件电路设计和软件设计的方法。 展开更多
关键词 酒精监测仪 MQ-3气敏传感器 S3C2410处理器 LCD显示 蜂鸣器报警 无操作系统
在线阅读 下载PDF
网络处理器及其在第三层转发中的应用 被引量:1
7
作者 宋成杰 赵荣彩 张铮 《微机发展》 2003年第6期10-12,共3页
首先回顾了网络处理器出现的背景,并以Intel公司的IXP1200网络芯片为例子,简单介绍了该芯片的硬件结构和特点。最后分析了该芯片在第三层数据转发中应用的三个试验,并对试验的结果进行了简单分析。
关键词 网络处理器 网络传输 第三层转发 数据转发 计算机网络 CPU
在线阅读 下载PDF
基于多线程技术的嵌入式三维数字成像系统
8
作者 王晓东 彭翔 +1 位作者 田劲东 关颖健 《计算机工程》 CAS CSCD 北大核心 2008年第18期21-23,共3页
提出一种基于多线程技术的嵌入式三维数字成像DSP系统设计。该系统应用时间序列变频条纹数字投影原理,使用DSP/BIOS实时操作系统的配置工具实现多线程DSP应用软件,从而实现编码条纹投影、调制图像采集和相位解调的流水线处理过程,并且... 提出一种基于多线程技术的嵌入式三维数字成像DSP系统设计。该系统应用时间序列变频条纹数字投影原理,使用DSP/BIOS实时操作系统的配置工具实现多线程DSP应用软件,从而实现编码条纹投影、调制图像采集和相位解调的流水线处理过程,并且使用软件流水等方法对相位重建计算进行优化。实验表明,该DSP系统能实现快速的三维表面测量任务。 展开更多
关键词 嵌入式系统 多线程 三维数字成像 数字信号处理器 流水线
在线阅读 下载PDF
用三层交换实现影像科洗片机共享
9
作者 林传捷 林康 《医疗卫生装备》 CAS 2005年第6期36-37,共2页
本文源自医院影像科室整合的实际方案,采用三层交换解决科室间不同网段设备的互连,实现了多台洗片机的共享。
关键词 三层交换 洗片机 共享
在线阅读 下载PDF
龙芯处理器上的TLB性能优化技术 被引量:1
10
作者 张晓辉 程归鹏 从明 《计算机研究与发展》 EI CSCD 北大核心 2011年第S1期322-327,共6页
TLB(translation look-aside buffer)是分页式虚拟存储系统用于加速虚实地址转换的必不可少的性能优化部件.TLB处于访存的关键路径上,对系统性能有着至关重要的影响.同时TLB失效开销大,是龙芯处理器的系统性能瓶颈.因此,优化系统TLB的... TLB(translation look-aside buffer)是分页式虚拟存储系统用于加速虚实地址转换的必不可少的性能优化部件.TLB处于访存的关键路径上,对系统性能有着至关重要的影响.同时TLB失效开销大,是龙芯处理器的系统性能瓶颈.因此,优化系统TLB的性能对于龙芯处理器系统性能的提升意义重大.实现了龙芯处理器上通过减少TLB失效次数以及降低TLB失效开销的TLB性能优化方法而分别采用的超页技术和软TLB技术,以及结合龙芯3号处理器新增的锁L2cache功能,进一步优化了的软TLB技术. 展开更多
关键词 龙芯处理器 TLB 超页技术 软TLB 锁L2cache 龙芯3号处理器
在线阅读 下载PDF
用三层交换实现影像科洗片机共享
11
作者 林传捷 林康 《医疗装备》 2004年第12期7-8,共2页
本文源自医院影像科室整合的实际方案 ,采用三层交换解决科室间不同网段设备的互连 ,实现了多台洗片机的共享。
关键词 三层交换 影像科 洗片机 设备共享 影像系统
在线阅读 下载PDF
基于MIPS架构的内存虚拟化研究 被引量:3
12
作者 蔡万伟 台运方 +1 位作者 刘奇 张戈 《计算机研究与发展》 EI CSCD 北大核心 2013年第10期2247-2252,共6页
内存虚拟化是系统虚拟化中如何有效抽象、利用、隔离计算机物理内存的重要方法,决定着系统虚拟化的整体性能.传统的纯软件内存虚拟化方法会产生较大的资源开销并且兼容性差,而硬件辅助的内存虚拟化方法需要重新设计处理器硬件架构.基于M... 内存虚拟化是系统虚拟化中如何有效抽象、利用、隔离计算机物理内存的重要方法,决定着系统虚拟化的整体性能.传统的纯软件内存虚拟化方法会产生较大的资源开销并且兼容性差,而硬件辅助的内存虚拟化方法需要重新设计处理器硬件架构.基于MIPS架构处理器提出一种软硬件协同的内存虚拟化方法,在不增加硬件支持的情况下提高内存虚拟化性能.提出的多层虚拟地址空间模型不仅可以解决MIPS架构处理器存在的虚拟化缺陷,而且可以在已有的内存虚拟化方法上提高性能.在多层虚拟地址空间模型的基础上,提出基于地址空间标识码(address space identity,ASID)、动态划分的旁路转换缓冲(translation lookaside buffer,TLB)共享方法,降低了虚拟机切换的开销.最终,在MIPS架构的龙芯3号处理器上实现了系统虚拟机VIRT-LOONGSON.性能测试表明,提出的方法可以提高大多数测试程序的性能,达到二进制翻译执行性能的3~5倍,并在TLB模拟方法的基础上提高了5%~16%的性能. 展开更多
关键词 系统虚拟化 内存虚拟化 旁路转换缓冲共享 MIPS 龙芯3号处理器
在线阅读 下载PDF
第三层交换技术原理与应用 被引量:7
13
作者 郭丹 邢琦 《信息技术》 2004年第4期36-38,42,共4页
详细的介绍了一种新的网络交换技术第三层交换技术,并在此基础上阐述了第三层交换技术的产生背景、工作原理及其所具有的独特技术特点。还结合了当前网络交换技术的发展现状,分析了第三层交换技术的应用优势和发展趋势。
关键词 MAC地址 ASIC 地址分析协议 第三层交换技术 RISC处理机
在线阅读 下载PDF
天线扫描对TOPSAR辐射影响的校正方法 被引量:1
14
作者 尹迪 韩冰 +3 位作者 孙吉利 赵良波 洪文 胡玉新 《中国科学院大学学报(中英文)》 CSCD 北大核心 2021年第6期791-799,共9页
TOPSAR模式是合成孔径雷达的一种宽幅成像观测模式,其产品被广泛应用于海洋风场反演、洋流反演等定量化遥感。根据TOPSAR模式成像的特点,对经典雷达方程表达式进行适应性修正,并在此基础上提出一套适用于TOPSAR模式的辐射校正处理方法,... TOPSAR模式是合成孔径雷达的一种宽幅成像观测模式,其产品被广泛应用于海洋风场反演、洋流反演等定量化遥感。根据TOPSAR模式成像的特点,对经典雷达方程表达式进行适应性修正,并在此基础上提出一套适用于TOPSAR模式的辐射校正处理方法,给出一套完整的处理流程图。最后,利用国产高分三号SAR卫星的TOPSAR试验模式实测数据对文中提出的校正方法进行有效性的验证工作。 展开更多
关键词 TOPSAR 辐射校正 合成孔径雷达 高分三号 处理器增益校正
在线阅读 下载PDF
基于Intel网络处理器的RPR三层交换机的设计
15
作者 王凌 张雷 +2 位作者 宋国栋 吴捷 王利存 《计算机工程与应用》 CSCD 北大核心 2005年第27期97-99,108,共4页
弹性分组环(ResilientPacketRing,RPR)是一种能高效地支持数据业务的新兴城域网络技术。论文主要使用IntelIXP2800网络处理器设计和实现了能为以太网提供接入RPR网络能力的三层交换机。设计过程中,在二层交换机制的基础上,参考了IPover... 弹性分组环(ResilientPacketRing,RPR)是一种能高效地支持数据业务的新兴城域网络技术。论文主要使用IntelIXP2800网络处理器设计和实现了能为以太网提供接入RPR网络能力的三层交换机。设计过程中,在二层交换机制的基础上,参考了IPoverRPR框架和三层交换原理,对RPR网络与以太网络之间IP数据交换机制进行了优化,并借助IXP2800网络处理器的高性能和灵活性,使该交换机能高效地进行IP数据交换,而且提高了RPR环网的带宽利用率。 展开更多
关键词 IXP2800 RPR 网络处理器 三层交换
在线阅读 下载PDF
三维图形显示系统的图形消除器和象素处理器技术实现
16
作者 蒋宇皓 余松煜 《计算机工程》 EI CAS CSCD 北大核心 2000年第3期33-34,共2页
图形消隐器和象素处理器是三维图形显示系统的重要组成部分。讨论了图形消除器和象素处理器的算法,结合具体的硬件电路提出了实现设计的思路,实践应用表明了这种设计的可行性。
关键词 三维图形 象素处理器 图形消隐器 图形显示系统
在线阅读 下载PDF
基于多核处理器的安全固态硬盘实现技术 被引量:2
17
作者 秦放 张福健 《通信技术》 2023年第5期666-672,共7页
固态硬盘(Solid State Disk,SSD)主要由硬盘控制芯片和存储芯片构成,利用传统的NAND Flash特性,以区块写入和擦除的方式进行读写。基于闪存颗粒的固态硬盘具有功耗低、体积小、性能快、稳定性好等特点,广泛用于各类型移动作业领域。出... 固态硬盘(Solid State Disk,SSD)主要由硬盘控制芯片和存储芯片构成,利用传统的NAND Flash特性,以区块写入和擦除的方式进行读写。基于闪存颗粒的固态硬盘具有功耗低、体积小、性能快、稳定性好等特点,广泛用于各类型移动作业领域。出于对数据存储领域存在的各种安全问题现状的考虑,提出并实现了一种基于多核处理器盘控芯片的固态硬盘全盘加密存储、安全启动新技术,该技术使用国密SM2、SM3、SM4算法,与整机BIOS弱耦合,采用安全配置管理工具进行管控,具有安全性强、自主可控、可扩展性强等优点,具有很好的市场前景。 展开更多
关键词 多核处理器 加密存储 SSD SM2/3/4
在线阅读 下载PDF
计算机辅助设计软件运行之硬件环境分析 被引量:1
18
作者 徐开秋 《天津职业院校联合学报》 2012年第2期74-78,共5页
计算机辅助设计主要涉及平面设计、机械制图、建筑效果图制作等领域,常用软件诸如Photoshop、AutoCAD、3dsMax等软件。这些软件的运行都会对计算机的硬件环境有很高的要求,文章将就其运行的硬件环境进行分析。
关键词 多核心处理器 3D性能测试 独立显卡 显存位宽 内存带宽
在线阅读 下载PDF
A parallel pipeline connected-component labeling method for on-orbit space target monitoring
19
作者 LI Zongling ZHANG Qingjun +1 位作者 LONG Teng ZHAO Baojun 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2022年第5期1095-1107,共13页
The paper designs a peripheral maximum gray differ-ence(PMGD)image segmentation method,a connected-compo-nent labeling(CCL)algorithm based on dynamic run length(DRL),and a real-time implementation streaming processor ... The paper designs a peripheral maximum gray differ-ence(PMGD)image segmentation method,a connected-compo-nent labeling(CCL)algorithm based on dynamic run length(DRL),and a real-time implementation streaming processor for DRL-CCL.And it verifies the function and performance in space target monitoring scene by the carrying experiment of Tianzhou-3 cargo spacecraft(TZ-3).The PMGD image segmentation method can segment the image into highly discrete and simple point tar-gets quickly,which reduces the generation of equivalences greatly and improves the real-time performance for DRL-CCL.Through parallel pipeline design,the storage of the streaming processor is optimized by 55%with no need for external me-mory,the logic is optimized by 60%,and the energy efficiency ratio is 12 times than that of the graphics processing unit,62 times than that of the digital signal proccessing,and 147 times than that of personal computers.Analyzing the results of 8756 images completed on-orbit,the speed is up to 5.88 FPS and the target detection rate is 100%.Our algorithm and implementation method meet the requirements of lightweight,high real-time,strong robustness,full-time,and stable operation in space irradia-tion environment. 展开更多
关键词 Tianzhou-3 cargo spacecraft(TZ-3) connected-component labeling(CCL)algorithms parallel pipeline processing on-orbit space target detection streaming processor
在线阅读 下载PDF
基于Octeon处理器三层转发的功能实现
20
作者 孙倩 《电子测试》 2013年第11X期72-73,共2页
针对WLAN A(C无线局域网接入控制器)系统中日益增长的无线网络带宽对数据转发性能的要求,研究了Octeon多核网络处理器,提出了对网络流量按照数据面和控制面进行核间分离的处理架构。在控制面进行三层转发表的生成和对数据面的同步,在数... 针对WLAN A(C无线局域网接入控制器)系统中日益增长的无线网络带宽对数据转发性能的要求,研究了Octeon多核网络处理器,提出了对网络流量按照数据面和控制面进行核间分离的处理架构。在控制面进行三层转发表的生成和对数据面的同步,在数据面通过LC-Trie(级压缩单词查找树)算法的回溯优化实现快速IP地址查找方法,有效地提高了三层转发的性能。 展开更多
关键词 WLAN 网络处理器 三层转发
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部