期刊文献+
共找到101篇文章
< 1 2 6 >
每页显示 20 50 100
A parallel memory architecture for video coding
1
作者 Jian-ying PENG Xiao-lang YAN +1 位作者 De-xian LI Li-zhong CHEN 《Journal of Zhejiang University-Science A(Applied Physics & Engineering)》 SCIE EI CAS CSCD 2008年第12期1644-1655,共12页
To efficiently exploit the performance of single instruction multiple data (SIMD) architectures for video coding, a parallel memory architecture with power-of-two memory modules is proposed. It employs two novel ske... To efficiently exploit the performance of single instruction multiple data (SIMD) architectures for video coding, a parallel memory architecture with power-of-two memory modules is proposed. It employs two novel skewing schemes to provide conflict-free access to adjacent elements (8-bit and 16-bit data types) or with power-of-two intervals in both horizontal and vertical directions, which were not possible in previous parallel memory architectures. Area consumptions and delay estimations are given respectively with 4, 8 and 16 memory modules. Under a 0.18-pm CMOS technology, the synthesis results show that the proposed system can achieve 230 MHz clock frequency with 16 memory modules at the cost of 19k gates when read and write latencies are 3 and 2 clock cycles, respectively. We implement the proposed parallel memory architecture on a video signal processor (VSP). The results show that VSP enhanced with the proposed architecture achieves 1.28× speedups for H.264 real-time decoding. 展开更多
关键词 Single instruction multiple data (SIMD) Video coding Parallel memory Skewing scheme
在线阅读 下载PDF
面向高性能DSP的一级可配置指令缓存设计与验证
2
作者 唐俊龙 高睿禧 《集成电路与嵌入式系统》 2025年第5期24-34,共11页
针对程序运行中Cache无法有效预测非局部访问的问题,提出了一种基于二级存储结构的高安全性一级可配置指令缓存设计方案。该方案通过页与Cache行的两种粒度存储保护机制,确保不同级别用户的数据安全;实现了内部控制寄存器和灵活可配置的... 针对程序运行中Cache无法有效预测非局部访问的问题,提出了一种基于二级存储结构的高安全性一级可配置指令缓存设计方案。该方案通过页与Cache行的两种粒度存储保护机制,确保不同级别用户的数据安全;实现了内部控制寄存器和灵活可配置的Cache/SRAM结构,支持快速配置和扩展;利用直接存储访问模块实现了与外部存储的高效交互。通过UVM平台进行模块级验证,并对比不同L1P大小配置下的命中率,调用40 nm低阈值库验证了系统的时延和功耗性能。实验结果表明,所设计的缓存方案能在32 KB至0 KB五种L1P配置间快速切换,满足600 MHz高性能DSP的需求,最大路径延时为1.47 ns,总功耗为309.577 mW。 展开更多
关键词 一级指令缓存 UVM验证学 存储保护 DSP CACHE
在线阅读 下载PDF
支持FPGA动态重构的RISC-V扩展指令集设计与实现
3
作者 周炫锦 蔡刚 黄志洪 《计算机工程》 北大核心 2025年第5期229-238,共10页
目前实现动态重构的常用方法是通过片上接口进行配置,一般采用现场可编程门阵列(FPGA)官方提供的动态重构控制知识产权(IP)核,并通过系统总线与处理器相连。这种方法会占用较多静态部分的逻辑资源,并且限制了片上接口的运行频率。针对... 目前实现动态重构的常用方法是通过片上接口进行配置,一般采用现场可编程门阵列(FPGA)官方提供的动态重构控制知识产权(IP)核,并通过系统总线与处理器相连。这种方法会占用较多静态部分的逻辑资源,并且限制了片上接口的运行频率。针对这些问题,提出将FPGA抽象为大规模存储器的设计理念,构建DPRC动态重构控制指令集及配套应用程序编程接口(API),以优化逻辑资源占用量,消除缓冲延迟。指令集的实现以原有RV32IMC为基础,采用微指令序列控制片上接口部分,通过与数据通路紧密耦合来减少逻辑资源使用量,使用参数化多周期方案优化时序并确保通用性。实验结果表明,与传统方法相比,该系统中动态重构功能相关逻辑资源占用量减少84%,频率提高312%。相较于原有处理器,添加扩展指令集后处理器自身资源占用量仅增加5%,最差情况下扩展部分对时钟周期的影响小于0.2 ns,表明该动态重构控制方案具有低成本、高主频的特性。 展开更多
关键词 RISC-V指令集 扩展指令集 动态重构 FPGA技术 大规模存储器
在线阅读 下载PDF
认知策略选择的元认知因素 被引量:19
4
作者 刘伟方 司继伟 王玉璇 《心理科学进展》 CSSCI CSCD 北大核心 2011年第9期1328-1338,共11页
元认知指个体对自我认知过程的认知。元认知与策略选择的研究自上世纪80年代兴起,并在随后的30年里取得了丰硕成果,近年来,涌现出了不少新的相关研究。基于近10年的国内外研究,从学习与记忆、问题解决、策略干预三个方面就当今元认知与... 元认知指个体对自我认知过程的认知。元认知与策略选择的研究自上世纪80年代兴起,并在随后的30年里取得了丰硕成果,近年来,涌现出了不少新的相关研究。基于近10年的国内外研究,从学习与记忆、问题解决、策略干预三个方面就当今元认知与策略选择的研究新进展进行了分析。基于梳理,认为元认知在高水平调节、基本记忆策略与策略干预、深层次运作机制及创新研究技术手段方面尚需突破。 展开更多
关键词 元认知 策略选择 学习与记忆 问题解决 策略干预
在线阅读 下载PDF
元记忆教育训练的认知研究 被引量:5
5
作者 邓铸 李学亮 《华东师范大学学报(教育科学版)》 CSSCI 北大核心 1997年第4期68-73,67,共7页
元记忆(metamemory)就是记忆者本人具有的与记忆有关的知识信念及监控系统,是记忆者对自己记忆的认知,并对自己的记忆过程实现监测调控作用。元记忆是本世纪70年代发展起来的记忆研究的新领域。90年代我国心理学工作者开始展开对元记忆... 元记忆(metamemory)就是记忆者本人具有的与记忆有关的知识信念及监控系统,是记忆者对自己记忆的认知,并对自己的记忆过程实现监测调控作用。元记忆是本世纪70年代发展起来的记忆研究的新领域。90年代我国心理学工作者开始展开对元记忆能力发展的研究。为推动这一课题在国内的深入,本文对有关元记忆教育训练的认知研究进行综述,试图勾划出对青少年进行元记忆教育训练的基本思路和有待进一步研究的问题。 展开更多
关键词 元记忆能力 年幼儿童 教育训练 认知研究 记忆策略 词表 memory KNOWING 记忆成绩 instructional
在线阅读 下载PDF
任务指令和工作记忆对二语学习者书面语产出的影响 被引量:18
6
作者 易保树 倪传斌 《外语与外语教学》 CSSCI 北大核心 2015年第1期56-61,共6页
本次实证研究以任务指令和工作记忆为自变量,学习者书面语产出的流利度、准确度和复杂度为因变量来考察任务指令和工作记忆对学习者书面语产出的影响。结果显示:1)任务指令和工作记忆对二语学习者书面语产出的流利度和词汇复杂度影响不... 本次实证研究以任务指令和工作记忆为自变量,学习者书面语产出的流利度、准确度和复杂度为因变量来考察任务指令和工作记忆对学习者书面语产出的影响。结果显示:1)任务指令和工作记忆对二语学习者书面语产出的流利度和词汇复杂度影响不显著;2)任务指令对书面语产出的准确度没有影响,但是工作记忆对准确度影响显著;3)任务指令和工作记忆对句法复杂度影响显著;4)任务指令对书面语产出的作用受工作记忆容量的影响,任务指令和工作记忆存在交互作用。上述结果可以为英语写作教学提供参考,在英语写作教学时给学习者的任务指令要明确而有针对性,要根据学习者的个体差异(如工作记忆容量)选择合适的任务指令,因为任务指令和工作记忆可能会影响学习者的语言产出表现。 展开更多
关键词 任务指令 工作记忆 流利度 准确度 复杂度
原文传递
流体系结构指令存储器优化设计研究 被引量:3
7
作者 管茂林 何义 +2 位作者 杨乾明 张春元 伍楠 《电子学报》 EI CAS CSCD 北大核心 2012年第7期1379-1385,共7页
针对流体系结构中VLIW代码体积对指令存储器的容量和功耗带来的问题,本文通过分析流处理器的指令特征,提出了一种新的VLIW分域压缩技术.在此基础上,本文为流体系结构设计了分布式的片上指令存储器,并提出了SIMD流水的执行模式.实验结果... 针对流体系结构中VLIW代码体积对指令存储器的容量和功耗带来的问题,本文通过分析流处理器的指令特征,提出了一种新的VLIW分域压缩技术.在此基础上,本文为流体系结构设计了分布式的片上指令存储器,并提出了SIMD流水的执行模式.实验结果证明,该技术减少了38%的片外指令访存,降低约65%的片上指令存储器空间需求;分布式指令存储器减少了约37%的片上指令存储器面积,使得MASA的系统面积降低了8.92%,并降低了61%的指令存储器功耗. 展开更多
关键词 流体系结构 分布式指令存储器 VLIW压缩
在线阅读 下载PDF
具有高效混洗模式存储器的可编程混洗单元 被引量:2
8
作者 万江华 刘胜 +2 位作者 周锋 王耀华 陈书明 《国防科技大学学报》 EI CAS CSCD 北大核心 2011年第6期31-35,共5页
为向量DSP提出并设计了一种具有高效混洗模式存储器的可编程混洗单元,该结构能够使应用程序的混洗指令在执行时和通用寄存器或访存带宽等系统的关键资源分离,从而提高混洗单元的执行效率。采用区分不同混洗粒度和元素索引等方法对混洗... 为向量DSP提出并设计了一种具有高效混洗模式存储器的可编程混洗单元,该结构能够使应用程序的混洗指令在执行时和通用寄存器或访存带宽等系统的关键资源分离,从而提高混洗单元的执行效率。采用区分不同混洗粒度和元素索引等方法对混洗模式所对应的开关矩阵进行了压缩,我们的存储效率高于当前其他方案。该混洗单元具有可编程的特点,应用程序所需要的混洗模式可以提前由程序员编写并通过DMA等途径加载。对该混洗单元进行了VLSI实现及性能评测,结果显示此方案能够在给系统带来0.6%的额外面积开销基础上使应用程序的性能提升7.4%~17.4%。 展开更多
关键词 向量DSP 混洗单元 混洗模式存储器 混洗指令 存储效率
在线阅读 下载PDF
面向异构众核从核的数学函数库访存优化方法 被引量:6
9
作者 许瑾晨 郭绍忠 +1 位作者 黄永忠 王磊 《计算机科学》 CSCD 北大核心 2014年第6期12-17,共6页
数学库函数算法的特性致使函数存在大量的访存,而当前异构众核的从核结构采用共享主存的方式实现数据访问,从而严重影响了从核的访存速度,因此异构众核结构中数学库函数的性能无法满足高性能计算的要求。为了有效解决此问题,提出了一种... 数学库函数算法的特性致使函数存在大量的访存,而当前异构众核的从核结构采用共享主存的方式实现数据访问,从而严重影响了从核的访存速度,因此异构众核结构中数学库函数的性能无法满足高性能计算的要求。为了有效解决此问题,提出了一种基于访存指令的调度策略,亦即将访存延迟有效地隐藏于计算延迟中,以提高基于汇编实现的数学函数库的函数性能;结合动态调用方式,利用从核本地局部数据存储空间LDM(local data memory),提出了一种提高访存速度的ldm_call算法。两种优化技术在共享存储结构下具有普遍适用性,并能够有效减少函数访存开销,提高访存速度。实验表明,两种技术分别能够平均提高函数性能16.08%和37.32%。 展开更多
关键词 异构众核 数学函数库 访存优化 指令调度 局部数据存储空间
在线阅读 下载PDF
8位RISC MCU IP软核仿真的新方法 被引量:2
10
作者 王祖强 张华 李玲 《计算机工程》 CAS CSCD 北大核心 2007年第6期248-249,共2页
介绍了一种8位RISCMCUIP核的体系结构,采用自顶向下的设计思想对其进行模块划分,分析了流水线及跳转指令操作的实现,提出建立虚拟指令存储器模块对MCUIP核仿真的方案,并给出对虚拟指令存储器初始化的方法,该方法提高了MCUIP软核仿真的... 介绍了一种8位RISCMCUIP核的体系结构,采用自顶向下的设计思想对其进行模块划分,分析了流水线及跳转指令操作的实现,提出建立虚拟指令存储器模块对MCUIP核仿真的方案,并给出对虚拟指令存储器初始化的方法,该方法提高了MCUIP软核仿真的效率。 展开更多
关键词 RISC MCU 仿真 指令存储器模块
在线阅读 下载PDF
诱发及个体自发认知重评对情绪唤醒反应及情绪记忆的影响 被引量:5
11
作者 安献丽 陈四光 束丽 《心理科学》 CSSCI CSCD 北大核心 2015年第5期1032-1038,共7页
为了明确诱发(IRE)及个体习惯化的自发(SRE)认知重评策略对情绪唤醒反应及情绪记忆的影响,在测量被试SRE水平的基础上,先呈现一系列中性与负性情绪图片,要求被试对图片内容进行自然观看或认知重评,同时记录被试的主观与生理唤醒水平,之... 为了明确诱发(IRE)及个体习惯化的自发(SRE)认知重评策略对情绪唤醒反应及情绪记忆的影响,在测量被试SRE水平的基础上,先呈现一系列中性与负性情绪图片,要求被试对图片内容进行自然观看或认知重评,同时记录被试的主观与生理唤醒水平,之后对图片进行自由回忆及再认测试。发现IRE显著降低了情绪唤醒水平及再认正确率,但只对情绪唤醒反应较高的LR(SRE水平较低)被试有效。结果提示,IRE对情绪唤醒反应与情绪记忆的调控受到SRE的影响。 展开更多
关键词 诱发认知重评 自发认知重评 情绪唤醒 皮肤电反应 情绪记忆
原文传递
CPU仿真器MCS中存贮结构仿真的实现 被引量:1
12
作者 李锋 王雷 +1 位作者 刘又诚 周伯生 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2001年第4期438-443,共6页
仿真器是进行硬件设计评估 ,系统软件设计开发和计算机体系结构研究的有力工具 ,而对内存的仿真是系统级仿真器的重要组成部分 ,其仿真效率直接影响整个仿真器的性能 .以一款基于VLIW(超长指令字 )结构的CPU仿真器———MCS为例 ,研究... 仿真器是进行硬件设计评估 ,系统软件设计开发和计算机体系结构研究的有力工具 ,而对内存的仿真是系统级仿真器的重要组成部分 ,其仿真效率直接影响整个仿真器的性能 .以一款基于VLIW(超长指令字 )结构的CPU仿真器———MCS为例 ,研究了高效内存仿真的实现方法 .MCS为目标应用程序提供了一个仿真运行平台 ,从而达到评估CPU设计 ,分析指令效率 。 展开更多
关键词 仿真 存储器 指令系统 超指令字 MCS MMU CPU 存贮结构
在线阅读 下载PDF
基于GPU的并行计算性能分析模型 被引量:3
13
作者 王卓薇 程良伦 赵武清 《计算机科学》 CSCD 北大核心 2014年第1期31-38,共8页
针对GPU并行计算领域缺少精确的性能分析模型和有针对性的性能优化方法,提出一种基于GPU的并行计算性能定量分析模型,其通过对指令流水线、共享存储器访存、全局存储器访存的性能建模,来定量分析并行程序,帮助程序员找到程序运行瓶颈,... 针对GPU并行计算领域缺少精确的性能分析模型和有针对性的性能优化方法,提出一种基于GPU的并行计算性能定量分析模型,其通过对指令流水线、共享存储器访存、全局存储器访存的性能建模,来定量分析并行程序,帮助程序员找到程序运行瓶颈,进行有效的性能优化。实验部分通过3个具有代表性的实际应用(稠密矩阵乘法、三对角线性方程组求解、稀疏矩阵矢量乘法)的性能分析证明了该模型的实用性,并有效地实现了算法的优化。 展开更多
关键词 GPU 性能定量分析模型 指令流水线 共享存储器访存 全局存储器访存
在线阅读 下载PDF
嵌入式软硬件低功耗优化研究综述 被引量:17
14
作者 周宽久 迟宗正 西方 《计算机应用研究》 CSCD 北大核心 2010年第2期423-428,共6页
随着时代的进步,制约着嵌入式设备广泛应用的障碍不再是处理器的速度、芯片的工艺,而是设备功耗。如何在相同能量的供给情况下工作时间最长、完成的任务最多,或者是运行相同的程序使用较少的能量成为嵌入式领域备受关注的研究方向。从... 随着时代的进步,制约着嵌入式设备广泛应用的障碍不再是处理器的速度、芯片的工艺,而是设备功耗。如何在相同能量的供给情况下工作时间最长、完成的任务最多,或者是运行相同的程序使用较少的能量成为嵌入式领域备受关注的研究方向。从硬件级、指令级和编译过程三个层次,由各层次相应公式的各个参数展开,对国内外的功耗优化研究现状进行综述和评价,并最终结合实验室SPARC仿真项目,提出基于SPARC仿真功耗优化研究的三个方向。 展开更多
关键词 功耗优化 硬件级 指令级 编译优化 静态功耗 漏电流 内联优化 高速暂存区
在线阅读 下载PDF
一种基于GPU的高精度体系结构级功耗模型 被引量:2
15
作者 王卓薇 程良伦 肖红 《计算机科学》 CSCD 北大核心 2016年第11期30-35,共6页
随着硬件功能的不断丰富和软件开发环境的逐渐成熟,GPU开始被应用于通用计算领域,协助CPU加速程序运行。为了追求高性能,GPU往往包含成百上千个核心运算单元,高密度的计算资源使得其性能远高于CPU的同时功耗也高于CPU,功耗问题已经成为... 随着硬件功能的不断丰富和软件开发环境的逐渐成熟,GPU开始被应用于通用计算领域,协助CPU加速程序运行。为了追求高性能,GPU往往包含成百上千个核心运算单元,高密度的计算资源使得其性能远高于CPU的同时功耗也高于CPU,功耗问题已经成为制约GPU发展的重要问题之一。在深入研究Fermi GPU架构的基础上,提出一种高精度的体系结构级功耗模型,该模型首先计算不同native指令及每次访问存储器消耗的功耗;然后根据应用在硬件上的执行指令和采样工具获得采样结果,分析预测其功耗;最后通过13个基准测试应用对实际测试与功耗模型测试结果进行对比分析,该模型的预测精度可达90%左右。 展开更多
关键词 GPU FERMI 功耗模型 native指令 存储器功耗
在线阅读 下载PDF
分布式教学系统DECnet-DI的设计和实现 被引量:3
16
作者 朱新华 鞠九滨 《计算机应用与软件》 CSCD 1996年第3期30-36,共7页
本文介绍一个分布式教学系统DECnet-DI的设计和实现,DECnet-DI是在DECnet的VAX机群上开发的。该系统利用教师进程与学生进程间的通信进行各种教学活动,具有教师用户位置透明的特点。
关键词 CAI 分布式教学系统 DECnet-DI 设计
在线阅读 下载PDF
一种改进的多核处理器硬件预取技术 被引量:2
17
作者 方娟 张红波 《计算机科学》 CSCD 北大核心 2012年第S2期48-50,64,共4页
存储访问延迟一直是制约计算机系统整体性能的瓶颈,多核处理器的出现使"存储墙"问题更加严重。预取技术可以隐藏存储访问延迟,因此基于多核处理器的预取技术最近成为学术界研究的热点。研究了目前较为新颖的多核处理器预取技... 存储访问延迟一直是制约计算机系统整体性能的瓶颈,多核处理器的出现使"存储墙"问题更加严重。预取技术可以隐藏存储访问延迟,因此基于多核处理器的预取技术最近成为学术界研究的热点。研究了目前较为新颖的多核处理器预取技术Future execution,然后针对其缺陷提出改进,即提出了FE-Runahead架构,其减少了二级Cache访问缺失,提高了二级Cache命中率。实验结果表明,改进后的预取架构的二级Cache命中率提高了约9%,相对执行时间减少了8%。 展开更多
关键词 CMP 访存模式 存储访问延迟 指令窗口
在线阅读 下载PDF
GPU矩阵乘法的性能定量分析模型 被引量:1
18
作者 尹孟嘉 许先斌 +1 位作者 熊曾刚 张涛 《计算机科学》 CSCD 北大核心 2015年第12期13-17,22,共6页
性能评价和优化是设计高效率并行程序必不可少的重要工作,存储系统的性能高低直接影响到处理器的整体性能。利用GPGPU-Sim对GPU的存储层次结构进行了模拟,找出了SM数量与存储控制器数量之间最佳配置关系。矩阵乘法是科学计算领域中的基... 性能评价和优化是设计高效率并行程序必不可少的重要工作,存储系统的性能高低直接影响到处理器的整体性能。利用GPGPU-Sim对GPU的存储层次结构进行了模拟,找出了SM数量与存储控制器数量之间最佳配置关系。矩阵乘法是科学计算领域中的基本组成部分,是一种具有计算和访存密集特点的典型应用,其性能是GPU高性能计算的一个重要指标。性能模型作为并行系统性能评价的新的技术解决方案,具有许多其它性能评价方法无法比拟的优势。建立了一个性能模型,模型通过对指令流水线、共享存储器访存、全局存储器访存进行定量分析,找到了程序运行瓶颈,提高了执行速度。实验证明,该模型具有实用性,并有效地实现了矩阵乘法的优化。 展开更多
关键词 GPU GPGPU-Sim 矩阵乘法 性能定量分析模型 指令流水线 共享存储器访存 全局存储器访存
在线阅读 下载PDF
基于程序特征分析的流处理器VLIW压缩技术与解压实现 被引量:1
19
作者 管茂林 何义 +1 位作者 杨乾明 张春元 《国防科技大学学报》 EI CAS CSCD 北大核心 2012年第1期138-143,共6页
代码体积和代码稀疏是VLIW处理器一直存在的问题。通过对一系列典型应用在流处理器上的程序特征进行分析,提出了一种新的VLIW分域压缩技术,剔除各个子域中的空操作,并设计了分布式指令存储器对压缩后的代码进行解压缩执行。实验证明,该... 代码体积和代码稀疏是VLIW处理器一直存在的问题。通过对一系列典型应用在流处理器上的程序特征进行分析,提出了一种新的VLIW分域压缩技术,剔除各个子域中的空操作,并设计了分布式指令存储器对压缩后的代码进行解压缩执行。实验证明,该技术能够减少MASA流处理器中近39%的片外指令访存,降低约65%的片上指令存储器空间需求;同时使得指令存储器面积和系统面积分别减少了约37%和8.9%。 展开更多
关键词 特征分析 流处理器 代码压缩 分布式指令存储器
在线阅读 下载PDF
高速SDRAM控制器的嵌入式设计 被引量:3
20
作者 邓耀华 刘桂雄 吴黎明 《计算机工程》 CAS CSCD 北大核心 2010年第16期216-218,共3页
为适应高数据吞吐速率的应用场合,在分析同步动态随机存储器(SDRAM)控制器工作原理的基础上,研究支持高数据处理效率可连续读写操作的存储控制算法。利用现场可编程门阵列设计SDRAM嵌入式存储控制器,采用CMD命令形式,根据猝发长度分配... 为适应高数据吞吐速率的应用场合,在分析同步动态随机存储器(SDRAM)控制器工作原理的基础上,研究支持高数据处理效率可连续读写操作的存储控制算法。利用现场可编程门阵列设计SDRAM嵌入式存储控制器,采用CMD命令形式,根据猝发长度分配连续读写延时,通过数据通道控制与读写操作协同工作提高数据处理效率。测试结果表明,该控制器运行频率高于100 MHz,数据处理效率大于95%,适用于视频采集数据缓存及大型LED显示控制中。 展开更多
关键词 同步动态随机存储器 现场可编程门阵列 连续读写指令
在线阅读 下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部