期刊文献+
共找到14篇文章
< 1 >
每页显示 20 50 100
基于Radix-4 Booth编码的并行乘法器设计 被引量:1
1
作者 范文兵 周健章 《郑州大学学报(工学版)》 CAS 北大核心 2025年第1期26-33,共8页
速度和面积是评价乘法器单元性能优劣的两个基本指标。针对当前乘法器设计难以平衡版图面积和传输延时的问题,采用Radix-4 Booth算法,设计了一种新型的16位有符号定点乘法器。在部分积生成过程中,首先改进对乘数的取补码电路,然后优化... 速度和面积是评价乘法器单元性能优劣的两个基本指标。针对当前乘法器设计难以平衡版图面积和传输延时的问题,采用Radix-4 Booth算法,设计了一种新型的16位有符号定点乘法器。在部分积生成过程中,首先改进对乘数的取补码电路,然后优化基数为4的改进Booth编码器和解码器,此结构采用较少的逻辑门资源,并且易对输入比特进行并行化处理。在Wallace压缩电路中,对符号扩展位进行预处理并设计新的压缩器结构,优化整个Wallace压缩模块。在第二级压缩过程中提前对高位使用纹波进位加法器结构计算,减小了多bit伪和的求和位数。在求和电路中,使用两级超前进位加法器结构,在缩短关键路径传输延时的同时避免增大芯片面积,提高了乘法器的运行速度。新型定点乘法器与已有的乘法器结构相比,减少了12.0%的面积,降低了20.5%的延时。 展开更多
关键词 radix-4 booth编码 面积 传输延时 编码器 解码器 Wallace压缩
在线阅读 下载PDF
基于Radix-4 Booth编码的12位乘累加运算单元设计 被引量:1
2
作者 吴秀龙 王光辰 《中国集成电路》 2025年第3期55-62,共8页
乘累加(MAC)运算作为卷积神经网络(CNN)中的主体运算,在人工智能(AI)技术等方面得到了大量使用。然而CNN中的MAC运算消耗大量功耗,给硬件设备带来严峻挑战。鉴于该问题,本文提出一种高能效的MAC运算单元以适用于CNN计算。其特点包括通过... 乘累加(MAC)运算作为卷积神经网络(CNN)中的主体运算,在人工智能(AI)技术等方面得到了大量使用。然而CNN中的MAC运算消耗大量功耗,给硬件设备带来严峻挑战。鉴于该问题,本文提出一种高能效的MAC运算单元以适用于CNN计算。其特点包括通过Radix-4 Booth编码以减少乘法部分积数量,设计了规则化的生成方案对乘法部分积进行约束以简化后续累加过程,在累加阶段使用了基于4-2压缩和3-2压缩的混合加法树结构以提高压缩效率,引入流水结构以提高吞吐量。在0.5 V下,提出的结构能效可以达到15.04 TOPS/W,相比使用行波进位加法器进行累加的MAC结构优化约13.4%。 展开更多
关键词 乘累加 radix-4 booth编码 加法树
在线阅读 下载PDF
基于改进Radix-4 Booth算法的逻辑综合中有符号乘法器设计
3
作者 王立华 张家胜 徐丽 《山东科技大学学报(自然科学版)》 北大核心 2025年第5期101-110,共10页
逻辑综合是集成电路设计的重要环节,在逻辑综合时乘法器单元需要自行设计。为优化有符号乘法器的电路延时并减小电路面积,提高乘法器的整体性能,本研究基于改进Radix-4 Booth算法设计了一种有符号乘法器。采用资源复用Booth编码器,将3... 逻辑综合是集成电路设计的重要环节,在逻辑综合时乘法器单元需要自行设计。为优化有符号乘法器的电路延时并减小电路面积,提高乘法器的整体性能,本研究基于改进Radix-4 Booth算法设计了一种有符号乘法器。采用资源复用Booth编码器,将3位编码转换为2个控制信号,共同控制Booth选择器生成部分积,部分积的符号位则使用简单的电路统一扩展;采用进位保留加法器阵列对重组后的部分积进行压缩求和,缩短关键路径,减少电路面积。基于SMIC 28 nm工艺库,对采用改进算法设计的16×16 bit有符号乘法器进行逻辑等价性检查与逻辑综合,逻辑综合后网表的电路延时、电路面积与资源信息表明,该方法能较好地提升乘法器的电路性能。 展开更多
关键词 有符号乘法器 radix-4 booth算法 部分积重组 逻辑综合
在线阅读 下载PDF
基于Radix-4 Booth编码的乘法器优化设计 被引量:5
4
作者 陈海民 李峥 谢铁顿 《计算机工程》 CAS CSCD 2012年第1期233-235,共3页
传统Radix-4 Booth编码在负值部分积生成过程中会产生大量求补操作,影响乘法器的工作效率。为此,提出一种重组部分积的乘法器优化设计。通过增加一个"或"门运算以及重组硬连线,避免求补过程中的加法运算,并且未产生多余的部... 传统Radix-4 Booth编码在负值部分积生成过程中会产生大量求补操作,影响乘法器的工作效率。为此,提出一种重组部分积的乘法器优化设计。通过增加一个"或"门运算以及重组硬连线,避免求补过程中的加法运算,并且未产生多余的部分积。在32位乘法器上的验证结果表明,该设计能有效减小关键路径延迟和芯片面积消耗。 展开更多
关键词 radix-4booth编码 乘法器 部分积 关键路径延迟 芯片面积消耗
在线阅读 下载PDF
基于Radix-4 Booth编码的模2^n+1乘法器设计 被引量:1
5
作者 鄢斌 李军 《通信技术》 2015年第10期1168-1173,共6页
模2n+1乘法(n=8、16)在分组密码算法中比较常见,如IDEA算法,但由于其实现逻辑复杂,往往被视为密码算法性能的瓶颈。提出了一种适用于分组密码算法运算特点的基于Radix-4Booth编码的模2n+1乘法器实现方法,其输入/输出均无需额外的转换电... 模2n+1乘法(n=8、16)在分组密码算法中比较常见,如IDEA算法,但由于其实现逻辑复杂,往往被视为密码算法性能的瓶颈。提出了一种适用于分组密码算法运算特点的基于Radix-4Booth编码的模2n+1乘法器实现方法,其输入/输出均无需额外的转换电路,并通过简化部分积生成、采用重新定义的3-2和4-2压缩器等措施以减少路径时延和硬件复杂度。比较其他同类设计,该方法具有较小的面积、时延,可有效提高分组密码算法的加解密性能。 展开更多
关键词 分组密码算法 radix-4 booth编码 3—2和4-2压缩器 模2^n+1乘法
在线阅读 下载PDF
一个新的基于radix-4从左到右编码的标量乘算法
6
作者 程一飞 侯整风 《微型电脑应用》 2007年第5期44-45,55,共3页
椭圆曲线标量乘是椭圆曲线密码系统中最关键、最耗时的运算,因此如何快速高效实现标量乘运算是研究的重点。目前常见的标量乘算法有:double-and-add算法,NAF算法,MOF算法等,但它们都是基于radix-2编码表示的,无论采用何种编码,倍点运算... 椭圆曲线标量乘是椭圆曲线密码系统中最关键、最耗时的运算,因此如何快速高效实现标量乘运算是研究的重点。目前常见的标量乘算法有:double-and-add算法,NAF算法,MOF算法等,但它们都是基于radix-2编码表示的,无论采用何种编码,倍点运算的次数都不变,减少的只是点加(或点减)运算的次数。提出一个基于radix-4表示的新的编码方法,并提出一个基于radix-4表示的标量乘算法,通过用四倍点运算代替倍点运算,且编码是从左到右(即从最高位向最低位)进行,编码和主计算可以合并,提高实现效率并节省内存空间。实验结果表明,该算法较经典的double-and-add算法能够提高效率30%以上。 展开更多
关键词 椭圆曲线密码系统 标量乘 radix-4表示 改进booth算法 编码
在线阅读 下载PDF
一种高能效基4-Booth编码并行乘法器设计 被引量:6
7
作者 黄焘 闰闰 +2 位作者 胡毅 尹立 谢翔 《电子技术应用》 2023年第4期117-122,共6页
常用的卷积神经网络中存在数十亿次乘法运算,神经网络中乘法的大量能耗成为硬件实现神经网络的能效瓶颈之一。为了降低乘法器的能耗,提出了一种高能效基4-Booth编码并行乘法器。通过改进部分积生成模块,消除了传统方法中的补偿位,使得... 常用的卷积神经网络中存在数十亿次乘法运算,神经网络中乘法的大量能耗成为硬件实现神经网络的能效瓶颈之一。为了降低乘法器的能耗,提出了一种高能效基4-Booth编码并行乘法器。通过改进部分积生成模块,消除了传统方法中的补偿位,使得乘法器延时减小且能耗降低。后仿真结果显示,所提出的乘法器比现有乘法器面积减小了5.2%,延时减小了6.3%,能耗降低了10.8%。 展开更多
关键词 卷积神经网络 乘法器 4-booth编码 高能效
在线阅读 下载PDF
Design of area and power efficient Radix-4 DIT FFT butterfly unit using floating point fused arithmetic 被引量:2
8
作者 Prabhu E Mangalam H Karthick S 《Journal of Central South University》 SCIE EI CAS CSCD 2016年第7期1669-1681,共13页
In this work, power efficient butterfly unit based FFT architecture is presented. The butterfly unit is designed using floating-point fused arithmetic units. The fused arithmetic units include two-term dot product uni... In this work, power efficient butterfly unit based FFT architecture is presented. The butterfly unit is designed using floating-point fused arithmetic units. The fused arithmetic units include two-term dot product unit and add-subtract unit. In these arithmetic units, operations are performed over complex data values. A modified fused floating-point two-term dot product and an enhanced model for the Radix-4 FFT butterfly unit are proposed. The modified fused two-term dot product is designed using Radix-16 booth multiplier. Radix-16 booth multiplier will reduce the switching activities compared to Radix-8 booth multiplier in existing system and also will reduce the area required. The proposed architecture is implemented efficiently for Radix-4 decimation in time(DIT) FFT butterfly with the two floating-point fused arithmetic units. The proposed enhanced architecture is synthesized, implemented, placed and routed on a FPGA device using Xilinx ISE tool. It is observed that the Radix-4 DIT fused floating-point FFT butterfly requires 50.17% less space and 12.16% reduced power compared to the existing methods and the proposed enhanced model requires 49.82% less space on the FPGA device compared to the proposed design. Also, reduced power consumption is addressed by utilizing the reusability technique, which results in 11.42% of power reduction of the enhanced model compared to the proposed design. 展开更多
关键词 floating-point arithmetic floating-point fused dot product radix-16 booth multiplier radix-4 FFT butterfly fast fouriertransform decimation in time
在线阅读 下载PDF
基于ARMv4T架构指令集的乘法器设计
9
作者 陈海民 李峥 杨先文 《计算机应用研究》 CSCD 北大核心 2011年第2期587-590,共4页
针对硬件IP核的速度和面积两大性能指标,提出了基于可变执行周期的多周期乘法器设计思想,设计出一款适用于32位嵌入式微处理器的乘法器模块。该乘法器兼容ARMv4T架构的所有乘法指令,同时引入字节判断机制,可以根据操作数的特点在2~5个... 针对硬件IP核的速度和面积两大性能指标,提出了基于可变执行周期的多周期乘法器设计思想,设计出一款适用于32位嵌入式微处理器的乘法器模块。该乘法器兼容ARMv4T架构的所有乘法指令,同时引入字节判断机制,可以根据操作数的特点在2~5个周期内执行完毕。采用Radix-4 Booth编码,只需两级压缩树进行部分积压缩。乘加运算的基址寄存器数据作为部分积进入压缩树,节约了一个单独的执行周期。实验结果表明,该设计占用芯片资源少,且结构简单高效。 展开更多
关键词 ARMv4T架构 乘法器 可变执行周期 radix-4booth编码 4-2压缩树
在线阅读 下载PDF
32位高速浮点乘法器优化设计 被引量:2
10
作者 周德金 孙锋 于宗光 《半导体技术》 CAS CSCD 北大核心 2007年第10期871-874,共4页
设计了一种用于频率为200 MHz的32位浮点数字信号处理器(DSP)中的高速乘法器。采用修正Booth算法与Wallace压缩树结合结构完成Carry Sum形式的部分积压缩,再由超前进位加法器求得乘积。对乘法器中的4-2压缩器进行了优化设计,压缩单元完... 设计了一种用于频率为200 MHz的32位浮点数字信号处理器(DSP)中的高速乘法器。采用修正Booth算法与Wallace压缩树结合结构完成Carry Sum形式的部分积压缩,再由超前进位加法器求得乘积。对乘法器中的4-2压缩器进行了优化设计,压缩单元完成部分积压缩的时间仅为1.47 ns,乘法器延迟时间为3.5 ns。 展开更多
关键词 浮点乘法器 booth编码 4-2压缩器 超前进位加法器
在线阅读 下载PDF
高速双域乘法器设计及其应用 被引量:2
11
作者 郑朝霞 资义纯 +1 位作者 田园 吴浩 《微电子学与计算机》 CSCD 北大核心 2016年第5期1-5,共5页
双域乘法器在椭圆曲线密码学中具有重要意义,是构成双域模乘器的重要组件.考虑到双域乘法器的关键路径主要由GF(p)域决定;因此,在传统的基4Booth编码乘法器的基础上进行优化设计,改进部分积产生电路以及Wallace压缩电路,使其能够同时支... 双域乘法器在椭圆曲线密码学中具有重要意义,是构成双域模乘器的重要组件.考虑到双域乘法器的关键路径主要由GF(p)域决定;因此,在传统的基4Booth编码乘法器的基础上进行优化设计,改进部分积产生电路以及Wallace压缩电路,使其能够同时支持GF(p)域和GF(2 m)域.设计的双域乘法器在FPGA实现结果表明,双域乘法器比单独实现两个域面积减小16.9%;延时比单独的GF(p)域增加1.188ns.将设计的双域乘法器应用到模乘器,结果表明,该设计完成一次256bit的模乘操作比已有的在时间上节约了7.35%. 展开更多
关键词 双域乘法器 双域模乘 booth编码 双域4-2压缩器
在线阅读 下载PDF
一种32位高速浮点乘法器设计 被引量:4
12
作者 周德金 孙锋 于宗光 《电子与封装》 2008年第9期35-38,共4页
文章介绍一种32位浮点乘法器软IP的设计,其部分积缩减部分采用修正Booth算法,部分积加法采用4-2压缩树结构,最终carry、sum形式部分积采用进位选择加法器完成,乘法器可以进行32位浮点数或24位定点数的乘法运算。采用VerilogHDLRTL级描述... 文章介绍一种32位浮点乘法器软IP的设计,其部分积缩减部分采用修正Booth算法,部分积加法采用4-2压缩树结构,最终carry、sum形式部分积采用进位选择加法器完成,乘法器可以进行32位浮点数或24位定点数的乘法运算。采用VerilogHDLRTL级描述,采用SMIC0.18μm工艺库进行综合,门级仿真结果表明乘法器延时小于4.05ns。 展开更多
关键词 浮点乘法器 booth编码 4-2压缩器 进位选择加法器
在线阅读 下载PDF
基于加法树压缩和乘数编码优化的乘法器设计
13
作者 王守华 王明旭 孙希延 《电子技术应用》 2024年第9期73-76,共4页
定点乘法器是现代信号处理常用的运算单元之一,其整体性能直接决定了系统的竞争力。为了乘法器的计算效率,设计了一种新型高能效有符号数乘法器,使用基4-Booth编码,减少了一半的部分积;另外使用直接求相反数的方法代替传统的取反加一求... 定点乘法器是现代信号处理常用的运算单元之一,其整体性能直接决定了系统的竞争力。为了乘法器的计算效率,设计了一种新型高能效有符号数乘法器,使用基4-Booth编码,减少了一半的部分积;另外使用直接求相反数的方法代替传统的取反加一求相反数的方法,使得部分积阵列比特数减少且形状规整,易于压缩。提出的3-2压缩器和半加器相混合的新型树型压缩结构硬件资源开销优化明显,对比现有的乘法器异或门数量下降了14%,二选一选择器数量下降了31%,总面积减少了50%,计算效率大大提高。 展开更多
关键词 乘法器 4-booth编码 3-2压缩器 高能效
在线阅读 下载PDF
一种基于Dadda树的乘法器设计 被引量:1
14
作者 李路路 何春 +1 位作者 宗竹林 章凌宇 《微电子学与计算机》 CSCD 北大核心 2011年第5期176-179,共4页
在基带信号处理芯片中,面积和速度是两个关键的指标.文中在改进的booth算法基础上,采用了Dadda树压缩算法,通过对压缩器基本单元的改进,同时对符号位和尾部零填充进行优化设计;不仅保持了Wallace树结构的并行计算优势,而且面积上也得到... 在基带信号处理芯片中,面积和速度是两个关键的指标.文中在改进的booth算法基础上,采用了Dadda树压缩算法,通过对压缩器基本单元的改进,同时对符号位和尾部零填充进行优化设计;不仅保持了Wallace树结构的并行计算优势,而且面积上也得到了很大的改善;同时相对于Wallace树结构的规则结构也更利于版图设计.压缩结果采用了多层CLA块技术,使得乘法器的速度得到进一步的提高.在0.13μm的SMIC八层金属CMOS工艺下,DC(Design Compiler)综合结果表明,芯片面积为20633.59μm2,最大延迟仅为3.00ns. 展开更多
关键词 4-booth编码 Dadda树结构 进位保留加法器 4:2压缩器 多层CLA块技术
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部