期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
基于数据流架构的NTT蝶式计算加速
1
作者 石泓博 范志华 +4 位作者 李文明 张志远 穆宇栋 叶笑春 安学军 《计算机研究与发展》 北大核心 2025年第6期1547-1561,共15页
全同态加密(fully homomorphic encryption,FHE)因其在计算全过程中保持数据加密的能力,为云计算等分布式环境中的隐私保护提供了重要支撑,具有广泛的应用前景.然而,FHE在计算过程中普遍存在运算复杂度高、数据局部性差以及并行度受限... 全同态加密(fully homomorphic encryption,FHE)因其在计算全过程中保持数据加密的能力,为云计算等分布式环境中的隐私保护提供了重要支撑,具有广泛的应用前景.然而,FHE在计算过程中普遍存在运算复杂度高、数据局部性差以及并行度受限等问题,导致其在实际应用中的性能严重受限.其中,快速数论变换(number theoretic transform,NTT)作为FHE中关键的基础算子,其性能对整个系统的效率具有决定性影响.针对NTT中的核心计算模式--蝶式(butterfly)计算,提出一种基于数据流计算模型的NTT加速架构.首先,设计面向NTT蝶式计算的RVFHE扩展指令集,定制高效的模乘与模加/模减运算单元,以提升模运算处理效率.其次,提出一种NTT数据重排方法,并结合结构化的蝶式地址生成策略,以降低跨行列数据交换的控制复杂度与访问冲突.最后,设计融合数据流驱动机制的NTT加速架构,通过数据依赖触发方式实现高效的片上调度与数据复用,从而充分挖掘操作级并行性.实验结果表明,与NVIDIA GPU相比,提出的架构获得了8.96倍的性能提升和8.53倍的能效提升;与现有的NTT加速器相比,所提架构获得了1.37倍的性能提升. 展开更多
关键词 数据流 全同态加密 ntt算法 蝶式计算 RISC-V指令集
在线阅读 下载PDF
基于NTT/INTT优化的LAC格密码高速专用硬件实现
2
作者 朱益宏 王汉宁 +4 位作者 朱文平 韩栋钧 罗一杰 张奥扬 刘雷波 《微电子学与计算机》 2025年第10期187-195,共9页
随着量子计算机和量子算法的发展,抗量子密码算法(又称后量子密码算法)被提出用来抵抗潜在的量子攻击。目前,对于LAC(Lattice-based Asymmetric Cryptography)算法的硬件实现与性能评估的研究工作仍相对缺乏。对LAC算法进行了硬件评估,... 随着量子计算机和量子算法的发展,抗量子密码算法(又称后量子密码算法)被提出用来抵抗潜在的量子攻击。目前,对于LAC(Lattice-based Asymmetric Cryptography)算法的硬件实现与性能评估的研究工作仍相对缺乏。对LAC算法进行了硬件评估,提出了一种适应LAC小素数的数论变换硬件结构以及一系列BCH解码电路模块。基于28 nm工艺完成了电路实现,芯片面积为1.7 mm^(2),密钥生成、加封、解封分别达到了12561、15614、21072时钟周期,频率为500 MHz,是目前唯一一个面向LAC算法的全硬件实现。 展开更多
关键词 抗量子密码算法 硬件实现 数论变换 密码芯片
在线阅读 下载PDF
后量子密码中基于NTT的低成本多项式乘法器硬件设计与实现
3
作者 阚瑞晨 肖昊 《合肥工业大学学报(自然科学版)》 北大核心 2025年第10期1336-1343,共8页
在后量子密码(post-quantum cryptography,PQC)算法CRISTALS-Kyber中,多项式乘法计算占据主要部分,而快速数论变换(number theoretic transform,NTT)可以降低多项式乘法的复杂度,因此简洁高效的NTT架构设计对整个算法实现至关重要。文... 在后量子密码(post-quantum cryptography,PQC)算法CRISTALS-Kyber中,多项式乘法计算占据主要部分,而快速数论变换(number theoretic transform,NTT)可以降低多项式乘法的复杂度,因此简洁高效的NTT架构设计对整个算法实现至关重要。文章针对基于存储器的NTT/INTT提出一种硬件友好的两级迭代地址访问算法,并设计一种串行两级迭代硬件架构。该架构在计算NTT/INTT时1/2中间系数由前级蝶形单元(butterfly unit,BFU)提供,以节省BRAM数量、简化电路结构,并且能实现NTT-INTT数据流共用,从而进一步简化控制逻辑;为实现完整的多项式乘法,设计配置BFU以完成对位系数相乘(point-wise multiplication,PWM)。该架构最终被部署在Xilinx Artix-7上,运行结果表明,与当前最先进设计相比,文章设计的架构LUT、FF、BRAM资源分别减少了30%、23%、25%,且ATP(area-time product)性能相较于已有设计提升了10%~40%。 展开更多
关键词 后量子密码 Kyber算法 快速数论变换(ntt) 多项式乘法器 内存访问
在线阅读 下载PDF
基于后量子密码改进算法的FPGA设计优化 被引量:2
4
作者 田洪亮 王馨语 张海武 《粘接》 2025年第2期155-157,共3页
为了提高硬件整体的运算效率,研究提出了一种可以降低Crystals-Kyber算法复杂度的改进算法,硬件实现方式采用基于频率抽取的数论变换(NTT)算法。通过合并NTT计算层减少需要的的内存量,设计了一种迭代型NTT和流水型NTT相结合的硬件结构... 为了提高硬件整体的运算效率,研究提出了一种可以降低Crystals-Kyber算法复杂度的改进算法,硬件实现方式采用基于频率抽取的数论变换(NTT)算法。通过合并NTT计算层减少需要的的内存量,设计了一种迭代型NTT和流水型NTT相结合的硬件结构。与之前其他的设计相比较,基于Crystals-Kyber算法的可编程门阵列(FPGA)优化实现了高效的NTT多项式乘法。实验结果表明,所提方案优化算法使用了较快的计算速度和较少的计算周期,以及较小的面积时间乘积(Area Time,AT),改进的Crystals-Kyber算法与其他算法相比,至少缩短了39.13%的NTT计算周期,并缩短了47.50%计算时间,优化了基于格密码的执行时间和硬件资源开销。 展开更多
关键词 后量子密码 ntt算法 FPGA
在线阅读 下载PDF
基于FPGA的有限域NTT算法设计与实现 被引量:4
5
作者 谢星 孙玲 +1 位作者 黄新明 韩赛飞 《现代电子技术》 北大核心 2020年第9期79-82,共4页
大数乘法是公钥加密系统中最为核心的模块,同时,也是RSA、全同态等加密方案里最耗时的模块,因此,快速实现大数乘法是急需解决的问题。64K点有限域NTT作为大数乘法器的关键组件,文中采用并行架构实现NTT的运算,运算中基本采用加法和移位... 大数乘法是公钥加密系统中最为核心的模块,同时,也是RSA、全同态等加密方案里最耗时的模块,因此,快速实现大数乘法是急需解决的问题。64K点有限域NTT作为大数乘法器的关键组件,文中采用并行架构实现NTT的运算,运算中基本采用加法和移位操作,以保证实现大量的并行处理,提高了处理速度。该组件在Stratix-V FPGA上得到了实现,工作在123.78 MHz频率下,运行结果表明,在FPGA上的效率是CPU上运行速度的60倍。运行结果与GMP运算库进行比较,验证了有限域64K点NTT算法的正确性。 展开更多
关键词 有限域ntt算法 FPGA平台 全同态加密 大数乘法 并行处理 运行速度比较
在线阅读 下载PDF
资源密集型NTT算法硬件设计与实现研究
6
作者 王明东 梅瑞 +3 位作者 吴朋庭 李军 何卫国 毛发英 《通信技术》 2023年第11期1307-1315,共9页
目前BGV、BFV、CKKS等典型全同态密码算法中,多项式环上乘法运算资源占用大、性能慢,是全同态密码算法硬件高效实现的难点,通常采用快速数论变换(Number Theoretic Transforms,NTT)算法进行加速设计。通过分析资源密集型NTT算法硬件设... 目前BGV、BFV、CKKS等典型全同态密码算法中,多项式环上乘法运算资源占用大、性能慢,是全同态密码算法硬件高效实现的难点,通常采用快速数论变换(Number Theoretic Transforms,NTT)算法进行加速设计。通过分析资源密集型NTT算法硬件设计的关键问题,优化典型NTT算法流程,提出了多周期并行化与单蝶形单元流水化两种硬件设计方案,重点分析了流水化设计的核心要点,并给出模块整体结构及仿真验证结果,结合性能与资源消耗评估情况,为资源密集型NTT算法不同参数的实用化硬件设计提供参考。研究表明,在资源与性能折中的情况下,采用流水化设计具有较高的资源性能比,为优先选择方案。 展开更多
关键词 全同态密码算法 资源密集型 ntt算法 硬件设计 多周期并行化 流水化
在线阅读 下载PDF
Dilithium算法的FPGA高效扩展性优化 被引量:1
7
作者 燕云飞 李斌 +3 位作者 魏源鑫 张博林 马添翼 周清雷 《计算机科学》 CSCD 北大核心 2024年第S01期826-834,共9页
为提高Dilithium在实际应用中的运行效率,提出了一种Dilithium算法的现场可编程门阵列(Field Programmable Gate Array,FPGA)高效扩展性优化实现。具体在以下几个方面进行优化:将KOA(Karatsuba-Offman-Algorithm)算法与快速模约减算法... 为提高Dilithium在实际应用中的运行效率,提出了一种Dilithium算法的现场可编程门阵列(Field Programmable Gate Array,FPGA)高效扩展性优化实现。具体在以下几个方面进行优化:将KOA(Karatsuba-Offman-Algorithm)算法与快速模约减算法相结合,构成快速模乘单元,优化数论转换(Number TheoreticTransform,NTT)实现的大量多项式乘法;采用多RAM(Random Access Memory)存取参与运算的多项式系数,根据Dilithium算法的特点,设计了一种多项式系数读取策略,以快速、正确地读取RAM中的多项式系数。针对方案中的采样和散列工作,分析了SHAKE算法系列的特点,设计了一种低延迟可扩展的Keccak硬件架构,使得其能够根据输入信号的不同执行不同的SHAKE算法。实验结果表明,所提方案在频率方面相比其他方案提升了60.7%~131.9%,兼顾硬件的资源消耗和执行效率。 展开更多
关键词 Dilithium算法 现场可编程门阵列 数论变换 硬件实现
在线阅读 下载PDF
高能效混合基多项式乘法算法及可重构硬件结构研究与设计
8
作者 别梦妮 李伟 +3 位作者 陈韬 李慧琴 杜怡然 南龙梅 《电子学报》 CSCD 北大核心 2024年第12期3957-3966,共10页
本文针对快速多项式乘法算法与可重构单元的高能效设计问题展开研究,首先对现有的格基后量子密码算法展开研究,提出了一种基于数论变换(Number Theoretic Transform,NTT)的快速多项式乘法算法,并针对其中的核心运算过程,提出了高能效混... 本文针对快速多项式乘法算法与可重构单元的高能效设计问题展开研究,首先对现有的格基后量子密码算法展开研究,提出了一种基于数论变换(Number Theoretic Transform,NTT)的快速多项式乘法算法,并针对其中的核心运算过程,提出了高能效混合基的NTT和INTT(Inverse Number Theoretic Transform)算法,该算法可以利用NTT变换高效实现所有基于有限域的格基后量子密码算法中的多项式乘法.在此基础上,对快速多项式乘法算法运算结构进行研究,在不增加额外运算部件的前提下,通过优化网络连接关系,提出了一种高能效可重构的混合基多项式乘法加速网络,在可灵活实现基2、基3、基4的NTT/INTT算法的同时,将基3与基4的NTT运算效率提升了一倍.本文针对混合基NTT运算过程中的访存冲突问题展开研究,从理论上分析了冲突产生的原因,在此基础上分析提出了一种高能效混合基的内存管理方案,设计了相应的地址生成逻辑.本文提出的内存访问方案是原地内存访问的一种,硬件固化后仍可实现不同的多项式乘法算法的内存管理.实验结果表明,在55 nm CMOS工艺下,完成维度为256,模数小于2^(16)的多项式乘法运算仅需0.785μs,最高工作频率可达到476 MHz,功耗为83.6 mW,面积时间积(Area Time Product,ATP)为152.604 kGE·μs.与当前现有研究相比,本文提出的结构的ATP值降低了40%以上. 展开更多
关键词 后量子密码算法 多项式乘法 数论变换
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部