期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
基于CUDA平台的后量子密码算法babyKyber并行设计
1
作者 肖超恩 余福蓉 +1 位作者 王建新 孙凯勃 《北京电子科技学院学报》 2025年第2期11-20,共10页
针对物联网设备在后量子时代面临的新型安全挑战,本文基于CUDA架构提出面向babyKyber算法的并行优化方案。研究聚焦该算法中多项式乘法与数论变换等核心模块,通过细粒度并行将运算拆解至GPU线程级实现计算加速,同时采用粗粒度并行构建... 针对物联网设备在后量子时代面临的新型安全挑战,本文基于CUDA架构提出面向babyKyber算法的并行优化方案。研究聚焦该算法中多项式乘法与数论变换等核心模块,通过细粒度并行将运算拆解至GPU线程级实现计算加速,同时采用粗粒度并行构建多线程块架构以提升算法吞吐量。特别地,本文通过动态线程块配置实验探索GPU资源利用率优化路径。实验数据表明:优化后的并行方案在NVIDIA GeForce MX150平台实现千万级吞吐量,较CPU平台获得三个数量级的加速增益。该研究为后量子密码算法在资源受限物联网终端的工程化部署提供可行解决方案。 展开更多
关键词 后量子密码 Kyber GPU babyKyber 物联网
在线阅读 下载PDF
面向分布式超导量子计算架构的量子线路映射 被引量:1
2
作者 朱鹏程 卫丽华 +3 位作者 冯世光 周祥臻 郑盛根 管致锦 《软件学报》 北大核心 2025年第5期2381-2400,共20页
近年来,超导量子互连技术的研究取得了重要进展,这为构建分布式超导量子计算架构提供了有效途径.分布式超导架构在网络拓扑、量子比特连通性、以及量子态传输协议等方面对量子线路的执行施加了严格约束.为在分布式架构上调度和执行量子... 近年来,超导量子互连技术的研究取得了重要进展,这为构建分布式超导量子计算架构提供了有效途径.分布式超导架构在网络拓扑、量子比特连通性、以及量子态传输协议等方面对量子线路的执行施加了严格约束.为在分布式架构上调度和执行量子线路,需要通过专门的映射工序对量子线路进行适配底层架构的变换,并将变换后的线路交由网络中多个QPU(quantum processing unit)协同运行.分布式量子线路映射需向原始线路插入辅助的量子态移动操作,这些操作(尤其是QPU间量子态移动操作)具有较高的错误率.因此,减少映射所需的量子态移动操作数对于保证分布式计算的成功率至关重要.基于超导量子互连技术和超导QPU的技术特征构建一种抽象的分布式量子计算模型,并基于该抽象模型提出一种分布式量子线路映射方法,该方法由量子比特分布式映射和量子态路由两个核心模块组成,前者以量子态路由开销为代价函数,通过局部寻优和模拟退火相结合的策略生成近最优的初始映射;后者根据量子门执行的不同情形构建多个启发式量子态路由策略,并通过灵活应用这些策略最小化插入的量子态移动操作数.所构建的分布式抽象模型屏蔽了底层架构中和量子线路映射无关的物理细节,这使得基于该模型的映射方法可适用于一类分布式超导架构而非某个特定架构.另外,所提方法可作为辅助工具参与分布式网络拓扑结构的设计和评价.实验结果表明,所提算法可以有效降低映射所需的QPU内量子态移动操作(即SWAP门)数和QPU间量子态移动操作(即ST门)数.相较已有算法,在所有基准线路上平均减少69.69%的SWAP门和85.88%的ST门,且时间开销和已有算法接近. 展开更多
关键词 超导量子计算 量子网络 分布式计算 量子处理器 量子线路映射
在线阅读 下载PDF
Falcon后量子算法的密钥树生成部件GPU并行优化设计与实现 被引量:1
3
作者 张磊 赵光岳 +1 位作者 肖超恩 王建新 《计算机工程》 CAS CSCD 北大核心 2024年第9期208-215,共8页
近年来,后量子密码算法因其具有抗量子攻击的特性成为安全领域的研究热点。基于格的Falcon数字签名算法是美国国家标准与技术研究所(NIST)公布的首批4个后量子密码标准算法之一。密钥树生成是Falcon算法的核心部件,在实际运算中占用较... 近年来,后量子密码算法因其具有抗量子攻击的特性成为安全领域的研究热点。基于格的Falcon数字签名算法是美国国家标准与技术研究所(NIST)公布的首批4个后量子密码标准算法之一。密钥树生成是Falcon算法的核心部件,在实际运算中占用较多的时间和消耗较多的资源。为此,提出一种基于图形处理器(GPU)的Falcon密钥树并行生成方案。该方案使用奇偶线程联合控制的单指令多线程(SIMT)并行模式和无中间变量的直接计算模式,达到了提升速度和减少资源占用的目的。基于Python的CUDA平台进行了实验,验证结果的正确性。实验结果表明,Falcon密钥树生成在RTX 3060 Laptop的延迟为6 ms,吞吐量为167次/s,在计算单个Falcon密钥树生成部件时相对于CPU实现了1.17倍的加速比,在同时并行1024个Falcon密钥树生成部件时,GPU相对于CPU的加速比达到了约56倍,在嵌入式Jetson Xavier NX平台上的吞吐量为32次/s。 展开更多
关键词 后量子密码 Falcon算法 图形处理器 CUDA平台 并行计算
在线阅读 下载PDF
NTRU格基密钥封装方案GPU高性能实现
4
作者 李文倩 沈诗羽 赵运磊 《计算机学报》 EI CAS CSCD 北大核心 2024年第9期2163-2178,共16页
随着量子计算技术的发展,传统加密算法受到的威胁日益严重.为应对量子计算时代的挑战,各国正积极加强后量子密码算法的实现和迁移部署工作.由于NTRU密码方案具有结构简洁、计算效率高、尺寸较小、无专利风险等优点,因此NTRU格基密钥封... 随着量子计算技术的发展,传统加密算法受到的威胁日益严重.为应对量子计算时代的挑战,各国正积极加强后量子密码算法的实现和迁移部署工作.由于NTRU密码方案具有结构简洁、计算效率高、尺寸较小、无专利风险等优点,因此NTRU格基密钥封装算法对于后量子时代的密码技术储备和应用具有重要意义.同时,图形处理器(Graphics Processing Unit,GPU)以其强大的并行计算能力、高吞吐量、低能耗等特性,已成为当前高并发密码工程实现的重要平台.本文给出后量子密码算法CTRU/CNTR的首个GPU高性能实现方案.对GPU主要资源占用进行分析,我们综合考虑并行计算、内存访问、数据布局和算法优化等多个方面,采用一系列计算和内存优化技术,旨在并行加速计算、优化访存、合理占用GPU资源以及减少I/O时延,从而提高本方案的计算能力和性能.本文的主要贡献在于以下几个方面:首先,针对模约减操作,使用NVIDIA并行指令集实现,有效减少所需指令条数;其次,针对耗时的多项式乘法模块,采用混合基NTT,并采用层融合、循环展开和延迟约减等方法,加快计算速度;此外,针对内存重复访问和冲突访问等问题,通过合并访存、核函数融合等优化技术,实现内存的高效访问;最后,为实现高并行的算法,设计恰当的线程块大小和数量,采用内存池机制,实现多任务的快速访存和高效处理.基于NVIDIA RTX4090平台,本方案CTRU768实现中密钥生成、封装和解封装的吞吐量分别为每秒1170.9万次、926.7万次和315.4万次.与参考实现相比,密钥生成、封装和解封装的吞吐量分别提高了336倍、174倍和128倍.本方案CNTR768实现中密钥生成、封装和解封装的吞吐量分别为每秒1117.3万次、971.8万次和322.2万次.与参考实现相比,密钥生成、封装和解封装的吞吐量分别提高了329倍、175倍和134倍;与开源Kyber实现相比,密钥生成、密钥封装和密钥解封装的吞吐量分别提升10.84~11.36倍、9.49~9.95倍和5.11~5.22倍.高性能的密钥封装实现在大规模任务处理场景下具有较大的应用潜力,对保障后量子时代的信息和数据安全具有重要意义. 展开更多
关键词 后量子密码 格基密码 密钥封装方案 并行处理 图形处理器
在线阅读 下载PDF
基于CPU/GPU异构平台的连续变量量子密钥分发多维数据协调 被引量:4
5
作者 穆健健 郭大波 +1 位作者 马识途 贺超 《激光与光电子学进展》 CSCD 北大核心 2019年第15期219-227,共9页
针对当前连续变量量子密钥分发系统数据协调运算速率低的问题,采用中央处理器/图形处理器(CPU/GPU)异构平台实现了多维数据协调算法的并行加速运算,提出了对于异构计算要求的大规模校验矩阵静态双向十字链表及多维并行协调算法。在该平... 针对当前连续变量量子密钥分发系统数据协调运算速率低的问题,采用中央处理器/图形处理器(CPU/GPU)异构平台实现了多维数据协调算法的并行加速运算,提出了对于异构计算要求的大规模校验矩阵静态双向十字链表及多维并行协调算法。在该平台上对码长为2.048×10^5的情况进行了仿真计算。通过仿真可获取收敛信噪比和协调计算时间,并计算得出协调速率、密钥传输距离和协调效率。结果表明:当码长为2.048×10^5时,在保证协调效率的前提下,采用CPU/GPU异构平台并行加速的协调速率为CPU平台的5倍。 展开更多
关键词 量子光学 量子密钥分发 中央处理器/图形处理器异构平台 多维数据协调 低密度奇偶校验码 稀疏矩阵
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部