期刊文献+
共找到79,002篇文章
< 1 2 250 >
每页显示 20 50 100
基于深度学习的短视频推荐系统设计 被引量:1
1
作者 吉慧 《科技创新与应用》 2025年第10期126-129,共4页
针对短视频推荐场景中存在的低延迟响应与推荐精度失衡的技术挑战,该研究设计一种双通道动态兴趣建模框架。通过构建基于异构知识图谱的稳态兴趣建模与实时行为感知的瞬态兴趣捕捉协同机制,在确保推荐系统端到端响应时间低于200 ms的工... 针对短视频推荐场景中存在的低延迟响应与推荐精度失衡的技术挑战,该研究设计一种双通道动态兴趣建模框架。通过构建基于异构知识图谱的稳态兴趣建模与实时行为感知的瞬态兴趣捕捉协同机制,在确保推荐系统端到端响应时间低于200 ms的工程约束下,有效提升推荐准确度与覆盖率。具体而言,系统采用分阶段兴趣建模策略。在离线阶段,通过3层残差图卷积网络挖掘用户历史交互中隐含的跨实体关联(用户—创作者—主题标签的三元组关系),生成具有语义鲁棒性的长期偏好表征;在在线阶段,部署轻量化流式处理引擎,采用滑动时间窗策略(窗口尺寸动态调整范围为30~120 s)捕捉用户当前会话内的细粒度交互信号(包括视频完播率、互动频率、页面停留时长等12维时序特征),通过门控注意力网络实现短期兴趣的增量式更新。 展开更多
关键词 深度学习 短视频推荐 短期兴趣 长期兴趣 双通道动态兴趣建模
在线阅读 下载PDF
环境工程教学资源库多属性资源均衡分配方法
2
作者 开晓莉 葛建华 王兴明 《保定学院学报》 2025年第3期100-107,共8页
结合层次结构分析法将环境工程教学资源库的复杂拓扑结构设置并划分为不同层次,分析环境工程教学资源库层次结构;调度资源内容子层中不同属性的资源数据,复现多属性资源生成过程并将其转化为包含随机变量的概率模型,计算数据库综合属性... 结合层次结构分析法将环境工程教学资源库的复杂拓扑结构设置并划分为不同层次,分析环境工程教学资源库层次结构;调度资源内容子层中不同属性的资源数据,复现多属性资源生成过程并将其转化为包含随机变量的概率模型,计算数据库综合属性特征;融合ID3算法的信息增益计算原理,划分环境工程教学资源属性类别;创新性地融合云计算技术中的负载均衡技术,计算资源负载均衡分配结构,实现环境工程教学资源库多属性资源均衡分配.实验结果表明:利用设计方法所产生的资源利用率最大值为98%、成本效率损失最大值为8%、分配耗时最高值仅为1.82 s,对应分配延迟为0.03 s,分配效率较高,能够有效实现多属性资源的均衡分配. 展开更多
关键词 环境工程专业 资源库 教学资源 多属性 均衡分配 云计算
在线阅读 下载PDF
片上操作系统的应用程序数据类型体系研究
3
作者 曹国顺 付睿 +3 位作者 何碧波 耿力 高健 韩劢之 《信息技术与标准化》 2025年第11期19-23,共5页
为解决C语言数据类型在支持后下载应用的片上操作系统(COS)中无法完全满足应用程序数据的存储特性和安全需求的问题,分析了Java Card和C语言数据类型的属性,提出了一种基于 C 语言扩展的应用程序数据类型体系。根据数据分类,重点阐述了... 为解决C语言数据类型在支持后下载应用的片上操作系统(COS)中无法完全满足应用程序数据的存储特性和安全需求的问题,分析了Java Card和C语言数据类型的属性,提出了一种基于 C 语言扩展的应用程序数据类型体系。根据数据分类,重点阐述了4种模块数据类型和5种应用数据类型。测试结果表明,该数据类型体系满足了COS应用程序数据的需求,有效提升了内存利用率和应用执行性能,为COS虚拟机运行时环境提供了高效的数据模型。 展开更多
关键词 片上操作系统 Java Card C语言应用 应用数据 数据类型 生命周期
在线阅读 下载PDF
一种紧凑高效的片上操作系统可加载文件的设计与实践
4
作者 曹国顺 王文峰 +3 位作者 付睿 张璋 底明辉 张树良 《信息技术与标准化》 2025年第10期91-96,共6页
针对资源受限身份识别安全设备片上操作系统面临可加载文件加载速度慢、占用资源空间大的问题,分析了Java Card、Multos、WebAssembly等开放架构平台的可加载文件技术,提出了一种新型的可加载文件SEF。该文件通过精简文件结构、增强应... 针对资源受限身份识别安全设备片上操作系统面临可加载文件加载速度慢、占用资源空间大的问题,分析了Java Card、Multos、WebAssembly等开放架构平台的可加载文件技术,提出了一种新型的可加载文件SEF。该文件通过精简文件结构、增强应用与函数信息、卡外跨模块链接等设计,达到缩小应用空间成本,提高应用加载速度的目标。测试结果表明,与Java Card CAP文件相比,SEF在资源空间消耗与加载速度方面均具有优势,对相关领域的应用具有一定的参考价值。 展开更多
关键词 可加载文件 片上操作系统 CAP ALU WebAssembly SEF
在线阅读 下载PDF
基于Kubernetes舵手集群系统的设计研究
5
作者 李永俊 《信息记录材料》 2026年第1期62-64,共3页
针对分布式系统中存在的资源调度响应延迟高、管理复杂度大及调度效率低下等问题,本研究基于Kubernetes设计实现了舵手集群系统,通过引入动态调度机制,系统可实现集群资源的统一管理和高效调度。首先,系统分析Kubernetes的核心工作原理... 针对分布式系统中存在的资源调度响应延迟高、管理复杂度大及调度效率低下等问题,本研究基于Kubernetes设计实现了舵手集群系统,通过引入动态调度机制,系统可实现集群资源的统一管理和高效调度。首先,系统分析Kubernetes的核心工作原理、技术优势及架构设计特点;其次,结合舵手集群的动态调度机制,详细阐述系统设计的关键步骤和实现方法;最后,对系统进行一系列性能测试。结果表明,Flannel Direct在单主机通信与跨主机通信中均表现最佳,在高并发场景下表现出优异的稳定性和可扩展性,可显著改善集群通信性能,为分布式应用提供了高效的容器化解决方案。 展开更多
关键词 舵手集群系统 容器编排 动态调度 Kubernetes Flannel Direct 高并发性能 分布式系统 数据存储
在线阅读 下载PDF
基于向量空间模型的图书馆资源检索优化
6
作者 施平 《信息记录材料》 2025年第2期218-220,共3页
本研究基于向量空间模型提出了一种优化的图书馆资源检索系统,旨在提升检索效率与准确性。首先,通过构建信息检索系统,深入研究词频-逆文档频率(term frequency-inverse document frequency,TF-IDF)向量表示方法,以提高文本的区分度;其... 本研究基于向量空间模型提出了一种优化的图书馆资源检索系统,旨在提升检索效率与准确性。首先,通过构建信息检索系统,深入研究词频-逆文档频率(term frequency-inverse document frequency,TF-IDF)向量表示方法,以提高文本的区分度;其次,引入学习排序模型,对相似度计算进行优化;为验证方法的有效性,使用Whoosh开源框架进行系统实现,并通过精度、召回率和F_1值等指标对模型性能进行评估。最后,记录多次实验的系统响应时间,验证所提方法在实际应用场景中的效果。结果表明,优化后的系统在精度、召回率以及系统响应速度上均取得了良好的效果。 展开更多
关键词 检索系统 向量空间 词频-逆文档频率 学习排序模型 正则化
在线阅读 下载PDF
SegTEE:面向小型端侧设备的可信执行环境系统 被引量:1
7
作者 杜冬冬 杨璧丞 +6 位作者 余炀 夏虞斌 丁佐华 赵永望 张磊 臧斌宇 陈海波 《计算机学报》 北大核心 2025年第1期188-209,共22页
面向万物互联、智联计算的边端场景,如何在小型端侧设备上保护用户隐私,隔离关键代码和数据,成为一个亟待突破的重要问题。现有系统通常依赖于可信执行环境,通过基于处理器的硬件扩展,保护安全敏感应用的机密性和完整性。然而,现有端侧... 面向万物互联、智联计算的边端场景,如何在小型端侧设备上保护用户隐私,隔离关键代码和数据,成为一个亟待突破的重要问题。现有系统通常依赖于可信执行环境,通过基于处理器的硬件扩展,保护安全敏感应用的机密性和完整性。然而,现有端侧可信执行环境系统主要面向静态、固定的安全场景,难以满足万物互联所带来的动态复杂的安全要求。具体来说,包含四个关键挑战。首先,动态复杂的安全需求会在可信执行环境中带来不可忽视的“资源税”,导致其难以部署在小型端侧设备中。其次,在内存安全方面,现有端侧设备往往只提供简单的段隔离机制(如ARM MPU和RISC-V PMP),难以支持多层多域的复杂隔离需求。再次,在I/O安全方面,现有系统通过静态划分或主机代理的方式,前者难以适应动态变化的安全应用场景,后者存在严重性能开销和安全隐患。最后,在可扩展性方面,端侧设备依赖的段隔离机制能够降低硬件资源开销,但是仅能支持十分有限的隔离域,无法满足万物互联场景下较多的隔离域需求。为了系统性地突破并解决上述挑战,本文提出SegTEE,一个面向万物互联小型端侧设备的可信执行环境系统。和传统可信执行环境方案相比,SegTEE围绕段隔离机制设计了全系统的隔离和保护,支持同特权态隔离域间隔离和跨特权态的段隔离。具体来说,SegTEE首先提出嵌套段隔离机制,在硬件层面支持TEE-Seg段保护机制和OS-Seg段保护机制,其中TEE-Seg能够实现隔离域间隔离,而OS-Seg则提供用户态和特权态操作系统间的隔离性保障。基于TEE-Seg和OS-Seg的嵌套段隔离机制,SegTEE引入了段滑动窗口设计,能够在有限数量(例如16个)的段寄存器基础上,实现上百个隔离域,有效支撑万物互联的复杂场景。SegTEE还引入了基于段的内存裁剪机制,有效降低资源税,并且设计了基于段隔离的I/O动态保护方案。实验结果显示,SegTEE能够基于本文提出的设计,相比前沿RISC-V可信执行环境(蓬莱-PMP),隔离域数量提升了14倍,降低了54%的内存资源占用,并且可以在运行时达到相当的性能表现。 展开更多
关键词 操作系统 可信执行环境 RISC-V
在线阅读 下载PDF
基于多核异构操作系统的动态冗余可靠机制研究 被引量:3
8
作者 何瑞琦 张凯龙 +2 位作者 吴金飞 于强 张家铭 《计算机科学》 北大核心 2025年第4期33-39,共7页
针对当前嵌入式系统的混合部署需求和功能安全需求,提出了一种动态异构冗余的操作系统架构DHR-OS。面向混合部署需求,该架构设计了异构操作系统的混合部署模式,即在多核CPU上以Linux为主操作系统,动态部署RTOS从操作系统镜像。同时,为... 针对当前嵌入式系统的混合部署需求和功能安全需求,提出了一种动态异构冗余的操作系统架构DHR-OS。面向混合部署需求,该架构设计了异构操作系统的混合部署模式,即在多核CPU上以Linux为主操作系统,动态部署RTOS从操作系统镜像。同时,为了操作系统间的协同工作,利用OpenAMP(Open Asymmetric Multi-Processing)实现了主从操作系统间的通信,并基于OpenAMP进一步实现了设备驱动的时分复用、远程过程调用(Remote Procedure Call,RPC)、中断转发路由机制。面向功能安全需求,该架构设计了一套调度、分发、裁决为一体的关键任务安全执行机制。具体地,Linux操作系统事先对RTOS核心做池化处理,当执行关键任务时,从RTOS内核池中调度若干RTOS核心作为任务执行环境,在Linux侧的裁决器基于加权投票的分布式共识算法,处理RTOS核心任务返回的结果。通过上述设计增强了系统的灵活性和抗攻击能力。该工作为嵌入式系统的混合部署和功能安全需求提供了一种新的系统架构解决方案,具有一定创新性和实用价值。 展开更多
关键词 异构动态冗余 混合部署 功能安全 分布式共识
在线阅读 下载PDF
基于嵌入式Linux系统的Qt/Embedded图像处理界面开发 被引量:9
9
作者 刘福才 赵佳伟 汤丽娜 《计算机应用与软件》 CSCD 2009年第11期116-117,149,共3页
根据ARM9开发平台与GUI软件开发环境Qt/Embedded,针对嵌入式图像处理系统的开发阐述了基于静态图像处理的嵌入式Linux图形界面的开发流程及编程方法,主要包括编译环境的建立、源文件中的关键函数分析及调试中关键问题的解决方法。试验... 根据ARM9开发平台与GUI软件开发环境Qt/Embedded,针对嵌入式图像处理系统的开发阐述了基于静态图像处理的嵌入式Linux图形界面的开发流程及编程方法,主要包括编译环境的建立、源文件中的关键函数分析及调试中关键问题的解决方法。试验结果验证了用Qt/Embedded开发的图形用户界面应用于嵌入式图像处理系统上效果良好。 展开更多
关键词 嵌入式LINUX QT/EMBEDDED 图像处理 图形界面开发
在线阅读 下载PDF
面向软件生态演化的操作系统兼容性研究综述
10
作者 洪欣然 马俊 +5 位作者 王静 张闯 余杰 李小玲 张雪艳 阳娅婧 《计算机科学》 北大核心 2025年第7期1-12,共12页
随着软硬件技术的飞速发展,软件生态成为信息产业创新发展的关键。然而,软件生态规模和数量庞大、应用场景复杂多样、依赖和供应链关系纵横交错,使得软件生态快速演化带来的兼容性问题日益突出,传统兼容性分析方法的局限性也越来越明显... 随着软硬件技术的飞速发展,软件生态成为信息产业创新发展的关键。然而,软件生态规模和数量庞大、应用场景复杂多样、依赖和供应链关系纵横交错,使得软件生态快速演化带来的兼容性问题日益突出,传统兼容性分析方法的局限性也越来越明显。操作系统作为支撑整个软件生态系统的基础设施,其兼容性问题直接关系到软件的稳定性、可用性、安全性以及软件生态的健康发展。从操作系统视角分析兼容性能够更宏观地把握整个软件生态的上下层次和依赖关系,并可以借助大数据和智能化手段,对海量的软件生态关系和复杂演化进行分析,从而更高效地识别和解决兼容性问题,提高操作系统的适应性和用户体验。文中旨在从架构层次、关系网络、演化过程等多个维度全面总结分析操作系统兼容性的内涵、模型,并从操作系统中软件生态演化的角度,结合复杂关系网络、人工智能、知识图谱等技术手段发展,从分析评估、检测定位、修复保障等方面系统性地探讨了当前兼容性问题的主要解决方案和研究成果,并对该领域的研究挑战和未来发展方向进行了归纳总结。 展开更多
关键词 兼容性分析 软件生态演化 操作系统 依赖关系 关系网络 知识图谱
在线阅读 下载PDF
基于Cortex-M4内核的RT-Thread上下文切换机制剖析
11
作者 徐丽华 王宜怀 奚圣鑫 《计算机应用与软件》 北大核心 2025年第1期213-216,302,共5页
RT-Thread是源码公开的国产嵌入式实时操作系统。基于Cortex-M4内核,对RT-Thread通过底层PendSV中断进行上下文切换的过程进行了剖析,从指令级别对上下文切换的实现机制进行了研究,为深入理解内核调度机制的实现提供了参考,也为RT-Threa... RT-Thread是源码公开的国产嵌入式实时操作系统。基于Cortex-M4内核,对RT-Thread通过底层PendSV中断进行上下文切换的过程进行了剖析,从指令级别对上下文切换的实现机制进行了研究,为深入理解内核调度机制的实现提供了参考,也为RT-Thread的应用与推广提供了技术基础。 展开更多
关键词 嵌入式实时操作系统 RT-THREAD 任务调度 上下文切换
在线阅读 下载PDF
嵌入式操作系统FreeRTOS的原理与实现 被引量:34
12
作者 刘滨 王琦 刘丽丽 《单片机与嵌入式系统应用》 2005年第7期8-11,共4页
FreeRTOS是一个源码公开的免费的嵌入式实时操作系统,通过研究其内核可以更好地理解嵌入式操作系统的实现原理。本文主要阐述FreeRTOS系统中的任务调度机制、时间管理机制、任务管理机制以及内存分配策略的实现原理,并指出FreeRTOS在应... FreeRTOS是一个源码公开的免费的嵌入式实时操作系统,通过研究其内核可以更好地理解嵌入式操作系统的实现原理。本文主要阐述FreeRTOS系统中的任务调度机制、时间管理机制、任务管理机制以及内存分配策略的实现原理,并指出FreeRTOS在应用中的优缺点。 展开更多
关键词 嵌入式操作系统 嵌入式实时操作系统 实现原理 管理机制 源码公开 调度机制 OS系统 分配策略 优缺点 内核 内存
在线阅读 下载PDF
SPARC架构下低时延微内核进程间通信设计
13
作者 苏浩然 李文泰 +3 位作者 古金宇 臧斌宇 陈海波 管海兵 《软件学报》 北大核心 2025年第5期2362-2380,共19页
微内核系统将系统服务迁移到用户态运行,因其架构隔离性而具有高可靠性的优势,这一优势与航天领域的需求相契合.SPARC架构的处理器被广泛应用于航天飞船、卫星载荷以及星球车的控制设备上,而该架构的寄存器窗口机制会影响微内核进程间通... 微内核系统将系统服务迁移到用户态运行,因其架构隔离性而具有高可靠性的优势,这一优势与航天领域的需求相契合.SPARC架构的处理器被广泛应用于航天飞船、卫星载荷以及星球车的控制设备上,而该架构的寄存器窗口机制会影响微内核进程间通信(inter-process communication,IPC)的性能,其核间中断(inter-processor interrupt,IPI)也会严重影响跨核IPC的效率.IPC作为微内核系统的关键机制,对微内核上应用程序的整体性能十分重要.基于对SPARC寄存器窗口机制的观察,重新设计实现寄存器组机制,由系统内核对寄存器窗口进行分配和管理,并藉此实现SPARC架构上的BankedIPC.同时,在多核场景下,针对SPARC上IPI性能较差的问题,设计实现FlexIPC以优化跨核IPC的性能.使用这些方法对自研微内核ChCore上已经实现的通用的同步IPC进行优化.测试表明,优化后SPARC上微内核的IPC平均性能提升至原来的2倍,应用性能提升最高可达15%. 展开更多
关键词 进程间通信 微内核 SPARC架构 性能调优
在线阅读 下载PDF
实现SMP机群虚拟化的方法 被引量:4
14
作者 彭近兵 龙翔 肖利民 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2009年第3期300-303,370,共5页
机群是一类重要的并行计算机体系结构,成本低廉,可扩展性强,但编程复杂,管理难度大.利用虚拟化技术可以将机群抽象成具有共享内存特征的虚拟机,支持共享内存的编程模式,从而克服机群的不足.当前,在该领域有少量探索性的研究成果,但都不... 机群是一类重要的并行计算机体系结构,成本低廉,可扩展性强,但编程复杂,管理难度大.利用虚拟化技术可以将机群抽象成具有共享内存特征的虚拟机,支持共享内存的编程模式,从而克服机群的不足.当前,在该领域有少量探索性的研究成果,但都不能支持对称多处理机(SMP,Symmetric Multiprocessor)机群虚拟化.本文提出一种新颖的虚拟化SMP机群的方法,即利用硬件虚拟化技术,在操作系统(OS,Operating System)之下构建分布式虚拟机监视器(DVMM,Distributed Virtual Machine Monitor),通过DVMM对机群的资源进行感知、整合、虚拟化和呈现,使SMP机群对OS呈现为一台具有共享内存特征的虚拟机;通过DVMM与OS配合,实现在虚拟机上透明地运行并行应用软件. 展开更多
关键词 虚拟化 虚拟机监视器 分布式虚拟机监视器 对称多处理机 机群
原文传递
基于硬件虚拟化实现多结点单一系统映像 被引量:3
15
作者 彭近兵 龙翔 肖利民 《计算机科学与探索》 CSCD 2008年第5期529-535,共7页
实现多结点单一系统映像SS(ISingle System Image)是并行计算机体系结构研究的一个重要方向。当前,国内、外关于SSI的大量研究工作是在中间件层(MiddlewareLevel)开展的,存在透明性较差和性能较低等问题。提出了一种实现多结点SSI的新方... 实现多结点单一系统映像SS(ISingle System Image)是并行计算机体系结构研究的一个重要方向。当前,国内、外关于SSI的大量研究工作是在中间件层(MiddlewareLevel)开展的,存在透明性较差和性能较低等问题。提出了一种实现多结点SSI的新方法,即利用硬件虚拟化技术,在操作系统OS(Operating System)之下构建分布式虚拟机监视器DVMM(Distributed Virtual Machine Monitor),DVMM由各结点之上的VMM(Virtual Machine Monitor)共同组成,各VMM完全对称;通过各结点的VMM之间协作,实现多结点系统资源的感知、整合、虚拟化和呈现,使多结点对OS呈现为SSI;通过DVMM与OS配合,实现在多结点系统上透明地运行并行应用软件。同现有方法相比,所述方法具有透明性好、性能较高、应用面广和实现难度适中等优势。 展开更多
关键词 单一系统映像 虚拟化 硬件虚拟化 虚拟机监视器 分布式虚拟机监视器
在线阅读 下载PDF
实时系统中基于测量的概率时序分析:模型、方法与验证
16
作者 王艺霏 张轶 邓庆绪 《小型微型计算机系统》 北大核心 2025年第11期2807-2816,共10页
随着嵌入式实时系统复杂度提升,传统最坏情况执行时间分析面临挑战,推动研究者采用概率统计技术解决时序分析问题.本文首先了概述概率时序分析方法的发展历程,探讨了验证模型选择对分析结果的影响.然后介绍极值理论在时序分析中的应用,... 随着嵌入式实时系统复杂度提升,传统最坏情况执行时间分析面临挑战,推动研究者采用概率统计技术解决时序分析问题.本文首先了概述概率时序分析方法的发展历程,探讨了验证模型选择对分析结果的影响.然后介绍极值理论在时序分析中的应用,并特别关注了从独立同分布到非独立同分布系统的理论扩展.由于现代计算机系统难以满足独立同分布假设,本文重点描述了MBPTA使能方法中的随机化技术.通过引入随机性打破执行时间间的依赖关系,并可由硬件与软件方法实现.此外,本文讨论了在各种随机化条件下为MBPTA提供可靠统计验证的方法.最后提出了适用于多种随机化系统的通用统计学验证流程. 展开更多
关键词 基于测量 概率时序分析 统计学验证 实时 WCET 随机
在线阅读 下载PDF
RISC-V架构下的懒惰影子页表模型
17
作者 李传东 衣然 +2 位作者 罗英伟 汪小林 王振林 《软件学报》 北大核心 2025年第9期3970-3984,共15页
内存虚拟化作为虚拟化技术的核心组成部分,直接影响虚拟机的整体性能.目前,主流的内存虚拟化方法在两维地址翻译开销与页表同步开销之间面临权衡.传统的影子页表模型通过一套由软件维护的页表,实现了与原生(native)环境相当的地址翻译性... 内存虚拟化作为虚拟化技术的核心组成部分,直接影响虚拟机的整体性能.目前,主流的内存虚拟化方法在两维地址翻译开销与页表同步开销之间面临权衡.传统的影子页表模型通过一套由软件维护的页表,实现了与原生(native)环境相当的地址翻译性能.然而,由于影子页表的同步依赖于基于写保护的机制,频繁的虚拟机退出(VM-exit)会严重影响系统性能.相对而言,嵌套页表模型依靠硬件辅助虚拟化,允许虚拟机的客户页表直接加载到内存管理单元中,从而避免了页表同步的开销.然而,这种方法的两维页表遍历却显著降低了地址翻译效率.基于RISC-V架构下的特权级模型和虚拟化硬件特性,提出了一种懒惰影子页表模型LSP(lazy shadow paging),在保留影子页表的地址翻译高效性的同时降低了页表同步开销.懒惰影子页表模型深入分析了客户机对页表页的访问模式,将页表同步与转址旁路缓存(translation lookaside buffer,TLB)刷新操作绑定以降低虚拟机退出的数量.然后,利用RISC-V架构中对TLB的细粒度刷新且可拦截的特性,无效化需同步的影子页表项,将页表同步的软件开销推迟到了首次访问该页面的时刻.此外,懒惰影子页表模型利用RISC-V架构中全新的特权级模型,设计了TLB拦截的快速路径,进一步减少了虚拟机退出带来的软件开销.实验结果表明,在基础RISC-V架构下,懒惰影子页表相对于传统影子页表在微基准测试中降低了最多50%的虚拟机退出数量.在支持RISC-V的虚拟化扩展架构下,懒惰影子页表对SPEC2006基准测试中的典型应用相较于传统影子页表降低了最多25%的虚拟机退出数量,相较于嵌套页表每次TLB缺失降低了12次访存. 展开更多
关键词 RISC-V 虚拟化扩展 内存虚拟化 影子页表 嵌套页表
在线阅读 下载PDF
PetS:针对参数高效Transformer模型的可扩展推理服务系统
18
作者 魏学超 周哲 +3 位作者 徐盈辉 张洁靖 谢源 孙广宇 《计算机研究与发展》 北大核心 2025年第7期1816-1832,共17页
在多任务推理服务场景下使用基于预训练-微调范式的Transformer模型存在很多困难:服务端必须维护每个下游任务的完整模型副本,从而造成很大的存储和显存开销.最近逐渐兴起的参数高效Transformer(PET)算法在不同的下游任务之间共享预训... 在多任务推理服务场景下使用基于预训练-微调范式的Transformer模型存在很多困难:服务端必须维护每个下游任务的完整模型副本,从而造成很大的存储和显存开销.最近逐渐兴起的参数高效Transformer(PET)算法在不同的下游任务之间共享预训练模型,仅微调一小部分任务特定的模型参数,从而减少存储的开销.然而,现有的后端服务系统既没有灵活的PET任务管理机制,也不能有效地跨任务进行输入的批量处理.针对不同的下游任务,现有框架在多卡分布式场景下也难以提供良好的负载均衡机制.因此,提出了PetS,一个用于多任务PET推理服务的可扩展框架.具体而言,不同的PET任务在算法上被抽象成一种统一表示形式.基于这种统一表示,设计了一个专门的PET推理引擎,以批处理不同任务的输入,并使用任务无关的共享算子和任务特定的PET算子进行推理.通过PET推理引擎,PetS在单个GPU设备上可以支持更多的任务数量.为了进一步提高系统吞吐量,提出了一种协同批处理(CB)策略,同时考虑了输入的长度、PET任务类型以及系统负载平衡.为了提升多卡部署的负载均衡,创新性地提出了基于PET实时迁移的负载均衡机制.PetS在包括边缘端、桌面端和服务器端GPU等多个平台上都经过了评估.全面的实验证明,PetS支持多达26倍的并发任务,并将服务吞吐量在桌面和服务器GPU节点上分别提高了1.53倍和1.63倍.在多GPU场景下,该负载均衡策略可以将吞吐量进一步提升29%之多. 展开更多
关键词 推理服务 参数高效Transformer GPU 分布式系统 机器学习系统
在线阅读 下载PDF
安卓智能手机存储系统优化方法综述
19
作者 次天钊 杨昊 +2 位作者 周游 谢长生 吴非 《计算机工程》 北大核心 2025年第3期1-23,共23页
智能手机已成为人们日常生活中不可或缺的一部分。安卓系统以其开源、生态完备等优点成为目前市场份额占比最大的移动操作系统。在安卓手机中,存储子系统是关键的组成部分,对用户体验有重要影响。不同于服务器场景,安卓手机存储系统的... 智能手机已成为人们日常生活中不可或缺的一部分。安卓系统以其开源、生态完备等优点成为目前市场份额占比最大的移动操作系统。在安卓手机中,存储子系统是关键的组成部分,对用户体验有重要影响。不同于服务器场景,安卓手机存储系统的设计需要考虑诸多独特因素,如资源受限、成本敏感、前台应用优先等,学术界对此已经展开大量研究。针对该方向研究现状进行总结分析,首先将安卓手机存储系统用户体验保障面临的问题凝练为主机端写放大、内存交换、文件系统碎片化、闪存设备性能以及I/O优先级反转5类;然后围绕如何解决这5类问题,对现有工作进行分类介绍,并总结常用的手机存储系统测试与分析工具;最后对安卓手机存储系统用户体验保障技术的研究现状进行总结,并讨论了未来潜在的研究方向。 展开更多
关键词 闪存 存储子系统 安卓系统 智能手机 用户体验
在线阅读 下载PDF
面向RISC-V向量扩展的高性能算法库优化方法
20
作者 韩柳彤 张洪滨 +2 位作者 邢明杰 武延军 赵琛 《软件学报》 北大核心 2025年第9期3985-4005,共21页
高性能算法库可以通过向量化的方式高效地利用单指令多数据(SIMD)硬件的能力,从而提升其在CPU上的执行性能.其中,向量化的实现需要使用目标SIMD硬件的特定编程方法,而不同SIMD扩展的编程模型和编程方法均存在较大差异.为了避免优化算法... 高性能算法库可以通过向量化的方式高效地利用单指令多数据(SIMD)硬件的能力,从而提升其在CPU上的执行性能.其中,向量化的实现需要使用目标SIMD硬件的特定编程方法,而不同SIMD扩展的编程模型和编程方法均存在较大差异.为了避免优化算法在不同平台上的重复实现,提高算法库的可维护性,在高性能算法库的开发过程中通常需要引入硬件抽象层.由于目前主流SIMD扩展指令集均被设计为具有固定长度的向量寄存器,多数硬件抽象层也是基于定长向量的硬件特性而设计,无法包含RISC-V向量扩展所引入的可变向量寄存器长度的硬件特性.而若将RISC-V向量扩展视作定长向量扩展引入现有硬件抽象层设计中,会产生不必要的开销,造成性能损失.为此,提出了一种面向可变长向量扩展平台和固定长度SIMD扩展平台的硬件抽象层设计方法.基于此方法,重新设计和优化了OpenCV算法库中的通用内建函数,使其在兼容现有SIMD平台的基础上,更好地支持RISC-V向量扩展设备.将采用优化方法的OpenCV算法库与原版算法库进行性能比较,实验结果表明,运用该方法设计的通用内建函数能够将RISC-V向量扩展高效地融入算法库的硬件抽象层优化框架中,并在核心模块中获得3.93倍的性能提升,显著优化了高性能算法库在RISC-V设备上的执行性能,从而验证了该方法的有效性.此外,工作已经开源并被OpenCV社区集成到其源代码之中,证明了方法的实用性和应用价值. 展开更多
关键词 RISC-V向量扩展 数据级并行 高性能库优化 开源计算机视觉算法库(OpenCV)
在线阅读 下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部