期刊文献+
共找到8,129篇文章
< 1 2 250 >
每页显示 20 50 100
基于图像压缩编码的分级预警安防监测技术研究
1
作者 甘培潮 《工业控制计算机》 2026年第1期25-26,29,共3页
传统的安防监测系统多以高清镜头作为监测设备,存在监控图像数据体量大、需要占用大量的服务器硬件资源,同时很少具备分级预警辅助功能,大都由人工根据监测情况判定,存在人工监测效率低、监测疲劳大意等问题。为此,开展基于图像压缩编... 传统的安防监测系统多以高清镜头作为监测设备,存在监控图像数据体量大、需要占用大量的服务器硬件资源,同时很少具备分级预警辅助功能,大都由人工根据监测情况判定,存在人工监测效率低、监测疲劳大意等问题。为此,开展基于图像压缩编码的分级预警安防监测技术研究,一方面通过重编码技术实现图像压缩处理,解决图像数据体量大以及占用服务器资源的问题;另一方面通过构建分级预警阈值设定功能,确保监控预警的精准性和有效性。 展开更多
关键词 安防监测 图像编码 图像压缩 分级预警
在线阅读 下载PDF
感兴趣区域引导的码率可变卫星遥感图像压缩方法
2
作者 肖飞 孙震笙 金俊杰 《电子技术应用》 2026年第1期21-27,共7页
随着遥感卫星数量和成像分辨率的不断提高,遥感图像的数据量急剧增加,在传输带宽受限的情况下,如何保证遥感图像中目标区域的重建质量,是目前亟需解决的问题。针对上述问题,提出了一种感兴趣区域引导的码率可变卫星遥感图像压缩方法。首... 随着遥感卫星数量和成像分辨率的不断提高,遥感图像的数据量急剧增加,在传输带宽受限的情况下,如何保证遥感图像中目标区域的重建质量,是目前亟需解决的问题。针对上述问题,提出了一种感兴趣区域引导的码率可变卫星遥感图像压缩方法。首先,构建了基于感兴趣区域引导的重要性图模块,在压缩网络前端使用通用检测网络得到感兴趣目标分布掩膜,指导感兴趣区域和背景区域的码率分配。其次,设计码率可变压缩策略,在遥感图像压缩过程中实现灵活的码率控制。实验结果表明,本文方法在主观和客观指标上均优于传统方法,并且在低码率条件下也能达到与现有图像压缩方法相当的性能。 展开更多
关键词 遥感图像压缩 深度学习 感兴趣区域
在线阅读 下载PDF
基于多模态融合Transformer的视听广义零次学习方法 被引量:1
3
作者 杨静 李小勇 +3 位作者 阮小利 李少波 唐向红 徐计 《电子与信息学报》 北大核心 2025年第7期2375-2384,共10页
视听零次学习需要理解音频和视觉信息之间的关系,以便能够推理未见过的类别。尽管领域做出了许多努力并取得了重大进展,但往往专注于学习强大的表征,从而忽视了音频和视频之间的依赖关系和输出分布与目标分布不一致的问题。因此,该文提... 视听零次学习需要理解音频和视觉信息之间的关系,以便能够推理未见过的类别。尽管领域做出了许多努力并取得了重大进展,但往往专注于学习强大的表征,从而忽视了音频和视频之间的依赖关系和输出分布与目标分布不一致的问题。因此,该文提出了基于Transformer的视听广义零次学习方法。具体来说,使用注意力机制来学习数据的内部信息,增强不同模态的信息交互,以捕捉视听数据之间的语义一致性;为了度量不同概率分布之间的差异和类别之间的一致性,引入了Kullback-Leibler(KL)散度和余弦相似度损失。为了评估所提方法,在VGGSound-GZSL^(cls),UCF-GZSL^(cls)和ActivityNet-GZSL^(cls)3个基准数据集上进行测试。大量的实验结果表明,所提方法在3个数据集上都取得了最先进的性能。 展开更多
关键词 视听零次学习 视频分类 注意力机制 KL散度
在线阅读 下载PDF
任务自适应增强的人机特征解耦可分级压缩 被引量:1
4
作者 安平 沙莉娅 +2 位作者 吴颖 杨超 黄新彭 《信号处理》 北大核心 2025年第2期399-408,共10页
图像压缩作为一项关键技术,旨在传输过程中保留尽可能少的关键信息,同时使得压缩后的图像保持较好的质量。而随着计算机视觉的发展,图像的主要消费者不仅仅是人类而更多的是机器,因此探索一种能够同时面向人类视觉和机器视觉的图像压缩... 图像压缩作为一项关键技术,旨在传输过程中保留尽可能少的关键信息,同时使得压缩后的图像保持较好的质量。而随着计算机视觉的发展,图像的主要消费者不仅仅是人类而更多的是机器,因此探索一种能够同时面向人类视觉和机器视觉的图像压缩方法十分具有意义。然而,现有的基于学习的图像编码技术虽然已经在人眼感知质量上取得了显著性的进步,但由于信号保真度及语义保真度的方法在驱动目标上存在分歧,无法同时满足机器视觉和人眼的需求。因此,本文提出了任务自适应增强的特征解耦可分级压缩方法,旨在利用单一比特流来支持多种视觉任务,并根据需求进行图像的选择性重建或完全重建。具体而言,本方法将图像特征解耦为目标特征和背景特征分别进行压缩和重建,所得到的目标图像用于后续目标检测和语义分割任务,而高质量完整重建的图像供人眼观看。这样不仅在实现视觉任务时避免了重建完整图像,提高压缩效率,还能够满足人眼的不同需求。此外,为了解决因目标区域重要性差异而引起的任务性能不平衡问题,本方法还设计了可插拔的任务自适应单元,并将其嵌入在目标特征解码器中,从而可以根据具体任务需求调整特征以增强重建目标图像的分析性能,而无须重新训练整个网络。实验结果证明,该方法与其他编解码器相比,展现出了更优的任务性能和速率失真(RateDistortion)性能。 展开更多
关键词 图像压缩 人机协同 特征解耦 任务自适应增强
在线阅读 下载PDF
基于对比学习的动作识别研究综述
5
作者 孙中华 吴双 +2 位作者 贾克斌 冯金超 刘鹏宇 《电子与信息学报》 北大核心 2025年第8期2473-2485,共13页
人体动作具有类别数量多、类内/类间差异不均衡等特性,导致动作识别对数据标签数量与质量的依赖度过高,大幅增加了学习模型的训练成本,而对比学习是解决该问题的有效方法之一,近年来基于对比学习的动作识别逐渐成为研究热点。基于此,该... 人体动作具有类别数量多、类内/类间差异不均衡等特性,导致动作识别对数据标签数量与质量的依赖度过高,大幅增加了学习模型的训练成本,而对比学习是解决该问题的有效方法之一,近年来基于对比学习的动作识别逐渐成为研究热点。基于此,该文全面论述了对比学习在动作识别中的最新进展,将对比学习的研究分为3大阶段:传统对比学习、基于聚类的对比学习以及不使用负样本的对比学习。在每一阶段,首先概述具有代表性的对比学习模型,然后分析了当前基于该类模型的主要动作识别方法。另外,介绍了主流基准数据集,总结了经典方法在数据集上的性能对比。最后,探讨了对比学习模型在动作识别研究中的局限性和可延展之处。 展开更多
关键词 动作识别 对比学习 对比损失 无监督学习
在线阅读 下载PDF
一种3D可变形卷积结合Transformer的视频压缩感知方法
6
作者 杜秀丽 朱金耀 +2 位作者 高星 吕亚娜 邱少明 《计算机科学》 北大核心 2025年第11期150-156,共7页
面对视频的分辨率越来越高导致数据量越来越大的挑战,以更低的采样率实现视频的高质量重构可降低对通信资源的占用,进而降低采样端的部署难度。然而,现有的视频压缩感知方法对视频的帧间相关性无法充分利用,低采样率下的视频重构质量有... 面对视频的分辨率越来越高导致数据量越来越大的挑战,以更低的采样率实现视频的高质量重构可降低对通信资源的占用,进而降低采样端的部署难度。然而,现有的视频压缩感知方法对视频的帧间相关性无法充分利用,低采样率下的视频重构质量有待进一步提高。随着深度学习技术的引入,基于深度学习的分布式视频压缩感知给视频压缩感知重构提供了新思路。因此,结合3D可变形卷积与Transformer构建CS3Dformer网络,利用3D可变形卷积捕获视频的局部特征和时空特征的有效性,学习视频帧间的时空特征;同时,利用Transformer捕获长距离依赖特征的优点,一定程度上弥补了卷积神经网络方法在捕获图像的非局部相似性方面的缺陷,能更好地实现对视频的建模。所提方法是一种端到端的视频压缩感知方法,在多个数据集上的实验结果验证了该方法的有效性。 展开更多
关键词 压缩感知 视频重构 可变形卷积 TRANSFORMER 卷积神经网络
在线阅读 下载PDF
用于红外与微光图像融合的目标差分注意力和Transformer算法
7
作者 陈广秋 代宇航 +1 位作者 段锦 黄丹丹 《电子测量与仪器学报》 北大核心 2025年第5期103-116,共14页
针对当前红外与微光图像融合算法中易出现光谱信息缺失、目标边缘模糊等问题,提出了用于红外与微光图像融合的目标差分注意力和Transformer的融合算法。首先,利用残差结构构造一种微光重构网络,并利用VGG-16构建感知损失,最大程度保留... 针对当前红外与微光图像融合算法中易出现光谱信息缺失、目标边缘模糊等问题,提出了用于红外与微光图像融合的目标差分注意力和Transformer的融合算法。首先,利用残差结构构造一种微光重构网络,并利用VGG-16构建感知损失,最大程度保留微光图像中的背景纹理信息和亮度信息;而后,将卷积神经网络(CNN)与Transformer结合构建特征提取网络,提取图像的完整特征;同时,在目标差分注意力模块中,对红外图像和微光图像进行差分运算和特征提取,得到的红外差分图像通过通道注意力机制对目标特征进行增强,再与CNN特征提取网络的输出特征图进行逐元素相加,增强红外目标特征;然后,通过纹理保留模块捕捉特征的高频信息和低频信息,提升纹理细节的保留度;最后,利用特征重建网络重构出融合图像。实验结果表明,融合结果不仅更符合人眼视觉系统,在客观评价指标中MI和VIF分别比其他融合方法提升了44.6%和21.2%。 展开更多
关键词 深度学习 图像融合 红外图像 微光图像 CNN Transformer
原文传递
基于色彩感知的通用高保真光谱图像压缩
8
作者 梁玮 蔡磊 +2 位作者 郝雯 金海燕 侯煜 《光谱学与光谱分析》 北大核心 2025年第7期2008-2016,共9页
针对光谱图像在特定再现环境下的色彩高保真复制等领域的应用,为增加通用性,提升压缩效率,进一步存储传输,本文提出了特定光照中基于视觉感知特性的通用低复杂度色彩高保真光谱图像压缩方法。首先研究特定再现环境中光谱图像的色彩再现... 针对光谱图像在特定再现环境下的色彩高保真复制等领域的应用,为增加通用性,提升压缩效率,进一步存储传输,本文提出了特定光照中基于视觉感知特性的通用低复杂度色彩高保真光谱图像压缩方法。首先研究特定再现环境中光谱图像的色彩再现原理,设计重建光谱图像色彩误差衡量方式,进而提出特定光照中光谱图像色彩保真压缩的失真指导准则。基于色彩失真指导准则,得出压缩原理,进而设计光谱预处理、空谱去冗余方法、编码方法和优化策略,最终提出可供高保真再现的光谱图像压缩方法。在失真指导准则方面,首先构建了光谱图像的色彩分解环境,提出了对光谱图像在特定照明下(单一或者混合照明)进行色彩感知信息提取的矩阵算子;然后,利用色彩感知信息提取算子,采用色彩感知误差衡量光谱图像于色彩测度上的偏差;最后,提出用于指导压缩环节的光谱图像色彩感知失真准则。基于该准则提出针对性压缩原理,设计了本文压缩算法流程。首先,对光谱数据色彩感知加权预处理,采用色彩感知信息提取算子,获得特定再现条件下保持光谱特性的光谱色彩感知数据;然后,基于色彩感知压缩原理,对色彩感知光谱数据进行APWS-RA编码,命名为W_(S)F-APWS-RA。光谱图像解码分为两个阶段。首先,对压缩码流进行编码的逆处理,形成重建的光谱色彩感知数据矩阵;然后,采用设计的可逆色彩感知提取算子,通过感知信息提取矩阵算子的逆矩阵与重建光谱色彩感知数据矩阵相乘获得重构光谱图像。实验表明,在相同比特率下,较低复杂度压缩APWS,APWS-RA及色彩再现类WF-APWS-RA,W_(S)F-APWS-RA编码不但能够更加有效地保留特定再现条件下的光谱色彩信息,具有最优秀的变光照色彩再现稳定性,同时可有效提升光谱重建精度。因此,新方法亦可泛化用于遥感等领域,具有重要实用价值。 展开更多
关键词 可见光谱 光谱图像压缩 色彩高保真再现 色彩感知信息提取 小波编解码
在线阅读 下载PDF
联合门控注意力与残差密集Transformer的壁画修复算法
9
作者 刘仲民 刘洋 胡文瑾 《红外与激光工程》 北大核心 2025年第8期283-296,共14页
针对敦煌壁画修复过程中存在的长程依赖关系建模不足、计算复杂度高,以及细节纹理失真和结构不连贯的问题,提出一种联合门控注意力与残差密集Transformer的壁画修复算法模型。首先,设计了一种聚焦线性注意力模块,通过泰勒展开式近似优... 针对敦煌壁画修复过程中存在的长程依赖关系建模不足、计算复杂度高,以及细节纹理失真和结构不连贯的问题,提出一种联合门控注意力与残差密集Transformer的壁画修复算法模型。首先,设计了一种聚焦线性注意力模块,通过泰勒展开式近似优化注意力机制中的指数运算,实现以较小的计算成本有效捕捉长程依赖关系;其次,在聚焦线性注意力中引入门控机制以关注空间与通道维度的有效特征信息,通过对掩码图的破损区域进行定位标记,避免无效信息干扰并保留细节纹理和结构的连续性;最后,在主干U-Net网络架构的中间层嵌入残差密集Transformer模块,通过残差密集连接获取多层级特征信息,确保不同层次之间的信息传递和保留细节纹理与结构。在敦煌壁画数据集上进行修复对比实验,结果表明该算法对于敦煌壁画细节修复和结构重建具有针对性,在结构连贯性和细节保真度上展现出显著优势,降低计算成本并有效捕捉像素间的长程依赖关系,主观评价更加接近真实以及客观评价指标均优于比较算法。 展开更多
关键词 敦煌壁画修复 聚焦注意力 门控机制 残差密集连接
原文传递
一种HEVC帧内预测模式决策的快速算法
10
作者 王爽 刘家良 +1 位作者 张海坤 胡越黎 《上海大学学报(自然科学版)》 北大核心 2025年第3期561-570,共10页
高效视频编码(high efficiency video coding,HEVC)相较于上一代编码标准H.264降低了约50%的比特率,但为了提高帧内预测的准确性,HEVC提出的35种预测模式导致计算量大幅增加,对软件和硬件实现均构成了挑战.针对该问题,在HEVC的基础上提... 高效视频编码(high efficiency video coding,HEVC)相较于上一代编码标准H.264降低了约50%的比特率,但为了提高帧内预测的准确性,HEVC提出的35种预测模式导致计算量大幅增加,对软件和硬件实现均构成了挑战.针对该问题,在HEVC的基础上提出了一种依据图片纹理方向,结合预测模式之间的关联性来确定帧内预测模式的快速算法.实验结果表明,本算法与HEVC参考软件HM16.20相比,在BD-Rate损失仅为5.79%的情况下,节省46%以上的编码时间,显著降低了帧内预测模式决策的复杂度,便于在嵌入式系统等硬件资源有限的端侧实现算法落地. 展开更多
关键词 高效视频编码 帧内预测 角度模式 预测模式决策
在线阅读 下载PDF
融合邻域注意力和状态空间模型的医学视频分割算法
11
作者 丁建睿 张听 +1 位作者 刘家栋 宁春平 《电子与信息学报》 北大核心 2025年第5期1582-1595,共14页
在医学影像分析领域,精准分割视频中的病灶对于疾病的早期诊断和治疗至关重要。该文创新性地提出一种融合邻域注意力机制与状态空间模型的算法,旨在全面而精细地捕捉医学视频中的时空特征,从而对视频中的病灶进行准确分割。该算法通过... 在医学影像分析领域,精准分割视频中的病灶对于疾病的早期诊断和治疗至关重要。该文创新性地提出一种融合邻域注意力机制与状态空间模型的算法,旨在全面而精细地捕捉医学视频中的时空特征,从而对视频中的病灶进行准确分割。该算法通过两阶段的精心设计,显著提升了分割性能:第1阶段,通过深度卷积网络捕获低层次的空间语义信息,并借助邻域注意力机制,挖掘相邻帧间的局部时序语义关联。第2阶段,引入状态空间模型来捕捉全面的时序信息,并再次应用邻域注意力模块,进一步增强对局部时序特征的敏感度。该方法不仅有效整合了视频中丰富的时序信息,而且在局部和全局层面上实现了空间与时间特征的协同优化。相较于使用具有2次计算复杂度的自注意力机制,该文采用了具有线性计算复杂度的状态空间模型,显著提升了模型的训练效率和推理速度。所提算法在甲状腺超声视频数据集以及结肠息肉视频数据集CVC-ClinicDB和CVC-ColonDB上的交并比(IOU)指标分别达到了72.7%,82.3%和72.5%,相比该文的基线模型Vivim分别提高了5.7%,1.7%和5.5%。此外,消融实验进一步揭示了邻域注意力模块和状态空间模型在提取时序信息中发挥的关键作用。 展开更多
关键词 医学视频分割 邻域注意力机制 状态空间模型
在线阅读 下载PDF
智能图像视频编码的未来发展之路
12
作者 李礼 贾川民 《计算》 2025年第8期69-77,共9页
智能图像视频编码技术近年来取得了长足发展,从编码性能角度已经接近甚至超越了基于信号统计的经典图像视频编码方法,并可以使能面向主观质量、机器视觉优化的编码方法。但是,目前因为编解码复杂度高、缺乏专用硬件等原因仍难以得到广... 智能图像视频编码技术近年来取得了长足发展,从编码性能角度已经接近甚至超越了基于信号统计的经典图像视频编码方法,并可以使能面向主观质量、机器视觉优化的编码方法。但是,目前因为编解码复杂度高、缺乏专用硬件等原因仍难以得到广泛应用。在经典图像视频编码方法发展举步维艰之际,本研究首先讨论智能图像视频编码的技术本质,并进一步聚焦智能图像视频编码技术、标准、产业化之路进行深入分析与探讨,以期推动该领域的进一步发展。 展开更多
关键词 图像视频编码 智能编码 特征编码 面向机器的视频编码 自编码器
在线阅读 下载PDF
DRM系统数据服务编码的设计与实现
13
作者 王明伟 王永峰 +5 位作者 辛思成 蔡瞻程 王文畅 白建军 郑洁 陶海峰 《广播电视网络》 2025年第9期44-47,共4页
本文针对DRM系统图片传输中编码冗余高、数据完整性不足的问题,提出一种基于MOT协议的数据服务编码器,通过构建MOT头部参数实现数据的结构化封装,结合分段算法将实体分割为标准数据段,并通过包模式编码映射至MSC数据组。实验以75.9KB图... 本文针对DRM系统图片传输中编码冗余高、数据完整性不足的问题,提出一种基于MOT协议的数据服务编码器,通过构建MOT头部参数实现数据的结构化封装,结合分段算法将实体分割为标准数据段,并通过包模式编码映射至MSC数据组。实验以75.9KB图片为例,验证了编码器在数据组装、传输以及解码流程中的可行性。结果表明,该方案能够完成MOT实体分割与MSC数据组映射,传输过程中未出现结构性错误,为DRM系统的多媒体服务优化提供了技术参考。 展开更多
关键词 DRM系统 图片数据传输 MOT协议 包模式编码
在线阅读 下载PDF
DWT-CWT相结合的图像水印方案
14
作者 赵颖 《伊犁师范大学学报(自然科学版)》 2025年第4期71-78,共8页
数字水印技术是保密通信的一个重要分支,针对该应用的小波变换域研究也多见于离散的方法.考虑到图像是离散点与连续点结合体的实际情况,对有效信息载荷进行一级离散小波分解后的逼近子图低频系数实施连续小波变换.根据人眼视觉特性,由... 数字水印技术是保密通信的一个重要分支,针对该应用的小波变换域研究也多见于离散的方法.考虑到图像是离散点与连续点结合体的实际情况,对有效信息载荷进行一级离散小波分解后的逼近子图低频系数实施连续小波变换.根据人眼视觉特性,由小波细节分量的幅值决定水印嵌入的强度,兼顾水印系统的稳健性和嵌入信息量两项指标,设计了一种融合离散小波变换(DWT)与连续小波变换(CWT)两种特性的自适应水印方案,选取峰值信噪比和归一化相关系数作为评价指标,结果表明改进算法和单纯应用离散小波变换的峰值信噪比分别为42.5634和40.1862,归一化相关系数分别为0.7243和0.6159.攻击实验证明改进算法优于传统算法. 展开更多
关键词 数字水印 离散小波变换 连续小波变换 峰值信噪比
在线阅读 下载PDF
基于多层注意力和度量学习的商品识别方法 被引量:1
15
作者 李婕 张新月 +2 位作者 涂静敏 陈记文 李礼 《电子测量技术》 北大核心 2025年第1期137-144,共8页
针对自动售货柜场景中存在的复杂背景和商品包装高度相似导致的识别难题,提出了一种融合多尺度注意力机制和度量学习的商品识别方法。首先,基于ResNet层级结构引入多头自注意力,充分挖掘卷积神经网络(CNN)多尺度特征提取优势和Transfor... 针对自动售货柜场景中存在的复杂背景和商品包装高度相似导致的识别难题,提出了一种融合多尺度注意力机制和度量学习的商品识别方法。首先,基于ResNet层级结构引入多头自注意力,充分挖掘卷积神经网络(CNN)多尺度特征提取优势和Transformer全局建模能力,并设计一种新的多尺度空洞注意力,使模型关注到相似包装中商标形状和局部纹理等局部特征,以及上下文全局特征;其次设计降采样多尺度特征融合策略,有效提高算法的多尺度特征表达能力;最后采用ArcFace损失函数以增强模型的识别能力。为了验证所提出方法的有效性,构建了一个真实场景下的商品数据集,由自动售货柜的顶视摄像头采集。实验结果表明,该方法在Commodity 553数据集上的MAP@1准确率达到87.4%,优于当前的主流识别方法,可实现更精确的商品识别。 展开更多
关键词 商品识别 深度学习 注意力机制 度量学习
原文传递
基于注意力机制的多用户全景视频视口预测 被引量:1
16
作者 张汉琦 黄聪宇 +2 位作者 王晶 李知禹 杨立东 《信号处理》 北大核心 2025年第2期302-311,共10页
近年来,随着虚拟现实等沉浸式技术的发展,全景视频技术的应用前景也在逐步扩展。全景视频提供了逼真的沉浸式体验,但同时也给网络带宽带来了极大的传输压力。因此,如何降低其传输带宽成为了研究的焦点,视口预测则是该领域的研究热点。当... 近年来,随着虚拟现实等沉浸式技术的发展,全景视频技术的应用前景也在逐步扩展。全景视频提供了逼真的沉浸式体验,但同时也给网络带宽带来了极大的传输压力。因此,如何降低其传输带宽成为了研究的焦点,视口预测则是该领域的研究热点。当前,主流的视口预测方案多是利用观看者的视点轨迹和画面内容,结合神经网络输出结果,并进行评估。现有的方法大多不能在长时间预测取得较好的效果,且没有充分利用多用户场景下的数据。为此,本文借鉴了目前流行的Transformer网络中的注意力机制,提出了一种在多用户场景下预测未来较长时间视口的方案。由于不同用户在观看同一视频的视点轨迹具有相似性,本文首先提出了一种多用户视口轨迹相似性比较方案,该方案利用目标用户的视口轨迹数据和历史用户的视口轨迹数据预测目标用户未来视口轨迹数据。其次,由于全景视频视口轨迹存在着不连续性,本文对不连续视口轨迹进行映射处理来解决单次预测轨迹数据不连续的问题,在实验中使用此方法处理数据集的效果较好。最后,本文通过实验对比了两个近年提出的具有相似输出的模型,结果显示本文提出的全景视频预测算法在平均绝对误差、曼哈顿距离以及本文提出的角度距离误差指标下有所减少,部分指标减少超过10%。这说明本文提出的方案能在较长时间视口预测取得更高的精度,引入注意力机制和多用户相似性比较有助于提升模型性能和泛化能力。 展开更多
关键词 全景视频 虚拟现实 视口预测 显著图 注意力机制 神经网络
在线阅读 下载PDF
基于帧间失真传播因子的率失真优化算法 被引量:1
17
作者 唐露 吴晓红 +3 位作者 赵则明 余艳梅 熊淑华 何小海 《无线电工程》 2025年第6期1144-1151,共8页
独立码率失真优化(Rate Distortion Optimization,RDO)在视频编码中易于实现,但无法实现全局最优的码率失真性能。利用帧间相关信息,将当前帧的失真对于后续待编码帧的影响引入RDO中,建立帧级相关的失真传播链。基于所建立的失真传播链... 独立码率失真优化(Rate Distortion Optimization,RDO)在视频编码中易于实现,但无法实现全局最优的码率失真性能。利用帧间相关信息,将当前帧的失真对于后续待编码帧的影响引入RDO中,建立帧级相关的失真传播链。基于所建立的失真传播链,计算关键帧的失真传播影响因子,提出了一种多功能视频编码(Versatile Video Coding,VVC)的拉格朗日乘子自适应调整方法,能实现更高效的RDO。通过大量实验验证帧与帧之间的失真存在线性关系;根据VVC的编码结构,考虑关键帧的位置及其失真对后续将其作为参考的帧的影响,建立失真传播链;计算每个图像组(Group of Picture,GOP)中关键帧的失真传播影响因子,在帧级对当前关键帧的拉格朗日乘子进行调整。实验结果表明,在VVC测试模型平台上,在低延时P帧(Low-Delay P,LDP)和低延时B帧(Low-Delay B,LDB)配置下,相较于默认算法,BD-Rate(Bjontegaard Delta Rate)平均分别为-1.45%和-0.18%,有效提升了VVC编码性能。 展开更多
关键词 多功能视频编码 率失真优化 失真传播 拉格朗日乘子
在线阅读 下载PDF
基于时空特征的视频压缩自适应缩放方法 被引量:1
18
作者 吴佩颖 沈礼权 《工业控制计算机》 2025年第2期102-104,共3页
深度学习技术越来越多地集成到视频压缩框架中,并显著提高了压缩效率。然而,现有方法受限于两点:一是忽略了重缩放过程中不同特征冗余间的相互作用,难以有效促进压缩;二是当前方法通常对所有类型的帧采用统一缩放方法,导致关键信息丢失... 深度学习技术越来越多地集成到视频压缩框架中,并显著提高了压缩效率。然而,现有方法受限于两点:一是忽略了重缩放过程中不同特征冗余间的相互作用,难以有效促进压缩;二是当前方法通常对所有类型的帧采用统一缩放方法,导致关键信息丢失。为了解决上述问题,提出一种基于时空特征的重缩放框架,该框架包括时空去冗余网络和自适应缩放网络。时空去冗余网络根据帧的特性动态选择去冗余方法,消除关键帧的空域冗余和非关键帧的时域冗余,并保留了关键细节,为后续的帧预测提供了丰富的信息。自适应缩放网络实现输入输出双向映射,确保缩放和编码过程中信息的连续性和完整性。实验结果显示,与编解码器锚点相比,该框架在低时延配置下实现15.73%的BDBR降低,证明了所提算法的有效性。 展开更多
关键词 视频压缩 时空冗余 视频缩放
在线阅读 下载PDF
基于可变形帧和自回归通道预测的视频压缩算法
19
作者 徐智慧 毕晓东 +3 位作者 杨红 余艳梅 熊淑华 何小海 《通信技术》 2025年第3期262-269,共8页
传统的基于光流的运动估计方法面临计算复杂度高和预测准确度不足的问题,利用视频帧中的像素信息存在显著的空间和上下文依赖性,因此提出了基于可变形帧和自回归通道预测的视频压缩算法。所提算法借鉴了视频残差压缩的理念,通过将视频... 传统的基于光流的运动估计方法面临计算复杂度高和预测准确度不足的问题,利用视频帧中的像素信息存在显著的空间和上下文依赖性,因此提出了基于可变形帧和自回归通道预测的视频压缩算法。所提算法借鉴了视频残差压缩的理念,通过将视频帧映射到特征域,并进行帧预测和残差的熵编码压缩,提高压缩效率并保持图像质量。然后,在预测帧生成中使用可变形卷积生成预测帧,以此减少运动估计网络的复杂度。此外,还引入了一种基于通道分割的自回归预测算法,该算法通过挖掘通道间的上下文依赖性来优化视频帧的表达与重建,进一步提升了视频压缩和解压缩的性能。 展开更多
关键词 视频压缩编码 运动估计 可变形卷积 通道分割 帧预测
在线阅读 下载PDF
基于注意力-残差双特征流卷积神经网络的深度图帧内编码单元快速划分算法
20
作者 贾克斌 吴岳珩 《北京工业大学学报》 北大核心 2025年第5期539-551,共13页
针对三维高效视频编码(three-dimensional high efficiency video coding,3D-HEVC)深度图编码单元(coding unit,CU)划分复杂度高的问题,提出一种基于卷积神经网络(convolutional neural networks,CNN)的算法来实现快速深度图帧内编码。... 针对三维高效视频编码(three-dimensional high efficiency video coding,3D-HEVC)深度图编码单元(coding unit,CU)划分复杂度高的问题,提出一种基于卷积神经网络(convolutional neural networks,CNN)的算法来实现快速深度图帧内编码。首先,提出一种具有3个分支的注意力-残差双特征流卷积神经网络(attention-residual bi-feature stream convolutional neural networks,ARBS-CNN)模型,其中基于残差模块(residual module,RM)和特征蒸馏(feature distill,FD)模块的2个分支用于提取全局图像特征,基于动态模块(dynamic module,DM)和卷积-卷积块注意力模块(convolutional-convolutional block attention module,Conv-CBAM)的分支用于提取局部图像特征;然后,将提取到的特征进行整合并输出,得到对深度图CU划分结构的预测;最后,将ARBS-CNN嵌入到3D-HEVC测试平台中,利用预测结果加速深度图帧内编码。与原始算法相比,提出的算法能在维持率失真性能几乎不受影响的条件下,平均减少74.2%的编码时间。实验结果表明,该算法能够在保持率失真性能的条件下,有效降低3D-HEVC的编码复杂度。 展开更多
关键词 三维高效视频编码(three-dimensional high efficiency video coding 3D-HEVC) 深度图 卷积神经网络(convolutional neural networks CNN) 编码单元(coding unit CU)划分 帧内编码 双特征流
在线阅读 下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部