近年来,随着计算机视觉在智能监控、自动驾驶等领域的广泛应用,越来越多视频不仅用于人类观看,还可直接由机器视觉算法进行自动分析。如何高效地面向机器视觉存储和传输此类视频成为新的挑战。然而,现有的视频编码标准,如最新的多功能...近年来,随着计算机视觉在智能监控、自动驾驶等领域的广泛应用,越来越多视频不仅用于人类观看,还可直接由机器视觉算法进行自动分析。如何高效地面向机器视觉存储和传输此类视频成为新的挑战。然而,现有的视频编码标准,如最新的多功能视频编码(Versatile Video Coding,VVC/H.266),主要针对人眼视觉特性进行优化,未能充分考虑压缩对机器视觉任务的性能影响。为解决这一问题,本文以多目标跟踪作为典型的机器视觉视频处理任务,提出一种面向机器视觉的VVC帧内编码算法。首先,使用神经网络可解释性方法,梯度加权类激活映射(Gradient-weighted Class Activation Mapping,GradCAM++),对视频内容进行显著性分析,定位出机器视觉任务所关注的区域,并以显著图的形式表示。随后,为了突出视频画面中的关键边缘轮廓信息,本文引入边缘检测并将其结果与显著性分析结果进行融合,得到最终的机器视觉显著性图。最后,基于融合后的机器视觉显著性图改进VVC模式选择过程,优化VVC中的块划分和帧内预测的模式决策过程。通过引入机器视觉失真,代替原有的信号失真来调整率失真优化公式,使得编码器在压缩过程中尽可能保留对视觉任务更为相关的信息。实验结果表明,与VVC基准相比,所提出方法在保持相同机器视觉检测精度的同时,可节约12.7%的码率。展开更多
基于深度学习的方法在图像超分辨重建任务中已经取得了显著突破。它们成功的关键在于依赖大量成对的低分辨率和高分辨率图像来训练超分辨模型。然而,众所周知,获取如此大量一一对应的真实高-低分辨率图像对是一个具有挑战性的任务。且...基于深度学习的方法在图像超分辨重建任务中已经取得了显著突破。它们成功的关键在于依赖大量成对的低分辨率和高分辨率图像来训练超分辨模型。然而,众所周知,获取如此大量一一对应的真实高-低分辨率图像对是一个具有挑战性的任务。且基于仿真图像对训练的模型在面对具有与训练集退化类型不同的图像时往往表现不佳。在本文中,我们提出了用于单帧图像超分辨重建的自监督图像扩散模型(Self-supervised Diffusion Model for Single Image Super-resolution,SSDM-SR)来突破数据集的限制,从而避免这些问题。该方法基于扩散模型来学习单帧图像内的信息分布,并为待超分辨重建的图像训练一个小型的特定图像扩散模型。训练数据集仅从待超分辨图像本身中提取,因此SSDM-SR可以适应不同的输入图像。另外,该方法引入了坐标信息以帮助构建出图像的整体框架,从而使模型收敛更快。在多个公开基准数据集和具有未知退化核的数据集上的实验表明,SSDM-SR不仅在图像失真度方面优于近期先进的有监督和无监督图像超分辨重建方法,并且能生成具有更高感知质量的图像。在真实世界低分辨率图像上,它也生成了视觉上令人满意且无明显伪影的结果。展开更多
随着电影对极致沉浸式视听体验的发展需求,沉浸式声场记录和重放技术日显重要。本文围绕电影音频制作技术中的声场记录和重放问题,介绍了基于球麦克风阵列的高阶高保真立体声(Higher Order Ambisonics,HOA)分析技术,并针对球麦克风阵列...随着电影对极致沉浸式视听体验的发展需求,沉浸式声场记录和重放技术日显重要。本文围绕电影音频制作技术中的声场记录和重放问题,介绍了基于球麦克风阵列的高阶高保真立体声(Higher Order Ambisonics,HOA)分析技术,并针对球麦克风阵列球谐分解中的低频噪声与高频混叠问题,以及双耳重放技术中的阶数受限问题,给出了相应解决方案,研究表明所提方案可为观众提供更真实、更具沉浸感的声场重放效果,提升了观影体验,在电影音频制作中具有广阔的应用前景。展开更多
文摘近年来,随着计算机视觉在智能监控、自动驾驶等领域的广泛应用,越来越多视频不仅用于人类观看,还可直接由机器视觉算法进行自动分析。如何高效地面向机器视觉存储和传输此类视频成为新的挑战。然而,现有的视频编码标准,如最新的多功能视频编码(Versatile Video Coding,VVC/H.266),主要针对人眼视觉特性进行优化,未能充分考虑压缩对机器视觉任务的性能影响。为解决这一问题,本文以多目标跟踪作为典型的机器视觉视频处理任务,提出一种面向机器视觉的VVC帧内编码算法。首先,使用神经网络可解释性方法,梯度加权类激活映射(Gradient-weighted Class Activation Mapping,GradCAM++),对视频内容进行显著性分析,定位出机器视觉任务所关注的区域,并以显著图的形式表示。随后,为了突出视频画面中的关键边缘轮廓信息,本文引入边缘检测并将其结果与显著性分析结果进行融合,得到最终的机器视觉显著性图。最后,基于融合后的机器视觉显著性图改进VVC模式选择过程,优化VVC中的块划分和帧内预测的模式决策过程。通过引入机器视觉失真,代替原有的信号失真来调整率失真优化公式,使得编码器在压缩过程中尽可能保留对视觉任务更为相关的信息。实验结果表明,与VVC基准相比,所提出方法在保持相同机器视觉检测精度的同时,可节约12.7%的码率。
文摘基于深度学习的方法在图像超分辨重建任务中已经取得了显著突破。它们成功的关键在于依赖大量成对的低分辨率和高分辨率图像来训练超分辨模型。然而,众所周知,获取如此大量一一对应的真实高-低分辨率图像对是一个具有挑战性的任务。且基于仿真图像对训练的模型在面对具有与训练集退化类型不同的图像时往往表现不佳。在本文中,我们提出了用于单帧图像超分辨重建的自监督图像扩散模型(Self-supervised Diffusion Model for Single Image Super-resolution,SSDM-SR)来突破数据集的限制,从而避免这些问题。该方法基于扩散模型来学习单帧图像内的信息分布,并为待超分辨重建的图像训练一个小型的特定图像扩散模型。训练数据集仅从待超分辨图像本身中提取,因此SSDM-SR可以适应不同的输入图像。另外,该方法引入了坐标信息以帮助构建出图像的整体框架,从而使模型收敛更快。在多个公开基准数据集和具有未知退化核的数据集上的实验表明,SSDM-SR不仅在图像失真度方面优于近期先进的有监督和无监督图像超分辨重建方法,并且能生成具有更高感知质量的图像。在真实世界低分辨率图像上,它也生成了视觉上令人满意且无明显伪影的结果。
文摘随着电影对极致沉浸式视听体验的发展需求,沉浸式声场记录和重放技术日显重要。本文围绕电影音频制作技术中的声场记录和重放问题,介绍了基于球麦克风阵列的高阶高保真立体声(Higher Order Ambisonics,HOA)分析技术,并针对球麦克风阵列球谐分解中的低频噪声与高频混叠问题,以及双耳重放技术中的阶数受限问题,给出了相应解决方案,研究表明所提方案可为观众提供更真实、更具沉浸感的声场重放效果,提升了观影体验,在电影音频制作中具有广阔的应用前景。