为了解决多功能视频编码(versatile video coding,VVC)标准下具有相同编码参数的视频双压缩检测方法准确率不高的问题,提出了一种基于编码单元(coding unit,CU)尺寸、划分模式和预测模式的检测方法。对待检测的视频进行多次编解码,分析...为了解决多功能视频编码(versatile video coding,VVC)标准下具有相同编码参数的视频双压缩检测方法准确率不高的问题,提出了一种基于编码单元(coding unit,CU)尺寸、划分模式和预测模式的检测方法。对待检测的视频进行多次编解码,分析并确定VVC流中与压缩编码次数密切相关的基础码流特征;以CU尺寸、划分模式和预测模式构建高级码流特征输入支持向量机完成视频的双压缩检测。实验结果表明,与对比文献的方法相比,所提方法的视频双压缩检测准确率有较大提升,平均准确率达到了95.82%。展开更多
近年来,随着计算机视觉在智能监控、自动驾驶等领域的广泛应用,越来越多视频不仅用于人类观看,还可直接由机器视觉算法进行自动分析。如何高效地面向机器视觉存储和传输此类视频成为新的挑战。然而,现有的视频编码标准,如最新的多功能...近年来,随着计算机视觉在智能监控、自动驾驶等领域的广泛应用,越来越多视频不仅用于人类观看,还可直接由机器视觉算法进行自动分析。如何高效地面向机器视觉存储和传输此类视频成为新的挑战。然而,现有的视频编码标准,如最新的多功能视频编码(Versatile Video Coding,VVC/H.266),主要针对人眼视觉特性进行优化,未能充分考虑压缩对机器视觉任务的性能影响。为解决这一问题,本文以多目标跟踪作为典型的机器视觉视频处理任务,提出一种面向机器视觉的VVC帧内编码算法。首先,使用神经网络可解释性方法,梯度加权类激活映射(Gradient-weighted Class Activation Mapping,GradCAM++),对视频内容进行显著性分析,定位出机器视觉任务所关注的区域,并以显著图的形式表示。随后,为了突出视频画面中的关键边缘轮廓信息,本文引入边缘检测并将其结果与显著性分析结果进行融合,得到最终的机器视觉显著性图。最后,基于融合后的机器视觉显著性图改进VVC模式选择过程,优化VVC中的块划分和帧内预测的模式决策过程。通过引入机器视觉失真,代替原有的信号失真来调整率失真优化公式,使得编码器在压缩过程中尽可能保留对视觉任务更为相关的信息。实验结果表明,与VVC基准相比,所提出方法在保持相同机器视觉检测精度的同时,可节约12.7%的码率。展开更多
为了进一步提升视频编码技术的效率和质量,基于深度学习的改进算法,在多功能视频编码(Versatile Video Coding,VVC)基础上从训练数据中自动学习有效特征,显著提升编码质量的同时降低帧内预测等环节的编码复杂度,研究结果可为未来研究方...为了进一步提升视频编码技术的效率和质量,基于深度学习的改进算法,在多功能视频编码(Versatile Video Coding,VVC)基础上从训练数据中自动学习有效特征,显著提升编码质量的同时降低帧内预测等环节的编码复杂度,研究结果可为未来研究方向提供参考。展开更多
针对新一代多用途视频编码(versatile video coding,VVC)标准相比上一代高效视频编码(high efficiency video coding,HEVC)采用了更多数目的时空预测模式,为相邻编码帧带来了更强的帧间相关性的问题,基于深度增强学习方法提出了一种适用...针对新一代多用途视频编码(versatile video coding,VVC)标准相比上一代高效视频编码(high efficiency video coding,HEVC)采用了更多数目的时空预测模式,为相邻编码帧带来了更强的帧间相关性的问题,基于深度增强学习方法提出了一种适用于VVC编码器的码率控制算法。首先选择合适的模型输入信息,包括帧间相关信息、分层编码结构信息和视频内容信息等;其次利用上述信息,结合长短期记忆(long short-term memory,LSTM)神经网络和增强学习方法,构建基于深度增强学习的帧间量化参数预测模型,以优化VVC编码器的码率控制过程;最后验证所提出算法的性能,将所提出算法在VTM 5.1平台实现,并与VVC源编码器进行性能对比。测试结果表明,在相同码率条件下,所提出算法相比于VVC源编码器,实现了BDBR平均节省1.81%和BDPSNR提升0.14 dB。展开更多
多功能视频编解码(Versatile Video Coding,VVC)是新一代视频编解码标准,拥有较好的压缩性能,能够达到较高的压缩比。但是,编码过程中的变换、量化等操作,不可避免地在视频解码时引起一定程度的压缩伪影,导致解码视频质量降低,影响用户...多功能视频编解码(Versatile Video Coding,VVC)是新一代视频编解码标准,拥有较好的压缩性能,能够达到较高的压缩比。但是,编码过程中的变换、量化等操作,不可避免地在视频解码时引起一定程度的压缩伪影,导致解码视频质量降低,影响用户的视觉体验。目前,基于卷积神经网络(Convolutional Neural Network,CNN)的VVC的压缩伪影去除算法并不多,且大部分算法是在默认量化参数已知的情况下建立去伪影模型,对于不知道量化参数的盲场景,这些算法不太适合。直接设计全盲算法是复杂困难的,且性能有限。针对这一情况,提出了一种半盲方法用于去除VVC解码视频中的压缩伪影,该方法比全盲的方法更加灵活且能够达到更好的性能,比非盲方法更加实用。该方法设计出一种分类网络来预测重建视频的量化参数,预训练一些压缩伪影去除模型,根据预测的量化参数为重建视频选择对应的模型以去除压缩伪影。实验结果证明了该算法的有效性。展开更多
针对通用视频编码(versatile video coding,VVC)在编码单元(coding unit,CU)划分中引入了多类型树划分结构导致编码复杂度增加的问题,提出了一种基于CU子块方向特性与空间复杂度的快速划分算法。首先利用CU整体的纹理复杂度对当前CU进...针对通用视频编码(versatile video coding,VVC)在编码单元(coding unit,CU)划分中引入了多类型树划分结构导致编码复杂度增加的问题,提出了一种基于CU子块方向特性与空间复杂度的快速划分算法。首先利用CU整体的纹理复杂度对当前CU进行分类,筛选出不划分CU;然后利用子块不同划分方向的特性差异提前决策CU划分方向;最后利用CU中间区域与边缘区域的复杂度差异特征判断是否跳过三叉树(ternary tree,TT)划分,进一步减少候选列表划分模式数量。实验结果表明,与官方测试平台VTM10.0相比,编码器在平均输出比特率增加1.12%的代价下,编码时间减少了40.25%,说明该算法在通用视频编码中能以较小的质量损失实现更短的编码时间。展开更多
针对多功能视频编码(Versatile Video Coding,VVC)标准中跨通道线性预测模型(Cross-Component Linear Model,CCLM)无法很好地拟合色度与亮度之间的非线性对应关系这一不足,提出了一种基于注意力机制卷积神经网络的VVC色度预测算法。该...针对多功能视频编码(Versatile Video Coding,VVC)标准中跨通道线性预测模型(Cross-Component Linear Model,CCLM)无法很好地拟合色度与亮度之间的非线性对应关系这一不足,提出了一种基于注意力机制卷积神经网络的VVC色度预测算法。该算法主要思想是在进行色度预测时,使用对应亮度块的信息与待预测色度块上方与左方的信息作为参考信息输入进卷积神经网络,利用注意力机制对参考信息中的亮度与色度间的内在联系进行分配权重后输入预测网络。实验结果表明,相较于VVC标准算法U分量和V分量的平均码率节省分别为0.64%和0.68%,有效提升了VVC编码性能。展开更多
视频编码中,率失真优化是提升编码性能的重要环节。在新一代视频编码标准——多功能视频编码(Versatile Video Coding,VVC)中,率失真优化关键参数λ的确定仍是基于与量化参数(Quantization Parameter,QP)之间相对固定的映射关系模式,而...视频编码中,率失真优化是提升编码性能的重要环节。在新一代视频编码标准——多功能视频编码(Versatile Video Coding,VVC)中,率失真优化关键参数λ的确定仍是基于与量化参数(Quantization Parameter,QP)之间相对固定的映射关系模式,而人眼对于视频内容特征的感知并未得到充分考虑,因此提出了用于多功能视频编码标准VVC的感知率失真优化算法。首先提取视频帧中编码树单元(Coding Tree Unit,CTU)的纹理和运动特征,其次结合人眼对于纹理复杂度和运动程度的不同感知,对用于CTU编码的拉格朗日乘子λ进行自适应调节。在VVC标准测试软件VTM12.0平台的低延时P帧配置下,采用多尺度结构相似性和峰值信噪比作为视频质量评价指标,在保持视频质量不变的情况下,码率平均节省0.15%和0.09%,VVC编码器率失真性能得以提升。展开更多
针对视频重压缩取证方法应用于最新的通用视频编码(Versatile Video Coding,VVC)标准效率低的问题,提出一种面向VVC标准相同编码参数下的视频重压缩取证(Video Recompression Forensics for VVC,VVC-VRF)方法。通过分析VVC编码框架,结...针对视频重压缩取证方法应用于最新的通用视频编码(Versatile Video Coding,VVC)标准效率低的问题,提出一种面向VVC标准相同编码参数下的视频重压缩取证(Video Recompression Forensics for VVC,VVC-VRF)方法。通过分析VVC编码框架,结合理论分析与实验验证得到与VVC压缩视频次数密切相关的基础码流特征,即I帧亮度编码单元(Coding Unit,CU)的划分类型、预测模式和参考行。再基于基础码流特征得到高级码流特征,即不同属性CU占比和CU划分类型占比等高级码流特征。将高级码流特征和量化参数级联,并作为支持向量机的输入得到重压缩取证结果。与帧内预测单元预测模式(Intra Prediction Unit Prediction Mode,IPUPM)方法相比,VVC-VRF能够平均节省约一半的取证时间,取证准确度也得到提升,且VVC-VRF在帧删除情况下仍具有鲁棒的性能。展开更多
为了降低下一代通用视频编码(VVC)帧内预测编码单元(CU)划分的计算复杂度,提出一种基于梯度幅值相似度的CU快速划分方法.首先,计算当前编码单元下层的四个子编码单元的平均梯度幅值相似度偏差(M GM SD),根据该信息来确定当前编码单元是...为了降低下一代通用视频编码(VVC)帧内预测编码单元(CU)划分的计算复杂度,提出一种基于梯度幅值相似度的CU快速划分方法.首先,计算当前编码单元下层的四个子编码单元的平均梯度幅值相似度偏差(M GM SD),根据该信息来确定当前编码单元是否进行四叉树划分或不划分.其次,当不满足四叉树划分和不划分的条件时,通过遍历得到三叉树划分和二叉树划分的子块像素方差的方差,根据该信息来选择二叉树和三叉树中最佳的划分方式.在全I帧条件下,本文方法与VTM7.0(VVC Test Model 7.0)标准模型相比,编码时长平均降低了50.69%,在大幅降低编码复杂度的同时码率仅增加1.36%.展开更多
针对H.266/多功能视频编码(Versatile Video Coding,VVC)帧间仿射运动估计复杂度高的问题,提出了一种基于已重建先验信息的快速仿射运动估计算法。该算法利用帧间跳过(Skip)模式和仿射运动估计(Affine)模式之间的互斥性,根据上层级编码...针对H.266/多功能视频编码(Versatile Video Coding,VVC)帧间仿射运动估计复杂度高的问题,提出了一种基于已重建先验信息的快速仿射运动估计算法。该算法利用帧间跳过(Skip)模式和仿射运动估计(Affine)模式之间的互斥性,根据上层级编码块(Coding Unit,CU)、本层级子CU和相邻CU的重建信息跳过冗余的仿射运动估计过程,以降低仿射运动估计的复杂度。实验结果表明,在不明显影响视频码率和质量的情况下,该算法的编码时间相较于VVC标准整体下降了10.17%,仿射运动估计时间下降了44.2%,有效地降低了仿射运动估计的复杂度。展开更多
文摘现有的基于卷积神经网络(convolutional neural network,CNN)的环路滤波器倾向于将多个网络应用于不同的量化参数(quantization parameter,QP),消耗训练模型中的大量资源,并增加内存负担。针对这一问题,提出一种基于CNN的QP自适应环路滤波器。首先,设计一个轻量级分类网络,按照滤波难易程度将编码树单元(coding tree unit,CTU)划分为难、中、易3类;然后,构建3个融合了特征信息增强融合模块的基于CNN的滤波网络,以满足不同QP下的3类CTU滤波需求。将所提出的环路滤波器集成到多功能视频编码(versatile video coding,VVC)标准H.266/VVC的测试软件VTM 6.0中,替换原有的去块效应滤波器(deblocking filter,DBF)、样本自适应偏移(sample adaptive offset,SAO)滤波器和自适应环路滤波器。实验结果表明,该方法平均降低了3.14%的比特率差值(Bjøntegaard delta bit rate,BD-BR),与其他基于CNN的环路滤波器相比,显著提高了压缩效率,并减少了压缩伪影。
文摘为了解决多功能视频编码(versatile video coding,VVC)标准下具有相同编码参数的视频双压缩检测方法准确率不高的问题,提出了一种基于编码单元(coding unit,CU)尺寸、划分模式和预测模式的检测方法。对待检测的视频进行多次编解码,分析并确定VVC流中与压缩编码次数密切相关的基础码流特征;以CU尺寸、划分模式和预测模式构建高级码流特征输入支持向量机完成视频的双压缩检测。实验结果表明,与对比文献的方法相比,所提方法的视频双压缩检测准确率有较大提升,平均准确率达到了95.82%。
文摘近年来,随着计算机视觉在智能监控、自动驾驶等领域的广泛应用,越来越多视频不仅用于人类观看,还可直接由机器视觉算法进行自动分析。如何高效地面向机器视觉存储和传输此类视频成为新的挑战。然而,现有的视频编码标准,如最新的多功能视频编码(Versatile Video Coding,VVC/H.266),主要针对人眼视觉特性进行优化,未能充分考虑压缩对机器视觉任务的性能影响。为解决这一问题,本文以多目标跟踪作为典型的机器视觉视频处理任务,提出一种面向机器视觉的VVC帧内编码算法。首先,使用神经网络可解释性方法,梯度加权类激活映射(Gradient-weighted Class Activation Mapping,GradCAM++),对视频内容进行显著性分析,定位出机器视觉任务所关注的区域,并以显著图的形式表示。随后,为了突出视频画面中的关键边缘轮廓信息,本文引入边缘检测并将其结果与显著性分析结果进行融合,得到最终的机器视觉显著性图。最后,基于融合后的机器视觉显著性图改进VVC模式选择过程,优化VVC中的块划分和帧内预测的模式决策过程。通过引入机器视觉失真,代替原有的信号失真来调整率失真优化公式,使得编码器在压缩过程中尽可能保留对视觉任务更为相关的信息。实验结果表明,与VVC基准相比,所提出方法在保持相同机器视觉检测精度的同时,可节约12.7%的码率。
文摘针对新一代多用途视频编码(versatile video coding,VVC)标准相比上一代高效视频编码(high efficiency video coding,HEVC)采用了更多数目的时空预测模式,为相邻编码帧带来了更强的帧间相关性的问题,基于深度增强学习方法提出了一种适用于VVC编码器的码率控制算法。首先选择合适的模型输入信息,包括帧间相关信息、分层编码结构信息和视频内容信息等;其次利用上述信息,结合长短期记忆(long short-term memory,LSTM)神经网络和增强学习方法,构建基于深度增强学习的帧间量化参数预测模型,以优化VVC编码器的码率控制过程;最后验证所提出算法的性能,将所提出算法在VTM 5.1平台实现,并与VVC源编码器进行性能对比。测试结果表明,在相同码率条件下,所提出算法相比于VVC源编码器,实现了BDBR平均节省1.81%和BDPSNR提升0.14 dB。
文摘多功能视频编解码(Versatile Video Coding,VVC)是新一代视频编解码标准,拥有较好的压缩性能,能够达到较高的压缩比。但是,编码过程中的变换、量化等操作,不可避免地在视频解码时引起一定程度的压缩伪影,导致解码视频质量降低,影响用户的视觉体验。目前,基于卷积神经网络(Convolutional Neural Network,CNN)的VVC的压缩伪影去除算法并不多,且大部分算法是在默认量化参数已知的情况下建立去伪影模型,对于不知道量化参数的盲场景,这些算法不太适合。直接设计全盲算法是复杂困难的,且性能有限。针对这一情况,提出了一种半盲方法用于去除VVC解码视频中的压缩伪影,该方法比全盲的方法更加灵活且能够达到更好的性能,比非盲方法更加实用。该方法设计出一种分类网络来预测重建视频的量化参数,预训练一些压缩伪影去除模型,根据预测的量化参数为重建视频选择对应的模型以去除压缩伪影。实验结果证明了该算法的有效性。
文摘针对通用视频编码(versatile video coding,VVC)在编码单元(coding unit,CU)划分中引入了多类型树划分结构导致编码复杂度增加的问题,提出了一种基于CU子块方向特性与空间复杂度的快速划分算法。首先利用CU整体的纹理复杂度对当前CU进行分类,筛选出不划分CU;然后利用子块不同划分方向的特性差异提前决策CU划分方向;最后利用CU中间区域与边缘区域的复杂度差异特征判断是否跳过三叉树(ternary tree,TT)划分,进一步减少候选列表划分模式数量。实验结果表明,与官方测试平台VTM10.0相比,编码器在平均输出比特率增加1.12%的代价下,编码时间减少了40.25%,说明该算法在通用视频编码中能以较小的质量损失实现更短的编码时间。
文摘针对多功能视频编码(Versatile Video Coding,VVC)标准中跨通道线性预测模型(Cross-Component Linear Model,CCLM)无法很好地拟合色度与亮度之间的非线性对应关系这一不足,提出了一种基于注意力机制卷积神经网络的VVC色度预测算法。该算法主要思想是在进行色度预测时,使用对应亮度块的信息与待预测色度块上方与左方的信息作为参考信息输入进卷积神经网络,利用注意力机制对参考信息中的亮度与色度间的内在联系进行分配权重后输入预测网络。实验结果表明,相较于VVC标准算法U分量和V分量的平均码率节省分别为0.64%和0.68%,有效提升了VVC编码性能。
文摘视频编码中,率失真优化是提升编码性能的重要环节。在新一代视频编码标准——多功能视频编码(Versatile Video Coding,VVC)中,率失真优化关键参数λ的确定仍是基于与量化参数(Quantization Parameter,QP)之间相对固定的映射关系模式,而人眼对于视频内容特征的感知并未得到充分考虑,因此提出了用于多功能视频编码标准VVC的感知率失真优化算法。首先提取视频帧中编码树单元(Coding Tree Unit,CTU)的纹理和运动特征,其次结合人眼对于纹理复杂度和运动程度的不同感知,对用于CTU编码的拉格朗日乘子λ进行自适应调节。在VVC标准测试软件VTM12.0平台的低延时P帧配置下,采用多尺度结构相似性和峰值信噪比作为视频质量评价指标,在保持视频质量不变的情况下,码率平均节省0.15%和0.09%,VVC编码器率失真性能得以提升。
文摘针对视频重压缩取证方法应用于最新的通用视频编码(Versatile Video Coding,VVC)标准效率低的问题,提出一种面向VVC标准相同编码参数下的视频重压缩取证(Video Recompression Forensics for VVC,VVC-VRF)方法。通过分析VVC编码框架,结合理论分析与实验验证得到与VVC压缩视频次数密切相关的基础码流特征,即I帧亮度编码单元(Coding Unit,CU)的划分类型、预测模式和参考行。再基于基础码流特征得到高级码流特征,即不同属性CU占比和CU划分类型占比等高级码流特征。将高级码流特征和量化参数级联,并作为支持向量机的输入得到重压缩取证结果。与帧内预测单元预测模式(Intra Prediction Unit Prediction Mode,IPUPM)方法相比,VVC-VRF能够平均节省约一半的取证时间,取证准确度也得到提升,且VVC-VRF在帧删除情况下仍具有鲁棒的性能。
文摘为了降低下一代通用视频编码(VVC)帧内预测编码单元(CU)划分的计算复杂度,提出一种基于梯度幅值相似度的CU快速划分方法.首先,计算当前编码单元下层的四个子编码单元的平均梯度幅值相似度偏差(M GM SD),根据该信息来确定当前编码单元是否进行四叉树划分或不划分.其次,当不满足四叉树划分和不划分的条件时,通过遍历得到三叉树划分和二叉树划分的子块像素方差的方差,根据该信息来选择二叉树和三叉树中最佳的划分方式.在全I帧条件下,本文方法与VTM7.0(VVC Test Model 7.0)标准模型相比,编码时长平均降低了50.69%,在大幅降低编码复杂度的同时码率仅增加1.36%.
文摘针对H.266/多功能视频编码(Versatile Video Coding,VVC)帧间仿射运动估计复杂度高的问题,提出了一种基于已重建先验信息的快速仿射运动估计算法。该算法利用帧间跳过(Skip)模式和仿射运动估计(Affine)模式之间的互斥性,根据上层级编码块(Coding Unit,CU)、本层级子CU和相邻CU的重建信息跳过冗余的仿射运动估计过程,以降低仿射运动估计的复杂度。实验结果表明,在不明显影响视频码率和质量的情况下,该算法的编码时间相较于VVC标准整体下降了10.17%,仿射运动估计时间下降了44.2%,有效地降低了仿射运动估计的复杂度。