Current mainstream unsupervised video object segmentation(UVOS) approaches typically incorporate optical flow as motion information to locate the primary objects in coherent video frames. However, they fuse appearance...Current mainstream unsupervised video object segmentation(UVOS) approaches typically incorporate optical flow as motion information to locate the primary objects in coherent video frames. However, they fuse appearance and motion information without evaluating the quality of the optical flow. When poor-quality optical flow is used for the interaction with the appearance information, it introduces significant noise and leads to a decline in overall performance. To alleviate this issue, we first employ a quality evaluation module(QEM) to evaluate the optical flow. Then, we select high-quality optical flow as motion cues to fuse with the appearance information, which can prevent poor-quality optical flow from diverting the network's attention. Moreover, we design an appearance-guided fusion module(AGFM) to better integrate appearance and motion information. Extensive experiments on several widely utilized datasets, including DAVIS-16, FBMS-59, and You Tube-Objects, demonstrate that the proposed method outperforms existing methods.展开更多
现有无监督视频目标分割(Unsupervised Video Object Segmentation,UVOS)方法多采用像素级密集匹配策略,通过对齐融合多帧之间或单帧与光流之间的信息来提升模型性能.然而,在遮挡、相机抖动、运动模糊等挑战性场景中,光流估计误差易产...现有无监督视频目标分割(Unsupervised Video Object Segmentation,UVOS)方法多采用像素级密集匹配策略,通过对齐融合多帧之间或单帧与光流之间的信息来提升模型性能.然而,在遮挡、相机抖动、运动模糊等挑战性场景中,光流估计误差易产生大量错误匹配,导致融合后的时空表征易过拟合运动噪声.为此,本文提出一种运动提示引导的自适应学习UVOS框架.通过设计一种无监督光流提示生成算法,将光流编码的密集运动信息转换为稀疏点和框提示,借助提示学习引导分割一切模型(Segment Anything Model,SAM)通过本文设计的两个轻量级适配器来自适应学习,从而获得更为鲁棒的时空表征,增强模型的抗噪能力.为获得有效的提示,设计了一种无监督运动提示生成算法.该算法基于光流特征计算一系列统计量,筛选出显著区域,再利用运动边缘信息去除伪显著区域的干扰,并设定自适应阈值进行过滤,生成提示显著运动目标所在区域的点和框坐标.为提升SAM在下游UVOS任务中的泛化性,提出一种自适应表征学习SAM模型.通过设计两个轻量级特征适配器,从SAM的通用知识库中自适应学习与下游UVOS任务相关的知识,以准确地粗定位目标.针对SAM基于纯Transformer架构在细节处理上的不足,基于卷积神经网络(Convolutional Neural Networks,CNN)架构设计了表观聚焦细化模块.由SAM得到的定位注意力图渐进式地引导细化过程,使模型的注意力从全局粗定位聚焦到局部细化,最终得到更加精确的分割掩码.本文方法在DAVIS16(DAVIS 2016)、FBMS(Financial and Business Management System)和YTOBJ(YouTube-OBJects)三个主流数据集上进行了充分验证.结果表明:本文方法在区域相似度指标上较当前先进方法分别提升了1.8%、1.6%和2.6%,充分表明了本文方法的有效性.展开更多
大量基于深度学习的无监督视频目标分割(Unsupervised video object segmentation,UVOS)算法存在模型参数量与计算量较大的问题,这显著限制了算法在实际中的应用.提出了基于运动引导的视频目标分割网络,在大幅降低模型参数量与计算量的...大量基于深度学习的无监督视频目标分割(Unsupervised video object segmentation,UVOS)算法存在模型参数量与计算量较大的问题,这显著限制了算法在实际中的应用.提出了基于运动引导的视频目标分割网络,在大幅降低模型参数量与计算量的同时,提升视频目标分割性能.整个模型由双流网络、运动引导模块、多尺度渐进融合模块三部分组成.具体地,首先,RGB图像与光流估计输入双流网络提取物体外观特征与运动特征;然后,运动引导模块通过局部注意力提取运动特征中的语义信息,用于引导外观特征学习丰富的语义信息;最后,多尺度渐进融合模块获取双流网络的各个阶段输出的特征,将深层特征渐进地融入浅层特征,最终提升边缘分割效果.在3个标准数据集上进行了大量评测,实验结果表明了该方法的优越性能.展开更多
随着机器学习特别是深度学习理论和算法的不断发展和视频数据的大量积累,采用无标签视频信息的无监督学习算法取得了长足进步。提出了一种融合光流信息的双流无监督学习视频目标分割网络。首先,将视频序列中的随机帧和与之对应的由光流...随着机器学习特别是深度学习理论和算法的不断发展和视频数据的大量积累,采用无标签视频信息的无监督学习算法取得了长足进步。提出了一种融合光流信息的双流无监督学习视频目标分割网络。首先,将视频序列中的随机帧和与之对应的由光流网络生成的光流图分别输入到残差神经(residual networks,ResNet)主干网络,形成帧特征图和对应的帧间光流特征图。其次,为克服共同移动的背景信息对分割精度的影响,设计了目标位置信息融合模块(position information fusion,PIF),将输入视频帧和光流进行位置信息融合,在得到主要目标位置的同时,降低了背景噪声信号对分割的影响。最后,设计空间通道上下文信息融合注意力机制模块(spatial channel context information fusion,SCCF),将帧特征和光流特征的上下文信息与经典的空间通道注意力机制进行了融合。在DAVIS-16数据集上的实验表明,文中网络的平均区域相似性指标可达89.6,平均边界精度指标可达87.0,两项指标均达到该领域的最高水平。展开更多
基金supported by the National Natural Science Foundation of China (No.61872189)。
文摘Current mainstream unsupervised video object segmentation(UVOS) approaches typically incorporate optical flow as motion information to locate the primary objects in coherent video frames. However, they fuse appearance and motion information without evaluating the quality of the optical flow. When poor-quality optical flow is used for the interaction with the appearance information, it introduces significant noise and leads to a decline in overall performance. To alleviate this issue, we first employ a quality evaluation module(QEM) to evaluate the optical flow. Then, we select high-quality optical flow as motion cues to fuse with the appearance information, which can prevent poor-quality optical flow from diverting the network's attention. Moreover, we design an appearance-guided fusion module(AGFM) to better integrate appearance and motion information. Extensive experiments on several widely utilized datasets, including DAVIS-16, FBMS-59, and You Tube-Objects, demonstrate that the proposed method outperforms existing methods.
文摘现有无监督视频目标分割(Unsupervised Video Object Segmentation,UVOS)方法多采用像素级密集匹配策略,通过对齐融合多帧之间或单帧与光流之间的信息来提升模型性能.然而,在遮挡、相机抖动、运动模糊等挑战性场景中,光流估计误差易产生大量错误匹配,导致融合后的时空表征易过拟合运动噪声.为此,本文提出一种运动提示引导的自适应学习UVOS框架.通过设计一种无监督光流提示生成算法,将光流编码的密集运动信息转换为稀疏点和框提示,借助提示学习引导分割一切模型(Segment Anything Model,SAM)通过本文设计的两个轻量级适配器来自适应学习,从而获得更为鲁棒的时空表征,增强模型的抗噪能力.为获得有效的提示,设计了一种无监督运动提示生成算法.该算法基于光流特征计算一系列统计量,筛选出显著区域,再利用运动边缘信息去除伪显著区域的干扰,并设定自适应阈值进行过滤,生成提示显著运动目标所在区域的点和框坐标.为提升SAM在下游UVOS任务中的泛化性,提出一种自适应表征学习SAM模型.通过设计两个轻量级特征适配器,从SAM的通用知识库中自适应学习与下游UVOS任务相关的知识,以准确地粗定位目标.针对SAM基于纯Transformer架构在细节处理上的不足,基于卷积神经网络(Convolutional Neural Networks,CNN)架构设计了表观聚焦细化模块.由SAM得到的定位注意力图渐进式地引导细化过程,使模型的注意力从全局粗定位聚焦到局部细化,最终得到更加精确的分割掩码.本文方法在DAVIS16(DAVIS 2016)、FBMS(Financial and Business Management System)和YTOBJ(YouTube-OBJects)三个主流数据集上进行了充分验证.结果表明:本文方法在区域相似度指标上较当前先进方法分别提升了1.8%、1.6%和2.6%,充分表明了本文方法的有效性.
文摘大量基于深度学习的无监督视频目标分割(Unsupervised video object segmentation,UVOS)算法存在模型参数量与计算量较大的问题,这显著限制了算法在实际中的应用.提出了基于运动引导的视频目标分割网络,在大幅降低模型参数量与计算量的同时,提升视频目标分割性能.整个模型由双流网络、运动引导模块、多尺度渐进融合模块三部分组成.具体地,首先,RGB图像与光流估计输入双流网络提取物体外观特征与运动特征;然后,运动引导模块通过局部注意力提取运动特征中的语义信息,用于引导外观特征学习丰富的语义信息;最后,多尺度渐进融合模块获取双流网络的各个阶段输出的特征,将深层特征渐进地融入浅层特征,最终提升边缘分割效果.在3个标准数据集上进行了大量评测,实验结果表明了该方法的优越性能.
文摘随着机器学习特别是深度学习理论和算法的不断发展和视频数据的大量积累,采用无标签视频信息的无监督学习算法取得了长足进步。提出了一种融合光流信息的双流无监督学习视频目标分割网络。首先,将视频序列中的随机帧和与之对应的由光流网络生成的光流图分别输入到残差神经(residual networks,ResNet)主干网络,形成帧特征图和对应的帧间光流特征图。其次,为克服共同移动的背景信息对分割精度的影响,设计了目标位置信息融合模块(position information fusion,PIF),将输入视频帧和光流进行位置信息融合,在得到主要目标位置的同时,降低了背景噪声信号对分割的影响。最后,设计空间通道上下文信息融合注意力机制模块(spatial channel context information fusion,SCCF),将帧特征和光流特征的上下文信息与经典的空间通道注意力机制进行了融合。在DAVIS-16数据集上的实验表明,文中网络的平均区域相似性指标可达89.6,平均边界精度指标可达87.0,两项指标均达到该领域的最高水平。