目的随着电影内容的复杂化与多样化,电影场景分割成为理解影片结构和支持多媒体应用的重要任务。为提升镜头特征提取和特征关联的有效性,增强镜头序列的上下文感知能力,提出一种混合架构电影场景分割方法(hybrid architecture scene seg...目的随着电影内容的复杂化与多样化,电影场景分割成为理解影片结构和支持多媒体应用的重要任务。为提升镜头特征提取和特征关联的有效性,增强镜头序列的上下文感知能力,提出一种混合架构电影场景分割方法(hybrid architecture scene segmentation network,HASSNet)。方法首先,采用预训练结合微调策略,在大量无场景标签的电影数据上进行无监督预训练,使模型学习有效的镜头特征表示和关联特性,然后在有场景标签的数据上进行微调训练,进一步提升模型性能;其次,模型架构上混合了状态空间模型和自注意力机制模型,分别设计Shot Mamba镜头特征提取模块和Scene Transformer特征关联模块,Shot Mamba通过对镜头图像分块建模提取有效特征表示,Scene Transformer则通过注意力机制对不同镜头特征进行关联建模;最后,采用3种无监督损失函数进行预训练,提升模型在镜头特征提取和关联上的性能,并使用Focal Loss损失函数进行微调,以改善由于类别不平衡导致的精度不足问题。结果实验结果表明,HASSNet在3个数据集上显著提升了场景分割的精度,在典型电影场景分割数据集MovieNet中,与先进的场景分割方法相比,AP(average precision)、mIoU(mean intersection over union)、AUC-ROC(area under the receiver operating characteristic curve)和F1分别提升1.66%、10.54%、0.21%和16.83%,验证了本文提出的HASSNet方法可以有效提升场景边界定位的准确性。结论本文提出的HASSNet方法有效结合了预训练与微调策略,借助混合状态空间模型和自注意力机制模型的特点,增强了镜头的上下文感知能力,使电影场景分割的结果更加准确。展开更多
状态空间模型(state space model,SSM)在长序列计算效率方面表现优异。2024年基于SSM的具有选择机制和硬件感知状态扩展的Mamba模型问世,状态空间模型成为新的备受瞩目的人工智能架构,其性能可能超过Transformer。为了充分了解状态空间...状态空间模型(state space model,SSM)在长序列计算效率方面表现优异。2024年基于SSM的具有选择机制和硬件感知状态扩展的Mamba模型问世,状态空间模型成为新的备受瞩目的人工智能架构,其性能可能超过Transformer。为了充分了解状态空间模型在医学图像处理领域的研究和应用,本文进行了全面的调查,首先对状态空间模型的发展历程和各种基于SSM的基础模型进行总结,然后按照图像分割、分类、配准和融合、重建,以及疾病预测、医学图像合成、放射治疗剂量预测任务进行分类研究,探讨了每种任务中SSM模型的改进和应用,最后讨论了状态空间模型面临的挑战和今后的研究方向。本文讨论的研究及其开源实现汇编在GitHub中,地址为https://github.com/wyl32123/ssm-medical-paper/tree/main。展开更多
状态空间模型(state space model,SSM)最初应用于自然语言处理领域,因其在长序列计算效率方面表现优异,成为近期的研究热点。受到SSM强大表示能力的启发,研究人员开始将这种模型从语言扩展到计算机视觉任务。与其他模型(例如卷积网络和T...状态空间模型(state space model,SSM)最初应用于自然语言处理领域,因其在长序列计算效率方面表现优异,成为近期的研究热点。受到SSM强大表示能力的启发,研究人员开始将这种模型从语言扩展到计算机视觉任务。与其他模型(例如卷积网络和Transformer)相比,基于SSM的模型在各种视觉基准上显示出竞争性的甚至更好的性能。展开更多
文摘目的随着电影内容的复杂化与多样化,电影场景分割成为理解影片结构和支持多媒体应用的重要任务。为提升镜头特征提取和特征关联的有效性,增强镜头序列的上下文感知能力,提出一种混合架构电影场景分割方法(hybrid architecture scene segmentation network,HASSNet)。方法首先,采用预训练结合微调策略,在大量无场景标签的电影数据上进行无监督预训练,使模型学习有效的镜头特征表示和关联特性,然后在有场景标签的数据上进行微调训练,进一步提升模型性能;其次,模型架构上混合了状态空间模型和自注意力机制模型,分别设计Shot Mamba镜头特征提取模块和Scene Transformer特征关联模块,Shot Mamba通过对镜头图像分块建模提取有效特征表示,Scene Transformer则通过注意力机制对不同镜头特征进行关联建模;最后,采用3种无监督损失函数进行预训练,提升模型在镜头特征提取和关联上的性能,并使用Focal Loss损失函数进行微调,以改善由于类别不平衡导致的精度不足问题。结果实验结果表明,HASSNet在3个数据集上显著提升了场景分割的精度,在典型电影场景分割数据集MovieNet中,与先进的场景分割方法相比,AP(average precision)、mIoU(mean intersection over union)、AUC-ROC(area under the receiver operating characteristic curve)和F1分别提升1.66%、10.54%、0.21%和16.83%,验证了本文提出的HASSNet方法可以有效提升场景边界定位的准确性。结论本文提出的HASSNet方法有效结合了预训练与微调策略,借助混合状态空间模型和自注意力机制模型的特点,增强了镜头的上下文感知能力,使电影场景分割的结果更加准确。
文摘状态空间模型(state space model,SSM)在长序列计算效率方面表现优异。2024年基于SSM的具有选择机制和硬件感知状态扩展的Mamba模型问世,状态空间模型成为新的备受瞩目的人工智能架构,其性能可能超过Transformer。为了充分了解状态空间模型在医学图像处理领域的研究和应用,本文进行了全面的调查,首先对状态空间模型的发展历程和各种基于SSM的基础模型进行总结,然后按照图像分割、分类、配准和融合、重建,以及疾病预测、医学图像合成、放射治疗剂量预测任务进行分类研究,探讨了每种任务中SSM模型的改进和应用,最后讨论了状态空间模型面临的挑战和今后的研究方向。本文讨论的研究及其开源实现汇编在GitHub中,地址为https://github.com/wyl32123/ssm-medical-paper/tree/main。
文摘状态空间模型(state space model,SSM)最初应用于自然语言处理领域,因其在长序列计算效率方面表现优异,成为近期的研究热点。受到SSM强大表示能力的启发,研究人员开始将这种模型从语言扩展到计算机视觉任务。与其他模型(例如卷积网络和Transformer)相比,基于SSM的模型在各种视觉基准上显示出竞争性的甚至更好的性能。