视频帧之间不仅具有空间相关性,还存在时间相关性。根据低分辨率视频重建高分辨率视频时,可以利用相邻的多帧信息对齐到目标帧,以指导当前帧的恢复。相邻帧之间的对齐一般采用光流指导的可变形卷积进行显式对齐,这种方法克服了可变形卷...视频帧之间不仅具有空间相关性,还存在时间相关性。根据低分辨率视频重建高分辨率视频时,可以利用相邻的多帧信息对齐到目标帧,以指导当前帧的恢复。相邻帧之间的对齐一般采用光流指导的可变形卷积进行显式对齐,这种方法克服了可变形卷积的不稳定性,但会影响帧中高频信息的恢复,降低对齐信息的准确性并放大伪影。为解决上述问题,提出了一种基于隐式对齐的视频超分模型IAVSR(Implicit Alignment Video Super-Resolution)。IAVSR通过偏移量和原始值将光流编码到特定像素位置,以此计算光流预对齐的信息而不是利用插值函数插值获得,随后利用光流指导的可变形卷积对计算后的预对齐特征进行重对齐,以帮助高频信息的恢复。在双向传播中利用前两帧传播的信息进行对齐来指导当前帧的恢复,并引入残差网络结构,在提高对齐信息准确性的同时避免引入过多的参数。在REDS4公开数据集上的实验结果表明,IAVSR的峰值信噪比(PSNR)比基准模型提高了0.6 dB,且模型训练时的收敛速度提升了20%。展开更多
针对现有基于文本的命名实体识别方法难以有效利用视觉信息,且主流多模态命名实体识别(multimodal named entity recognition,MNER)方法存在跨模态语义关联挖掘不足、异构数据融合能力有限、易受模态语义鸿沟影响等问题,提出一种基于显...针对现有基于文本的命名实体识别方法难以有效利用视觉信息,且主流多模态命名实体识别(multimodal named entity recognition,MNER)方法存在跨模态语义关联挖掘不足、异构数据融合能力有限、易受模态语义鸿沟影响等问题,提出一种基于显隐式双路径融合的多模态命名实体识别模型DPF-MNER(dual-path fusion MNER)。该模型引入双路径融合机制实现跨模态深度对齐:在显式路径中,构建目标实体-词汇关系图,明确建模文本实体与图像区域间的语义对应关系;在隐式路径中,设计基于动量对比学习的难样本对齐机制,通过动量更新维护跨模态记忆库,引导模型在共享语义空间中拉近相关图文对、推远不相关图文对,缓解模态偏差。在构建的军事领域专用数据集ME-MNER与公开数据集Twitter-2017上的实验结果表明,DPF-MNER在F1指标上分别达到87.05%和86.35%,验证了该方法在提升实体识别精度与模型泛化能力方面的有效性。展开更多
文摘视频帧之间不仅具有空间相关性,还存在时间相关性。根据低分辨率视频重建高分辨率视频时,可以利用相邻的多帧信息对齐到目标帧,以指导当前帧的恢复。相邻帧之间的对齐一般采用光流指导的可变形卷积进行显式对齐,这种方法克服了可变形卷积的不稳定性,但会影响帧中高频信息的恢复,降低对齐信息的准确性并放大伪影。为解决上述问题,提出了一种基于隐式对齐的视频超分模型IAVSR(Implicit Alignment Video Super-Resolution)。IAVSR通过偏移量和原始值将光流编码到特定像素位置,以此计算光流预对齐的信息而不是利用插值函数插值获得,随后利用光流指导的可变形卷积对计算后的预对齐特征进行重对齐,以帮助高频信息的恢复。在双向传播中利用前两帧传播的信息进行对齐来指导当前帧的恢复,并引入残差网络结构,在提高对齐信息准确性的同时避免引入过多的参数。在REDS4公开数据集上的实验结果表明,IAVSR的峰值信噪比(PSNR)比基准模型提高了0.6 dB,且模型训练时的收敛速度提升了20%。