期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
应用动态Token的融合特征的持续图像字幕生成 被引量:1
1
作者 晋嘉利 余璐 《计算机工程与应用》 北大核心 2025年第4期176-191,共16页
基于自注意力的结构(如Transformer)在图像字幕生成任务中有着突出的性能优势。但在大多数方法中模型只在静态、同分布数据集上进行训练,而真实世界中的数据分布大多是非独立同分布的数据流,这种设置下的持续图像字幕生成任务更具有挑... 基于自注意力的结构(如Transformer)在图像字幕生成任务中有着突出的性能优势。但在大多数方法中模型只在静态、同分布数据集上进行训练,而真实世界中的数据分布大多是非独立同分布的数据流,这种设置下的持续图像字幕生成任务更具有挑战性。目前针对图像字幕生成的多模态任务的持续学习研究较少,缺乏更适用于基于自注意力模型的持续图像字幕生成方法。针对以上挑战提出了一种应用动态Token的融合特征的持续图像字幕生成方法。在Transformer中对图像字幕生成任务所涉及的不同模态的数据特征进行融合,并对融合特征进行正则化计算;为每一个子任务定义一个Token,Token将随着子任务的切换而变化,这种Token即为动态Token,相比于整个训练阶段只定义一个且被所有子任务共用的静态Token而言,动态Token更能保存每个子任务特有的信息和特点。利用这些动态任务Token和任务标识融合特征注意力模块进一步获得具有任务标识信息的融合特征,并在每个子任务训练结束后保存其对应的Token,以保持模型对旧任务的记忆和表达能力,减少模型对旧任务的灾难性遗忘。在MS-COCO和Flickr30k数据集上的实验结果表明,应用动态Token的融合特征的持续图像字幕生成方法在Transformer架构上优于所有基线方法。以CIDEr指标为例,所有训练任务结束后CIDEr指标的平均分数相较于微调和所有基线方法中的最优方法分别提高了31.06%和13.94%。 展开更多
关键词 图像字幕生成 持续学习 TRANSFORMER 融合特征 动态token 正则化
在线阅读 下载PDF
基于多尺度与多级语义融合Transformer的人体姿态估计
2
作者 李俊 袁通达 陈黎 《武汉大学学报(理学版)》 北大核心 2025年第4期473-484,共12页
针对人体姿态估计任务中视觉Transformer模型存在的尺度多样性受限和近距离信息忽视问题,提出多尺度与多级语义融合Transformer(MMSF)模型。该模型通过引入关键点标记作为代理的交叉Transformer操作,实现了不同分辨率视觉信息的相互学习... 针对人体姿态估计任务中视觉Transformer模型存在的尺度多样性受限和近距离信息忽视问题,提出多尺度与多级语义融合Transformer(MMSF)模型。该模型通过引入关键点标记作为代理的交叉Transformer操作,实现了不同分辨率视觉信息的相互学习,提高了估计精度。同时,利用深度卷积和稠密连接复用标记技术,有效提取了含有多级语义信息的交叉标记,减少了编码器层堆叠,降低了模型复杂度。通过交叉标记与标准标记的交叉融合注意力操作,整合了多级语义信息,进一步增强了姿态估计效果。实验结果表明,在相同的条件下,MMSF模型在COCO数据集上达到了78.1%的平均精度,比TokenPose基准模型高2.3%;在MPII数据集上验证了其有效性,与近几年经典的基于Transformer的人体姿态估计方法相比取得了更好的性能。 展开更多
关键词 视觉Transformer 人体姿态估计 深度卷积 标记融合 交叉注意力
原文传递
基于Transformer与权重令牌引导的双分支无参考图像质量评价网络
3
作者 郭颖聪 唐天航 刘怡光 《四川大学学报(自然科学版)》 北大核心 2025年第4期847-856,共10页
无参考图像质量评价是计算机视觉的基础任务,旨在生成与人类感知一致的评估结果.然而,图像质量由内容和失真共同决定,其复杂交互关系增加了预测难度.本文提出了一种基于双分支结构的图像质量评价网络,分别提取内容与失真特征,并结合Tran... 无参考图像质量评价是计算机视觉的基础任务,旨在生成与人类感知一致的评估结果.然而,图像质量由内容和失真共同决定,其复杂交互关系增加了预测难度.本文提出了一种基于双分支结构的图像质量评价网络,分别提取内容与失真特征,并结合Transformer和权重令牌进行特征编解码,从而精准捕捉质量语义.具体而言,内容分支使用在ImageNet上训练的ResNet50提取多层次特征,失真分支则专门构建失真感知数据集并基于孪生网络训练失真特征提取器.此外,本文引入可变形通道注意力模块(DCA)采样空间和通道维度关键特征,实现特征高效整合.最后,利用带有权重令牌的Transformer捕获内容与失真特征间的全局交互关系,进而引导原始特征获取质量加权表示.实验结果表明,模型在6个公开数据集上的平均SRCC和PLCC值分别为0.908和0.919,优于主流方法. 展开更多
关键词 无参考图像质量评价 内容失真特征融合 预训练 双分支 TRANSFORMER 权重令牌
在线阅读 下载PDF
基于多模态融合和自适应剪枝Transformer的脑肿瘤图像分割算法 被引量:1
4
作者 姚宗亮 黄荣 +2 位作者 董爱华 韩芳 王青云 《宁夏大学学报(自然科学版)》 CAS 2024年第1期16-24,共9页
脑肿瘤是目前世界上最致命的肿瘤之一,所以脑肿瘤图像的自动分割在临床诊疗中变得日益重要.近年来,基于CNN和Transformer的脑肿瘤分割方法在医学图像分割领域取得了令人欣喜的成就.然而,大多数方法没有充分利用脑肿瘤多模态间的互补性... 脑肿瘤是目前世界上最致命的肿瘤之一,所以脑肿瘤图像的自动分割在临床诊疗中变得日益重要.近年来,基于CNN和Transformer的脑肿瘤分割方法在医学图像分割领域取得了令人欣喜的成就.然而,大多数方法没有充分利用脑肿瘤多模态间的互补性和差异性,并且模型中的Transformer在捕获远程依赖性的同时,忽略了其较大的计算复杂性、冗余依赖性等问题.针对此问题,提出一种基于多模态融合和自适应剪枝Transformer的脑肿瘤图像分割方法(MF-MAPT Swin UNETR),其中多模态融合模块可以充分学习性质相近的模态间信息和不同模态不同尺度的特征变化,为后续分割提供了充分的准备;基于多模态的自适应剪枝Transformer可以降低计算复杂度,对提升性能有一定的帮助,将MF-MAPT Swin UNETR模型在两个公共数据集上进行了实验验证,结果表明,该模型较最先进的方法整体具有突出的分割性能. 展开更多
关键词 脑肿瘤分割 TRANSFORMER 模态交叉连接 多尺度特征融合 token融合 自适应剪枝
在线阅读 下载PDF
多尺度注意力特征融合的单图像超分辨率研究
5
作者 沈学利 翟宇琦 +1 位作者 关刘美 苏婷 《计算机技术与发展》 2024年第7期31-39,共9页
高分辨率意味着图像具有高像素密度,可以提供更多的细节,这些细节往往在应用中起到关键作用。基于生成对抗网络的图像超分辨率由于具有生成丰富细节的潜力,近年来受到越来越多的关注。针对现有的网络模型忽略从特征中学习本质纹理特征... 高分辨率意味着图像具有高像素密度,可以提供更多的细节,这些细节往往在应用中起到关键作用。基于生成对抗网络的图像超分辨率由于具有生成丰富细节的潜力,近年来受到越来越多的关注。针对现有的网络模型忽略从特征中学习本质纹理特征和感受野有限的问题,基于Real-ESRGAN和多尺度注意力特征融合,对网络进行优化,将残差稠密块替换成大核分解和多尺度学习相结合模块与全局学习与下采样模块的双分支结构方法,提出一种多尺度注意力融合的单图像超分辨率重建算法,增强每个局部与全局令牌对之间的交互,从而形成更丰富和信息量更大的表示。对数据集进行2,3,4倍超分辨率重建实验,通过峰值信噪比(PSNR)、结构相似性(SSIM)对重建结果进行评价,与SRCNN、SRGAN、ACMF、MSRDN、WYD、LBW、YJX、Real-ESRGAN等方法进行对比。结果表明,该算法优于其他模型,且具有更好的直观视觉效果。 展开更多
关键词 生成对抗网络 图像超分辨率 多尺度注意力特征融合 大核分解 全局学习与下采样 令牌
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部