期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
视觉Mamba:结构、应用与前景
1
作者 张鑫 智敏 +1 位作者 萨茹拉 阿日木扎 《计算机科学与探索》 北大核心 2026年第1期66-78,共13页
传统卷积神经网络(CNN)因感受野受限难以建模全局特征,视觉Transformer虽具备序列建模优势,却面临二次计算复杂度的问题,给图像处理提出了严峻的计算挑战。为此,研究者开始探索兼具高效计算与全局感知能力的新型架构,基于状态空间模型(S... 传统卷积神经网络(CNN)因感受野受限难以建模全局特征,视觉Transformer虽具备序列建模优势,却面临二次计算复杂度的问题,给图像处理提出了严峻的计算挑战。为此,研究者开始探索兼具高效计算与全局感知能力的新型架构,基于状态空间模型(SSM)的视觉Mamba模型保留序列建模能力的同时能够实现线性计算复杂度下的全局上下文建模,标志着基于状态空间模型的视觉建模迈入新阶段。详细介绍视觉Mamba块的基本框架,包括由残差模块、二维选择性扫描(SS2D)模块与前馈网络(FFN)构成的双残差结构,分析了SS2D模块中跨扫描、S6块处理与跨融合的工作机制。从扫描、堆叠和混合结构等三个方面对视觉Mamba模型进行分析和探讨,扫描方式包括顺序扫描与动态扫描,对比分析了不同扫描策略的优劣;堆叠方式分为串行Mamba、并行Mamba、U型Mamba和图Mamba四类,详解各类堆叠结构的网络构建逻辑及在多尺度特征提取、长距离依赖建模中的适配性;混合结构聚焦在与CNN、Transformer、注意力机制的融合形式,包括单一模块融合与多模块协同架构,分析各模型优缺点。通过分析指出,视觉Mamba模型解决了CNN的局部感知限制和Transformer的二次项计算复杂度,在视觉任务中优于主流基础架构,展现出了成为视觉基础架构的巨大潜力。 展开更多
关键词 视觉mamba 扫描方式 堆叠方式 混合结构
在线阅读 下载PDF
基于共享提示与Mamba适配器的遥感图像文本检索方法
2
作者 杜文亮 许晓宇 +2 位作者 赵佳琦 刘兵 周勇 《电子学报》 北大核心 2025年第9期3358-3370,共13页
遥感图像文本检索旨在根据给定的图像或文本,从海量遥感图像文本数据库中快速、准确地检索出与之语义匹配的文本或图像.随着对地观测技术的飞速发展,该技术在城市规划、灾害应急响应、环境监测等领域的应用价值日益凸显,已成为当前多模... 遥感图像文本检索旨在根据给定的图像或文本,从海量遥感图像文本数据库中快速、准确地检索出与之语义匹配的文本或图像.随着对地观测技术的飞速发展,该技术在城市规划、灾害应急响应、环境监测等领域的应用价值日益凸显,已成为当前多模态信息处理领域的研究热点.基于通用数据预训练的视觉语言预训练模型,通过实现图像与文本之间的高效语义对齐,为通用图像文本检索任务奠定了技术基础.然而,通用数据与遥感数据之间存在显著的领域鸿沟,导致基于通用数据预训练的视觉语言预训练模型在直接应用于遥感任务时性能受限.因此,需要通过微调使该视觉语言模型适应遥感领域独特的数据分布.然而,现有微调方法应用到遥感领域时面临着两大核心挑战.其一,跨模态对齐不足:现有微调方法缺乏显式的跨模态信息交互机制,难以充分建模图文之间的内在关联;其二,细粒度语义表征困难:现有方法往往难以捕捉遥感图像中目标尺度差异悬殊、地物类别间相似度高、空间拓扑关系复杂等精细化的语义信息.尤其在处理小目标或由相似地物引发的语义混淆问题时性能受限,显著降低了检索准确性.本文针对遥感图像文本检索任务中跨模态对齐不足与细粒度语义表征困难的问题,提出基于共享提示与Mamba适配器的微调方法.该方法首先通过设计跨模态共享提示生成模块,建立图像与文本特征的显式交互机制;然后构建面向遥感场景的图像与文本的双分支Mamba适配器微调模块,分别实现图像与文本特征的细粒度表征;最后,采用对比损失与隶属损失,缓解由遥感图像小目标或相似地物引起的语义混淆问题.实验结果表明,本方法在遥感图像描述数据集(Remote Sensing Image Captioning Dataset,RSICD)和遥感图像文本匹配数据集(Remote Sensing Image-Text Match Dataset,RSITMD)数据集上平均召回率分别达到37.3%和48.05%,相较于当前最优的适配器微调方法分别提升3.68%和1.52%.此外,消融实验验证了共享提示生成模块与Mamba适配器的有效性. 展开更多
关键词 图像文本检索 遥感图像 mamba适配器 视觉语言模型微调
在线阅读 下载PDF
多尺度特征融合的RSUMamba遥感图像语义分割
3
作者 任智超 杨亚楠 赵彬如 《遥感信息》 北大核心 2025年第6期115-123,共9页
针对遥感图像语义分割任务中面临的空间分辨率高、尺度差异大、内容复杂多样等问题,提出了一种基于Mamba和UNet的遥感图像语义分割网络(remote sensing UNet-Mamba,RSUMamba)来提高遥感图像语义分割的准确性。首先,构建了一种基于编码器... 针对遥感图像语义分割任务中面临的空间分辨率高、尺度差异大、内容复杂多样等问题,提出了一种基于Mamba和UNet的遥感图像语义分割网络(remote sensing UNet-Mamba,RSUMamba)来提高遥感图像语义分割的准确性。首先,构建了一种基于编码器-解码器结构的UNet类型网络,通过引入跳跃连接实现多尺度特征融合。其次,提出了一种多尺度特征提取编码器(residual reparameterization vision transformer,ResRepVit),该编码器在特征提取过程中能够有效捕获丰富的上下文信息,同时仅带来较少的内存开销和计算复杂度。此外,在解码层中引入Mamba中的视觉状态空间(visual state space,VSS)模型,以提高模型的计算效率并增强多尺度特征的融合能力。最后,提出多尺度监督模块(multi-scale supervision module,MSSM),通过局部与全局特征的交互建模,优化全局特征,进一步提高模型的准确度。在LoveDA和Vaihingen数据集上对该方法进行对比实验和消融实验。实验结果表明,RSUMamba在两个数据集上的mIoU分别达到52.87%和85.98%,有效提高了遥感图像的语义分割精度,为多尺度遥感图像语义分割提供了新方案。 展开更多
关键词 语义分割 上下文信息 mamba 视觉状态空间 多尺度
在线阅读 下载PDF
结合ARConv与VIM的遥感影像目标检测模型
4
作者 何神佑 陈勇明 《北京测绘》 2025年第12期1733-1740,共8页
针对背景复杂、不同地物尺度差异较大而导致的现有模型对遥感影像内目标检测精度较低、泛化性能较弱问题,提出一种结合自适应矩形卷积(ARConv)与视觉曼巴(VIM)单元组合的遥感影像目标检测模型。在骨干网络中,以ARConv单元构建细节特征... 针对背景复杂、不同地物尺度差异较大而导致的现有模型对遥感影像内目标检测精度较低、泛化性能较弱问题,提出一种结合自适应矩形卷积(ARConv)与视觉曼巴(VIM)单元组合的遥感影像目标检测模型。在骨干网络中,以ARConv单元构建细节特征提取层,以VIM单元构建全局上下文提取层。在双向加权特征金字塔中,引入重参数化机制,实现高效多粒度特征的提取融合;在训练阶段,使用内部加权交并比与多边形损失计算目标回归与分类损失,通过辅助加权框引导模型学习复杂样本特征。实验结果表明,所构建模型在两组公开数据集上的平均精度均值分别达到93.82%与90.46%,优于当前主流模型,并且能够在测试环境下实时输出检测结果。 展开更多
关键词 遥感影像 目标检测 适应矩形卷积 视觉曼巴 重参数-双向加权特征金字塔
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部