期刊文献+
共找到124篇文章
< 1 2 7 >
每页显示 20 50 100
基于Mamba-UNet架构的3D MRI脑肿瘤分割方法
1
作者 张野 牛大田 《计算机应用研究》 北大核心 2026年第1期305-312,共8页
多模态MRI脑肿瘤影像的精准分割对脑癌临床诊疗及预后评估至关重要。针对卷积神经网络在捕获全局上下文信息和建立长远程依赖关系方面存在的局限性,提出了基于Mamba与U-Net融合架构的PhC-ToMamba分割模型。模型在瓶颈层嵌入了ToM模块旨... 多模态MRI脑肿瘤影像的精准分割对脑癌临床诊疗及预后评估至关重要。针对卷积神经网络在捕获全局上下文信息和建立长远程依赖关系方面存在的局限性,提出了基于Mamba与U-Net融合架构的PhC-ToMamba分割模型。模型在瓶颈层嵌入了ToM模块旨在有效建模高维特征的全局信息,通过从三个方向计算特征依赖关系并交互,提取更适用于三维图像的全局特征信息;此外,为进一步提升全局特征的提取能力,提出了一种新的多面体卷积(PhConv),并将其嵌入至编码器中,显著扩大了感受野,并提升对重点目标区域的特征提取能力,有效解决了当前主流脑肿瘤图像分割模型对全局信息感知的局限性问题,增强了对关键区域的关注度。在BraTS 2021和MSD Task01_BrainTumor数据集上进行了广泛的实验。实验结果显示,PhC-ToMamba在整个肿瘤、肿瘤核心和增强肿瘤分割任务中的Dice系数分别达到了95.05%/90.46%、94.53%/89.91%和90.74%/75.91%。与其他先进方法相比,PhC-ToMamba在分割精度和参数效率方面展现了优越性,为脑肿瘤分割任务提供稳健的解决方案,从而提高了诊断准确性。 展开更多
关键词 深度学习 MRI脑肿瘤分割 多面体卷积 三维U-Net mamba
在线阅读 下载PDF
视觉Mamba:结构、应用与前景
2
作者 张鑫 智敏 +1 位作者 萨茹拉 阿日木扎 《计算机科学与探索》 北大核心 2026年第1期66-78,共13页
传统卷积神经网络(CNN)因感受野受限难以建模全局特征,视觉Transformer虽具备序列建模优势,却面临二次计算复杂度的问题,给图像处理提出了严峻的计算挑战。为此,研究者开始探索兼具高效计算与全局感知能力的新型架构,基于状态空间模型(S... 传统卷积神经网络(CNN)因感受野受限难以建模全局特征,视觉Transformer虽具备序列建模优势,却面临二次计算复杂度的问题,给图像处理提出了严峻的计算挑战。为此,研究者开始探索兼具高效计算与全局感知能力的新型架构,基于状态空间模型(SSM)的视觉Mamba模型保留序列建模能力的同时能够实现线性计算复杂度下的全局上下文建模,标志着基于状态空间模型的视觉建模迈入新阶段。详细介绍视觉Mamba块的基本框架,包括由残差模块、二维选择性扫描(SS2D)模块与前馈网络(FFN)构成的双残差结构,分析了SS2D模块中跨扫描、S6块处理与跨融合的工作机制。从扫描、堆叠和混合结构等三个方面对视觉Mamba模型进行分析和探讨,扫描方式包括顺序扫描与动态扫描,对比分析了不同扫描策略的优劣;堆叠方式分为串行Mamba、并行Mamba、U型Mamba和图Mamba四类,详解各类堆叠结构的网络构建逻辑及在多尺度特征提取、长距离依赖建模中的适配性;混合结构聚焦在与CNN、Transformer、注意力机制的融合形式,包括单一模块融合与多模块协同架构,分析各模型优缺点。通过分析指出,视觉Mamba模型解决了CNN的局部感知限制和Transformer的二次项计算复杂度,在视觉任务中优于主流基础架构,展现出了成为视觉基础架构的巨大潜力。 展开更多
关键词 视觉mamba 扫描方式 堆叠方式 混合结构
在线阅读 下载PDF
基于Mamba的井下皮带异物无监督检测模型研究
3
作者 马莉 吴伟雪 代新冠 《西安科技大学学报》 北大核心 2025年第2期372-382,共11页
为了解决井下皮带异物无法被精准定位、计算成本过大等问题,提出了一个基于Mamba的无监督运煤皮带异物检测模型,该模型由预训练编码器和基于Mamba的解码器组成。在Mamba解码器中,FHSS混合状态空间模块将Hilbert扫描位置编码、傅里叶变换... 为了解决井下皮带异物无法被精准定位、计算成本过大等问题,提出了一个基于Mamba的无监督运煤皮带异物检测模型,该模型由预训练编码器和基于Mamba的解码器组成。在Mamba解码器中,FHSS混合状态空间模块将Hilbert扫描位置编码、傅里叶变换、Einstein对角矩阵计算引入Mamba网络来增强通道建模及特征序列建模,并结合了基于重构方法和多类无监督异常检测的优点,解决井下异常数据集匮乏、难以采集的问题。结果表明:该模型精度比经典的4个异常检测模型分别提升了22.2%,10.9%,5.9%,2.1%,其参数量和FLOPs仅为26.109 M,8.497 G;与传统检测方法相比,不仅有效应对由于噪声、遮挡等因素导致的检测不确定性,确保了异物检测的鲁棒性和可靠性,且具备更小的模型体积,显著降低了模型在推理过程中的计算复杂度。研究对于煤矿井下的实际应用具有重要意义,能够更好地保障输送系统的安全性和稳定性。 展开更多
关键词 井下皮带异物检测 mamba 无监督训练 异常检测 空间状态模型
在线阅读 下载PDF
基于IHO-Mamba-MHSA的红瓜子斑鱼养殖水温多步预测模型
4
作者 徐龙琴 赫敏 +5 位作者 陈子昂 车朱泓 庞惠元 黄天佑 李红雷 刘双印 《农业机械学报》 北大核心 2025年第8期655-664,共10页
为了提高工厂化红瓜子斑鱼养殖水温预测精度,提出了一种基于改进河马优化算法(Improved hippopotamus optimization algorithm,IHO)、Mamba模型和多头自注意力机制(Multi-head self-attention,MHSA)相结合的工厂化红瓜子斑鱼养殖水温多... 为了提高工厂化红瓜子斑鱼养殖水温预测精度,提出了一种基于改进河马优化算法(Improved hippopotamus optimization algorithm,IHO)、Mamba模型和多头自注意力机制(Multi-head self-attention,MHSA)相结合的工厂化红瓜子斑鱼养殖水温多步预测模型(IHO-Mamba-MHSA)。为降低异常值和噪声干扰,分别采用四分位距(Interquartile range,IQR)法识别异常值和线性插值法填补缺失值,通过极端梯度提升(Extreme gradient boosting,XGBoost)进行关键因子特征筛选;为提高河马算法全局和局部搜索性能,提高其收敛速度,提出了差分变异、Levy飞行和柯西变异融合改进IHO优化多目标算法;为增强预测模型捕捉水温非线性关系、处理多步依赖性和全局信息的能力,提出Mamba模型与MHSA结合的预测模型;通过IHO优化并获得Mamba-MHSA模型组合参数,构建了IHO-Mamba-MHSA的工厂化红瓜子斑鱼养殖水温多步预测模型。将该模型对山东省莱州市某工厂化红瓜子斑鱼养殖水温进行验证,本文提出的IHO算法与遗传算法(Genetic algorithm,GA)、粒子群优化算法(Particle swarm optimization algorithm,PSO)和标准河马优化算法(Hippopotamus optimization algorithm,HO)相比,本文算法的MAE、MSE和MAPE分别最高降低33.33%、21.74%和18.37%,R^(2)最高提升4.42%,说明IHO具有较好的多参数优化性能;与LSTM、GRU、BPNN及TCN模型对比,本模型在各预测步长下均表现最佳,当步长为24时R^(2)仍高达0.888,充分表现其在单步与多步预测中的卓越性。各项实验结果表明本模型能够满足实际工厂化红瓜子斑鱼养殖水温精准预测与精细化管理的需求,为工厂化水产养殖水质调控提供参考。 展开更多
关键词 红瓜子斑鱼 工厂化水产养殖 水温多步预测 改进河马优化算法 mamba模型
在线阅读 下载PDF
基于FDC-Mamba的关龙胆根茎实例分割与表型参数提取
5
作者 崔红光 刘海涛 +3 位作者 马有泽 黄文忠 李宏博 王铁军 《农业机械学报》 北大核心 2025年第10期500-511,共12页
针对关龙胆根茎中茎痕与残留茎基表型特征高度相似,且根茎尺寸小、形态复杂,导致图像分割特征提取困难、识别精度不足等问题,本文提出了焦点调制-动态检测头-上下文引导-Mamba(Focal Modulation-DyHead seg-Context Guided-Mamba,FDC-Ma... 针对关龙胆根茎中茎痕与残留茎基表型特征高度相似,且根茎尺寸小、形态复杂,导致图像分割特征提取困难、识别精度不足等问题,本文提出了焦点调制-动态检测头-上下文引导-Mamba(Focal Modulation-DyHead seg-Context Guided-Mamba,FDC-Mamba)关龙胆根茎实例分割模型。首先,为解决关龙胆相邻根丝边界模糊、缠绕部位重叠问题,引入目标检测型Mamba(Object detection Mamba,ODMamba)主干网络补充纹理细节,加强结构一致性;其次,通过融合Focal Modulation与Context Guided结构部分,增强多尺度感知能力和细节分割能力;最后,将DyHead结构结合辅助检测头(Auxiliary Head)训练策略,开发一种用于实例分割新训练结构DyHead seg,提高信息传递效率、优化学习过程。与其他常用实例分割模型(YOLO系列、Mask R-CNN、PointRend、HTC、SOLOv2、RT-DETR、HYPER)、不同特征金字塔架构模块(RepBN、AIFI、LSKA)、不同下采样结构模块(SRFD、ADown、CARAFE、EUCB、Gold-YOLO、HWD、PSConv、SODConv、WaveletPool)在关龙胆根茎数据集上进行对比,改进后模型完成了对关龙胆根茎实例分割,在根茎边缘和细小区域定位方面具有更高准确度,Box类型和Mask类型精度P、AP50、AP95分别提升6.52、5.09、5.44个百分点和4.49、2.68、1.16个百分点。基于分割结果,提出了关龙胆根长、根部粗细度、含杂率和色度4种表型参数提取方法。试验结果表明,所提出模型分割精度(Mask类型P)达87.12%,比基线模型高4.49个百分点。关龙胆表型参数提取结果与人工测量结果相对误差均在5%以内。本文对以关龙胆为代表的根茎类中药材表型特征提取具有较高的准确性,可为后续炮制工艺与装备研发奠定基础。 展开更多
关键词 关龙胆 实例分割 表型参数提取 深度学习 FDC-mamba
在线阅读 下载PDF
融合Mamba与蛇形卷积的图像去模糊网络
6
作者 邱云飞 刘则延 王茂华 《中国图象图形学报》 北大核心 2025年第10期3187-3198,共12页
目的针对Transformer在图像去模糊过程中难以精确恢复图像细节的问题,提出一种结合Mamba模型与蛇形卷积技术的图像去模糊网络MSNet(Mamba snake convolution network)。方法首先,结合Mamba框架与蛇形卷积,提出蛇形状态空间模块(snake st... 目的针对Transformer在图像去模糊过程中难以精确恢复图像细节的问题,提出一种结合Mamba模型与蛇形卷积技术的图像去模糊网络MSNet(Mamba snake convolution network)。方法首先,结合Mamba框架与蛇形卷积,提出蛇形状态空间模块(snake state-space module,SSSM)。SSSM通过调整卷积核的形状和路径,动态适应图像局部特征并调整卷积方向,以对齐不同的模糊条纹模式;其次,使用多方向扫描模块(direction scan module,DSM)进行多个方向的扫描,捕捉图像中的长期依赖。再利用离散状态空间方程合并多方向的结构信息,增强模型对全局结构的捕捉能力;最后,引入蛇形通道注意力(snake channel attention,SCA),利用门控设计筛选和调整模糊信息的权重,确保在去除模糊的同时保留关键细节。结果实验在GoPro和HIDE数据集上,与主流的卷积神经网络(convolutional neural network,CNN)和Transformer去模糊方法相比,MSNet的峰值信噪比(peak signal to noise ratio,PSNR)分别提升1.2%和1.9%,结构相似性(structural similarity,SSIM)分别提升0.6%和0.7%。结论本文方法可以有效去除复杂场景下产生的图像模糊,并复原细节。 展开更多
关键词 图像去模糊 mamba模型 方向扫描模块(DSM) 蛇形卷积 蛇形通道注意力(SCA)
原文传递
基于Mamba模型的行人小目标检测
7
作者 史娜 陈凯源 +3 位作者 周雨聪 马俊杰 景森阳 杨光 《国外电子测量技术》 2025年第5期18-23,共6页
针对复杂背景中行人小目标的检测精度低以及检测不及时的问题,提出了一种改进的Mamba行人小目标检测方法。首先,在主干网络中将标准卷积替换成感受野注意力卷积(RFAConv),通过动态感受野调整了模型对多尺度特征的捕捉能力,同时优化了计... 针对复杂背景中行人小目标的检测精度低以及检测不及时的问题,提出了一种改进的Mamba行人小目标检测方法。首先,在主干网络中将标准卷积替换成感受野注意力卷积(RFAConv),通过动态感受野调整了模型对多尺度特征的捕捉能力,同时优化了计算效率。其次,将注意力机制融入视觉状态空间模型(Visual State Space Model,VSSM)中,实现行人小目标多尺度特征的提取。最后,在颈部利用特征增强模块(Feature Enhancement Module,FEM)和双向金字塔模型实现多尺度特征融合。实验结果表明:在HIT-UAV数据集上,改进的Mamba模型实现了81.25%的准确率(以mAP@0.5为标准),比现有的大型模型如YOLOv5、YOLOv8、YOLOv11高出15%以上。 展开更多
关键词 行人小目标检测 特征融合 感受野注意力卷积 mamba模型
原文传递
基于CSC-Mamba模型的遥感图像去雾方法
8
作者 王京 何建军 +4 位作者 易善信 张俸铖 肖辉 郭洋 杨伊凡 《物探化探计算技术》 2025年第6期867-875,共9页
卫星捕获的遥感数据容易受到成像过程中悬浮粒子的影响而造成图像雾化现象,极大地影响遥感图像的清晰度。为了弥补这一不足,遥感图像去雾(RSID)非常必要。最近兴起的状态空间模型State Space Model(SSM)在建模线性复杂性和远程依赖关系... 卫星捕获的遥感数据容易受到成像过程中悬浮粒子的影响而造成图像雾化现象,极大地影响遥感图像的清晰度。为了弥补这一不足,遥感图像去雾(RSID)非常必要。最近兴起的状态空间模型State Space Model(SSM)在建模线性复杂性和远程依赖关系方面的性能卓越,受其启发,笔者设计了一种基于CSC-Mamba(Cross-Shaped Convolutional Mamba Model)视觉模型遥感图像去雾技术。该技术基于SSM设计了RSMamba模块,利用其线性复杂性来实现全局上下文编码,大大降低了模型的复杂度。同时,利用卷积神经网络CNN以及基于自注意力机制设计CSwin模块来聚合不同方向域上的特征,以有效地感知雾分布的空间变化特征。通过这种方式,CSC-Mamba能够更好地提取雾特征,从而有效地去除雾对遥感图像的影响。通过在SateHaze1K公共数据集上的实验,结果表明本CSC-Mamba模型遥感图像去雾技术不仅具有较好的轻量化特征的同时性,还具有较高的去雾效果。 展开更多
关键词 图像去雾 状态空间模型 卷积神经网络 自注意力机制 CSC-mamba模型
在线阅读 下载PDF
RMFKAN:基于改进图Mamba的网络水军检测方法 被引量:1
9
作者 王宇哲 颜靖华 +3 位作者 卜凡亮 王一帆 李嘉 韩竹轩 《计算机科学与探索》 北大核心 2025年第5期1365-1378,共14页
网络水军检测任务对构建和谐网络空间至关重要。针对现有基于图Transformer的网络水军检测方法无差别传递来自社区的节点之间的信息,从而导致节点表示过于同质,在处理长距离依赖关系时存在过度压缩和过度平滑,最终降低网络水军检测效果... 网络水军检测任务对构建和谐网络空间至关重要。针对现有基于图Transformer的网络水军检测方法无差别传递来自社区的节点之间的信息,从而导致节点表示过于同质,在处理长距离依赖关系时存在过度压缩和过度平滑,最终降低网络水军检测效果的问题,提出了一种基于关系双向图Mamba的傅里叶Kolmogorov-Arnold网络(RMFKAN)模型用于检测社交平台中的网络水军。通过异质感知的长距离关系特征提取方法解决了大规模社交网络跨社区长距离关系特征丢失的问题。通过引入双向选择状态空间模型(Bi-Mamba)解决了处理长距离依赖关系时的过度压缩和过度平滑问题。具体而言,通过随机游走策略令牌化子图,输入消息传递神经网络独立处理不同类型的边,利用傅里叶系数改进的KAN增强特征,将特征矩阵输入Bi-Mamba,提高对长距离依赖关系的捕捉能力,同时有效降低训练复杂度。在两个公开的网络水军检测数据集Twibot-20和Twibot-22上与10个基线模型进行对比实验,实验结果表明,RMFKAN在多个评价指标上均优于现有的基线方法,与现有研究的最佳效果相比RMFKAN的F1分数分别提高了2.10和4.06个百分点,准确率分别提高了1.01和4.45个百分点,验证了其在网络水军检测任务中的优越性能。 展开更多
关键词 网络水军检测 图神经网络 随机游走 mamba
在线阅读 下载PDF
DFFMamba:A Novel Remote Sensing Change Detection Method with Difference Feature Fusion Mamba
10
作者 PENG Daifeng DONG Fengxu GUAN Haiyan 《Transactions of Nanjing University of Aeronautics and Astronautics》 2025年第6期728-748,共21页
Change detection(CD)plays a crucial role in numerous fields,where both convolutional neural networks(CNNs)and Transformers have demonstrated exceptional performance in CD tasks.However,CNNs suffer from limited recepti... Change detection(CD)plays a crucial role in numerous fields,where both convolutional neural networks(CNNs)and Transformers have demonstrated exceptional performance in CD tasks.However,CNNs suffer from limited receptive fields,hindering their ability to capture global features,while Transformers are constrained by high computational complexity.Recently,Mamba architecture,which is based on state space models(SSMs),has shown powerful global modeling capabilities while achieving linear computational complexity.Although some researchers have incorporated Mamba into CD tasks,the existing Mamba⁃based remote sensing CD methods struggle to effectively perceive the inherent locality of changed regions when flattening and scanning remote sensing images,leading to limitations in extracting change features.To address these issues,we propose a novel Mamba⁃based CD method termed difference feature fusion Mamba model(DFFMamba)by mitigating the loss of feature locality caused by traditional Mamba⁃style scanning.Specifically,two distinct difference feature extraction modules are designed:Difference Mamba(DMamba)and local difference Mamba(LDMamba),where DMamba extracts difference features by calculating the difference in coefficient matrices between the state⁃space equations of the bi⁃temporal features.Building upon DMamba,LDMamba combines a locally adaptive state⁃space scanning(LASS)strategy to enhance feature locality so as to accurately extract difference features.Additionally,a fusion Mamba(FMamba)module is proposed,which employs a spatial⁃channel token modeling SSM(SCTMS)unit to integrate multi⁃dimensional spatio⁃temporal interactions of change features,thereby capturing their dependencies across both spatial and channel dimensions.To verify the effectiveness of the proposed DFFMamba,extensive experiments are conducted on three datasets of WHU⁃CD,LEVIR⁃CD,and CLCD.The results demonstrate that DFFMamba significantly outperforms state⁃of⁃the⁃art CD methods,achieving intersection over union(IoU)scores of 90.67%,85.04%,and 66.56%on the three datasets,respectively. 展开更多
关键词 change detection state space model(SSM)change feature fusion deep learning difference mamba(Dmamba) local difference mamba(LDmamba) spatial⁃channel token modeling SSM(SCTMS)
在线阅读 下载PDF
ParMamba:A Parallel Architecture Using CNN and Mamba for Brain Tumor Classification
11
作者 Gaoshuai Su HongyangLi Huafeng Chen 《Computer Modeling in Engineering & Sciences》 2025年第3期2527-2545,共19页
Brain tumors,one of the most lethal diseases with low survival rates,require early detection and accurate diagnosis to enable effective treatment planning.While deep learning architectures,particularly Convolutional N... Brain tumors,one of the most lethal diseases with low survival rates,require early detection and accurate diagnosis to enable effective treatment planning.While deep learning architectures,particularly Convolutional Neural Networks(CNNs),have shown significant performance improvements over traditional methods,they struggle to capture the subtle pathological variations between different brain tumor types.Recent attention-based models have attempted to address this by focusing on global features,but they come with high computational costs.To address these challenges,this paper introduces a novel parallel architecture,ParMamba,which uniquely integrates Convolutional Attention Patch Embedding(CAPE)and the Conv Mamba block including CNN,Mamba and the channel enhancement module,marking a significant advancement in the field.The unique design of ConvMamba block enhances the ability of model to capture both local features and long-range dependencies,improving the detection of subtle differences between tumor types.The channel enhancement module refines feature interactions across channels.Additionally,CAPE is employed as a downsampling layer that extracts both local and global features,further improving classification accuracy.Experimental results on two publicly available brain tumor datasets demonstrate that ParMamba achieves classification accuracies of 99.62%and 99.35%,outperforming existing methods.Notably,ParMamba surpasses vision transformers(ViT)by 1.37%in accuracy,with a throughput improvement of over 30%.These results demonstrate that ParMamba delivers superior performance while operating faster than traditional attention-based methods. 展开更多
关键词 Brain tumor classification convolutional neural networks channel enhancementmodule convolutional attention patch embedding mamba Parmamba
在线阅读 下载PDF
卷积Mamba模型驱动的地震随机噪声压制方法 被引量:1
12
作者 韦秀娟 刘兴业 周怀来 《煤田地质与勘探》 北大核心 2025年第5期196-206,共11页
【背景】地震随机噪声压制是提升地震资料质量的关键环节之一,数据驱动的深度学习方法提供了一种智能解决方案。然而,主流的基于卷积神经网络的随机噪声智能压制方法受限于局部感受野特性,导致去噪过程中局部细节与宏观结构的协同优化不... 【背景】地震随机噪声压制是提升地震资料质量的关键环节之一,数据驱动的深度学习方法提供了一种智能解决方案。然而,主流的基于卷积神经网络的随机噪声智能压制方法受限于局部感受野特性,导致去噪过程中局部细节与宏观结构的协同优化不足,进而影响噪声压制精度。广泛应用于全局特征提取的Transformer模型通过自注意力机制能够有效捕获长距离依赖关系,理论上可弥补卷积神经网络在全局建模能力方面的局限性。但其计算慢,资源占用大,应用受限。【目的和方法】针对上述问题,提出了融合卷积Mamba的地震数据随机噪声压制网络(CMUNet)。基于二维选择性扫描技术(沿水平、垂直双方向遍历输入数据),通过状态空间方程构建全局动态系统,实现对地震数据时空特征的跨尺度特征提取,借助Mamba模型的硬件感知并行扫描算法降低计算资源消耗,保证去噪效果的同时提升计算效率。针对地震数据的特点,设计卷积-Mamba混合模块,在UNet编码器中构建层次化特征提取路径,即浅层CNN聚焦局部噪声模式识别,深层Mamba捕获大尺度地质结构关联性;进一步引入残差通道注意力门控,强化有效信号与噪声的特征可分性。【结果和结论】对于合成数据测试,提出的方法相较于UNet在信噪比、峰值信噪比和结构相似性上分别提高了2.4 dB、2.4 dB和0.0056,表现出对随机噪声的有效压制能力及对有效信号的保护能力。在野外实际地震数据应用中,局部相似性图像分析结果显示较低的局部相似值,进一步印证了该方法对有效信号的损伤程度低,展现出更优的保幅性,具有良好应用前景。 展开更多
关键词 地震随机噪声压制 深度学习 卷积神经网络 状态空间模型 mamba
在线阅读 下载PDF
基于共享提示与Mamba适配器的遥感图像文本检索方法
13
作者 杜文亮 许晓宇 +2 位作者 赵佳琦 刘兵 周勇 《电子学报》 北大核心 2025年第9期3358-3370,共13页
遥感图像文本检索旨在根据给定的图像或文本,从海量遥感图像文本数据库中快速、准确地检索出与之语义匹配的文本或图像.随着对地观测技术的飞速发展,该技术在城市规划、灾害应急响应、环境监测等领域的应用价值日益凸显,已成为当前多模... 遥感图像文本检索旨在根据给定的图像或文本,从海量遥感图像文本数据库中快速、准确地检索出与之语义匹配的文本或图像.随着对地观测技术的飞速发展,该技术在城市规划、灾害应急响应、环境监测等领域的应用价值日益凸显,已成为当前多模态信息处理领域的研究热点.基于通用数据预训练的视觉语言预训练模型,通过实现图像与文本之间的高效语义对齐,为通用图像文本检索任务奠定了技术基础.然而,通用数据与遥感数据之间存在显著的领域鸿沟,导致基于通用数据预训练的视觉语言预训练模型在直接应用于遥感任务时性能受限.因此,需要通过微调使该视觉语言模型适应遥感领域独特的数据分布.然而,现有微调方法应用到遥感领域时面临着两大核心挑战.其一,跨模态对齐不足:现有微调方法缺乏显式的跨模态信息交互机制,难以充分建模图文之间的内在关联;其二,细粒度语义表征困难:现有方法往往难以捕捉遥感图像中目标尺度差异悬殊、地物类别间相似度高、空间拓扑关系复杂等精细化的语义信息.尤其在处理小目标或由相似地物引发的语义混淆问题时性能受限,显著降低了检索准确性.本文针对遥感图像文本检索任务中跨模态对齐不足与细粒度语义表征困难的问题,提出基于共享提示与Mamba适配器的微调方法.该方法首先通过设计跨模态共享提示生成模块,建立图像与文本特征的显式交互机制;然后构建面向遥感场景的图像与文本的双分支Mamba适配器微调模块,分别实现图像与文本特征的细粒度表征;最后,采用对比损失与隶属损失,缓解由遥感图像小目标或相似地物引起的语义混淆问题.实验结果表明,本方法在遥感图像描述数据集(Remote Sensing Image Captioning Dataset,RSICD)和遥感图像文本匹配数据集(Remote Sensing Image-Text Match Dataset,RSITMD)数据集上平均召回率分别达到37.3%和48.05%,相较于当前最优的适配器微调方法分别提升3.68%和1.52%.此外,消融实验验证了共享提示生成模块与Mamba适配器的有效性. 展开更多
关键词 图像文本检索 遥感图像 mamba适配器 视觉语言模型微调
在线阅读 下载PDF
高效Mamba驱动的端到端光场图像压缩
14
作者 封哲宇 蒋志迪 +2 位作者 万立飞 徐海勇 蒋刚毅 《光学精密工程》 北大核心 2025年第18期2980-2995,共16页
光场图像因记录了光线的空间与角度信息,可提供比传统2D图像更丰富的视觉信息,但其高维特性导致现有压缩方法在全局特征利用、长距离相关性挖掘及计算复杂度上存在局限,限制了压缩性能和效率的提升。为此,本文提出了一种高效Mamba驱动... 光场图像因记录了光线的空间与角度信息,可提供比传统2D图像更丰富的视觉信息,但其高维特性导致现有压缩方法在全局特征利用、长距离相关性挖掘及计算复杂度上存在局限,限制了压缩性能和效率的提升。为此,本文提出了一种高效Mamba驱动的端到端光场图像压缩方法。首先,从4D光场图像中提取包含空间和极平面信息的2D切片,并利用Mamba充分捕捉其全局上下文信息。其次,为了在多个方向上扫描光场图像并避免计算复杂度的大幅增加,引入了一种通道高效的2D选择性扫描策略,以精确高效地提取光场特征。最后,在解码端设计了一个残差重建模块,该模块在降低参数量和减少编解码时间的基础上,显著提升了重建图像的质量。实验结果表明,与现有代表方法SADN相比,所提方法在7×7角度分辨率的光场图像上平均实现了7.4%的码率降低和0.37 dB的PSNR提升,同时在主观视觉质量上也表现更佳。在编解码时间方面,所提方法实现了10~20倍的显著提升。此外,与现有最新方法LFIC-DRASC相比,所提方法在13×13角度分辨率的光场图像上平均实现了19.5%的码率降低和0.58 dB的PSNR提升。 展开更多
关键词 光场 图像压缩 端到端 mamba
在线阅读 下载PDF
基于MCB-Mamba-FECA的水产养殖溶解氧长期预测模型
15
作者 刘同来 陈子昂 +3 位作者 崔猛 庞惠元 刘双印 徐龙琴 《农业工程学报》 北大核心 2025年第15期183-191,共9页
为了提高大规模水产养殖的效率、降低养殖风险,并为养殖人员提供充足的反应时间以应对溶解氧(dissolved oxygen,DO)浓度的异常变化,该研究基于混合卷积块(mixed convolution block,MCB)改进的Mamba模型和频率增强通道注意力机制(frequen... 为了提高大规模水产养殖的效率、降低养殖风险,并为养殖人员提供充足的反应时间以应对溶解氧(dissolved oxygen,DO)浓度的异常变化,该研究基于混合卷积块(mixed convolution block,MCB)改进的Mamba模型和频率增强通道注意力机制(frequency enhanced channel attention,FECA),提出了一种高精度的水产养殖DO长期预测模型MCB-Mamba-FECA(MMFA)。首先,创新性引入了MCB以增强Mamba模型对短期复杂时序模式的捕获能力,实现对水质数据长短期依赖关系的均衡建模。此外,设计了FECA以提取水质数据中的频域特征,通过自适应权重调整强化关键频率信息的表达,从而更好地捕捉水质数据中显著的周期性与高频扰动。最后,在广州南沙某养殖厂对该模型进行了试验验证。结果表明,该研究提出的MMFA模型在DO单步预测中能够与大多数DO预测模型的性能齐平,而在更具挑战性的长期预测任务中则表现更加出色。在120 min(24步)的预测任务中相比次优模型平均绝对百分比误差、均方根误差和平均绝对误差分别降低了26.37%、14.29%和26.48%,为水产养殖的智能化管控提供了可靠的技术支撑。 展开更多
关键词 水产养殖 溶解氧预测 长期预测 mamba 混合卷积块 频域
在线阅读 下载PDF
基于Mamba多尺度特征提取的密集视频描述方法
16
作者 彭宇轩 韩巧玲 赵玥 《红外与激光工程》 北大核心 2025年第11期234-246,共13页
密集视频描述旨在从视频中提取多个关键事件并生成连贯的文本描述,可广泛应用于自动讲解、人机交互、视频检索以及辅助视障人士日常生活等场景。现有方法存在对视频中短时、长时等多尺度事件特征提取不足,以及视频重复帧或相似帧特征信... 密集视频描述旨在从视频中提取多个关键事件并生成连贯的文本描述,可广泛应用于自动讲解、人机交互、视频检索以及辅助视障人士日常生活等场景。现有方法存在对视频中短时、长时等多尺度事件特征提取不足,以及视频重复帧或相似帧特征信息冗余的问题,这导致现有方法生成的视频描述缺失细节信息,连贯性和准确性较低。针对这一问题,研究提出了一种基于Mamba多尺度特征提取的密集视频描述模型(Mamba Multi-scale Feature Extraction for dense video caption,MMFE)。首先,提出Mamba多尺度特征提取模块,利用Mamba增加长程依赖捕捉能力,并通过多层次特征提取和融合,解决了对短时、长时等多尺度事件特征提取不足问题;其次,引入趋势感知注意力,通过重点关注有显著语义变化的关键帧,解决重复帧或相似帧特征信息冗余,提升特征表达的准确性;然后,加入事件差异损失函数,促使模型关注长视频中不同内容事件的特征差异,提高对多样化事件的分辨以及预测能力;最后,在描述头中引入跳跃连接,将先前生成的历史描述文本选择性融入到当前解码过程,通过参考整体视频叙事脉络补充上下文信息,提高模型对全局信息的理解能力。在ActivityNet Captions数据集的实验结果表明,针对短时、长时等不同时长事件定位任务,MMFE的召回率、准确率和F1值分别为59.85%、60.45%和60.15%,较次优方法 PDVC提升了4.43%、2.38%和3.44%。针对多样化事件文本描述任务,MMFE的BLEU4、CIDEr和METEOR分别为2.67%、37.78%和8.79%,较次优方法PDVC提升0.71%、9.19%和0.71%。这表明MMFE所生成的视频描述更加准确,可为提高网络信息传播效率、增强信息安全监管能力以及推动智能社会建设提供有效工具。 展开更多
关键词 密集视频描述 视频理解 mamba 多尺度特征提取 注意力模块
原文传递
基于Mamba结构的轻量级皮肤病变图像分割网络
17
作者 贺蒙蒙 张小艳 李洪安 《图学学报》 北大核心 2025年第6期1257-1266,共10页
皮肤病变分割是医学图像分析中的一项重要任务,对于皮肤类疾病的早期诊断和治疗具有重要意义。然而,在处理高分辨率皮肤图像和捕捉细微病变特征时,现有模型仍面临着计算复杂度高以及冗余信息处理不足等挑战。为此,提出一种基于Mamba结... 皮肤病变分割是医学图像分析中的一项重要任务,对于皮肤类疾病的早期诊断和治疗具有重要意义。然而,在处理高分辨率皮肤图像和捕捉细微病变特征时,现有模型仍面临着计算复杂度高以及冗余信息处理不足等挑战。为此,提出一种基于Mamba结构的轻量级皮肤病变图像分割网络ResMamba,采用六级U型结构,主要通过将Mamba嵌入到视觉状态空间中同时引入到编解码器中,ResVSS模块作为编码器的核心组成部分,通过删除冗余线性层可减少参数量,同时结合深度卷积块和可学习尺度参数对残差连接进行缩放,从而通过降低模型复杂度来提升分割精度。在跳跃连接模块使用多级、多尺度信息融合模块生成空间和通道注意力图,有效融合了多尺度信息。通过在公开皮肤数据集ISIC2017和ISIC2018上进行实验验证,结果表明,ResMamba模型在平衡参数数量和分割性能方面都具有较好的分割性能,验证了该模型的有效性。 展开更多
关键词 深度学习 皮肤病变分割 mamba结构 状态空间模型 轻量化
在线阅读 下载PDF
基于Mamba-2的视频快照压缩成像重构方法
18
作者 石敦攀 徐伟 +3 位作者 朴永杰 方应红 籍浩林 李鹏飞 《液晶与显示》 北大核心 2025年第6期881-894,共14页
视频快照压缩成像(SCI)是一种新型的成像技术,通过在单个曝光时间内使用一个二维探测器捕获三维视频数据,然后采用合适的算法重建原始的视频数据。尽管目前的许多算法在视频SCI的重建任务中有着非常出色的表现,但它们重建质量的提升往... 视频快照压缩成像(SCI)是一种新型的成像技术,通过在单个曝光时间内使用一个二维探测器捕获三维视频数据,然后采用合适的算法重建原始的视频数据。尽管目前的许多算法在视频SCI的重建任务中有着非常出色的表现,但它们重建质量的提升往往需要以牺牲重建速度为代价,使算法的实时性大幅降低。为兼顾重建质量与重建速度,本文提出了一种基于Mamba-2的端到端深度视频SCI重构方法——M2BA-SCI。M2BA-SCI网络由预处理模块、token生成块、Mamba注意力块和视频重建块组成,其中Mamba注意力块主要由Mamba-2线性注意力块和前馈神经网络构成。在模拟和真实视频数据集上的大量实验表明,M2BA-SCI与先前算法相比取得了更为均衡的效果,在提高重建质量的同时仍保持较快的重建速度。在基准灰度视频数据集中,平均PSNR为34.85,平均SSIM为0.966,运行时间为0.23 s。在基准彩色视频数据集上的平均PSNR为36.21,平均SSIM为0.963,运行时间为1.03 s。M2BA-SCI为视频SCI重建带来了新的思路,为基于Mamba模型设计出更高重建质量的算法提供了参考。 展开更多
关键词 视频快照压缩成像 压缩感知 mamba-2 深度学习
在线阅读 下载PDF
卷积增强Vision Mamba模型的构建及其应用 被引量:1
19
作者 俞焕友 范静 黄凡 《计算机技术与发展》 2025年第8期45-52,共8页
针对Vision Mamba(Vim)模型的局限性,该文提出了一种改进的模型——Convolutional Vision Mamba(CvM)。此模型通过摒弃Vim中的图形切割和位置编码机制,转而采用卷积操作进行替代,以实现对全局视觉信息的更高效处理。同时,此模型对Vim模... 针对Vision Mamba(Vim)模型的局限性,该文提出了一种改进的模型——Convolutional Vision Mamba(CvM)。此模型通过摒弃Vim中的图形切割和位置编码机制,转而采用卷积操作进行替代,以实现对全局视觉信息的更高效处理。同时,此模型对Vim模型中的位置嵌入模块进行了优化,以解决其固有的高计算量和内存消耗问题。进而,该文将CvM模型应用于医学图像分类领域,选用了血细胞图像、脑肿瘤图像、胸部CT扫描、病理性近视眼底图像以及肺炎X射线影像等数据集进行实验。实验结果表明,与Vim模型及其他5个神经网络模型相比,CvM模型在准确率上表现更为出色,在内存占用和参数数量方面也展现出明显的优势。消融实验表明,深度可分离卷积比标准卷积使用的参数和显存占用更少,而且在血细胞图像、脑肿瘤图像等医学图像分类上,准确率还有了显著提升。这些结果充分说明了CvM模型的优势和可行性。 展开更多
关键词 深度学习 Vision mamba 卷积神经网络 深度可分离卷积 医学图像分类
在线阅读 下载PDF
多尺度特征融合的RSUMamba遥感图像语义分割
20
作者 任智超 杨亚楠 赵彬如 《遥感信息》 北大核心 2025年第6期115-123,共9页
针对遥感图像语义分割任务中面临的空间分辨率高、尺度差异大、内容复杂多样等问题,提出了一种基于Mamba和UNet的遥感图像语义分割网络(remote sensing UNet-Mamba,RSUMamba)来提高遥感图像语义分割的准确性。首先,构建了一种基于编码器... 针对遥感图像语义分割任务中面临的空间分辨率高、尺度差异大、内容复杂多样等问题,提出了一种基于Mamba和UNet的遥感图像语义分割网络(remote sensing UNet-Mamba,RSUMamba)来提高遥感图像语义分割的准确性。首先,构建了一种基于编码器-解码器结构的UNet类型网络,通过引入跳跃连接实现多尺度特征融合。其次,提出了一种多尺度特征提取编码器(residual reparameterization vision transformer,ResRepVit),该编码器在特征提取过程中能够有效捕获丰富的上下文信息,同时仅带来较少的内存开销和计算复杂度。此外,在解码层中引入Mamba中的视觉状态空间(visual state space,VSS)模型,以提高模型的计算效率并增强多尺度特征的融合能力。最后,提出多尺度监督模块(multi-scale supervision module,MSSM),通过局部与全局特征的交互建模,优化全局特征,进一步提高模型的准确度。在LoveDA和Vaihingen数据集上对该方法进行对比实验和消融实验。实验结果表明,RSUMamba在两个数据集上的mIoU分别达到52.87%和85.98%,有效提高了遥感图像的语义分割精度,为多尺度遥感图像语义分割提供了新方案。 展开更多
关键词 语义分割 上下文信息 mamba 视觉状态空间 多尺度
在线阅读 下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部