期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
基于VMamba的双波段红外图像融合方法
1
作者 辛苗 阮洋 +1 位作者 李雨松 李少毅 《上海航天(中英文)》 2025年第4期180-188,共9页
针对中波红外图像中存在复杂高亮背景干扰、长波红外图像目标信杂比(SCR)较低,导致单一波段下的视觉任务性能受限等问题,考虑目标与背景在不同波段红外图像中固有的差异性和互补性信息,提出了一种基于视觉状态空间模型(VMamba)的红外双... 针对中波红外图像中存在复杂高亮背景干扰、长波红外图像目标信杂比(SCR)较低,导致单一波段下的视觉任务性能受限等问题,考虑目标与背景在不同波段红外图像中固有的差异性和互补性信息,提出了一种基于视觉状态空间模型(VMamba)的红外双波段图像融合算法。首先,利用VMamba模块的全局感知能力,建立目标与背景之间的长距离依赖关系,提取并有效整合不同波段图像的特征信息;其次,结合目标与背景的语义信息,提升算法对目标的显著性特征感知能力;最后,以提升下游任务性能为指引,提出一种双波段图像融合评价指标——背景残余度(BR),衡量融合图像对于背景杂波的抑制作用。本文构建的红外双波段实测图像数据集中的测试结果表明:红外双波段融合算法具备目标特性增强、背景杂波抑制能力,并获得了0.636的SCR和2.846×10^(-3)的BR指标,针对SCR指标,相较最优算法曲波变换(CVT)提升1.605%,针对BR指标,相较最优算法多尺度奇异值分解(MSVD)提升了1.625%。 展开更多
关键词 图像融合 红外图像 红外双波段 vmamba 语义特征
在线阅读 下载PDF
基于VMamba及金字塔特征融合双流网络的图像篡改检测
2
作者 乔博翔 张丽红 《网络新媒体技术》 2025年第4期44-53,共10页
随着图像篡改技术的不断提高,篡改者能够轻松生成高质量的篡改图像,使得人眼难以准确分辨出图像的真伪。因此,有效检测出图像篡改区域具有重要意义。本文提出一种基于VMamba模型及金字塔特征融合的双分支图像篡改检测网络。该网络由RGB... 随着图像篡改技术的不断提高,篡改者能够轻松生成高质量的篡改图像,使得人眼难以准确分辨出图像的真伪。因此,有效检测出图像篡改区域具有重要意义。本文提出一种基于VMamba模型及金字塔特征融合的双分支图像篡改检测网络。该网络由RGB分支和频域分支组成,对输入RGB图像和其小波变换频域特征分别采用VMamba模型进行多尺度特征提取,捕捉相应篡改特征,以定位伪造区域的边界和细节;然后通过双向金字塔多尺度特征融合模块对特征进行融合,特征信息双向传递使得能够在更深层次上获取高层次语义信息,同时保持细节;最后采用紧凑双线性池化对双分支特征进行进一步融合,通过分割器输出预测结果,实现图像篡改检测。在相关数据集上进行训练与测试,实验结果表明,相比其他方法,本文提出的检测网络其检测精度具有显著优势。 展开更多
关键词 图像篡改检测 小波变换 vmamba模型 双向金字塔 多尺度特征融合
在线阅读 下载PDF
基于VMamba与随机Mask的弱监督人群计数方法
3
作者 王家豪 许贤杰 严华 《信息记录材料》 2025年第3期80-82,共3页
基于密度图回归的传统人群计数方法需要像素点级别的人物对象头部标注与图像级别的计数标注,然而在回归预测值时仅使用计数标注,点标注的利用不足,相比之下,不依赖于点级标注的弱监督人群计数方法更有效率。主流弱监督人群计数模型通常... 基于密度图回归的传统人群计数方法需要像素点级别的人物对象头部标注与图像级别的计数标注,然而在回归预测值时仅使用计数标注,点标注的利用不足,相比之下,不依赖于点级标注的弱监督人群计数方法更有效率。主流弱监督人群计数模型通常使用Transformer架构,然而其计算复杂度与模型参数量不够理想。基于此,本文引入VMamba主干网络,使模型获取全局人群信息达到线性复杂度,并设计一种随机Mask自监督训练策略用于增强训练效果。结果表明:该方法在ShangahiTech数据集上表现出有效性与先进性。本文方法一方面可以有效避免因像素级标注产生的人工成本,另一方面轻量的参数与较高的精度也能使其直接应用于交通检测、人流管理等现实任务,具有较高的性价比和实用性。 展开更多
关键词 人群计数 vmamba 随机Mask
在线阅读 下载PDF
MNTSCC:A VMamba-Based Nonlinear Joint Source-Channel Coding for Semantic Communications
4
作者 Chao Li Chen Wang +2 位作者 Caichang Ding Yonghao Liao Zhiwei Ye 《Computers, Materials & Continua》 2025年第11期3129-3149,共21页
Deep learning-based semantic communication has achieved remarkable progress with CNNs and Transformers.However,CNNs exhibit constrained performance in high-resolution image transmission,while Transformers incur high c... Deep learning-based semantic communication has achieved remarkable progress with CNNs and Transformers.However,CNNs exhibit constrained performance in high-resolution image transmission,while Transformers incur high computational cost due to quadratic complexity.Recently,VMamba,a novel state space model with linear complexity and exceptional long-range dependency modeling capabilities,has shown great potential in computer vision tasks.Inspired by this,we propose MNTSCC,an efficient VMamba-based nonlinear joint source-channel coding(JSCC)model for wireless image transmission.Specifically,MNTSCC comprises a VMamba-based nonlinear transform module,an MCAM entropy model,and a JSCC module.In the encoding stage,the input image is first encoded into a latent representation via the nonlinear transformation module,which is then processed by the MCAM for source distribution modeling.The JSCC module then optimizes transmission efficiency by adaptively assigning transmission rate to the latent representation according to the estimated entropy values.The proposedMCAMenhances the channel-wise autoregressive entropy model with attention mechanisms,which enables the entropy model to effectively capture both global and local information within latent features,thereby enabling more accurate entropy estimation and improved rate-distortion performance.Additionally,to further enhance the robustness of the system under varying signal-to-noise ratio(SNR)conditions,we incorporate SNR adaptive net(SAnet)into the JSCCmodule,which dynamically adjusts the encoding strategy by integrating SNRinformationwith latent features,thereby improving SNR adaptability.Experimental results across diverse resolution datasets demonstrate that the proposed method achieves superior image transmission performance compared to existing CNN-and Transformer-based semantic communication models,while maintaining competitive computational efficiency.In particular,under an Additive White Gaussian Noise(AWGN)channel with SNR=10 dB and a channel bandwidth ratio(CBR)of 1/16,MNTSCC consistently outperforms NTSCC,achieving a 1.72 dB Peak Signal-to-Noise Ratio(PSNR)gain on the Kodak24 dataset,0.79 dB on CLIC2022,and 2.54 dB on CIFAR-10,while reducing computational cost by 32.23%.The code is available at https://github.com/WanChen10/MNTSCC(accessed on 09 July 2025). 展开更多
关键词 Semantic communication vmamba wireless image transmission joint source-channel coding channel adaptation nonlinear transformation
在线阅读 下载PDF
基于改进VMamba-DFF-YOLOv10的乳腺癌图像识别
5
作者 惠雨晨 戴道成 +1 位作者 王富强 胡少青 《信息技术与信息化》 2025年第4期43-46,共4页
多年来,利用深度学习进行早期乳腺癌诊断可以提高诊断效果。然而,传统的诊断方法有其局限性,如复杂的特征提取和多阶段分类过程。这些过程不仅增加了计算的复杂性,也影响了分类的效率和准确性,依赖单一成像模式有可能漏诊或误诊。考虑到... 多年来,利用深度学习进行早期乳腺癌诊断可以提高诊断效果。然而,传统的诊断方法有其局限性,如复杂的特征提取和多阶段分类过程。这些过程不仅增加了计算的复杂性,也影响了分类的效率和准确性,依赖单一成像模式有可能漏诊或误诊。考虑到VMamba在乳腺肿瘤图像识别的效率-性能权衡中经常出现的不足,以及Transformers固有的二次计算复杂性,文章提出了VMamba-DFF-YOLOv10模型。该模型集成了VMamba和YOLO技术的原理,并用空间通道解耦下采样取代了VMamba中的下采样组件,以促进乳腺癌图像识别和FLOPS的高效协同。此外,引入双相特征融合(dual-phase feature fusion)技术,结合两种成像模式(乳腺X射线照相术和核磁共振成像)进行分类,通过整合来自不同模式的信息,显著提高了分类准确性。实验结果表明,与其他模型相比,VMamba-DFF-YOLOv10模型取得了更好的结果。例如,该方法的准确率、AP、AUC和Kappa分别达到了83.34%、93.79%、0.95和86.1%,与其他模型相比,FLOP更少,准确率更高。 展开更多
关键词 乳腺癌检测 vmamba YOLOv10 多模态成像融合
在线阅读 下载PDF
基于VMamba-CNN混合的结直肠癌切片图像分割
6
作者 王劭羽 陈庆奎 黄陈 《建模与仿真》 2025年第4期799-810,共12页
该研究提出一种基于VMamba和卷积神经网络(CNN)混合架构的结直肠癌(CRC)病理切片图像分割方法VMDC-Unet,旨在解决传统方法在处理肿瘤异质性、复杂背景及模糊边界时的不足。该方法通过融合VMamba模型的长距离依赖处理能力和CNN的局部特... 该研究提出一种基于VMamba和卷积神经网络(CNN)混合架构的结直肠癌(CRC)病理切片图像分割方法VMDC-Unet,旨在解决传统方法在处理肿瘤异质性、复杂背景及模糊边界时的不足。该方法通过融合VMamba模型的长距离依赖处理能力和CNN的局部特征提取优势,引入改进的ConvNext模块以增强细粒度特征提取,并设计局部自注意力机制优化跳跃连接的特征融合效率。实验结果表明,在SJTU_GSFPH和Glas数据集上,VMDC-Unet的分割精度与泛化能力均优于其他基准模型,消融实验进一步验证了各模块的有效性。该工作为医学图像分割提供了多模型协同的新思路,其结合全局依赖建模与局部特征强化的策略,为CRC精准诊疗提供了可靠的技术支持。 展开更多
关键词 医学图像分割 卷积神经网络 结直肠癌 vmamba
在线阅读 下载PDF
DACSNet:基于双注意力机制与分类监督的乳腺超声图像病变检测
7
作者 李方 王洁 《计算机科学》 北大核心 2025年第9期54-61,共8页
超声成像是乳腺病变最常用的检测技术,基于深度学习的乳腺超声图像自动化病变检测引起了越来越多的研究人员关注。然而,大部分研究未能充分融合图像信息来增强特征,也未考虑到注意力模块的引入带来的模型复杂度增大和假阳率升高的问题... 超声成像是乳腺病变最常用的检测技术,基于深度学习的乳腺超声图像自动化病变检测引起了越来越多的研究人员关注。然而,大部分研究未能充分融合图像信息来增强特征,也未考虑到注意力模块的引入带来的模型复杂度增大和假阳率升高的问题。因此,对现有的RetinaNet模型进行改进,以VMamba为骨干网络,提出了基于双注意力机制与分类监督的病变检测网络(DACSNet)以提高乳腺超声图像中病变检测的准确性,并降低检测假阳率。具体来说,将医学领域的知识引入注意力模块,通过双注意力模块(DAM)来增强通道维度和空间维度的特征。DAM仅涉及少量参数,且能有效提高模型的检测性能。此外,为了降低病变检测的假阳率,在模型中加入了分类监督模块(CSM)来融合病变分类信息,实现对疑似病变区域的二次关注。为了验证DACSNet的性能,在3组公开的乳腺超声图像数据集上进行了乳腺病变检测实验,结果证明了该方法的有效性。 展开更多
关键词 乳腺超声图像 病变检测 vmamba 双注意力模块 分类监督
在线阅读 下载PDF
一种结合Mamba和YOLOv8的结肠镜图像息肉检测算法
8
作者 邱春林 王冰莹 胡凯 《湘潭大学学报(自然科学版)》 2025年第3期54-64,共11页
该文提出了一种融合改进的视觉状态空间模型(VMamba)和YOLOv8的网络模型YOLOMamba用于结肠镜图像息肉检测任务.YOLOMamba利用VMamba的状态空间模型(SSM)捕获长距离依赖的特性增强了模型全局特征提取能力.同时,为了适应息肉检测任务,该... 该文提出了一种融合改进的视觉状态空间模型(VMamba)和YOLOv8的网络模型YOLOMamba用于结肠镜图像息肉检测任务.YOLOMamba利用VMamba的状态空间模型(SSM)捕获长距离依赖的特性增强了模型全局特征提取能力.同时,为了适应息肉检测任务,该文通过改进VMamba,使模型在保证样本粗粒度特征提取的同时,有效提升原本SSM的局部特征提取能力.融合后的模型在仅仅具有YOLOv840%参数量、30%计算量的情况下,性能依旧匹敌甚至优于YOLOv8,既实现了轻量化又提升了模型精度.该文在3个公开数据集上进行了实验评估.对比目前常用目标检测模型,该文提出的YOLOMamba息肉检测算法在精度和视觉效果上均获得了提升. 展开更多
关键词 息肉检测 vmamba YOLOv8
在线阅读 下载PDF
基于改进YOLOv8s的矿用输送带异物检测方法
9
作者 李润泽 郭星歌 +2 位作者 杨发展 赵培培 谢国龙 《工矿自动化》 北大核心 2025年第6期96-104,共9页
针对矿井低照度环境下输送带异物检测算法存在的图像全局特征提取不足、模型参数量过大等问题,提出一种基于改进YOLOv8s的矿用输送带异物检测方法。利用VMamba和MobileNetv4对YOLOv8s进行改进:采用MobileNetv4改进主干网络,集成通用逆瓶... 针对矿井低照度环境下输送带异物检测算法存在的图像全局特征提取不足、模型参数量过大等问题,提出一种基于改进YOLOv8s的矿用输送带异物检测方法。利用VMamba和MobileNetv4对YOLOv8s进行改进:采用MobileNetv4改进主干网络,集成通用逆瓶颈(UIB)模块,通过高效倒置残差结构降低模型整体参数量,通过动态特征适应机制增强小目标场景的特征鲁棒性;通过VMamba的视觉状态空间(VSS)模块改进核心特征提取与融合模块C2f,通过状态空间模型和四向扫描机制高效捕捉图像中的全局上下文信息,增强模型对图像全局结构的理解;设计了参数共享轻量化检测头,使用分组归一化(GN)作为归一化卷积基本块,弥补模型轻量化所带来的精度损失。实验结果表明:改进YOLOv8s模型在自建数据集上的mAP@0.5达0.921,mAP@0.5:0.95达0.601,参数量较YOLOv8s减少27.7%,性能优于主流目标检测模型YOLOv11s,YOLOv10s等,可以满足矿用输送带异物检测需求。 展开更多
关键词 输送带异物检测 YOLOv8s vmamba MobileNetv4 轻量化 分组归一化
在线阅读 下载PDF
DepthMamba:多尺度VisionMamba架构的单目深度估计
10
作者 徐志斌 张孙杰 《计算机应用研究》 北大核心 2025年第3期944-948,共5页
在单目深度估计领域,虽然基于CNN和Transformer的模型已经得到了广泛的研究,但是CNN全局特征提取不足,Transformer则具有二次计算复杂性。为了克服这些限制,提出了一种用于单目深度估计的端到端模型,命名为DepthMamba。该模型能够高效... 在单目深度估计领域,虽然基于CNN和Transformer的模型已经得到了广泛的研究,但是CNN全局特征提取不足,Transformer则具有二次计算复杂性。为了克服这些限制,提出了一种用于单目深度估计的端到端模型,命名为DepthMamba。该模型能够高效地捕捉全局信息并减少计算负担。具体地,该方法引入了视觉状态空间(VSS)模块构建编码器-解码器架构,以提高模型提取多尺度信息和全局信息的能力。此外,还设计了MLPBins深度预测模块,旨在优化深度图的平滑性和整洁性。最后在室内场景NYU_Depth V2数据集和室外场景KITTI数据集上进行了综合实验,实验结果表明:与基于视觉Transformer架构的Depthformer相比,该方法网络参数量减少了27.75%,RMSE分别减少了6.09%和2.63%,验证了算法的高效性和优越性。 展开更多
关键词 单目深度估计 vmamba Bins深度预测 状态空间模型
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部