结合CNN和多尺度视觉状态空间的遥感图像语义分割网络

CNN and Multi-scale Visual State Space Network for Semantic Segmentation of Remote Sensing Images

下载PDF

导出

摘要现有的遥感图像语义分割方法面临显著挑战:基于卷积神经网络(CNN)的方法缺乏远程建模能力,在复杂遥感场景中的分割性能受限;基于Transformer的方法计算复杂度随输入图像尺寸呈平方级增长,难以兼顾分割性能与计算效率。最近,视觉状态空间模型(VSS)因能够以线性计算复杂度建模全局依赖关系而受到广泛关注。针对上述问题,提出了一种结合CNN与VSS的遥感图像语义分割网络,旨在同时兼顾性能与效率。网络由基于CNN构成的编码器和基于VSS的解码器组成,用于建模局部信息并捕获远程上下文依赖关系。引入多尺度深度卷积和坐标注意力机制,构建多尺度前馈网络(MSFFN)替换原始VSS中的前馈网络(FFN),以缓解顺序扫描机制带来的2D图像局部区域空间像素不连续问题,同时增强多尺度特征表示。此外,设计空间通道聚合增强模块(SCAEM),充分融合编码器浅层细节信息和解码器全局语义信息,实现高效特征聚合。使用辅助分割头优化梯度传播和特征学习的方向,促进更准确的分割结果输出。在Vaihingen、Potsdam和LoveDA数据集上与一些先进的语义分割网络进行了对比实验,实验结果表明,提出的网络在这三个公共数据集上的表现优于其他分割网络. Existing methods for semantic segmentation of remote sensing images face significant challenges:convolutional neural network(CNN)-based methods lack remote modeling capability and have limited segmentation efficacy in complex scenes.Transformer-based methods have a computational complexity that grows in square steps with the size of the input image,which makes it difficult to balance segmentation performance and computational efficiency.Recently,visual state space(VSS)has received much attention for its ability to model global dependencies with linear computational complexity.A semantic segmentation network for remote sensing images combining CNN and VSS is proposed to address the above problems,aiming to balance the performance and efficiency at the same time.Specifically,the network consists of a CNN-based encoder and a VSS-based decoder for extracting local correlations and capturing long-range contextual dependencies.The multi-scale deep convolution and coordinate attention mechanisms are introduced to construct a multiscale feed-forward network(MSFFN)to replace the feed-forward network(FFN)in the original VSS,in order to address the token fragmentation issue within local 2D image regions caused by sequential scanning mechanisms,while enhancing the multi-scale feature representation.The spatial channel aggregated enhancement module(SCAEM)is designed to fully fuse the shallow detail information of the encoder and the global semantic information of the decoder to achieve efficient feature aggregation.An auxiliary segmentation head aids gradient propagation and feature refinement,leading to superior segmentation outputs.Comparison experiments with some state-of-the-art semantic segmentation methods on Vaihingen,Potsdam and LoveDA datasets are conducted,and the experimental results show that the proposed network outperforms other segmentation networks on these three public datasets.

作者蔺月妮汪西莉 LIN Yueni;WANG Xili(School of Artificial Intelligence and Computer Science,Shaanxi Normal University,Xi’an 710119,Ch)

机构地区陕西师范大学人工智能与计算机学院

出处《计算机科学与探索》北大核心 2025年第12期3290-3302,共13页 Journal of Frontiers of Computer Science and Technology

基金科技部青藏高原科考专项第二次青藏高原综合科学考察研究项目(2019QZKK0405) 国家自然科学基金(42361056)。

关键词遥感图像语义分割:视觉状态空间多尺度特征卷积神经网络 remote sensing images semantic segmentation visual state space multi-scale features convolutional neural network

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1梁敏,汪西莉.结合超分辨率和域适应的遥感图像语义分割方法[J].计算机学报,2022,45(12):2619-2636. 被引量：14
2马妍,古丽米拉·克孜尔别克.图像语义分割方法在高分辨率遥感影像解译中的研究综述[J].计算机科学与探索,2023,17(7):1526-1548. 被引量：19
3罗旭东,吴一全,陈金林.无人机航拍影像目标检测与语义分割的深度学习方法研究进展[J].航空学报,2024,45(6):235-264. 被引量：32

二级参考文献89

1刘健庄,栗文青.灰度图象的二维Otsu自动阈值分割法[J].自动化学报,1993,19(1):101-105. 被引量：364
2黄卉,檀结庆.一种基于区域分割的图像融合方法[J].合肥工业大学学报（自然科学版）,2005,28(6):577-580. 被引量：3
3段瑞玲,李庆祥,李玉和.图像边缘检测方法研究综述[J].光学技术,2005,31(3):415-419. 被引量：390
4李利伟,刘吉平,尹作为.基于数学形态学的高分辨率遥感影像道路提取[J].遥感信息,2005,27(5):9-11. 被引量：31
5李晖晖,郭雷,刘航.基于区域分割的遥感图像融合方法[J].光子学报,2005,34(12):1901-1905. 被引量：25
6姜涌,曹杰,谢求成,李勃.一种基于形态学梯度矢量和自适应模糊的目标边缘提取算法[J].武汉大学学报（信息科学版）,2006,31(6):484-488. 被引量：7
7田岩岩,齐国清.基于小波变换模极大值的边缘检测方法[J].大连海事大学学报,2007,33(1):102-106. 被引量：29
8范九伦,赵凤,张雪峰.三维Otsu阈值分割方法的递推算法[J].电子学报,2007,35(7):1398-1402. 被引量：70
9张跃进,谢昕.基于IHS和小波变换的遥感图像融合方法研究[J].华东交通大学学报,2008,25(1):49-52. 被引量：4
10秦昆,徐敏.基于云模型和FCM聚类的遥感图像分割方法[J].地球信息科学,2008,10(3):302-307. 被引量：25

共引文献62

1曾叶纯,汪辉进.基于神经网络的医学图像特征提取算法研究[J].西安文理学院学报（自然科学版）,2024,27(1):27-31. 被引量：1
2刘丹英,刘晓燕.基于U⁃net卷积神经网络的多尺度遥感图像分割算法[J].现代电子技术,2023,46(21):44-47. 被引量：6
3王宇骥,董昊呈,龚雪鸾,陈艳姣.基于潜在注意力的高性能视频超分辨率技术[J].计算机科学,2023,50(S02):216-225.
4孙彦景,王兴兴,云霄,张晓光,周玉.基于无监督深度学习的图像拼接实验设计与实现[J].实验室研究与探索,2024,43(1):114-118.
5谢国波,何林,林志毅,张文亮,陈逸.基于L-DeepLabv3+的轻量化光学遥感图像道路提取[J].激光杂志,2024,45(3):111-117. 被引量：3
6丁三三,王映,苏浩楠.基于深度学习的无人机航拍影像自动化识别与分类研究[J].移动信息,2024,46(6):279-281.
7谢文,朱舒文.改进DeepLabV3+遥感高分影像地面道路提取方法[J].地矿测绘,2024,40(2):1-6.
8牟彦霖,刘向阳.多时态BIT遥感图像建筑物的变化检测[J].计算机系统应用,2024,33(6):185-191.
9曲晨阳,吕进,卫策.基于改进YOLOv8s的无人机目标检测算法[J].国外电子测量技术,2024,43(7):14-23. 被引量：8
10王浩宇,杨海涛,王晋宇,周玺璇,张宏钢,徐一帆.遥感图像去噪方法研究综述[J].计算机工程与应用,2024,60(15):55-65. 被引量：5

1张杨,江松林,朱松豪.多尺度特征融合和上下文混合注意力机制的单图像去模糊[J].小型微型计算机系统,2025,46(11):2633-2642.
2张远皓.学习任务群驱动下的高中语文阅读教学——以《烛之武退秦师》为例[J].中学生作文指导,2025(23):42-45.
3张虎,李慧颖,胡开华.基于改进YOLO11的瓷砖表面检测轻量级算法[J].陶瓷学报,2025,46(5):1035-1044.
4张凯,于瓅.基于MPC-YOLOv8算法的遥感影像目标检测[J].哈尔滨商业大学学报(自然科学版),2025,41(6):651-660.
5赖晓婷,张静.语义扩散对齐的多尺度感知医学图像分割方法[J].计算机辅助设计与图形学学报,2025,37(8):1394-1404.
6朱婷.试论人工智能对职教教学形态的挑战与实践[J].小说月刊(下半月),2025(18):0152-0153.
7孙显梅.借“柯达伊”之法,创合唱课堂之效[J].漫科学(科技应用),2025(7):229-231.
8刘婧.课程思政视域下高校大学英语第二课堂活动融入路径探究[J].海外英语,2025(20):160-162. 被引量：1
9杨江凯,丁荣,王成辉,古锐.基于YOLO模型的粗茎秦艽和麻花艽物种识别与计数[J].成都中医药大学学报,2025,48(6):1-8.

计算机科学与探索

2025年第12期

浏览历史

内容加载中请稍等...

结合CNN和多尺度视觉状态空间的遥感图像语义分割网络

参考文献3

二级参考文献89

共引文献62

相关作者

相关机构

相关主题

浏览历史