CATrans:基于跨尺度注意力Transformer的高分辨率遥感影像土地覆盖语义分割框架被引量：1

CATrans: A Cross-Scale Attention Transformer for Land Cover Semantic Segmentation in High-Resolution Remote Sensing Images

原文传递

导出

摘要【目的】高分辨率遥感影像语义分割通过精准提取地物信息,为城市规划、土地分析利用提供了重要的数据支持。当前分割方法通常将遥感影像划分为标准块,进行多尺度局部分割和层次推理,未充分考虑影像中的上下文先验知识和局部特征交互能力,影响了推理分割质量。【方法】为了解决这一问题,本文提出了一种联合跨尺度注意力和语义视觉Transformer的遥感影像分割框架(Cross-scale Attention Transformer,CATrans),融合跨尺度注意力模块和语义视觉Transformer,提取上下文先验知识增强局部特征表示和分割性能。首先,跨尺度注意力模块通过空间和通道两个维度进行并行特征处理,分析浅层-深层和局部-全局特征之间的依赖关系,提升对遥感影像中不同粒度对象的注意力。其次,语义视觉Transformer通过空间注意力机制捕捉上下文语义信息,建模语义信息之间的依赖关系。【结果】本文在DeepGlobe、Inria Aerial和LoveDA数据集上进行对比实验,结果表明:CATrans的分割性能优于现有的WSDNet(Discrete Wavelet Smooth Network)和ISDNet(Integrating Shallow and Deep Network)等分割算法,分别取得了76.2%、79.2%、54.2%的平均交并比(Mean Intersection over Union,mIoU)和86.5%、87.8%、66.8%的平均F1得分(Mean F1 Score,mF1),推理速度分别达到38.1 FPS、13.2 FPS和95.22 FPS。相较于本文所对比的最佳方法WSDNet,mIoU和mF1在3个数据集中分别提升2.1%、4.0%、5.3%和1.3%、1.8%、5.6%,在每类地物的分割中都具有显著优势。【结论】本方法实现了高效率、高精度的高分辨率遥感影像语义分割。 [Objectives] High-resolution remote sensing image segmentation provides essential data support for urban planning, land use, and land cover analysis by accurately extracting terrain information. However, traditional methods face challenges in predicting object categories at the pixel level due to the high computational cost of processing high-resolution images. Current segmentation approaches often divide remote sensing images into a series of standard blocks and perform multi-scale local segmentation, which captures semantic information at different granularities. However, these methods exhibit weak feature interaction between blocks, as they do not consider contextual prior knowledge, ultimately reducing local segmentation performance. [Methods] To address this issue, this paper proposes a high-resolution remote sensing image segmentation framework named CATrans (Cross-scale Attention Transformer), which combines cross-scale attention with a semantic-based visual Transformer. CATrans first predicts the segmentation results of local blocks and then merges them to produce the final global image segmentation. It introduces contextual prior knowledge to enhance local feature representation. Specifically, we propose a cross-scale attention mechanism to integrate contextual semantic information with multi-level features. The multi-branch parallel structure of the cross-scale attention module enhances focus on objects of varying granularities by analyzing shallow-deep and local-global dependencies. This mechanism aggregates cross-spatial information across various dimensions and weights multi-scale kernels to strengthen multi-level feature representations, enabling the model to avoid deep stacking and multiple sequential processes. Additionally, a semantic-based visual Transformer is adopted to couple multi-level contextual semantic information. Spatial attention is used to reinforce these semantic representations. The multi-level contextual information is grouped to form abstract semantic concepts, which are then fed into the Transformer for sequence modeling. The self-attention mechanism within the Transformer captures dependencies between different positions in the input sequence, thereby enhancing the correlation between contextual semantics and spatial positions. Finally, enhanced contextual semantics are generated through feature mapping. [Results] This paper conducts comparative experiments on the DeepGlobe, Inria Aerial, and LoveDA datasets. The results show that CATrans outperforms existing segmentation methods, including Discrete Wavelet Smooth Network (WSDNet) and Integrating Shallow and Deep Network (ISDNet). CATrans achieves a Mean Intersection over Union (mIoU) of 76.2%, 79.2%, and 54.2%, and a Mean F1 Score (mF1) of 86.5, 87.8%, and 66.8%, with inference speeds of 38.1 FPS, 13.2 FPS, and 95.22 FPS on the respective datasets. Compared to the best-performing method, WSDNet, CATrans improves segmentation performance across all classes, with mIoU gains of 2.1%, 4.0%, and 5.3%, and mF1 gains of 1.3%, 1.8%, and 5.6%. [Conclusions] These findings highlight that the proposed CATrans framework significantly enhances high-resolution remote sensing image segmentation by incorporating contextual prior knowledge to improve local feature representation. It achieves an effective balance between segmentation performance and computational efficiency.

作者陈丽佳陈宏辉谢艳秋何天友叶菁吴林煌 CHEN Lijia;CHEN Honghui;XIE Yanqiu;HE Tianyou;YE Jing;WU Linhuang(College of Art and Design,Fujian Business University,Fuzhou 350599,China;College of Physics and Information Engineering,Fuzhou University,Fuzhou 350108,China;College of Landscape Architecture and Art,Fujian Agriculture and Forestry University,Fuzhou 350002,China)

机构地区福建商学院艺术设计学院福州大学物理与信息工程学院福建农林大学风景园林与艺术学院

出处《地球信息科学学报》北大核心 2025年第7期1624-1637,共14页 Journal of Geo-information Science

基金国家自然科学基金项目(62171135) 福建省重大产学研专项(2023XQ004)。

关键词高分辨率语义分割跨尺度注意力视觉Transformer 上下文先验空间注意力语义信息 high-resolution semantic segmentation cross-scale attention visual Transformer contextual prior spatial attention semantic information

分类号 TP391.41 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1衡雪彪,许捍卫,唐璐,汤恒,许怡蕾.基于改进全卷积神经网络模型的土地覆盖分类方法研究[J].地球信息科学学报,2023,25(3):495-509. 被引量：9
2王春艳,王子康.改进区间二型模糊神经网络的遥感图像分割方法[J].地球信息科学学报,2025,27(2):522-535. 被引量：4
3张银胜,单梦姣,陈昕,陈戈,童俊毅,吉茹,单慧琳.基于多模态特征提取与层级感知的遥感图像分割[J].地球信息科学学报,2024,26(12):2741-2758. 被引量：4
4林雨准,金飞,王淑香,左溪冰,戴林鑫杰,黄子恒.多分支双任务的多模态遥感影像道路提取方法[J].地球信息科学学报,2024,26(6):1547-1561. 被引量：6
5Meng-Hao Guo,Tian-Xing Xu,Jiang-Jiang Liu,Zheng-Ning Liu,Peng-Tao Jiang,Tai-Jiang Mu,Song-Hai Zhang,Ralph R.Martin,Ming-Ming Cheng,Shi-Min Hu.Attention mechanisms in computer vision:A survey[J].Computational Visual Media,2022,8(3):331-368. 被引量：234

二级参考文献21

1王春艳,金鹏,桂琪皓.区间二型模糊神经网络遥感图像分割方法[J].测绘科学,2024,49(5):84-98. 被引量：4
2周星宇,张继贤,高绵新,桑会勇,翟亮.高分辨率遥感影像下沿海地区地表覆盖信息的提取[J].测绘通报,2017(2):19-24. 被引量：16
3韦兴旺,张雪锋,薛云.基于光谱和形状的遥感图像分割质量评估方法[J].地球信息科学学报,2018,20(10):1489-1499. 被引量：6
4邹同元,丁火平,王玮哲,肖倩.天基遥感大数据人工智能应用探讨[J].卫星应用,2019,27(6):38-44. 被引量：8
5袁立,袁吉收,张德政.基于DeepLab-v3+的遥感影像分类[J].激光与光电子学进展,2019,56(15):228-235. 被引量：31
6张寅丹,王苗苗,陆海霞,刘勇.基于监督与非监督分割评价方法提取高分辨率遥感影像特定目标地物的对比研究[J].地球信息科学学报,2019,21(9):1430-1443. 被引量：5
7刘浩,骆剑承,黄波,杨海平,胡晓东,徐楠,夏列钢.基于特征压缩激活Unet网络的建筑物提取[J].地球信息科学学报,2019,21(11):1779-1789. 被引量：43
8郭颖,李增元,陈尔学,张旭,赵磊,陈艳,王雅慧.一种改进的高空间分辨率遥感影像森林类型深度学习精细分类方法:双支FCN-8s[J].林业科学,2020,56(3):48-60. 被引量：11
9刘纪远,张增祥,张树文,颜长珍,吴世新,李仁东,匡文慧,史文娇,黄麟,宁佳,董金玮.中国土地利用变化遥感研究的回顾与展望——基于陈述彭学术思想的引领[J].地球信息科学学报,2020,22(4):680-687. 被引量：46
10李森,彭玲,胡媛,池天河.基于FD-RCF的高分辨率遥感影像耕地边缘检测[J].中国科学院大学学报（中英文）,2020,37(4):483-489. 被引量：17

共引文献251

1樊新成,张喜来,林庆润,郝君明,李旺平.融合合成孔径雷达和光学影像的土地覆被分类方法研究[J].测绘通报,2024(S02):167-174. 被引量：5
2杨阳,王媛青,李石磊,卢立峰.结合LSTM与Attention的高速公路路段旅行时间预测方法[J].交通与运输,2022,38(3):61-64. 被引量：1
3宋晓玲,刘勇,董景楠,黄勇飞.元宇宙中区块链的应用与展望[J].网络与信息安全学报,2022,8(4):45-65. 被引量：9
4周孟然,李学松,朱梓伟,黄凯文.井下矿工多目标检测与跟踪联合算法[J].工矿自动化,2022,48(10):40-47. 被引量：6
5蔡标,葛成,徐晴,陆翼,孔韧,常珊.基于Transformer网络的抗癌肽的预测[J].现代计算机,2022,28(18):9-15. 被引量：1
6王剑,王晓锋.基于VGG-19和Vision Transformer的乳腺超声图像分类方法[J].信息技术与信息化,2022(11):25-28. 被引量：1
7王延军,陈亚男,姚志鹏.基于机器视觉测试高锰酸盐指数的方法研究[J].环境科技,2022,35(6):51-54. 被引量：2
8戚婧,阮广聪,杨毅,吴毅,曹倩,魏艳玲,粘永健.空间双线性注意力网络识别溃疡性结肠炎与克罗恩病[J].陆军军医大学学报,2023,45(3):227-234.
9李超,陈秋帆.基于卷积神经网络的建筑空间改造智能辅助设计研究[J].自动化与仪器仪表,2023(4):191-195. 被引量：1
10毛亚菲,毕晓君.改进ResNeSt网络的拓片甲骨文字识别[J].智能系统学报,2023,18(3):450-458. 被引量：7

同被引文献5

1何江,刘勇.基于多层次分割及形状因子优化的高分辨率遥感影像城市建筑物和道路提取研究[J].测绘技术装备,2019,21(1):26-31. 被引量：6
2王若兰,李辉.基于对抗学习与形状修正的遥感图像建筑提取[J].半导体光电,2024,45(6):1031-1038. 被引量：1
3周阳,李辉.基于语义和细节特征双促进的遥感影像建筑物提取网络[J].计算机应用,2025,45(4):1310-1316. 被引量：1
4孟月波,苏世龙,黄欣羽,王恒.细节增强与跨尺度几何特征融合的遥感影像建筑物提取网络[J].地球信息科学学报,2025,27(4):930-945. 被引量：1
5谭宝琳,杨盼,林璐,付姣菊.高分辨率卫星遥感影像在土地利用分类中的应用[J].科技与创新,2025(12):225-228. 被引量：1

引证文献1

1龚思诗,李圣文,王渝,闵楠,赵宇翔,方芳,周顺平.SACE-Net:结构感知的高分遥感影像建筑物与道路协同提取方法[J].地球信息科学学报,2025,27(12):2894-2909.

1杨芷娟,唐灿,曹晓莉,冷明俊,余先怀.基于改进Siam-HRNet算法的遥感影像森林覆盖语义变化检测[J].自动化与仪器仪表,2022(7):9-14. 被引量：2
2赵恩源,宋宁,聂婕,王鑫,郑程予,魏志强.面向遥感视觉问答的尺度引导融合推理网络[J].软件学报,2024,35(5):2133-2149. 被引量：1
3王正家,雷卓,杨晓龙,张成娟,丁聪.基于线激光的大型圆柱壳体筋板垂直度检测方法[J].传感器与微系统,2025,44(5):29-33.
4杜孙稳,宋瑞婷,高志宇,史淼,张浩然.基于改进UNet3+的露天矿无人机影像阴影提取[J].电子测量技术,2025,48(13):73-83.
5王晓军,马廷吉,王东清,刘华,马斌.沙壤土条件下减氮配施有机肥对茴香苗菜土壤养分及产量的影响[J].中国瓜菜,2025,38(7):199-205.
6周天彤,郑妍琪,魏韬,戴亚康,邹凌.融合变分图自编码器与局部-全局图网络的认知负荷脑电识别模型[J].计算机应用,2025,45(6):1849-1857. 被引量：1
7刘宣广,李玉洁,张振超,戴晨光,张昊,缪毓喆,朱涵,卢金浩.CVS-Net:基于时空关系建模与边缘信息强化的遥感影像语义变化检测方法[J].地球信息科学学报,2025,27(5):1144-1162.
8Kiran Jabeen,Muhammad Attique Khan,Ameer Hamza,Hussain Mobarak Albarakati,Shrooq Alsenan,Usman Tariq,Isaac Ofori.An EfficientNet integrated ResNet deep network and explainable AI for breast lesion classification from ultrasound images[J].CAAI Transactions on Intelligence Technology,2025,10(3):842-857.
9Jian Peng,Hui He,Dengyong Zhang.YOLOv8s-DroneNet: Small Object Detection Algorithm Based on Feature Selection and ISIoU[J].Computers, Materials & Continua,2025,84(9):5047-5061.
10范佳志,秦傲韩,杨峰,杨鹰,赵炼恒,高益康.基于六方向贯通式间断线网格的边坡稳定性上限分析[J].自然灾害学报,2025,34(2):110-120.

地球信息科学学报

2025年第7期

浏览历史

内容加载中请稍等...

CATrans:基于跨尺度注意力Transformer的高分辨率遥感影像土地覆盖语义分割框架被引量：1

参考文献5

二级参考文献21

共引文献251

同被引文献5

引证文献1

相关作者

相关机构

相关主题

浏览历史

CATrans:基于跨尺度注意力Transformer的高分辨率遥感影像土地覆盖语义分割框架 被引量：1

参考文献5

二级参考文献21

共引文献251

同被引文献5

引证文献1

相关作者

相关机构

相关主题

浏览历史

CATrans:基于跨尺度注意力Transformer的高分辨率遥感影像土地覆盖语义分割框架被引量：1