期刊文献+
共找到2,058篇文章
< 1 2 103 >
每页显示 20 50 100
Multi-Scale Vision Transformer with Dynamic Multi-Loss Function for Medical Image Retrieval and Classification
1
作者 Omar Alqahtani Mohamed Ghouse +2 位作者 Asfia Sabahath Omer Bin Hussain Arshiya Begum 《Computers, Materials & Continua》 2025年第5期2221-2244,共24页
This paper introduces a novel method for medical image retrieval and classification by integrating a multi-scale encoding mechanism with Vision Transformer(ViT)architectures and a dynamic multi-loss function.The multi... This paper introduces a novel method for medical image retrieval and classification by integrating a multi-scale encoding mechanism with Vision Transformer(ViT)architectures and a dynamic multi-loss function.The multi-scale encoding significantly enhances the model’s ability to capture both fine-grained and global features,while the dynamic loss function adapts during training to optimize classification accuracy and retrieval performance.Our approach was evaluated on the ISIC-2018 and ChestX-ray14 datasets,yielding notable improvements.Specifically,on the ISIC-2018 dataset,our method achieves an F1-Score improvement of+4.84% compared to the standard ViT,with a precision increase of+5.46% for melanoma(MEL).On the ChestX-ray14 dataset,the method delivers an F1-Score improvement of 5.3%over the conventional ViT,with precision gains of+5.0% for pneumonia(PNEU)and+5.4%for fibrosis(FIB).Experimental results demonstrate that our approach outperforms traditional CNN-based models and existing ViT variants,particularly in retrieving relevant medical cases and enhancing diagnostic accuracy.These findings highlight the potential of the proposedmethod for large-scalemedical image analysis,offering improved tools for clinical decision-making through superior classification and case comparison. 展开更多
关键词 Medical image retrieval vision transformer multi-scale encoding multi-loss function ISIC-2018 ChestX-ray14
在线阅读 下载PDF
CT-MFENet:Context Transformer and Multi-Scale Feature Extraction Network via Global-Local Features Fusion for Retinal Vessels Segmentation
2
作者 SHAO Dangguo YANG Yuanbiao +1 位作者 MA Lei YI Sanli 《Journal of Shanghai Jiaotong university(Science)》 2025年第4期668-682,共15页
Segmentation of the retinal vessels in the fundus is crucial for diagnosing ocular diseases.Retinal vessel images often suffer from category imbalance and large scale variations.This ultimately results in incomplete v... Segmentation of the retinal vessels in the fundus is crucial for diagnosing ocular diseases.Retinal vessel images often suffer from category imbalance and large scale variations.This ultimately results in incomplete vessel segmentation and poor continuity.In this study,we propose CT-MFENet to address the aforementioned issues.First,the use of context transformer(CT)allows for the integration of contextual feature information,which helps establish the connection between pixels and solve the problem of incomplete vessel continuity.Second,multi-scale dense residual networks are used instead of traditional CNN to address the issue of inadequate local feature extraction when the model encounters vessels at multiple scales.In the decoding stage,we introduce a local-global fusion module.It enhances the localization of vascular information and reduces the semantic gap between high-and low-level features.To address the class imbalance in retinal images,we propose a hybrid loss function that enhances the segmentation ability of the model for topological structures.We conducted experiments on the publicly available DRIVE,CHASEDB1,STARE,and IOSTAR datasets.The experimental results show that our CT-MFENet performs better than most existing methods,including the baseline U-Net. 展开更多
关键词 retinal vessel segmentation context transformer(CT) multi-scale dense residual hybrid loss function global-local fusion
原文传递
Multi-Scale Fusion Network Using Time-Division Fourier Transform for Rolling Bearing Fault Diagnosis
3
作者 Ronghua Wang Shibao Sun +3 位作者 Pengcheng Zhao Xianglan Yang Xingjia Wei Changyang Hu 《Computers, Materials & Continua》 2025年第8期3519-3539,共21页
The capacity to diagnose faults in rolling bearings is of significant practical importance to ensure the normal operation of the equipment.Frequency-domain features can effectively enhance the identification of fault ... The capacity to diagnose faults in rolling bearings is of significant practical importance to ensure the normal operation of the equipment.Frequency-domain features can effectively enhance the identification of fault modes.However,existing methods often suffer from insufficient frequency-domain representation in practical applications,which greatly affects diagnostic performance.Therefore,this paper proposes a rolling bearing fault diagnosismethod based on aMulti-Scale FusionNetwork(MSFN)using the Time-Division Fourier Transform(TDFT).The method constructs multi-scale channels to extract time-domain and frequency-domain features of the signal in parallel.A multi-level,multi-scale filter-based approach is designed to extract frequency-domain features in a segmented manner.A cross-attention mechanism is introduced to facilitate the fusion of the extracted time-frequency domain features.The performance of the proposed method is validated using the CWRU and Ottawa datasets.The results show that the average accuracy of MSFN under complex noisy signals is 97.75%and 94.41%.The average accuracy under variable load conditions is 98.68%.This demonstrates its significant application potential compared to existing methods. 展开更多
关键词 Rolling bearing fault diagnosis time-division fourier transform cross-attention multi-scale feature fusion
在线阅读 下载PDF
三维卷积与Transformer支持下联合空谱特征的高光谱影像分类 被引量:1
4
作者 何光 吴田军 《计算机工程与应用》 北大核心 2025年第2期259-272,共14页
由于CNN对局部特征提取能力强,目前仍是高光谱影像处理和分析中的主流深度模型,但是CNN感受野有限,无法建立长距离依赖关系,学习全局语义信息受限。Transformer的自注意力机制可以对输入序列中的每个位置进行注意力计算,从而能有效获取... 由于CNN对局部特征提取能力强,目前仍是高光谱影像处理和分析中的主流深度模型,但是CNN感受野有限,无法建立长距离依赖关系,学习全局语义信息受限。Transformer的自注意力机制可以对输入序列中的每个位置进行注意力计算,从而能有效获取全局上下文信息。如何实现CNN和Transformer的技术耦合并充分利用空间信息和光谱信息进行高光谱遥感影像分类是一个重要的待研问题。鉴于此,提出一种新的基于三维卷积和Transformer的高光谱遥感影像分类方法,尝试联合空谱特征实现解译能力的提升。使用主成分分析方法对高光谱遥感影像沿垂直方向降维;用非负矩阵分解算法对降维后遥感影像沿水平方向进行空间特征提取,将两种工具处理后遥感影像进行拼接,以充分保留信息;再用三维卷积核对拼接后遥感影像进行空间特征和光谱特征的综合提取;用Transformer的注意力机制对提取空间信息和光谱信息的遥感影像序列建立长距离依赖关系并使用多层感知机完成分类任务。实验表明,所提方法在WHU-Hi龙口、汉川、洪湖以及雄安新区马蹄湾村数据集上均表现出比对比方法更优异的分类性能,表明该方法具有一定的泛化性和稳健性。 展开更多
关键词 非负矩阵分解 特征融合 三维卷积 空谱联合 transformer 高光谱遥感影像分类
在线阅读 下载PDF
基于Swin-AK Transformer的智能手机拍摄图像质量评价方法
5
作者 侯国鹏 董武 +4 位作者 陆利坤 周子镱 马倩 柏振 郑晟辉 《光电工程》 北大核心 2025年第1期116-130,共15页
本文提出了一种基于双交叉注意力融合的Swin-AK Transformer(Swin Transformer based on alterable kernel convolution)和手工特征相结合的智能手机拍摄图像质量评价方法。首先,提取了影响图像质量的手工特征,这些特征可以捕捉到图像... 本文提出了一种基于双交叉注意力融合的Swin-AK Transformer(Swin Transformer based on alterable kernel convolution)和手工特征相结合的智能手机拍摄图像质量评价方法。首先,提取了影响图像质量的手工特征,这些特征可以捕捉到图像中细微的视觉变化;其次,提出了Swin-AK Transformer,增强了模型对局部信息的提取和处理能力。此外,本文设计了双交叉注意力融合模块,结合空间注意力和通道注意力机制,融合了手工特征与深度特征,实现了更加精确的图像质量预测。实验结果表明,在SPAQ和LIVE-C数据集上,皮尔森线性相关系数分别达到0.932和0.885,斯皮尔曼等级排序相关系数分别达到0.929和0.858。上述结果证明了本文提出的方法能够有效地预测智能手机拍摄图像的质量。 展开更多
关键词 图像质量评价 智能手机拍摄图像 Swin transformer 手工特征 空间注意力 通道注意力
在线阅读 下载PDF
CATrans:基于跨尺度注意力Transformer的高分辨率遥感影像土地覆盖语义分割框架
6
作者 陈丽佳 陈宏辉 +3 位作者 谢艳秋 何天友 叶菁 吴林煌 《地球信息科学学报》 北大核心 2025年第7期1624-1637,共14页
【目的】高分辨率遥感影像语义分割通过精准提取地物信息,为城市规划、土地分析利用提供了重要的数据支持。当前分割方法通常将遥感影像划分为标准块,进行多尺度局部分割和层次推理,未充分考虑影像中的上下文先验知识和局部特征交互能力... 【目的】高分辨率遥感影像语义分割通过精准提取地物信息,为城市规划、土地分析利用提供了重要的数据支持。当前分割方法通常将遥感影像划分为标准块,进行多尺度局部分割和层次推理,未充分考虑影像中的上下文先验知识和局部特征交互能力,影响了推理分割质量。【方法】为了解决这一问题,本文提出了一种联合跨尺度注意力和语义视觉Transformer的遥感影像分割框架(Cross-scale Attention Transformer,CATrans),融合跨尺度注意力模块和语义视觉Transformer,提取上下文先验知识增强局部特征表示和分割性能。首先,跨尺度注意力模块通过空间和通道两个维度进行并行特征处理,分析浅层-深层和局部-全局特征之间的依赖关系,提升对遥感影像中不同粒度对象的注意力。其次,语义视觉Transformer通过空间注意力机制捕捉上下文语义信息,建模语义信息之间的依赖关系。【结果】本文在DeepGlobe、Inria Aerial和LoveDA数据集上进行对比实验,结果表明:CATrans的分割性能优于现有的WSDNet(Discrete Wavelet Smooth Network)和ISDNet(Integrating Shallow and Deep Network)等分割算法,分别取得了76.2%、79.2%、54.2%的平均交并比(Mean Intersection over Union,mIoU)和86.5%、87.8%、66.8%的平均F1得分(Mean F1 Score,mF1),推理速度分别达到38.1 FPS、13.2 FPS和95.22 FPS。相较于本文所对比的最佳方法WSDNet,mIoU和mF1在3个数据集中分别提升2.1%、4.0%、5.3%和1.3%、1.8%、5.6%,在每类地物的分割中都具有显著优势。【结论】本方法实现了高效率、高精度的高分辨率遥感影像语义分割。 展开更多
关键词 高分辨率 语义分割 跨尺度注意力 视觉transformer 上下文先验 空间注意力 语义信息
原文传递
基于Transformer与图卷积网络的三维人体姿态估计
7
作者 王宇晶 包明明 刘星 《传感技术学报》 北大核心 2025年第9期1624-1630,共7页
提出了一种Transformer与图网络相结合的网络模型,用于对视觉传感器采集到的视频图像进行三维人体姿态估计。Transformer能够有效地从二维关键关节点中提取时空维度高相关性特征,而图网络则能够感知细节相关性特征,通过融合这两种网络结... 提出了一种Transformer与图网络相结合的网络模型,用于对视觉传感器采集到的视频图像进行三维人体姿态估计。Transformer能够有效地从二维关键关节点中提取时空维度高相关性特征,而图网络则能够感知细节相关性特征,通过融合这两种网络结构,提高了三维姿态估计的精度。在公开数据集Human3.6M上进行了仿真实验,验证了Transformer与图卷积融合算法的性能。实验结果显示,最终估计得到的三维人体关节点的平均关节点位置偏差(Mean Per Joint Position Error,MPJPE)为38.4 mm,相较于现有方法有一定提升,表明该方法具有较强的应用价值,可应用于许多下游相关工作中。 展开更多
关键词 三维人体姿态估计 transformer 图卷积 时空相关性
在线阅读 下载PDF
基于多尺度空间Transformer的肝脏分割方法
8
作者 丁厚林 张晓龙 +2 位作者 林晓丽 邓鹤 任宏伟 《计算机技术与发展》 2025年第2期1-8,共8页
肝脏器官尺度多样且与周围器官高度相似,很难从腹部计算机影像中准确分割出肝脏区域,现有的很多方法将CNN和Transformer相结合以得到图像局部和全局特征依赖关系,从而取得了更好的性能。然而,简单的组合方法忽视了图像分割中多尺度特征... 肝脏器官尺度多样且与周围器官高度相似,很难从腹部计算机影像中准确分割出肝脏区域,现有的很多方法将CNN和Transformer相结合以得到图像局部和全局特征依赖关系,从而取得了更好的性能。然而,简单的组合方法忽视了图像分割中多尺度特征融合和注意力机制的重要性,没有很好地解决肝脏分割问题。该文提出了一种用于肝脏分割的多尺度空间Transformer与交叉自注意机制的三维肝脏影像分割方法。该方法首先采用CNN和Transformer相结合的方式逐步提取不同尺度的特征信息使网络对肝脏及其周围组织的识别更加准确;接着利用多尺度空间Transformer对不同层次和尺度特征的图像在空间维度上融合,提高了网络对肝脏边缘的定位能力;最后在解码器中设计了交叉自注意引导融合模块减少噪声等不相关信息带来的干扰,提高分割质量。在LiTS、CHAOS、Sliver07和某医院MRI数据集上进行了对比和消融实验,实验结果表明,该方法相较于当前的主流网络具有更好的分割性能和临床应用前景。 展开更多
关键词 三维肝脏影像分割 深度学习 交叉自注意机制 多尺度空间transformer 多尺度特征融合
在线阅读 下载PDF
LSD-DETR:a Lightweight Real-Time Detection Transformer for SAR Ship Detection
9
作者 GAO Gui LINGHU Wenya 《Journal of Geodesy and Geoinformation Science》 2025年第1期47-70,共24页
Recently,there has been a widespread application of deep learning in object detection with Synthetic Aperture Radar(SAR).The current algorithms based on Convolutional Neural Networks(CNN)often achieve good accuracy at... Recently,there has been a widespread application of deep learning in object detection with Synthetic Aperture Radar(SAR).The current algorithms based on Convolutional Neural Networks(CNN)often achieve good accuracy at the expense of more complex model structures and huge parameters,which poses a great challenge for real-time and accurate detection of multi-scale targets.To address these problems,we propose a lightweight real-time SAR ship object detector based on detection transformer(LSD-DETR)in this study.First,a lightweight backbone network LCNet containing a stem module and inverted residual structure is constructed to balance the inference speed and detection accuracy of model.Second,we design a transformer encoder with Cascaded Group Attention(CGA Encoder)to enrich the feature information of small targets in SAR images,which makes detection of small-sized ships more precise.Third,an efficient cross-scale feature fusion pyramid module(C3Het-FPN)is proposed through the lightweight units(C3Het)and the introduction of the weighted bidirectional feature pyramid(BiFPN)structure,which realizes the adaptive fusion of multi-scale features with fewer parameters.Ablation experiments and comparative experiments demonstrate the effectiveness of LSD-DETR.The model parameter of LSD-DETR is 8.8 M(only 20.6%of DETR),the model’s FPS reached 43.1,the average detection accuracy mAP50 on the SSDD and HRSID datasets reached 97.3%and 93.4%.Compared to advanced methods,the LSD-DETR can attain superior precision with fewer parameters,which enables accurate real-time object detection of multi-scale ships in SAR images. 展开更多
关键词 detection transformer Synthetic Aperture Radar(SAR) LIGHTWEIGHT multi-scale ship detection deep learning
在线阅读 下载PDF
The Decline and Reinvention of Marketplace Culture:Civic Social Networks in the Spatial Transformation of Chengdu Teahouses
10
作者 Ding Ding Wang Hao 《Contemporary Social Sciences》 2025年第3期18-33,共16页
Chengdu teahouses,as core public spaces in marketplace society,have undergone transformative reconstruction-from“containers of everyday life”to“containers of commercial traffic and digital flows”-during the proces... Chengdu teahouses,as core public spaces in marketplace society,have undergone transformative reconstruction-from“containers of everyday life”to“containers of commercial traffic and digital flows”-during the process of modernization.Employing spatial archaeology as a methodology,combined with fieldwork and analysis of historical documents,this study systematically examines the diachronic evolution of architectural forms,functional orientations,and social networks within Chengdu teahouses.The study reveals the logic of spatial reconstruction under the interplay of multiple forces,including cultural heritage preservation,capital-driven development,and technological intervention.The findings identify three paradigms of spatial transformation in teahouses.First,heritage specimenization,which reinforces the continuity of collective memory through symbolic extraction but risks diminishing the vitality of everyday social interactions.Second,consumption upgrading,which caters to the demands of emerging groups through iterative business models yet necessitates vigilance against spatial differentiation eroding marketplace inclusivity.Third,digital parasitism,which expands communicative dimensions through technological empowerment but confronts the risk of flattening localized knowledge.These paradigms reflect both adaptive responses of traditional spaces to contemporary pressure and the tension of reconstruction imposed by instrumental rationality on marketplace networks.The study demonstrates that spatial transformation in Chengdu teahouses is not unidirectional alienation but rather a multifaceted configuration where the continuity of tradition coexists with innovative practices amid functional diversification.This research advocates for striking a balance between the preservation of traditional spaces and modern renewal and explores organic integration approaches for traditional and modern elements,thereby providing a theoretical framework and practical insights for the transformation of traditional public spaces. 展开更多
关键词 teahouse culture marketplace culture spatial transformation capital-driven development cultural heritage preservation
在线阅读 下载PDF
Coupling the Power of YOLOv9 with Transformer for Small Object Detection in Remote-Sensing Images
11
作者 Mohammad Barr 《Computer Modeling in Engineering & Sciences》 2025年第4期593-616,共24页
Recent years have seen a surge in interest in object detection on remote sensing images for applications such as surveillance andmanagement.However,challenges like small object detection,scale variation,and the presen... Recent years have seen a surge in interest in object detection on remote sensing images for applications such as surveillance andmanagement.However,challenges like small object detection,scale variation,and the presence of closely packed objects in these images hinder accurate detection.Additionally,the motion blur effect further complicates the identification of such objects.To address these issues,we propose enhanced YOLOv9 with a transformer head(YOLOv9-TH).The model introduces an additional prediction head for detecting objects of varying sizes and swaps the original prediction heads for transformer heads to leverage self-attention mechanisms.We further improve YOLOv9-TH using several strategies,including data augmentation,multi-scale testing,multi-model integration,and the introduction of an additional classifier.The cross-stage partial(CSP)method and the ghost convolution hierarchical graph(GCHG)are combined to improve detection accuracy by better utilizing feature maps,widening the receptive field,and precisely extracting multi-scale objects.Additionally,we incorporate the E-SimAM attention mechanism to address low-resolution feature loss.Extensive experiments on the VisDrone2021 and DIOR datasets demonstrate the effectiveness of YOLOv9-TH,showing good improvement in mAP compared to the best existing methods.The YOLOv9-TH-e achieved 54.2% of mAP50 on the VisDrone2021 dataset and 92.3% of mAP on the DIOR dataset.The results confirmthemodel’s robustness and suitability for real-world applications,particularly for small object detection in remote sensing images. 展开更多
关键词 Remote sensing images YOLOv9-TH multi-scale object detection transformer heads VisDrone2021 dataset
在线阅读 下载PDF
MSC-YOLO:Improved YOLOv7 Based on Multi-Scale Spatial Context for Small Object Detection in UAV-View
12
作者 Xiangyan Tang Chengchun Ruan +2 位作者 Xiulai Li Binbin Li Cebin Fu 《Computers, Materials & Continua》 SCIE EI 2024年第4期983-1003,共21页
Accurately identifying small objects in high-resolution aerial images presents a complex and crucial task in thefield of small object detection on unmanned aerial vehicles(UAVs).This task is challenging due to variati... Accurately identifying small objects in high-resolution aerial images presents a complex and crucial task in thefield of small object detection on unmanned aerial vehicles(UAVs).This task is challenging due to variations inUAV flight altitude,differences in object scales,as well as factors like flight speed and motion blur.To enhancethe detection efficacy of small targets in drone aerial imagery,we propose an enhanced You Only Look Onceversion 7(YOLOv7)algorithm based on multi-scale spatial context.We build the MSC-YOLO model,whichincorporates an additional prediction head,denoted as P2,to improve adaptability for small objects.We replaceconventional downsampling with a Spatial-to-Depth Convolutional Combination(CSPDC)module to mitigatethe loss of intricate feature details related to small objects.Furthermore,we propose a Spatial Context Pyramidwith Multi-Scale Attention(SCPMA)module,which captures spatial and channel-dependent features of smalltargets acrossmultiple scales.This module enhances the perception of spatial contextual features and the utilizationof multiscale feature information.On the Visdrone2023 and UAVDT datasets,MSC-YOLO achieves remarkableresults,outperforming the baseline method YOLOv7 by 3.0%in terms ofmean average precision(mAP).The MSCYOLOalgorithm proposed in this paper has demonstrated satisfactory performance in detecting small targets inUAV aerial photography,providing strong support for practical applications. 展开更多
关键词 Small object detection YOLOv7 multi-scale attention spatial context
在线阅读 下载PDF
基于动态时空Transformer的城市蜂窝网络流量预测方法
13
作者 于江燕 王倩 +2 位作者 孟宪静 张瑞敏 耿蕾蕾 《计算机工程与应用》 北大核心 2025年第18期290-299,共10页
针对现有的城市蜂窝网络流量预测方法没有考虑到小区间空间相关性的动态性以及不同时间跨度下小区间空间相关性的多样性问题,提出基于动态时空Transformer的城市蜂窝网络流量预测模型(DSTTNet)。提出多尺度时间感知空间Transformer模块M... 针对现有的城市蜂窝网络流量预测方法没有考虑到小区间空间相关性的动态性以及不同时间跨度下小区间空间相关性的多样性问题,提出基于动态时空Transformer的城市蜂窝网络流量预测模型(DSTTNet)。提出多尺度时间感知空间Transformer模块MSTAST,通过分时间段建模小区间的空间相关性,实现小区间动态空间关系的捕获;通过引入多分支结构,在不同的分支上使用不同的时间段划分方式来捕获不同的空间相关性,从而提高空间相关性建模的准确性;基于MSTAST和时间Transformer模块构建时空序列建模模块来捕获城市蜂窝网络流量中的长时间依赖关系和动态空间依赖关系;还将MSTAST应用于特征融合模块,以提高模型对预测特征中远距离小区间全局空间关系的捕获能力。实验结果表明,在RMSE评价指标下,所提模型在SMS、Call、Internet三种网络流量数据集上分别提升了5.43%、4.30%、2.86%。 展开更多
关键词 蜂窝网络流量预测 时空数据挖掘 transformer 注意力机制 无线网络
在线阅读 下载PDF
基于时空Transformer的混合回报隐式Q学习人群导航
14
作者 周帅 符浩 刘伟 《计算机应用》 北大核心 2025年第11期3666-3673,共8页
在人群密集环境中,机器人执行人群导航任务时通常采用在线强化学习算法。然而,行人运动复杂多变的特性显著降低了在线强化学习的样本效率。针对这一问题,提出一种在离线强化学习(ORL)框架下的基于时空Transformer的混合回报隐式Q学习(ST... 在人群密集环境中,机器人执行人群导航任务时通常采用在线强化学习算法。然而,行人运动复杂多变的特性显著降低了在线强化学习的样本效率。针对这一问题,提出一种在离线强化学习(ORL)框架下的基于时空Transformer的混合回报隐式Q学习(STHRIQL)算法。首先,将蒙特卡洛(MC)回报机制融入隐式Q学习(IQL)算法中,旨在增强学习过程的收敛性;其次,进一步将时空Transformer模型整合至Actor-Critic中,以有效捕捉并解析离线人群导航数据集中机器人与行人之间高度动态且复杂的交互信息,从而优化算法的训练流程与效率;最后,通过仿真实验将所提算法与现有基于在线强化学习的人群导航算法进行对比,并根据评估机制进行定量与定性分析。实验结果显示,STHRIQL算法不仅在人群导航任务中展现出了优越的性能,而且相较于现有的在线人群导航算法,样本效率提升了30.5%~55.8%。STHRIQL算法可为提升机器人在复杂人群环境中的导航能力提供新的思路与解决方案。 展开更多
关键词 人群导航 深度强化学习 离线学习 神经网络 时空transformer
在线阅读 下载PDF
基于时空融合Transformer的航空发动机RUL预测
15
作者 王昱 杨晓庆 +1 位作者 李硕 张哲成 《振动与冲击》 北大核心 2025年第16期318-328,共11页
航空发动机数据呈现多变量、非线性和动态变化等复杂特征,且具有显著的时空关联性。大多数研究在分析数据时,往往局限于单一的多传感器尺度或时间尺度,且往往忽视数据间的长时依赖性,限制了其在航空发动机剩余使用寿命(remaining useful... 航空发动机数据呈现多变量、非线性和动态变化等复杂特征,且具有显著的时空关联性。大多数研究在分析数据时,往往局限于单一的多传感器尺度或时间尺度,且往往忽视数据间的长时依赖性,限制了其在航空发动机剩余使用寿命(remaining useful life,RUL)预测任务中的应用。为此,提出了一种时空融合Transformer网络模型。该模型在保留Transformer架构中的多头注意力机制和位置编码的优势以精准捕捉长时依赖特征的基础上,首先采用高效全连接网络替代原有的解码操作模块,匹配航空发动机RUL预测非线性回归问题属性的同时简化模型结构;然后,通过引入空间注意力机制模块,深入挖掘不同变量间的空间特征;最后,应用改进的赤池信息量准则对Transformer的重要超参数进行辨识,解决其超参数的选择难题。经C-MAPSS以及PHM08预测数据挑战赛两数据集的多组试验证实所提模型的有效性及其在预测精度方面的卓越表现。 展开更多
关键词 剩余使用寿命(RUL)预测 transformer神经网络 深度学习 赤池信息量准则 时空融合 空间注意力
在线阅读 下载PDF
基于Retinex理论的双重注意力Transformer的低光照图像增强
16
作者 李佳 王婷 +1 位作者 杨文杰 王弘扬 《计算机系统应用》 2025年第3期27-39,共13页
在低光照图像增强的研究中,虽然现有技术在提升图像亮度方面取得了进展,但细节恢复不足和颜色失真等问题仍然存在.为了解决这些问题,本文提出一种基于Retinex理论具有双重注意力的Transformer增强网络——DARFormer.该网络由光照估计网... 在低光照图像增强的研究中,虽然现有技术在提升图像亮度方面取得了进展,但细节恢复不足和颜色失真等问题仍然存在.为了解决这些问题,本文提出一种基于Retinex理论具有双重注意力的Transformer增强网络——DARFormer.该网络由光照估计网络和损坏修复网络两部分组成,旨在提升低光照图像的亮度,同时保留更多的细节并防止颜色失真.光照估计网络是基于图像先验来估计亮度映射项,用于低光照图像亮度增强;损坏修复网络则优化亮度增强后的图像质量,采用具有空间注意力和通道注意力的Transformer架构.在LOL_v1、LOL_v2和SID公开数据集上进行实验表明:与主流的增强方法相比,DARFormer在定量和定性指标上取得了更好的增强结果. 展开更多
关键词 图像增强 低照度图像 空间注意力 通道注意力 transformer
在线阅读 下载PDF
基于多尺度Transformer特征的道路场景语义分割网络
17
作者 彭洋 吴文欢 张淏坤 《华东交通大学学报》 2025年第2期110-118,共9页
道路场景中图像通常内容复杂,不同物体之间的尺度和形态差异较大,并且光照阴影等情况会让场景变得难以识别。而现有语义分割方法通常不能有效提取并充分融合多尺度语义特征,泛化能力和鲁棒性较差。文章提出了一种融合多尺度Transformer... 道路场景中图像通常内容复杂,不同物体之间的尺度和形态差异较大,并且光照阴影等情况会让场景变得难以识别。而现有语义分割方法通常不能有效提取并充分融合多尺度语义特征,泛化能力和鲁棒性较差。文章提出了一种融合多尺度Transformer特征的语义分割网络模型。首先,利用CSWin Transformer提取不同尺度的语义特征,并且引入特征细化模块(FRM)提升深层小尺度特征的语义辨析能力;其次,采用注意力聚合模块(AAM)对不同尺度特征分别进行聚合;最后,通过融合这些增强后的多尺度特征,进一步提升特征的语义表达能力,从而提高分割性能。实验结果表明:该网络模型在Cityscapes数据集上取得了82.3%的准确率,较SegNeXt和ConvNeXt分别提升了2.2个百分点和1.2个百分点;在目前最具挑战性的ADE20K数据集上取得了47.4%的准确率,较SegNeXt和ConvNeXt分别提升了3.2个百分点和1.8个百分点。所提出的融合多尺度Transformer特征模型不仅具有较高的语义分割精度,能准确预测道路场景图像的像素语义类别,而且具有较强的泛化性能和鲁棒性。 展开更多
关键词 语义分割 transformer特征 特征融合 空间期望最大化注意力 通道注意力
在线阅读 下载PDF
融合FPN与SFB的Swin Transformer图像去噪网络
18
作者 袁姮 华乾勇 《计算机系统应用》 2025年第10期32-43,共12页
为了提升图像去噪网络对局部与全局信息的捕捉能力,本文提出一种基于特征金字塔网络(feature pyramid network, FPN)和空间频率块(spatial frequency block, SFB)的Swin Transformer图像去噪网络(SwinFPSFNet).该网络由3个阶段组成:在... 为了提升图像去噪网络对局部与全局信息的捕捉能力,本文提出一种基于特征金字塔网络(feature pyramid network, FPN)和空间频率块(spatial frequency block, SFB)的Swin Transformer图像去噪网络(SwinFPSFNet).该网络由3个阶段组成:在浅层特征提取阶段,设计了特征金字塔网络以增强局部特征提取能力;在深层特征提取阶段,结合快速傅里叶卷积(fast Fourier convolution, FFC)设计空间频率块,用于同时捕捉全局与局部信息;最后,通过聚合浅层与深层特征,进一步增强网络去噪能力.此外,本文构建了一种高斯噪声退化模型并结合多种数据增强策略,以提升网络的泛化能力.在CBSD68、Kodak24和Urban100数据集上的实验结果表明,与当前主流去噪方法如BM3D、DnCNN、FFDNet、SwinIR等相比, SwinFPSFNet能够兼顾局部与全局信息,在噪声抑制和保留图像细节方面表现出显著优势. 展开更多
关键词 图像去噪 Swin transformer 特征金字塔网络 空间频率块
在线阅读 下载PDF
无人机场景下基于Transformer的轻量化行人重识别 被引量:1
19
作者 胡海峰 倪宗煜 +3 位作者 赵海涛 张红 沐勇 吴建盛 《南京邮电大学学报(自然科学版)》 北大核心 2024年第3期48-62,共15页
针对无人机场景下行人重识别所呈现的多视角多尺度特点,以及传统的基于卷积神经网络的行人重识别算法受限于局部感受野结构和下采样操作,很难对行人图像的全局特征进行提取且图像空间特征分辨率不高。提出一种无人机场景下基于Transfor... 针对无人机场景下行人重识别所呈现的多视角多尺度特点,以及传统的基于卷积神经网络的行人重识别算法受限于局部感受野结构和下采样操作,很难对行人图像的全局特征进行提取且图像空间特征分辨率不高。提出一种无人机场景下基于Transformer的轻量化行人重识别(Lightweight Transformer-based Person Re-Identification,LTReID)算法,利用多头多注意力机制从全局角度提取人体不同部分特征,使用Circle损失和边界样本挖掘损失,以提高图像特征提取和细粒度图像检索性能,并利用快速掩码搜索剪枝算法对Transformer模型进行训练后轻量化,以提高模型的无人机平台部署能力。更进一步,提出一种可学习的面向无人机场景的空间信息嵌入,在训练过程中通过学习获得优化的非视觉信息,以提取无人机多视角下行人的不变特征,提升行人特征识别的鲁棒性。最后,在实际的无人机行人重识别数据库中,讨论了在不同量级主干网和不同剪枝率情况下所提LTReID算法的行人重识别性能,并与多种行人重识别算法进行了性能对比,结果表明了所提算法的有效性和优越性。 展开更多
关键词 无人机场景 行人重识别 transformer轻量化 空间信息嵌入
在线阅读 下载PDF
引入Transformer的道路小目标检测 被引量:2
20
作者 李丽芬 黄如 《计算机工程与设计》 北大核心 2024年第1期95-101,共7页
针对道路场景中检测小目标时漏检率较高、检测精度低的问题,提出一种引入Transformer的道路小目标检测算法。在原YOLOv4算法基础上,对多尺度检测进行改进,把浅层特征信息充分利用起来;设计ICvT(improved convolutional vision transform... 针对道路场景中检测小目标时漏检率较高、检测精度低的问题,提出一种引入Transformer的道路小目标检测算法。在原YOLOv4算法基础上,对多尺度检测进行改进,把浅层特征信息充分利用起来;设计ICvT(improved convolutional vision transformer)模块捕获特征内部的相关性,获得上下文信息,提取更加全面丰富的特征;在网络特征融合部分嵌入改进后的空间金字塔池化模块,在保持较小计算量的同时增加特征图的感受野。实验结果表明,在KITTI数据集上,算法检测精度达到91.97%,与YOLOv4算法相比,mAP提高了2.53%,降低了小目标的漏检率。 展开更多
关键词 小目标检测 深度学习 YOLOv4算法 多尺度检测 transformer 空间金字塔池化 特征融合
在线阅读 下载PDF
上一页 1 2 103 下一页 到第
使用帮助 返回顶部