期刊文献+
共找到1,468篇文章
< 1 2 74 >
每页显示 20 50 100
KPA-ViT:Key Part-Level Attention Vision Transformer for Foreign Body Classification on Coal Conveyor Belt
1
作者 Haoxuanye Ji Zhiliang Chen +3 位作者 Pengfei Jiang Ziyue Wang Ting Yu Wei Zhang 《Computers, Materials & Continua》 2026年第3期656-671,共16页
Foreign body classification on coal conveyor belts is a critical component of intelligent coal mining systems.Previous approaches have primarily utilized convolutional neural networks(CNNs)to effectively integrate spa... Foreign body classification on coal conveyor belts is a critical component of intelligent coal mining systems.Previous approaches have primarily utilized convolutional neural networks(CNNs)to effectively integrate spatial and semantic information.However,the performance of CNN-based methods remains limited in classification accuracy,primarily due to insufficient exploration of local image characteristics.Unlike CNNs,Vision Transformer(ViT)captures discriminative features by modeling relationships between local image patches.However,such methods typically require a large number of training samples to perform effectively.In the context of foreign body classification on coal conveyor belts,the limited availability of training samples hinders the full exploitation of Vision Transformer’s(ViT)capabilities.To address this issue,we propose an efficient approach,termed Key Part-level Attention Vision Transformer(KPA-ViT),which incorporates key local information into the transformer architecture to enrich the training information.It comprises three main components:a key-point detection module,a key local mining module,and an attention module.To extract key local regions,a key-point detection strategy is first employed to identify the positions of key points.Subsequently,the key local mining module extracts the relevant local features based on these detected points.Finally,an attention module composed of self-attention and cross-attention blocks is introduced to integrate global and key part-level information,thereby enhancing the model’s ability to learn discriminative features.Compared to recent transformer-based frameworks—such as ViT,Swin-Transformer,and EfficientViT—the proposed KPA-ViT achieves performance improvements of 9.3%,6.6%,and 2.8%,respectively,on the CUMT-BelT dataset,demonstrating its effectiveness. 展开更多
关键词 Foreign body classification global and part-level key information coal conveyor belt vision transformer(vit) self and cross attention
在线阅读 下载PDF
视觉Transformer(ViT)发展综述 被引量:15
2
作者 李玉洁 马子航 +2 位作者 王艺甫 王星河 谭本英 《计算机科学》 北大核心 2025年第1期194-209,共16页
视觉Transformer(Vision Transformer,ViT)是基于编码器-解码器结构的Transformer改进模型,已经被成功应用于计算机视觉领域。近几年基于ViT的研究层出不穷且效果显著,基于该模型的工作已经成为计算机视觉任务的重要研究方向,因此针对... 视觉Transformer(Vision Transformer,ViT)是基于编码器-解码器结构的Transformer改进模型,已经被成功应用于计算机视觉领域。近几年基于ViT的研究层出不穷且效果显著,基于该模型的工作已经成为计算机视觉任务的重要研究方向,因此针对近年来ViT的发展进行概述。首先,简要回顾了ViT的基本原理及迁移过程,并分析了ViT模型的结构特点和优势;然后,根据各ViT变体模型的改进特点,归纳和梳理了基于ViT的主要骨干网络变体改进方向及其代表性改进模型,包括局部性改进、结构改进、自监督、轻量化及效率改进等改进方向,并对其进行分析比较;最后,讨论了当前ViT及其改进模型仍存在的不足,对ViT未来的研究方向进行了展望。可以作为研究人员进行基于ViT骨干网络的研究时选择深度学习相关方法的一个权衡和参考。 展开更多
关键词 计算机视觉 模式识别 Vision transformer(vit) 深度学习 自注意力
在线阅读 下载PDF
结合双路径骨干与Transformer增强的道路场景检测方法
3
作者 邱云飞 姚曦彤 辛浩 《计算机工程与应用》 北大核心 2026年第2期302-312,共11页
道路场景检测要求模型能够做出快速和精确的判断,然而在实际场景中由于目标尺度间的差异、误检及漏检情况,导致小模型不太准确,而大模型速度较慢。针对上述问题,提出一种结合双路径骨干与Transformer增强的道路场景检测方法(Dynamic-DAN... 道路场景检测要求模型能够做出快速和精确的判断,然而在实际场景中由于目标尺度间的差异、误检及漏检情况,导致小模型不太准确,而大模型速度较慢。针对上述问题,提出一种结合双路径骨干与Transformer增强的道路场景检测方法(Dynamic-DANet)。提出复合双路径骨干网络,通过级联高分辨率与低分辨率骨干,促进骨干网络语义特征与空间细节的交互。提出邻层特征交互网络,通过逐层地对相邻层特征进行拼接,并引入加权系数自适应地捕获不同层级特征,利用Transformer增强的自注意机制促进全局上下文信息的融合。应用MPDIoU边界回归损失函数,进一步简化模型计算量,加速模型收敛。以复合双路径骨干网络为基础,基于多尺度特征设计分类路由,实现模型动态决策。在KITTI和BDD100K数据集上验证所提方法的有效性,平均检测精度值(mAP)分别达到了88.7%和40.2%,检测速度(FPS)分别实现了每秒178帧和每秒166帧。相较于主流的YOLOv7-tiny、YOLOv8和YOLOv10等算法在评价指标数值和可视化效果上均有明显改善。实验结果表明,所提方法提升了复杂道路场景下的检测性能,并且实现了将两个静态检测器融合为一个动态检测器,以更优的计算消耗实现更佳的检测效果。 展开更多
关键词 道路场景检测 复合骨干网络 视觉transformer 上下文信息 动态推理 MPDIoU边界损失
在线阅读 下载PDF
基于Transformer的DETR目标检测算法综述
4
作者 李沂杨 陆声链 +1 位作者 王继杰 陈明 《计算机工程》 北大核心 2026年第4期62-81,共20页
在目标检测领域,卷积神经网络(CNN)凭借其优异的准确性和可扩展性,长期主导着相关研究,并获得了学术界的广泛认可。在此框架下,先后涌现出基于区域的卷积神经网络(R-CNN)系列(如Fast R-CNN、Faster R-CNN)与YOLO(You Only Look Once)系... 在目标检测领域,卷积神经网络(CNN)凭借其优异的准确性和可扩展性,长期主导着相关研究,并获得了学术界的广泛认可。在此框架下,先后涌现出基于区域的卷积神经网络(R-CNN)系列(如Fast R-CNN、Faster R-CNN)与YOLO(You Only Look Once)系列等多个代表性模型。随着Transformer在自然语言处理领域的成功,研究者开始探索将其用于计算机视觉领域,由此产生了视觉Transformer(ViT)和Swin Transformer等视觉骨干网络。Facebook团队为减少目标检测任务中的先验知识和后处理,在2020年推出了一种端到端目标检测算法——基于Transformer的DETR(DEtection TRansformer)。尽管DETR在目标检测领域展现出潜力,但也存在收敛速度慢、准确性较差、目标查询的物理意义不明确等缺点。这促使研究者对该算法开展了进一步的研究和改进。本研究旨在归纳总结针对DETR的改进探索,并分析它们的优势与不足,同时对利用DETR开展的前沿研究和细分应用领域进行概括,最后给出DETR在计算机视觉领域的未来展望。 展开更多
关键词 计算机视觉 目标检测 DETR算法 视觉transformer 图像分割
在线阅读 下载PDF
ViT-Count:面向冠层遮挡的Vision Transformer树木计数定位方法
5
作者 张乔一 张瑞 霍光煜 《北京林业大学学报》 北大核心 2025年第10期128-138,共11页
【目的】针对复杂场景中树木检测的挑战,如遮挡、背景干扰及密集分布等,本研究提出一种基于Vision Transformer(ViT)的树木检测方法(ViT-Count),提升模型对复杂场景中树木的检测精度与鲁棒性。【方法】采用ViT作为基础模型,其在捕捉图... 【目的】针对复杂场景中树木检测的挑战,如遮挡、背景干扰及密集分布等,本研究提出一种基于Vision Transformer(ViT)的树木检测方法(ViT-Count),提升模型对复杂场景中树木的检测精度与鲁棒性。【方法】采用ViT作为基础模型,其在捕捉图像中全局上下文信息方面具有天然优势,尤其适用于形态多变的复杂环境。设计针对树木的视觉提示调优VPT机制,其通过在特征中注入可学习提示(prompts),优化模型在林地高密度树冠、光照变化及不同树种结构下的特征提取能力,提高对不同林分类型的适应性。设计卷积模块的注意力机制模块,利用其在局部感知基础上的长距离依赖建模能力,有效强化模型对树木遮挡、重叠及形态相似目标的辨别能力,提高整体检测的鲁棒性与准确性。设计一个树木检测解码器,通过多层卷积、归一化、GELU激活与上采样操作逐步还原空间分辨率,以生成的目标密度图实现树木计数与定位。【结果】该方法在提升森林、城市场景下的树木检测鲁棒性的同时,增强了模型在多尺度树木目标上的泛化能力。在Larch Casebearer数据集和Urban Tree数据集上进行的实验显示,与其他主流模型相比,该方法的MAE和RMSE最多分别降低了2.53、3.99,表明其泛化能力更强,具有最优的树木检测性能。可视化实验结果表明,在密集森林场景和复杂城市场景中,所提模型均具有较高的树木检测准确率。消融实验的结果证明了模型主要模块的有效性。【结论】基于Vision Transformer的面向复杂场景的树木计数与定位方法能够充分发挥ViT的全局建模能力及视觉提示调优机制任务适应性,结合卷积模块的注意力机制,有效提升复杂场景树木计数与定位的精度与鲁棒性。 展开更多
关键词 目标识别 树木计数 树木定位 复杂场景 Vision transformer(vit) 视觉提示调优(VPT) 注意力机制
在线阅读 下载PDF
基于GLF-ViT算法的地面侦察机器人多标签图像分类
6
作者 杨成山 王明 +1 位作者 郭东兵 赵爱军 《火力与指挥控制》 北大核心 2026年第2期168-173,共6页
现有多标签图像分类算法在地面侦察机器人任务中面临复杂背景、高噪声干扰和目标间存在显著尺度差异等挑战,导致视觉特征提取效果受限。为此,提出一种基于ViT模型的全局-局部特征融合算法(GLF-ViT),通过自注意力机制筛选高响应区域增强... 现有多标签图像分类算法在地面侦察机器人任务中面临复杂背景、高噪声干扰和目标间存在显著尺度差异等挑战,导致视觉特征提取效果受限。为此,提出一种基于ViT模型的全局-局部特征融合算法(GLF-ViT),通过自注意力机制筛选高响应区域增强局部特征表达,并结合全局特征实现跨尺度协同建模。在PASCAL VOC2012数据集上的实验表明,GLF-ViT算法能够有效融合全局与局部特征,在视觉特征提取方面表现出一定的优越性。 展开更多
关键词 多标签图像分类 vit模型 特征融合 自注意力机制 特征提取
在线阅读 下载PDF
FEViT:一种基于频域增强ViT的深度伪造检测模型
7
作者 陈宇琪 钱汉伟 +1 位作者 夏玲玲 王群 《信息网络安全》 北大核心 2026年第3期432-441,共10页
随着深度伪造技术的快速发展,AI换脸、身份伪造、肖像权侵权以及虚假信息传播等社会安全问题日益突出。目前,现有的深度伪造检测方法常常依赖特定数据集,导致数据偏见,难以捕捉跨算法和跨场景的通用伪造特征。因此,在面对新型伪造技术时... 随着深度伪造技术的快速发展,AI换脸、身份伪造、肖像权侵权以及虚假信息传播等社会安全问题日益突出。目前,现有的深度伪造检测方法常常依赖特定数据集,导致数据偏见,难以捕捉跨算法和跨场景的通用伪造特征。因此,在面对新型伪造技术时,这些方法的检测准确率通常较低,且泛化能力有限。文章提出一种结合高频伪影信息和视觉Transformer的模型FEViT,该模型基于频域增强模型进行深度伪造检测,提高了模型对不同来源伪造图像的泛化能力。FEViT采用多维度优化策略,先通过傅里叶变换与高通滤波器相结合,精确提取高频伪影特征,放大频域差异;再通过对视觉Transformer结构的3项优化,增强局部异常的敏感度并提升复杂特征的分类能力。实验结果表明,FEViT在多个公开数据集上的表现优于现有检测方法,在准确率、AUC和F1分数等指标上具有显著优势,平均准确率提高了8.0%~16.4%,展现出较好的检测性能和泛化能力。 展开更多
关键词 深度伪造检测 视觉transformer 高频伪影 傅里叶变换
在线阅读 下载PDF
Effective convolution mixed Transformer Siamese network for robust visual tracking
8
作者 Lin Chen Yungang Liu Yuan Wang 《Control Theory and Technology》 2025年第2期221-236,共16页
Siamese tracking algorithms usually take convolutional neural networks(CNNs)as feature extractors owing to their capability of extracting deep discriminative features.However,the convolution kernels in CNNs have limit... Siamese tracking algorithms usually take convolutional neural networks(CNNs)as feature extractors owing to their capability of extracting deep discriminative features.However,the convolution kernels in CNNs have limited receptive fields,making it difficult to capture global feature dependencies which is important for object detection,especially when the target undergoes large-scale variations or movement.In view of this,we develop a novel network called effective convolution mixed Transformer Siamese network(SiamCMT)for visual tracking,which integrates CNN-based and Transformer-based architectures to capture both local information and long-range dependencies.Specifically,we design a Transformer-based module named lightweight multi-head attention(LWMHA)which can be flexibly embedded into stage-wise CNNs and improve the network’s representation ability.Additionally,we introduce a stage-wise feature aggregation mechanism which integrates features learned from multiple stages.By leveraging both location and semantic information,this mechanism helps the SiamCMT to better locate and find the target.Moreover,to distinguish the contribution of different channels,a channel-wise attention mechanism is introduced to enhance the important channels and suppress the others.Extensive experiments on seven challenging benchmarks,i.e.,OTB2015,UAV123,GOT10K,LaSOT,DTB70,UAVTrack112_L,and VOT2018,demonstrate the effectiveness of the proposed algorithm.Specially,the proposed method outperforms the baseline by 3.5%and 3.1%in terms of precision and success rates with a real-time speed of 59.77 FPS on UAV123. 展开更多
关键词 visual tracking Siamese network transformer Feature aggregation Channel-wise attention
原文传递
基于胶囊网络与Transformer的细粒度图像分类
9
作者 刘正华 龚小玉 +1 位作者 梁彧骁 梁艳洁 《现代电子技术》 北大核心 2026年第8期137-144,共8页
花卉细粒度图像分类在品种鉴定、精准园艺和智能育种等领域具有重要的应用价值,但形态相似品种间特征差异微小、背景复杂干扰显著,导致现有方法的精度识别不高。针对该问题,提出一种基于胶囊网络与视觉Transformer的细粒度图像分类架构... 花卉细粒度图像分类在品种鉴定、精准园艺和智能育种等领域具有重要的应用价值,但形态相似品种间特征差异微小、背景复杂干扰显著,导致现有方法的精度识别不高。针对该问题,提出一种基于胶囊网络与视觉Transformer的细粒度图像分类架构,以提升特征表征能力与分类性能。首先,设计双频注意力特征提取模块,通过高频与低频并行分支并结合基于Sobel梯度的空间注意力、频域注意力、ECA通道注意力,实现纹理边缘与结构信息的高效建模;其次,构建基于胶囊的视觉Transformer框架,该框架包括胶囊视觉嵌入模块和改进型胶囊感知Transformer编码器,通过显式解耦胶囊模长与方向并引入门控残差与squash非线性,协同建模局部与全局特征;最后,提出联合损失优化策略,从判别性、重构性与泛化能力等角度对模型训练进行优化。实验结果表明,所提方法在Flowers数据集上的识别准确率较高,鲁棒性强,验证了其在复杂场景下的有效性与先进性。 展开更多
关键词 细粒度图像分类 视觉transformer 融合机制 胶囊网络 联合损失优化 双频注意力
在线阅读 下载PDF
A Hybrid Deep Learning Approach Using Vision Transformer and U-Net for Flood Segmentation
10
作者 Cyreneo Dofitas Jr Yong-Woon Kim Yung-Cheol Byun 《Computers, Materials & Continua》 2026年第2期1209-1227,共19页
Recent advances in deep learning have significantly improved flood detection and segmentation from aerial and satellite imagery.However,conventional convolutional neural networks(CNNs)often struggle in complex flood s... Recent advances in deep learning have significantly improved flood detection and segmentation from aerial and satellite imagery.However,conventional convolutional neural networks(CNNs)often struggle in complex flood scenarios involving reflections,occlusions,or indistinct boundaries due to limited contextual modeling.To address these challenges,we propose a hybrid flood segmentation framework that integrates a Vision Transformer(ViT)encoder with a U-Net decoder,enhanced by a novel Flood-Aware Refinement Block(FARB).The FARB module improves boundary delineation and suppresses noise by combining residual smoothing with spatial-channel attention mechanisms.We evaluate our model on a UAV-acquired flood imagery dataset,demonstrating that the proposed ViTUNet+FARB architecture outperforms existing CNN and Transformer-based models in terms of accuracy and mean Intersection over Union(mIoU).Detailed ablation studies further validate the contribution of each component,confirming that the FARB design significantly enhances segmentation quality.To its better performance and computational efficiency,the proposed framework is well-suited for flood monitoring and disaster response applications,particularly in resource-constrained environments. 展开更多
关键词 Flood detection vision transformer(vit) U-Net segmentation image processing deep learning artificial intelligence
在线阅读 下载PDF
基于无监督学习和视觉Transformer的工业缺陷检测
11
作者 王军敏 付景斐 宁超魁 《山西大同大学学报(自然科学版)》 2026年第1期115-120,共6页
目的为了解决现有工业缺陷检测方法检测精度不理想、需要大量缺陷样本用于模型训练等问题,提出一种基于无监督学习和视觉Transformer的检测方法。方法该方法首先利用视觉Transformer分别提取正常样本集和待检测样本的分块深度特征;然后... 目的为了解决现有工业缺陷检测方法检测精度不理想、需要大量缺陷样本用于模型训练等问题,提出一种基于无监督学习和视觉Transformer的检测方法。方法该方法首先利用视觉Transformer分别提取正常样本集和待检测样本的分块深度特征;然后计算待检测样本和正常块特征库的成对块特征距离,构建按块特征距离矩阵;最后对特征距离矩阵按行取最小值生成待测样本每个特征块的异常评分,通过对所有特征块的异常评分取最大值获得待测样本的最终缺陷评分,通过将所有特征块的异常评分排列组合获得待测样本的最终缺陷分割图。结果实验结果表明,该方法不需要依赖大规模的缺陷样本和训练过程,并且能够获得很高的缺陷检测精度和定位能力。结论该方法在工业缺陷检测任务中具有优越的性能和重要的应用价值。 展开更多
关键词 缺陷检测 视觉transformer 特征提取 无监督学习
在线阅读 下载PDF
Vision Transformer模型在中医舌诊图像分类中的应用研究
12
作者 周坚和 王彩雄 +3 位作者 李炜 周晓玲 张丹璇 吴玉峰 《广西科技大学学报》 2025年第5期89-98,共10页
舌诊作为中医望诊中的一项重要且常规的检查手段,在中医临床诊断中发挥着不可或缺的作用。为突破传统舌诊依赖主观经验及卷积神经网络(convolutional neural network,CNN)模型分类性能不足的局限,本文基于高质量舌象分类数据集,提出基于... 舌诊作为中医望诊中的一项重要且常规的检查手段,在中医临床诊断中发挥着不可或缺的作用。为突破传统舌诊依赖主观经验及卷积神经网络(convolutional neural network,CNN)模型分类性能不足的局限,本文基于高质量舌象分类数据集,提出基于Vision Transformer(ViT)深度学习模型,通过预训练与微调策略优化特征提取能力,并结合数据增强技术解决类别分布不平衡问题。实验结果表明,该模型在6项关键舌象特征分类任务中,5项指标的准确率(苔色85.6%、瘀斑98.0%、质地99.6%、舌色96.6%、裂纹87.8%)显著优于现有CNN方法(如ResNet50对应准确率分别为78.0%、91.0%、92.0%、68.0%、80.1%),验证了该模型在突破传统性能瓶颈、提升中医临床智能诊断可靠性方面的有效性和应用潜力。 展开更多
关键词 舌诊 Vision transformer(vit) 深度学习 医学图像分类
在线阅读 下载PDF
基于CNN-Transformer的钢轨表面缺陷识别 被引量:2
13
作者 张春光 许嘉瑞 马骏 《计算机与数字工程》 2025年第2期540-544,共5页
依靠铁路工人人工巡检钢轨表面缺陷,存在较大误差,耗费大量人力物力,制约了我国铁路行业的健康发展。针对上述问题,论文设计了一种基于CNN-Transformer的钢轨表面缺陷识别方法;使用Transformer层的堆叠代替标准卷积的矩阵乘法用以对卷... 依靠铁路工人人工巡检钢轨表面缺陷,存在较大误差,耗费大量人力物力,制约了我国铁路行业的健康发展。针对上述问题,论文设计了一种基于CNN-Transformer的钢轨表面缺陷识别方法;使用Transformer层的堆叠代替标准卷积的矩阵乘法用以对卷积提取的高层语义信息进行全局建模;同时引入轻量级的CNN网络GhostNet,提取图像特征,以减少计算参数,补偿因使用Transformer而缺乏归纳偏置的缺点。结果显示,基于论文方法的钢轨表面缺陷识别精度达到94.51%,高于VGG16、ResNet50、MobileNet等传统的CNN网络,且计算成本更低,为机器视觉在钢轨维护领域的应用提供了重要参考。 展开更多
关键词 钢轨检修 缺陷分类 视觉transformer GhostNet
在线阅读 下载PDF
一种交互连接CNN和Transformer的肠道息肉图像分类网络 被引量:1
14
作者 曹博 叶淑芳 +3 位作者 饶钰君 汤晓恒 何熊熊 李胜 《小型微型计算机系统》 北大核心 2025年第4期932-939,共8页
利用内镜图像对结直肠息肉进行风险分类至关重要,能够提高临床诊断准确性并降低结直肠癌死亡率.然而,目前基于卷积神经网络(CNN)或视觉Transformer(ViT)的分类方法不能很好地区分类内尺度大和类间相似性高的息肉图像,针对息肉风险的分... 利用内镜图像对结直肠息肉进行风险分类至关重要,能够提高临床诊断准确性并降低结直肠癌死亡率.然而,目前基于卷积神经网络(CNN)或视觉Transformer(ViT)的分类方法不能很好地区分类内尺度大和类间相似性高的息肉图像,针对息肉风险的分类任务亟需改善.CNN中的卷积算子擅长提取局部特征.ViT通过级联自注意力模块可以捕获长距离依赖关系和全局特征.本文提出一个交互连接模块,以交互式的方式将CNN和ViT相连接,以整合多尺度特征;所设计的交互混合模型,能最大限度地保留局部特征和全局表示,显著缓解息肉多分类的类内差异性大、类间相似性高的问题;在大规模自然图像数据集中进行预训练;通过微调模型结构,使用预训练的交互混合模型参数初始化主干网络,并迁移至结直肠息肉数据集中再次训练,实现息肉多分类.在结直肠息肉私有数据集和Kvasir公共数据集上评估所提出模型,实验结果显示总体分类准确率分别达到了85.83%和96.84%,优于本文比较的其他算法;且引入迁移学习可以在降低训练成本的同时提升交互混合模型的分类性能和泛化性,在有限的训练数据集下有助于提高临床诊断效率. 展开更多
关键词 卷积神经网络(CNN) 视觉transformer(vit) 结直肠息肉分类 多尺度特征 迁移学习
在线阅读 下载PDF
基于Vision Transformer-LSTM(ViTL)的多时序遥感影像农作物分类方法 被引量:1
15
作者 张青云 杨辉 +1 位作者 李兴伍 武永闯 《安徽农业大学学报》 CAS CSCD 2024年第5期888-898,共11页
针对当前遥感农作物分类研究中深度学习模型对光谱时间和空间信息特征采样不足,农作物提取仍然存在边界模糊、漏提、误提的问题,提出了一种名为视觉Transformer-长短期记忆递归神经网络(Vision Transformer-long short term memory,ViTL... 针对当前遥感农作物分类研究中深度学习模型对光谱时间和空间信息特征采样不足,农作物提取仍然存在边界模糊、漏提、误提的问题,提出了一种名为视觉Transformer-长短期记忆递归神经网络(Vision Transformer-long short term memory,ViTL)的深度学习模型,ViTL模型集成了双路Vision-Transformer特征提取、时空特征融合和长短期记忆递归神经网络(LSTM)时序分类等3个关键模块,双路Vision-Transformer特征提取模块用于捕获图像的时空特征相关性,一路提取空间分类特征,一路提取时间变化特征;时空特征融合模块用于将多时特征信息进行交叉融合;LSTM时序分类模块捕捉多时序的依赖关系并进行输出分类。综合利用基于多时序卫星影像的遥感技术理论和方法,对黑龙江省齐齐哈尔市讷河市作物信息进行提取,研究结果表明,ViTL模型表现出色,其总体准确率(Overall Accuracy,OA)、平均交并比(Mean Intersection over Union,MIoU)和F1分数分别达到0.8676、0.6987和0.8175,与其他广泛使用的深度学习方法相比,包括三维卷积神经网络(3-D CNN)、二维卷积神经网络(2-D CNN)和长短期记忆递归神经网络(LSTM),ViTL模型的F1分数提高了9%~12%,显示出显著的优越性。ViTL模型克服了面对多时序遥感影像的农作物分类任务中的时间和空间信息特征采样不足问题,为准确、高效地农作物分类提供了新思路。 展开更多
关键词 农作物分类 Vision transformer(vit) LSTM 深度学习 遥感监测
原文传递
Brain functional network connectivity based on a visual task: visual information processing-related brain regions are significantly activated in the task state 被引量:2
16
作者 Yan-li Yang Hong-xia Deng +2 位作者 Gui-yang Xing Xiao-luan Xia Hai-fang Li 《Neural Regeneration Research》 SCIE CAS CSCD 2015年第2期298-307,共10页
It is not clear whether the method used in functional brain-network related research can be applied to explore the feature binding mechanism of visual perception. In this study, we inves-tigated feature binding of col... It is not clear whether the method used in functional brain-network related research can be applied to explore the feature binding mechanism of visual perception. In this study, we inves-tigated feature binding of color and shape in visual perception. Functional magnetic resonance imaging data were collected from 38 healthy volunteers at rest and while performing a visual perception task to construct brain networks active during resting and task states. Results showed that brain regions involved in visual information processing were obviously activated during the task. The components were partitioned using a greedy algorithm, indicating the visual network existed during the resting state.Z-values in the vision-related brain regions were calculated, conifrming the dynamic balance of the brain network. Connectivity between brain regions was determined, and the result showed that occipital and lingual gyri were stable brain regions in the visual system network, the parietal lobe played a very important role in the binding process of color features and shape features, and the fusiform and inferior temporal gyri were crucial for processing color and shape information. Experimental ifndings indicate that understanding visual feature binding and cognitive processes will help establish computational models of vision, improve image recognition technology, and provide a new theoretical mechanism for feature binding in visual perception. 展开更多
关键词 nerve regeneration functional magnetic resonance imaging resting state task state brain network module division feature binding Fisher’s Z transform CONNECTIvitY visual stimuli NSFC grants neural regeneration
在线阅读 下载PDF
基于双Transformer结构的多模态视频段落描述生成研究
17
作者 赵宏 张立军 《计算机工程与应用》 北大核心 2025年第21期182-191,共10页
针对现有视频段落描述方法对视频中主要事件的关注度不足与多事件描述之间缺乏连贯性的问题,在现有编码器-解码器框架的基础上,提出了一种基于双Transformer结构的多模态视频段落描述模型。采用Faster-RCNN对视频中心帧目标进行细粒度... 针对现有视频段落描述方法对视频中主要事件的关注度不足与多事件描述之间缺乏连贯性的问题,在现有编码器-解码器框架的基础上,提出了一种基于双Transformer结构的多模态视频段落描述模型。采用Faster-RCNN对视频中心帧目标进行细粒度特征提取,由混合注意力结合全局视觉特征选择最具代表性的细粒度局部视觉特征,对视频中主要事件信息进行补充与增强,提高视频内容描述的准确性;提出在Transformer结构中增加存储模块与混合注意力模块,并设计了双Transformer结构,内部Transformer对事件内一致性进行建模,外部Transformer由混合注意力计算与当前事件最相关的状态建模事件间的一致性,结合内外部Transformer的输出对事件内容进行预测,提高生成描述语句的连贯性。在ActivityNet Captions数据集和YouCookII数据集上的实验结果表明,所提模型在BLEU-4、METEOR、ROUGE-L和CIDEr指标上相较于现有主流视频段落描述模型有明显提升,验证了模型的有效性。 展开更多
关键词 视频段落描述 编码器-解码器结构 细粒度局部视觉特征 transformer结构
在线阅读 下载PDF
SMSTracker:A Self-Calibration Multi-Head Self-Attention Transformer for Visual Object Tracking 被引量:1
18
作者 Zhongyang Wang Hu Zhu Feng Liu 《Computers, Materials & Continua》 SCIE EI 2024年第7期605-623,共19页
Visual object tracking plays a crucial role in computer vision.In recent years,researchers have proposed various methods to achieve high-performance object tracking.Among these,methods based on Transformers have becom... Visual object tracking plays a crucial role in computer vision.In recent years,researchers have proposed various methods to achieve high-performance object tracking.Among these,methods based on Transformers have become a research hotspot due to their ability to globally model and contextualize information.However,current Transformer-based object tracking methods still face challenges such as low tracking accuracy and the presence of redundant feature information.In this paper,we introduce self-calibration multi-head self-attention Transformer(SMSTracker)as a solution to these challenges.It employs a hybrid tensor decomposition self-organizing multihead self-attention transformermechanism,which not only compresses and accelerates Transformer operations but also significantly reduces redundant data,thereby enhancing the accuracy and efficiency of tracking.Additionally,we introduce a self-calibration attention fusion block to resolve common issues of attention ambiguities and inconsistencies found in traditional trackingmethods,ensuring the stability and reliability of tracking performance across various scenarios.By integrating a hybrid tensor decomposition approach with a self-organizingmulti-head self-attentive transformer mechanism,SMSTracker enhances the efficiency and accuracy of the tracking process.Experimental results show that SMSTracker achieves competitive performance in visual object tracking,promising more robust and efficient tracking systems,demonstrating its potential to providemore robust and efficient tracking solutions in real-world applications. 展开更多
关键词 visual object tracking tensor decomposition transformer self-attention
在线阅读 下载PDF
IEMAyoloViT:基于改进YOLOv8的水下目标检测算法 被引量:4
19
作者 施克权 李祺 +1 位作者 隋皓 朱宏娜 《电讯技术》 北大核心 2025年第1期54-62,共9页
针对光学成像技术受到光线衰减、散射等因素影响,图像质量和目标分辨率较差,不利于开展水下目标检测任务的问题,提出了一种高效水下目标检测框架IEMAyoloViT。该框架结合了改进Vision Transformer(ViT)主干的YOLOv8算法YOLOViT和一种融... 针对光学成像技术受到光线衰减、散射等因素影响,图像质量和目标分辨率较差,不利于开展水下目标检测任务的问题,提出了一种高效水下目标检测框架IEMAyoloViT。该框架结合了改进Vision Transformer(ViT)主干的YOLOv8算法YOLOViT和一种融合多尺度高效空间注意力机制(Efficient Multi-scale Attention,EMA)的C2f模块,以解决目标特征提取过程中注意力分散的问题。同时改进了Inner-CIoU损失函数,基于不同尺度的辅助边界加速边界框回归。实验结果表明,在全国水下机器人大赛(Underwater Robot Professional Contest,URPC)2021数据集中,IEMAyoloViT的mAP50高达83.2%,较YOLOv8高9.2%;mAP50:95较YOLOv8高1.0%,证明了IEMAyoloViT的有效性和应用潜力。 展开更多
关键词 水下目标检测 深度学习 视觉自注意力模型 注意力机制
在线阅读 下载PDF
CATrans:基于跨尺度注意力Transformer的高分辨率遥感影像土地覆盖语义分割框架 被引量:2
20
作者 陈丽佳 陈宏辉 +3 位作者 谢艳秋 何天友 叶菁 吴林煌 《地球信息科学学报》 北大核心 2025年第7期1624-1637,共14页
【目的】高分辨率遥感影像语义分割通过精准提取地物信息,为城市规划、土地分析利用提供了重要的数据支持。当前分割方法通常将遥感影像划分为标准块,进行多尺度局部分割和层次推理,未充分考虑影像中的上下文先验知识和局部特征交互能力... 【目的】高分辨率遥感影像语义分割通过精准提取地物信息,为城市规划、土地分析利用提供了重要的数据支持。当前分割方法通常将遥感影像划分为标准块,进行多尺度局部分割和层次推理,未充分考虑影像中的上下文先验知识和局部特征交互能力,影响了推理分割质量。【方法】为了解决这一问题,本文提出了一种联合跨尺度注意力和语义视觉Transformer的遥感影像分割框架(Cross-scale Attention Transformer,CATrans),融合跨尺度注意力模块和语义视觉Transformer,提取上下文先验知识增强局部特征表示和分割性能。首先,跨尺度注意力模块通过空间和通道两个维度进行并行特征处理,分析浅层-深层和局部-全局特征之间的依赖关系,提升对遥感影像中不同粒度对象的注意力。其次,语义视觉Transformer通过空间注意力机制捕捉上下文语义信息,建模语义信息之间的依赖关系。【结果】本文在DeepGlobe、Inria Aerial和LoveDA数据集上进行对比实验,结果表明:CATrans的分割性能优于现有的WSDNet(Discrete Wavelet Smooth Network)和ISDNet(Integrating Shallow and Deep Network)等分割算法,分别取得了76.2%、79.2%、54.2%的平均交并比(Mean Intersection over Union,mIoU)和86.5%、87.8%、66.8%的平均F1得分(Mean F1 Score,mF1),推理速度分别达到38.1 FPS、13.2 FPS和95.22 FPS。相较于本文所对比的最佳方法WSDNet,mIoU和mF1在3个数据集中分别提升2.1%、4.0%、5.3%和1.3%、1.8%、5.6%,在每类地物的分割中都具有显著优势。【结论】本方法实现了高效率、高精度的高分辨率遥感影像语义分割。 展开更多
关键词 高分辨率 语义分割 跨尺度注意力 视觉transformer 上下文先验 空间注意力 语义信息
原文传递
上一页 1 2 74 下一页 到第
使用帮助 返回顶部