期刊文献+
共找到37,056篇文章
< 1 2 250 >
每页显示 20 50 100
卷积神经网络与Vision Transformer在胶质瘤中的研究进展
1
作者 杨浩辉 徐涛 +3 位作者 王伟 安良良 敖用芳 朱家宝 《磁共振成像》 北大核心 2026年第1期168-174,共7页
胶质瘤因高度异质性、强侵袭性及预后差,传统诊疗面临巨大挑战。深度学习技术的引入为其精准诊疗提供了新路径,其中卷积神经网络(convolutional neural network,CNN)与Vision Transformer(ViT)是核心工具。CNN凭借层级化卷积操作在局部... 胶质瘤因高度异质性、强侵袭性及预后差,传统诊疗面临巨大挑战。深度学习技术的引入为其精准诊疗提供了新路径,其中卷积神经网络(convolutional neural network,CNN)与Vision Transformer(ViT)是核心工具。CNN凭借层级化卷积操作在局部特征提取(如肿瘤边缘、纹理细节)上具有天然优势,而ViT基于自注意力机制在全局上下文建模(如肿瘤跨区域异质性、多模态关联)方面表现突出,二者的融合策略通过整合局部精细特征与全局关联信息,在应对胶质瘤边界模糊、跨模态数据异构性等临床难题中展现出显著优势。本文综述了二者在胶质瘤检测与分割、病理分级、分子分型、预后评估等关键临床任务中的研究进展,阐述了原理、单独应用及融合策略。同时,本文也探讨了当前研究中存在的挑战,诸如对数据标注的强依赖性、模型可解释性不足等问题,并展望了未来的发展方向,例如构建轻量化架构、发展自监督学习以及推进多组学融合等前沿,以期为胶质瘤智能诊断提供系统性参考。 展开更多
关键词 胶质瘤 深度学习 卷积神经网络 vision Transformer 磁共振成像
暂未订购
From microstructure to performance optimization:Innovative applications of computer vision in materials science
2
作者 Chunyu Guo Xiangyu Tang +10 位作者 Yu’e Chen Changyou Gao Qinglin Shan Heyi Wei Xusheng Liu Chuncheng Lu Meixia Fu Enhui Wang Xinhong Liu Xinmei Hou Yanglong Hou 《International Journal of Minerals,Metallurgy and Materials》 2026年第1期94-115,共22页
The rapid advancements in computer vision(CV)technology have transformed the traditional approaches to material microstructure analysis.This review outlines the history of CV and explores the applications of deep-lear... The rapid advancements in computer vision(CV)technology have transformed the traditional approaches to material microstructure analysis.This review outlines the history of CV and explores the applications of deep-learning(DL)-driven CV in four key areas of materials science:microstructure-based performance prediction,microstructure information generation,microstructure defect detection,and crystal structure-based property prediction.The CV has significantly reduced the cost of traditional experimental methods used in material performance prediction.Moreover,recent progress made in generating microstructure images and detecting microstructural defects using CV has led to increased efficiency and reliability in material performance assessments.The DL-driven CV models can accelerate the design of new materials with optimized performance by integrating predictions based on both crystal and microstructural data,thereby allowing for the discovery and innovation of next-generation materials.Finally,the review provides insights into the rapid interdisciplinary developments in the field of materials science and future prospects. 展开更多
关键词 MICROSTRUCTURE deep learning computer vision performance prediction image generation
在线阅读 下载PDF
Privacy-Preserving Gender-Based Customer Behavior Analytics in Retail Spaces Using Computer Vision
3
作者 Ginanjar Suwasono Adi Samsul Huda +4 位作者 Griffani Megiyanto Rahmatullah Dodit Suprianto Dinda Qurrota Aini Al-Sefy Ivon Sandya Sari Putri Lalu Tri Wijaya Nata Kusuma 《Computers, Materials & Continua》 2026年第1期1839-1861,共23页
In the competitive retail industry of the digital era,data-driven insights into gender-specific customer behavior are essential.They support the optimization of store performance,layout design,product placement,and ta... In the competitive retail industry of the digital era,data-driven insights into gender-specific customer behavior are essential.They support the optimization of store performance,layout design,product placement,and targeted marketing.However,existing computer vision solutions often rely on facial recognition to gather such insights,raising significant privacy and ethical concerns.To address these issues,this paper presents a privacypreserving customer analytics system through two key strategies.First,we deploy a deep learning framework using YOLOv9s,trained on the RCA-TVGender dataset.Cameras are positioned perpendicular to observation areas to reduce facial visibility while maintaining accurate gender classification.Second,we apply AES-128 encryption to customer position data,ensuring secure access and regulatory compliance.Our system achieved overall performance,with 81.5%mAP@50,77.7%precision,and 75.7%recall.Moreover,a 90-min observational study confirmed the system’s ability to generate privacy-protected heatmaps revealing distinct behavioral patterns between male and female customers.For instance,women spent more time in certain areas and showed interest in different products.These results confirm the system’s effectiveness in enabling personalized layout and marketing strategies without compromising privacy. 展开更多
关键词 Business intelligence customer behavior privacy-preserving analytics computer vision deep learning smart retail gender recognition heatmap privacy RCA-TVGender dataset
在线阅读 下载PDF
Measuring method for micro-diameter based on structured-light vision technology 被引量:8
4
作者 刘斌 王鹏 +1 位作者 曾勇 孙长库 《Chinese Optics Letters》 SCIE EI CAS CSCD 2010年第7期666-669,共4页
Based on structured-light vision measurement technology, we study a measuring method for microdiameter. The measurement principle and mathematical model are described. A novel grayscale barycenter extraction algorithm... Based on structured-light vision measurement technology, we study a measuring method for microdiameter. The measurement principle and mathematical model are described. A novel grayscale barycenter extraction algorithm along the radial direction is proposed, which can precisely gather the image coor- dinates of the ellipse-shaped light-stripe centers. The accuracy of the measurement result shows marked improvement by using the algorithm. The method executes circle fitting to the measured three-dimensional (3D) data using linear least square method, which can acquire the diameter, surface profile, and other information of the object effectively. On the scene, a line-structured light vision system using the presented method is applied to measure the curvature radius of metal blades. Experimental results show that the measurement precision of the system is higher than 2 μm. 展开更多
关键词 Measuring method for micro-diameter based on structured-light vision technology AUTOCAD
原文传递
基于改进Vision Transformer的水稻叶片病害图像识别
5
作者 朱周华 周怡纳 +1 位作者 侯智杰 田成源 《电子测量技术》 北大核心 2025年第10期153-160,共8页
水稻叶片病害智能识别在现代农业生产中具有重要意义。针对传统Vision Transformer网络缺乏归纳偏置,难以有效捕捉图像局部细节特征的问题,提出了一种改进的Vision Transformer模型。该模型通过引入内在归纳偏置,增强了对多尺度上下文... 水稻叶片病害智能识别在现代农业生产中具有重要意义。针对传统Vision Transformer网络缺乏归纳偏置,难以有效捕捉图像局部细节特征的问题,提出了一种改进的Vision Transformer模型。该模型通过引入内在归纳偏置,增强了对多尺度上下文以及局部与全局依赖关系的建模能力,同时降低了对大规模数据集的需求。此外,Vision Transformer中的多层感知器模块被Kolmogorov-Arnold网络结构取代,从而提升了模型对复杂特征的提取能力和可解释性。实验结果表明,所提模型在水稻叶片病害识别任务中取得了优异的性能,识别准确率达到了98.62%,较原始ViT模型提升了6.2%,显著提高了对水稻叶片病害的识别性能。 展开更多
关键词 水稻叶片病害 图像识别 vision Transformer网络 归纳偏置 局部特征
原文传递
Vision Transformer模型在中医舌诊图像分类中的应用研究
6
作者 周坚和 王彩雄 +3 位作者 李炜 周晓玲 张丹璇 吴玉峰 《广西科技大学学报》 2025年第5期89-98,共10页
舌诊作为中医望诊中的一项重要且常规的检查手段,在中医临床诊断中发挥着不可或缺的作用。为突破传统舌诊依赖主观经验及卷积神经网络(convolutional neural network,CNN)模型分类性能不足的局限,本文基于高质量舌象分类数据集,提出基于... 舌诊作为中医望诊中的一项重要且常规的检查手段,在中医临床诊断中发挥着不可或缺的作用。为突破传统舌诊依赖主观经验及卷积神经网络(convolutional neural network,CNN)模型分类性能不足的局限,本文基于高质量舌象分类数据集,提出基于Vision Transformer(ViT)深度学习模型,通过预训练与微调策略优化特征提取能力,并结合数据增强技术解决类别分布不平衡问题。实验结果表明,该模型在6项关键舌象特征分类任务中,5项指标的准确率(苔色85.6%、瘀斑98.0%、质地99.6%、舌色96.6%、裂纹87.8%)显著优于现有CNN方法(如ResNet50对应准确率分别为78.0%、91.0%、92.0%、68.0%、80.1%),验证了该模型在突破传统性能瓶颈、提升中医临床智能诊断可靠性方面的有效性和应用潜力。 展开更多
关键词 舌诊 vision Transformer(ViT) 深度学习 医学图像分类
在线阅读 下载PDF
Vision Transformer深度学习模型在前列腺癌识别中的价值
7
作者 李梦娟 金龙 +2 位作者 尹胜男 计一丁 丁宁 《中国医学计算机成像杂志》 北大核心 2025年第3期396-401,共6页
目的:旨在探讨Vision Transformer(ViT)深度学习模型在前列腺癌(PCa)识别中的应用价值.方法:回顾性分析了480例接受磁共振成像(MRI)检查的患者影像资料.采用TotalSegmentator模型自动分割前列腺区域,通过ViT深度学习方法分别构建基于T2... 目的:旨在探讨Vision Transformer(ViT)深度学习模型在前列腺癌(PCa)识别中的应用价值.方法:回顾性分析了480例接受磁共振成像(MRI)检查的患者影像资料.采用TotalSegmentator模型自动分割前列腺区域,通过ViT深度学习方法分别构建基于T2加权像(T2WI)、基于表观弥散系数(ADC)图和基于两者结合的三个ViT模型.结果:在PCa的识别能力上,结合模型在训练组和测试组上的受试者工作特征(ROC)曲线下面积(AUC)分别为0.961和0.980,优于仅基于单一成像序列构建的ViT模型.在基于单一序列构建的ViT模型中,基于ADC图的模型相较于基于T2WI的模型表现更佳.此外,决策曲线分析显示结合模型提供了更大的临床效益.结论:ViT深度学习模型在前列腺癌识别中具有较高的诊断准确性和潜在价值. 展开更多
关键词 vision Transformer 深度学习 前列腺癌 自动分割 磁共振成像
暂未订购
基于改进Vision Transformer的遥感图像分类研究 被引量:1
8
作者 李宗轩 冷欣 +1 位作者 章磊 陈佳凯 《林业机械与木工设备》 2025年第6期31-35,共5页
通过遥感图像分类能够快速有效获取森林区域分布,为林业资源管理监测提供支持。Vision Transformer(ViT)凭借优秀的全局信息捕捉能力在遥感图像分类任务中广泛应用。但Vision Transformer在浅层特征提取时会冗余捕捉其他局部特征而无法... 通过遥感图像分类能够快速有效获取森林区域分布,为林业资源管理监测提供支持。Vision Transformer(ViT)凭借优秀的全局信息捕捉能力在遥感图像分类任务中广泛应用。但Vision Transformer在浅层特征提取时会冗余捕捉其他局部特征而无法有效捕获关键特征,并且Vision Transformer在将图像分割为patch过程中可能会导致边缘等细节信息的丢失,从而影响分类准确性。针对上述问题提出一种改进Vision Transformer,引入了STA(Super Token Attention)注意力机制来增强Vision Transformer对关键特征信息的提取并减少计算冗余度,还通过加入哈尔小波下采样(Haar Wavelet Downsampling)在减少细节信息丢失的同时增强对图像不同尺度局部和全局信息的捕获能力。通过实验在AID数据集上达到了92.98%的总体准确率,证明了提出方法的有效性。 展开更多
关键词 遥感图像分类 vision Transformer 哈尔小波下采样 STA注意力机制
在线阅读 下载PDF
卷积增强Vision Mamba模型的构建及其应用 被引量:1
9
作者 俞焕友 范静 黄凡 《计算机技术与发展》 2025年第8期45-52,共8页
针对Vision Mamba(Vim)模型的局限性,该文提出了一种改进的模型——Convolutional Vision Mamba(CvM)。此模型通过摒弃Vim中的图形切割和位置编码机制,转而采用卷积操作进行替代,以实现对全局视觉信息的更高效处理。同时,此模型对Vim模... 针对Vision Mamba(Vim)模型的局限性,该文提出了一种改进的模型——Convolutional Vision Mamba(CvM)。此模型通过摒弃Vim中的图形切割和位置编码机制,转而采用卷积操作进行替代,以实现对全局视觉信息的更高效处理。同时,此模型对Vim模型中的位置嵌入模块进行了优化,以解决其固有的高计算量和内存消耗问题。进而,该文将CvM模型应用于医学图像分类领域,选用了血细胞图像、脑肿瘤图像、胸部CT扫描、病理性近视眼底图像以及肺炎X射线影像等数据集进行实验。实验结果表明,与Vim模型及其他5个神经网络模型相比,CvM模型在准确率上表现更为出色,在内存占用和参数数量方面也展现出明显的优势。消融实验表明,深度可分离卷积比标准卷积使用的参数和显存占用更少,而且在血细胞图像、脑肿瘤图像等医学图像分类上,准确率还有了显著提升。这些结果充分说明了CvM模型的优势和可行性。 展开更多
关键词 深度学习 vision Mamba 卷积神经网络 深度可分离卷积 医学图像分类
在线阅读 下载PDF
A Hybrid Approach for Pavement Crack Detection Using Mask R-CNN and Vision Transformer Model 被引量:2
10
作者 Shorouq Alshawabkeh Li Wu +2 位作者 Daojun Dong Yao Cheng Liping Li 《Computers, Materials & Continua》 SCIE EI 2025年第1期561-577,共17页
Detecting pavement cracks is critical for road safety and infrastructure management.Traditional methods,relying on manual inspection and basic image processing,are time-consuming and prone to errors.Recent deep-learni... Detecting pavement cracks is critical for road safety and infrastructure management.Traditional methods,relying on manual inspection and basic image processing,are time-consuming and prone to errors.Recent deep-learning(DL)methods automate crack detection,but many still struggle with variable crack patterns and environmental conditions.This study aims to address these limitations by introducing the Masker Transformer,a novel hybrid deep learning model that integrates the precise localization capabilities of Mask Region-based Convolutional Neural Network(Mask R-CNN)with the global contextual awareness of Vision Transformer(ViT).The research focuses on leveraging the strengths of both architectures to enhance segmentation accuracy and adaptability across different pavement conditions.We evaluated the performance of theMaskerTransformer against other state-of-theartmodels such asU-Net,TransformerU-Net(TransUNet),U-NetTransformer(UNETr),SwinU-NetTransformer(Swin-UNETr),You Only Look Once version 8(YoloV8),and Mask R-CNN using two benchmark datasets:Crack500 and DeepCrack.The findings reveal that the MaskerTransformer significantly outperforms the existing models,achieving the highest Dice SimilarityCoefficient(DSC),precision,recall,and F1-Score across both datasets.Specifically,the model attained a DSC of 80.04%on Crack500 and 91.37%on DeepCrack,demonstrating superior segmentation accuracy and reliability.The high precision and recall rates further substantiate its effectiveness in real-world applications,suggesting that the Masker Transformer can serve as a robust tool for automated pavement crack detection,potentially replacing more traditional methods. 展开更多
关键词 Pavement crack segmentation TRANSPORTATION deep learning vision transformer Mask R-CNN image segmentation
在线阅读 下载PDF
基于Vision Transformer的混合型晶圆图缺陷模式识别
11
作者 李攀 娄莉 《现代信息科技》 2025年第19期26-30,共5页
晶圆测试作为芯片生产过程中重要的一环,晶圆图缺陷模式的识别和分类对改进前端制造工艺具有关键作用。在实际生产过程中,各类缺陷可能同时出现,形成混合缺陷类型。传统深度学习方法对混合型晶圆图缺陷信息的识别率较低,为此,文章提出... 晶圆测试作为芯片生产过程中重要的一环,晶圆图缺陷模式的识别和分类对改进前端制造工艺具有关键作用。在实际生产过程中,各类缺陷可能同时出现,形成混合缺陷类型。传统深度学习方法对混合型晶圆图缺陷信息的识别率较低,为此,文章提出一种基于Vision Transformer的缺陷识别方法。该方法采用多头自注意力机制对晶圆图的全局特征进行编码,实现了对混合型晶圆缺陷图的高效识别。在混合型缺陷数据集上的实验结果表明,该方法性能优于现有深度学习模型,平均正确率达96.2%。 展开更多
关键词 计算机视觉 晶圆图 缺陷识别 vision Transformer
在线阅读 下载PDF
Geometric parameter identification of bridge precast box girder sections based on deep learning and computer vision 被引量:2
12
作者 JIA Jingwei NI Youhao +2 位作者 MAO Jianxiao XU Yinfei WANG Hao 《Journal of Southeast University(English Edition)》 2025年第3期278-285,共8页
To overcome the limitations of low efficiency and reliance on manual processes in the measurement of geometric parameters for bridge prefabricated components,a method based on deep learning and computer vision is deve... To overcome the limitations of low efficiency and reliance on manual processes in the measurement of geometric parameters for bridge prefabricated components,a method based on deep learning and computer vision is developed to identify the geometric parameters.The study utilizes a common precast element for highway bridges as the research subject.First,edge feature points of the bridge component section are extracted from images of the precast component cross-sections by combining the Canny operator with mathematical morphology.Subsequently,a deep learning model is developed to identify the geometric parameters of the precast components using the extracted edge coordinates from the images as input and the predefined control parameters of the bridge section as output.A dataset is generated by varying the control parameters and noise levels for model training.Finally,field measurements are conducted to validate the accuracy of the developed method.The results indicate that the developed method effectively identifies the geometric parameters of bridge precast components,with an error rate maintained within 5%. 展开更多
关键词 bridge precast components section geometry parameters size identification computer vision deep learning
在线阅读 下载PDF
Adaptive optoelectronic transistor for intelligent vision system 被引量:1
13
作者 Yiru Wang Shanshuo Liu +5 位作者 Hongxin Zhang Yuchen Cao Zitong Mu Mingdong Yi Linghai Xie Haifeng Ling 《Journal of Semiconductors》 2025年第2期53-70,共18页
Recently,for developing neuromorphic visual systems,adaptive optoelectronic devices become one of the main research directions and attract extensive focus to achieve optoelectronic transistors with high performances a... Recently,for developing neuromorphic visual systems,adaptive optoelectronic devices become one of the main research directions and attract extensive focus to achieve optoelectronic transistors with high performances and flexible func-tionalities.In this review,based on a description of the biological adaptive functions that are favorable for dynamically perceiv-ing,filtering,and processing information in the varying environment,we summarize the representative strategies for achiev-ing these adaptabilities in optoelectronic transistors,including the adaptation for detecting information,adaptive synaptic weight change,and history-dependent plasticity.Moreover,the key points of the corresponding strategies are comprehen-sively discussed.And the applications of these adaptive optoelectronic transistors,including the adaptive color detection,sig-nal filtering,extending the response range of light intensity,and improve learning efficiency,are also illustrated separately.Lastly,the challenges faced in developing adaptive optoelectronic transistor for artificial vision system are discussed.The descrip-tion of biological adaptive functions and the corresponding inspired neuromorphic devices are expected to provide insights for the design and application of next-generation artificial visual systems. 展开更多
关键词 adaptive optoelectronic transistor neuromorphic computing artificial vision
在线阅读 下载PDF
融合Vision Transformer与3D CNN的深度伪造视频篡改检测
14
作者 孙立信 吴永飞 +2 位作者 李心宇 任杰煌 刘西林 《计算机应用与软件》 北大核心 2025年第11期121-127,共7页
Deepfake技术的出现,使人们可以轻松地对人脸视频进行篡改,对社会造成巨大的危害。现有的篡改检测方法主要侧重于视频帧间的局部人脸区域空间特征变化检测,并没有考虑连续全局区域的时域特征,且不能检测视频帧中的细微空域特征变化。针... Deepfake技术的出现,使人们可以轻松地对人脸视频进行篡改,对社会造成巨大的危害。现有的篡改检测方法主要侧重于视频帧间的局部人脸区域空间特征变化检测,并没有考虑连续全局区域的时域特征,且不能检测视频帧中的细微空域特征变化。针对此问题,提出融合Vision Transformer和3D CNN的视频篡改检测方法ViT-3DCNN。该方法无需对人脸进行裁剪,直接学习视频帧间的连续时域特征以及每一帧的空间特征。实验结果表明,不依赖于人脸剪裁的情况下,ViT-3DCNN模型分别在DFDC数据集及Celeb-DF数据集上取得了93.3%与90.65%的分类准确性,充分验证了该模型在检测精度和泛化性等方面相较于现有检测方法具有明显的优势。 展开更多
关键词 伪造视频篡改检测 时空特征 vision Transformer 3D卷积
在线阅读 下载PDF
基于改进Vision Transformer的森林火灾视频识别研究
15
作者 张敏 辛颖 黄天棋 《南京林业大学学报(自然科学版)》 北大核心 2025年第4期186-194,共9页
【目的】针对现有森林火灾图像识别算法存在的效率不足、时序特征利用率低等问题,构建基于视频数据的森林火灾识别模型,以提升林火监测的实时性与识别准确率。【方法】提出融合三维卷积神经网络(3DCNN)与视觉Vision Transformer(ViT)的C... 【目的】针对现有森林火灾图像识别算法存在的效率不足、时序特征利用率低等问题,构建基于视频数据的森林火灾识别模型,以提升林火监测的实时性与识别准确率。【方法】提出融合三维卷积神经网络(3DCNN)与视觉Vision Transformer(ViT)的C3D-ViT算法。该模型通过3DCNN提取视频序列的时空特征,构建时空特征向量;利用ViT编码器的自注意力机制融合局部与全局特征;最终经MLP Head层输出分类结果。通过消融实验验证C3D-ViT模型的有效性,并与原模型3DCNN和ViT,以及ResNet50、LSTM、YOLOv5等深度学习模型进行对比。【结果】C3D-ViT在自建林火数据集上准确率达到96.10%,较ResNet50(89.07%)、LSTM(93.26%)和YOLOv5(91.46%)具有明显优势。模型改进有效,准确率超越3DCNN(93.91%)与ViT(90.43%)。在遮挡、远距离、低浓度烟雾等复杂场景下保持较高的平均置信度,满足实时监测需求。【结论】C3D-ViT通过时空特征联合建模,显著提升林火识别的鲁棒性与时效性,为森林防火系统提供可靠的技术支持。 展开更多
关键词 森林火灾 深度学习 目标检测 三维卷积神经网络 vision Transformer
原文传递
Steel Surface Defect Detection Using Learnable Memory Vision Transformer
16
作者 Syed Tasnimul Karim Ayon Farhan Md.Siraj Jia Uddin 《Computers, Materials & Continua》 SCIE EI 2025年第1期499-520,共22页
This study investigates the application of Learnable Memory Vision Transformers(LMViT)for detecting metal surface flaws,comparing their performance with traditional CNNs,specifically ResNet18 and ResNet50,as well as o... This study investigates the application of Learnable Memory Vision Transformers(LMViT)for detecting metal surface flaws,comparing their performance with traditional CNNs,specifically ResNet18 and ResNet50,as well as other transformer-based models including Token to Token ViT,ViT withoutmemory,and Parallel ViT.Leveraging awidely-used steel surface defect dataset,the research applies data augmentation and t-distributed stochastic neighbor embedding(t-SNE)to enhance feature extraction and understanding.These techniques mitigated overfitting,stabilized training,and improved generalization capabilities.The LMViT model achieved a test accuracy of 97.22%,significantly outperforming ResNet18(88.89%)and ResNet50(88.90%),aswell as the Token to TokenViT(88.46%),ViT without memory(87.18),and Parallel ViT(91.03%).Furthermore,LMViT exhibited superior training and validation performance,attaining a validation accuracy of 98.2%compared to 91.0%for ResNet 18,96.0%for ResNet50,and 89.12%,87.51%,and 91.21%for Token to Token ViT,ViT without memory,and Parallel ViT,respectively.The findings highlight the LMViT’s ability to capture long-range dependencies in images,an areawhere CNNs struggle due to their reliance on local receptive fields and hierarchical feature extraction.The additional transformer-based models also demonstrate improved performance in capturing complex features over CNNs,with LMViT excelling particularly at detecting subtle and complex defects,which is critical for maintaining product quality and operational efficiency in industrial applications.For instance,the LMViT model successfully identified fine scratches and minor surface irregularities that CNNs often misclassify.This study not only demonstrates LMViT’s potential for real-world defect detection but also underscores the promise of other transformer-based architectures like Token to Token ViT,ViT without memory,and Parallel ViT in industrial scenarios where complex spatial relationships are key.Future research may focus on enhancing LMViT’s computational efficiency for deployment in real-time quality control systems. 展开更多
关键词 Learnable Memory vision Transformer(LMViT) Convolutional Neural Networks(CNN) metal surface defect detection deep learning computer vision image classification learnable memory gradient clipping label smoothing t-SNE visualization
在线阅读 下载PDF
ViT-Count:面向冠层遮挡的Vision Transformer树木计数定位方法
17
作者 张乔一 张瑞 霍光煜 《北京林业大学学报》 北大核心 2025年第10期128-138,共11页
【目的】针对复杂场景中树木检测的挑战,如遮挡、背景干扰及密集分布等,本研究提出一种基于Vision Transformer(ViT)的树木检测方法(ViT-Count),提升模型对复杂场景中树木的检测精度与鲁棒性。【方法】采用ViT作为基础模型,其在捕捉图... 【目的】针对复杂场景中树木检测的挑战,如遮挡、背景干扰及密集分布等,本研究提出一种基于Vision Transformer(ViT)的树木检测方法(ViT-Count),提升模型对复杂场景中树木的检测精度与鲁棒性。【方法】采用ViT作为基础模型,其在捕捉图像中全局上下文信息方面具有天然优势,尤其适用于形态多变的复杂环境。设计针对树木的视觉提示调优VPT机制,其通过在特征中注入可学习提示(prompts),优化模型在林地高密度树冠、光照变化及不同树种结构下的特征提取能力,提高对不同林分类型的适应性。设计卷积模块的注意力机制模块,利用其在局部感知基础上的长距离依赖建模能力,有效强化模型对树木遮挡、重叠及形态相似目标的辨别能力,提高整体检测的鲁棒性与准确性。设计一个树木检测解码器,通过多层卷积、归一化、GELU激活与上采样操作逐步还原空间分辨率,以生成的目标密度图实现树木计数与定位。【结果】该方法在提升森林、城市场景下的树木检测鲁棒性的同时,增强了模型在多尺度树木目标上的泛化能力。在Larch Casebearer数据集和Urban Tree数据集上进行的实验显示,与其他主流模型相比,该方法的MAE和RMSE最多分别降低了2.53、3.99,表明其泛化能力更强,具有最优的树木检测性能。可视化实验结果表明,在密集森林场景和复杂城市场景中,所提模型均具有较高的树木检测准确率。消融实验的结果证明了模型主要模块的有效性。【结论】基于Vision Transformer的面向复杂场景的树木计数与定位方法能够充分发挥ViT的全局建模能力及视觉提示调优机制任务适应性,结合卷积模块的注意力机制,有效提升复杂场景树木计数与定位的精度与鲁棒性。 展开更多
关键词 目标识别 树木计数 树木定位 复杂场景 vision Transformer(ViT) 视觉提示调优(VPT) 注意力机制
在线阅读 下载PDF
融合SOLOv2-Vision Transformer的面瘫识别方法研究
18
作者 庄哲笼 丁有伟 +2 位作者 胡孔法 陈科宏 陈功 《南京中医药大学学报》 北大核心 2025年第10期1399-1406,共8页
目的为了使患者和医生更快诊断病情,达到早发现、早诊断、早治疗的目的,建立准确及时的面瘫智能化辅助诊断方法。方法提出融合SOLOv2-Vision Transformer的方法,将收集的面瘫数据经过替换主干网络的SOLOv2模型分割,去除图像中干扰部分,... 目的为了使患者和医生更快诊断病情,达到早发现、早诊断、早治疗的目的,建立准确及时的面瘫智能化辅助诊断方法。方法提出融合SOLOv2-Vision Transformer的方法,将收集的面瘫数据经过替换主干网络的SOLOv2模型分割,去除图像中干扰部分,再输入到Vision Transformer模型中进行分类训练。通过先分割再分类的原则,提高面瘫图像的分类效果。结果该实验方法在MEEI面瘫数据集上的准确率为0.982、召回率为0.982、F1-score为0.981,相比于基础模型分别提高了2%、4%、4%。结论融合SOLOv2-Vision Transformer的面瘫分类模型,相比较于未经分割的方法可实现更高的识别精度,为面瘫诊断提供了新方法。 展开更多
关键词 图像分割 图像分类 注意力机制 面瘫 诊断 SOLOv2-vision Transformer
暂未订购
基于改进的Vision Transformer深度哈希图像检索 被引量:1
19
作者 杨梦雅 赵琰 薛亮 《陕西科技大学学报》 北大核心 2025年第4期183-191,共9页
针对基于卷积神经网络的深度哈希方法不能很好捕捉全局图像信息和数据集中难易样本、正负样本对不平衡的问题,提出一种基于改进的Vision Transformer深度哈希算法(CMTH).首先,在Transformer编码网络前利用卷积神经网络提取深度局部特征... 针对基于卷积神经网络的深度哈希方法不能很好捕捉全局图像信息和数据集中难易样本、正负样本对不平衡的问题,提出一种基于改进的Vision Transformer深度哈希算法(CMTH).首先,在Transformer编码网络前利用卷积神经网络提取深度局部特征,降低维度并保持较高的图像分辨率.其次,改进的Vision Transformer网络使用轻量级多头互注意模块,提取高维深度全局特征的同时降低计算复杂度.最后,提出新的损失框架,设计标准焦点损失调整难样本在数据集中的权重,并构建一种新的哈希损失,以减少难易样本不平衡和正负样本对不平衡的影响.在CIFAR-10和NUS-WIDE上与基于Vision Transformer的深度哈希次优算法相比,在四种不同比特下均值平均精度分别平均提高了2.35%和3.75%. 展开更多
关键词 深度哈希 卷积神经网络 视觉注意力 图像检索
在线阅读 下载PDF
Elemental Vision
20
作者 刘奕欣 田园 《毛纺科技》 北大核心 2025年第11期I0008-I0008,共1页
设计说明:《Elemental Vision》模块化机织屏风作品以中国传统五行元素(金、木、水、火、土)为灵感,探索现代城市生活环境中的五行呈现。以五行生克关系为切入点,将现代都市生活的常见意象,如行人、车流、建筑物与废墟等进行分类并对应... 设计说明:《Elemental Vision》模块化机织屏风作品以中国传统五行元素(金、木、水、火、土)为灵感,探索现代城市生活环境中的五行呈现。以五行生克关系为切入点,将现代都市生活的常见意象,如行人、车流、建筑物与废墟等进行分类并对应于五行元素。通过解构5组城市意象得到色彩、图案和材料的来源。织物部分以羊毛为主,辅以复合材料进行编织;工艺采用双面染经机织技法,使面料呈现正反异色的效果;外框材料使用铝合金拼接,呼应城市主题的同时与手工艺品质感形成对比。作品整体采用模块化结构,可以自由展开、折叠、移动和拆卸组装,方便不同场合使用。 展开更多
关键词 机织屏风 五行元素 五行生克关系 Elemental vision
在线阅读 下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部