期刊文献+
共找到2,186篇文章
< 1 2 110 >
每页显示 20 50 100
Visioneer Strobe XP 100
1
《公共支出与采购》 2003年第5期22-22,共1页
关键词 visioneer Strobe XP 100 扫描仪 产品功能 自动倾斜校正工作
在线阅读 下载PDF
扫描仪 HP ScanJet 4S和Visioneer PaperPort Vx:性格迥异的双胞胎
2
作者 Alfred Poor 黄国胜 《个人电脑》 1996年第4期33-34,共2页
Danny DeVito和Arnold Sch-warzenegger在电影Twins中扮演了一对性格各异的双胞胎。
关键词 扫描仪 HP ScanJet 4S 传感器 visioneer PaperPort Vx 灰度级 双胞胎 性格 个性心理特征
在线阅读 下载PDF
一种探地雷达与深度学习的隧道衬砌健康评价方法 被引量:1
3
作者 张广伟 《测绘通报》 北大核心 2025年第3期122-126,149,共6页
隧道在其服役期内,受多种因素影响,隧道壁后会产生空洞、不密实等多种结构病害,影响服役性能,探地雷达(GPR)无损检测技术广泛应用于隧道质量检测领域,但由于雷达数据的解译工作较为复杂,数据量大,检测效率有待提高。近年来,深度学习因... 隧道在其服役期内,受多种因素影响,隧道壁后会产生空洞、不密实等多种结构病害,影响服役性能,探地雷达(GPR)无损检测技术广泛应用于隧道质量检测领域,但由于雷达数据的解译工作较为复杂,数据量大,检测效率有待提高。近年来,深度学习因其出色的数据处理能力和信息提取能力而备受瞩目,提供了多种高效、可靠的病害分类模型。本文基于GPR图像,提出了一种多级病害分类方法用于评估隧道衬砌健康状况。首先,获取雷达图像数据,并进行人工解译,创建样本数据库,用于模型的输入和输出,以训练和测试深度学习模型;然后,针对数据库的小样本特点,利用Vision Transformer网络和改进后的Compact Convolutional Transformer对数据进行分类。结果显示,Vision Transformer算法可以实现基于雷达影像的隧道衬砌健康评价,相较于其他版本,具有更好的结果及较高的准确率。 展开更多
关键词 探地雷达 神经网络 Vision Transformer 隧道衬砌健康评价
原文传递
基于多尺度空间-光谱特征提取的颜料高光谱图像分类方法
4
作者 汤斌 罗希玲 +6 位作者 王建旭 范文奇 孙玉宇 刘家路 唐欢 赵雅 钟年丙 《光谱学与光谱分析》 北大核心 2025年第8期2364-2372,共9页
颜料不仅赋予文物色彩和美感,更承载着丰富的历史、文化与技术信息,因此对颜料的准确分类与识别是古代彩绘作品修复、保护及学术研究的重要基础。通过检测颜料的种类与化学成分,不仅能帮助确定作品的创作年代、地域特征及工艺风格,还能... 颜料不仅赋予文物色彩和美感,更承载着丰富的历史、文化与技术信息,因此对颜料的准确分类与识别是古代彩绘作品修复、保护及学术研究的重要基础。通过检测颜料的种类与化学成分,不仅能帮助确定作品的创作年代、地域特征及工艺风格,还能为科学修复提供指导依据。然而,传统颜料分析受限于样品尺寸、表面平整度,且部分分析方法需要取样,对文物造成不可逆损伤,这使得古书画颜料的检测面临诸多挑战。高光谱成像技术(HSI)凭借其无损检测、广域扫描及获取完整光谱信息的优势,成为文物颜料分析的重要工具。HSI克服了样品表面不平整、尺寸受限等问题,能够从不同波段获取细致的光谱和空间信息,帮助提取颜料的微观特征。旨在利用HSI技术实现古书画颜料的精准分类与深度特征提取,以应对复杂场景下的颜料检测挑战。为此,我们提出了一种多尺度空间-光谱特征融合的方法,在分析过程中结合不同层次的信息:利用光谱-空间注意力机制捕捉细节特征,并通过视觉转换器(ViT)模型获取图像整体的高层语义信息,从而增强对复杂颜料特征的表示能力和分类性能。实验结果表明,该方法在模拟画作样品上的分类性能显著优于传统和其他深度学习模型:与支持向量机(SVM)相比,分类精度提升了34.35%;相较于HyBridSN与SSRN模型,精度分别提高了8.93%和5.6%。本方法不仅提升了颜料检测的准确性,还为古书画的科学修复和价值保护提供了无损、可靠的技术支持,并为文物保护的智能化发展奠定了技术基础。 展开更多
关键词 高光谱成像 多尺度特征融合 Vision Transformer 光谱-空间注意力 颜料分类
在线阅读 下载PDF
基于ViT网络模型自注意力机制的干扰类型分布式识别方法
5
作者 王珣 吴志强 刘明骞 《兵工学报》 北大核心 2025年第S1期356-368,共13页
针对传统集中式大功率干扰在现代通信对抗中存在覆盖有限、易被定位等问题,提出一种基于空海一体化架构的分布式通信干扰信号识别方法。该方法通过构建空海协同电子对抗体系,由空中无人机采集干扰信号,海上信息处理中心进行多源信号融... 针对传统集中式大功率干扰在现代通信对抗中存在覆盖有限、易被定位等问题,提出一种基于空海一体化架构的分布式通信干扰信号识别方法。该方法通过构建空海协同电子对抗体系,由空中无人机采集干扰信号,海上信息处理中心进行多源信号融合与特征提取,并设计融合多微信号表征的多阶段Vision Transformer识别模型,实现干扰信号的自动识别与分类。实验结果表明:该方法能够有效提升干扰信号的识别精度与效率,为通信系统的抗干扰决策提供支持。研究结论显示,该方法能够有效提升分布式通信干扰信号的识别精度与效率,具备较强的鲁棒性和适应性,能够满足现代战场对快速识别干扰信号的需求,并为分布式通信干扰技术的工程化应用提供新的可行路径,为空海一体化电子对抗体系的构建奠定技术基础。 展开更多
关键词 分布式通信干扰 空海一体化 信号识别 Vision Transformer
在线阅读 下载PDF
基于改进Vision Transformer的水稻叶片病害图像识别
6
作者 朱周华 周怡纳 +1 位作者 侯智杰 田成源 《电子测量技术》 北大核心 2025年第10期153-160,共8页
水稻叶片病害智能识别在现代农业生产中具有重要意义。针对传统Vision Transformer网络缺乏归纳偏置,难以有效捕捉图像局部细节特征的问题,提出了一种改进的Vision Transformer模型。该模型通过引入内在归纳偏置,增强了对多尺度上下文... 水稻叶片病害智能识别在现代农业生产中具有重要意义。针对传统Vision Transformer网络缺乏归纳偏置,难以有效捕捉图像局部细节特征的问题,提出了一种改进的Vision Transformer模型。该模型通过引入内在归纳偏置,增强了对多尺度上下文以及局部与全局依赖关系的建模能力,同时降低了对大规模数据集的需求。此外,Vision Transformer中的多层感知器模块被Kolmogorov-Arnold网络结构取代,从而提升了模型对复杂特征的提取能力和可解释性。实验结果表明,所提模型在水稻叶片病害识别任务中取得了优异的性能,识别准确率达到了98.62%,较原始ViT模型提升了6.2%,显著提高了对水稻叶片病害的识别性能。 展开更多
关键词 水稻叶片病害 图像识别 Vision Transformer网络 归纳偏置 局部特征
原文传递
关键区域鉴别联合多粒度知识蒸馏的细粒度图像分类
7
作者 余鹰 王景辉 +1 位作者 危伟 钱进 《小型微型计算机系统》 北大核心 2025年第8期1960-1967,共8页
近年来,随着深度学习技术的飞速发展,研究人员开始尝试将Vision Transformer(ViT)应用于细粒度图像分类.然而,尽管ViT的多头自注意力机制赋予了模型强大的全局信息捕捉能力,但在关注局部微小且判别力强的区域上仍显不足,这在一定程度上... 近年来,随着深度学习技术的飞速发展,研究人员开始尝试将Vision Transformer(ViT)应用于细粒度图像分类.然而,尽管ViT的多头自注意力机制赋予了模型强大的全局信息捕捉能力,但在关注局部微小且判别力强的区域上仍显不足,这在一定程度上限制了其在细粒度图像分类任务中的表现.为了解决这一问题,本文提出了一种高效且平滑地融合多层自注意力权重的方法,以深入挖掘图像的局部判别特征,从而弥补传统ViT模型在细节信息捕捉上的不足,增强模型对图像细微特征的敏感性.此外,本文构建了助理教师网络来指导学生网络学习多种粒度的特征信息,进一步提升其捕捉细微特征的能力.为了验证所提出模型的有效性,本文在多个基准数据集上进行了实验.结果表明,该模型显著优于传统ViT模型,展现了强大的局部特征捕捉能力和优异的分类性能. 展开更多
关键词 细粒度图像分类 自注意力机制 知识蒸馏 vision transformer 关键区域鉴别
在线阅读 下载PDF
Vision Transformer模型在中医舌诊图像分类中的应用研究
8
作者 周坚和 王彩雄 +3 位作者 李炜 周晓玲 张丹璇 吴玉峰 《广西科技大学学报》 2025年第5期89-98,共10页
舌诊作为中医望诊中的一项重要且常规的检查手段,在中医临床诊断中发挥着不可或缺的作用。为突破传统舌诊依赖主观经验及卷积神经网络(convolutional neural network,CNN)模型分类性能不足的局限,本文基于高质量舌象分类数据集,提出基于... 舌诊作为中医望诊中的一项重要且常规的检查手段,在中医临床诊断中发挥着不可或缺的作用。为突破传统舌诊依赖主观经验及卷积神经网络(convolutional neural network,CNN)模型分类性能不足的局限,本文基于高质量舌象分类数据集,提出基于Vision Transformer(ViT)深度学习模型,通过预训练与微调策略优化特征提取能力,并结合数据增强技术解决类别分布不平衡问题。实验结果表明,该模型在6项关键舌象特征分类任务中,5项指标的准确率(苔色85.6%、瘀斑98.0%、质地99.6%、舌色96.6%、裂纹87.8%)显著优于现有CNN方法(如ResNet50对应准确率分别为78.0%、91.0%、92.0%、68.0%、80.1%),验证了该模型在突破传统性能瓶颈、提升中医临床智能诊断可靠性方面的有效性和应用潜力。 展开更多
关键词 舌诊 Vision Transformer(ViT) 深度学习 医学图像分类
在线阅读 下载PDF
基于轻量级卷积神经网络的雷达辐射源识别方法
9
作者 张忠民 姜嵛涵 《应用科技》 2025年第1期166-172,共7页
在雷达辐射源信号识别中,针对现有的识别方法存在实时性差、网络模型参数量大以及难以应用于资源受限的设备等问题,提出了一种基于轻量级卷积神经网络的雷达辐射源信号识别方法。首先,利用平滑伪Wigner-Ville分布(smooth pseudo Wigner-... 在雷达辐射源信号识别中,针对现有的识别方法存在实时性差、网络模型参数量大以及难以应用于资源受限的设备等问题,提出了一种基于轻量级卷积神经网络的雷达辐射源信号识别方法。首先,利用平滑伪Wigner-Ville分布(smooth pseudo Wigner-Ville distribution,SPWVD)将雷达辐射源信号转换为时频图像,并对时频图像进行图像预处理;其次,基于Vision Transformer的架构设计,结合传统的卷积神经网络,构建了轻量级网络模型RecNet;最后,利用预处理后的时频图像对RecNet网络模型进行训练,实现对9种雷达辐射源信号的高效识别。实验表明,该方法在信噪比为−8 dB时,对9种雷达辐射源信号的识别准确率达到95.7%,模型参数量为0.9×10^(6)且推理延迟仅为4.67 ms,在保证较高识别准确率的同时,具有更快的识别速度和更小的模型参数量,具有一定的工程应用价值。 展开更多
关键词 轻量级 卷积神经网络 雷达辐射源识别 时频分析 图像处理 Vision Transformer 高效识别 深度学习
在线阅读 下载PDF
基于ViT语义指导与结构感知增强的艺术风格迁移 被引量:1
10
作者 潘书煜 赵征鹏 +3 位作者 阳秋霞 普园媛 谷金晶 徐丹 《计算机学报》 北大核心 2025年第9期2131-2158,共28页
艺术风格迁移是计算机视觉领域一个长期的研究热点,该任务旨在将参考风格图像的艺术风格迁移到内容图像中,同时保持内容图像的语义结构不变。目前基于深度学习的艺术风格迁移方法依然面临一项主要挑战:现有方法在迁移过程中无法很好地... 艺术风格迁移是计算机视觉领域一个长期的研究热点,该任务旨在将参考风格图像的艺术风格迁移到内容图像中,同时保持内容图像的语义结构不变。目前基于深度学习的艺术风格迁移方法依然面临一项主要挑战:现有方法在迁移过程中无法很好地保持内容域到风格域的语义结构跨域一致性,从而导致风格化结果的内容保真度低、风格化不一致。针对以上问题,本文提出了一种基于ViT(Vision Transformer)语义指导与结构感知增强的艺术风格迁移方法。首先,利用预训练的DINO-ViT模型在内容域和风格域建立强大且一致的内容结构表示,并设计了两种损失函数:(1)DINO keys自相似性的语义结构损失,以保持内容源的跨域一致性;(2)DINO特征空间的知识蒸馏损失,以提升编码器的特征提取能力。其次,为进一步增强模型的结构感知能力,提出了基于拉普拉斯算子的空间结构损失和基于小波变换的频域纹理损失,从空间域和频率域两方面增强了对边缘轮廓与细致纹理的约束。在通用数据集MS COCO和WikiArt上的定性与定量结果表明,本文方法不仅可以产生内容保真度高、风格化一致的结果,还能推广应用于现有方法以进一步改善生成结果的视觉质量。其中,与基线方法CAP-VST相比,本文方法的SSIM值提升0.079,CLIP-IQA值提升0.024,LPIPS值小0.096,Content Loss值小1.035;将本文方法应用于其他现有方法后,SSIM值最优提升0.135,CLIP-IQA值最优提升0.011,LPIPS值最优小0.108,Content Loss值最优小1.244,证明了本文方法在艺术风格迁移任务中的有效性与灵活性。 展开更多
关键词 艺术风格迁移 Vision Transformer 知识蒸馏 结构感知 拉普拉斯算子 小波变换
在线阅读 下载PDF
视觉Transformer(ViT)发展综述 被引量:8
11
作者 李玉洁 马子航 +2 位作者 王艺甫 王星河 谭本英 《计算机科学》 北大核心 2025年第1期194-209,共16页
视觉Transformer(Vision Transformer,ViT)是基于编码器-解码器结构的Transformer改进模型,已经被成功应用于计算机视觉领域。近几年基于ViT的研究层出不穷且效果显著,基于该模型的工作已经成为计算机视觉任务的重要研究方向,因此针对... 视觉Transformer(Vision Transformer,ViT)是基于编码器-解码器结构的Transformer改进模型,已经被成功应用于计算机视觉领域。近几年基于ViT的研究层出不穷且效果显著,基于该模型的工作已经成为计算机视觉任务的重要研究方向,因此针对近年来ViT的发展进行概述。首先,简要回顾了ViT的基本原理及迁移过程,并分析了ViT模型的结构特点和优势;然后,根据各ViT变体模型的改进特点,归纳和梳理了基于ViT的主要骨干网络变体改进方向及其代表性改进模型,包括局部性改进、结构改进、自监督、轻量化及效率改进等改进方向,并对其进行分析比较;最后,讨论了当前ViT及其改进模型仍存在的不足,对ViT未来的研究方向进行了展望。可以作为研究人员进行基于ViT骨干网络的研究时选择深度学习相关方法的一个权衡和参考。 展开更多
关键词 计算机视觉 模式识别 Vision Transformer(ViT) 深度学习 自注意力
在线阅读 下载PDF
A Hybrid Approach for Pavement Crack Detection Using Mask R-CNN and Vision Transformer Model 被引量:2
12
作者 Shorouq Alshawabkeh Li Wu +2 位作者 Daojun Dong Yao Cheng Liping Li 《Computers, Materials & Continua》 SCIE EI 2025年第1期561-577,共17页
Detecting pavement cracks is critical for road safety and infrastructure management.Traditional methods,relying on manual inspection and basic image processing,are time-consuming and prone to errors.Recent deep-learni... Detecting pavement cracks is critical for road safety and infrastructure management.Traditional methods,relying on manual inspection and basic image processing,are time-consuming and prone to errors.Recent deep-learning(DL)methods automate crack detection,but many still struggle with variable crack patterns and environmental conditions.This study aims to address these limitations by introducing the Masker Transformer,a novel hybrid deep learning model that integrates the precise localization capabilities of Mask Region-based Convolutional Neural Network(Mask R-CNN)with the global contextual awareness of Vision Transformer(ViT).The research focuses on leveraging the strengths of both architectures to enhance segmentation accuracy and adaptability across different pavement conditions.We evaluated the performance of theMaskerTransformer against other state-of-theartmodels such asU-Net,TransformerU-Net(TransUNet),U-NetTransformer(UNETr),SwinU-NetTransformer(Swin-UNETr),You Only Look Once version 8(YoloV8),and Mask R-CNN using two benchmark datasets:Crack500 and DeepCrack.The findings reveal that the MaskerTransformer significantly outperforms the existing models,achieving the highest Dice SimilarityCoefficient(DSC),precision,recall,and F1-Score across both datasets.Specifically,the model attained a DSC of 80.04%on Crack500 and 91.37%on DeepCrack,demonstrating superior segmentation accuracy and reliability.The high precision and recall rates further substantiate its effectiveness in real-world applications,suggesting that the Masker Transformer can serve as a robust tool for automated pavement crack detection,potentially replacing more traditional methods. 展开更多
关键词 Pavement crack segmentation TRANSPORTATION deep learning vision transformer Mask R-CNN image segmentation
在线阅读 下载PDF
Vision Transformer深度学习模型在前列腺癌识别中的价值
13
作者 李梦娟 金龙 +2 位作者 尹胜男 计一丁 丁宁 《中国医学计算机成像杂志》 北大核心 2025年第3期396-401,共6页
目的:旨在探讨Vision Transformer(ViT)深度学习模型在前列腺癌(PCa)识别中的应用价值.方法:回顾性分析了480例接受磁共振成像(MRI)检查的患者影像资料.采用TotalSegmentator模型自动分割前列腺区域,通过ViT深度学习方法分别构建基于T2... 目的:旨在探讨Vision Transformer(ViT)深度学习模型在前列腺癌(PCa)识别中的应用价值.方法:回顾性分析了480例接受磁共振成像(MRI)检查的患者影像资料.采用TotalSegmentator模型自动分割前列腺区域,通过ViT深度学习方法分别构建基于T2加权像(T2WI)、基于表观弥散系数(ADC)图和基于两者结合的三个ViT模型.结果:在PCa的识别能力上,结合模型在训练组和测试组上的受试者工作特征(ROC)曲线下面积(AUC)分别为0.961和0.980,优于仅基于单一成像序列构建的ViT模型.在基于单一序列构建的ViT模型中,基于ADC图的模型相较于基于T2WI的模型表现更佳.此外,决策曲线分析显示结合模型提供了更大的临床效益.结论:ViT深度学习模型在前列腺癌识别中具有较高的诊断准确性和潜在价值. 展开更多
关键词 Vision Transformer 深度学习 前列腺癌 自动分割 磁共振成像
暂未订购
融合ViT和通道注意力的水稻病害识别技术研究 被引量:1
14
作者 涂雪滢 张佳鹏 +1 位作者 钱程 刘世晶 《农业与技术》 2025年第7期69-74,共6页
水稻产量和质量对农业经济、粮食安全、农民收入及生态环境至关重要,而水稻病害是影响其产量和质量的关键因素之一。为提升实际种植场景下的病害识别准确率,本文提出了一种融合Vision Transformer和通道注意力机制的水稻病害识别方法。... 水稻产量和质量对农业经济、粮食安全、农民收入及生态环境至关重要,而水稻病害是影响其产量和质量的关键因素之一。为提升实际种植场景下的病害识别准确率,本文提出了一种融合Vision Transformer和通道注意力机制的水稻病害识别方法。收集田间拍摄的水稻病害图像,并通过翻转、旋转、缩放等数据增强手段丰富样本多样性。针对病斑特征在图像中尺度变化大、形态复杂、局部与全局关联困难的问题,采用Vision Transformer作为基础框架,捕捉局部特征与全局信息,并融入通道注意力机制,提升模型对重要特征的关注度。引入迁移学习策略及学习率调度器,提升在样本不足情况下的识别精度并优化模型收敛速度。实验结果表明,本文方法识别精度达96.93%,相比AlexNet、VGG16、ResNet50及原始Vision Transformer,准确率分别提高4.95%、4.62%、1.91%和1.16%,且收敛速度更快,能够满足水稻病害识别需求,为其提供有效的技术支持。 展开更多
关键词 水稻病害 图像识别 Vision Transformer 通道注意力机制
在线阅读 下载PDF
用于医学图像分割的半监督对抗自集成网络
15
作者 黄子臻 王雷 +1 位作者 张玉坤 李彬 《计算机辅助设计与图形学学报》 北大核心 2025年第8期1405-1414,共10页
为了克服传统的U-Net网络在医学图像分割中存在的无法有效地提取上下文信息、固定的感受野受限制等问题,提出一种半监督对抗自集成网络,其由分割网络和判别网络2部分组成.前者采用卷积神经网络和Vision Transformer相结合的半监督学习策... 为了克服传统的U-Net网络在医学图像分割中存在的无法有效地提取上下文信息、固定的感受野受限制等问题,提出一种半监督对抗自集成网络,其由分割网络和判别网络2部分组成.前者采用卷积神经网络和Vision Transformer相结合的半监督学习策略;后者采用对抗一致性训练策略,利用2个基于一致性学习的判别器获取标记和未标记数据之间的先验关系;引入基于注意力的动态卷积,能够根据输入样本的结构信息自适应地调整网络的权重,增强特征表示能力并降低过拟合风险.在ACDC,LA和Pancreas这3个经典数据集上比较5种网络的实验结果表明,所提网络在Dice系数、Jaccard系数、Hausdorff距离和平均表面距离分别提高了3.4%~3.9%,2.9%~4.0%,43.5%~53.4%,65.1%~68.7%,尤其是在使用较少标记数据的情况下,实现了更好的分割结果. 展开更多
关键词 医学图像分割 vision Transformer 半监督学习 对抗一致性训练 动态卷积
在线阅读 下载PDF
ViTFFN模型在航空发动机剩余使用寿命预测中的应用
16
作者 张诺飞 王秀青 +2 位作者 王铮 叶晓雅 杜文霞 《重庆理工大学学报(自然科学)》 北大核心 2025年第9期108-116,共9页
提出一种结合Vision Transformer(ViT)和特征融合层次网络的RUL概率预测模型(vision transformer and feature fusion hierarchical network,ViTFFN)。ViT准确捕捉输入数据序列中的长期依赖关系和关键特征,特征融合层次网络(feature fus... 提出一种结合Vision Transformer(ViT)和特征融合层次网络的RUL概率预测模型(vision transformer and feature fusion hierarchical network,ViTFFN)。ViT准确捕捉输入数据序列中的长期依赖关系和关键特征,特征融合层次网络(feature fusion hierarchical network,FFHN)充分挖掘多尺度信息和上下文互补信息,并利用概率方法预测航空发动机RUL的置信区间,充分预测可能出现的结果。实验结果表明,所提ViTFFN模型在C-MAPSS数据集的FD002数据子集上的RMSE值和Score值为16.89和1489.36,均低于LSTM、DCNN等方法;对于FD004数据集,RMSE值为20.10。在FD001和FD003数据集上,ViTFFN模型与MSDCNN-LSTM、CACNN-Transformer等方法具备同等RUL预测结果,RMSE值分别为12.16和12.08。相比IDMFFN、MCLSTM等方法,ViTFFN模型具有更高的预测准确性,为航空发动机RUL预测提供了有效方法。 展开更多
关键词 剩余使用寿命预测 Vision Transformer 多尺度特征融合 航空发动机 深度学习
在线阅读 下载PDF
基于多任务注意力机制的无参考屏幕内容图像质量评价算法
17
作者 周子镱 董武 +3 位作者 陆利坤 马倩 侯国鹏 张二青 《光电工程》 北大核心 2025年第4期106-119,共14页
提出一种基于多任务注意力机制的无参考屏幕内容图像质量评价算法(multi-task attention mechanism based no reference quality assessment algorithm for screen content images,MTA-SCI)。MTA-SCI首先使用自注意力机制提取屏幕内容... 提出一种基于多任务注意力机制的无参考屏幕内容图像质量评价算法(multi-task attention mechanism based no reference quality assessment algorithm for screen content images,MTA-SCI)。MTA-SCI首先使用自注意力机制提取屏幕内容图像的全局特征,增强对屏幕内容图像整体信息的表征能力;然后使用综合局部注意力机制提取屏幕内容图像的局部特征,使局部特征能够聚焦于屏幕内容图像中更吸引人注意的细节部分;最后使用双通道特征映射模块预测屏幕内容图像的质量分数。在SCID和SIQAD数据集上,MTA-SCI的斯皮尔曼秩序相关系数(Spearman's rank order correlation coefficient,SRCC)分别达到0.9602和0.9233,皮尔森线性相关系数(Pearson linear correlation coefficient,PLCC)分别达到0.9609和0.9294。实验结果表明,MTA-SCI在预测屏幕内容图像质量任务中具有较高的准确性。 展开更多
关键词 屏幕内容图像 无参考图像质量评价 vision transformer 多级视觉感知特性 注意力机制
在线阅读 下载PDF
Open TBM Tunnel Intelligent Construction Technology 被引量:2
18
作者 LIU Yongsheng CHEN Qiao +4 位作者 ZHANG Hepei LI Shu′ao LIN Chungang YIN Long LI Mengyu 《隧道建设(中英文)》 北大核心 2025年第4期816-833,I0025-I0042,共36页
To fully leverage the advantages of mechanization and informatization in tunnel boring machine(TBM)operations,the authors aim to promote the advancement of tunnel construction technology toward intelligent development... To fully leverage the advantages of mechanization and informatization in tunnel boring machine(TBM)operations,the authors aim to promote the advancement of tunnel construction technology toward intelligent development.This involved exploring the deep integration of next-generation artificial intelligence technologies,such as sensing technology,automatic control technology,big data technology,deep learning,and machine vision,with key operational processes,including TBM excavation,direction adjustment,step changes,inverted arch block assembly,material transportation,and operation status assurance.The results of this integration are summarized as follows.(1)TBM key excavation parameter prediction algorithm was developed with an accuracy rate exceeding 90%.The TBM intelligent step-change control algorithm,based on machine vision,achieved an image segmentation accuracy rate of 95%and gripper shoe positioning error of±5 mm.(2)An automatic positioning system for inverted arch blocks was developed,enabling real-time perception of the spatial position and deviation during the assembly process.The system maintains an elevation positioning deviation within±3 mm and a horizontal positioning deviation within±10 mm,reducing the number of surveyors in each work team.(3)A TBM intelligent rail transportation system that achieves real-time human-machine positioning,automatic switch opening and closing,automatic obstacle avoidance,intelligent transportation planning,and integrated scheduling and command was designed.Each locomotive formation reduces one shunter and improves comprehensive transportation efficiency by more than 20%.(4)Intelligent analysis and prediction algorithms were developed to monitor and predict the trends of the hydraulic and gear oil parameters in real time,enhancing the proactive maintenance and system reliability. 展开更多
关键词 TUNNEL open TBM intelligent construction deep learning machine vision
在线阅读 下载PDF
基于表征知识蒸馏的WiFi手势识别方法
19
作者 龚浩成 朱海 +3 位作者 黄子非 杨明泽 张开昱 吴飞 《计算机工程与科学》 北大核心 2025年第4期655-666,共12页
随着人工智能和无线传感技术的快速发展,WiFi手势识别已经成为备受关注的研究领域之一。当前的研究工作,为了提高在不同数据域中模型的鲁棒性,减少对模型重新训练的依赖,通过从信道状态信息CSI中提取域无关特征,提出了身体坐标速度谱BVP... 随着人工智能和无线传感技术的快速发展,WiFi手势识别已经成为备受关注的研究领域之一。当前的研究工作,为了提高在不同数据域中模型的鲁棒性,减少对模型重新训练的依赖,通过从信道状态信息CSI中提取域无关特征,提出了身体坐标速度谱BVP,可实现在域内和跨域识别上的高准确性。然而在实际场景中,将采集到的CSI信号转换为BVP需要耗费大量计算资源,无法满足在生产环境中所需的实时性和扩展性等需求。此外,使用传统模型处理大量复杂的数据时,其缺乏全局特征和长期依赖关系的捕捉能力。为了解决上述问题,提出了一种基于表征知识蒸馏的WiFi手势识别框架RKD-WGR。RKD-WGR首先利用BVP数据作为教师模型输入,指导利用CSI数据输入的学生模型,将BVP推理分辨能力整合到学生模型中,也让CSI从自身学习来弥补BVP缺失的信息。同时,为了提高识别性能并加强教师模型向学生模型的知识传授能力,提出了3DWiT作为教师模型,利用BVP的时空信息辅助教师模型获取更多的信息来增强知识传授能力。实验结果表明,在Widar 3.0数据集上,不使用BVP而仅使用CSI的情况下,6类手势识别的精确度达到了97.1%,10类手势识别的精确度为96.5%,而22类手势识别的精确度达到了89.5%,验证了所提出框架和模型的有效性。 展开更多
关键词 WIFI 信道状态信息 手势识别 知识蒸馏 Vision Transformer
在线阅读 下载PDF
基于Vision Transformer的混合型晶圆图缺陷模式识别
20
作者 李攀 娄莉 《现代信息科技》 2025年第19期26-30,共5页
晶圆测试作为芯片生产过程中重要的一环,晶圆图缺陷模式的识别和分类对改进前端制造工艺具有关键作用。在实际生产过程中,各类缺陷可能同时出现,形成混合缺陷类型。传统深度学习方法对混合型晶圆图缺陷信息的识别率较低,为此,文章提出... 晶圆测试作为芯片生产过程中重要的一环,晶圆图缺陷模式的识别和分类对改进前端制造工艺具有关键作用。在实际生产过程中,各类缺陷可能同时出现,形成混合缺陷类型。传统深度学习方法对混合型晶圆图缺陷信息的识别率较低,为此,文章提出一种基于Vision Transformer的缺陷识别方法。该方法采用多头自注意力机制对晶圆图的全局特征进行编码,实现了对混合型晶圆缺陷图的高效识别。在混合型缺陷数据集上的实验结果表明,该方法性能优于现有深度学习模型,平均正确率达96.2%。 展开更多
关键词 计算机视觉 晶圆图 缺陷识别 Vision Transformer
在线阅读 下载PDF
上一页 1 2 110 下一页 到第
使用帮助 返回顶部