期刊文献+
共找到22篇文章
< 1 2 >
每页显示 20 50 100
基于Vit模型的坩埚透明层厚度测量研究
1
作者 张方 《舰船电子工程》 2025年第4期189-194,共6页
为解决现有坩埚透明层厚度检测存在的人工测量效率低、精度不足、无法全面反映整体坩埚质量等问题,论文提出一种基于机器视觉和深度学习Vit模型的SiO2坩埚层厚测量方法。采用基于单片机控制的手持测厚设备,实现匀速拍摄坩埚表面至内部视... 为解决现有坩埚透明层厚度检测存在的人工测量效率低、精度不足、无法全面反映整体坩埚质量等问题,论文提出一种基于机器视觉和深度学习Vit模型的SiO2坩埚层厚测量方法。采用基于单片机控制的手持测厚设备,实现匀速拍摄坩埚表面至内部视频;通过人工标定,确定透明层初始帧和结束帧的标准;运用融合帧差信息的霍夫梯度法定位坩埚表层气泡,结合Vit模型对图像帧进行分类获取层界边缘帧;最终利用提出的厚度计算公式获得透明层厚度信息。在对同一批次坩埚样品进行多位置点透明层厚度测量中,方法误差保持在0.3 mm以内,充分展现出其卓越的准确性和稳定性。同时搭配设计的手持设备实现了坩埚透明层厚度的便捷测量,为研究提供了可行而高效的方案。 展开更多
关键词 机器视觉 石英坩埚 vit模型 层厚测量
在线阅读 下载PDF
Local Geomagnetic Component Modeling of Auroral Images Based on Local‑Global Feature
2
作者 WANG Bo ZHANG Yuanshu +5 位作者 CHENG Wei TIAN Xinqin SHENG Qinghong LI Jun LING Xiao LIU Xiang 《Transactions of Nanjing University of Aeronautics and Astronautics》 2025年第6期710-727,共18页
Accurately predicting geomagnetic field is of great significance for space environment monitoring and space weather forecasting worldwide.This paper proposes a vision Transformer(ViT)hybrid model that leverages aurora... Accurately predicting geomagnetic field is of great significance for space environment monitoring and space weather forecasting worldwide.This paper proposes a vision Transformer(ViT)hybrid model that leverages aurora images to predict local geomagnetic station component,breaking the spatial limitations of geomagnetic stations.Our method utilizes the ViT backbone model in combination with convolutional networks to capture both the large-scale spatial correlation and distinct local feature correlation between aurora images and geomagnetic station data.Essentially,the model comprises a visual geometry group(VGG)image feature extraction network,a ViT-based encoder network,and a regression prediction network.Our experimental findings indicate that global features of aurora images play a more substantial role in predicting geomagnetic data than local features.Specifically,the hybrid model achieves a 39.1%reduction in root mean square error compared to the VGG model,a 29.5%reduction compared to the ViT model and a 35.3%reduction relative to the residual network(ResNet)model.Moreover,the fitting accuracy of the model surpasses that of the VGG,ViT,and ResNet models by 2.14%1.58%,and 4.1%,respectively. 展开更多
关键词 ultraviolet aurora image geomagnetic field prediction vision Transformer(vit)hybrid model
在线阅读 下载PDF
基于自预训练的改进ViT心音分类方法
3
作者 刘海权 《自动化应用》 2025年第10期63-68,共6页
针对Transformer模型用于心音分类任务中会出现的过拟合现象导致的训练失败问题,提出基于自预训练的改进ViT心音分类模型。首先,提取心音数据的log梅尔频谱图作为模型输入,通过增强输入的特征表示以避免过拟合现象;其次,通过带有重叠的... 针对Transformer模型用于心音分类任务中会出现的过拟合现象导致的训练失败问题,提出基于自预训练的改进ViT心音分类模型。首先,提取心音数据的log梅尔频谱图作为模型输入,通过增强输入的特征表示以避免过拟合现象;其次,通过带有重叠的滑动分块保留相邻patch之间的相关性,相关性能提供位置信息以代替位置编码;最后,提出一种自预训练方法对模型进行预训练,自预训练能减少噪声的引入并能有效提高模型性能。在PCCD和PHSD两个数据集上进行实验,结果表明,提出的改进模型能在心音数据中进行有效训练,没有出现过拟合现象。此外,提出的改进模型分别在PCCD和PHSD数据集上达到了96.2%和99.1%的准确率。 展开更多
关键词 心音分类 Transformer模型 vit 自预训练
在线阅读 下载PDF
基于ViT与语义引导的视频内容描述生成 被引量:3
4
作者 赵宏 陈志文 +1 位作者 郭岚 安冬 《计算机工程》 CAS CSCD 北大核心 2023年第5期247-254,共8页
现有视频内容描述模型生成的视频内容描述文本可读性差且准确率不高。基于ViT模型提出一种语义引导的视频内容描述方法。利用ReNeXt和ECO网络提取视频的视觉特征,以提取的视觉特征为输入、语义标签的概率预测值为输出训练语义检测网络(S... 现有视频内容描述模型生成的视频内容描述文本可读性差且准确率不高。基于ViT模型提出一种语义引导的视频内容描述方法。利用ReNeXt和ECO网络提取视频的视觉特征,以提取的视觉特征为输入、语义标签的概率预测值为输出训练语义检测网络(SDN)。在此基础上,通过ViT模型对静态和动态视觉特征进行全局编码,并与SDN提取的语义特征进行注意力融合,采用语义长短期记忆网络对融合特征进行解码,生成视频对应的描述文本。通过引入视频中的语义特征能够引导模型生成更符合人类习惯的描述,使生成的描述更具可读性。在MSR-VTT数据集上的测试结果表明,该模型的BLEU-4、METEOR、ROUGE-L和CIDEr指标分别为44.8、28.9、62.8和51.1,相比于当前主流的视频内容描述模型ADL和SBAT,提升的得分总和达到16.6和16.8。 展开更多
关键词 视频内容描述 视频理解 vit模型 语义引导 长短期记忆网络 注意力机制
在线阅读 下载PDF
融合一维Inception结构与ViT的恶意加密流量检测 被引量:11
5
作者 孙懿 高见 顾益军 《计算机工程》 CAS CSCD 北大核心 2023年第1期154-162,共9页
在互联网加密化背景下,传统恶意流量检测方法在加密流量上的特征区分度较差,为更好地从加密流量中检测出恶意流量,设计一个融合一维Inception-ViT的恶意加密流量检测模型。基于流量数据的时序性特点,通过一维Inception结构对GoogLeNet中... 在互联网加密化背景下,传统恶意流量检测方法在加密流量上的特征区分度较差,为更好地从加密流量中检测出恶意流量,设计一个融合一维Inception-ViT的恶意加密流量检测模型。基于流量数据的时序性特点,通过一维Inception结构对GoogLeNet中的Inception结构进行改进,使用适用于序列数据的一维卷积替换二维卷积,并添加池化操作去除一些冗余信息的干扰。同时,融合ViT模型,将经过一维Inception结构处理后的数据输入到ViT模型中,利用多头注意力突出重要特征,增强特征区分度以提升模型检测结果。为验证一维Inception-ViT模型各模块的有效性,与6种变体模型进行对比,实验结果表明,一维Inception-ViT模型性能最好,平均召回率和平均F1值指标分别达到了99.42%和99.39%。此外,与其他8种现有模型进行比较,一维Inception-ViT模型具有更好的检测效果,同时在恶意加密流量Neris和Virut细粒度分类上,与性能最好的基准模型相比,一维Inception-ViT模型能够有效减少样本检测混淆,可更准确地对恶意加密流量进行识别。 展开更多
关键词 加密流量 恶意加密流量检测 多分类 卷积神经网络 Vision Transformer模型
在线阅读 下载PDF
基于改进的DenseNet-ViT联合网络和迁移学习的燃气轮机转子故障诊断 被引量:1
6
作者 乔琦 王红军 +2 位作者 马康 王正 余成龙 《电子测量与仪器学报》 CSCD 北大核心 2024年第11期40-47,共8页
实际工业环境中,燃气轮机转子故障数据难以采集导致故障样本稀缺,无法满足故障模型的海量训练要求。利用DenseNet在图像特征提取方面的和Transformer结构在视觉领域上的优势,提出了一种基于改进的DenseNet-ViT联合网络的燃气轮机转子故... 实际工业环境中,燃气轮机转子故障数据难以采集导致故障样本稀缺,无法满足故障模型的海量训练要求。利用DenseNet在图像特征提取方面的和Transformer结构在视觉领域上的优势,提出了一种基于改进的DenseNet-ViT联合网络的燃气轮机转子故障诊断方法。首先舍弃掉DenseNet的分类层,只需利用DenseNet的特征提取层,随后将改进的DenseNet的输出层连接到ViT模型的输入层构成联合网络;另外针对故障模型训练耗时长的问题,利用迁移学习将训练好模型权重参数进行迁移可以加快训练时间,节省计算资源。利用在实验室构建的燃气轮机转子模拟实验台可以获得燃气轮机转子故障模拟数据,在某型号燃气轮机试车台上获得了真实环境下的转子不同类型的故障数据,利用模拟数据与真实数据进行模型测试可以更好的检验所提出方法的可靠性。实验结果表明:在两种不同转子故障数据集测试中分别达到了96.8%和97.3%的故障识别准确率,表明该方法具有较高的转子故障识别精度;在后续设置的对比验证实验中,通过与CNN以及VGG-16等进行对比,该模型的故障分类准确率也均高于这些网络,从而进一步验证了该模型的优异性和可靠性。 展开更多
关键词 燃气轮机 转子故障 vit模型 故障诊断 迁移学习
原文传递
针对Tor暗网流量的MorViT指纹识别模型
7
作者 朱懿 蔡满春 +2 位作者 姚利峰 张溢文 陈咏豪 《计算机工程与应用》 CSCD 北大核心 2024年第24期270-281,共12页
网络攻击日趋频繁,为保护用户隐私,匿名通信系统不断涌现。但这也被不法分子利用,进行各类违法活动而形成暗网。监测和识别暗网流量对维护网络安全具有重要意义。针对上述问题,提出了用于Tor暗网流量的MorViT指纹识别模型。该模型将流... 网络攻击日趋频繁,为保护用户隐私,匿名通信系统不断涌现。但这也被不法分子利用,进行各类违法活动而形成暗网。监测和识别暗网流量对维护网络安全具有重要意义。针对上述问题,提出了用于Tor暗网流量的MorViT指纹识别模型。该模型将流量数据转换为图像以便于可视化和模型输入,并融合一维倒残差结构、二维倒残差结构和MobileViT模块,用以同时提取流量局部特征以及整体流量的全局特征和长距离依赖关系。为弥补Transformer在小数据集上的不足,引入可学习的温度系数和对角掩码增强局部归纳能力。实验结果表明,MorViT模型在封闭世界和开放世界场景下的分类准确率、召回率、AUC等指标上均优于既有模型,能够有效完成Tor暗网流量指纹识别任务。 展开更多
关键词 洋葱路由 网站指纹识别 暗网 倒残差结构 vit模型
在线阅读 下载PDF
基于ChipGAN-ViT模型的汉绣艺术风格迁移与模拟 被引量:3
8
作者 沙莎 李怡 +1 位作者 蒋惠敏 陈雅卓 《纺织工程学报》 2023年第5期68-77,共10页
针对真实图像与汉绣图像在风格迁移融合过程中产生的针法工艺模糊和边界伪影问题,提出了基于ChipGAN-ViT模型的汉绣风格迁移方法。由于刺绣纹样内部与背景留白具有不同的线迹填充效果,算法首先利用ChipGAN-ViT模型对前景进行纹理重构,... 针对真实图像与汉绣图像在风格迁移融合过程中产生的针法工艺模糊和边界伪影问题,提出了基于ChipGAN-ViT模型的汉绣风格迁移方法。由于刺绣纹样内部与背景留白具有不同的线迹填充效果,算法首先利用ChipGAN-ViT模型对前景进行纹理重构,再利用循环生成对抗网络对风格图像和内容图像进行风格迁移;其次,采用Sobel算子对汉绣图像进行边缘轮廓提取,以满足汉绣数字化模拟的内容图像需求;最后,对生成的风格迁移图像进行超分辨率处理获得最终汉绣数字化图像。实验结果表明:该方法可有效模拟出汉绣平顺且配色丰富的艺术特点,相比传统的ChipGAN、CNN算法迁移时间缩减了30.58%和41.52%。所提出的汉绣风格迁移方法是对风格迁移技术的有效补充,为汉绣图案的创新设计提供了新的可能。 展开更多
关键词 风格迁移 生成对抗网络 ChipGAN-vit模型 损失函数 画稿模拟
在线阅读 下载PDF
基于高分遥感影像的农作物面积分割研究
9
作者 王建霞 刘文宇 +1 位作者 王婵 吴长莉 《河北工业科技》 2025年第3期212-220,共9页
为了解决传统图像分割网络在农作物面积分割方面精度低的问题,提出了一种将并行网络进行特征融合的VGNet网络模型。首先,设计了具有并行网络结构的VGNet网络模型;其次,利用VGNet网络进行农作物面积的分割和提取;最后,基于曲阳县小麦区... 为了解决传统图像分割网络在农作物面积分割方面精度低的问题,提出了一种将并行网络进行特征融合的VGNet网络模型。首先,设计了具有并行网络结构的VGNet网络模型;其次,利用VGNet网络进行农作物面积的分割和提取;最后,基于曲阳县小麦区域数据集进行了消融实验和对比实验。结果表明:VGNet模型在农作物面积分割任务中的准确率和平均像素精度(MPA)分别达到了94.57%和94.13%,相比于传统的U形网络(u-shaped network,UNet)模型分别提升了6.88个百分点和8.72个百分点,相比于高分辨率网络(high-resolution network,HRNet)分别提升了1.72个百分点和2.23个百分点,相比于DeepLabV3+网络分别提升了1.53个百分点和1.96个百分点。VGNet网络模型能够提升农作物面积分割的准确性,为遥感图像分割提供了有效方法。 展开更多
关键词 计算机图像处理 农作物面积分割 遥感图像 UNet模型 vit模型
在线阅读 下载PDF
视觉模型及多模态大模型推进图像复原增强研究进展 被引量:3
10
作者 韦炎炎 毛天一 +4 位作者 李柏昂 王飞 李锋 张召 赵洋 《中国图象图形学报》 北大核心 2025年第5期1197-1219,共23页
图像在拍摄、传输和存储过程中常会出现退化情况,影响视觉感知和信息理解。图像复原增强旨在将降质图像恢复为干净图像,以提升视觉感知体验,并提高如语义分割和目标检测等计算机视觉任务的精度,在自动驾驶和智能医疗等数据敏感的应用场... 图像在拍摄、传输和存储过程中常会出现退化情况,影响视觉感知和信息理解。图像复原增强旨在将降质图像恢复为干净图像,以提升视觉感知体验,并提高如语义分割和目标检测等计算机视觉任务的精度,在自动驾驶和智能医疗等数据敏感的应用场景有重要作用。视觉及多模态大模型在多个领域取得重要进展,并在图像复原增强任务中展现出巨大潜力。对此,本文系统总结并分析近年国内外图像复原增强领域应用视觉(大)模型和多模态大模型的重要研究进展。1)总结介绍基于ViT(vision Transformer)的图像复原增强方法,探讨ViT在处理图像退化和增强方面具有的长距离依赖潜力;2)阐述基于扩散模型的图像复原增强方法,讨论其在处理复杂图像退化和恢复细节方面的优势;3)分析X-anything模型在图像复原增强任务上的潜力,尤其是SAM(segment anything model)等视觉大模型在退化样本上提供的鲁棒零样本预测先验信息能力;4)介绍多模态大模型,如CLIP(contrastive language image pre-training)和GPT-4V在图像复原增强任务中的应用,展示这些预训练模型在图像复原过程中所提供的语义信息指导能力;5)分析当前图像复原增强技术面临的挑战,如数据获取困难、计算资源需求高和模型稳定性不足等,同时展望图像复原增强技术的发展方向,为未来的研究和应用提供新的思路和参考。 展开更多
关键词 图像复原增强 视觉大模型 多模态大模型(LMM) 视觉Transformer(vit) 扩散模型 X-anything 计算机视觉
原文传递
融合局部和全局特征的改进Transformer工业图像分类算法
11
作者 王玲 崔志瑜 +2 位作者 黄靖 王鹏 白燕娥 《计算机工程与应用》 北大核心 2025年第18期263-272,共10页
在数据获取受限、环境复杂且光照变化大的工业场景中,ViT模型的分类准确率仍有待提高。针对该问题,基于CMT模型提出一种工业图像分类算法。改进Patch Embedding模块,通过添加仿射变换和连续卷积块,提升模型对小数据集的泛化能力;改进CMT... 在数据获取受限、环境复杂且光照变化大的工业场景中,ViT模型的分类准确率仍有待提高。针对该问题,基于CMT模型提出一种工业图像分类算法。改进Patch Embedding模块,通过添加仿射变换和连续卷积块,提升模型对小数据集的泛化能力;改进CMT Block,提出并行局部特征提取模块,增强模型对局部特征的提取能力,将多头自注意力替换为token交互注意力,提升模型的全局特征表达能力,将深度卷积和通道注意力集成到前馈神经网络中,使模型能够有效地捕获相邻特征;提出特征融合模块,将局部和全局特征融合到一起,丰富特征表示,增强模型在小数据集上的分类性能。在自制灌装桶数据集、公开Car Parts和Tiny ImageNet数据集上的实验表明,改进CMT模型的Top-1 Accuracy较CMT模型提升4.7、6.9和5.2个百分点,Macro F1较CMT模型提升0.057、0.071和0.048,实现了分类精度的提高。 展开更多
关键词 vit模型 工业图像分类 CMT模型 注意力 特征融合
在线阅读 下载PDF
ImageNet数据能否帮助改进基于深度学习的云图分类准确率?
12
作者 季焱 叶灵熙 +6 位作者 黄智勇 彭婷 高智伟 孔德璇 吉璐莹 朱寿鹏 智协飞 《大气科学学报》 北大核心 2025年第3期389-403,共15页
精准的云属分类,对于区域天气形势预测和全球能量收支平衡具有重要意义。然而,准确客观地识别地基云图目前仍然存在挑战,尤其是当前可获得的标准云图数据不足,因此以数据驱动的深度学习云图分类模型性能有待进一步提高。本文探索了如何... 精准的云属分类,对于区域天气形势预测和全球能量收支平衡具有重要意义。然而,准确客观地识别地基云图目前仍然存在挑战,尤其是当前可获得的标准云图数据不足,因此以数据驱动的深度学习云图分类模型性能有待进一步提高。本文探索了如何利用非气象云图数据,如ImageNet数据集,帮助改进地基云图分类技巧。以世界气象组织定义的10类标准云属和1类尾迹云为分类对象,构建了基于卷积结构的ResNet50、MobileNet-V2和基于自注意力结构的ViT云图分类模型。结果表明,仅使用原始云图训练时,参数量较小的传统卷积结构网络要优于参数量庞大的ViT模型。然而,通过使用ImageNet数据集进行预训练后,ViT模型的云图分类技巧有了显著提升,预训练策略将平均F 1评分由0.78提高至0.96,超过了当前的主流分类模型。这表明,利用深度学习模型来实现云图分类是可靠且有效的途径,而预训练策略对于类似于ViT的大型网络而言更为重要。此外进一步将训练稳定的模型部署至移动端口(http://43.142.162.19:5174/),实现了通过上传拍摄云图进行实时分类,并提供相关的云类科普信息,推动气象云知识在社会公众中的普及程度。 展开更多
关键词 迁移学习 云图分类 vit模型 预训练模型 非常规气象数据
在线阅读 下载PDF
采用ConvNeXt解码器和基频预测的低资源语音合成
13
作者 王猛 杨鉴 《浙江大学学报(工学版)》 北大核心 2025年第10期2186-2194,共9页
现有模型合成低资源语言的语音自然度低,为此提出改进模型.以VITS为基线模型,使用ConvNeXtV2模块替换原模型解码器中的转置卷积模块以降低混叠干扰,应用逆短时傅立叶变换(iSTFT)构建新的解码器以提升合成语音的自然流畅性.将帧级别的基... 现有模型合成低资源语言的语音自然度低,为此提出改进模型.以VITS为基线模型,使用ConvNeXtV2模块替换原模型解码器中的转置卷积模块以降低混叠干扰,应用逆短时傅立叶变换(iSTFT)构建新的解码器以提升合成语音的自然流畅性.将帧级别的基频预测器引入模型,离散化预测器输出并转换为高维向量,再与VITS中流模块的输出向量拼接后送入所构建解码器结构中.添加基频损失函数以捕捉和模拟声调.使用缅甸语、越南语和泰语数据集训练并评估所提改进模型.模型性能对比实验结果表明,所提改进模型的语音合成效果优于现有模型. 展开更多
关键词 语音合成 低资源语言 vitS ConvNeXt 基频建模
在线阅读 下载PDF
城市高架桥对颗粒物扩散分布的影响 被引量:7
14
作者 邱兆文 王樽 李唯真 《中国公路学报》 EI CAS CSCD 北大核心 2022年第5期202-210,共9页
近年来,随着中国城市化进程的不断加快,城市高架的数量也与日俱增,但高架桥在缓解交通拥堵的同时也给城市道路空气污染扩散分布带来了新的影响。为了探讨这一新问题,采用实地监测和数值模拟相结合的方法,基于计算流体力学原理(CFD)建立R... 近年来,随着中国城市化进程的不断加快,城市高架的数量也与日俱增,但高架桥在缓解交通拥堵的同时也给城市道路空气污染扩散分布带来了新的影响。为了探讨这一新问题,采用实地监测和数值模拟相结合的方法,基于计算流体力学原理(CFD)建立RNG k-ε模型及离散相(DPM)模型,分析对称型街道峡谷内高架桥沿线交通颗粒物的扩散机制。研究结果表明:高架桥的存在会影响街道峡谷内的空气流场,导致桥面颗粒物向桥下地面沉积,造成地面颗粒物浓度增大;高架引桥沿线的交通状态对街谷内湍流动能的分布也有较大影响,进而改变了颗粒物的分布状态,通过模拟发现,车辆湍动能VIT的存在使颗粒物平均浓度相比于未考虑VIT时降低了3.77%,并且加重了高架桥的“盖子效应”,使高架桥面高度以下的颗粒物的平均浓度发生变化,迎风侧浓度增长11.46%~16.52%,而背风侧浓度下降2.82%~8.65%,高架桥源颗粒物在垂直方向上更加容易扩散;同时发现,高架引桥各位置处对应的街谷内颗粒物浓度要高于高架桥面高度处的颗粒物浓度。研究成果可为制定城市高架地区的交通污染控制对策提供理论参考。 展开更多
关键词 交通工程 颗粒物 扩散模拟 高架桥 车辆湍流动能
原文传递
融合迁移学习和集成学习的服装风格图像分类方法
15
作者 游小荣 李淑芳 《现代纺织技术》 北大核心 2024年第9期127-134,共8页
针对服装风格人工分类受主观性、地域等因素影响而造成的分类错误问题,研究了一种基于人工智能的服装风格图像分类方法。首先,在FashionStyle14数据集基础上筛除重复或无效图像,构建服装风格图像数据集;然后,采用迁移学习方法,对Efficie... 针对服装风格人工分类受主观性、地域等因素影响而造成的分类错误问题,研究了一种基于人工智能的服装风格图像分类方法。首先,在FashionStyle14数据集基础上筛除重复或无效图像,构建服装风格图像数据集;然后,采用迁移学习方法,对EfficientNet V2、RegNet Y 16GF和ViT Large 16等模型进行微调训练,生成新模型,实现基于单个深度学习的服装风格图像分类;最后,为进一步提高图像分类的准确性、可靠性和鲁棒性,分别采用基于投票、加权平均和堆叠的集成学习方法对上述单个模型进行组合预测。迁移学习实验结果表明,基于ViT Large 16的深度学习模型在测试集上表现最佳,平均准确率为77.024%;集成学习方法实验结果显示,基于投票的集成学习方法在相同测试集上平均准确率可达78.833%。研究结果为解决服装风格分类问题提供了新的思路。 展开更多
关键词 服装风格 迁移学习 集成学习 vit模型 图像分类
在线阅读 下载PDF
基于Vision Transformer多模型融合的视觉闭环检测算法 被引量:3
16
作者 胡正南 胡立坤 《激光杂志》 CAS 北大核心 2024年第6期75-81,共7页
针对闭环检测在图像特征表示方面存在信息丢失的问题,提出一种基于Vision Transformer (Vi T)与卷积神经网络进行多模型融合的特征提取算法。首先,将输入图像进行特征提取,然后将高维的图像特征向量进行核主成分分析(KPCA)降维,构建成... 针对闭环检测在图像特征表示方面存在信息丢失的问题,提出一种基于Vision Transformer (Vi T)与卷积神经网络进行多模型融合的特征提取算法。首先,将输入图像进行特征提取,然后将高维的图像特征向量进行核主成分分析(KPCA)降维,构建成新的图像特征表示;同时,提出了一种新的范围匹配算法,通过相应的范围框架去限制并选择范围进行特征匹配。实验结果表明:所提算法相比于其他的算法,有着更高的准确率和匹配速率,达到了更好的鲁棒性与实时性的要求,证明了该算法在闭环检测上的有效性。 展开更多
关键词 闭环检测 vit 多模型融合 KPCA 范围匹配
原文传递
面向图像分类的Vision Transformer研究综述 被引量:5
17
作者 智敏 陆静芳 《郑州大学学报(工学版)》 CAS 北大核心 2024年第4期19-29,共11页
作为一种基于Transformer架构的模型,ViT已经在图像分类任务中展现出了良好的效果。对ViT在图像分类任务上的应用进行系统性归纳总结。首先,简单介绍了ViT框架及其4个模块(patch模块、位置编码、多头注意力和前馈神经网络)的功能特性;其... 作为一种基于Transformer架构的模型,ViT已经在图像分类任务中展现出了良好的效果。对ViT在图像分类任务上的应用进行系统性归纳总结。首先,简单介绍了ViT框架及其4个模块(patch模块、位置编码、多头注意力和前馈神经网络)的功能特性;其次,以ViT中4个模块的改进措施为脉络综述其在图像分类任务中的应用;再次,由于不同的模型结构和改进措施对最终的分类性能产生显著影响,还对文中出现的各类ViT进行了横向对比,并详细列出模型的参数和分类精度及其优缺点;最后,指出ViT在图像分类任务中的优势和局限性,并提出未来可能的研究方向以打破其局限性,进一步扩展ViT在其他计算机视觉任务中的应用,同时,还可以探索将ViT扩展到视频理解等更广泛的计算机视觉领域。 展开更多
关键词 vit模型 图像分类 多头注意力 前馈网络层 位置编码
在线阅读 下载PDF
一种基于深度学习的SAR城市建筑区域叠掩精确检测方法 被引量:5
18
作者 田野 丁赤飚 +1 位作者 张福博 石民安 《雷达学报(中英文)》 EI CSCD 北大核心 2023年第2期441-455,共15页
建筑物叠掩检测在城市三维合成孔径雷达(3D SAR)成像流程中是至关重要的步骤,其不仅影响成像效率,还直接影响最终成像的质量。目前,用于建筑物叠掩检测的算法往往难以提取远距离全局空间特征,也未能充分挖掘多通道SAR数据中关于叠掩的... 建筑物叠掩检测在城市三维合成孔径雷达(3D SAR)成像流程中是至关重要的步骤,其不仅影响成像效率,还直接影响最终成像的质量。目前,用于建筑物叠掩检测的算法往往难以提取远距离全局空间特征,也未能充分挖掘多通道SAR数据中关于叠掩的丰富特征信息,导致现有叠掩检测算法的精确度无法满足城市3D SAR成像的要求。为此,该文结合Vision Transformer (ViT)模型和卷积神经网络(CNN)的优点,提出了一种基于深度学习的SAR城市建筑区域叠掩精确检测方法。ViT模型能够通过自注意力机制有效提取全局特征和远距离特征,同时CNN有着很强的局部特征提取能力。此外,该文所提方法还基于专家知识增加了用于挖掘通道间叠掩特征和干涉相位叠掩特征的模块,提高算法的准确率与鲁棒性,同时也能够有效地减轻模型在小样本数据集上的训练压力。最后在该文构建的机载阵列SAR数据集上测试,实验结果表明,该文所提算法检测准确率达到94%以上,显著高于其他叠掩检测算法。 展开更多
关键词 深度学习 专家知识 3D SAR成像 建筑区域叠掩检测 Vision Transformer模型
在线阅读 下载PDF
多模态大模型监控视频分析技术研究 被引量:1
19
作者 刘伟旻 王斌 《计算机应用文摘》 2024年第18期165-167,共3页
随着信息化基础设施的技术进步及相关部门、个人对安防的重视水平提高,监控视频分析要求急剧增加,但传统的人工巡检手段、机器学习算法在分析监控视频时存在错漏度高、适应性弱、泛化性差等问题。对此,文章提出了一种多模态大模型监控... 随着信息化基础设施的技术进步及相关部门、个人对安防的重视水平提高,监控视频分析要求急剧增加,但传统的人工巡检手段、机器学习算法在分析监控视频时存在错漏度高、适应性弱、泛化性差等问题。对此,文章提出了一种多模态大模型监控视频分析技术,其中设计了以感知层、编码层、连接层、大语言模型(LLM)为关键骨架的多模态大模型监控视频分析架构与不同的任务提示词,将LLM作为监控视频分析智能体,从而理解、生成并执行任务步骤,最终实现了对监控视频的分析。 展开更多
关键词 多模态 大模型 TRANSFORMER vit Q-Former
在线阅读 下载PDF
历史建筑多模态检索方法研究
20
作者 袁嘉梦 陈浪 +1 位作者 陈维亚 骆汉宾 《土木建筑工程信息技术》 2024年第4期7-13,共7页
在HBIM(Historic Building Information Modeling)数据库中进行信息查询面临三个问题:一是没有普适性的规则判断建筑之间的相似性;二是未考虑建筑本身所包含的历史文化信息;三是查询文本多基于关键词,难以检索到关键词未包含的信息。针... 在HBIM(Historic Building Information Modeling)数据库中进行信息查询面临三个问题:一是没有普适性的规则判断建筑之间的相似性;二是未考虑建筑本身所包含的历史文化信息;三是查询文本多基于关键词,难以检索到关键词未包含的信息。针对以上问题,提出了一种面向历史建筑的多模态检索方法,用户能通过输入图像或自然语言文本数据,检索到与输入特征相符的建筑,并以列表形式进行排序。在以图像检索建筑时,利用“dino_vit16”模型对图像进行特征提取,所提出的图像-建筑检索方法检索精度达90.08%;在文本检索建筑时则基于CLIP(Contrastive Language-Image Pre-training)模型建立图像和文本的关联,研究了图文相似度和文本相似度权重的取值,选择m=0.6,n=0.4作为权重的最佳配置。实验证明所提出的文本-建筑检索算法对于包含某种外观特征查询语句的检索效果最好,对于描述某种功能和建筑风格的查询语句检索效果最差,而当查询语句中包含4个以上的混合特征,能够描述出建筑的基本面貌时,可以准确地检索到符合条件的建筑。 展开更多
关键词 历史建筑 HBIM vit 相似性度量 多模态检索
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部