This paper introduces a novel method for medical image retrieval and classification by integrating a multi-scale encoding mechanism with Vision Transformer(ViT)architectures and a dynamic multi-loss function.The multi...This paper introduces a novel method for medical image retrieval and classification by integrating a multi-scale encoding mechanism with Vision Transformer(ViT)architectures and a dynamic multi-loss function.The multi-scale encoding significantly enhances the model’s ability to capture both fine-grained and global features,while the dynamic loss function adapts during training to optimize classification accuracy and retrieval performance.Our approach was evaluated on the ISIC-2018 and ChestX-ray14 datasets,yielding notable improvements.Specifically,on the ISIC-2018 dataset,our method achieves an F1-Score improvement of+4.84% compared to the standard ViT,with a precision increase of+5.46% for melanoma(MEL).On the ChestX-ray14 dataset,the method delivers an F1-Score improvement of 5.3%over the conventional ViT,with precision gains of+5.0% for pneumonia(PNEU)and+5.4%for fibrosis(FIB).Experimental results demonstrate that our approach outperforms traditional CNN-based models and existing ViT variants,particularly in retrieving relevant medical cases and enhancing diagnostic accuracy.These findings highlight the potential of the proposedmethod for large-scalemedical image analysis,offering improved tools for clinical decision-making through superior classification and case comparison.展开更多
目的近年来,基于深度学习的水印方法得到了广泛研究。现有方法通常对特征图的低频和高频部分同等对待,忽视了不同频率成分之间的重要差异,导致模型在处理多样化攻击时缺乏灵活性,难以同时实现水印的高保真性和强鲁棒性。为此,本文提出...目的近年来,基于深度学习的水印方法得到了广泛研究。现有方法通常对特征图的低频和高频部分同等对待,忽视了不同频率成分之间的重要差异,导致模型在处理多样化攻击时缺乏灵活性,难以同时实现水印的高保真性和强鲁棒性。为此,本文提出一种频率感知驱动的深度鲁棒图像水印技术(deep robust image watermarking driven by frequency awareness,RIWFP)。方法通过差异化机制处理低频和高频成分,提升水印性能。具体而言,低频成分通过小波卷积神经网络进行建模,利用宽感受野卷积在粗粒度层面高效学习全局结构和上下文信息;高频成分则采用深度可分离卷积和注意力机制组成的特征蒸馏块进行精炼,强化图像细节,在细粒度层面高效捕捉高频信息。此外,本文使用多频率小波损失函数,引导模型聚焦于不同频带的特征分布,进一步提升生成图像的质量。结果实验结果表明,提出的频率感知驱动的深度鲁棒图像水印技术在多个数据集上均表现出优越性能。在COCO(common objects in context)数据集上,RIWFP在随机丢弃攻击下的准确率达到91.4%;在椒盐噪声和中值滤波攻击下,RIWFP分别以100%和99.5%的准确率达到了最高水平,展现了其对高频信息的高效学习能力。在Ima⁃geNet数据集上,RIWFP在裁剪攻击下的准确率为93.4%;在JPEG压缩攻击下的准确率为99.6%,均显著优于其他对比方法。综合来看,RIWFP在COCO和ImageNet数据集上的平均准确率分别为96.7%和96.9%,均高于其他对比方法。结论本文所提方法通过频率感知的粗到细处理策略,显著增强了水印的不可见性和鲁棒性,在处理多种攻击时表现出优越性能。展开更多
针对视频异常事件的时空相关性学习对检测性能存在重要影响的问题,提出了基于融合双支特征的带约束损失的视频异常检测方法(Dual-branch Feature Fusion Based Constrained Multi-loss Video Anomaly Detection,DBF-CML-transMIL)。该...针对视频异常事件的时空相关性学习对检测性能存在重要影响的问题,提出了基于融合双支特征的带约束损失的视频异常检测方法(Dual-branch Feature Fusion Based Constrained Multi-loss Video Anomaly Detection,DBF-CML-transMIL)。该方法考虑多示例学习中片段的显著性和相关性,利用多层线性神经网络学习各片段的空间显著性特征,并设计级联Transformer融合模块来学习示例间的多层时序相关性;然后利用多损失模型对融合特征进行多loss监督学习,以丰富预测的多样性;针对现有top-k的离散性问题,提出了带约束机制的滑窗top-k强化异常事件的相关性。在ShanghaiTech和UCF-Crime数据集上的对比实验与消融实验表明,DBF-CML-transMIL的异常检测曲线下面积(Area Under Curve,AUC)分别达到97.33%和83.82%;各模块都能有效提升视频异常事件检测的性能。展开更多
在细粒度图像检索领域,现有研究成果主要集中于采用深层网络实现判别特征提取与精准定位,忽略了浅层特征信息的重要性,且无法消除背景中的复杂噪声干扰,限制了检索性能的提升。有鉴于此,提出了一种基于多层次特征提取的细粒度图像哈希...在细粒度图像检索领域,现有研究成果主要集中于采用深层网络实现判别特征提取与精准定位,忽略了浅层特征信息的重要性,且无法消除背景中的复杂噪声干扰,限制了检索性能的提升。有鉴于此,提出了一种基于多层次特征提取的细粒度图像哈希检索方法(Fine-grained Deep Hashing image retrieval method based on Multi-level Feature Extraction, FDH-MFE)。该方法主要关注不同层次间特征的关联性,并增强了局部特征的提取能力。首先,提出了一个特征提取模块,旨在从网络的不同阶段提取细粒度特征,并通过图神经网络揭示其潜在的长距离依赖关系,为后续阶段提供更全面和精细的特征表示。其次,设计了一种代理损失算法,使得哈希码分布更加均匀,从而提升细粒度特征的区分能力。最后,通过设计背景抑制算法并结合三元组损失,增强了模型拟合全局分布的能力,使得所提出的方法在细粒度图像检索任务中表现出色。实验结果表明:该方法在4个公开数据集上的平均检索精度相较于次先进方法分别提高了15.03%、10.94%、9.98%和9.78%。展开更多
基金funded by the Deanship of Research and Graduate Studies at King Khalid University through small group research under grant number RGP1/278/45.
文摘This paper introduces a novel method for medical image retrieval and classification by integrating a multi-scale encoding mechanism with Vision Transformer(ViT)architectures and a dynamic multi-loss function.The multi-scale encoding significantly enhances the model’s ability to capture both fine-grained and global features,while the dynamic loss function adapts during training to optimize classification accuracy and retrieval performance.Our approach was evaluated on the ISIC-2018 and ChestX-ray14 datasets,yielding notable improvements.Specifically,on the ISIC-2018 dataset,our method achieves an F1-Score improvement of+4.84% compared to the standard ViT,with a precision increase of+5.46% for melanoma(MEL).On the ChestX-ray14 dataset,the method delivers an F1-Score improvement of 5.3%over the conventional ViT,with precision gains of+5.0% for pneumonia(PNEU)and+5.4%for fibrosis(FIB).Experimental results demonstrate that our approach outperforms traditional CNN-based models and existing ViT variants,particularly in retrieving relevant medical cases and enhancing diagnostic accuracy.These findings highlight the potential of the proposedmethod for large-scalemedical image analysis,offering improved tools for clinical decision-making through superior classification and case comparison.
文摘目的近年来,基于深度学习的水印方法得到了广泛研究。现有方法通常对特征图的低频和高频部分同等对待,忽视了不同频率成分之间的重要差异,导致模型在处理多样化攻击时缺乏灵活性,难以同时实现水印的高保真性和强鲁棒性。为此,本文提出一种频率感知驱动的深度鲁棒图像水印技术(deep robust image watermarking driven by frequency awareness,RIWFP)。方法通过差异化机制处理低频和高频成分,提升水印性能。具体而言,低频成分通过小波卷积神经网络进行建模,利用宽感受野卷积在粗粒度层面高效学习全局结构和上下文信息;高频成分则采用深度可分离卷积和注意力机制组成的特征蒸馏块进行精炼,强化图像细节,在细粒度层面高效捕捉高频信息。此外,本文使用多频率小波损失函数,引导模型聚焦于不同频带的特征分布,进一步提升生成图像的质量。结果实验结果表明,提出的频率感知驱动的深度鲁棒图像水印技术在多个数据集上均表现出优越性能。在COCO(common objects in context)数据集上,RIWFP在随机丢弃攻击下的准确率达到91.4%;在椒盐噪声和中值滤波攻击下,RIWFP分别以100%和99.5%的准确率达到了最高水平,展现了其对高频信息的高效学习能力。在Ima⁃geNet数据集上,RIWFP在裁剪攻击下的准确率为93.4%;在JPEG压缩攻击下的准确率为99.6%,均显著优于其他对比方法。综合来看,RIWFP在COCO和ImageNet数据集上的平均准确率分别为96.7%和96.9%,均高于其他对比方法。结论本文所提方法通过频率感知的粗到细处理策略,显著增强了水印的不可见性和鲁棒性,在处理多种攻击时表现出优越性能。
文摘针对视频异常事件的时空相关性学习对检测性能存在重要影响的问题,提出了基于融合双支特征的带约束损失的视频异常检测方法(Dual-branch Feature Fusion Based Constrained Multi-loss Video Anomaly Detection,DBF-CML-transMIL)。该方法考虑多示例学习中片段的显著性和相关性,利用多层线性神经网络学习各片段的空间显著性特征,并设计级联Transformer融合模块来学习示例间的多层时序相关性;然后利用多损失模型对融合特征进行多loss监督学习,以丰富预测的多样性;针对现有top-k的离散性问题,提出了带约束机制的滑窗top-k强化异常事件的相关性。在ShanghaiTech和UCF-Crime数据集上的对比实验与消融实验表明,DBF-CML-transMIL的异常检测曲线下面积(Area Under Curve,AUC)分别达到97.33%和83.82%;各模块都能有效提升视频异常事件检测的性能。
文摘在细粒度图像检索领域,现有研究成果主要集中于采用深层网络实现判别特征提取与精准定位,忽略了浅层特征信息的重要性,且无法消除背景中的复杂噪声干扰,限制了检索性能的提升。有鉴于此,提出了一种基于多层次特征提取的细粒度图像哈希检索方法(Fine-grained Deep Hashing image retrieval method based on Multi-level Feature Extraction, FDH-MFE)。该方法主要关注不同层次间特征的关联性,并增强了局部特征的提取能力。首先,提出了一个特征提取模块,旨在从网络的不同阶段提取细粒度特征,并通过图神经网络揭示其潜在的长距离依赖关系,为后续阶段提供更全面和精细的特征表示。其次,设计了一种代理损失算法,使得哈希码分布更加均匀,从而提升细粒度特征的区分能力。最后,通过设计背景抑制算法并结合三元组损失,增强了模型拟合全局分布的能力,使得所提出的方法在细粒度图像检索任务中表现出色。实验结果表明:该方法在4个公开数据集上的平均检索精度相较于次先进方法分别提高了15.03%、10.94%、9.98%和9.78%。