输电线路巡检中采集的螺栓图像有分辨率低、视觉信息不足的特点。针对传统图像分类模型难以从螺栓图像中学习到语义丰富的视觉表征问题,提出了一种基于多模态对比学习的输电线路螺栓缺陷分类方法。首先,为了将文本中螺栓相关的语义信息...输电线路巡检中采集的螺栓图像有分辨率低、视觉信息不足的特点。针对传统图像分类模型难以从螺栓图像中学习到语义丰富的视觉表征问题,提出了一种基于多模态对比学习的输电线路螺栓缺陷分类方法。首先,为了将文本中螺栓相关的语义信息和先验知识以跨模态的方式注入视觉表征,提出了一种结合多模态对比预训练和监督式微调的二阶段训练算法;其次,为了缓解多模态对比预训练中的过拟合问题,提出了标签平滑的信息噪声对比估计损失(info noise contrastive estimation loss with label smoothing,infoNCE-LS),以提高预训练视觉表征的泛化性能;最后,针对上下游任务的不匹配问题,设计了3种基于文本提示的分类头,以改善预训练视觉表征在监督式微调阶段的迁移学习效果。实验结果表明:该文基于Res Net50和ViT构建的两种模型在螺栓缺陷分类数据集上的准确率分别为92.3%和97.4%,相比基线分别提高了2.4%和5.8%。研究实现了从文本到图像的语义信息跨模态补充,为螺栓缺陷识别的研究提供了新的思路。展开更多
Magnetic resonance imaging(MRI)inherently requires considerable time for data acquisition,but obtaining multi-contrast MRI data further prolongs this process,thereby increasing susceptibility to motion artifacts.It is...Magnetic resonance imaging(MRI)inherently requires considerable time for data acquisition,but obtaining multi-contrast MRI data further prolongs this process,thereby increasing susceptibility to motion artifacts.It is worth noting that the multi-contrast MR images have both structural similarities and unique contrast information.Therefore,to take advantage of their similarities while preserving their distinctive characteristics,we proposed a new method called high-dimensional subsets embedding(HDSE).This novel approach is based on the frame of low-rank modeling of local k-space neighborhoods with parallel imaging(P-LORAKS).Specifically,our approach utilizes the structural similarity of multi-contrast MR images to process different k-space data through two independent channels.In one channel,we individually separate the complementary T_(1)-T_(2)k-space data and directly construct a new subset of local k-space,allowing the model to better capture structural correlations between multiple contrasts.In another channel,we provide global under-sampled T_(2)-weighted k-space data further constrain image acquisition in highdimensional space to maintain image consistency and reduce noise amplification.These two different channels information is fused together to form high-dimensional feature objects.Besides,we embed the constructed objects into P-LORAKS in various ways to enhance the reconstruction performance.Experimental results demonstrated that the aided reconstruction of local subsets fusion and the high-dimensional reconstruction of adaptive global constraints can improve the accuracy of image reconstruction and enhance the robustness of the model.展开更多
命名实体识别任务旨在识别出非结构化文本中所包含的实体并将其分配给预定义的实体类别中.随着互联网和社交媒体的发展,文本信息往往伴随着图像等视觉模态信息出现,传统的命名实体识别方法在多模态信息中表现不佳.近年来,多模态命名实...命名实体识别任务旨在识别出非结构化文本中所包含的实体并将其分配给预定义的实体类别中.随着互联网和社交媒体的发展,文本信息往往伴随着图像等视觉模态信息出现,传统的命名实体识别方法在多模态信息中表现不佳.近年来,多模态命名实体识别任务广受重视.然而,现有的多模态命名实体识别方法中,存在跨模态知识间的细粒度对齐不足问题,文本表征会融合语义不相关的图像信息,进而引入噪声.为了解决这些问题,提出了一种基于细粒度图文对齐的多模态命名实体识别方法(FGITA:A Multi-Modal NER Frame based on Fine-Grained Image-Text Alignment).首先,该方法通过目标检测、语义相似性判断等,确定更为细粒度的文本实体和图像子对象之间的语义相关性;其次,通过双线性注意力机制,计算出图像子对象与实体的相关性权重,并依据权重将子对象信息融入到实体表征中;最后,提出了一种跨模态对比学习方法,依据图像和实体之间的匹配程度,优化实体和图像在嵌入空间中的距离,借此帮助实体表征学习相关的图像信息.在两个公开数据集上的实验表明,FGITA优于5个主流多模态命名实体识别方法,验证了方法的有效性,同时验证了细粒度跨模态对齐在多模态命名实体识别任务中的重要性和优越性.展开更多
图对比学习因其可有效缓解数据稀疏问题被广泛应用在推荐系统中.然而,目前大多数基于图对比学习的推荐算法均采用单一视角进行学习,这极大地限制了模型的泛化能力,且图卷积网络本身存在的过度平滑问题也影响着模型的稳定性.基于此,提出...图对比学习因其可有效缓解数据稀疏问题被广泛应用在推荐系统中.然而,目前大多数基于图对比学习的推荐算法均采用单一视角进行学习,这极大地限制了模型的泛化能力,且图卷积网络本身存在的过度平滑问题也影响着模型的稳定性.基于此,提出一种融合层注意力机制的多视角图对比学习推荐方法.一方面,该方法提出2种不同视角下的3种对比学习,在视图级视角下,通过对原始图添加随机噪声构建扰动增强视图,利用奇异值分解(singular value decomposition)重组构建SVD增强视图,对这2个增强视图进行视图级对比学习;在节点视角下,利用节点间的语义信息分别进行候选节点和候选结构邻居对比学习,并将3种对比学习辅助任务和推荐任务进行多任务学习优化,以提高节点嵌入的质量,从而提升模型的泛化能力.另一方面,在图卷积网络学习用户和项目的节点嵌入时,采用层注意力机制的方式聚合最终的节点嵌入,提高模型的高阶连通性,以缓解过度平滑问题.在4个公开数据集LastFM,Gowalla,Ifashion,Yelp上与10个经典模型进行对比,结果表明该方法在Recall,Precision,NDCG这3个指标上分别平均提升3.12%,3.22%,4.06%,这说明所提方法是有效的.展开更多
文摘输电线路巡检中采集的螺栓图像有分辨率低、视觉信息不足的特点。针对传统图像分类模型难以从螺栓图像中学习到语义丰富的视觉表征问题,提出了一种基于多模态对比学习的输电线路螺栓缺陷分类方法。首先,为了将文本中螺栓相关的语义信息和先验知识以跨模态的方式注入视觉表征,提出了一种结合多模态对比预训练和监督式微调的二阶段训练算法;其次,为了缓解多模态对比预训练中的过拟合问题,提出了标签平滑的信息噪声对比估计损失(info noise contrastive estimation loss with label smoothing,infoNCE-LS),以提高预训练视觉表征的泛化性能;最后,针对上下游任务的不匹配问题,设计了3种基于文本提示的分类头,以改善预训练视觉表征在监督式微调阶段的迁移学习效果。实验结果表明:该文基于Res Net50和ViT构建的两种模型在螺栓缺陷分类数据集上的准确率分别为92.3%和97.4%,相比基线分别提高了2.4%和5.8%。研究实现了从文本到图像的语义信息跨模态补充,为螺栓缺陷识别的研究提供了新的思路。
基金supported by National Natural Science Foundation under 62122033.
文摘Magnetic resonance imaging(MRI)inherently requires considerable time for data acquisition,but obtaining multi-contrast MRI data further prolongs this process,thereby increasing susceptibility to motion artifacts.It is worth noting that the multi-contrast MR images have both structural similarities and unique contrast information.Therefore,to take advantage of their similarities while preserving their distinctive characteristics,we proposed a new method called high-dimensional subsets embedding(HDSE).This novel approach is based on the frame of low-rank modeling of local k-space neighborhoods with parallel imaging(P-LORAKS).Specifically,our approach utilizes the structural similarity of multi-contrast MR images to process different k-space data through two independent channels.In one channel,we individually separate the complementary T_(1)-T_(2)k-space data and directly construct a new subset of local k-space,allowing the model to better capture structural correlations between multiple contrasts.In another channel,we provide global under-sampled T_(2)-weighted k-space data further constrain image acquisition in highdimensional space to maintain image consistency and reduce noise amplification.These two different channels information is fused together to form high-dimensional feature objects.Besides,we embed the constructed objects into P-LORAKS in various ways to enhance the reconstruction performance.Experimental results demonstrated that the aided reconstruction of local subsets fusion and the high-dimensional reconstruction of adaptive global constraints can improve the accuracy of image reconstruction and enhance the robustness of the model.
文摘命名实体识别任务旨在识别出非结构化文本中所包含的实体并将其分配给预定义的实体类别中.随着互联网和社交媒体的发展,文本信息往往伴随着图像等视觉模态信息出现,传统的命名实体识别方法在多模态信息中表现不佳.近年来,多模态命名实体识别任务广受重视.然而,现有的多模态命名实体识别方法中,存在跨模态知识间的细粒度对齐不足问题,文本表征会融合语义不相关的图像信息,进而引入噪声.为了解决这些问题,提出了一种基于细粒度图文对齐的多模态命名实体识别方法(FGITA:A Multi-Modal NER Frame based on Fine-Grained Image-Text Alignment).首先,该方法通过目标检测、语义相似性判断等,确定更为细粒度的文本实体和图像子对象之间的语义相关性;其次,通过双线性注意力机制,计算出图像子对象与实体的相关性权重,并依据权重将子对象信息融入到实体表征中;最后,提出了一种跨模态对比学习方法,依据图像和实体之间的匹配程度,优化实体和图像在嵌入空间中的距离,借此帮助实体表征学习相关的图像信息.在两个公开数据集上的实验表明,FGITA优于5个主流多模态命名实体识别方法,验证了方法的有效性,同时验证了细粒度跨模态对齐在多模态命名实体识别任务中的重要性和优越性.
文摘图对比学习因其可有效缓解数据稀疏问题被广泛应用在推荐系统中.然而,目前大多数基于图对比学习的推荐算法均采用单一视角进行学习,这极大地限制了模型的泛化能力,且图卷积网络本身存在的过度平滑问题也影响着模型的稳定性.基于此,提出一种融合层注意力机制的多视角图对比学习推荐方法.一方面,该方法提出2种不同视角下的3种对比学习,在视图级视角下,通过对原始图添加随机噪声构建扰动增强视图,利用奇异值分解(singular value decomposition)重组构建SVD增强视图,对这2个增强视图进行视图级对比学习;在节点视角下,利用节点间的语义信息分别进行候选节点和候选结构邻居对比学习,并将3种对比学习辅助任务和推荐任务进行多任务学习优化,以提高节点嵌入的质量,从而提升模型的泛化能力.另一方面,在图卷积网络学习用户和项目的节点嵌入时,采用层注意力机制的方式聚合最终的节点嵌入,提高模型的高阶连通性,以缓解过度平滑问题.在4个公开数据集LastFM,Gowalla,Ifashion,Yelp上与10个经典模型进行对比,结果表明该方法在Recall,Precision,NDCG这3个指标上分别平均提升3.12%,3.22%,4.06%,这说明所提方法是有效的.