期刊文献+
共找到1,422篇文章
< 1 2 72 >
每页显示 20 50 100
基于CNN-Transformer-Cross Attention的滚动轴承故障诊断
1
作者 郑文超 张梅 《煤矿机械》 2026年第4期188-192,共5页
滚动轴承是煤机核心部件,若发生故障,易导致停机与安全风险。提出了一种融合快速傅里叶变换(FFT)、卷积神经网络(CNN)、Transformer及Cross Attention的故障诊断方法。该方法首先通过FFT提取频率特征,随后结合CNN的局部特征提取能力、Tr... 滚动轴承是煤机核心部件,若发生故障,易导致停机与安全风险。提出了一种融合快速傅里叶变换(FFT)、卷积神经网络(CNN)、Transformer及Cross Attention的故障诊断方法。该方法首先通过FFT提取频率特征,随后结合CNN的局部特征提取能力、Transformer的全局建模能力及Cross Attention的信息融合能力,全面提升模型的识别能力,实现滚动轴承故障的精确识别。实验结果表明,该方法的故障诊断准确率可达98%,具有高精度、强鲁棒性的特点,适用于煤矿设备的智能运维。 展开更多
关键词 轴承 故障诊断 FFT CNN transformER cross Attention
原文传递
基于改进GCN-Transformer的电力系统脆弱性节点辨识
2
作者 刘伟 梁悦帅 《电力系统保护与控制》 北大核心 2026年第6期58-70,共13页
随着电力系统规模不断扩大和新能源接入比例增加,电网结构日趋复杂。局部节点故障易引发电网连锁失效,对系统安全构成严重威胁。因此,预先识别电网中的脆弱性节点并加以保护对保障电网的安全运行至关重要。为实现脆弱性节点的高效辨识,... 随着电力系统规模不断扩大和新能源接入比例增加,电网结构日趋复杂。局部节点故障易引发电网连锁失效,对系统安全构成严重威胁。因此,预先识别电网中的脆弱性节点并加以保护对保障电网的安全运行至关重要。为实现脆弱性节点的高效辨识,提出一种改进融合图卷积网络与Transformer架构(graph convolutional networkTransformer,GCN-Transformer)的脆弱性节点辨识方法。首先,结合复杂网络理论和改进信息熵-K壳算法构建节点脆弱性评价指标集。其次,引入基于Chebyshev多项式的Kolmogorov-Arnold网络(Chebyshev Kolmogorov-Arnold network,Cheb-KAN)作为图卷积网络(graph convolutional networks,GCN)的前置支路特征提取模块,优化GCN的节点特征提取在不同支路间的传播效果。同时,将改进GCN提取的特征输入至融合了多模态交叉注意力机制(multimodal cross-attention mechanism,MCA)的Transformer中,用以捕获不同模态特征间的全局关联关系,构建面向脆弱节点辨识的深度学习模型。然后,基于IEEE39节点构建多种工况运行场景,建立模型训练的原始数据集。最后,在原始数据集上对所提模型进行训练与评估。结果表明,该方法在脆弱节点辨识准确率方面显著优于传统图网络模型,具备良好的可行性及其在电网实际场景中的工程应用潜力。 展开更多
关键词 脆弱性节点 脆弱性评价指标 改进GCN-transformer Cheb-KAN 多模态交叉注意力 节点辨识
在线阅读 下载PDF
基于Transformer架构的RNA二级结构预测方法
3
作者 喻定 李章维 《计算机科学》 北大核心 2026年第3期375-382,共8页
RNA二级结构预测是生物信息学中的核心问题,近年来,深度学习技术的发展为该领域带来了显著进步。然而,现有方法在预测精度和对外部先验模型的依赖性方面仍存在不足,这些限制可能对模型的鲁棒性和泛化能力造成影响。针对上述问题,提出了... RNA二级结构预测是生物信息学中的核心问题,近年来,深度学习技术的发展为该领域带来了显著进步。然而,现有方法在预测精度和对外部先验模型的依赖性方面仍存在不足,这些限制可能对模型的鲁棒性和泛化能力造成影响。针对上述问题,提出了一种基于Transformer架构的RNA二级结构预测模型。该模型设计了两条特征编码通路,通过线性嵌入和独热编码生成序列特征,并利用交叉注意力机制高效融合两种特征表示。在特征提取阶段,模型采用改进的Swin-Transformer与U-Net相结合的架构(Swin-UNet),实现深层次特征提取,并最终生成RNA二级结构配对概率矩阵。实验结果表明,该模型在多个标准数据集上的F1得分领先了其他模型3%以上,且无须依赖外部模型的先验信息。研究结果为RNA结构预测提供了新的解决方案,同时展现了Transformer架构在生物序列分析中的广阔前景。 展开更多
关键词 RNA二级结构预测 深度学习 Swin-transformer 交叉注意力 U-Net
在线阅读 下载PDF
基于超像素引导的Transformer低光图像去噪方法
4
作者 宋泉臻 陈作钧 +1 位作者 秦品乐 曾建潮 《计算机工程》 北大核心 2026年第2期186-196,共11页
现有的低光图像去噪方法主要使用Transformer和卷积神经网络(CNN)的特征提取和去噪机制,会面临两个问题:基于局部窗口的自注意力机制未能充分捕捉图像中的非局部自相似性;通道维度上的自注意力计算未充分利用图像的空间关联性。针对上... 现有的低光图像去噪方法主要使用Transformer和卷积神经网络(CNN)的特征提取和去噪机制,会面临两个问题:基于局部窗口的自注意力机制未能充分捕捉图像中的非局部自相似性;通道维度上的自注意力计算未充分利用图像的空间关联性。针对上述问题,在基于窗口划分的视觉Transformer方法上提出一种超像素引导的策略,其可以自适应地选择相关窗口进行全局交互。首先,设计基于窗口交互的Top-N交叉注意力机制(TNCA),动态选择与目标图像窗口最相似的前N个窗口,并在通道维度上聚合图像窗口的信息,充分考虑图像非局部自相似性;其次,通过超像素分割引导的方式,显著提升窗口内局部特征的表达力,同时在通道维度上增强空间特征的关联性;最后,构建一个层次化的自适应交互超像素引导的Transformer去噪网络(AISGFormer)。实验结果表明,AISGFormer在SIDD和DND真实图像数据集上的峰值信噪比(PSNR)分别为39.98 dB和40.06 dB,与其他先进网络相比分别提升了0.02 dB~14.33 dB和0.02 dB~7.63 dB,AISGFormer更能交互局部与全局的信息和细节,自适应地利用自相似性来抑制区域相似噪声。 展开更多
关键词 低光图像去噪 transformER 交叉注意力 非局部自相似性 真实图像噪声 超像素
在线阅读 下载PDF
基于Transformer架构的电力生产域CV大模型优化算法研究
5
作者 李雄刚 罗劲斌 +1 位作者 黎官钊 郭锦超 《国外电子测量技术》 2026年第1期211-215,共5页
针对电力生产场景中计算机视觉(Computer Vision,CV)任务受复杂工况与专业语义关联制约,以及传统卷积神经网络(Convolutional Neural Network,CNN)、循环神经网络(Recurrent Neural Network,RNN)模型特征捕捉能力局限的问题,构建了一种... 针对电力生产场景中计算机视觉(Computer Vision,CV)任务受复杂工况与专业语义关联制约,以及传统卷积神经网络(Convolutional Neural Network,CNN)、循环神经网络(Recurrent Neural Network,RNN)模型特征捕捉能力局限的问题,构建了一种基于Transformer架构的电力生产域CV大模型。该模型首先利用多头自注意力与残差-层归一化串联结构,实现了对全局特征的高效提取;进而设计了工况感知校准与多尺度目标聚合两大域适配模块,并搭配跨模态语义解码器,完成了视觉与文本信息的深度融合。实验结果表明,模型收敛后mAP达86.7%,绝缘子裂纹召回率达87.9%。该模型可有效支撑电力设备缺陷识别与台账自动匹配,为电力智能巡检提供了一套高效的技术解决方案。 展开更多
关键词 transformer架构 电力生产 计算机视觉 跨模态语义融合
原文传递
基于BSLO优化分解与Transformer模型的滑坡位移多级置信预测方法
6
作者 郑子凌 李勇 +3 位作者 王家秀 卢书强 陆昊 陈陆军 《中国地质灾害与防治学报》 2026年第1期75-87,共13页
针对阶跃型滑坡位移预测中变分模态分解(variational mode decomposition,VMD)参数选择依赖经验、传统模型长序列处理能力不足及缺乏不确定性量化等问题,文章提出基于吸水蛭算法(blood-sucking leech optimizer,BSLO)分解与Transformer... 针对阶跃型滑坡位移预测中变分模态分解(variational mode decomposition,VMD)参数选择依赖经验、传统模型长序列处理能力不足及缺乏不确定性量化等问题,文章提出基于吸水蛭算法(blood-sucking leech optimizer,BSLO)分解与Transformer模型的滑坡位移多级置信预测方法。该方法采用BSLO算法构建VMD参数自适应优化框架,基于信息熵最小化准则实现信号分解;设计Transformer模型用于时序预测,移除不适用组件并增加特征增强层;构建多级置信区间预测框架,实现多时间尺度不确定性量化。以三峡库区谭家河滑坡4个监测点为例进行验证,结果显示该方法在未来1,3,7,15 d预测中表现稳定,各时间尺度R2值均超0.95,均方根误差控制在5 mm以内,95%、90%、80%置信水平下压间覆盖率分别达到0.811~0.986、0.739~0.975、0.617~0.960,覆盖率接近理论期望。相比VMD-SSA-LSTM和CNN-BiLSTM-Attention模型,本文方法在各预测时间尺度下均表现出较好的稳定性和预测精度,为库区滑坡监测预警提供了一种技术方法。 展开更多
关键词 滑坡 位移预测 BSLO优化算法 变分模态分解 transformER 置信区间预测 K折交叉验证
在线阅读 下载PDF
基于Transformer多分辨率特征融合的图像压缩感知重构 被引量:1
7
作者 熊承义 马帅 +2 位作者 高志荣 李帆 陈文旗 《中南民族大学学报(自然科学版)》 2025年第3期400-406,共7页
利用图像多分辨率特征的交叉融合,对于改善压缩感知图像的重构质量具有较好潜能.研究了一种基于Transformer多分辨率特征融合的图像压缩感知重构方法.输入图像的测量值首先经过初始重构,得到一组分辨率降维的低分辨率初始重构图像;然后... 利用图像多分辨率特征的交叉融合,对于改善压缩感知图像的重构质量具有较好潜能.研究了一种基于Transformer多分辨率特征融合的图像压缩感知重构方法.输入图像的测量值首先经过初始重构,得到一组分辨率降维的低分辨率初始重构图像;然后,采用两个通路并行提取不同分辨率图像的特征并进行交叉融合;最后,将输出的两路特征分别用于原始图像的重构及其降采样重构.采用Transformer网络执行多分辨率图像特征的交叉融合,以更好利用图像的远距离相关性.大量实验比较结果验证了所提出的方法在平衡网络复杂度和改进重构图像质量方面的有效性. 展开更多
关键词 多分辨率特征 压缩感知 交叉融合 transformer方法
在线阅读 下载PDF
A Cross-Cultural Study on Transformational Leadership
8
作者 许薇 《海外英语》 2016年第13期136-137,共2页
This paper examines transformational leadership theory and the relationship between transformational leadership and group performance as well. Transformational leadership asks leaders to understand the needs of follow... This paper examines transformational leadership theory and the relationship between transformational leadership and group performance as well. Transformational leadership asks leaders to understand the needs of followers and motivate followers for their overall development, which brings benefits to a group. It is hoped that this paper can contribute to comparative studies on Transformational leadership in the U.S. and China. 展开更多
关键词 LEADERSHIP hoped LEADERSHIP encourage LIKELY BENEFITS validity SITUATIONS originally MOTIVATION
在线阅读 下载PDF
基于双流特征交叉融合Efficient Transformer的人脸表情识别
9
作者 党宏社 孟饶辰 高宛蓉 《计算机工程与应用》 北大核心 2025年第15期251-257,共7页
面部表情识别在人机交互等现实应用中得到了越来越多的重视。为解决传统方法中由于类间相似性和类内差异引起的识别准确率低等问题,提出了一种双流特征交叉融合Efficient Transformer识别人脸表情的方法。使用IResNet50和MobileFaceNet... 面部表情识别在人机交互等现实应用中得到了越来越多的重视。为解决传统方法中由于类间相似性和类内差异引起的识别准确率低等问题,提出了一种双流特征交叉融合Efficient Transformer识别人脸表情的方法。使用IResNet50和MobileFaceNet分别提取人脸表情的图像和关键点的多尺度特征,同时采用通道注意力机制来增强关键特征并减少参数量;引入了交叉融合高效多头自注意力机制(cross fusion efficient multi-head self-attention,CFEMSA),对相同尺度的双流特征进行交叉融合,以突出面部显著特征;最后采用特征金字塔结构对不同尺度的交叉融合结果进行多尺度融合,以提高识别的准确性。提出的方法在RAF-DB、AffecNet-7和AffecNet-8数据集上的识别准确率分别为91.82%、67.46%和63.65%,实验结果证明该方法有效缓解了类间相似性和类内差异所引起的识别准确率低的问题。 展开更多
关键词 面部表情识别 Efficient transformer 交叉融合 多尺度特征 特征融合
在线阅读 下载PDF
融合通道注意力的跨尺度Transformer图像超分辨率重建 被引量:4
10
作者 李焱 董仕豪 +2 位作者 张家伟 赵茹 郑钰辉 《中国图象图形学报》 北大核心 2025年第3期784-797,共14页
目的针对在超分辨率任务中,Transformer模型存在特征提取模式单一、重建图像高频细节丢失和结构失真的问题,提出了一种融合通道注意力的跨尺度Transformer图像超分辨率重建模型。方法模型由4个模块组成:浅层特征提取、跨尺度深层特征提... 目的针对在超分辨率任务中,Transformer模型存在特征提取模式单一、重建图像高频细节丢失和结构失真的问题,提出了一种融合通道注意力的跨尺度Transformer图像超分辨率重建模型。方法模型由4个模块组成:浅层特征提取、跨尺度深层特征提取、多级特征融合以及高质量重建模块。浅层特征提取利用卷积处理早期图像,获得更稳定的输出;跨尺度深层特征提取利用跨尺度Transformer和强化通道注意力机制,扩大感受野并通过加权筛选提取不同尺度特征以便融合;多级特征融合模块利用强化通道注意力机制,实现对不同尺度特征通道权重的动态调整,促进模型对丰富上下文信息的学习,增强模型在图像超分辨率重建任务中的能力。结果在Set5、Set14、BSD100(Berkeley segmentation dataset 100)、Urban100(urban scene 100)和Manga109标准数据集上的模型评估结果表明,相较于SwinIR超分辨率模型,所提模型在峰值信噪比上提高了0.06~0.25 dB,且重建图像视觉效果更好。结论提出的融合通道注意力的跨尺度Transformer图像超分辨率重建模型,通过融合卷积特征与Transformer特征,并利用强化通道注意力机制减少图像中噪声和冗余信息,降低模型产生图像模糊失真的可能性,图像超分辨率性能有效提升,在多个公共实验数据集的测试结果验证了所提模型的有效性。 展开更多
关键词 图像超分辨率 跨尺度transformer 通道注意力机制 特征融合 深度学习
原文传递
改进Transformer解码器的端到端语音识别 被引量:1
11
作者 胡恒博 牛铜 何振华 《计算机应用》 北大核心 2025年第S1期95-100,共6页
Transformer模型架构在序列到序列任务中可以很好地将注意力分散到整个输入上以学习长期依赖关系,然而,在语音识别中,文本输出和语音输入是单调对齐的。针对Transformer解码器无法较好地捕获局部特征以进行单调对齐的问题,提出一种改进... Transformer模型架构在序列到序列任务中可以很好地将注意力分散到整个输入上以学习长期依赖关系,然而,在语音识别中,文本输出和语音输入是单调对齐的。针对Transformer解码器无法较好地捕获局部特征以进行单调对齐的问题,提出一种改进的Transformer解码器。将Transformer解码器中的2种注意力机制拆分为2个单独模块,再使用交叉注意力进行更高效的局部特征捕获。在开源中文普通话AISHELL-1数据集上的实验结果表明,使用能够捕获局部特征的编码器时,该解码器相较于Transformer解码器有着更好的识别效果。具体地,当编码器为Conformer时,字错误率(CER)降低了16.19%,且收敛速度更快,而在使用了连接时序分类(CTC)进行辅助解码后,CER降低了5.08%,最终的CER为4.67%。 展开更多
关键词 交叉注意力 transformer解码器 Conformer编码器 语音识别 局部特征
在线阅读 下载PDF
基于视觉Transformer的运动特征选择融合微表情识别算法 被引量:2
12
作者 杜含月 张鹏 +3 位作者 林强 李晓桐 徐森 贲晛烨 《信号处理》 北大核心 2025年第2期267-278,共12页
微表情识别旨在揭示目标对象隐藏的真实情感,其在人机交互、心理诊断以及意图预测等领域具有重要应用价值。然而,微表情表达强度微弱、时间短暂且面部运动单元间存在长距离依赖,使得传统卷积神经网络难以有效表征微表情动态特征。此外,... 微表情识别旨在揭示目标对象隐藏的真实情感,其在人机交互、心理诊断以及意图预测等领域具有重要应用价值。然而,微表情表达强度微弱、时间短暂且面部运动单元间存在长距离依赖,使得传统卷积神经网络难以有效表征微表情动态特征。此外,微表情特征与受试者身份以及面部外观信息存在强耦合性,不利于分离和提取微表情语义信息。为了解决上述问题,本文提出了一种基于视觉Transformer和运动特征选择的微表情识别算法。首先,利用TVL1光流算法计算水平和垂直光流运动图,用以表征面部运动。随后,利用视觉Transformer网络编码微表情发生时面部运动单元间的运动依赖关系,为了进一步提升特征表达能力,本文设计了特征选择融合模块(Feature Selection Fusion Module,FSFM)以实现微表情关键的局部信息的有效获取,并引入空间一致性注意力模块(Spatial Consistency Attention Module,SCAM)以确保不同运动特征在空间分布上的一致性。此外,本文提出的交叉注意力融合模块(Cross Attention Fusion Module,CAFM)能够增强微表情语义信息的表征能力。与现有方法相比,本文所提出的算法在三个权威的微表情数据库上微表情识别任务中表现出显著的准确率提升,进一步验证了该方法的有效性与优越性。 展开更多
关键词 微表情识别 特征选择与融合 交叉注意力机制 视觉transformer
在线阅读 下载PDF
CATrans:基于跨尺度注意力Transformer的高分辨率遥感影像土地覆盖语义分割框架 被引量:2
13
作者 陈丽佳 陈宏辉 +3 位作者 谢艳秋 何天友 叶菁 吴林煌 《地球信息科学学报》 北大核心 2025年第7期1624-1637,共14页
【目的】高分辨率遥感影像语义分割通过精准提取地物信息,为城市规划、土地分析利用提供了重要的数据支持。当前分割方法通常将遥感影像划分为标准块,进行多尺度局部分割和层次推理,未充分考虑影像中的上下文先验知识和局部特征交互能力... 【目的】高分辨率遥感影像语义分割通过精准提取地物信息,为城市规划、土地分析利用提供了重要的数据支持。当前分割方法通常将遥感影像划分为标准块,进行多尺度局部分割和层次推理,未充分考虑影像中的上下文先验知识和局部特征交互能力,影响了推理分割质量。【方法】为了解决这一问题,本文提出了一种联合跨尺度注意力和语义视觉Transformer的遥感影像分割框架(Cross-scale Attention Transformer,CATrans),融合跨尺度注意力模块和语义视觉Transformer,提取上下文先验知识增强局部特征表示和分割性能。首先,跨尺度注意力模块通过空间和通道两个维度进行并行特征处理,分析浅层-深层和局部-全局特征之间的依赖关系,提升对遥感影像中不同粒度对象的注意力。其次,语义视觉Transformer通过空间注意力机制捕捉上下文语义信息,建模语义信息之间的依赖关系。【结果】本文在DeepGlobe、Inria Aerial和LoveDA数据集上进行对比实验,结果表明:CATrans的分割性能优于现有的WSDNet(Discrete Wavelet Smooth Network)和ISDNet(Integrating Shallow and Deep Network)等分割算法,分别取得了76.2%、79.2%、54.2%的平均交并比(Mean Intersection over Union,mIoU)和86.5%、87.8%、66.8%的平均F1得分(Mean F1 Score,mF1),推理速度分别达到38.1 FPS、13.2 FPS和95.22 FPS。相较于本文所对比的最佳方法WSDNet,mIoU和mF1在3个数据集中分别提升2.1%、4.0%、5.3%和1.3%、1.8%、5.6%,在每类地物的分割中都具有显著优势。【结论】本方法实现了高效率、高精度的高分辨率遥感影像语义分割。 展开更多
关键词 高分辨率 语义分割 跨尺度注意力 视觉transformer 上下文先验 空间注意力 语义信息
原文传递
用于遥感图像变化检测的多尺度双重交叉注意Transformer网络 被引量:1
14
作者 邓文浩 段中兴 《计算机工程与应用》 北大核心 2025年第20期281-294,共14页
针对现有基于深度学习的方法偏重高级变化语义特征提取而难以捕捉地物细节变化,导致检测变化边界模糊且易受伪变化干扰,以及传统U型架构中跳跃连接难以缩小编码器和解码器之间语义差距的问题,提出了一种多尺度双重交叉注意Transformer网... 针对现有基于深度学习的方法偏重高级变化语义特征提取而难以捕捉地物细节变化,导致检测变化边界模糊且易受伪变化干扰,以及传统U型架构中跳跃连接难以缩小编码器和解码器之间语义差距的问题,提出了一种多尺度双重交叉注意Transformer网络(multi-scale dual cross attention Transformer network,MDCATNet)用于遥感图像变化检测。在编码器中,MDCATNet利用主要特征保留策略和具有残差结构的卷积块构建共享权重的孪生神经网络提取双时相图像的多尺度特征。在解码器中,为了缩小编码器与解码器之间的语义鸿沟,充分融合多尺度特征的远程通道和空间信息,提出了一个新颖的多尺度多头通道-空间交叉融合Transformer模块,用于替代传统跳跃连接。为了进一步细化特征,获得更多变化区域细节信息和平滑的边界轮廓,提出了通道交叉注意细化模块,用于从下至上逐层细化特征并生成高质量的预测图。在LEVIR-CD和SYSU-CD数据集上的实验表明,与其他六种对比算法相比,MDCATNet无论是在定量评价还是在可视化结果方面均取得了最优的检测成绩,具有更强的泛化能力。 展开更多
关键词 遥感图像 变化检测 语义差距 跳跃连接 transformER 交叉注意力
在线阅读 下载PDF
基于跨模态交互Transformer的多模态方面级情感分析 被引量:2
15
作者 甘卓浩 缪裕青 +2 位作者 刘同来 张万桢 周明 《计算机应用研究》 北大核心 2025年第9期2707-2713,共7页
针对现有多模态方面级情感分析模型存在的视觉信息提取不充分和方面情感语义缺失问题,提出一种基于跨模态交互Transformer的多模态方面级情感分析模型。该模型通过文本语义增强模块融合图像标题与原始文本以弥补情感语义缺失;利用依存... 针对现有多模态方面级情感分析模型存在的视觉信息提取不充分和方面情感语义缺失问题,提出一种基于跨模态交互Transformer的多模态方面级情感分析模型。该模型通过文本语义增强模块融合图像标题与原始文本以弥补情感语义缺失;利用依存句法分析与图卷积网络构建方面感知特征提取模块,捕获方面项与观点词间的长距离依赖;设计跨模态特征交互模块,结合top-n形容词-名词对分布约束策略及多模态融合Transfor-mer,实现图像与文本特征的深层交互。在Twitter-2015、Twitter-2017和ZOL三个数据集上的实验结果表明,CMIT模型在准确率和宏平均F 1值上均优于多个基准模型,验证了其有效性和泛化能力。 展开更多
关键词 多模态方面级情感分析 跨模态交互 transformER 图卷积网络 形容词-名词对
在线阅读 下载PDF
CRAKUT:融合对比区域注意力机制与临床先验知识的U-Transformer用于放射学报告生成 被引量:1
16
作者 梁业东 朱雄峰 +3 位作者 黄美燕 张文聪 郭翰宇 冯前进 《南方医科大学学报》 北大核心 2025年第6期1343-1352,共10页
目的 提出一种对比区域注意力和先验知识融合的U型Transformer模型(CRAKUT),旨在解决文本分布不均衡、缺乏上下文临床知识以及跨模态信息转换等问题,提升生成报告的质量,辅助影像科医生诊断工作。方法 CRAKUT包括3个关键模块:对比注意... 目的 提出一种对比区域注意力和先验知识融合的U型Transformer模型(CRAKUT),旨在解决文本分布不均衡、缺乏上下文临床知识以及跨模态信息转换等问题,提升生成报告的质量,辅助影像科医生诊断工作。方法 CRAKUT包括3个关键模块:对比注意力图像编码器,利用数据集中常见的正常影像提取增强的视觉特征;外部知识注入模块,融合临床先验知识;U型Transformer,通过U型连接架构完成从视觉到语言的跨模态信息转换。在图像编码器中引入的对比区域注意力机制,通过强调正常与异常语义特征之间的差异,增强了异常区域的特征表示。此外,文本编码器中的临床先验知识注入模块结合了临床历史信息及由ChatGPT生成的知识图谱,从而提升了报告生成的上下文理解能力。U型Transformer在多模态编码器与报告解码器之间建立连接,融合多种类型的信息以生成最终的报告。结果 在2个公开的CXR数据集(IU-Xray和MIMIC-CXR)对CRAKUT模型进行评估,结果显示,CRAKUT在报告生成任务中实现了当前最先进的性能。在MIMIC-CXR数据集,CRAKUT取得了BLEU-4分数0.159、ROUGE-L分数0.353、CIDEr分数0.500;在IU-Xray数据集上,METEOR分数达到0.258,均优于以往模型的表现。结论 本文提出的方法在临床疾病诊断和报告生成中具有巨大的应用潜力。 展开更多
关键词 胸部X光 对比区域注意力 临床先验知识 跨模态交互 U-transformer模型
在线阅读 下载PDF
基于前置归一化Transformer的融合多模态行人过街意图预测模型 被引量:3
17
作者 陈振东 刘广聪 叶振宇 《计算机应用研究》 北大核心 2025年第5期1378-1384,共7页
预测行人的过街意图是自动驾驶系统中的行人与车辆交互重要环节之一,目的在于提前预测出道路两侧行人的过街行为,作出减速或避让的决策。为了能够提升识别行人过街意图的准确性,受到前置归一化注意力机制的启发,提出了一种基于前置归一... 预测行人的过街意图是自动驾驶系统中的行人与车辆交互重要环节之一,目的在于提前预测出道路两侧行人的过街行为,作出减速或避让的决策。为了能够提升识别行人过街意图的准确性,受到前置归一化注意力机制的启发,提出了一种基于前置归一化注意力机制的行人过街意图预测模型,对行人不同模态特征进行提取并互补融合。该模型使用单模态特征增强模块(UFE)对单一模态进行关键特征提取,随后使用多模态特征交互模块(MFI)进行不同模态之间的特征融合。实验证明,在PIE和JAAD数据集上的准确率均达到91%,并且对模态信息的不同融合策略进行了广泛的消融实验,证明了其有效性,为自动驾驶系统提供更准确的行人过街意图预测。 展开更多
关键词 行人过街 意图预测 多模态融合 transformER
在线阅读 下载PDF
基于多尺度与多级语义融合Transformer的人体姿态估计
18
作者 李俊 袁通达 陈黎 《武汉大学学报(理学版)》 北大核心 2025年第4期473-484,共12页
针对人体姿态估计任务中视觉Transformer模型存在的尺度多样性受限和近距离信息忽视问题,提出多尺度与多级语义融合Transformer(MMSF)模型。该模型通过引入关键点标记作为代理的交叉Transformer操作,实现了不同分辨率视觉信息的相互学习... 针对人体姿态估计任务中视觉Transformer模型存在的尺度多样性受限和近距离信息忽视问题,提出多尺度与多级语义融合Transformer(MMSF)模型。该模型通过引入关键点标记作为代理的交叉Transformer操作,实现了不同分辨率视觉信息的相互学习,提高了估计精度。同时,利用深度卷积和稠密连接复用标记技术,有效提取了含有多级语义信息的交叉标记,减少了编码器层堆叠,降低了模型复杂度。通过交叉标记与标准标记的交叉融合注意力操作,整合了多级语义信息,进一步增强了姿态估计效果。实验结果表明,在相同的条件下,MMSF模型在COCO数据集上达到了78.1%的平均精度,比TokenPose基准模型高2.3%;在MPII数据集上验证了其有效性,与近几年经典的基于Transformer的人体姿态估计方法相比取得了更好的性能。 展开更多
关键词 视觉transformer 人体姿态估计 深度卷积 标记融合 交叉注意力
原文传递
基于CNN-Transformer交互融合网络的航空活塞发动机进排气故障诊断
19
作者 盛润 徐劲松 +1 位作者 韦宝涛 王博 《振动与冲击》 北大核心 2025年第21期258-269,共12页
针对航空活塞发动机振动信号中表征故障的关键特征易被噪声淹没,现有模型难以全面刻画复杂信号的挑战,提出了一种基于卷积神经网络(convolutional neural network,CNN)-Transformer交互融合网络的航空活塞发动机进排气故障诊断方法。首... 针对航空活塞发动机振动信号中表征故障的关键特征易被噪声淹没,现有模型难以全面刻画复杂信号的挑战,提出了一种基于卷积神经网络(convolutional neural network,CNN)-Transformer交互融合网络的航空活塞发动机进排气故障诊断方法。首先,设计的CNN-Transformer双分支并行结构充分发挥各自优势,分别从原始振动信号中提取局部细节特征和全局时序特征。在此基础上,引入交叉注意力特征交互融合模块,通过注意力权重分配动态关联两类特征的关键信息,实现局部与全局特征的深度融合。最终,全面刻画出表征发动机进排气故障的振动特征,从而实现高精度的故障诊断。试验结果表明,该模型在不同工况下的三个数据集上均实现了99.40%以上的测试准确率,即使在噪声干扰下依旧保持了良好的诊断性能,与现有的诊断模型相比,具有更强的泛化性和鲁棒性。 展开更多
关键词 航空活塞发动机 进排气故障 卷积神经网络(CNN) transformER 交叉注意力
在线阅读 下载PDF
Application of the Cross Wavelet Transform to Solar Activity and Major Earthquakes Occurred in Chile
20
作者 Patricia Alejandra Larocca 《International Journal of Geosciences》 2016年第11期1310-1317,共9页
Historical earthquakes registered in Chile (from 1900 up to 2015) with epicenters located between 17?30'S and 56?0'S latitude and yearly mean total sunspot number have been considered in order to evaluate a si... Historical earthquakes registered in Chile (from 1900 up to 2015) with epicenters located between 17?30'S and 56?0'S latitude and yearly mean total sunspot number have been considered in order to evaluate a significant linkage between them. The occurrence of strong earthquakes along Chile and the sunspots activity are analyzed to inspect possible influence of solar cycles on earthquakes. The cross wavelet transform and wavelet coherence analysis were applied for sequences of sunspots and earthquakes activity. An 8 - 12 years modulation of earthquakes activity has been identified. 展开更多
关键词 cross Wavelet transform Earthquakes Activity Solar Activity Sunspots Number PERIODICITIES
在线阅读 下载PDF
上一页 1 2 72 下一页 到第
使用帮助 返回顶部