期刊文献+
共找到179篇文章
< 1 2 9 >
每页显示 20 50 100
Person Re-Identification Based on Spatial Feature Learning and Multi-Granularity Feature Fusion
1
作者 DIAO Zijian CAO Shuai +4 位作者 LI Wenwei LIANG Jianan WEN Guilin HUANG Weici ZHANG Shouming 《Journal of Shanghai Jiaotong university(Science)》 2025年第2期363-374,共12页
In view of the weak ability of the convolutional neural networks to explicitly learn spatial invariance and the probabilistic loss of discriminative features caused by occlusion and background interference in pedestri... In view of the weak ability of the convolutional neural networks to explicitly learn spatial invariance and the probabilistic loss of discriminative features caused by occlusion and background interference in pedestrian re-identification tasks,a person re-identification method combining spatial feature learning and multi-granularity feature fusion was proposed.First,an attention spatial transformation network(A-STN)is proposed to learn spatial features and solve the problem of misalignment of pedestrian spatial features.Then the network was divided into a global branch,a local coarse-grained fusion branch,and a local fine-grained fusion branch to extract pedestrian global features,coarse-grained fusion features,and fine-grained fusion features,respectively.Among them,the global branch enriches the global features by fusing different pooling features.The local coarse-grained fusion branch uses an overlay pooling to enhance each local feature while learning the correlation relationship between multi-granularity features.The local fine-grained fusion branch uses a differential pooling to obtain the differential features that were fused with global features to learn the relationship between pedestrian local features and pedestrian global features.Finally,the proposed method was compared on three public datasets:Market1501,DukeMTMC-ReID and CUHK03.The experimental results were better than those of the comparative methods,which verifies the effectiveness of the proposed method. 展开更多
关键词 pedestrian re-identification spatial features attention spatial transformation network multi-branch network relation features
原文传递
Human Motion Prediction Based on Multi-Level Spatial and Temporal Cues Learning
2
作者 Jiayi Geng Yuxuan Wu +5 位作者 Wenbo Lu Pengxiang Su Amel Ksibi Wei Li Zaffar Ahmed Shaikh Di Gai 《Computers, Materials & Continua》 2025年第11期3689-3707,共19页
Predicting human motion based on historical motion sequences is a fundamental problem in computer vision,which is at the core of many applications.Existing approaches primarily focus on encoding spatial dependencies a... Predicting human motion based on historical motion sequences is a fundamental problem in computer vision,which is at the core of many applications.Existing approaches primarily focus on encoding spatial dependencies among human joints while ignoring the temporal cues and the complex relationships across non-consecutive frames.These limitations hinder the model’s ability to generate accurate predictions over longer time horizons and in scenarios with complex motion patterns.To address the above problems,we proposed a novel multi-level spatial and temporal learning model,which consists of a Cross Spatial Dependencies Encoding Module(CSM)and a Dynamic Temporal Connection Encoding Module(DTM).Specifically,the CSM is designed to capture complementary local and global spatial dependent information at both the joint level and the joint pair level.We further present DTM to encode diverse temporal evolution contexts and compress motion features to a deep level,enabling the model to capture both short-term and long-term dependencies efficiently.Extensive experiments conducted on the Human 3.6M and CMU Mocap datasets demonstrate that our model achieves state-of-the-art performance in both short-term and long-term predictions,outperforming existing methods by up to 20.3% in accuracy.Furthermore,ablation studies confirm the significant contributions of the CSM and DTM in enhancing prediction accuracy. 展开更多
关键词 Human motion prediction spatial dependencies learning temporal context learning graph convolutional networks transformer
在线阅读 下载PDF
基于时空Transformer的混合回报隐式Q学习人群导航
3
作者 周帅 符浩 刘伟 《计算机应用》 北大核心 2025年第11期3666-3673,共8页
在人群密集环境中,机器人执行人群导航任务时通常采用在线强化学习算法。然而,行人运动复杂多变的特性显著降低了在线强化学习的样本效率。针对这一问题,提出一种在离线强化学习(ORL)框架下的基于时空Transformer的混合回报隐式Q学习(ST... 在人群密集环境中,机器人执行人群导航任务时通常采用在线强化学习算法。然而,行人运动复杂多变的特性显著降低了在线强化学习的样本效率。针对这一问题,提出一种在离线强化学习(ORL)框架下的基于时空Transformer的混合回报隐式Q学习(STHRIQL)算法。首先,将蒙特卡洛(MC)回报机制融入隐式Q学习(IQL)算法中,旨在增强学习过程的收敛性;其次,进一步将时空Transformer模型整合至Actor-Critic中,以有效捕捉并解析离线人群导航数据集中机器人与行人之间高度动态且复杂的交互信息,从而优化算法的训练流程与效率;最后,通过仿真实验将所提算法与现有基于在线强化学习的人群导航算法进行对比,并根据评估机制进行定量与定性分析。实验结果显示,STHRIQL算法不仅在人群导航任务中展现出了优越的性能,而且相较于现有的在线人群导航算法,样本效率提升了30.5%~55.8%。STHRIQL算法可为提升机器人在复杂人群环境中的导航能力提供新的思路与解决方案。 展开更多
关键词 人群导航 深度强化学习 离线学习 神经网络 时空transformer
在线阅读 下载PDF
基于动态时空Transformer的城市蜂窝网络流量预测方法
4
作者 于江燕 王倩 +2 位作者 孟宪静 张瑞敏 耿蕾蕾 《计算机工程与应用》 北大核心 2025年第18期290-299,共10页
针对现有的城市蜂窝网络流量预测方法没有考虑到小区间空间相关性的动态性以及不同时间跨度下小区间空间相关性的多样性问题,提出基于动态时空Transformer的城市蜂窝网络流量预测模型(DSTTNet)。提出多尺度时间感知空间Transformer模块M... 针对现有的城市蜂窝网络流量预测方法没有考虑到小区间空间相关性的动态性以及不同时间跨度下小区间空间相关性的多样性问题,提出基于动态时空Transformer的城市蜂窝网络流量预测模型(DSTTNet)。提出多尺度时间感知空间Transformer模块MSTAST,通过分时间段建模小区间的空间相关性,实现小区间动态空间关系的捕获;通过引入多分支结构,在不同的分支上使用不同的时间段划分方式来捕获不同的空间相关性,从而提高空间相关性建模的准确性;基于MSTAST和时间Transformer模块构建时空序列建模模块来捕获城市蜂窝网络流量中的长时间依赖关系和动态空间依赖关系;还将MSTAST应用于特征融合模块,以提高模型对预测特征中远距离小区间全局空间关系的捕获能力。实验结果表明,在RMSE评价指标下,所提模型在SMS、Call、Internet三种网络流量数据集上分别提升了5.43%、4.30%、2.86%。 展开更多
关键词 蜂窝网络流量预测 时空数据挖掘 transformer 注意力机制 无线网络
在线阅读 下载PDF
基于时空融合Transformer的航空发动机RUL预测
5
作者 王昱 杨晓庆 +1 位作者 李硕 张哲成 《振动与冲击》 北大核心 2025年第16期318-328,共11页
航空发动机数据呈现多变量、非线性和动态变化等复杂特征,且具有显著的时空关联性。大多数研究在分析数据时,往往局限于单一的多传感器尺度或时间尺度,且往往忽视数据间的长时依赖性,限制了其在航空发动机剩余使用寿命(remaining useful... 航空发动机数据呈现多变量、非线性和动态变化等复杂特征,且具有显著的时空关联性。大多数研究在分析数据时,往往局限于单一的多传感器尺度或时间尺度,且往往忽视数据间的长时依赖性,限制了其在航空发动机剩余使用寿命(remaining useful life,RUL)预测任务中的应用。为此,提出了一种时空融合Transformer网络模型。该模型在保留Transformer架构中的多头注意力机制和位置编码的优势以精准捕捉长时依赖特征的基础上,首先采用高效全连接网络替代原有的解码操作模块,匹配航空发动机RUL预测非线性回归问题属性的同时简化模型结构;然后,通过引入空间注意力机制模块,深入挖掘不同变量间的空间特征;最后,应用改进的赤池信息量准则对Transformer的重要超参数进行辨识,解决其超参数的选择难题。经C-MAPSS以及PHM08预测数据挑战赛两数据集的多组试验证实所提模型的有效性及其在预测精度方面的卓越表现。 展开更多
关键词 剩余使用寿命(RUL)预测 transformer神经网络 深度学习 赤池信息量准则 时空融合 空间注意力
在线阅读 下载PDF
融合FPN与SFB的Swin Transformer图像去噪网络
6
作者 袁姮 华乾勇 《计算机系统应用》 2025年第10期32-43,共12页
为了提升图像去噪网络对局部与全局信息的捕捉能力,本文提出一种基于特征金字塔网络(feature pyramid network, FPN)和空间频率块(spatial frequency block, SFB)的Swin Transformer图像去噪网络(SwinFPSFNet).该网络由3个阶段组成:在... 为了提升图像去噪网络对局部与全局信息的捕捉能力,本文提出一种基于特征金字塔网络(feature pyramid network, FPN)和空间频率块(spatial frequency block, SFB)的Swin Transformer图像去噪网络(SwinFPSFNet).该网络由3个阶段组成:在浅层特征提取阶段,设计了特征金字塔网络以增强局部特征提取能力;在深层特征提取阶段,结合快速傅里叶卷积(fast Fourier convolution, FFC)设计空间频率块,用于同时捕捉全局与局部信息;最后,通过聚合浅层与深层特征,进一步增强网络去噪能力.此外,本文构建了一种高斯噪声退化模型并结合多种数据增强策略,以提升网络的泛化能力.在CBSD68、Kodak24和Urban100数据集上的实验结果表明,与当前主流去噪方法如BM3D、DnCNN、FFDNet、SwinIR等相比, SwinFPSFNet能够兼顾局部与全局信息,在噪声抑制和保留图像细节方面表现出显著优势. 展开更多
关键词 图像去噪 Swin transformer 特征金字塔网络 空间频率块
在线阅读 下载PDF
CNN结合Transformer的深度伪造高效检测 被引量:13
7
作者 李颖 边山 +1 位作者 王春桃 卢伟 《中国图象图形学报》 CSCD 北大核心 2023年第3期804-819,共16页
目的 深度伪造视频检测是目前计算机视觉领域的热点研究问题。卷积神经网络和Vision Transformer(ViT)都是深度伪造检测模型中的基础结构,二者虽各有优势,但都面临训练和测试阶段耗时较长、跨压缩场景精度显著下降问题。针对这两类模型... 目的 深度伪造视频检测是目前计算机视觉领域的热点研究问题。卷积神经网络和Vision Transformer(ViT)都是深度伪造检测模型中的基础结构,二者虽各有优势,但都面临训练和测试阶段耗时较长、跨压缩场景精度显著下降问题。针对这两类模型各自的优缺点,以及不同域特征在检测场景下的适用性,提出了一种高效的CNN(convolutional neural network)结合Transformer的联合模型。方法 设计基于Efficient Net的空间域特征提取分支及频率域特征提取分支,以丰富单分支的特征表示。之后与Transformer的编码器结构、交叉注意力结构进行连接,对全局区域间特征相关性进行建模。针对跨压缩、跨库场景下深度伪造检测模型精度下降问题,设计注意力机制及嵌入方式,结合数据增广策略,提高模型在跨压缩率、跨库场景下的鲁棒性。结果 在Face Forensics++的4个数据集上与其他9种方法进行跨压缩率的精度比较,在交叉压缩率检测实验中,本文方法对Deepfake、Face2Face和Neural Textures伪造图像的检测准确率分别达到90.35%、71.79%和80.71%,优于对比算法。在跨数据集的实验中,本文模型同样优于其他方法,并且同设备训练耗时大幅缩减。结论 本文提出的联合模型综合了卷积神经网络和Vision Transformer的优点,利用了不同域特征的检测特性及注意力机制和数据增强机制,改善了深度伪造检测在跨压缩、跨库检测时的效果,使模型更加准确且高效。 展开更多
关键词 深度伪造检测 卷积神经网络(CNN) Vision transformer(ViT) 空间域 频率域
原文传递
基于改进Transformer的布料材质识别方法研究 被引量:6
8
作者 杨晶 靳雁霞 +3 位作者 刘亚变 史志儒 张翎 乔星宇 《中北大学学报(自然科学版)》 CAS 2023年第2期138-145,161,共9页
布料材质识别是一个极具挑战性的计算机视觉问题。针对传统识别方法存在的识别周期长、人为因素多、技术壁垒高以及有破坏性等缺点,提出了一种基于改进Transformer的布料材质识别方法,该方法利用输入的布料运动视频,通过布料运动的外观... 布料材质识别是一个极具挑战性的计算机视觉问题。针对传统识别方法存在的识别周期长、人为因素多、技术壁垒高以及有破坏性等缺点,提出了一种基于改进Transformer的布料材质识别方法,该方法利用输入的布料运动视频,通过布料运动的外观变化识别布料的材质类型。改进的Transformer模型由Transformer块和残差空间缩减块(Residual Spatial Reduction)组成,将Transformer块中的自注意力分解为时间自注意力和空间自注意力来减少计算量和运行时间,将两个残差空间缩减块添加进Transformer模型中来减少空间冗余信息和提高布料材质识别的准确率。此外,使用预训练的图像模型对视频模型初始化,可以在减少计算量的同时保持模型的高性能。在布料运动数据集上的实验结果表明,本文方法对12种不同布料材质视频的材质种类识别的准确率达到82.3%,相比其他方法,该方法的识别精度更高。 展开更多
关键词 布料材质识别 卷积神经网络 transformer 残差空间缩减 深度学习
在线阅读 下载PDF
LSFormer:用于交通流预测的负载量感知空间异质性变换器
9
作者 李轩 李艳红 +2 位作者 徐昊翔 黄健翔 陈亮亮 《中南民族大学学报(自然科学版)》 2026年第1期86-96,共11页
高精度的交通流预测可以有效缓解智能城市道路的拥堵压力.然而,交通流预测面临着如何有效揭示交通流数据中隐藏的时空依赖关系的挑战.目前大多数方法都是基于图神经网络(GNN)或变压器模型.前者只考虑短程空间信息,无法捕捉长程空间依赖... 高精度的交通流预测可以有效缓解智能城市道路的拥堵压力.然而,交通流预测面临着如何有效揭示交通流数据中隐藏的时空依赖关系的挑战.目前大多数方法都是基于图神经网络(GNN)或变压器模型.前者只考虑短程空间信息,无法捕捉长程空间依赖关系,而后者虽然能够捕捉长程依赖关系,但大多数研究都没有充分挖掘变压器架构的潜力.为此,提出了一种用于交通流预测的新型负载感知空间异质性变换器,即LSFormer.具体来说,为空间自注意力模块设计了相对位置编码以优化空间位置信息感知问题,使模型能更好地捕捉位置信息.然后,引入了负载感知模块,以突出周边交通流对中心点的影响,解决了现有方法对周边区域依赖关系建模不足的问题.在5个真实世界公共交通数据集上的广泛实验结果表明:文中所提模型可以达到先进的性能.此外,还将学习到的空间嵌入可视化,使模型具有可解释性. 展开更多
关键词 交通流预测 时空特征 变换器 图神经网络
在线阅读 下载PDF
基于STN的服装扭曲网络动态虚拟试衣方法 被引量:1
10
作者 胡新荣 柯廷丰 +4 位作者 罗瑞奇 张梓怡 梁金星 杨凯 彭涛 《武汉大学学报(理学版)》 CAS CSCD 北大核心 2024年第3期349-357,共9页
动态虚拟试衣的任务是在视频中以时空一致的方式将目标服装与人物进行匹配,目的是生成连贯流畅且真实的试衣视频。动态试衣过程中人物的姿态变化,导致试穿的服装出现自遮挡、印花模糊等问题。因此,本文提出基于空间变换网络(Spatial Tra... 动态虚拟试衣的任务是在视频中以时空一致的方式将目标服装与人物进行匹配,目的是生成连贯流畅且真实的试衣视频。动态试衣过程中人物的姿态变化,导致试穿的服装出现自遮挡、印花模糊等问题。因此,本文提出基于空间变换网络(Spatial Transformer Network,STN)的服装扭曲网络动态虚拟试衣方法。在服装扭曲网络中,利用Transformer模块兼顾全局信息以及局部重点信息的优势强化数据特征区域,STN模块采用可学习的薄板样条插值(Thin Plate Spline,TPS)方法预测服装扭曲范围,获取扭曲图像及掩码;试衣网络利用自注意力机制的U-Net网络对齐扭曲图像掩码和人体表征信息,生成高质量试衣图像;最后,通过动态合成网络解决视频帧时间一致性问题,生成连贯高质量试衣视频。在VVT数据集上,与CPVTON相比,本文的方法将平均结构相似性指数(SSIM)提高了0.076,平均感知图像块相似度(LPIPS)降低了0.420;与FWGAN方法相比,其I3D和ResNeXt101分别降低了0.089和2.252。在VITON-HD数据集上,本文方法的SSIM指标也高于CP-VTON和FW-GAN,进一步表明该方法生成的图片质量高、失真低。 展开更多
关键词 动态虚拟试衣 空间变换网络 U-Net网络 自注意力机制
原文传递
采用Transformer网络的视频序列表情识别 被引量:6
11
作者 陈港 张石清 赵小明 《中国图象图形学报》 CSCD 北大核心 2022年第10期3022-3030,共9页
目的相比于静态人脸表情图像识别,视频序列中的各帧人脸表情强度差异较大,并且含有中性表情的帧数较多,然而现有模型无法为视频序列中每帧图像分配合适的权重。为了充分利用视频序列中的时空维度信息和不同帧图像对视频表情识别的作用... 目的相比于静态人脸表情图像识别,视频序列中的各帧人脸表情强度差异较大,并且含有中性表情的帧数较多,然而现有模型无法为视频序列中每帧图像分配合适的权重。为了充分利用视频序列中的时空维度信息和不同帧图像对视频表情识别的作用力差异特点,本文提出一种基于Transformer的视频序列表情识别方法。方法首先,将一个视频序列分成含有固定帧数的短视频片段,并采用深度残差网络对视频片段中的每帧图像学习出高层次的人脸表情特征,从而生成一个固定维度的视频片段空间特征。然后,通过设计合适的长短时记忆网络(long short-term memory network,LSTM)和Transformer模型分别从该视频片段空间特征序列中进一步学习出高层次的时间维度特征和注意力特征,并进行级联输入到全连接层,从而输出该视频片段的表情分类分数值。最后,将一个视频所有片段的表情分类分数值进行最大池化,实现该视频的最终表情分类任务。结果在公开的BAUM-1s(Bahcesehir University multimodal)和RML(Ryerson Multimedia Lab)视频情感数据集上的试验结果表明,该方法分别取得了60.72%和75.44%的正确识别率,优于其他对比方法的性能。结论该方法采用端到端的学习方式,能够有效提升视频序列表情识别性能。 展开更多
关键词 视频序列 人脸表情识别 时空维度 深度残差网络 长短时记忆网络(LSTM) 端到端 transformer
原文传递
基于时空Transformer的社交网络信息传播预测 被引量:9
12
作者 范伟 刘勇 《计算机研究与发展》 EI CSCD 北大核心 2022年第8期1757-1769,共13页
随着社交网络的日益普及和广泛应用,信息传播预测逐渐成为了社交网络分析领域的一个热点研究问题.之前大部分研究要么只利用信息传播序列,要么只利用用户之间的社交网络来进行预测,难以对信息传播过程的复杂性进行有效建模.此外,常用于... 随着社交网络的日益普及和广泛应用,信息传播预测逐渐成为了社交网络分析领域的一个热点研究问题.之前大部分研究要么只利用信息传播序列,要么只利用用户之间的社交网络来进行预测,难以对信息传播过程的复杂性进行有效建模.此外,常用于信息传播预测的循环神经网络(recurrent neural network,RNN)及其变体难以有效捕获信息之间的相关性.为解决上述问题,提出了一个新的基于时空Transformer的社交网络信息传播预测模型STT.该模型首先构建由社交网络图和动态传播图组成的异构图并使用图卷积网络(graph convolutional network,GCN)来学习用户的结构特征;然后将用户的时序特征和结构特征放入到Transformer中进行融合来获取时空特征;为有效融合用户的时序特征和结构特征,提出了一种新的残差融合方式来替代Transformer中原有的残差连接;最后利用Transformer来进行信息传播预测.真实数据集上的大量实验验证了模型STT的有效性. 展开更多
关键词 社交网络 信息传播预测 transformer 图卷积网络 时空特征
在线阅读 下载PDF
融合Transformer和MSCNN双分支架构的工控网络入侵检测研究 被引量:10
13
作者 李井龙 刘胜全 +2 位作者 马宇航 陈洋洋 刘博 《东北师大学报(自然科学版)》 CAS 北大核心 2024年第3期70-78,共9页
针对现有的工控网络入侵检测方法中存在对工控流量的多空间特征和长距离时序特征的提取能力不足等问题,提出了一种融合Transformer和MSCNN双分支架构的工控网络入侵检测模型.该模型利用多尺度卷积(MSCNN)中多个不同大小卷积核,对工控流... 针对现有的工控网络入侵检测方法中存在对工控流量的多空间特征和长距离时序特征的提取能力不足等问题,提出了一种融合Transformer和MSCNN双分支架构的工控网络入侵检测模型.该模型利用多尺度卷积(MSCNN)中多个不同大小卷积核,对工控流量中多个空间特征进行抽取,扩大了对工控流量特征范围的学习.同时引入Transformer增强了模型对工控流量中长距离时序特征的提取能力,进一步提高了模型的性能.通过UNSW-NB15和NSL-KDD数据集进行了实验,结果表明:该模型与其他方法相比能够提取更加全面有效的特征,具有很好的检测性能和泛化能力. 展开更多
关键词 工控网络 入侵检测 空间特征 长距离时序特征 MSCNN transformer
在线阅读 下载PDF
结合对象单元和Transformer网络的城市功能区分类 被引量:3
14
作者 鲁伟鹏 贺清康 +2 位作者 李佳铃 李诗逸 陶超 《遥感学报》 EI CSCD 北大核心 2024年第8期1927-1939,共13页
准确识别各类城市功能区并全面掌握其分布情况,对合理规划和科学管理城市至关重要。针对该问题,本文提出一种结合对象单元和Transformer网络的城市功能区分类方法。该方法首先以多尺度分割所获得的过分割对象作为最小分析单元,以避免出... 准确识别各类城市功能区并全面掌握其分布情况,对合理规划和科学管理城市至关重要。针对该问题,本文提出一种结合对象单元和Transformer网络的城市功能区分类方法。该方法首先以多尺度分割所获得的过分割对象作为最小分析单元,以避免出现同一分析单元包含多种城市功能区的情况。在此基础上,针对现有方法着重于对分析单元内部特征提取而忽略了分析单元之间的空间关系问题,提出利用Transformer框架和对象地理属性作为位置编码对不同分析单元之间的空间关系进行建模,从而实现兼顾分析单元内部特征和不同分析单元之间空间关系的城市功能区分类。结果表明,使用过分割对象作为最小分析单元能够更加准确地获取城市功能区地边界,从而避免基于规则格网单元所导致的锯齿状边缘及基于路网单元所导致地无法区分路网内不同功能区的问题;与仅考虑分析单元内部特征的传统方法相比,通过对不同分析单元之间的分析单元进行建模可有效提升城市功能区分类精度。 展开更多
关键词 城市功能区 遥感 深度学习 空间关系建模 transformer网络
原文传递
基于CNN-Transformer结构的遥感影像变化检测 被引量:3
15
作者 潘梦洋 杨航 范祥晖 《液晶与显示》 CAS CSCD 北大核心 2024年第10期1361-1379,共19页
现代高分辨率遥感图像变化检测借助卷积神经网络(Convolutional Neural Network,CNN)取得了显著成果。然而,卷积操作的感受野限制导致在学习全局上下文和远程空间关系方面存在不足。虽然视觉Transformer能有效捕获远程特征的依赖性,但... 现代高分辨率遥感图像变化检测借助卷积神经网络(Convolutional Neural Network,CNN)取得了显著成果。然而,卷积操作的感受野限制导致在学习全局上下文和远程空间关系方面存在不足。虽然视觉Transformer能有效捕获远程特征的依赖性,但其对影像变化细节的处理不足,导致空间定位能力有限且计算效率低下。为解决上述问题,本文提出了一种基于空间空洞金字塔池化的跨层级联线性融合端到端编解码混合CNN-Transformer的变化检测模型,兼具视觉Transformer和CNN的优势。首先,利用孪生CNN网络提取图像特征,并借助空洞金字塔池化模块对特征进行精细处理,从而更精准地捕获图像的细节特征信息。其次,将提取的特征转化为视觉单词,并通过Transformer编码器进行建模,以获取丰富的上下文信息。这些信息随后被反馈至视觉空间,通过Transformer解码器对原始特征进行强化,提升特征的表达效果。接着,采用跨层级联的方式将CNN提取的特征与Transformer编解码的特征进行融合,利用上采样技术联系不同分辨率的特征图,实现位置信息与语义信息的融合。最后,通过差异增强模块生成包含丰富变化信息的差异特征图。在LEVIR、CDD、DSIFN和WHUCD 4个公开遥感数据集上的广泛实验验证了本文方法的有效性。与其他先进方法相比,本文模型的分类性能更出色,有效改善了变化检测中的欠分割、过分割及边缘粗糙等问题。 展开更多
关键词 遥感图像 变化检测 卷积神经网络 transformer 空间空洞金字塔池化
在线阅读 下载PDF
融合Transformer和VGG网络的高光谱图像分类 被引量:3
16
作者 张明慧 周浩 王先旺 《传感器与微系统》 CSCD 北大核心 2023年第12期142-145,150,共5页
在高光谱图像(HSI)光谱数据中,相邻波段间信息的相关性对光谱特征近似的不同地物的分析具有重要意义。然而在传统卷积神经网络(CNN)的HSI光谱数据处理方法中,所提取的特征忽略了不同波段间信息的关联性。提出了一种融合Transformer和VG... 在高光谱图像(HSI)光谱数据中,相邻波段间信息的相关性对光谱特征近似的不同地物的分析具有重要意义。然而在传统卷积神经网络(CNN)的HSI光谱数据处理方法中,所提取的特征忽略了不同波段间信息的关联性。提出了一种融合Transformer和VGG网络的高光谱图像分类方法(SST_Like)。采用3D卷积核的VGG网络提取空间光谱特征,基于多头自注意力(MSA)机制的Transformer网络提取连续光谱间信息,形成空谱联合特征,最终通过多层感知机(MLP)完成地物分类任务。本文提出的SST_Like网络模型在3个HSI开放数据集上的实验结果表明,与传统基于CNN的HSI分类算法相比,可以提取更加深层的、判别性的特征,具有较高的分类性能。 展开更多
关键词 VGG网络 高光谱图像分类 transformer 空谱联合特征提取
在线阅读 下载PDF
基于多特征融合及Transformer的人体跌倒动作检测算法 被引量:4
17
作者 刘文龙 陈春雨 《应用科技》 CAS 2022年第2期49-54,62,共7页
为解决跌倒动作的检测和空间定位问题,本文以YOLOv3目标检测算法为基础,提出了一种全新的用于人跌倒动作识别的检测架构。本算法将视频拆分成一系列的图片序列,并在图片序列中指定关键帧。通过3D卷积神经网络提取视频序列中的时间维度特... 为解决跌倒动作的检测和空间定位问题,本文以YOLOv3目标检测算法为基础,提出了一种全新的用于人跌倒动作识别的检测架构。本算法将视频拆分成一系列的图片序列,并在图片序列中指定关键帧。通过3D卷积神经网络提取视频序列中的时间维度特征,2D卷积神经网络提取关键帧中的空间维度特征,经通道融合机制在不同尺度的预测特征层进行通道融合,融合后的特征经过特征金字塔Transformer进行深层次特征提取和融合。该算法实现了端到端的训练。通过在自己制作的跌倒动作数据集上进行训练和测试,证明了多特征融合和Transformer结构在人体跌倒动作检测中的有效性。 展开更多
关键词 动作识别 transformer结构 特征融合 空间注意力机制 通道注意力机制 卷积神经网络 YOLOv3 预选框
在线阅读 下载PDF
基于Transformer和关系图卷积网络的信息传播预测模型 被引量:2
18
作者 吕锡婷 赵敬华 +1 位作者 荣海迎 赵嘉乐 《计算机应用》 CSCD 北大核心 2024年第6期1760-1766,共7页
针对在信息传播动态演化中,结构特征和时序特征以及两者间的交互表达难以有效捕获的问题,提出一种基于Transformer和关系图卷积网络的信息传播预测模型(TRGCN)。首先,构建由社交关系图和传播级联图组合而成的异构图,使用关系图卷积网络(... 针对在信息传播动态演化中,结构特征和时序特征以及两者间的交互表达难以有效捕获的问题,提出一种基于Transformer和关系图卷积网络的信息传播预测模型(TRGCN)。首先,构建由社交关系图和传播级联图组合而成的异构图,使用关系图卷积网络(RGCN)提取图中各节点的结构特征;其次,使用双向长短期记忆(Bi-LSTM)网络对各节点的时间嵌入重新编码,引入时间衰减项以不同的权重赋予不同时间位置的节点,获得节点的时序特征;最后,将结构特征和时序特征输入Transformer进行融合,得到时空特征以预测信息传播。在Twitter、Douban和Memetracker这3个真实数据集上的实验结果表明,相较于对比实验中的最优模型,TRGCN的Hits@100指标分别提升3.18%,5.96%和3.34%,Map@100指标分别提升11.60%,19.72%和8.47%,验证了所提模型的有效性和合理性。 展开更多
关键词 信息传播预测 transformer 关系图卷积网络 双向长短期记忆网络 时空特征
在线阅读 下载PDF
基于STN与异构卷积滤波器的肝硬化识别 被引量:4
19
作者 张欢 赵希梅 《计算机工程》 CAS CSCD 北大核心 2021年第5期301-307,315,共8页
卷积神经网络因缺乏空间不变性造成分类精度不高,且由于复杂度过高导致分类效率较低。提出一种利用空间变换网络和异构卷积滤波器的SH_ImAlexNet网络,应用于肝硬化样本识别。改进卷积神经网络AlexNet的结构和参数以满足肝硬化样本尺度要... 卷积神经网络因缺乏空间不变性造成分类精度不高,且由于复杂度过高导致分类效率较低。提出一种利用空间变换网络和异构卷积滤波器的SH_ImAlexNet网络,应用于肝硬化样本识别。改进卷积神经网络AlexNet的结构和参数以满足肝硬化样本尺度要求,引入空间变换网络层增强特征提取能力与空间不变性,采用异构卷积滤波器替换部分卷积核降低复杂度并提升鲁棒性。实验结果表明,该网络的分类效果较AlexNet、VGG等传统网络更优,在小样本数据集和大样本数据集上的识别率分别达到98.28%和95.67%,空间复杂度和时间复杂度更低且运行效率更高。 展开更多
关键词 空间变换网络 异构卷积滤波器 AlexNet模型 卷积神经网络 肝硬化识别
在线阅读 下载PDF
Sound Source Localization Based on SRP-PHAT Spatial Spectrum and Deep Neural Network 被引量:3
20
作者 Xiaoyan Zhao Shuwen Chen +1 位作者 Lin Zhou Ying Chen 《Computers, Materials & Continua》 SCIE EI 2020年第7期253-271,共19页
Microphone array-based sound source localization(SSL)is a challenging task in adverse acoustic scenarios.To address this,a novel SSL algorithm based on deep neural network(DNN)using steered response power-phase transf... Microphone array-based sound source localization(SSL)is a challenging task in adverse acoustic scenarios.To address this,a novel SSL algorithm based on deep neural network(DNN)using steered response power-phase transform(SRP-PHAT)spatial spectrum as input feature is presented in this paper.Since the SRP-PHAT spatial power spectrum contains spatial location information,it is adopted as the input feature for sound source localization.DNN is exploited to extract the efficient location information from SRP-PHAT spatial power spectrum due to its advantage on extracting high-level features.SRP-PHAT at each steering position within a frame is arranged into a vector,which is treated as DNN input.A DNN model which can map the SRP-PHAT spatial spectrum to the azimuth of sound source is learned from the training signals.The azimuth of sound source is estimated through trained DNN model from the testing signals.Experiment results demonstrate that the proposed algorithm significantly improves localization performance whether the training and testing condition setup are the same or not,and is more robust to noise and reverberation. 展开更多
关键词 Sound source localization microphone array steered response power-phase transform(SRP-PHAT)spatial spectrum deep neural network
在线阅读 下载PDF
上一页 1 2 9 下一页 到第
使用帮助 返回顶部