期刊文献+
共找到184篇文章
< 1 2 10 >
每页显示 20 50 100
Sound Source Localization Based on SRP-PHAT Spatial Spectrum and Deep Neural Network 被引量:3
1
作者 Xiaoyan Zhao Shuwen Chen +1 位作者 Lin Zhou Ying Chen 《Computers, Materials & Continua》 SCIE EI 2020年第7期253-271,共19页
Microphone array-based sound source localization(SSL)is a challenging task in adverse acoustic scenarios.To address this,a novel SSL algorithm based on deep neural network(DNN)using steered response power-phase transf... Microphone array-based sound source localization(SSL)is a challenging task in adverse acoustic scenarios.To address this,a novel SSL algorithm based on deep neural network(DNN)using steered response power-phase transform(SRP-PHAT)spatial spectrum as input feature is presented in this paper.Since the SRP-PHAT spatial power spectrum contains spatial location information,it is adopted as the input feature for sound source localization.DNN is exploited to extract the efficient location information from SRP-PHAT spatial power spectrum due to its advantage on extracting high-level features.SRP-PHAT at each steering position within a frame is arranged into a vector,which is treated as DNN input.A DNN model which can map the SRP-PHAT spatial spectrum to the azimuth of sound source is learned from the training signals.The azimuth of sound source is estimated through trained DNN model from the testing signals.Experiment results demonstrate that the proposed algorithm significantly improves localization performance whether the training and testing condition setup are the same or not,and is more robust to noise and reverberation. 展开更多
关键词 Sound source localization microphone array steered response power-phase transform(SRP-PHAT)spatial spectrum deep neural network
在线阅读 下载PDF
Multi-Stage-Based Siamese Neural Network for Seal Image Recognition
2
作者 Jianfeng Lu Xiangye Huang +3 位作者 Caijin Li Renlin Xin Shanqing Zhang Mahmoud Emam 《Computer Modeling in Engineering & Sciences》 SCIE EI 2025年第1期405-423,共19页
Seal authentication is an important task for verifying the authenticity of stamped seals used in various domains to protect legal documents from tampering and counterfeiting.Stamped seal inspection is commonly audited... Seal authentication is an important task for verifying the authenticity of stamped seals used in various domains to protect legal documents from tampering and counterfeiting.Stamped seal inspection is commonly audited manually to ensure document authenticity.However,manual assessment of seal images is tedious and laborintensive due to human errors,inconsistent placement,and completeness of the seal.Traditional image recognition systems are inadequate enough to identify seal types accurately,necessitating a neural network-based method for seal image recognition.However,neural network-based classification algorithms,such as Residual Networks(ResNet)andVisualGeometryGroup with 16 layers(VGG16)yield suboptimal recognition rates on stamp datasets.Additionally,the fixed training data categories make handling new categories to be a challenging task.This paper proposes amulti-stage seal recognition algorithmbased on Siamese network to overcome these limitations.Firstly,the seal image is pre-processed by applying an image rotation correction module based on Histogram of Oriented Gradients(HOG).Secondly,the similarity between input seal image pairs is measured by utilizing a similarity comparison module based on the Siamese network.Finally,we compare the results with the pre-stored standard seal template images in the database to obtain the seal type.To evaluate the performance of the proposed method,we further create a new seal image dataset that contains two subsets with 210,000 valid labeled pairs in total.The proposed work has a practical significance in industries where automatic seal authentication is essential as in legal,financial,and governmental sectors,where automatic seal recognition can enhance document security and streamline validation processes.Furthermore,the experimental results show that the proposed multi-stage method for seal image recognition outperforms state-of-the-art methods on the two established datasets. 展开更多
关键词 Seal recognition seal authentication document tampering siamese network spatial transformer network similarity comparison network
在线阅读 下载PDF
Person Re-Identification Based on Spatial Feature Learning and Multi-Granularity Feature Fusion
3
作者 DIAO Zijian CAO Shuai +4 位作者 LI Wenwei LIANG Jianan WEN Guilin HUANG Weici ZHANG Shouming 《Journal of Shanghai Jiaotong university(Science)》 2025年第2期363-374,共12页
In view of the weak ability of the convolutional neural networks to explicitly learn spatial invariance and the probabilistic loss of discriminative features caused by occlusion and background interference in pedestri... In view of the weak ability of the convolutional neural networks to explicitly learn spatial invariance and the probabilistic loss of discriminative features caused by occlusion and background interference in pedestrian re-identification tasks,a person re-identification method combining spatial feature learning and multi-granularity feature fusion was proposed.First,an attention spatial transformation network(A-STN)is proposed to learn spatial features and solve the problem of misalignment of pedestrian spatial features.Then the network was divided into a global branch,a local coarse-grained fusion branch,and a local fine-grained fusion branch to extract pedestrian global features,coarse-grained fusion features,and fine-grained fusion features,respectively.Among them,the global branch enriches the global features by fusing different pooling features.The local coarse-grained fusion branch uses an overlay pooling to enhance each local feature while learning the correlation relationship between multi-granularity features.The local fine-grained fusion branch uses a differential pooling to obtain the differential features that were fused with global features to learn the relationship between pedestrian local features and pedestrian global features.Finally,the proposed method was compared on three public datasets:Market1501,DukeMTMC-ReID and CUHK03.The experimental results were better than those of the comparative methods,which verifies the effectiveness of the proposed method. 展开更多
关键词 pedestrian re-identification spatial features attention spatial transformation network multi-branch network relation features
原文传递
Human Motion Prediction Based on Multi-Level Spatial and Temporal Cues Learning
4
作者 Jiayi Geng Yuxuan Wu +5 位作者 Wenbo Lu Pengxiang Su Amel Ksibi Wei Li Zaffar Ahmed Shaikh Di Gai 《Computers, Materials & Continua》 2025年第11期3689-3707,共19页
Predicting human motion based on historical motion sequences is a fundamental problem in computer vision,which is at the core of many applications.Existing approaches primarily focus on encoding spatial dependencies a... Predicting human motion based on historical motion sequences is a fundamental problem in computer vision,which is at the core of many applications.Existing approaches primarily focus on encoding spatial dependencies among human joints while ignoring the temporal cues and the complex relationships across non-consecutive frames.These limitations hinder the model’s ability to generate accurate predictions over longer time horizons and in scenarios with complex motion patterns.To address the above problems,we proposed a novel multi-level spatial and temporal learning model,which consists of a Cross Spatial Dependencies Encoding Module(CSM)and a Dynamic Temporal Connection Encoding Module(DTM).Specifically,the CSM is designed to capture complementary local and global spatial dependent information at both the joint level and the joint pair level.We further present DTM to encode diverse temporal evolution contexts and compress motion features to a deep level,enabling the model to capture both short-term and long-term dependencies efficiently.Extensive experiments conducted on the Human 3.6M and CMU Mocap datasets demonstrate that our model achieves state-of-the-art performance in both short-term and long-term predictions,outperforming existing methods by up to 20.3% in accuracy.Furthermore,ablation studies confirm the significant contributions of the CSM and DTM in enhancing prediction accuracy. 展开更多
关键词 Human motion prediction spatial dependencies learning temporal context learning graph convolutional networks transformer
在线阅读 下载PDF
基于动态时空Transformer的城市蜂窝网络流量预测方法
5
作者 于江燕 王倩 +2 位作者 孟宪静 张瑞敏 耿蕾蕾 《计算机工程与应用》 北大核心 2025年第18期290-299,共10页
针对现有的城市蜂窝网络流量预测方法没有考虑到小区间空间相关性的动态性以及不同时间跨度下小区间空间相关性的多样性问题,提出基于动态时空Transformer的城市蜂窝网络流量预测模型(DSTTNet)。提出多尺度时间感知空间Transformer模块M... 针对现有的城市蜂窝网络流量预测方法没有考虑到小区间空间相关性的动态性以及不同时间跨度下小区间空间相关性的多样性问题,提出基于动态时空Transformer的城市蜂窝网络流量预测模型(DSTTNet)。提出多尺度时间感知空间Transformer模块MSTAST,通过分时间段建模小区间的空间相关性,实现小区间动态空间关系的捕获;通过引入多分支结构,在不同的分支上使用不同的时间段划分方式来捕获不同的空间相关性,从而提高空间相关性建模的准确性;基于MSTAST和时间Transformer模块构建时空序列建模模块来捕获城市蜂窝网络流量中的长时间依赖关系和动态空间依赖关系;还将MSTAST应用于特征融合模块,以提高模型对预测特征中远距离小区间全局空间关系的捕获能力。实验结果表明,在RMSE评价指标下,所提模型在SMS、Call、Internet三种网络流量数据集上分别提升了5.43%、4.30%、2.86%。 展开更多
关键词 蜂窝网络流量预测 时空数据挖掘 transformer 注意力机制 无线网络
在线阅读 下载PDF
基于时空Transformer的混合回报隐式Q学习人群导航
6
作者 周帅 符浩 刘伟 《计算机应用》 北大核心 2025年第11期3666-3673,共8页
在人群密集环境中,机器人执行人群导航任务时通常采用在线强化学习算法。然而,行人运动复杂多变的特性显著降低了在线强化学习的样本效率。针对这一问题,提出一种在离线强化学习(ORL)框架下的基于时空Transformer的混合回报隐式Q学习(ST... 在人群密集环境中,机器人执行人群导航任务时通常采用在线强化学习算法。然而,行人运动复杂多变的特性显著降低了在线强化学习的样本效率。针对这一问题,提出一种在离线强化学习(ORL)框架下的基于时空Transformer的混合回报隐式Q学习(STHRIQL)算法。首先,将蒙特卡洛(MC)回报机制融入隐式Q学习(IQL)算法中,旨在增强学习过程的收敛性;其次,进一步将时空Transformer模型整合至Actor-Critic中,以有效捕捉并解析离线人群导航数据集中机器人与行人之间高度动态且复杂的交互信息,从而优化算法的训练流程与效率;最后,通过仿真实验将所提算法与现有基于在线强化学习的人群导航算法进行对比,并根据评估机制进行定量与定性分析。实验结果显示,STHRIQL算法不仅在人群导航任务中展现出了优越的性能,而且相较于现有的在线人群导航算法,样本效率提升了30.5%~55.8%。STHRIQL算法可为提升机器人在复杂人群环境中的导航能力提供新的思路与解决方案。 展开更多
关键词 人群导航 深度强化学习 离线学习 神经网络 时空transformer
在线阅读 下载PDF
基于时空融合Transformer的航空发动机RUL预测
7
作者 王昱 杨晓庆 +1 位作者 李硕 张哲成 《振动与冲击》 北大核心 2025年第16期318-328,共11页
航空发动机数据呈现多变量、非线性和动态变化等复杂特征,且具有显著的时空关联性。大多数研究在分析数据时,往往局限于单一的多传感器尺度或时间尺度,且往往忽视数据间的长时依赖性,限制了其在航空发动机剩余使用寿命(remaining useful... 航空发动机数据呈现多变量、非线性和动态变化等复杂特征,且具有显著的时空关联性。大多数研究在分析数据时,往往局限于单一的多传感器尺度或时间尺度,且往往忽视数据间的长时依赖性,限制了其在航空发动机剩余使用寿命(remaining useful life,RUL)预测任务中的应用。为此,提出了一种时空融合Transformer网络模型。该模型在保留Transformer架构中的多头注意力机制和位置编码的优势以精准捕捉长时依赖特征的基础上,首先采用高效全连接网络替代原有的解码操作模块,匹配航空发动机RUL预测非线性回归问题属性的同时简化模型结构;然后,通过引入空间注意力机制模块,深入挖掘不同变量间的空间特征;最后,应用改进的赤池信息量准则对Transformer的重要超参数进行辨识,解决其超参数的选择难题。经C-MAPSS以及PHM08预测数据挑战赛两数据集的多组试验证实所提模型的有效性及其在预测精度方面的卓越表现。 展开更多
关键词 剩余使用寿命(RUL)预测 transformer神经网络 深度学习 赤池信息量准则 时空融合 空间注意力
在线阅读 下载PDF
融合FPN与SFB的Swin Transformer图像去噪网络
8
作者 袁姮 华乾勇 《计算机系统应用》 2025年第10期32-43,共12页
为了提升图像去噪网络对局部与全局信息的捕捉能力,本文提出一种基于特征金字塔网络(feature pyramid network, FPN)和空间频率块(spatial frequency block, SFB)的Swin Transformer图像去噪网络(SwinFPSFNet).该网络由3个阶段组成:在... 为了提升图像去噪网络对局部与全局信息的捕捉能力,本文提出一种基于特征金字塔网络(feature pyramid network, FPN)和空间频率块(spatial frequency block, SFB)的Swin Transformer图像去噪网络(SwinFPSFNet).该网络由3个阶段组成:在浅层特征提取阶段,设计了特征金字塔网络以增强局部特征提取能力;在深层特征提取阶段,结合快速傅里叶卷积(fast Fourier convolution, FFC)设计空间频率块,用于同时捕捉全局与局部信息;最后,通过聚合浅层与深层特征,进一步增强网络去噪能力.此外,本文构建了一种高斯噪声退化模型并结合多种数据增强策略,以提升网络的泛化能力.在CBSD68、Kodak24和Urban100数据集上的实验结果表明,与当前主流去噪方法如BM3D、DnCNN、FFDNet、SwinIR等相比, SwinFPSFNet能够兼顾局部与全局信息,在噪声抑制和保留图像细节方面表现出显著优势. 展开更多
关键词 图像去噪 Swin transformer 特征金字塔网络 空间频率块
在线阅读 下载PDF
CNN结合Transformer的深度伪造高效检测 被引量:14
9
作者 李颖 边山 +1 位作者 王春桃 卢伟 《中国图象图形学报》 CSCD 北大核心 2023年第3期804-819,共16页
目的 深度伪造视频检测是目前计算机视觉领域的热点研究问题。卷积神经网络和Vision Transformer(ViT)都是深度伪造检测模型中的基础结构,二者虽各有优势,但都面临训练和测试阶段耗时较长、跨压缩场景精度显著下降问题。针对这两类模型... 目的 深度伪造视频检测是目前计算机视觉领域的热点研究问题。卷积神经网络和Vision Transformer(ViT)都是深度伪造检测模型中的基础结构,二者虽各有优势,但都面临训练和测试阶段耗时较长、跨压缩场景精度显著下降问题。针对这两类模型各自的优缺点,以及不同域特征在检测场景下的适用性,提出了一种高效的CNN(convolutional neural network)结合Transformer的联合模型。方法 设计基于Efficient Net的空间域特征提取分支及频率域特征提取分支,以丰富单分支的特征表示。之后与Transformer的编码器结构、交叉注意力结构进行连接,对全局区域间特征相关性进行建模。针对跨压缩、跨库场景下深度伪造检测模型精度下降问题,设计注意力机制及嵌入方式,结合数据增广策略,提高模型在跨压缩率、跨库场景下的鲁棒性。结果 在Face Forensics++的4个数据集上与其他9种方法进行跨压缩率的精度比较,在交叉压缩率检测实验中,本文方法对Deepfake、Face2Face和Neural Textures伪造图像的检测准确率分别达到90.35%、71.79%和80.71%,优于对比算法。在跨数据集的实验中,本文模型同样优于其他方法,并且同设备训练耗时大幅缩减。结论 本文提出的联合模型综合了卷积神经网络和Vision Transformer的优点,利用了不同域特征的检测特性及注意力机制和数据增强机制,改善了深度伪造检测在跨压缩、跨库检测时的效果,使模型更加准确且高效。 展开更多
关键词 深度伪造检测 卷积神经网络(CNN) Vision transformer(ViT) 空间域 频率域
原文传递
基于改进Transformer的布料材质识别方法研究 被引量:6
10
作者 杨晶 靳雁霞 +3 位作者 刘亚变 史志儒 张翎 乔星宇 《中北大学学报(自然科学版)》 CAS 2023年第2期138-145,161,共9页
布料材质识别是一个极具挑战性的计算机视觉问题。针对传统识别方法存在的识别周期长、人为因素多、技术壁垒高以及有破坏性等缺点,提出了一种基于改进Transformer的布料材质识别方法,该方法利用输入的布料运动视频,通过布料运动的外观... 布料材质识别是一个极具挑战性的计算机视觉问题。针对传统识别方法存在的识别周期长、人为因素多、技术壁垒高以及有破坏性等缺点,提出了一种基于改进Transformer的布料材质识别方法,该方法利用输入的布料运动视频,通过布料运动的外观变化识别布料的材质类型。改进的Transformer模型由Transformer块和残差空间缩减块(Residual Spatial Reduction)组成,将Transformer块中的自注意力分解为时间自注意力和空间自注意力来减少计算量和运行时间,将两个残差空间缩减块添加进Transformer模型中来减少空间冗余信息和提高布料材质识别的准确率。此外,使用预训练的图像模型对视频模型初始化,可以在减少计算量的同时保持模型的高性能。在布料运动数据集上的实验结果表明,本文方法对12种不同布料材质视频的材质种类识别的准确率达到82.3%,相比其他方法,该方法的识别精度更高。 展开更多
关键词 布料材质识别 卷积神经网络 transformer 残差空间缩减 深度学习
在线阅读 下载PDF
基于双分支特征提取的害虫分类方法研究
11
作者 陈月枫 高心丹 《中国农机化学报》 北大核心 2026年第3期222-228,共7页
针对害虫身体构造复杂、姿势多样、所处背景复杂等问题,提出一种双分支提取特征并融合的害虫分类模型。首先,为提取姿势多样、结构复杂的害虫的局部特征,设计具有空间变换结构的卷积神经网络分支;其次,使用Transformer分支捕获背景复杂... 针对害虫身体构造复杂、姿势多样、所处背景复杂等问题,提出一种双分支提取特征并融合的害虫分类模型。首先,为提取姿势多样、结构复杂的害虫的局部特征,设计具有空间变换结构的卷积神经网络分支;其次,使用Transformer分支捕获背景复杂的害虫图像中有助于分类的全局特征;最后,通过本文设计的特征融合模块将两分支结构提取的特征进行融合,实现害虫的分类。模型在3个不同特点的数据集上进行评估,分类准确率分别为74.01%、98.21%、90.12%,均优于当前主流方法。研究证明,卷积神经网络分支和特征融合模块的引入能够辅助Transformer捕获更多的特征信息,有效解决害虫分类中精度不够高的问题。 展开更多
关键词 害虫分类 自注意力机制 卷积神经网络 空间变换网络 特征融合
在线阅读 下载PDF
数字化转型驱动的客户服务满意度领先体系研究
12
作者 周小胜 李韵 +2 位作者 王琦 田梦晗 何俊君 《电信工程技术与标准化》 2026年第4期45-52,共8页
为解决5G网络演进与数字化转型背景下运营商网络满意度管控被动、效能不足的问题,实现服务效能与经济效益的协同优化。本文介绍并研究了以客户感知为中心、以网格为抓手的满意度提升效能评估决策体系,构建“感知预测、修复”满意度领先... 为解决5G网络演进与数字化转型背景下运营商网络满意度管控被动、效能不足的问题,实现服务效能与经济效益的协同优化。本文介绍并研究了以客户感知为中心、以网格为抓手的满意度提升效能评估决策体系,构建“感知预测、修复”满意度领先体系,开展锚定用户时空关联的投诉预测研究,同时采用智能感知评估系统、投诉动态预警模型、真实投诉地理库三大核心技术,实施热点实时监测、跨部门系统解耦、差异化服务保障体系及创新修复方案,并开展相关研究与实践。该体系运行成效显著,可有效提升投诉预测精准性与服务质量,推动网络满意度管控向事前预防转变,实现运营商服务效能与经济效益协同优化,具有突出的经济社会效益。 展开更多
关键词 数字化转型 空间计算 网业协同 网格化管理
在线阅读 下载PDF
LSFormer:用于交通流预测的负载量感知空间异质性变换器
13
作者 李轩 李艳红 +2 位作者 徐昊翔 黄健翔 陈亮亮 《中南民族大学学报(自然科学版)》 2026年第1期86-96,共11页
高精度的交通流预测可以有效缓解智能城市道路的拥堵压力.然而,交通流预测面临着如何有效揭示交通流数据中隐藏的时空依赖关系的挑战.目前大多数方法都是基于图神经网络(GNN)或变压器模型.前者只考虑短程空间信息,无法捕捉长程空间依赖... 高精度的交通流预测可以有效缓解智能城市道路的拥堵压力.然而,交通流预测面临着如何有效揭示交通流数据中隐藏的时空依赖关系的挑战.目前大多数方法都是基于图神经网络(GNN)或变压器模型.前者只考虑短程空间信息,无法捕捉长程空间依赖关系,而后者虽然能够捕捉长程依赖关系,但大多数研究都没有充分挖掘变压器架构的潜力.为此,提出了一种用于交通流预测的新型负载感知空间异质性变换器,即LSFormer.具体来说,为空间自注意力模块设计了相对位置编码以优化空间位置信息感知问题,使模型能更好地捕捉位置信息.然后,引入了负载感知模块,以突出周边交通流对中心点的影响,解决了现有方法对周边区域依赖关系建模不足的问题.在5个真实世界公共交通数据集上的广泛实验结果表明:文中所提模型可以达到先进的性能.此外,还将学习到的空间嵌入可视化,使模型具有可解释性. 展开更多
关键词 交通流预测 时空特征 变换器 图神经网络
在线阅读 下载PDF
基于STN的服装扭曲网络动态虚拟试衣方法 被引量:2
14
作者 胡新荣 柯廷丰 +4 位作者 罗瑞奇 张梓怡 梁金星 杨凯 彭涛 《武汉大学学报(理学版)》 CAS CSCD 北大核心 2024年第3期349-357,共9页
动态虚拟试衣的任务是在视频中以时空一致的方式将目标服装与人物进行匹配,目的是生成连贯流畅且真实的试衣视频。动态试衣过程中人物的姿态变化,导致试穿的服装出现自遮挡、印花模糊等问题。因此,本文提出基于空间变换网络(Spatial Tra... 动态虚拟试衣的任务是在视频中以时空一致的方式将目标服装与人物进行匹配,目的是生成连贯流畅且真实的试衣视频。动态试衣过程中人物的姿态变化,导致试穿的服装出现自遮挡、印花模糊等问题。因此,本文提出基于空间变换网络(Spatial Transformer Network,STN)的服装扭曲网络动态虚拟试衣方法。在服装扭曲网络中,利用Transformer模块兼顾全局信息以及局部重点信息的优势强化数据特征区域,STN模块采用可学习的薄板样条插值(Thin Plate Spline,TPS)方法预测服装扭曲范围,获取扭曲图像及掩码;试衣网络利用自注意力机制的U-Net网络对齐扭曲图像掩码和人体表征信息,生成高质量试衣图像;最后,通过动态合成网络解决视频帧时间一致性问题,生成连贯高质量试衣视频。在VVT数据集上,与CPVTON相比,本文的方法将平均结构相似性指数(SSIM)提高了0.076,平均感知图像块相似度(LPIPS)降低了0.420;与FWGAN方法相比,其I3D和ResNeXt101分别降低了0.089和2.252。在VITON-HD数据集上,本文方法的SSIM指标也高于CP-VTON和FW-GAN,进一步表明该方法生成的图片质量高、失真低。 展开更多
关键词 动态虚拟试衣 空间变换网络 U-Net网络 自注意力机制
原文传递
基于农业目标检测的空间变换器网络
15
作者 韩俊茹 侯波 郭剑峰 《赤峰学院学报(自然科学版)》 2026年第2期52-59,共8页
在计算机视觉领域,目标检测广泛应用于智能监控及农业自动化等多个实际场景。提升YOLO模型在复杂场景下的鲁棒性与泛化能力,成为当前研究的重要目标。本文提出一种融合空间变换器网络(STN)与YOLO架构的改进方法——STN-YOLO。该方法通过... 在计算机视觉领域,目标检测广泛应用于智能监控及农业自动化等多个实际场景。提升YOLO模型在复杂场景下的鲁棒性与泛化能力,成为当前研究的重要目标。本文提出一种融合空间变换器网络(STN)与YOLO架构的改进方法——STN-YOLO。该方法通过在YOLO中嵌入STN模块,使模型具备自主关注图像中关键区域的能力,从而增强对旋转、尺度缩放及平移等几何变换的适应能力,有效抑制无关背景信息的干扰。实验结果显示,STN-YOLO在多个数据集上均取得显著改进。在定量评价方面,其mAP等关键指标均优于原始YOLO模型;在定性分析中,检测结果的目标轮廓更为清晰,定位精度显著提高。此外,本文还系统比较了不同结构定位网络对整体性能的影响,进一步优化了模型配置。为验证所提出方法的泛化能力,在农业图像数据集及植物表型温室数据集上进行了跨场景测试,STN-YOLO均表现出优越的检测效果和稳定性。 展开更多
关键词 农业图像检测 YOLO 空间变换器网络 目标检测
在线阅读 下载PDF
采用Transformer网络的视频序列表情识别 被引量:6
16
作者 陈港 张石清 赵小明 《中国图象图形学报》 CSCD 北大核心 2022年第10期3022-3030,共9页
目的相比于静态人脸表情图像识别,视频序列中的各帧人脸表情强度差异较大,并且含有中性表情的帧数较多,然而现有模型无法为视频序列中每帧图像分配合适的权重。为了充分利用视频序列中的时空维度信息和不同帧图像对视频表情识别的作用... 目的相比于静态人脸表情图像识别,视频序列中的各帧人脸表情强度差异较大,并且含有中性表情的帧数较多,然而现有模型无法为视频序列中每帧图像分配合适的权重。为了充分利用视频序列中的时空维度信息和不同帧图像对视频表情识别的作用力差异特点,本文提出一种基于Transformer的视频序列表情识别方法。方法首先,将一个视频序列分成含有固定帧数的短视频片段,并采用深度残差网络对视频片段中的每帧图像学习出高层次的人脸表情特征,从而生成一个固定维度的视频片段空间特征。然后,通过设计合适的长短时记忆网络(long short-term memory network,LSTM)和Transformer模型分别从该视频片段空间特征序列中进一步学习出高层次的时间维度特征和注意力特征,并进行级联输入到全连接层,从而输出该视频片段的表情分类分数值。最后,将一个视频所有片段的表情分类分数值进行最大池化,实现该视频的最终表情分类任务。结果在公开的BAUM-1s(Bahcesehir University multimodal)和RML(Ryerson Multimedia Lab)视频情感数据集上的试验结果表明,该方法分别取得了60.72%和75.44%的正确识别率,优于其他对比方法的性能。结论该方法采用端到端的学习方式,能够有效提升视频序列表情识别性能。 展开更多
关键词 视频序列 人脸表情识别 时空维度 深度残差网络 长短时记忆网络(LSTM) 端到端 transformer
原文传递
基于时空Transformer的社交网络信息传播预测 被引量:9
17
作者 范伟 刘勇 《计算机研究与发展》 EI CSCD 北大核心 2022年第8期1757-1769,共13页
随着社交网络的日益普及和广泛应用,信息传播预测逐渐成为了社交网络分析领域的一个热点研究问题.之前大部分研究要么只利用信息传播序列,要么只利用用户之间的社交网络来进行预测,难以对信息传播过程的复杂性进行有效建模.此外,常用于... 随着社交网络的日益普及和广泛应用,信息传播预测逐渐成为了社交网络分析领域的一个热点研究问题.之前大部分研究要么只利用信息传播序列,要么只利用用户之间的社交网络来进行预测,难以对信息传播过程的复杂性进行有效建模.此外,常用于信息传播预测的循环神经网络(recurrent neural network,RNN)及其变体难以有效捕获信息之间的相关性.为解决上述问题,提出了一个新的基于时空Transformer的社交网络信息传播预测模型STT.该模型首先构建由社交网络图和动态传播图组成的异构图并使用图卷积网络(graph convolutional network,GCN)来学习用户的结构特征;然后将用户的时序特征和结构特征放入到Transformer中进行融合来获取时空特征;为有效融合用户的时序特征和结构特征,提出了一种新的残差融合方式来替代Transformer中原有的残差连接;最后利用Transformer来进行信息传播预测.真实数据集上的大量实验验证了模型STT的有效性. 展开更多
关键词 社交网络 信息传播预测 transformer 图卷积网络 时空特征
在线阅读 下载PDF
融合Transformer和MSCNN双分支架构的工控网络入侵检测研究 被引量:12
18
作者 李井龙 刘胜全 +2 位作者 马宇航 陈洋洋 刘博 《东北师大学报(自然科学版)》 CAS 北大核心 2024年第3期70-78,共9页
针对现有的工控网络入侵检测方法中存在对工控流量的多空间特征和长距离时序特征的提取能力不足等问题,提出了一种融合Transformer和MSCNN双分支架构的工控网络入侵检测模型.该模型利用多尺度卷积(MSCNN)中多个不同大小卷积核,对工控流... 针对现有的工控网络入侵检测方法中存在对工控流量的多空间特征和长距离时序特征的提取能力不足等问题,提出了一种融合Transformer和MSCNN双分支架构的工控网络入侵检测模型.该模型利用多尺度卷积(MSCNN)中多个不同大小卷积核,对工控流量中多个空间特征进行抽取,扩大了对工控流量特征范围的学习.同时引入Transformer增强了模型对工控流量中长距离时序特征的提取能力,进一步提高了模型的性能.通过UNSW-NB15和NSL-KDD数据集进行了实验,结果表明:该模型与其他方法相比能够提取更加全面有效的特征,具有很好的检测性能和泛化能力. 展开更多
关键词 工控网络 入侵检测 空间特征 长距离时序特征 MSCNN transformer
在线阅读 下载PDF
基于CNN-Transformer结构的遥感影像变化检测 被引量:6
19
作者 潘梦洋 杨航 范祥晖 《液晶与显示》 CAS CSCD 北大核心 2024年第10期1361-1379,共19页
现代高分辨率遥感图像变化检测借助卷积神经网络(Convolutional Neural Network,CNN)取得了显著成果。然而,卷积操作的感受野限制导致在学习全局上下文和远程空间关系方面存在不足。虽然视觉Transformer能有效捕获远程特征的依赖性,但... 现代高分辨率遥感图像变化检测借助卷积神经网络(Convolutional Neural Network,CNN)取得了显著成果。然而,卷积操作的感受野限制导致在学习全局上下文和远程空间关系方面存在不足。虽然视觉Transformer能有效捕获远程特征的依赖性,但其对影像变化细节的处理不足,导致空间定位能力有限且计算效率低下。为解决上述问题,本文提出了一种基于空间空洞金字塔池化的跨层级联线性融合端到端编解码混合CNN-Transformer的变化检测模型,兼具视觉Transformer和CNN的优势。首先,利用孪生CNN网络提取图像特征,并借助空洞金字塔池化模块对特征进行精细处理,从而更精准地捕获图像的细节特征信息。其次,将提取的特征转化为视觉单词,并通过Transformer编码器进行建模,以获取丰富的上下文信息。这些信息随后被反馈至视觉空间,通过Transformer解码器对原始特征进行强化,提升特征的表达效果。接着,采用跨层级联的方式将CNN提取的特征与Transformer编解码的特征进行融合,利用上采样技术联系不同分辨率的特征图,实现位置信息与语义信息的融合。最后,通过差异增强模块生成包含丰富变化信息的差异特征图。在LEVIR、CDD、DSIFN和WHUCD 4个公开遥感数据集上的广泛实验验证了本文方法的有效性。与其他先进方法相比,本文模型的分类性能更出色,有效改善了变化检测中的欠分割、过分割及边缘粗糙等问题。 展开更多
关键词 遥感图像 变化检测 卷积神经网络 transformer 空间空洞金字塔池化
在线阅读 下载PDF
融合Transformer和VGG网络的高光谱图像分类 被引量:4
20
作者 张明慧 周浩 王先旺 《传感器与微系统》 CSCD 北大核心 2023年第12期142-145,150,共5页
在高光谱图像(HSI)光谱数据中,相邻波段间信息的相关性对光谱特征近似的不同地物的分析具有重要意义。然而在传统卷积神经网络(CNN)的HSI光谱数据处理方法中,所提取的特征忽略了不同波段间信息的关联性。提出了一种融合Transformer和VG... 在高光谱图像(HSI)光谱数据中,相邻波段间信息的相关性对光谱特征近似的不同地物的分析具有重要意义。然而在传统卷积神经网络(CNN)的HSI光谱数据处理方法中,所提取的特征忽略了不同波段间信息的关联性。提出了一种融合Transformer和VGG网络的高光谱图像分类方法(SST_Like)。采用3D卷积核的VGG网络提取空间光谱特征,基于多头自注意力(MSA)机制的Transformer网络提取连续光谱间信息,形成空谱联合特征,最终通过多层感知机(MLP)完成地物分类任务。本文提出的SST_Like网络模型在3个HSI开放数据集上的实验结果表明,与传统基于CNN的HSI分类算法相比,可以提取更加深层的、判别性的特征,具有较高的分类性能。 展开更多
关键词 VGG网络 高光谱图像分类 transformer 空谱联合特征提取
在线阅读 下载PDF
上一页 1 2 10 下一页 到第
使用帮助 返回顶部