期刊文献+
共找到856篇文章
< 1 2 43 >
每页显示 20 50 100
一种3D可变形卷积结合Transformer的视频压缩感知方法
1
作者 杜秀丽 朱金耀 +2 位作者 高星 吕亚娜 邱少明 《计算机科学》 北大核心 2025年第11期150-156,共7页
面对视频的分辨率越来越高导致数据量越来越大的挑战,以更低的采样率实现视频的高质量重构可降低对通信资源的占用,进而降低采样端的部署难度。然而,现有的视频压缩感知方法对视频的帧间相关性无法充分利用,低采样率下的视频重构质量有... 面对视频的分辨率越来越高导致数据量越来越大的挑战,以更低的采样率实现视频的高质量重构可降低对通信资源的占用,进而降低采样端的部署难度。然而,现有的视频压缩感知方法对视频的帧间相关性无法充分利用,低采样率下的视频重构质量有待进一步提高。随着深度学习技术的引入,基于深度学习的分布式视频压缩感知给视频压缩感知重构提供了新思路。因此,结合3D可变形卷积与Transformer构建CS3Dformer网络,利用3D可变形卷积捕获视频的局部特征和时空特征的有效性,学习视频帧间的时空特征;同时,利用Transformer捕获长距离依赖特征的优点,一定程度上弥补了卷积神经网络方法在捕获图像的非局部相似性方面的缺陷,能更好地实现对视频的建模。所提方法是一种端到端的视频压缩感知方法,在多个数据集上的实验结果验证了该方法的有效性。 展开更多
关键词 压缩感知 视频重构 可变形卷积 transformER 卷积神经网络
在线阅读 下载PDF
结合状态空间模型和Transformer的时空增强视频字幕生成 被引量:3
2
作者 孙昊英 李树一 +1 位作者 习泽宇 毋立芳 《信号处理》 北大核心 2025年第2期279-289,共11页
视频字幕生成(Video Captioning)旨在用自然语言描述视频中的内容,在人机交互、辅助视障人士、体育视频解说等领域具有广泛的应用前景。然而视频中复杂的时空内容变化增加了视频字幕生成的难度,之前的方法通过提取时空特征、先验信息等... 视频字幕生成(Video Captioning)旨在用自然语言描述视频中的内容,在人机交互、辅助视障人士、体育视频解说等领域具有广泛的应用前景。然而视频中复杂的时空内容变化增加了视频字幕生成的难度,之前的方法通过提取时空特征、先验信息等方式提高生成字幕的质量,但在时空联合建模方面仍存在不足,可能导致视觉信息提取不充分,影响字幕生成结果。为了解决这个问题,本文提出一种新颖的时空增强的状态空间模型和Transformer(SpatioTemporal-enhanced State space model and Transformer,ST2)模型,通过引入最近流行的具有全局感受野和线性的计算复杂度的Mamba(一种状态空间模型),增强时空联合建模能力。首先,通过将Mamba与Transformer并行结合,提出空间增强的状态空间模型(State Space Model,SSM)和Transformer(Spatial enHanced State space model and Transformer module,SH-ST),克服了卷积的感受野问题并降低计算复杂度,同时增强模型提取空间信息的能力。然后为了增强时间建模,我们利用Mamba的时间扫描特性,并结合Transformer的全局建模能力,提出时间增强的SSM和Transformer(Temporal enHanced State space model and Transformer module,TH-ST)。具体地,我们对SH-ST产生的特征进行重排序,从而使Mamba以交叉扫描的方式增强重排序后特征的时间关系,最后用Transformer进一步增强时间建模能力。实验结果表明,我们ST2模型中SH-ST和TH-ST结构设计的有效性,且在广泛使用的视频字幕生成数据集MSVD和MSR-VTT上取得了具有竞争力的结果。具体的,我们的方法分别在MSVD和MSR-VTT数据集上的绝对CIDEr分数超过最先进的结果6.9%和2.6%,在MSVD上的绝对CIDEr分数超过了基线结果4.9%。 展开更多
关键词 视频字幕生成 视频理解 状态空间模型 transformER
在线阅读 下载PDF
Very Low Bit-Rate Video Coding Based on Wavelet Transform
3
作者 Hou Weidong Mo Yulong Wei Chunlong (School of Communication & Information Engineering) 《Advances in Manufacturing》 SCIE CAS 1998年第4期12-16,共5页
Two video coding schemes based on wavelet transform achieving very low bit rate are presented in this paper. The first is a hybrid motion compensated wavelet transform(MC WT)system which behaves better at very low ... Two video coding schemes based on wavelet transform achieving very low bit rate are presented in this paper. The first is a hybrid motion compensated wavelet transform(MC WT)system which behaves better at very low bit rates than the block DCT residual coder. The second is a new efficient coding system based on a simple frame differencing wavelet transform(FD WT)which performs well in both PSNR and visual quality with substantially reduced complexity. 展开更多
关键词 very low bit rate video coding wavelet transform video compression
在线阅读 下载PDF
一种时间-外观能量扩散Transformer的无监督视频异常检测 被引量:1
4
作者 潘振鹏 李志军 +3 位作者 薛超然 黎鑫 吴克伟 谢昭 《微电子学与计算机》 2025年第2期68-76,共9页
无监督视频异常检测,关注从只有视频级标签的视频中,检测出异常事件发生的视频帧。由于没有视频帧标签,会造成该视频中的正常视频帧和异常视频帧难以区分。为了对正常和异常视频帧进行外观和外观特征分析,本文提出一种用于无监督视频异... 无监督视频异常检测,关注从只有视频级标签的视频中,检测出异常事件发生的视频帧。由于没有视频帧标签,会造成该视频中的正常视频帧和异常视频帧难以区分。为了对正常和异常视频帧进行外观和外观特征分析,本文提出一种用于无监督视频异常检测的时间-外观扩散Transformer。该模型中,Transformer编码器用于提取视频帧特征。时间能量扩散模块,使用高斯噪声对时间特征进行扩散,生成加噪后的时间特征集合。该模块使用单步的Monte Carlo采样方法选择出加噪样本,根据加噪样本和原始样本的余弦相似度和均方误差,判断加噪样本是否可信。该模块进一步设计了单次迭代的加噪和多次跨步的采样过程,来充分学习样本特征的更为复杂的时间变化情况。外观能量扩散模块,对外观特征进行单次迭代的加噪和多次跨步的采样过程,学习复杂的外观特征变化。上述的时间、外观能量扩散模块,描述视频帧可信的时间-外观特征,具有较好的互补性,能够有效增强正常和异常样本的区分能力。Transformer解码器用于异常分数的预测。在CUHK Avenue、ShanghaiTech、UCF-Crime和UBnormal这4个数据集上的实验表明,时间-外观扩散Transformer模型优于现有的无监督视频异常检测方法。 展开更多
关键词 无监督视频异常检测 扩散模型 transformER
在线阅读 下载PDF
AN ALGORITHM FOR CODING VIDEO SIGNAL BASED ON 3-D WAVELET TRANSFORMATION
5
作者 Wu Peng Zhang Miaolan Li Xianglin (Dept. of Electrical Eng., Graduate School, Uni. of Sci. and Tech. of China, Beijing 100039) 《Journal of Electronics(China)》 2000年第2期97-107,共11页
This paper presents an algorithm for coding video signal based on 3-D wavelet transformation. When the frame order t of a video signal is replaced by order 2, the video signal can be looked as a block in 3-D space. Af... This paper presents an algorithm for coding video signal based on 3-D wavelet transformation. When the frame order t of a video signal is replaced by order 2, the video signal can be looked as a block in 3-D space. After splitting the block into smaller sub-blocks, imitate the method of 2-D wavelet transformation for images, we can transform the sub-blocks with 3-D wavelet. Most of video signal energy is in the decomposed low-frequency sub-bands. These sub-bands affect the visual quality of the video signal most. Quantizing different sub-bands with different precision and then entropy encoding each sub-band, we can eliminate inter- and intra-frame redundancy of the video signal and compress data. Our simulation experiments show that this algorithm can achieve very good result. 展开更多
关键词 WAVELETS 3-D WAVELET transformATION video signal CODING
在线阅读 下载PDF
基于Transformer与时空特征聚合的视频目标检测
6
作者 孟德晗 孙祥洪 +2 位作者 关权 王文婧 秦玉华 《计算机系统应用》 2025年第10期143-153,共11页
视频目标检测是计算机视觉领域中一项具有挑战性的任务.由于视频目标受尺度多变、运动模糊等影响,同时现有算法在特征聚合方面存在不足,限制了检测性能提升.为提高视频目标检测精度,本文提出了一种基于Transformer的视频目标检测方法.首... 视频目标检测是计算机视觉领域中一项具有挑战性的任务.由于视频目标受尺度多变、运动模糊等影响,同时现有算法在特征聚合方面存在不足,限制了检测性能提升.为提高视频目标检测精度,本文提出了一种基于Transformer的视频目标检测方法.首先,设计了一种基于时空可变形注意力的时空特征聚合层,并将其融合到Transformer编码器中实现对目标帧与参考帧的多尺度时空特征聚合编码;其次,提出了一种通过特征-查询交互实现查询增强的方法,在Transformer解码器中直接利用参考帧的时空特征来增强目标查询,使目标查询可以充分学习全局时空信息.该方法充分利用Transformer编码-解码架构的优势,有效增强了目标帧特征与查询的时空信息表示能力.在ImageNet VID和UA-DETRAC数据集上的实验结果显示,该方法在基于ResNet-101骨干网络上的平均精度(mAP)可达到86.0%和90.9%. 展开更多
关键词 视频目标检测 transformER 时空特征聚合 查询增强
在线阅读 下载PDF
AN EFFICIENT 3-DIMENSIONAL DISCRETE WAVELET TRANSFORM ARCHITECTURE FOR VIDEO PROCESSING APPLICATION 被引量:1
7
作者 Ganapathi Hegde Pukhraj Vaya 《Journal of Electronics(China)》 2012年第6期534-540,共7页
This paper presents an optimized 3-D Discrete Wavelet Transform (3-DDWT) architecture. 1-DDWT employed for the design of 3-DDWT architecture uses reduced lifting scheme approach. Further the architecture is optimized ... This paper presents an optimized 3-D Discrete Wavelet Transform (3-DDWT) architecture. 1-DDWT employed for the design of 3-DDWT architecture uses reduced lifting scheme approach. Further the architecture is optimized by applying block enabling technique, scaling, and rounding of the filter coefficients. The proposed architecture uses biorthogonal (9/7) wavelet filter. The architecture is modeled using Verilog HDL, simulated using ModelSim, synthesized using Xilinx ISE and finally implemented on Virtex-5 FPGA. The proposed 3-DDWT architecture has slice register utilization of 5%, operating frequency of 396 MHz and a power consumption of 0.45 W. 展开更多
关键词 3-D Discrete Wavelet transform (3-DDWT) Lifting scheme PIPELINING video coding Low power
在线阅读 下载PDF
基于Transformer架构的端到端视频异常检测方法 被引量:1
8
作者 李石峰 罗晰 +1 位作者 刘晓茹 田野 《计算机技术与发展》 2025年第6期49-55,共7页
传统的卷积神经网络虽然能够处理空间结构数据,但在处理大规模视频数据时,其时空建模能力不足。为了解决这一问题,需要一个能够处理海量视频数据的高效模型。该文提出了一种新的基于Transformer架构的端到端视频异常检测方法。该方法结... 传统的卷积神经网络虽然能够处理空间结构数据,但在处理大规模视频数据时,其时空建模能力不足。为了解决这一问题,需要一个能够处理海量视频数据的高效模型。该文提出了一种新的基于Transformer架构的端到端视频异常检测方法。该方法结合Swin Transformer架构和Video Vision Transformer(ViViT)模型设计了时空信息融合模型,以提取视频帧序列的丰富时空信息。此外,通过将时空信息融合模型和深度支持向量数据描述(Deep SVDD)方法进行联合训练,实现了端到端的视频异常检测。在两个公开视频数据集上与最新的10种方法进行了对比实验,在UCSD Ped2数据集上,该模型取得了最高的96.5%的AUC;在CHUK Avenue数据集上,该模型也取得了80.7%的AUC,优于多数方法。与领先的视频异常检测方法相比,该方法具有一定的优势和竞争力。 展开更多
关键词 视频异常检测 transformer架构 时空信息融合模型 深度支持向量数据描述 联合训练
在线阅读 下载PDF
基于光流引导Transformer模型的重载铁路监控压缩视频质量增强方法
9
作者 王文斌 宋宗莹 +2 位作者 柴雪松 凌烈鹏 李健超 《铁路计算机应用》 2025年第1期27-33,共7页
重载铁路视频监控系统的不断扩增,使得铁路视频数据急剧增长,对数据存储和传输等能力的要求更高。为此,提出了一种基于光流引导Transformer模型的重载铁路监控压缩视频质量增强方法。通过光流补全网络提取帧间运动信息,指导Transformer... 重载铁路视频监控系统的不断扩增,使得铁路视频数据急剧增长,对数据存储和传输等能力的要求更高。为此,提出了一种基于光流引导Transformer模型的重载铁路监控压缩视频质量增强方法。通过光流补全网络提取帧间运动信息,指导Transformer模型关注视频序列中的重要特征;结合多头自注意力机制和时间空间特征融合策略,有效提取视频帧的时空特征;通过在Transformer模型结构中融入光流引导的特征增强模块,进一步提升视频质量增强的准确性和效率。基于实际采集的重载铁路监控视频数据集的实验结果表明,该方法显著优于现有的视频质量增强方法,具有实用价值。 展开更多
关键词 重载铁路 视频增强 光流 transformer模型 多头自注意力机制
在线阅读 下载PDF
基于Transformer的动态双重处理动作识别框架
10
作者 谢慧志 裴涛 《工业控制计算机》 2025年第1期103-104,107,共3页
该框架采用双重处理策略:图像处理采用掩码图像建模,视频处理采用掩码视频建模。提出了一种新的自适应变压器,该变压器包含一种新的掩码方案,通过旋转掩码算法获得每帧的掩码,在掩码过程中保证一定的时空相关性,增强了模型的上下文感知... 该框架采用双重处理策略:图像处理采用掩码图像建模,视频处理采用掩码视频建模。提出了一种新的自适应变压器,该变压器包含一种新的掩码方案,通过旋转掩码算法获得每帧的掩码,在掩码过程中保证一定的时空相关性,增强了模型的上下文感知能力。在主干中提出残差自适应块,有效地利用模型提取的特征信息进行动作分类。引入三维局部特征学习,提高特征表达能力,便于场景理解。在SSV2和Kinetics-400上进行了实验,结果证明了该模型的有效性。准确率分别为71.3%和81.4%。 展开更多
关键词 视频自监督学习 掩码视频建模 transformER 动作识别
在线阅读 下载PDF
3-D Wavelet Transform for Very Low Bit-Rate Video Coding
11
作者 Hou Weidong Mo Yulong Zhu Qiuyu Wei Chunlong (Shool of Communication and Information Engineering, Shanghai University) 《Advances in Manufacturing》 SCIE CAS 1999年第2期48-51,共4页
A new improved Goh's 3 D wavelet transform(WT) coding scheme is presented in this paper. The new scheme has great advantages including a simple code structure, low computation cost and good performance in PSNR, c... A new improved Goh's 3 D wavelet transform(WT) coding scheme is presented in this paper. The new scheme has great advantages including a simple code structure, low computation cost and good performance in PSNR, compression ratios and visual quality of reconstructions, when compared to the other existing 3 D WT coding methods and the 2 D WT based coding methods. The new 3 D WT coding scheme is suitable for very low bit rate video coding. 展开更多
关键词 video coding video compression very low bit rate 3 D wavelet transform
在线阅读 下载PDF
Very Low Bit Rate Video Coding Using Motion Compensated 3 D Wavelet Transform
12
作者 HOU Wei dong MO Yu long (School of Communication and Information Engineering, Shanghai University) HU Hai ping (School of Sciences, Shanghai University) 《Advances in Manufacturing》 SCIE CAS 1999年第4期342-344,共3页
A new motion compensated 3 D wavelet transform (MC 3DWT) video coding scheme is presented in this paper. The new coding scheme has a good performance in average PSNR, compression ratio and visual quality of reconst... A new motion compensated 3 D wavelet transform (MC 3DWT) video coding scheme is presented in this paper. The new coding scheme has a good performance in average PSNR, compression ratio and visual quality of reconstructions compared with the existing 3 D wavelet transform (3DWT) coding methods and motion compensated 2 D wavelet transform (MC WT) coding method. The new MC 3DWT coding scheme is suitable for very low bit rate video coding. 展开更多
关键词 video coding very low bit rate 3 D wavelet transform motion compensation
在线阅读 下载PDF
融合Vision Transformer与3D CNN的深度伪造视频篡改检测
13
作者 孙立信 吴永飞 +2 位作者 李心宇 任杰煌 刘西林 《计算机应用与软件》 北大核心 2025年第11期121-127,共7页
Deepfake技术的出现,使人们可以轻松地对人脸视频进行篡改,对社会造成巨大的危害。现有的篡改检测方法主要侧重于视频帧间的局部人脸区域空间特征变化检测,并没有考虑连续全局区域的时域特征,且不能检测视频帧中的细微空域特征变化。针... Deepfake技术的出现,使人们可以轻松地对人脸视频进行篡改,对社会造成巨大的危害。现有的篡改检测方法主要侧重于视频帧间的局部人脸区域空间特征变化检测,并没有考虑连续全局区域的时域特征,且不能检测视频帧中的细微空域特征变化。针对此问题,提出融合Vision Transformer和3D CNN的视频篡改检测方法ViT-3DCNN。该方法无需对人脸进行裁剪,直接学习视频帧间的连续时域特征以及每一帧的空间特征。实验结果表明,不依赖于人脸剪裁的情况下,ViT-3DCNN模型分别在DFDC数据集及Celeb-DF数据集上取得了93.3%与90.65%的分类准确性,充分验证了该模型在检测精度和泛化性等方面相较于现有检测方法具有明显的优势。 展开更多
关键词 伪造视频篡改检测 时空特征 Vision transformer 3D卷积
在线阅读 下载PDF
基于DirectShow设计视频加密Transform Filter 被引量:5
14
作者 姚晔 徐正全 李伟 《计算机工程与应用》 CSCD 北大核心 2005年第18期91-93,共3页
实现了基于DirectShow技术开发视频加密TransformFilter。首先介绍了视频加密的原理和方案,分析了Di-rectShow的体系结构,然后研究了基于DirectShow技术如何实现视频加密TransformFilter,并给出了试验结果和结论。试验结果表明该Filter... 实现了基于DirectShow技术开发视频加密TransformFilter。首先介绍了视频加密的原理和方案,分析了Di-rectShow的体系结构,然后研究了基于DirectShow技术如何实现视频加密TransformFilter,并给出了试验结果和结论。试验结果表明该Filter可以对实时视频进行加密,加密速度快,效果好。 展开更多
关键词 视频加密 DIRECTSHOW transform FILTER
在线阅读 下载PDF
基于Transformer紧凑编码的局部近重复视频检测算法 被引量:2
15
作者 王萍 余圳煌 鲁磊 《计算机科学》 CSCD 北大核心 2024年第5期108-116,共9页
针对现有局部近重复视频检测算法特征存储消耗大、整体查询效率低、提取特征时并未考虑近重复帧之间细微的语义差异等问题,文中提出了一种基于Transformer紧凑编码的局部近重复视频检测算法。首先,提出了一个基于Transformer的特征编码... 针对现有局部近重复视频检测算法特征存储消耗大、整体查询效率低、提取特征时并未考虑近重复帧之间细微的语义差异等问题,文中提出了一种基于Transformer紧凑编码的局部近重复视频检测算法。首先,提出了一个基于Transformer的特征编码器,其学习了大量近重复帧之间细微的语义差异,可以在编码帧特征时对各个区域特征图引入自注意力机制,在有效降低帧特征维度的同时也提高了编码后特征的表示性。该特征编码器通过孪生网络训练得到,该网络不需要负样本就可以有效学习近重复帧之间的相似语义信息,因此无需沉重和困难的难负样本标注工作,使得训练过程更加简易和高效。其次,提出了一个基于视频自相似度矩阵的关键帧提取方法,可以从视频中提取丰富但不冗余的关键帧,从而使关键帧特征序列能够更全面地描述原视频内容,提升算法的性能,同时也大幅减少了存储和计算冗余关键帧带来的开销。最后,基于关键帧的低维紧凑编码特征,采用基于图网络的时间对齐算法,实现局部近重复视频片段的检测和定位。该算法在公开的局部近重复视频检测数据集VCDB上取得了优于现有算法的实验性能。 展开更多
关键词 局部近重复视频检测 transformER 视频自相似度矩阵 关键帧提取
在线阅读 下载PDF
基于多层级视频Transformer的视觉自动定位方法
16
作者 邹琦萍 李博涛 +2 位作者 陈赛安 郭茜 张桃红 《工程科学与技术》 EI CAS CSCD 北大核心 2024年第6期34-43,共10页
工业自动化产线中,设备的异常检测直接决定加工质量,由机械臂和搭载于机械臂前端的工业相机构成的视觉系统可以有效监测此类异常。本文使用六轴机械臂搭载工业相机对工件表面进行成像,获取由模糊到清晰再到模糊的视频序列,以此选出最清... 工业自动化产线中,设备的异常检测直接决定加工质量,由机械臂和搭载于机械臂前端的工业相机构成的视觉系统可以有效监测此类异常。本文使用六轴机械臂搭载工业相机对工件表面进行成像,获取由模糊到清晰再到模糊的视频序列,以此选出最清晰的视频帧作为自动加工中有聚焦要求的距离指导,以进行聚焦异常修正,从而实现自动定位。提出一种基于多层级视频Transformer的视频分类模型多级视频Transformer(MLVT)用于高语义级别的视频表征学习,并用于选出视频序列中成像最清晰的帧。首先,提出一种具有多种感受野的token划分方法多级标记(MLT),能够将原始视频数据按2D图像补丁、3D图像补丁、帧和片段这4个层级划分成token序列,并在加入位置编码之后送入多级编码器(MLE)方法进行注意力的计算。为了缓解多层级的tokens带来的计算代价和收敛速度慢的问题,MLE引入一种逐层的可变形注意力机制逐层可变形注意力机制(LWLA),以一种可学习的方式代替全局注意力进行特征相似性的计算。最终,该方法3个版本的模型在本文的视频数据集上分别取得了87.2%、88.6%、88.9%的分类准确率,在与同参数量级的主流视频Transformer实验对比中均表现了最优的性能,有效地完成了从视频序列中选择出最清晰帧的任务,能够为下游视觉任务的性能提供强有力保障。 展开更多
关键词 视频transformer 视频分类 视觉自动定位 可变形注意力
在线阅读 下载PDF
基于双流Swinc Transformer的工业过程故障诊断 被引量:1
17
作者 徐磊 田颖 《建模与仿真》 2023年第2期777-785,共9页
传统工业过程的故障诊断使用的数据集一般是工业过程数据,即传感器数值数据,且近年来工业过程故障诊断在精度上遇到了瓶颈,而视频数据的出现为工业过程的故障诊断提供了新的方向,因此本研究提出了一种基于双流Swinc Transformer视频分... 传统工业过程的故障诊断使用的数据集一般是工业过程数据,即传感器数值数据,且近年来工业过程故障诊断在精度上遇到了瓶颈,而视频数据的出现为工业过程的故障诊断提供了新的方向,因此本研究提出了一种基于双流Swinc Transformer视频分类的工业过程故障诊断模型。在该方法中,为了捕获视频的时间特征和空间特征,本研究首先在Swin Transformer的Swin Transformer Block中加入了3D卷积模块,构建了Swinc Transformer深度学习模型。随后,为了进一步捕获视频的时间特征,使用Swinc Transformer作为主干网络,引入双流网络,将光流图像与RGB图像作为输入。最终,为了更好的将光流特征与图像特征融合,引入了交叉注意力机制(CAM),以自适应的分配光流与RGB图像特征权重。采用PRONTO基准数据集对该方法进行验证,实验结果表明,本研究中提出的双流Swinc Transformer方法相较于其他视频分类模型具有较好的分类性能,同时,相较于普通工业过程数据,视频数据在故障诊断精度方面也更具优势,其分类精度值为95.26%。 展开更多
关键词 注意力机制 视频分类 分类性能 特征权重 主干网络 光流特征 数值数据 光流图
在线阅读 下载PDF
嵌入局部聚类描述符的视频问答Transformer模型 被引量:4
18
作者 郭丹 姚沈涛 +1 位作者 王辉 汪萌 《计算机学报》 EI CAS CSCD 北大核心 2023年第4期671-689,共19页
视频问答(Video Question Answering)是典型的跨模态理解任务,其目的是根据提问的文本对视频内容进行理解并推理正确的答案,如何有效地对多模态输入进行特征表示并建立跨模态间复杂的语义关联是解决这一任务的关键难点.为了正确地推理结... 视频问答(Video Question Answering)是典型的跨模态理解任务,其目的是根据提问的文本对视频内容进行理解并推理正确的答案,如何有效地对多模态输入进行特征表示并建立跨模态间复杂的语义关联是解决这一任务的关键难点.为了正确地推理结果,模型首先必须捕获视频序列和复杂文本中包含的关键语义信息.本文提出了一种嵌入局部聚类描述符的视频问答Transformer模型,称为TVLAD-Net(Transformer Residual-less VLAD Network).TVLAD-Net主要包含一个端到端可训练的无残差局部聚合描述符模块(RVLAD,Residual-less Vec⁃tor of Local Aggregated Descriptor),以及一个统一的语义转换模块(Transformer).具体来说,RVLAD通过设置多个不同的聚类中心将视频和文本特征分别聚合为少量紧凑的局部聚类描述符;每个聚类描述符从全局角度分配及汇总了序列上权重不一的语义信息,相比于聚合前的视频帧特征或文本词特征具有更丰富的表征能力.Trans⁃former模块能够利用模态间的相互语义引导,实现多模态聚类描述符的语义交互,即采用多头注意力机制同时求解模态内和模态间的语义关联,进而避免了与所求解问题无关或者冗余的描述符语义单元的聚合.实验评估在TGIF-QA、MSVD-QA和MSRVTT-QA三个基准数据集上进行;实验结果表明本文方法能够实现先进的问答推理,在整体的评价指标上与现有方法相比有2%~5%的性能提升. 展开更多
关键词 视频问答 多模态数据 聚类描述符 自注意力变换网络 深度学习
在线阅读 下载PDF
基于S-YOLO V5和Vision Transformer的视频内容描述算法 被引量:1
19
作者 徐鹏 李铁柱 职保平 《印刷与数字媒体技术研究》 CAS 北大核心 2023年第4期212-222,共11页
视频内容描述的自动生成是结合计算机视觉和自然语言处理等相关技术提出的一种新型交叉学习任务。针对当前视频内容生成描述模型可读性不佳的问题,本研究提出一种基于S-YOLO V5和Vison Transformer(ViT)的视频内容描述算法。首先,基于... 视频内容描述的自动生成是结合计算机视觉和自然语言处理等相关技术提出的一种新型交叉学习任务。针对当前视频内容生成描述模型可读性不佳的问题,本研究提出一种基于S-YOLO V5和Vison Transformer(ViT)的视频内容描述算法。首先,基于神经网络模型KATNA提取关键帧,以最少帧数进行模型训练;其次,利用S-YOLO V5模型提取视频帧中的语义信息,并结合预训练ResNet101模型和预训练C3D模型提取视频静态视觉特征和动态视觉特征,并对两种模态特征进行融合;然后,基于ViT结构的强大长距离编码能力,构建模型编码器对融合特征进行长距离依赖编码;最后,将编码器的输出作为LSTM解码器的输入,依次输出预测词,生成最终的自然语言描述。通过在MSR-VTT数据集上进行测试,本研究模型的BLEU-4、METEOR、ROUGEL和CIDEr分别为42.9、28.8、62.4和51.4;在MSVD数据集上进行测试,本研究模型的BLEU-4、METEOR、ROUGEL和CIDEr分别为56.8、37.6、74.5以及98.5。与当前主流模型相比,本研究模型在多项评价指标上表现优异。 展开更多
关键词 视频内容描述 S-YOLO V5 Vision transformer 多头注意力
在线阅读 下载PDF
基于卷积神经网络和Transformer的视频行人再识别
20
作者 赵彦如 牛东杰 +1 位作者 孙东红 杨蕙萌 《河南理工大学学报(自然科学版)》 CAS 北大核心 2023年第6期149-156,共8页
为了解决视频行人再识别领域仅使用卷积神经网络进行行人特征提取效果不佳的问题,提出一种基于卷积神经网络和Transformer的ResTNet(ResNet and Transformer network)网络模型。ResTNet利用ResNet50网络得到局部特征,令中间层输出作为Tr... 为了解决视频行人再识别领域仅使用卷积神经网络进行行人特征提取效果不佳的问题,提出一种基于卷积神经网络和Transformer的ResTNet(ResNet and Transformer network)网络模型。ResTNet利用ResNet50网络得到局部特征,令中间层输出作为Transformer的先验知识输入。在Transformer分支中不断缩小特征图尺寸,扩大感受野,充分挖掘局部特征之间的关系,生成行人的全局特征,同时利用移位窗口方法减少模型计算量。在大规模MARS数据集上,Rank-1和mAP分别达到86.8%和80.3%,比基准分别增加了3.8%和3.3%,在2个小规模数据集上也取得了良好效果。在几大数据集上的大量实验表明,本文方法能增强行人识别的鲁棒性,有效提高行人再识别的准确率。 展开更多
关键词 视频行人再识别 卷积神经网络 transformER 局部特征 全局特征
在线阅读 下载PDF
上一页 1 2 43 下一页 到第
使用帮助 返回顶部