期刊文献+
共找到121篇文章
< 1 2 7 >
每页显示 20 50 100
Convolutional BiLSTM Variational Sequence-To-Sequence Based Video Captioning for Capturing Intricate Temporal Dependencies
1
作者 M.Gowri Shankar D.Surendran 《Journal of Bionic Engineering》 2025年第5期2700-2716,共17页
In the realm of video understanding,the demand for accurate and contextually rich video captioning has surged with the increasing volume and complexity of multimedia content.This research introduces an innovative solu... In the realm of video understanding,the demand for accurate and contextually rich video captioning has surged with the increasing volume and complexity of multimedia content.This research introduces an innovative solution for video captioning by integrating a Convolutional BiLSTM Convolutional Bidirectional Long Short-Term Memory(BiLSTM)constructed Variational Sequence-to-Sequence(CBVSS)approach.The proposed framework is adept at capturing intricate temporal dependencies within video sequences,enabling a more nuanced and contextually relevant description of dynamic scenes.However,optimizing its parameters for improved performance remains a crucial challenge.In response,in this research Golden Eagle Optimization(GEO)a metaheuristic optimization technique is used to fine-tune the Convolutional BiLSTM variational sequence-to-sequence model parameters.The application of GEO aims to enhancing the CBVSS ability to produce more exact and contextually rich video captions.The proposed attains an overall higher Recall of 59.75%and Precision of 63.78%for both datasets.Additionally,the proposed CBVSS method demonstrated superior performance across both datasets,achieving the highest METEOR(25.67)and CIDER(39.87)scores on the ActivityNet dataset,and further outperforming all compared models on the YouCook2 dataset with METEOR(28.67)and CIDER(43.02),highlighting its effectiveness in generating semantically rich and contextually accurate video captions. 展开更多
关键词 video captioning Convolutional BiLSTM Variational sequence-to-sequence model Golden eagleoptimization Intricate temporal dependencies
在线阅读 下载PDF
A Video Captioning Method by Semantic Topic-Guided Generation
2
作者 Ou Ye Xinli Wei +2 位作者 Zhenhua Yu Yan Fu Ying Yang 《Computers, Materials & Continua》 SCIE EI 2024年第1期1071-1093,共23页
In the video captioning methods based on an encoder-decoder,limited visual features are extracted by an encoder,and a natural sentence of the video content is generated using a decoder.However,this kind ofmethod is de... In the video captioning methods based on an encoder-decoder,limited visual features are extracted by an encoder,and a natural sentence of the video content is generated using a decoder.However,this kind ofmethod is dependent on a single video input source and few visual labels,and there is a problem with semantic alignment between video contents and generated natural sentences,which are not suitable for accurately comprehending and describing the video contents.To address this issue,this paper proposes a video captioning method by semantic topic-guided generation.First,a 3D convolutional neural network is utilized to extract the spatiotemporal features of videos during the encoding.Then,the semantic topics of video data are extracted using the visual labels retrieved from similar video data.In the decoding,a decoder is constructed by combining a novel Enhance-TopK sampling algorithm with a Generative Pre-trained Transformer-2 deep neural network,which decreases the influence of“deviation”in the semantic mapping process between videos and texts by jointly decoding a baseline and semantic topics of video contents.During this process,the designed Enhance-TopK sampling algorithm can alleviate a long-tail problem by dynamically adjusting the probability distribution of the predicted words.Finally,the experiments are conducted on two publicly used Microsoft Research Video Description andMicrosoft Research-Video to Text datasets.The experimental results demonstrate that the proposed method outperforms several state-of-art approaches.Specifically,the performance indicators Bilingual Evaluation Understudy,Metric for Evaluation of Translation with Explicit Ordering,Recall Oriented Understudy for Gisting Evaluation-longest common subsequence,and Consensus-based Image Description Evaluation of the proposed method are improved by 1.2%,0.1%,0.3%,and 2.4% on the Microsoft Research Video Description dataset,and 0.1%,1.0%,0.1%,and 2.8% on the Microsoft Research-Video to Text dataset,respectively,compared with the existing video captioning methods.As a result,the proposed method can generate video captioning that is more closely aligned with human natural language expression habits. 展开更多
关键词 video captioning encoder-decoder semantic topic jointly decoding Enhance-TopK sampling
在线阅读 下载PDF
A Sentence Retrieval Generation Network Guided Video Captioning
3
作者 Ou Ye Mimi Wang +3 位作者 Zhenhua Yu Yan Fu Shun Yi Jun Deng 《Computers, Materials & Continua》 SCIE EI 2023年第6期5675-5696,共22页
Currently,the video captioning models based on an encoder-decoder mainly rely on a single video input source.The contents of video captioning are limited since few studies employed external corpus information to guide... Currently,the video captioning models based on an encoder-decoder mainly rely on a single video input source.The contents of video captioning are limited since few studies employed external corpus information to guide the generation of video captioning,which is not conducive to the accurate descrip-tion and understanding of video content.To address this issue,a novel video captioning method guided by a sentence retrieval generation network(ED-SRG)is proposed in this paper.First,a ResNeXt network model,an efficient convolutional network for online video understanding(ECO)model,and a long short-term memory(LSTM)network model are integrated to construct an encoder-decoder,which is utilized to extract the 2D features,3D features,and object features of video data respectively.These features are decoded to generate textual sentences that conform to video content for sentence retrieval.Then,a sentence-transformer network model is employed to retrieve different sentences in an external corpus that are semantically similar to the above textual sentences.The candidate sentences are screened out through similarity measurement.Finally,a novel GPT-2 network model is constructed based on GPT-2 network structure.The model introduces a designed random selector to randomly select predicted words with a high probability in the corpus,which is used to guide and generate textual sentences that are more in line with human natural language expressions.The proposed method in this paper is compared with several existing works by experiments.The results show that the indicators BLEU-4,CIDEr,ROUGE_L,and METEOR are improved by 3.1%,1.3%,0.3%,and 1.5%on a public dataset MSVD and 1.3%,0.5%,0.2%,1.9%on a public dataset MSR-VTT respectively.It can be seen that the proposed method in this paper can generate video captioning with richer semantics than several state-of-the-art approaches. 展开更多
关键词 video captioning encoder-decoder sentence retrieval external corpus RS GPT-2 network model
在线阅读 下载PDF
Video Captioning人工智能技术在电视媒体中的应用
4
作者 梁霄 《卫星电视与宽带多媒体》 2021年第6期90-92,共3页
自二十世纪九十年代以来,我国电视媒体技术飞速发展。伴随着电视节目的种类及数量越来越多,为视频节目添加内容描述的工作日趋繁琐;另一方面,网络及自媒体的快速发展也伴随着媒体资源数量的急剧膨胀,电视节目如何快速,准确地从这些媒体... 自二十世纪九十年代以来,我国电视媒体技术飞速发展。伴随着电视节目的种类及数量越来越多,为视频节目添加内容描述的工作日趋繁琐;另一方面,网络及自媒体的快速发展也伴随着媒体资源数量的急剧膨胀,电视节目如何快速,准确地从这些媒体资源中选出需要的材料也成为当今一大问题。本文探究了在当前人工智能大环境下,Video Captioning技术如何应用于电视节目中,并提出了端到端的系统解决方案,实现了大规模媒体内容的高质量,高效率的文字描述。 展开更多
关键词 video captioning 电视节目 深度学习 人工智能
在线阅读 下载PDF
TimeJudge:empowering video-LLMs as zero-shot judges for temporal consistency in video captions
5
作者 Yangliu HU Zikai SONG +2 位作者 Junqing YU Yiping Phoebe CHEN Wei YANG 《Frontiers of Information Technology & Electronic Engineering》 2025年第11期2204-2214,共11页
Video large language models(video-LLMs)have demonstrated impressive capabilities in multimodal understanding,but their potential as zero-shot evaluators for temporal consistency in video captions remains underexplored... Video large language models(video-LLMs)have demonstrated impressive capabilities in multimodal understanding,but their potential as zero-shot evaluators for temporal consistency in video captions remains underexplored.Existing methods notably underperform in detecting critical temporal errors,such as missing,hallucinated,or misordered actions.To address this gap,we introduce two key contributions.(1)TimeJudge:a novel zero-shot framework that recasts temporal error detection as answering calibrated binary question pairs.It incorporates modality-sensitive confidence calibration and uses consistency-weighted voting for robust prediction aggregation.(2)TEDBench:a rigorously constructed benchmark featuring videos across four distinct complexity levels,specifically designed with fine-grained temporal error annotations to evaluate video-LLM performance on this task.Through a comprehensive evaluation of multiple state-of-the-art video-LLMs on TEDBench,we demonstrate that TimeJudge consistently yields substantial gains in terms of recall and F1-score without requiring any task-specific fine-tuning.Our approach provides a generalizable,scalable,and training-free solution for enhancing the temporal error detection capabilities of video-LLMs. 展开更多
关键词 video large language model(video-LLM) Multimodal large language model(MLLM) MLLM-as-a-Judge video caption BENCHMARK
原文传递
Trends in Event Understanding and Caption Generation/Reconstruction in Dense Video:A Review
6
作者 Ekanayake Mudiyanselage Chulabhaya Lankanatha Ekanayake Abubakar Sulaiman Gezawa Yunqi Lei 《Computers, Materials & Continua》 SCIE EI 2024年第3期2941-2965,共25页
Video description generates natural language sentences that describe the subject,verb,and objects of the targeted Video.The video description has been used to help visually impaired people to understand the content.It... Video description generates natural language sentences that describe the subject,verb,and objects of the targeted Video.The video description has been used to help visually impaired people to understand the content.It is also playing an essential role in devolving human-robot interaction.The dense video description is more difficult when compared with simple Video captioning because of the object’s interactions and event overlapping.Deep learning is changing the shape of computer vision(CV)technologies and natural language processing(NLP).There are hundreds of deep learning models,datasets,and evaluations that can improve the gaps in current research.This article filled this gap by evaluating some state-of-the-art approaches,especially focusing on deep learning and machine learning for video caption in a dense environment.In this article,some classic techniques concerning the existing machine learning were reviewed.And provides deep learning models,a detail of benchmark datasets with their respective domains.This paper reviews various evaluation metrics,including Bilingual EvaluationUnderstudy(BLEU),Metric for Evaluation of Translation with Explicit Ordering(METEOR),WordMover’s Distance(WMD),and Recall-Oriented Understudy for Gisting Evaluation(ROUGE)with their pros and cons.Finally,this article listed some future directions and proposed work for context enhancement using key scene extraction with object detection in a particular frame.Especially,how to improve the context of video description by analyzing key frames detection through morphological image analysis.Additionally,the paper discusses a novel approach involving sentence reconstruction and context improvement through key frame object detection,which incorporates the fusion of large languagemodels for refining results.The ultimate results arise fromenhancing the generated text of the proposedmodel by improving the predicted text and isolating objects using various keyframes.These keyframes identify dense events occurring in the video sequence. 展开更多
关键词 video description video to text video caption sentence reconstruction
在线阅读 下载PDF
MFSR: Maximum Feature Score Region-based Captions Locating in News Video Images
7
作者 Zhi-Heng Wang Chao Guo +1 位作者 Hong-Min Liu Zhan-Qiang Huo 《International Journal of Automation and computing》 EI CSCD 2018年第4期454-461,共8页
For news video images, caption recognizing is a useful and important step for content understanding. Caption locating is usually the first step of caption recognizing and this paper proposes a simple but effective cap... For news video images, caption recognizing is a useful and important step for content understanding. Caption locating is usually the first step of caption recognizing and this paper proposes a simple but effective caption locating algorithm called maximum feature score region (MFSR) based method, which mainly consists of two stages: In the first stage, up/down boundaries are attained by turning to edge map projection. Then, maximum feature score region is defined and left/right boundaries are achieved by utilizing MFSR. Experiments show that the proposed MFSR based method has superior and robust performance on news video images of different types. 展开更多
关键词 News video images captions recognizing captions locating content understanding maximum feature score region(MFSR).
原文传递
Captions-Making(字幕制作)在英语听力教学中的应用——一项实证性研究 被引量:1
8
作者 战丽莉 《现代教育技术》 CSSCI 2011年第2期82-85,共4页
目前视听材料在听力教学中的使用非常广泛,而在视听材料的使用中,字幕通常是不可或缺的。该研究表明,字幕制作有助于调动学生对听力的兴趣,发挥其学习自主性,问卷调查及访谈中得到的反馈证明了学生对此项活动的认可。另外,学生就此而完... 目前视听材料在听力教学中的使用非常广泛,而在视听材料的使用中,字幕通常是不可或缺的。该研究表明,字幕制作有助于调动学生对听力的兴趣,发挥其学习自主性,问卷调查及访谈中得到的反馈证明了学生对此项活动的认可。另外,学生就此而完成的summary也证明了字幕制作练习对英语学习有一定的促进作用。 展开更多
关键词 英语听力教学 字幕制作 视听材料
在线阅读 下载PDF
基于多模态大模型的井下视频语义提取与描述生成技术
9
作者 付翔 王主丰 +4 位作者 秦一凡 闫明 张智星 王然风 贾一帆 《煤炭科学技术》 北大核心 2025年第11期216-228,共13页
随着煤矿智能化建设的推进,井下作业视频数据量突增,目前视频信息处理与保存方法大多采用单场景视频分析和视频原格式存储技术,存在视频场景模型单一导致信息描述不全面、存储空间受限导致信息保存时间短等应用难题。针对井下视频全信... 随着煤矿智能化建设的推进,井下作业视频数据量突增,目前视频信息处理与保存方法大多采用单场景视频分析和视频原格式存储技术,存在视频场景模型单一导致信息描述不全面、存储空间受限导致信息保存时间短等应用难题。针对井下视频全信息、低成本语义分析的实际需求,提出一种基于工况复杂度指标赋值的关键帧自适应提取方法与多模态语义建模的煤矿井下视频描述生成方法,实现对井下视频的最优计算解析与自然语言描述。首先根据井下工况特点设计复杂度指标赋值方法,提出基于工况复杂度的视频动态抽帧频度计算方法,实现最低计算成本的视频关键信息捕获;然后设计了基于MLLMs的井下视频描述生成技术框架,开发了关键帧自适应提取、大模型视觉语义特征提取、Prompt设计与文本编码、多模态融合与文本解码等关键技术模块,实现高效低成本化的井下视频全场景信息自然语言描述生成;最后将本文视频描述方法以及抽帧策略与传统方法进行了对比试验,试验结果表明:本文方法在确保高达95.4%的关键信息捕获率的同时,将计算资源消耗降低至传统密集抽帧方法的1.5%,为井下视频全信息、低成本语义分析提供了可行的技术路径。 展开更多
关键词 井下视频描述 工况复杂度评估 自适应关键帧提取 多模态大模型 语义融合
在线阅读 下载PDF
基于双Transformer结构的多模态视频段落描述生成研究
10
作者 赵宏 张立军 《计算机工程与应用》 北大核心 2025年第21期182-191,共10页
针对现有视频段落描述方法对视频中主要事件的关注度不足与多事件描述之间缺乏连贯性的问题,在现有编码器-解码器框架的基础上,提出了一种基于双Transformer结构的多模态视频段落描述模型。采用Faster-RCNN对视频中心帧目标进行细粒度... 针对现有视频段落描述方法对视频中主要事件的关注度不足与多事件描述之间缺乏连贯性的问题,在现有编码器-解码器框架的基础上,提出了一种基于双Transformer结构的多模态视频段落描述模型。采用Faster-RCNN对视频中心帧目标进行细粒度特征提取,由混合注意力结合全局视觉特征选择最具代表性的细粒度局部视觉特征,对视频中主要事件信息进行补充与增强,提高视频内容描述的准确性;提出在Transformer结构中增加存储模块与混合注意力模块,并设计了双Transformer结构,内部Transformer对事件内一致性进行建模,外部Transformer由混合注意力计算与当前事件最相关的状态建模事件间的一致性,结合内外部Transformer的输出对事件内容进行预测,提高生成描述语句的连贯性。在ActivityNet Captions数据集和YouCookII数据集上的实验结果表明,所提模型在BLEU-4、METEOR、ROUGE-L和CIDEr指标上相较于现有主流视频段落描述模型有明显提升,验证了模型的有效性。 展开更多
关键词 视频段落描述 编码器-解码器结构 细粒度局部视觉特征 双Transformer结构
在线阅读 下载PDF
结合状态空间模型和Transformer的时空增强视频字幕生成 被引量:3
11
作者 孙昊英 李树一 +1 位作者 习泽宇 毋立芳 《信号处理》 北大核心 2025年第2期279-289,共11页
视频字幕生成(Video Captioning)旨在用自然语言描述视频中的内容,在人机交互、辅助视障人士、体育视频解说等领域具有广泛的应用前景。然而视频中复杂的时空内容变化增加了视频字幕生成的难度,之前的方法通过提取时空特征、先验信息等... 视频字幕生成(Video Captioning)旨在用自然语言描述视频中的内容,在人机交互、辅助视障人士、体育视频解说等领域具有广泛的应用前景。然而视频中复杂的时空内容变化增加了视频字幕生成的难度,之前的方法通过提取时空特征、先验信息等方式提高生成字幕的质量,但在时空联合建模方面仍存在不足,可能导致视觉信息提取不充分,影响字幕生成结果。为了解决这个问题,本文提出一种新颖的时空增强的状态空间模型和Transformer(SpatioTemporal-enhanced State space model and Transformer,ST2)模型,通过引入最近流行的具有全局感受野和线性的计算复杂度的Mamba(一种状态空间模型),增强时空联合建模能力。首先,通过将Mamba与Transformer并行结合,提出空间增强的状态空间模型(State Space Model,SSM)和Transformer(Spatial enHanced State space model and Transformer module,SH-ST),克服了卷积的感受野问题并降低计算复杂度,同时增强模型提取空间信息的能力。然后为了增强时间建模,我们利用Mamba的时间扫描特性,并结合Transformer的全局建模能力,提出时间增强的SSM和Transformer(Temporal enHanced State space model and Transformer module,TH-ST)。具体地,我们对SH-ST产生的特征进行重排序,从而使Mamba以交叉扫描的方式增强重排序后特征的时间关系,最后用Transformer进一步增强时间建模能力。实验结果表明,我们ST2模型中SH-ST和TH-ST结构设计的有效性,且在广泛使用的视频字幕生成数据集MSVD和MSR-VTT上取得了具有竞争力的结果。具体的,我们的方法分别在MSVD和MSR-VTT数据集上的绝对CIDEr分数超过最先进的结果6.9%和2.6%,在MSVD上的绝对CIDEr分数超过了基线结果4.9%。 展开更多
关键词 视频字幕生成 视频理解 状态空间模型 TRANSFORMER
在线阅读 下载PDF
基于CLIP的多模态融合视频描述生成
12
作者 王亮 夏舟勇 +1 位作者 胡营营 王军 《计算机工程与设计》 北大核心 2025年第2期384-391,共8页
为解决视频描述任务中2D的CLIP预训练模型缺乏时序关系与动作检测敏感性以及信息冗余问题,提出一种基于CLIP的结合注意力掩码与运动表示增强的多模态融合视频描述模型。采用可学习令牌整理冻结的CLIP特征、运动特征与音频特征中的关键信... 为解决视频描述任务中2D的CLIP预训练模型缺乏时序关系与动作检测敏感性以及信息冗余问题,提出一种基于CLIP的结合注意力掩码与运动表示增强的多模态融合视频描述模型。采用可学习令牌整理冻结的CLIP特征、运动特征与音频特征中的关键信息,优化多模态融合;引入关键词检测任务,提高关键信息提取能力;采用基于相关度的多头注意力掩码机制解决冗余问题;利用CLIP特征的向量差变换增强运动表示。实验结果表明,该模型性能优于现有视频描述生成方法,CIDEr指标在MSR-VTT数据集上提升了2.33%,在VATEX数据集上提升了3.12%。 展开更多
关键词 预训练模型 视频描述 多模态 特征融合 运动表示 注意力掩码 关键词检测
在线阅读 下载PDF
反向聚焦细粒度多模态语义对齐的视频字幕模型
13
作者 蔡霞 罗会兰 万斯奇 《计算机应用研究》 北大核心 2025年第7期1986-1993,共8页
现有视频字幕方法常通过引入多模态信息,辅助模型从复杂多变的视觉内容中提取关键且细粒度的信息,却忽略了因不同模态间表征差异引发的语义鸿沟问题。为弥合模态间的表征差异,促进跨模态信息有效对齐和高效融合,并提升对细粒度语义信息... 现有视频字幕方法常通过引入多模态信息,辅助模型从复杂多变的视觉内容中提取关键且细粒度的信息,却忽略了因不同模态间表征差异引发的语义鸿沟问题。为弥合模态间的表征差异,促进跨模态信息有效对齐和高效融合,并提升对细粒度语义信息的提取能力,提出了一个反向聚焦细粒度多模态语义对齐视频字幕模型(RM4Cap)。该模型结合图像-文本对语料库,通过实现视频与图像的语义对齐,间接完成视频与图像-文本对中文本的跨模态对齐,并设计了反向注意力聚焦算法,削弱冗余场景信息的同时,突出不显著目标及其交互关系。实验结果表明,该模型在MSVD和MSRVTT数据集上,CIDEr和BLEU-4等指标均显著优于现有方法,有效解决了多模态信息融合中的对齐困难和冗余问题,进一步验证了其在缩小跨模态语义鸿沟方面的能力。 展开更多
关键词 视频字幕 多模态 反向注意力 语义对齐 语义鸿沟
在线阅读 下载PDF
基于视频理解实现语义聚焦的视频摘要方法
14
作者 任欣 郝矿荣 +1 位作者 唐雪嵩 宋佳乐 《东华大学学报(自然科学版)》 北大核心 2025年第6期19-25,共7页
视频摘要旨在自动化地生成视频的关键片段。主流的监督学习方法集中于视觉特征的时空关系建模,视觉特征间缺乏逻辑关联,易导致关键内容的重要性判断错误。本文提出一种语义聚焦视频摘要模型,通过理解视频内容来增强视频内容之间语义上... 视频摘要旨在自动化地生成视频的关键片段。主流的监督学习方法集中于视觉特征的时空关系建模,视觉特征间缺乏逻辑关联,易导致关键内容的重要性判断错误。本文提出一种语义聚焦视频摘要模型,通过理解视频内容来增强视频内容之间语义上的逻辑关联,从而提高准确性。该模型引入视频理解过程,生成视频内容的文本描述,并对文本序列之间的关联进行建模,这有助于模型从语义内容的角度预测视频内容的重要性。引入帧级视觉特征和镜头类别特征,采用自适应融合方法,将文本序列特征与视觉特征相结合,使模型在不丢失基本视觉信息的同时,学习视频内容之间的语义关联,从而提高视频摘要的准确性。在TVSum和SumMe数据集上进行验证,结果表明,所提模型在上述数据集上均取得了优于现有最先进方法的结果。 展开更多
关键词 视频摘要 视频理解 视频字幕 特征融合 自适应注意力机制
在线阅读 下载PDF
基于有序记忆网络的视频描述
15
作者 胡一康 杨莉 +1 位作者 陈淑琴 巫世峰 《软件导刊》 2025年第4期154-163,共10页
针对目前基于长短时记忆网络(LSTM)的视频描述模型忽视了生成的文本前后有关联逻辑问题,以及训练时的单词级交叉熵损失优化与句子级别的评价指标不能很好地匹配等问题,提出一个结合双向长短期记忆网络(BiLSTM)和有序记忆网络(ONLSTM)的... 针对目前基于长短时记忆网络(LSTM)的视频描述模型忽视了生成的文本前后有关联逻辑问题,以及训练时的单词级交叉熵损失优化与句子级别的评价指标不能很好地匹配等问题,提出一个结合双向长短期记忆网络(BiLSTM)和有序记忆网络(ONLSTM)的编码解码模型。使用BiLSTM对输入的视频特征进行编码,并利用注意力机制加大重要特征的影响,实现距离较远视频帧间信息和依赖关系的有效记录和保留。使用ONLSTM进行解码,利用ONLSTM的无监督即可学习句子语法结构优异特性,通过对高层次和低层次不同更新的分区间更新手段,实现对层次特征进行学习以生成更准确且符合句子语法的视频内容描述。在MSR-VTT基准数据集上进行训练和测试,结果表明,有序神经元的加入,实现了在不丢失精度预测的基础上,对所有关键信息进行了保留和学习。 展开更多
关键词 视频描述 有序记忆网络 双向长短期记忆网络 注意力机制 深度学习
在线阅读 下载PDF
基于视频描述增强和双流特征融合的视频异常检测方法
16
作者 郑晓 陈鹤 +1 位作者 周东傲 宫永顺 《山东大学学报(工学版)》 北大核心 2025年第5期110-119,共10页
针对现有异常检测方法在语义上下文利用和时空特征建模方面的不足,提出一种基于视频描述增强和双流特征融合的视频异常检测方法。自动化提取视频描述,利用对比语言-图像预训练(constrastive language-image pre-training,CLIP)模型进行... 针对现有异常检测方法在语义上下文利用和时空特征建模方面的不足,提出一种基于视频描述增强和双流特征融合的视频异常检测方法。自动化提取视频描述,利用对比语言-图像预训练(constrastive language-image pre-training,CLIP)模型进行编码,作为视频上下文语义特征辅助视频异常检测;引入一种时空自适应嵌入模块,分别捕捉视频中细微的时序变化和复杂的空间结构,并进行有效的时空融合;利用精心设计的跨模态对齐模块将上下文语义特征与时空视觉特征进行深度融合,更准确地捕捉异常事件的时空-语义联合特征。试验结果显示,该方法在ShanghaiTech和CUHK Avenue数据集上的检测指标曲线下面积AUC分别达到97.54%和90.54%,证明该方法在公开视频异常检测数据集上表现优异,具有强大的鲁棒性,为视频异常检测提供一种有效的解决方案。 展开更多
关键词 视频异常检测 视频描述 时空自适应嵌入 时序Transformer 空间Transformer
原文传递
基于多模态记忆知识的密集视频描述方法
17
作者 方豪杰 李永刚 +1 位作者 曹宗瑞 叶利华 《电信科学》 北大核心 2025年第9期133-151,共19页
密集视频描述旨在从未修剪的视频中定位事件,并为每个有意义的事件生成相应的描述。现有方法主要利用源视频输入来生成描述,无法捕捉到视频中的隐含知识,即视频中隐含的视觉、音频、文本等多模态记忆知识,其中多模态记忆知识可以理解为... 密集视频描述旨在从未修剪的视频中定位事件,并为每个有意义的事件生成相应的描述。现有方法主要利用源视频输入来生成描述,无法捕捉到视频中的隐含知识,即视频中隐含的视觉、音频、文本等多模态记忆知识,其中多模态记忆知识可以理解为视频内对象、动作和属性对应的有意义词集合。为解决该问题,提出了基于多模态记忆知识的密集视频描述方法,不仅利用了视频本身的多模态信息,还拓展了与视频相关的多模态记忆知识,极大地提高了密集视频描述生成的准确性。首先,该方法构建了多模态记忆知识库,设计了基于模态共享编码器的事件定位模块,实现源视频多模态特征之间的深层次融合并生成高质量事件提案。然后,模型从多模态记忆知识库中检索与候选事件提案密切相关的视觉、音频和文本记忆知识作为描述生成的先验信息。最后,该方法通过记忆增强解码器,有效地整合了多模态记忆知识和视频多模态信息,生成详细的密集视频描述。在ActivityNetCaptions和YouCook2数据集上进行了对比实验和消融实验,结果验证了该方法的有效性。 展开更多
关键词 密集视频描述 多模态记忆知识 记忆增强解码器 交叉注意力
在线阅读 下载PDF
基于细粒度视觉与音视双分支融合的情感视频字幕生成
18
作者 龚禹轩 韩婷婷 《数据采集与处理》 北大核心 2025年第5期1165-1176,共12页
情感视频字幕生成作为融合视觉语义解析与情感感知的跨模态任务,其核心挑战在于精准捕捉视觉内容中蕴含的情感线索。现有方法存在两点显著不足:一是对视频中主体(人物、物体等)与其外观特征、动作特征间的细粒度语义关联挖掘不够充分,... 情感视频字幕生成作为融合视觉语义解析与情感感知的跨模态任务,其核心挑战在于精准捕捉视觉内容中蕴含的情感线索。现有方法存在两点显著不足:一是对视频中主体(人物、物体等)与其外观特征、动作特征间的细粒度语义关联挖掘不够充分,导致视觉内容理解缺乏精细化支撑;二是忽视了音频模态在情感判别与内容语义对齐中的辅助价值,限制了跨模态信息的综合利用。针对上述问题,本文提出细粒度视觉与音视双分支融合框架。其中,细粒度视觉特征融合模块通过视觉、物体、动作特征的两两交互与深度融合,有效建模视频实体与视觉上下文间的细粒度语义关联,实现对视频内容的精细化解析;音频-视觉双分支全局融合模块则构建跨模态交互通道,将整合后的视觉特征与音频特征进行深层融合,充分发挥音频信息在情感线索传递与语义约束上的补充作用。在公开基准数据集上对本文方法进行验证,其评价指标均优于CANet、EPAN等对比方法,情感指标比EPAN方法平均提高4%,语义指标平均提升0.5,综合指标平均提升0.7。实验结果表明本文方法能有效提升情感视频字幕生成的质量。 展开更多
关键词 情感视频字幕生成 跨模态情感感知 细粒度特征融合 注意力机制 视频理解
在线阅读 下载PDF
融合提示信息的多模态视频描述生成
19
作者 刘卫光 左早雪 《中原工学院学报》 2025年第3期13-19,共7页
视频描述任务存在难以获取关键局部特征和高阶关系的问题,常用模型SwinBERT中的Video Swin Transformer会产生许多不相关的特征与噪声。针对上述问题,提出了一种多模态视频描述生成模型PromptVid,利用自适应的多层感知机模块和自适应稀... 视频描述任务存在难以获取关键局部特征和高阶关系的问题,常用模型SwinBERT中的Video Swin Transformer会产生许多不相关的特征与噪声。针对上述问题,提出了一种多模态视频描述生成模型PromptVid,利用自适应的多层感知机模块和自适应稀疏自注意力机制,设计了改进的Video Swin Transformer架构。实验结果表明,该模型能够生成准确、丰富的视频描述,具有有效性和较好的鲁棒性。 展开更多
关键词 视频描述 多模态 自适应感知机 注意力机制
在线阅读 下载PDF
移动化并可拓展的音频系统及其应用——以2025年总台春晚听障版音频制作为例
20
作者 付昱 《演艺科技》 2025年第1期17-21,共5页
基于中央广播电视总台第十二演播室音频系统的架构、信号流程、监控等功能与特点,解析2025年总台春晚听障版(竖屏)的音频制作,重点解析了信号的延时处理;并结合转播实践进一步探讨了技术应用的深度升级,以及轻量化、智能监控运维等制作... 基于中央广播电视总台第十二演播室音频系统的架构、信号流程、监控等功能与特点,解析2025年总台春晚听障版(竖屏)的音频制作,重点解析了信号的延时处理;并结合转播实践进一步探讨了技术应用的深度升级,以及轻量化、智能监控运维等制作模式的优化。 展开更多
关键词 2025年总台春晚听障版 无障碍转播 现场画面+字幕+手语表演 IP化双冗余架构 实时监测 AI同声字幕系统 语音实时转写 延时
在线阅读 下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部