期刊文献+
共找到119篇文章
< 1 2 6 >
每页显示 20 50 100
A Video Captioning Method by Semantic Topic-Guided Generation
1
作者 Ou Ye Xinli Wei +2 位作者 Zhenhua Yu Yan Fu Ying Yang 《Computers, Materials & Continua》 SCIE EI 2024年第1期1071-1093,共23页
In the video captioning methods based on an encoder-decoder,limited visual features are extracted by an encoder,and a natural sentence of the video content is generated using a decoder.However,this kind ofmethod is de... In the video captioning methods based on an encoder-decoder,limited visual features are extracted by an encoder,and a natural sentence of the video content is generated using a decoder.However,this kind ofmethod is dependent on a single video input source and few visual labels,and there is a problem with semantic alignment between video contents and generated natural sentences,which are not suitable for accurately comprehending and describing the video contents.To address this issue,this paper proposes a video captioning method by semantic topic-guided generation.First,a 3D convolutional neural network is utilized to extract the spatiotemporal features of videos during the encoding.Then,the semantic topics of video data are extracted using the visual labels retrieved from similar video data.In the decoding,a decoder is constructed by combining a novel Enhance-TopK sampling algorithm with a Generative Pre-trained Transformer-2 deep neural network,which decreases the influence of“deviation”in the semantic mapping process between videos and texts by jointly decoding a baseline and semantic topics of video contents.During this process,the designed Enhance-TopK sampling algorithm can alleviate a long-tail problem by dynamically adjusting the probability distribution of the predicted words.Finally,the experiments are conducted on two publicly used Microsoft Research Video Description andMicrosoft Research-Video to Text datasets.The experimental results demonstrate that the proposed method outperforms several state-of-art approaches.Specifically,the performance indicators Bilingual Evaluation Understudy,Metric for Evaluation of Translation with Explicit Ordering,Recall Oriented Understudy for Gisting Evaluation-longest common subsequence,and Consensus-based Image Description Evaluation of the proposed method are improved by 1.2%,0.1%,0.3%,and 2.4% on the Microsoft Research Video Description dataset,and 0.1%,1.0%,0.1%,and 2.8% on the Microsoft Research-Video to Text dataset,respectively,compared with the existing video captioning methods.As a result,the proposed method can generate video captioning that is more closely aligned with human natural language expression habits. 展开更多
关键词 video captioning encoder-decoder semantic topic jointly decoding Enhance-TopK sampling
在线阅读 下载PDF
A Sentence Retrieval Generation Network Guided Video Captioning
2
作者 Ou Ye Mimi Wang +3 位作者 Zhenhua Yu Yan Fu Shun Yi Jun Deng 《Computers, Materials & Continua》 SCIE EI 2023年第6期5675-5696,共22页
Currently,the video captioning models based on an encoder-decoder mainly rely on a single video input source.The contents of video captioning are limited since few studies employed external corpus information to guide... Currently,the video captioning models based on an encoder-decoder mainly rely on a single video input source.The contents of video captioning are limited since few studies employed external corpus information to guide the generation of video captioning,which is not conducive to the accurate descrip-tion and understanding of video content.To address this issue,a novel video captioning method guided by a sentence retrieval generation network(ED-SRG)is proposed in this paper.First,a ResNeXt network model,an efficient convolutional network for online video understanding(ECO)model,and a long short-term memory(LSTM)network model are integrated to construct an encoder-decoder,which is utilized to extract the 2D features,3D features,and object features of video data respectively.These features are decoded to generate textual sentences that conform to video content for sentence retrieval.Then,a sentence-transformer network model is employed to retrieve different sentences in an external corpus that are semantically similar to the above textual sentences.The candidate sentences are screened out through similarity measurement.Finally,a novel GPT-2 network model is constructed based on GPT-2 network structure.The model introduces a designed random selector to randomly select predicted words with a high probability in the corpus,which is used to guide and generate textual sentences that are more in line with human natural language expressions.The proposed method in this paper is compared with several existing works by experiments.The results show that the indicators BLEU-4,CIDEr,ROUGE_L,and METEOR are improved by 3.1%,1.3%,0.3%,and 1.5%on a public dataset MSVD and 1.3%,0.5%,0.2%,1.9%on a public dataset MSR-VTT respectively.It can be seen that the proposed method in this paper can generate video captioning with richer semantics than several state-of-the-art approaches. 展开更多
关键词 video captioning encoder-decoder sentence retrieval external corpus RS GPT-2 network model
在线阅读 下载PDF
Video Captioning人工智能技术在电视媒体中的应用
3
作者 梁霄 《卫星电视与宽带多媒体》 2021年第6期90-92,共3页
自二十世纪九十年代以来,我国电视媒体技术飞速发展。伴随着电视节目的种类及数量越来越多,为视频节目添加内容描述的工作日趋繁琐;另一方面,网络及自媒体的快速发展也伴随着媒体资源数量的急剧膨胀,电视节目如何快速,准确地从这些媒体... 自二十世纪九十年代以来,我国电视媒体技术飞速发展。伴随着电视节目的种类及数量越来越多,为视频节目添加内容描述的工作日趋繁琐;另一方面,网络及自媒体的快速发展也伴随着媒体资源数量的急剧膨胀,电视节目如何快速,准确地从这些媒体资源中选出需要的材料也成为当今一大问题。本文探究了在当前人工智能大环境下,Video Captioning技术如何应用于电视节目中,并提出了端到端的系统解决方案,实现了大规模媒体内容的高质量,高效率的文字描述。 展开更多
关键词 video captioning 电视节目 深度学习 人工智能
在线阅读 下载PDF
Trends in Event Understanding and Caption Generation/Reconstruction in Dense Video:A Review
4
作者 Ekanayake Mudiyanselage Chulabhaya Lankanatha Ekanayake Abubakar Sulaiman Gezawa Yunqi Lei 《Computers, Materials & Continua》 SCIE EI 2024年第3期2941-2965,共25页
Video description generates natural language sentences that describe the subject,verb,and objects of the targeted Video.The video description has been used to help visually impaired people to understand the content.It... Video description generates natural language sentences that describe the subject,verb,and objects of the targeted Video.The video description has been used to help visually impaired people to understand the content.It is also playing an essential role in devolving human-robot interaction.The dense video description is more difficult when compared with simple Video captioning because of the object’s interactions and event overlapping.Deep learning is changing the shape of computer vision(CV)technologies and natural language processing(NLP).There are hundreds of deep learning models,datasets,and evaluations that can improve the gaps in current research.This article filled this gap by evaluating some state-of-the-art approaches,especially focusing on deep learning and machine learning for video caption in a dense environment.In this article,some classic techniques concerning the existing machine learning were reviewed.And provides deep learning models,a detail of benchmark datasets with their respective domains.This paper reviews various evaluation metrics,including Bilingual EvaluationUnderstudy(BLEU),Metric for Evaluation of Translation with Explicit Ordering(METEOR),WordMover’s Distance(WMD),and Recall-Oriented Understudy for Gisting Evaluation(ROUGE)with their pros and cons.Finally,this article listed some future directions and proposed work for context enhancement using key scene extraction with object detection in a particular frame.Especially,how to improve the context of video description by analyzing key frames detection through morphological image analysis.Additionally,the paper discusses a novel approach involving sentence reconstruction and context improvement through key frame object detection,which incorporates the fusion of large languagemodels for refining results.The ultimate results arise fromenhancing the generated text of the proposedmodel by improving the predicted text and isolating objects using various keyframes.These keyframes identify dense events occurring in the video sequence. 展开更多
关键词 video description video to text video caption sentence reconstruction
在线阅读 下载PDF
MFSR: Maximum Feature Score Region-based Captions Locating in News Video Images
5
作者 Zhi-Heng Wang Chao Guo +1 位作者 Hong-Min Liu Zhan-Qiang Huo 《International Journal of Automation and computing》 EI CSCD 2018年第4期454-461,共8页
For news video images, caption recognizing is a useful and important step for content understanding. Caption locating is usually the first step of caption recognizing and this paper proposes a simple but effective cap... For news video images, caption recognizing is a useful and important step for content understanding. Caption locating is usually the first step of caption recognizing and this paper proposes a simple but effective caption locating algorithm called maximum feature score region (MFSR) based method, which mainly consists of two stages: In the first stage, up/down boundaries are attained by turning to edge map projection. Then, maximum feature score region is defined and left/right boundaries are achieved by utilizing MFSR. Experiments show that the proposed MFSR based method has superior and robust performance on news video images of different types. 展开更多
关键词 News video images captions recognizing captions locating content understanding maximum feature score region(MFSR).
原文传递
Captions-Making(字幕制作)在英语听力教学中的应用——一项实证性研究 被引量:1
6
作者 战丽莉 《现代教育技术》 CSSCI 2011年第2期82-85,共4页
目前视听材料在听力教学中的使用非常广泛,而在视听材料的使用中,字幕通常是不可或缺的。该研究表明,字幕制作有助于调动学生对听力的兴趣,发挥其学习自主性,问卷调查及访谈中得到的反馈证明了学生对此项活动的认可。另外,学生就此而完... 目前视听材料在听力教学中的使用非常广泛,而在视听材料的使用中,字幕通常是不可或缺的。该研究表明,字幕制作有助于调动学生对听力的兴趣,发挥其学习自主性,问卷调查及访谈中得到的反馈证明了学生对此项活动的认可。另外,学生就此而完成的summary也证明了字幕制作练习对英语学习有一定的促进作用。 展开更多
关键词 英语听力教学 字幕制作 视听材料
在线阅读 下载PDF
基于双Transformer结构的多模态视频段落描述生成研究
7
作者 赵宏 张立军 《计算机工程与应用》 北大核心 2025年第21期182-191,共10页
针对现有视频段落描述方法对视频中主要事件的关注度不足与多事件描述之间缺乏连贯性的问题,在现有编码器-解码器框架的基础上,提出了一种基于双Transformer结构的多模态视频段落描述模型。采用Faster-RCNN对视频中心帧目标进行细粒度... 针对现有视频段落描述方法对视频中主要事件的关注度不足与多事件描述之间缺乏连贯性的问题,在现有编码器-解码器框架的基础上,提出了一种基于双Transformer结构的多模态视频段落描述模型。采用Faster-RCNN对视频中心帧目标进行细粒度特征提取,由混合注意力结合全局视觉特征选择最具代表性的细粒度局部视觉特征,对视频中主要事件信息进行补充与增强,提高视频内容描述的准确性;提出在Transformer结构中增加存储模块与混合注意力模块,并设计了双Transformer结构,内部Transformer对事件内一致性进行建模,外部Transformer由混合注意力计算与当前事件最相关的状态建模事件间的一致性,结合内外部Transformer的输出对事件内容进行预测,提高生成描述语句的连贯性。在ActivityNet Captions数据集和YouCookII数据集上的实验结果表明,所提模型在BLEU-4、METEOR、ROUGE-L和CIDEr指标上相较于现有主流视频段落描述模型有明显提升,验证了模型的有效性。 展开更多
关键词 视频段落描述 编码器-解码器结构 细粒度局部视觉特征 双Transformer结构
在线阅读 下载PDF
结合状态空间模型和Transformer的时空增强视频字幕生成 被引量:2
8
作者 孙昊英 李树一 +1 位作者 习泽宇 毋立芳 《信号处理》 北大核心 2025年第2期279-289,共11页
视频字幕生成(Video Captioning)旨在用自然语言描述视频中的内容,在人机交互、辅助视障人士、体育视频解说等领域具有广泛的应用前景。然而视频中复杂的时空内容变化增加了视频字幕生成的难度,之前的方法通过提取时空特征、先验信息等... 视频字幕生成(Video Captioning)旨在用自然语言描述视频中的内容,在人机交互、辅助视障人士、体育视频解说等领域具有广泛的应用前景。然而视频中复杂的时空内容变化增加了视频字幕生成的难度,之前的方法通过提取时空特征、先验信息等方式提高生成字幕的质量,但在时空联合建模方面仍存在不足,可能导致视觉信息提取不充分,影响字幕生成结果。为了解决这个问题,本文提出一种新颖的时空增强的状态空间模型和Transformer(SpatioTemporal-enhanced State space model and Transformer,ST2)模型,通过引入最近流行的具有全局感受野和线性的计算复杂度的Mamba(一种状态空间模型),增强时空联合建模能力。首先,通过将Mamba与Transformer并行结合,提出空间增强的状态空间模型(State Space Model,SSM)和Transformer(Spatial enHanced State space model and Transformer module,SH-ST),克服了卷积的感受野问题并降低计算复杂度,同时增强模型提取空间信息的能力。然后为了增强时间建模,我们利用Mamba的时间扫描特性,并结合Transformer的全局建模能力,提出时间增强的SSM和Transformer(Temporal enHanced State space model and Transformer module,TH-ST)。具体地,我们对SH-ST产生的特征进行重排序,从而使Mamba以交叉扫描的方式增强重排序后特征的时间关系,最后用Transformer进一步增强时间建模能力。实验结果表明,我们ST2模型中SH-ST和TH-ST结构设计的有效性,且在广泛使用的视频字幕生成数据集MSVD和MSR-VTT上取得了具有竞争力的结果。具体的,我们的方法分别在MSVD和MSR-VTT数据集上的绝对CIDEr分数超过最先进的结果6.9%和2.6%,在MSVD上的绝对CIDEr分数超过了基线结果4.9%。 展开更多
关键词 视频字幕生成 视频理解 状态空间模型 TRANSFORMER
在线阅读 下载PDF
基于CLIP的多模态融合视频描述生成
9
作者 王亮 夏舟勇 +1 位作者 胡营营 王军 《计算机工程与设计》 北大核心 2025年第2期384-391,共8页
为解决视频描述任务中2D的CLIP预训练模型缺乏时序关系与动作检测敏感性以及信息冗余问题,提出一种基于CLIP的结合注意力掩码与运动表示增强的多模态融合视频描述模型。采用可学习令牌整理冻结的CLIP特征、运动特征与音频特征中的关键信... 为解决视频描述任务中2D的CLIP预训练模型缺乏时序关系与动作检测敏感性以及信息冗余问题,提出一种基于CLIP的结合注意力掩码与运动表示增强的多模态融合视频描述模型。采用可学习令牌整理冻结的CLIP特征、运动特征与音频特征中的关键信息,优化多模态融合;引入关键词检测任务,提高关键信息提取能力;采用基于相关度的多头注意力掩码机制解决冗余问题;利用CLIP特征的向量差变换增强运动表示。实验结果表明,该模型性能优于现有视频描述生成方法,CIDEr指标在MSR-VTT数据集上提升了2.33%,在VATEX数据集上提升了3.12%。 展开更多
关键词 预训练模型 视频描述 多模态 特征融合 运动表示 注意力掩码 关键词检测
在线阅读 下载PDF
反向聚焦细粒度多模态语义对齐的视频字幕模型
10
作者 蔡霞 罗会兰 万斯奇 《计算机应用研究》 北大核心 2025年第7期1986-1993,共8页
现有视频字幕方法常通过引入多模态信息,辅助模型从复杂多变的视觉内容中提取关键且细粒度的信息,却忽略了因不同模态间表征差异引发的语义鸿沟问题。为弥合模态间的表征差异,促进跨模态信息有效对齐和高效融合,并提升对细粒度语义信息... 现有视频字幕方法常通过引入多模态信息,辅助模型从复杂多变的视觉内容中提取关键且细粒度的信息,却忽略了因不同模态间表征差异引发的语义鸿沟问题。为弥合模态间的表征差异,促进跨模态信息有效对齐和高效融合,并提升对细粒度语义信息的提取能力,提出了一个反向聚焦细粒度多模态语义对齐视频字幕模型(RM4Cap)。该模型结合图像-文本对语料库,通过实现视频与图像的语义对齐,间接完成视频与图像-文本对中文本的跨模态对齐,并设计了反向注意力聚焦算法,削弱冗余场景信息的同时,突出不显著目标及其交互关系。实验结果表明,该模型在MSVD和MSRVTT数据集上,CIDEr和BLEU-4等指标均显著优于现有方法,有效解决了多模态信息融合中的对齐困难和冗余问题,进一步验证了其在缩小跨模态语义鸿沟方面的能力。 展开更多
关键词 视频字幕 多模态 反向注意力 语义对齐 语义鸿沟
在线阅读 下载PDF
基于视频理解实现语义聚焦的视频摘要方法
11
作者 任欣 郝矿荣 +1 位作者 唐雪嵩 宋佳乐 《东华大学学报(自然科学版)》 北大核心 2025年第6期19-25,共7页
视频摘要旨在自动化地生成视频的关键片段。主流的监督学习方法集中于视觉特征的时空关系建模,视觉特征间缺乏逻辑关联,易导致关键内容的重要性判断错误。本文提出一种语义聚焦视频摘要模型,通过理解视频内容来增强视频内容之间语义上... 视频摘要旨在自动化地生成视频的关键片段。主流的监督学习方法集中于视觉特征的时空关系建模,视觉特征间缺乏逻辑关联,易导致关键内容的重要性判断错误。本文提出一种语义聚焦视频摘要模型,通过理解视频内容来增强视频内容之间语义上的逻辑关联,从而提高准确性。该模型引入视频理解过程,生成视频内容的文本描述,并对文本序列之间的关联进行建模,这有助于模型从语义内容的角度预测视频内容的重要性。引入帧级视觉特征和镜头类别特征,采用自适应融合方法,将文本序列特征与视觉特征相结合,使模型在不丢失基本视觉信息的同时,学习视频内容之间的语义关联,从而提高视频摘要的准确性。在TVSum和SumMe数据集上进行验证,结果表明,所提模型在上述数据集上均取得了优于现有最先进方法的结果。 展开更多
关键词 视频摘要 视频理解 视频字幕 特征融合 自适应注意力机制
在线阅读 下载PDF
基于有序记忆网络的视频描述
12
作者 胡一康 杨莉 +1 位作者 陈淑琴 巫世峰 《软件导刊》 2025年第4期154-163,共10页
针对目前基于长短时记忆网络(LSTM)的视频描述模型忽视了生成的文本前后有关联逻辑问题,以及训练时的单词级交叉熵损失优化与句子级别的评价指标不能很好地匹配等问题,提出一个结合双向长短期记忆网络(BiLSTM)和有序记忆网络(ONLSTM)的... 针对目前基于长短时记忆网络(LSTM)的视频描述模型忽视了生成的文本前后有关联逻辑问题,以及训练时的单词级交叉熵损失优化与句子级别的评价指标不能很好地匹配等问题,提出一个结合双向长短期记忆网络(BiLSTM)和有序记忆网络(ONLSTM)的编码解码模型。使用BiLSTM对输入的视频特征进行编码,并利用注意力机制加大重要特征的影响,实现距离较远视频帧间信息和依赖关系的有效记录和保留。使用ONLSTM进行解码,利用ONLSTM的无监督即可学习句子语法结构优异特性,通过对高层次和低层次不同更新的分区间更新手段,实现对层次特征进行学习以生成更准确且符合句子语法的视频内容描述。在MSR-VTT基准数据集上进行训练和测试,结果表明,有序神经元的加入,实现了在不丢失精度预测的基础上,对所有关键信息进行了保留和学习。 展开更多
关键词 视频描述 有序记忆网络 双向长短期记忆网络 注意力机制 深度学习
在线阅读 下载PDF
基于视频描述增强和双流特征融合的视频异常检测方法
13
作者 郑晓 陈鹤 +1 位作者 周东傲 宫永顺 《山东大学学报(工学版)》 北大核心 2025年第5期110-119,共10页
针对现有异常检测方法在语义上下文利用和时空特征建模方面的不足,提出一种基于视频描述增强和双流特征融合的视频异常检测方法。自动化提取视频描述,利用对比语言-图像预训练(constrastive language-image pre-training,CLIP)模型进行... 针对现有异常检测方法在语义上下文利用和时空特征建模方面的不足,提出一种基于视频描述增强和双流特征融合的视频异常检测方法。自动化提取视频描述,利用对比语言-图像预训练(constrastive language-image pre-training,CLIP)模型进行编码,作为视频上下文语义特征辅助视频异常检测;引入一种时空自适应嵌入模块,分别捕捉视频中细微的时序变化和复杂的空间结构,并进行有效的时空融合;利用精心设计的跨模态对齐模块将上下文语义特征与时空视觉特征进行深度融合,更准确地捕捉异常事件的时空-语义联合特征。试验结果显示,该方法在ShanghaiTech和CUHK Avenue数据集上的检测指标曲线下面积AUC分别达到97.54%和90.54%,证明该方法在公开视频异常检测数据集上表现优异,具有强大的鲁棒性,为视频异常检测提供一种有效的解决方案。 展开更多
关键词 视频异常检测 视频描述 时空自适应嵌入 时序Transformer 空间Transformer
原文传递
基于多模态记忆知识的密集视频描述方法
14
作者 方豪杰 李永刚 +1 位作者 曹宗瑞 叶利华 《电信科学》 北大核心 2025年第9期133-151,共19页
密集视频描述旨在从未修剪的视频中定位事件,并为每个有意义的事件生成相应的描述。现有方法主要利用源视频输入来生成描述,无法捕捉到视频中的隐含知识,即视频中隐含的视觉、音频、文本等多模态记忆知识,其中多模态记忆知识可以理解为... 密集视频描述旨在从未修剪的视频中定位事件,并为每个有意义的事件生成相应的描述。现有方法主要利用源视频输入来生成描述,无法捕捉到视频中的隐含知识,即视频中隐含的视觉、音频、文本等多模态记忆知识,其中多模态记忆知识可以理解为视频内对象、动作和属性对应的有意义词集合。为解决该问题,提出了基于多模态记忆知识的密集视频描述方法,不仅利用了视频本身的多模态信息,还拓展了与视频相关的多模态记忆知识,极大地提高了密集视频描述生成的准确性。首先,该方法构建了多模态记忆知识库,设计了基于模态共享编码器的事件定位模块,实现源视频多模态特征之间的深层次融合并生成高质量事件提案。然后,模型从多模态记忆知识库中检索与候选事件提案密切相关的视觉、音频和文本记忆知识作为描述生成的先验信息。最后,该方法通过记忆增强解码器,有效地整合了多模态记忆知识和视频多模态信息,生成详细的密集视频描述。在ActivityNetCaptions和YouCook2数据集上进行了对比实验和消融实验,结果验证了该方法的有效性。 展开更多
关键词 密集视频描述 多模态记忆知识 记忆增强解码器 交叉注意力
在线阅读 下载PDF
基于细粒度视觉与音视双分支融合的情感视频字幕生成
15
作者 龚禹轩 韩婷婷 《数据采集与处理》 北大核心 2025年第5期1165-1176,共12页
情感视频字幕生成作为融合视觉语义解析与情感感知的跨模态任务,其核心挑战在于精准捕捉视觉内容中蕴含的情感线索。现有方法存在两点显著不足:一是对视频中主体(人物、物体等)与其外观特征、动作特征间的细粒度语义关联挖掘不够充分,... 情感视频字幕生成作为融合视觉语义解析与情感感知的跨模态任务,其核心挑战在于精准捕捉视觉内容中蕴含的情感线索。现有方法存在两点显著不足:一是对视频中主体(人物、物体等)与其外观特征、动作特征间的细粒度语义关联挖掘不够充分,导致视觉内容理解缺乏精细化支撑;二是忽视了音频模态在情感判别与内容语义对齐中的辅助价值,限制了跨模态信息的综合利用。针对上述问题,本文提出细粒度视觉与音视双分支融合框架。其中,细粒度视觉特征融合模块通过视觉、物体、动作特征的两两交互与深度融合,有效建模视频实体与视觉上下文间的细粒度语义关联,实现对视频内容的精细化解析;音频-视觉双分支全局融合模块则构建跨模态交互通道,将整合后的视觉特征与音频特征进行深层融合,充分发挥音频信息在情感线索传递与语义约束上的补充作用。在公开基准数据集上对本文方法进行验证,其评价指标均优于CANet、EPAN等对比方法,情感指标比EPAN方法平均提高4%,语义指标平均提升0.5,综合指标平均提升0.7。实验结果表明本文方法能有效提升情感视频字幕生成的质量。 展开更多
关键词 情感视频字幕生成 跨模态情感感知 细粒度特征融合 注意力机制 视频理解
在线阅读 下载PDF
融合提示信息的多模态视频描述生成
16
作者 刘卫光 左早雪 《中原工学院学报》 2025年第3期13-19,共7页
视频描述任务存在难以获取关键局部特征和高阶关系的问题,常用模型SwinBERT中的Video Swin Transformer会产生许多不相关的特征与噪声。针对上述问题,提出了一种多模态视频描述生成模型PromptVid,利用自适应的多层感知机模块和自适应稀... 视频描述任务存在难以获取关键局部特征和高阶关系的问题,常用模型SwinBERT中的Video Swin Transformer会产生许多不相关的特征与噪声。针对上述问题,提出了一种多模态视频描述生成模型PromptVid,利用自适应的多层感知机模块和自适应稀疏自注意力机制,设计了改进的Video Swin Transformer架构。实验结果表明,该模型能够生成准确、丰富的视频描述,具有有效性和较好的鲁棒性。 展开更多
关键词 视频描述 多模态 自适应感知机 注意力机制
在线阅读 下载PDF
移动化并可拓展的音频系统及其应用——以2025年总台春晚听障版音频制作为例
17
作者 付昱 《演艺科技》 2025年第1期17-21,共5页
基于中央广播电视总台第十二演播室音频系统的架构、信号流程、监控等功能与特点,解析2025年总台春晚听障版(竖屏)的音频制作,重点解析了信号的延时处理;并结合转播实践进一步探讨了技术应用的深度升级,以及轻量化、智能监控运维等制作... 基于中央广播电视总台第十二演播室音频系统的架构、信号流程、监控等功能与特点,解析2025年总台春晚听障版(竖屏)的音频制作,重点解析了信号的延时处理;并结合转播实践进一步探讨了技术应用的深度升级,以及轻量化、智能监控运维等制作模式的优化。 展开更多
关键词 2025年总台春晚听障版 无障碍转播 现场画面+字幕+手语表演 IP化双冗余架构 实时监测 AI同声字幕系统 语音实时转写 延时
在线阅读 下载PDF
新闻视频帧中的字幕探测 被引量:15
18
作者 谢毓湘 栾悉道 +1 位作者 吴玲达 老松杨 《计算机工程》 CAS CSCD 北大核心 2004年第20期167-168,176,共3页
提出了一种新闻视频中的字幕探测方法,该方法主要针对新闻视频中的编辑字幕(如标题字幕)进行探测,包括灰度变换、边缘检测、字幕区域探测、字幕区域合并与过滤以及二值化等步骤。该算法具有简单、高效,对阈值的设定不敏感等特点,对大多... 提出了一种新闻视频中的字幕探测方法,该方法主要针对新闻视频中的编辑字幕(如标题字幕)进行探测,包括灰度变换、边缘检测、字幕区域探测、字幕区域合并与过滤以及二值化等步骤。该算法具有简单、高效,对阈值的设定不敏感等特点,对大多数新闻视频中的字幕都具有较好的效果。 展开更多
关键词 新闻视频 字幕探测 边缘检测 视频检索
在线阅读 下载PDF
数字视频中字幕检测及提取的研究和实现 被引量:16
19
作者 蔡波 周洞汝 胡宏斌 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2003年第7期898-903,共6页
首先进行文字事件检测 ,然后进行边缘检测、阈值计算和边缘尺寸限制 ,最后依据文字像素密度范围进一步滤去非文字区域的视频字幕 提出的叠加水平和垂直方向边缘的方法 ,加强了检测到的文字的边缘 ;对边缘进行尺寸限制过滤掉了不符合文... 首先进行文字事件检测 ,然后进行边缘检测、阈值计算和边缘尺寸限制 ,最后依据文字像素密度范围进一步滤去非文字区域的视频字幕 提出的叠加水平和垂直方向边缘的方法 ,加强了检测到的文字的边缘 ;对边缘进行尺寸限制过滤掉了不符合文字尺寸的边缘 ;进一步 ,提出像素密度α的概念 ,并指出文字区域的像素密度α应在某一阈值范围之内 (αmin≤α≤αmax) 通过像素密度α滤去了非文字区域 ,应用投影法最终确定视频字幕所在区域 以上方法的结合保证了提出的算法的正确率和鲁棒性 选用不同类型的视频素材对文中算法进行实验 ,并与其他方法进行比较 。 展开更多
关键词 数字视频 字幕检测 像素密度 鲁棒性 文字提取
在线阅读 下载PDF
视觉场景描述及其效果评价 被引量:6
20
作者 马苗 王伯龙 +2 位作者 吴琦 武杰 郭敏 《软件学报》 EI CSCD 北大核心 2019年第4期867-883,共17页
作为计算机视觉?多媒体?人工智能和自然语言处理等领域的交叉性研究课题,视觉场景描述的研究内容是自动生成一个或多个语句用于描述图像或视频中呈现的视觉场景信息.视觉场景中内容的丰富性和自然语言表达的多样性使得视觉场景描述成为... 作为计算机视觉?多媒体?人工智能和自然语言处理等领域的交叉性研究课题,视觉场景描述的研究内容是自动生成一个或多个语句用于描述图像或视频中呈现的视觉场景信息.视觉场景中内容的丰富性和自然语言表达的多样性使得视觉场景描述成为一项充满挑战的任务,综述了现有视觉场景描述方法及其效果评价.首先,论述了视觉场景描述的定义?研究任务及方法分类,简要分析了视觉场景描述与多模态检索、跨模态学习、场景分类、视觉关系检测等相关技术的关系;然后分类讨论视觉场景描述的主要方法?模型及研究进展,归纳日渐增多的基准数据集;接下来,梳理客观评价视觉场景描述效果的主要指标和视觉场景描述技术面临的问题与挑战,最后讨论未来的应用前景. 展开更多
关键词 深度学习 图像描述 视频描述 基准数据集 性能评价
在线阅读 下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部