期刊文献+
共找到256篇文章
< 1 2 13 >
每页显示 20 50 100
CVTD: A Robust Car-Mounted Video Text Detector
1
作者 Di Zhou Jianxun Zhang +2 位作者 Chao Li Yifan Guo Bowen Li 《Computers, Materials & Continua》 SCIE EI 2024年第2期1821-1842,共22页
Text perception is crucial for understanding the semantics of outdoor scenes,making it a key requirement for building intelligent systems for driver assistance or autonomous driving.Text information in car-mounted vid... Text perception is crucial for understanding the semantics of outdoor scenes,making it a key requirement for building intelligent systems for driver assistance or autonomous driving.Text information in car-mounted videos can assist drivers in making decisions.However,Car-mounted video text images pose challenges such as complex backgrounds,small fonts,and the need for real-time detection.We proposed a robust Car-mounted Video Text Detector(CVTD).It is a lightweight text detection model based on ResNet18 for feature extraction,capable of detecting text in arbitrary shapes.Our model efficiently extracted global text positions through the Coordinate Attention Threshold Activation(CATA)and enhanced the representation capability through stacking two Feature Pyramid Enhancement Fusion Modules(FPEFM),strengthening feature representation,and integrating text local features and global position information,reinforcing the representation capability of the CVTD model.The enhanced feature maps,when acted upon by Text Activation Maps(TAM),effectively distinguished text foreground from non-text regions.Additionally,we collected and annotated a dataset containing 2200 images of Car-mounted Video Text(CVT)under various road conditions for training and evaluating our model’s performance.We further tested our model on four other challenging public natural scene text detection benchmark datasets,demonstrating its strong generalization ability and real-time detection speed.This model holds potential for practical applications in real-world scenarios. 展开更多
关键词 Deep learning text detection Car-mounted video text detector intelligent driving assistance arbitrary shape text detector
在线阅读 下载PDF
Integrating Audio-Visual Features and Text Information for Story Segmentation of News Video 被引量:1
2
作者 Liu Hua-yong, Zhou Dong-ru School of Computer,Wuhan University,Wuhan 430072, Hubei, China 《Wuhan University Journal of Natural Sciences》 CAS 2003年第04A期1070-1074,共5页
Video data are composed of multimodal information streams including visual, auditory and textual streams, so an approach of story segmentation for news video using multimodal analysis is described in this paper. The p... Video data are composed of multimodal information streams including visual, auditory and textual streams, so an approach of story segmentation for news video using multimodal analysis is described in this paper. The proposed approach detects the topic-caption frames, and integrates them with silence clips detection results, as well as shot segmentation results to locate the news story boundaries. The integration of audio-visual features and text information overcomes the weakness of the approach using only image analysis techniques. On test data with 135 400 frames, when the boundaries between news stories are detected, the accuracy rate 85.8% and the recall rate 97.5% are obtained. The experimental results show the approach is valid and robust. 展开更多
关键词 news video story segmentation audio-visual features analysis text detection
在线阅读 下载PDF
CLIP4Video-Sampling: Global Semantics-Guided Multi-Granularity Frame Sampling for Video-Text Retrieval
3
作者 Tao Zhang Yu Zhang 《Journal of Computer and Communications》 2024年第11期26-36,共11页
Video-text retrieval (VTR) is an essential task in multimodal learning, aiming to bridge the semantic gap between visual and textual data. Effective video frame sampling plays a crucial role in improving retrieval per... Video-text retrieval (VTR) is an essential task in multimodal learning, aiming to bridge the semantic gap between visual and textual data. Effective video frame sampling plays a crucial role in improving retrieval performance, as it determines the quality of the visual content representation. Traditional sampling methods, such as uniform sampling and optical flow-based techniques, often fail to capture the full semantic range of videos, leading to redundancy and inefficiencies. In this work, we propose CLIP4Video-Sampling: Global Semantics-Guided Multi-Granularity Frame Sampling for Video-Text Retrieval, a global semantics-guided multi-granularity frame sampling strategy designed to optimize both computational efficiency and retrieval accuracy. By integrating multi-scale global and local temporal sampling and leveraging the CLIP (Contrastive Language-Image Pre-training) model’s powerful feature extraction capabilities, our method significantly outperforms existing approaches in both zero-shot and fine-tuned video-text retrieval tasks on popular datasets. CLIP4Video-Sampling reduces redundancy, ensures keyframe coverage, and serves as an adaptable pre-processing module for multimodal models. 展开更多
关键词 video Sampling Multimodal Large Language Model text-video Retrieval CLIP Model
在线阅读 下载PDF
公众对人工智能生成文旅视频的关注点和态度:基于对公众评论的文本挖掘研究
4
作者 袁丹 崔翘楚 强锦卓 《科技创新发展战略研究》 2026年第1期58-70,共13页
在当前人工智能(AI)生成文旅视频已逐渐成为主流媒介形式的背景下,以自媒体视频评论文本为数据源系统探析信息受众讨论话题的相关研究较为缺乏。为剖析公众对AI生成文旅视频的关注点与情感变化特征,运用Python、八爪鱼采集器、微词云等... 在当前人工智能(AI)生成文旅视频已逐渐成为主流媒介形式的背景下,以自媒体视频评论文本为数据源系统探析信息受众讨论话题的相关研究较为缺乏。为剖析公众对AI生成文旅视频的关注点与情感变化特征,运用Python、八爪鱼采集器、微词云等工具,通过文本特征提取、词频挖掘文本特征,结合情感分析评估公众评论倾向并进行交叉分析,聚焦“广西文化和旅游厅”“贵州文旅”“洛阳旅游”“郴州文旅”4个代表性账号,通过对各账号AI生成文旅视频评论进行情感倾向统计,剖析其公众评论中消极情绪的出现原因与真实关注点。研究结果显示:公众对抖音AI生成文旅视频积极情感占总评论数量的比重为84.80%,关注点涵盖景区状况、旅游项目等8个维度;负面情绪则主要与视频质量、地点选择、基础设施及旅游体验相关联。在运用AI技术生成文旅视频时,应深刻理解当地的文化特色与历史脉络,确保宣传影片中的内容真实可靠,且彰显当地的显著文化个性;同时,应重视收集有益反馈并据此进行适当调整。 展开更多
关键词 文旅视频 AI生成视频 文本挖掘 情感特征分析 评论分析
在线阅读 下载PDF
基于跨模态注意力机制的视频-文本检索方法
5
作者 董闯 栗伟 +1 位作者 巴聪 覃文军 《东北大学学报(自然科学版)》 北大核心 2026年第1期75-81,共7页
针对当前视频-文本检索方法未能有效结合时间信息与相关性信息进行联合建模的问题,提出一种基于跨模态注意力机制的视频-文本检索方法.首先,利用预训练的大规模图像-文本模型提取文本和视频帧的嵌入表示,通过知识迁移缓解不同模态数据... 针对当前视频-文本检索方法未能有效结合时间信息与相关性信息进行联合建模的问题,提出一种基于跨模态注意力机制的视频-文本检索方法.首先,利用预训练的大规模图像-文本模型提取文本和视频帧的嵌入表示,通过知识迁移缓解不同模态数据之间的异质性问题.然后,使用联合文本-帧跨模态注意力机制模块,同时编码视频帧之间的时间信息以及视频帧与文本之间的相关性信息,捕获更具竞争力的视频特征表示.最后,利用交叉熵损失函数约束模型训练.通过对比实验验证,该方法能够有效捕获视频帧的时间信息和相关性信息,在MSR-VTT(microsoft research video to text)和LSMDC(large-scale movie description challenge)数据集上取得具有竞争力的效果. 展开更多
关键词 视频-文本检索 跨模态 注意力机制 知识迁移 视频特征表示
在线阅读 下载PDF
融合知识加工流程的程序性知识视频提示语框架研究
6
作者 陈妍帆 《信息与电脑》 2026年第4期30-33,共4页
在人工智能(Artificial Intelligence,AI)时代下,生成式人工智能(Generative Artificial Intelligence,GAI)和文生视频与教育的融合为学习者带来全新的教育体验。文章在教学短视频、教育提示语、文生视频的研究基础上,基于多媒体认知理... 在人工智能(Artificial Intelligence,AI)时代下,生成式人工智能(Generative Artificial Intelligence,GAI)和文生视频与教育的融合为学习者带来全新的教育体验。文章在教学短视频、教育提示语、文生视频的研究基础上,基于多媒体认知理论、认知工作分析等建立了知识加工流程与提示语要素双维度的程序性知识视频提示语框架,其中知识加工流程包括知识解构层、教学设计层和AI交互层,提示语要素包含学科、认知、AI三要素。该框架可帮助教育研究者实现程序性视频资源生成,为文生视频在教育领域的探索注入新活力。 展开更多
关键词 教育短视频 文生视频 程序性知识 提示语
在线阅读 下载PDF
Trends in Event Understanding and Caption Generation/Reconstruction in Dense Video:A Review
7
作者 Ekanayake Mudiyanselage Chulabhaya Lankanatha Ekanayake Abubakar Sulaiman Gezawa Yunqi Lei 《Computers, Materials & Continua》 SCIE EI 2024年第3期2941-2965,共25页
Video description generates natural language sentences that describe the subject,verb,and objects of the targeted Video.The video description has been used to help visually impaired people to understand the content.It... Video description generates natural language sentences that describe the subject,verb,and objects of the targeted Video.The video description has been used to help visually impaired people to understand the content.It is also playing an essential role in devolving human-robot interaction.The dense video description is more difficult when compared with simple Video captioning because of the object’s interactions and event overlapping.Deep learning is changing the shape of computer vision(CV)technologies and natural language processing(NLP).There are hundreds of deep learning models,datasets,and evaluations that can improve the gaps in current research.This article filled this gap by evaluating some state-of-the-art approaches,especially focusing on deep learning and machine learning for video caption in a dense environment.In this article,some classic techniques concerning the existing machine learning were reviewed.And provides deep learning models,a detail of benchmark datasets with their respective domains.This paper reviews various evaluation metrics,including Bilingual EvaluationUnderstudy(BLEU),Metric for Evaluation of Translation with Explicit Ordering(METEOR),WordMover’s Distance(WMD),and Recall-Oriented Understudy for Gisting Evaluation(ROUGE)with their pros and cons.Finally,this article listed some future directions and proposed work for context enhancement using key scene extraction with object detection in a particular frame.Especially,how to improve the context of video description by analyzing key frames detection through morphological image analysis.Additionally,the paper discusses a novel approach involving sentence reconstruction and context improvement through key frame object detection,which incorporates the fusion of large languagemodels for refining results.The ultimate results arise fromenhancing the generated text of the proposedmodel by improving the predicted text and isolating objects using various keyframes.These keyframes identify dense events occurring in the video sequence. 展开更多
关键词 video description video to text video caption sentence reconstruction
在线阅读 下载PDF
DeepSeek与OfficeAI集成在期刊出版发行及文生视频中的应用 被引量:2
8
作者 崔玉洁 包颖 +3 位作者 孙文静 文娟 周雨蕾 廖坤 《编辑学报》 北大核心 2025年第4期437-442,共6页
为探究DeepSeek与OfficeAI相结合在期刊出版与发行中的智能化应用,提高编辑工作效率并满足期刊视频化需求,采用实例分析二者在编校工作以及脚本创作中的表现和效果。结果表明:将DeepSeek嵌入OfficeAI之后,可较为高效地完成文章润色、文... 为探究DeepSeek与OfficeAI相结合在期刊出版与发行中的智能化应用,提高编辑工作效率并满足期刊视频化需求,采用实例分析二者在编校工作以及脚本创作中的表现和效果。结果表明:将DeepSeek嵌入OfficeAI之后,可较为高效地完成文章润色、文稿校对以及脚本撰写等任务;“模板选择+提示词调整+多轮修改”是当前较为实用的操作方式,在文本优化、PPT结构整理、视频脚本生成等方面均具一定的成效,能在一定程度上减轻编辑负担、提升效率。但也存在网络依赖强、视频细节呈现不理想等问题。若能进一步完善本地功能和视频生成能力,有望为出版融合发展提供更稳定的技术支撑。 展开更多
关键词 DeepSeek OfficeAI 集成 文生视频 脚本 润色
原文传递
Digit Recognition in Natural Scene Texts
9
作者 Shih-Wei Sun 《Journal of Electronic Science and Technology》 CAS CSCD 2017年第2期199-206,共8页
Digit recognition from a natural scene text in video surveillance/broadcasting applications is a challenging research task due to blurred, font variations, twisted, and non-uniform color distribution issues with a dig... Digit recognition from a natural scene text in video surveillance/broadcasting applications is a challenging research task due to blurred, font variations, twisted, and non-uniform color distribution issues with a digit in a natural scene to be recognized. In this paper, to solve the digit number recognition problem, a principal-axis based topology contour descriptor with support vector machine (SVM) classification is proposed. The contributions of this paper include: a) a local descriptor with SVM classification for digit recognition, b) higher accuracy than the state-of-the art methods, and c) low computational power (0.03 second/digit recognition), which make this method adoptable to real-time applications. 展开更多
关键词 Index Terms--Digit recognition scene text sports video video surveillance.
在线阅读 下载PDF
基于Sora文生视频深度伪造的情报风险治理机制研究 被引量:6
10
作者 张涛 张策 崔文波 《现代情报》 北大核心 2025年第12期16-26,共11页
[目的/意义]Sora文生视频的出现大幅降低了视频伪造门槛,而深度伪造视频可能会带来大量的虚假情报,严重威胁情报领域安全。有效防范化解Sora文生视频深度伪造在情报领域带来的风险迫在眉睫。[方法/过程]本研究从技术原理出发,剖析文生... [目的/意义]Sora文生视频的出现大幅降低了视频伪造门槛,而深度伪造视频可能会带来大量的虚假情报,严重威胁情报领域安全。有效防范化解Sora文生视频深度伪造在情报领域带来的风险迫在眉睫。[方法/过程]本研究从技术原理出发,剖析文生视频深度伪造不同维度上的情报风险,阐述元宇宙沙盒监管的情报风险治理逻辑,并提出了一种“风险预测与模拟—风险监控与干预—风险复盘与优化”的动态闭环治理机制。[结果/结论]通过虚拟与真实场景融合等方式,以精准、敏捷、韧性相融合的治理机制应对Sora文生视频深度伪造情报存在的风险,提升情报生态稳定性,旨在适应人工智能技术快速发展的新环境,为情报风险治理提供新思路与可行方案。 展开更多
关键词 人工智能 文生视频 深度伪造 SORA 情报风险 治理机制
在线阅读 下载PDF
超越二元对立:文生视频大模型赋能广告创意生产研究 被引量:3
11
作者 张艳 朱家琪 《湖北民族大学学报(哲学社会科学版)》 北大核心 2025年第2期108-118,共11页
文生视频大模型的发布开启了视频内容制作的新篇章。然而,新技术同时携带刻板印象、社会偏见、深度伪造、版权侵害等风险,面临将广告创意生产引入负面竞争、连带侵权责任等困境。在内容共创的过程中,人与机器的沟通磨合可能加剧机器的... 文生视频大模型的发布开启了视频内容制作的新篇章。然而,新技术同时携带刻板印象、社会偏见、深度伪造、版权侵害等风险,面临将广告创意生产引入负面竞争、连带侵权责任等困境。在内容共创的过程中,人与机器的沟通磨合可能加剧机器的拟人化和人的机器化。因此,相关行业主体需要持续优化人机协作路径,平衡技术量产与创意独特性之间的矛盾,保全人类情感与思维逻辑,既为技术发展提供支持,也承担起社会责任与人文关怀,在双向调试的协作过程中与机器共同进步。 展开更多
关键词 文生视频大模型 广告创意 技术风险 人机协作 数字治理
在线阅读 下载PDF
文生视频模型应用中的异化问题探究——以Sora为例 被引量:1
12
作者 贾向桐 耿之雍 《长白学刊》 2025年第2期54-65,共12页
以Sora为代表的文生视频模型的崛起,标志着生成式人工智能又取得了一次突破性进展,且将深度融入人类生产生活实践的各领域与全过程。人类在享受此类技术进步带来的诸多便利的同时,亦面对可能会引发的异化风险,这突出表现为人的认知异化... 以Sora为代表的文生视频模型的崛起,标志着生成式人工智能又取得了一次突破性进展,且将深度融入人类生产生活实践的各领域与全过程。人类在享受此类技术进步带来的诸多便利的同时,亦面对可能会引发的异化风险,这突出表现为人的认知异化、交往异化与类本质异化。上述异化问题的形成机理在于:人的认知自主性或被文生视频模型削弱、人的交往理性或被技术性依赖所遮蔽、人的主体性或被文生视频模型侵蚀。要应对这种异化问题,要化被动的异化防控为主动的伦理治理,可根据文生视频模型所处的具体阶段,有针对性地选择治理方式。具体而言,应基于人工智能向善原则,在设计阶段预设道德算法;基于负责任创新原则,在试验阶段开展伦理调适;基于伦理预防原则,在应用阶段进行伦理规约,引导生成式人工智能技术向善发展,为人的自由全面发展创造更加广阔的空间和条件。 展开更多
关键词 生成式人工智能 文生视频模型 SORA 异化 伦理治理
在线阅读 下载PDF
改进YOLO11n和PaddleOCR的煤矿钻场视频自动剪辑方法
13
作者 李小军 李淼 赵明炀 《计算机工程与应用》 北大核心 2025年第17期209-221,共13页
为解决煤矿井下瓦斯抽采钻场监控视频数据规模大、传统人工剪辑效率低的问题,提出一种将YOLO11n和PaddleOCR相结合的视频自动剪辑方法。使用YOLO11n检测视频图像帧中的指示牌目标,并根据检测框坐标信息进行裁剪;将裁剪的目标区域输入Pad... 为解决煤矿井下瓦斯抽采钻场监控视频数据规模大、传统人工剪辑效率低的问题,提出一种将YOLO11n和PaddleOCR相结合的视频自动剪辑方法。使用YOLO11n检测视频图像帧中的指示牌目标,并根据检测框坐标信息进行裁剪;将裁剪的目标区域输入PaddleOCR中进行文字识别;依据设定的剪辑逻辑规则对视频进行自动剪辑。为提升YOLO11n在煤矿井下复杂环境的检测精度,提出一种新的模块Faster-EMA来替代C3k2中的Bottleneck,引入FasterBlock及EMA注意力机制,增强多尺度特征表达能力并降低冗余计算;在C2PSA层后引入Triplet Attention,通过三分支结构捕获跨维交互来计算注意力权重,进一步增强特征提取效果;采用PIoUv2替代默认损失函数CIoU以解决锚框扩展问题。同时使用改进后的YOLO11n替换PaddleOCR中的文本检测算法DBNet,解决实时性不足问题。在自建的指示牌数据集上进行实验验证,结果表明,改进的YOLO11n对比原模型,mAP50提升4.8个百分点,且使用改进YOLO11n替代DBNet后视频平均处理速度提升51.0%,FPS达到37帧/s,满足实时性需求。研究实现了基于指示牌文字内容的钻场监控视频自动剪辑,为煤矿智能化发展提供了技术参考。 展开更多
关键词 煤矿钻场 视频剪辑 文本识别 YOLO11n PaddleOCR
在线阅读 下载PDF
智能时代MG动画创作生产新路径 被引量:1
14
作者 马金秀 《现代电影技术》 2025年第8期21-28,共8页
动态图形(Motion Graphics,MG)动画因其视觉冲击力强、灵活性和创造性高、制作周期短等优势,在广告、企业宣传、在线教育等领域得到了广泛应用,具有广阔的发展前景。本文概述了MG动画制作技术的发展情况,提出当前技术条件下的MG动画制... 动态图形(Motion Graphics,MG)动画因其视觉冲击力强、灵活性和创造性高、制作周期短等优势,在广告、企业宣传、在线教育等领域得到了广泛应用,具有广阔的发展前景。本文概述了MG动画制作技术的发展情况,提出当前技术条件下的MG动画制作工作流程,分析其技术特点、优势和局限性,并提出人工智能(AI)新技术运用于MG动画制作的若干技术方案,以提升MG动画制作的便捷性和高效性。本文提出在MG动画制作中增加叙事性的创新路径,以增强MG动画的故事性和趣味性,提升MG动画的吸引力。研究表明,AI技术能辅助MG动画制作,在剧本和分镜头脚本创作、角色设计和动画场景制作等环节可实现快速生成,并帮助创作者实现新途径多模态MG动画创作,对MG动画乃至其他种类的动画制作、特效制作具有流程辅助和工业链升级作用。 展开更多
关键词 MG动画 人工智能 文生图 文生视频 多模态工作流
在线阅读 下载PDF
基于联合嵌入空间的视频文本检索研究综述 被引量:1
15
作者 董闯 栗伟 +1 位作者 巴聪 覃文军 《中国图象图形学报》 北大核心 2025年第5期1220-1237,共18页
视频在人们日常生活中扮演着重要角色,面对爆炸式增长的视频数据,视频文本检索为用户提供便捷的方式检索感兴趣的信息。视频文本检索旨在利用用户输入的文本或视频查询,在视频或文本库中检索出与输入内容最相关的视频或文本。对基于联... 视频在人们日常生活中扮演着重要角色,面对爆炸式增长的视频数据,视频文本检索为用户提供便捷的方式检索感兴趣的信息。视频文本检索旨在利用用户输入的文本或视频查询,在视频或文本库中检索出与输入内容最相关的视频或文本。对基于联合嵌入空间的视频文本检索工作进行系统梳理和综述,以便认识和理解视频文本检索的发展。首先从基于联合嵌入空间的视频文本检索的4个步骤:视频特征表示提取、文本特征表示提取、视频文本特征对齐以及目标函数出发,对现有工作进行分类分析,并阐述不同类型方法的优缺点。接着从实验的角度给出视频文本检索的基准数据集和评价指标,并在多个常用数据集上比较典型模型的性能。最后讨论视频文本检索的挑战及发展方向。 展开更多
关键词 视频文本检索(VTR) 联合嵌入空间 特征提取 特征对齐 多模态
原文传递
扩散模型生成视频数据集及其检测基准研究 被引量:1
16
作者 郑天鹏 陈雁翔 +2 位作者 温心哲 李严成 王志远 《中国图象图形学报》 北大核心 2025年第4期1059-1071,共13页
目的扩散模型在视频生成领域取得了显著的成功,目前用于视频生成的扩散模型简单易用,也更容易让此类视频被随意滥用。目前,视频取证相关的数据集更多聚焦在人脸伪造领域上,缺少通用场景的描述,使生成视频检测的研究具有局限性。随着视... 目的扩散模型在视频生成领域取得了显著的成功,目前用于视频生成的扩散模型简单易用,也更容易让此类视频被随意滥用。目前,视频取证相关的数据集更多聚焦在人脸伪造领域上,缺少通用场景的描述,使生成视频检测的研究具有局限性。随着视频扩散模型的发展,视频扩散模型可以生成通用场景视频,但目前生成视频数据集类型单一,数据量少,且部分数据集不包含真实视频,不适用于生成视频检测任务。为了解决这些问题,提出了包含文本到视频(text to video,T2V)和图像到视频(image to video,I2V)两种方法的多类型、大规模的生成视频数据集与检测基准。方法使用现有的文本到视频和图像到视频等扩散视频生成方法,生成类型多样、数量规模大的生成视频数据,结合从网络获取的真实视频数据得到最终数据集。T2V视频生成中,使用15种类别的提示文本生成场景丰富的T2V视频,I2V使用下载的高质量图像数据集生成高质量的I2V视频。为了评估数据集生成视频的质量,使用目前先进的生成视频评估方法对视频的生成质量进行评估,以及使用视频检测方法进行生成视频的检测工作。结果创建了包含T2V和I2V两类生成视频的通用场景生成视频数据集,扩散模型生成视频数据集(diffusion gener⁃ated video dataset,DGVD)并结合当前先进的生成视频评估方法EvalCrafter和AIGCBench提出了包含T2V和I2V的生成视频质量估计方法。生成视频检测基准使用了4种图像级检测方法CNNdet(CNN detection)、DIRE(diffusion reconstruction error)、WDFC(wavelet domain forgery clues)和DIF(deep image fingerprint)以及6种视频级检测方法I3D(inflated 3D)、X3D(expand 3D)、C2D(convnets 2D)、Slow、SlowFast和MViT(multiscale vision Transformer),其中图像级检测方法无法对未知数据进行有效检测,泛化性较差,而视频级检测方法能够对同一骨干网络实现方法生成的视频有较好的表现,具有一定泛化能力,但仍然无法在其他网络中实现较好的指标。结论本文创建了生成类别丰富、场景多样的大规模视频数据集,该数据集和基准完善了生成视频检测任务在此类场景下数据集和基准不足的问题,有助于促进生成视频检测领域的发展。 展开更多
关键词 视频生成 扩散模型 生成视频检测 提示文本生成 视频质量评估
原文传递
城市漫游与印象生产:景观慢视频中的城市国际形象传播——以上海为例
17
作者 胡盈 许鑫 《科学教育与博物馆》 2025年第6期1-12,共12页
近几年,city walk(城市漫步)成为文旅热词。探讨城市景观慢视频在自媒体平台上的跨文化形象塑造,对研究文旅融合以及促进城市形象的国际传播具有重要意义。研究通过对海外社交媒体YouTube平台上的上海城市景观慢视频进行视频信息采集和... 近几年,city walk(城市漫步)成为文旅热词。探讨城市景观慢视频在自媒体平台上的跨文化形象塑造,对研究文旅融合以及促进城市形象的国际传播具有重要意义。研究通过对海外社交媒体YouTube平台上的上海城市景观慢视频进行视频信息采集和评论文本爬取,借助共现网络分析和情感分析,应用“认知—情感—行为”模型框架和文化刻板印象理论进行了讨论,发现:城市景观慢视频构建了积极的城市国际认知形象;用户情感以积极情绪为主,并表现出对上海城市文化进一步的了解意向、城市旅游生活意向、对真实城市形象分享的感激和文化认同的宣示等。研究进一步探索了传播效果的影响因素。文章由此从传播手段、传播内容、叙事视角三方面为文化传播、城市形象国际塑造提供了实践启示。 展开更多
关键词 城市景观慢视频 城市漫游 国际形象传播 文本挖掘 影响因素
在线阅读 下载PDF
基于视频弹幕的城市旅游地三维感知特征及其情感关联——以《航拍中国》为例
18
作者 代雅倩 张郴 +1 位作者 吴雪冰 李慧 《旅游科学》 北大核心 2025年第9期167-186,共20页
近年来,随着网络视频的风靡,越来越多人将视频作为信息获取的重要渠道,并利用弹幕实时表达对视频信息的感观和情感评价,这一点在旅游类视频中表现得尤为明显。对旅游视频的观赏在一定程度上可视为非实体化的旅游体验场景,视频弹幕是对... 近年来,随着网络视频的风靡,越来越多人将视频作为信息获取的重要渠道,并利用弹幕实时表达对视频信息的感观和情感评价,这一点在旅游类视频中表现得尤为明显。对旅游视频的观赏在一定程度上可视为非实体化的旅游体验场景,视频弹幕是对这一旅游体验的实时、动态评价,其中隐含了丰富而真实的多维游客体验信息。文章以《航拍中国》这一国内颇具影响力的旅游类视频为例,聚焦视频弹幕的实时性和动态性,利用Python挖掘弹幕信息中隐含的游客感知特征和情感特征,进而探寻两者在视频动态演进下的关联性。研究发现:基于旅游类视频弹幕的感知特征可分为直观型、延展型、参与型三个主维度,主维度下又可划分多个子维度;随着视频的时间演进和主题变化可将视频划分为不同动态区间,感知维度在不同区间存在显著特征差异及变化趋势;视频弹幕表征出明显的情感倾向,在对情感强度和趋势进行量化分析后进一步发现感知特征与情感倾向之间存在着显著关联。文章在充分考虑弹幕文本实时性和动态性的基础上,创新挖掘视频动态演进下的游客感知和情感特征及其变化趋势,为视频弹幕这一较为新颖的旅游文本信息分析提供理论框架与方法示范,也为城市旅游地如何更好满足游客体验需求,提升旅游营销价值提供科学指导。 展开更多
关键词 感知特征 情感关联 动态演进 视频弹幕 文本分析 城市旅游地
在线阅读 下载PDF
文生视频模型的伦理风险及其应对策略 被引量:1
19
作者 耿之雍 贾向桐 《自然辩证法通讯》 北大核心 2025年第6期81-88,共8页
人类早已具备“造物”的能力,文生视频模型的问世则让人借助技术进行“造世”成为可能,而实施这一行为的主体究竟是人还是作为人造物的文生视频模型,则关涉到人与技术的关系,因此可被称为数字造世的主体疑难问题。该模型的快速发展在给... 人类早已具备“造物”的能力,文生视频模型的问世则让人借助技术进行“造世”成为可能,而实施这一行为的主体究竟是人还是作为人造物的文生视频模型,则关涉到人与技术的关系,因此可被称为数字造世的主体疑难问题。该模型的快速发展在给人类生产生活带来诸多便利的同时,亦将引发一定的伦理风险。以数字造世的主体疑难问题为线索,可分析出此种伦理风险的主要表征为伦理主体异化、道德判断隐忧、道德责任归属困境。在剖析这类伦理风险成因的基础上,提出为规避文生视频模型的伦理风险,需化被动的风险防控为主动的伦理应对,具体可从预设道德算法、探索人工智能赋能社会路径、构建预见式伦理治理框架等方面入手。 展开更多
关键词 文生视频模型 生成式人工智能 伦理风险 伦理治理
原文传递
多级跨模态对齐的文本检索视频方法研究 被引量:2
20
作者 习怡萌 刘立波 +1 位作者 邓箴 刘倩 《中文信息学报》 北大核心 2025年第2期111-122,共12页
现有文本检索视频方法在进行跨模态对齐时,未充分考虑文本细节和复杂视觉语义间的信息交互,使检索性能受到影响。为解决此问题,该文提出一种多级跨模态对齐的文本检索视频方法。首先,将查询文本按词性进行分解并编码,同时对视频帧进行... 现有文本检索视频方法在进行跨模态对齐时,未充分考虑文本细节和复杂视觉语义间的信息交互,使检索性能受到影响。为解决此问题,该文提出一种多级跨模态对齐的文本检索视频方法。首先,将查询文本按词性进行分解并编码,同时对视频帧进行编码和聚类操作;然后,对查询文本和视频的全局编码进行对齐,获取二者间的全局语义关系;接着,对文本动词编码与视频子动作编码进行动作对齐,以实现动作关联;最后,将名词编码与经动作对齐筛选的关键帧进行实体对齐,进一步消弱视频中弱相关或不相关帧,提高文本与视频之间的相关性。实验证明,该方法在MSR-VTT、DiDeMo和LSMDC公共数据集上的R@1指标分别提升了2.3%、1.5%和0.9%,优于现有文本检索视频方法。 展开更多
关键词 文本检索视频 文本分解 视频关键帧提取
在线阅读 下载PDF
上一页 1 2 13 下一页 到第
使用帮助 返回顶部