期刊文献+
共找到245篇文章
< 1 2 13 >
每页显示 20 50 100
DeepSeek与OfficeAI集成在期刊出版发行及文生视频中的应用
1
作者 崔玉洁 包颖 +3 位作者 孙文静 文娟 周雨蕾 廖坤 《编辑学报》 北大核心 2025年第4期437-442,共6页
为探究DeepSeek与OfficeAI相结合在期刊出版与发行中的智能化应用,提高编辑工作效率并满足期刊视频化需求,采用实例分析二者在编校工作以及脚本创作中的表现和效果。结果表明:将DeepSeek嵌入OfficeAI之后,可较为高效地完成文章润色、文... 为探究DeepSeek与OfficeAI相结合在期刊出版与发行中的智能化应用,提高编辑工作效率并满足期刊视频化需求,采用实例分析二者在编校工作以及脚本创作中的表现和效果。结果表明:将DeepSeek嵌入OfficeAI之后,可较为高效地完成文章润色、文稿校对以及脚本撰写等任务;“模板选择+提示词调整+多轮修改”是当前较为实用的操作方式,在文本优化、PPT结构整理、视频脚本生成等方面均具一定的成效,能在一定程度上减轻编辑负担、提升效率。但也存在网络依赖强、视频细节呈现不理想等问题。若能进一步完善本地功能和视频生成能力,有望为出版融合发展提供更稳定的技术支撑。 展开更多
关键词 DeepSeek OfficeAI 集成 文生视频 脚本 润色
原文传递
超越二元对立:文生视频大模型赋能广告创意生产研究
2
作者 张艳 朱家琪 《湖北民族大学学报(哲学社会科学版)》 北大核心 2025年第2期108-118,共11页
文生视频大模型的发布开启了视频内容制作的新篇章。然而,新技术同时携带刻板印象、社会偏见、深度伪造、版权侵害等风险,面临将广告创意生产引入负面竞争、连带侵权责任等困境。在内容共创的过程中,人与机器的沟通磨合可能加剧机器的... 文生视频大模型的发布开启了视频内容制作的新篇章。然而,新技术同时携带刻板印象、社会偏见、深度伪造、版权侵害等风险,面临将广告创意生产引入负面竞争、连带侵权责任等困境。在内容共创的过程中,人与机器的沟通磨合可能加剧机器的拟人化和人的机器化。因此,相关行业主体需要持续优化人机协作路径,平衡技术量产与创意独特性之间的矛盾,保全人类情感与思维逻辑,既为技术发展提供支持,也承担起社会责任与人文关怀,在双向调试的协作过程中与机器共同进步。 展开更多
关键词 文生视频大模型 广告创意 技术风险 人机协作 数字治理
在线阅读 下载PDF
改进YOLO11n和PaddleOCR的煤矿钻场视频自动剪辑方法
3
作者 李小军 李淼 赵明炀 《计算机工程与应用》 北大核心 2025年第17期209-221,共13页
为解决煤矿井下瓦斯抽采钻场监控视频数据规模大、传统人工剪辑效率低的问题,提出一种将YOLO11n和PaddleOCR相结合的视频自动剪辑方法。使用YOLO11n检测视频图像帧中的指示牌目标,并根据检测框坐标信息进行裁剪;将裁剪的目标区域输入Pad... 为解决煤矿井下瓦斯抽采钻场监控视频数据规模大、传统人工剪辑效率低的问题,提出一种将YOLO11n和PaddleOCR相结合的视频自动剪辑方法。使用YOLO11n检测视频图像帧中的指示牌目标,并根据检测框坐标信息进行裁剪;将裁剪的目标区域输入PaddleOCR中进行文字识别;依据设定的剪辑逻辑规则对视频进行自动剪辑。为提升YOLO11n在煤矿井下复杂环境的检测精度,提出一种新的模块Faster-EMA来替代C3k2中的Bottleneck,引入FasterBlock及EMA注意力机制,增强多尺度特征表达能力并降低冗余计算;在C2PSA层后引入Triplet Attention,通过三分支结构捕获跨维交互来计算注意力权重,进一步增强特征提取效果;采用PIoUv2替代默认损失函数CIoU以解决锚框扩展问题。同时使用改进后的YOLO11n替换PaddleOCR中的文本检测算法DBNet,解决实时性不足问题。在自建的指示牌数据集上进行实验验证,结果表明,改进的YOLO11n对比原模型,mAP50提升4.8个百分点,且使用改进YOLO11n替代DBNet后视频平均处理速度提升51.0%,FPS达到37帧/s,满足实时性需求。研究实现了基于指示牌文字内容的钻场监控视频自动剪辑,为煤矿智能化发展提供了技术参考。 展开更多
关键词 煤矿钻场 视频剪辑 文本识别 YOLO11n PaddleOCR
在线阅读 下载PDF
文生视频模型应用中的异化问题探究——以Sora为例
4
作者 贾向桐 耿之雍 《长白学刊》 2025年第2期54-65,共12页
以Sora为代表的文生视频模型的崛起,标志着生成式人工智能又取得了一次突破性进展,且将深度融入人类生产生活实践的各领域与全过程。人类在享受此类技术进步带来的诸多便利的同时,亦面对可能会引发的异化风险,这突出表现为人的认知异化... 以Sora为代表的文生视频模型的崛起,标志着生成式人工智能又取得了一次突破性进展,且将深度融入人类生产生活实践的各领域与全过程。人类在享受此类技术进步带来的诸多便利的同时,亦面对可能会引发的异化风险,这突出表现为人的认知异化、交往异化与类本质异化。上述异化问题的形成机理在于:人的认知自主性或被文生视频模型削弱、人的交往理性或被技术性依赖所遮蔽、人的主体性或被文生视频模型侵蚀。要应对这种异化问题,要化被动的异化防控为主动的伦理治理,可根据文生视频模型所处的具体阶段,有针对性地选择治理方式。具体而言,应基于人工智能向善原则,在设计阶段预设道德算法;基于负责任创新原则,在试验阶段开展伦理调适;基于伦理预防原则,在应用阶段进行伦理规约,引导生成式人工智能技术向善发展,为人的自由全面发展创造更加广阔的空间和条件。 展开更多
关键词 生成式人工智能 文生视频模型 SORA 异化 伦理治理
在线阅读 下载PDF
智能时代MG动画创作生产新路径
5
作者 马金秀 《现代电影技术》 2025年第8期21-28,共8页
动态图形(Motion Graphics,MG)动画因其视觉冲击力强、灵活性和创造性高、制作周期短等优势,在广告、企业宣传、在线教育等领域得到了广泛应用,具有广阔的发展前景。本文概述了MG动画制作技术的发展情况,提出当前技术条件下的MG动画制... 动态图形(Motion Graphics,MG)动画因其视觉冲击力强、灵活性和创造性高、制作周期短等优势,在广告、企业宣传、在线教育等领域得到了广泛应用,具有广阔的发展前景。本文概述了MG动画制作技术的发展情况,提出当前技术条件下的MG动画制作工作流程,分析其技术特点、优势和局限性,并提出人工智能(AI)新技术运用于MG动画制作的若干技术方案,以提升MG动画制作的便捷性和高效性。本文提出在MG动画制作中增加叙事性的创新路径,以增强MG动画的故事性和趣味性,提升MG动画的吸引力。研究表明,AI技术能辅助MG动画制作,在剧本和分镜头脚本创作、角色设计和动画场景制作等环节可实现快速生成,并帮助创作者实现新途径多模态MG动画创作,对MG动画乃至其他种类的动画制作、特效制作具有流程辅助和工业链升级作用。 展开更多
关键词 MG动画 人工智能 文生图 文生视频 多模态工作流
在线阅读 下载PDF
扩散模型生成视频数据集及其检测基准研究 被引量:1
6
作者 郑天鹏 陈雁翔 +2 位作者 温心哲 李严成 王志远 《中国图象图形学报》 北大核心 2025年第4期1059-1071,共13页
目的扩散模型在视频生成领域取得了显著的成功,目前用于视频生成的扩散模型简单易用,也更容易让此类视频被随意滥用。目前,视频取证相关的数据集更多聚焦在人脸伪造领域上,缺少通用场景的描述,使生成视频检测的研究具有局限性。随着视... 目的扩散模型在视频生成领域取得了显著的成功,目前用于视频生成的扩散模型简单易用,也更容易让此类视频被随意滥用。目前,视频取证相关的数据集更多聚焦在人脸伪造领域上,缺少通用场景的描述,使生成视频检测的研究具有局限性。随着视频扩散模型的发展,视频扩散模型可以生成通用场景视频,但目前生成视频数据集类型单一,数据量少,且部分数据集不包含真实视频,不适用于生成视频检测任务。为了解决这些问题,提出了包含文本到视频(text to video,T2V)和图像到视频(image to video,I2V)两种方法的多类型、大规模的生成视频数据集与检测基准。方法使用现有的文本到视频和图像到视频等扩散视频生成方法,生成类型多样、数量规模大的生成视频数据,结合从网络获取的真实视频数据得到最终数据集。T2V视频生成中,使用15种类别的提示文本生成场景丰富的T2V视频,I2V使用下载的高质量图像数据集生成高质量的I2V视频。为了评估数据集生成视频的质量,使用目前先进的生成视频评估方法对视频的生成质量进行评估,以及使用视频检测方法进行生成视频的检测工作。结果创建了包含T2V和I2V两类生成视频的通用场景生成视频数据集,扩散模型生成视频数据集(diffusion gener⁃ated video dataset,DGVD)并结合当前先进的生成视频评估方法EvalCrafter和AIGCBench提出了包含T2V和I2V的生成视频质量估计方法。生成视频检测基准使用了4种图像级检测方法CNNdet(CNN detection)、DIRE(diffusion reconstruction error)、WDFC(wavelet domain forgery clues)和DIF(deep image fingerprint)以及6种视频级检测方法I3D(inflated 3D)、X3D(expand 3D)、C2D(convnets 2D)、Slow、SlowFast和MViT(multiscale vision Transformer),其中图像级检测方法无法对未知数据进行有效检测,泛化性较差,而视频级检测方法能够对同一骨干网络实现方法生成的视频有较好的表现,具有一定泛化能力,但仍然无法在其他网络中实现较好的指标。结论本文创建了生成类别丰富、场景多样的大规模视频数据集,该数据集和基准完善了生成视频检测任务在此类场景下数据集和基准不足的问题,有助于促进生成视频检测领域的发展。 展开更多
关键词 视频生成 扩散模型 生成视频检测 提示文本生成 视频质量评估
原文传递
Sora类文生视频模型驱动主流意识形态视觉叙事的困境及突破之道 被引量:4
7
作者 杨章文 《理论月刊》 北大核心 2025年第3期15-25,159,共12页
主流意识形态视觉叙事不仅是创新我国意识形态工作的可靠支点,也是应对由Sora类文生视频模型引发的信息传播模式变革、廓清西方意识形态渗透“迷雾”的重要路径。在文生视频时代,主流意识形态视觉叙事本然在于复归感性的对象性活动本位... 主流意识形态视觉叙事不仅是创新我国意识形态工作的可靠支点,也是应对由Sora类文生视频模型引发的信息传播模式变革、廓清西方意识形态渗透“迷雾”的重要路径。在文生视频时代,主流意识形态视觉叙事本然在于复归感性的对象性活动本位,实然在于建构虚实共生的沉浸场景,应然在于实现技术驱动下的价值引领。基于“认知—情感—意动”理论的视角,Sora类文生视频模型驱动主流意识形态视觉叙事正面临着认知模式原子化、情感询唤虚拟化、意动行为畸形化的现实困境。破解主流意识形态视觉叙事的现实之困,实现叙事过程中的“知情意行同构”,应循守“致知”“激情”“诚意”“励行”的实践逻辑。其中,“知”重在筑牢认知高度,“情”力在追求情感温度,“意”旨在提升思想厚度,“行”意在突出实践力度,只有四者之间互动融合,才能不断优化主流意识形态视觉叙事的实践路径。 展开更多
关键词 SORA 文生视频模型 主流意识形态 视觉叙事 “认知—情感—意动”理论
在线阅读 下载PDF
文生视频大模型赋能国家文化公园的价值与路径 被引量:3
8
作者 朱虹 袁佳 《南昌大学学报(人文社会科学版)》 北大核心 2025年第1期48-59,共12页
国家文化公园作为特定的文化空间和文化资源保护领地,承载着中华民族的集体记忆和文化认同,具有弘扬中华文化、促进经济与社会发展、促进生态保护等多重功能。文生视频大模型作为当下生成式人工智能的前沿进展,具备模拟现实世界和文化... 国家文化公园作为特定的文化空间和文化资源保护领地,承载着中华民族的集体记忆和文化认同,具有弘扬中华文化、促进经济与社会发展、促进生态保护等多重功能。文生视频大模型作为当下生成式人工智能的前沿进展,具备模拟现实世界和文化场景的能力,能够丰富国家文化公园的展示场景,为游客提供更加多样化和沉浸式的参观体验。同时,文生视频AI的应用有助于提升文化公园的服务质量和管理水平,促进文化旅游业可持续发展,并推动中华文化走向世界。文生视频大模型在赋能国家文化公园的过程中,面临算法偏见、技术滥用、隐私保护等多重挑战。基于人本主义视角,当前亟须在文化遗产保护与技术创新之间实现动态平衡,完善人工智能的法律保障体系,强化算法监管框架,建立健全的内容审查与知识产权保护机制,制定合理的信息采集与隐私保护措施,以确保技术与社会、文化之间的协调发展,引领人与技术共同迈向更加光明的未来。 展开更多
关键词 文生视频大模型 国家文化公园 AGI AI 文化遗产
在线阅读 下载PDF
文本引导视频预测大模型的场景动态控制综述 被引量:1
9
作者 吴福祥 程俊 《集成技术》 2025年第1期9-24,共16页
近年来,生成式人工智能的快速发展使文本驱动的视频预测大模型成为学术界和工业界的研究热点。视频预测生成需处理时间维度的动态性和一致性,要求精准控制场景结构、主体行为、相机运动和语义表达。当前的主要挑战是如何精确控制视频预... 近年来,生成式人工智能的快速发展使文本驱动的视频预测大模型成为学术界和工业界的研究热点。视频预测生成需处理时间维度的动态性和一致性,要求精准控制场景结构、主体行为、相机运动和语义表达。当前的主要挑战是如何精确控制视频预测中的场景动态,以实现高质量和语义一致的输出。针对此问题,一些研究者提出了相机控制增强、参考视频控制、语义一致性增强和主体特征控制增强等方法,旨在提升视频预测的生成质量,确保生成内容既符合历史条件,又满足用户需求。该文系统探讨了上述4个控制方法的核心思想、优缺点和未来发展方向。 展开更多
关键词 文本驱动视频预测 动态控制 相机控制 语义增强 主体特征控制
在线阅读 下载PDF
文生视频大模型Sora赋能医疗卫生的伦理探讨 被引量:2
10
作者 王绍源 杨东航 《中国医学伦理学》 北大核心 2025年第2期195-200,共6页
作为一个新兴的人工智能技术,文生视频大模型Sora拥有以往人工智能不具备的强大功能。在医学领域,医务人员可以利用Sora模型来实现高效的医学教育、患者健康咨询和医学研究等活动。研究当前Sora模型的创新应用场景、伦理问题与治理路径... 作为一个新兴的人工智能技术,文生视频大模型Sora拥有以往人工智能不具备的强大功能。在医学领域,医务人员可以利用Sora模型来实现高效的医学教育、患者健康咨询和医学研究等活动。研究当前Sora模型的创新应用场景、伦理问题与治理路径,有助于人们利用人工智能新技术推广医疗经验提升,提高医疗质量,在把握人工智能在医疗卫生领域的未来发展方向上具有积极意义。 展开更多
关键词 文生视频 SORA 生成式人工智能 医疗卫生 伦理风险
暂未订购
基于联合嵌入空间的视频文本检索研究综述
11
作者 董闯 栗伟 +1 位作者 巴聪 覃文军 《中国图象图形学报》 北大核心 2025年第5期1220-1237,共18页
视频在人们日常生活中扮演着重要角色,面对爆炸式增长的视频数据,视频文本检索为用户提供便捷的方式检索感兴趣的信息。视频文本检索旨在利用用户输入的文本或视频查询,在视频或文本库中检索出与输入内容最相关的视频或文本。对基于联... 视频在人们日常生活中扮演着重要角色,面对爆炸式增长的视频数据,视频文本检索为用户提供便捷的方式检索感兴趣的信息。视频文本检索旨在利用用户输入的文本或视频查询,在视频或文本库中检索出与输入内容最相关的视频或文本。对基于联合嵌入空间的视频文本检索工作进行系统梳理和综述,以便认识和理解视频文本检索的发展。首先从基于联合嵌入空间的视频文本检索的4个步骤:视频特征表示提取、文本特征表示提取、视频文本特征对齐以及目标函数出发,对现有工作进行分类分析,并阐述不同类型方法的优缺点。接着从实验的角度给出视频文本检索的基准数据集和评价指标,并在多个常用数据集上比较典型模型的性能。最后讨论视频文本检索的挑战及发展方向。 展开更多
关键词 视频文本检索(VTR) 联合嵌入空间 特征提取 特征对齐 多模态
原文传递
文生视频模型的伦理风险及其应对策略
12
作者 耿之雍 贾向桐 《自然辩证法通讯》 北大核心 2025年第6期81-88,共8页
人类早已具备“造物”的能力,文生视频模型的问世则让人借助技术进行“造世”成为可能,而实施这一行为的主体究竟是人还是作为人造物的文生视频模型,则关涉到人与技术的关系,因此可被称为数字造世的主体疑难问题。该模型的快速发展在给... 人类早已具备“造物”的能力,文生视频模型的问世则让人借助技术进行“造世”成为可能,而实施这一行为的主体究竟是人还是作为人造物的文生视频模型,则关涉到人与技术的关系,因此可被称为数字造世的主体疑难问题。该模型的快速发展在给人类生产生活带来诸多便利的同时,亦将引发一定的伦理风险。以数字造世的主体疑难问题为线索,可分析出此种伦理风险的主要表征为伦理主体异化、道德判断隐忧、道德责任归属困境。在剖析这类伦理风险成因的基础上,提出为规避文生视频模型的伦理风险,需化被动的风险防控为主动的伦理应对,具体可从预设道德算法、探索人工智能赋能社会路径、构建预见式伦理治理框架等方面入手。 展开更多
关键词 文生视频模型 生成式人工智能 伦理风险 伦理治理
原文传递
转型·合规·重塑:文生视频技术对视频档案管理的影响 被引量:5
13
作者 周林兴 贾千慧 《档案与建设》 2025年第1期76-84,共9页
文生视频技术快速发展,在视频档案管理方面具有广阔的应用前景,有助于创新视频档案生成与管理模式,推动新型视频档案内容、管理、传播、体验生态的构建。但同时,其应用也引发社会关于视频档案内容创新性、真实性、安全性以及权威性方面... 文生视频技术快速发展,在视频档案管理方面具有广阔的应用前景,有助于创新视频档案生成与管理模式,推动新型视频档案内容、管理、传播、体验生态的构建。但同时,其应用也引发社会关于视频档案内容创新性、真实性、安全性以及权威性方面的思考。应该看到,文生视频技术带来便利的同时也存在一定的风险,应从政策、资源、主体三个方面重塑视频档案管理路径,进而实现文生视频技术的可持续发展。 展开更多
关键词 文生视频 视频档案 生成式人工智能
在线阅读 下载PDF
跨模态信息融合的视频-文本检索
14
作者 习怡萌 邓箴 +1 位作者 刘倩 刘立波 《计算机应用》 北大核心 2025年第8期2448-2456,共9页
现有的视频-文本检索(VTR)方法通常假设文本描述与视频之间存在强语义关联,却忽略了数据集中广泛存在的弱相关视频文本对,导致模型虽然擅长识别常见的通用概念,但无法充分挖掘弱语义描述的潜在信息,进而影响模型的检索性能。针对上述问... 现有的视频-文本检索(VTR)方法通常假设文本描述与视频之间存在强语义关联,却忽略了数据集中广泛存在的弱相关视频文本对,导致模型虽然擅长识别常见的通用概念,但无法充分挖掘弱语义描述的潜在信息,进而影响模型的检索性能。针对上述问题,提出一种跨模态信息融合的VTR模型,该模型以跨模态的方式利用相关的外部知识改进模型的检索性能。首先,构建2个外部知识检索模块,分别用于实现视频与外部知识的检索以及文本与外部知识的检索,以便后续借助外部知识强化原始视频和文本的特征表示;其次,设计自适应交叉注意力的跨模态信息融合模块,以去除视频和文本中的冗余信息,并利用不同模态间的互补信息融合特征,学习更具判别性的特征表示;最后,引入模态间和模态内的相似性损失函数,以确保数据在融合特征空间、视频特征空间和文本特征空间下信息表征的完整性,从而实现跨模态数据间的精准检索。实验结果表明,与MuLTI模型相比,所提模型在公共数据集MSRVTT(Microsoft Research Video to Text)和DiDeMo(Distinct Describable Moments)上的召回率R@1分别提升了2.0和1.9个百分点;与CLIP-ViP模型相比,所提模型在公共数据集LSMDC(Large Scale Movie Description Challenge)上的R@1提高了2.9个百分点。可见,所提模型能有效解决VTR任务中的弱相关数据的问题,从而提升模型的检索准确率。 展开更多
关键词 跨模态检索 视频-文本检索 多特征融合 弱语义数据 自适应
在线阅读 下载PDF
AI文生视频技术安全风险的生成逻辑及其协同治理 被引量:1
15
作者 谢波 李玉菁 《北京警察学院学报》 2025年第2期1-9,共9页
进入人工智能时代,AI文生视频技术凭借其强大的自然语言处理和图像生成能力,在技术革新、应用场景、用户体验等方面形成新突破的同时,亦对数据采集端、处理端、存储端和应用端带来新的安全风险。这些安全风险有着独特的生成逻辑,可通过... 进入人工智能时代,AI文生视频技术凭借其强大的自然语言处理和图像生成能力,在技术革新、应用场景、用户体验等方面形成新突破的同时,亦对数据采集端、处理端、存储端和应用端带来新的安全风险。这些安全风险有着独特的生成逻辑,可通过技术、法律及实践三个维度得到分析说明。为有效防范应对安全风险,应着力构建AI文生视频技术安全风险的协同治理路径,具体包括:在理念层面从发展至上转向发展和安全并重;在制度层面构建完备的法律法规与监管体系;在技术层面强化系统模型的安全性和鲁棒性;在行业层面建立统一的行业规范与协作机制;在公众层面强化公众的风险意识和防范能力。 展开更多
关键词 文生视频技术 人工智能 安全风险 协同治理
在线阅读 下载PDF
从“负能”到“赋能”:文生视频驱动下的国际传播格局迭代与价值追问 被引量:1
16
作者 张爱军 唐欣雨 《全球传媒学刊》 2025年第1期113-128,共16页
类Sora文生视频模型作为AIGC领域的新代表,正引领着智能传播逐步超越传统大众传播与网络传播模式,成为驱动国际传播格局迭代的关键力量。在类Sora文生视频模型的赋能下,国际信息传播效率与质量实现了双重飞跃,为全球文化交流注入了新的... 类Sora文生视频模型作为AIGC领域的新代表,正引领着智能传播逐步超越传统大众传播与网络传播模式,成为驱动国际传播格局迭代的关键力量。在类Sora文生视频模型的赋能下,国际信息传播效率与质量实现了双重飞跃,为全球文化交流注入了新的活力。然而,其本质仍深植于服务西方社会的信息生产框架中,不可避免地引发了关于数据主权、意识形态和主体权力的竞争,在全球范围内带来了新一轮的博弈。在这一背景下,中国应秉持“人机对齐”理念,从技术、价值和战略三个维度出发,实施对齐策略,在类Sora文生视频模型的引领下抓住先机并应对挑战,进而有效提升国际传播效能。 展开更多
关键词 SORA 文生视频 生成式人工智能 国际传播
在线阅读 下载PDF
多级跨模态对齐的文本检索视频方法研究
17
作者 习怡萌 刘立波 +1 位作者 邓箴 刘倩 《中文信息学报》 北大核心 2025年第2期111-122,共12页
现有文本检索视频方法在进行跨模态对齐时,未充分考虑文本细节和复杂视觉语义间的信息交互,使检索性能受到影响。为解决此问题,该文提出一种多级跨模态对齐的文本检索视频方法。首先,将查询文本按词性进行分解并编码,同时对视频帧进行... 现有文本检索视频方法在进行跨模态对齐时,未充分考虑文本细节和复杂视觉语义间的信息交互,使检索性能受到影响。为解决此问题,该文提出一种多级跨模态对齐的文本检索视频方法。首先,将查询文本按词性进行分解并编码,同时对视频帧进行编码和聚类操作;然后,对查询文本和视频的全局编码进行对齐,获取二者间的全局语义关系;接着,对文本动词编码与视频子动作编码进行动作对齐,以实现动作关联;最后,将名词编码与经动作对齐筛选的关键帧进行实体对齐,进一步消弱视频中弱相关或不相关帧,提高文本与视频之间的相关性。实验证明,该方法在MSR-VTT、DiDeMo和LSMDC公共数据集上的R@1指标分别提升了2.3%、1.5%和0.9%,优于现有文本检索视频方法。 展开更多
关键词 文本检索视频 文本分解 视频关键帧提取
在线阅读 下载PDF
基于深度学习的档案数据挖掘技术研究进展 被引量:1
18
作者 范书珍 《山西档案》 北大核心 2025年第4期134-137,共4页
档案数字化转型为海量档案数据的积累奠定了基础,但档案数据中蕴含的巨大价值尚未得到充分挖掘。深度学习的出现,为破解档案数据挖掘难题带来了新契机。通过系统梳理深度学习在档案数据挖掘领域的研究进展,探索了以深度学习驱动的档案... 档案数字化转型为海量档案数据的积累奠定了基础,但档案数据中蕴含的巨大价值尚未得到充分挖掘。深度学习的出现,为破解档案数据挖掘难题带来了新契机。通过系统梳理深度学习在档案数据挖掘领域的研究进展,探索了以深度学习驱动的档案数据分析新范式,为档案数据挖掘提供理论参考与技术指引。 展开更多
关键词 档案大数据 深度学习 档案视频数据 档案文本挖掘
在线阅读 下载PDF
人工智能文生视频的著作权法规制
19
作者 赖利娜 《编辑之友》 北大核心 2025年第4期87-94,共8页
从人工智能文生文、文生图到文生视频场景创作都是基于人机协作的范式迭变,人工智能人机协作范式在内容生产领域和作品市场化领域具有鲜明的竞争优势。不同于传统创作工具,人工智能人机协作的著作权意义涵盖人工智能内容生成的人本逻辑... 从人工智能文生文、文生图到文生视频场景创作都是基于人机协作的范式迭变,人工智能人机协作范式在内容生产领域和作品市场化领域具有鲜明的竞争优势。不同于传统创作工具,人工智能人机协作的著作权意义涵盖人工智能内容生成的人本逻辑性、生成内容稀缺性的激励转向以及生成内容著作权法规范的便宜性。在人工智能文生视频的可版权性认定上:输入阶段,用户的提示词输入行为满足著作权法上创造性智力劳动的要求,确保人工智能模型输出的视频内容体现用户的个性化选择;输出阶段,用户决定输出视频的内容主题和画面风格以及对输出视频画面内容的调整和优化,具有宽泛的选择空间,体现用户的个性化选择和安排。因此,在文生视频的版权侵权风险及责任承担上,应确定人工智能文生视频用户和商业化应用者的过错责任原则,而人工智能模型开发者符合“技术中立原则”免负侵权责任。 展开更多
关键词 人工智能 文生视频 可版权性 思想/表达二分法
在线阅读 下载PDF
FG-ECVG:细粒度情感可控的视频生成算法
20
作者 卫青蓝 段笑妍 +2 位作者 肖红江 薛瑞琪 王宇豪 《计算机辅助设计与图形学学报》 北大核心 2025年第3期396-406,共11页
情感引导的多媒体内容生成是推动可控人工智能内容生成技术发展的重要一环,对于丰富公众表达情绪和观点的方式具有独特价值.针对大模型生成的视觉内容情感属性模糊、交互性弱的问题,提出一种基于文本指令优化的视频生成算法FG-ECVG,可... 情感引导的多媒体内容生成是推动可控人工智能内容生成技术发展的重要一环,对于丰富公众表达情绪和观点的方式具有独特价值.针对大模型生成的视觉内容情感属性模糊、交互性弱的问题,提出一种基于文本指令优化的视频生成算法FG-ECVG,可以实现自动化生成高情感可控、强交互性的文本指令到视频内容.首先基于效价-唤醒-控制情感模型构建一个引导词典,并基于该词典对输入文本进行情感极性分析和情感引导词匹配,实现整体视觉氛围的情感控制;然后基于检索—增强—生成算法构建一个视觉细节扩写框架,为用户输入的文本指令添加结构化的类人情感视觉元素,提升生成内容的情感颗粒度.在EmoSet数据集上5类场景类别进行情感6分类内容生成,并对主观及客观微视频评价进行实验的结果表明,与仅使用生成式视觉大模型相比,所提算法生成的视频内容具有更强的情感表现力,情感2分类和情感6分类准确率分别提升23.33个百分点和20.00个百分点;与目前较新的视觉情感迁移或生成算法相比,情感6分类准确率平均提升26.67个百分点,证明了该算法的有效性和优越性. 展开更多
关键词 可控生成 文生视频 细粒度情感可控
在线阅读 下载PDF
上一页 1 2 13 下一页 到第
使用帮助 返回顶部