基于CLIP多模态预训练模型的动画自动剪辑研究

Research on Automatic Animation Editing Based on CLIP Multimodal Pre-training Model

下载PDF

导出

摘要动画自动剪辑是影视制作与数字媒体领域的核心任务,但传统方法依赖人工标注与经验规则,存在效率低、泛化性差等局限。提出一种基于CLIP(Contrastive Language–Image Pretraining)多模态预训练模型的智能剪辑框架,通过文本-图像跨模态特征对齐,实现动画帧的语义级筛选与场景分割。模型以CLIP预训练特征为基础,设计动态阈值调整策略优化帧选择精度,结合时间轴分析与视觉焦点追踪算法增强剪辑连贯性。实验结果表明,在四类典型场景(战斗、对话、风景、特写)中平均相似度达0.82,较传统关键词匹配法(KWM)与单模态CNN模型分别提升35.6%与18.3%。热力图显示其帧-文本关联精度超过90%,场景切换节奏密度曲线符合人类视觉感知规律。真实动画测试中,剪辑耗时较人工处理缩短87%,且用户满意度评分达4.6/5.0。 Automatic animation editing is a core task in film production and digital media,but traditional methods rely on manual annotation and empirical rules,resulting in low efficiency and poor generalization.This study proposes an intelligent editing framework based on the CLIP(Contrastive Language-Image Pretraining)multimodal pre-training model,which achieves semantic-level frame selection and scene segmentation through text-image cross-modal feature alignment.The model uses CLIP pre-trained features as the foundation,designs a dynamic threshold adjustment strategy to optimize frame selection accuracy,and combines timeline analysis and visual focus tracking algorithms to enhance editing coherence.Experimental results show that the proposed method achieves an average similarity of 0.82 in four typical scenarios(battle,dialogue,landscape,close-up),which is 35.6%and 18.3%higher than the traditional keyword matching method(KWM)and single-modal CNN model,respectively.The heat map shows that the frame-text association accuracy exceeds 90%,and the scene transition rhythm density curve conforms to human visual perception.In real animation tests,the editing time is reduced by 87%compared to manual processing,and the user satisfaction score reaches 4.6/5.0.

作者李海燕陈新生 LI Haiyan;CHEN Xinsheng(Anhui Finance&Trade Vocational College,Hefei 230601,China;College of Architecture&Art,Hefei University of Technology,Hefei 230601,China)

机构地区安徽财贸职业学院合肥工业大学建筑与艺术学院

出处《佳木斯大学学报(自然科学版)》 2025年第7期137-139,136,共4页 Journal of Jiamusi University:Natural Science Edition

基金 2024年度安徽省科研计划编制项目(2024AH052155)。

关键词 CLIP模型多模态学习动画剪辑语义对齐 CLIP model multimodal learning animation editing semantic alignment

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1吕鲲,张未旭,靖继鹏.基于CLIP-LDAGV多模态信息融合的颠覆性技术主题识别研究——以新能源领域为例[J].情报学报,2025,44(3):353-368. 被引量：4
2侯永宏,郑皓春,高嘉俊,任懿.基于CLIP模型和知识数据库的零样本动作识别[J].天津大学学报（自然科学与工程技术版）,2025,58(1):91-100. 被引量：4
3刘杰,乔文昇,朱佩佩,雷印杰,王紫轩.基于图像-文本大模型CLIP微调的零样本参考图像分割[J].计算机应用研究,2025,42(4):1248-1254. 被引量：4
4缪翌,张卫锋,徐领.基于CLIP的视频时刻检索预训练模型[J].计算机应用研究,2024,41(12):3866-3872. 被引量：5
5党张敏,喻崇仁,殷双飞,张宏娟,陕振,马连志.基于CLIP与注意力机制的跨模态哈希检索算法[J].计算机工程与设计,2024,45(3):852-858. 被引量：7

二级参考文献47

1沃焱,韩国强,张见威.基于自适应预处理的图像分割方法[J].电子与信息学报,2007,29(1):87-91. 被引量：7
2罗希平,田捷,诸葛婴,王靖,戴汝为.图像分割方法综述[J].模式识别与人工智能,1999,12(3):300-312. 被引量：238
3刘建伟,刘媛,罗雄麟.深度学习研究进展[J].计算机应用研究,2014,31(7):1921-1930. 被引量：306
4王志勇,党晓玲,刘长利,曹敏.颠覆性技术的基本特征与国外研究的主要做法[J].国防科技,2015,36(3):14-17. 被引量：49
5李晓龙,鲁平,李存斌.基于Delphi和DEMATEL法影响国网的颠覆性创新技术影响因素综合排序分析[J].科技管理研究,2017,37(6):127-133. 被引量：15
6孙永福,王礼恒,孙棕檀,王崑声,胡良元,崔剑,徐源,康熙瞳.引发产业变革的颠覆性技术内涵与遴选研究[J].中国工程科学,2017,19(5):9-16. 被引量：46
7冀中,郭威辰.基于局部保持典型相关分析的零样本动作识别[J].天津大学学报（自然科学与工程技术版）,2017,50(9):975-983. 被引量：2
8刘安蓉,李莉,曹晓阳,魏永静,安向超,张科,张建敏,苗红波.颠覆性技术概念的战略内涵及政策启示[J].中国工程科学,2018,20(6):7-13. 被引量：69
9黄鲁成,蒋林杉,吴菲菲.萌芽期颠覆性技术识别研究[J].科技进步与对策,2019,36(1):10-17. 被引量：74
10龚志,邵曦.基于多模态的音乐推荐系统[J].南京信息工程大学学报（自然科学版）,2019,11(1):68-76. 被引量：4

共引文献18

1吴宗胜,李红,薛茹.基于深度哈希与VP-Tree的快速图像检索方法[J].西南民族大学学报（自然科学版）,2024,50(5):544-553.
2杨禄清,朱阳灿,马利辉,钱颖,彭定充,赵国旗,施伟东.基于深度哈希算法的变电图纸文本标签跨模态检索方法[J].云南电力技术,2024,52(6):66-70. 被引量：2
3孙瑜,任高明.Eclat算法下电力大数据并行关联规则增量挖掘方法[J].电力信息与通信技术,2025,23(1):83-88. 被引量：1
4潘雪峰,王超.基于大语言模型多模态图书自动分类与验证研究[J].图书情报导刊,2025,10(4):41-47.
5徐海燕,任乐天.基于预训练模型的研究生招生智能问答系统构建与应用[J].物联网技术,2025,15(14):86-90.
6原虹,张鸿雁.基于高效谱聚类算法的文本特征分割研究[J].长江信息通信,2025,38(5):171-173.
7王健,肖迪,冯李航,沈成.基于改进YOLOv8s的PCB小目标缺陷检测模型[J].计算机工程与应用,2025,61(15):288-297. 被引量：5
8吴京,王沈策,牛虹苏.基于提示词优化的AIGC辅助产品设计方法研究[J].包装工程,2025,46(16):186-201. 被引量：2
9张喜铭,余芸,林志达,汤清华,全雪霞.张量网络分解下电力跨模态数据检索方法[J].国外电子测量技术,2025,44(6):220-227. 被引量：1
10夏义堃,刘博文,田聪.情报分析中多源多模态数据融合的逻辑思路与技术路径研究[J].情报资料工作,2025,46(5):5-15. 被引量：2

1华梦霞,李才有.人工智能技术在影视动画制作中的应用研究[J].电脑知识与技术,2024,20(21):122-124. 被引量：3
2朱荣江,石语珩,杨硕,王子奕,吴心筱.大语言模型知识引导的开放域多标签动作识别[J].计算机研究与发展,2025,62(8):1875-1883.
3张海星,高晓昱,李瑞琦,颜嘉吟,杨正宇,郭柳.基于HPLC指纹图谱及主成分分析评价定西人工栽培淫羊藿质量[J].中兽医医药杂志,2025,44(3):63-68.
4杨佳丽,张永青,刘永惠.刘永惠运用女贞子-鸡血藤药对治疗恶性肿瘤化疗后骨髓抑制经验[J].湖北中医杂志,2025,47(4):22-25.
5何棋,徐凤奎.儿童医院室内设计——色彩与心理学的联系[J].中国医院建筑与装备,2025,26(6):21-25. 被引量：2
6孙冰心.基于深度学习的数字媒体质量评估与提升策略[J].移动信息,2025,47(7):329-331.
7张泽予,黄文旭.AI法律工具“幻觉”现象的实证研究——基于200余件实例的本土评测[J].新文科教育研究,2025(2):70-88. 被引量：3
8黄淑冬.题组模块:深度学习的有效路径[J].湖南教育(下旬)(C),2025(5):42-43.
9金浩博,王淑青,袁晓辉.基于辅助健康因子的锂电池剩余寿命预测研究[J].湖北工业大学学报,2025,40(4):37-42.
10王奕文,张雨馨.基于注意力理论的动态海报设计方法研究[J].设计艺术研究,2025,15(3):34-37. 被引量：2

佳木斯大学学报(自然科学版)

2025年第7期

浏览历史

内容加载中请稍等...

基于CLIP多模态预训练模型的动画自动剪辑研究

参考文献5

二级参考文献47

共引文献18

相关作者

相关机构

相关主题

浏览历史