期刊导航
期刊开放获取
vip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于EchoMimic改进的面部动画生成算法及其应用规范
1
作者
詹奇玮
任好佳
肖甜甜
《计算机科学》
北大核心
2026年第4期326-336,共11页
近年来,基于扩散模型的语音驱动面部动画生成方法已取得突破性进展,此类方法能够高效生成长时序、音频嘴型同步的高分辨率讲话视频。然而,当前方法生成的视频在嘴部区域普遍存在显著的模糊与伪影问题,严重制约了合成视频的真实感与视觉...
近年来,基于扩散模型的语音驱动面部动画生成方法已取得突破性进展,此类方法能够高效生成长时序、音频嘴型同步的高分辨率讲话视频。然而,当前方法生成的视频在嘴部区域普遍存在显著的模糊与伪影问题,严重制约了合成视频的真实感与视觉可信度。针对这一问题,提出一种基于EchoMimic改进的面部动画生成算法LiveEchoMimic,并深入探讨其标准化应用规范。首先,在技术应用层面,以EchoMimic扩散模型与隐式关键点模型为双核心基础架构,构建了一套端到端的自然化讲话视频生成框架。其中,EchoMimic扩散模型借助音频特征与面部关键点的联合控制机制,完成粗粒度讲话视频的生成任务;隐式关键点模型则采用视频驱动的范式,通过控制隐式关键点空间的位移特征,实现高质量面部动画视频的精细化生成。其次,构建音频-嘴型映射模型,用于精准建模音频特征与嘴部运动状态间的内在关联,并针对性设计映射网络,以强化生成视频的音频-嘴型同步精度。最后,在公开数据集CelebV-HQ、MEAD及私有数据集Avatar上开展大规模实验验证,定量与定性结果表明,LiveEchoMimic方法在视觉质量、音频-嘴型同步性等核心指标上显著优于当前主流方法,实现了最佳的视频生成性能。在应用规范层面,鉴于高度逼真的语音驱动面部动画技术可能引发身份与行为的失真问题,从面临挑战、应用理念、实施措施等方面提出了可操作性的建议,以促进语音驱动面部动画技术在可控、安全前提下更好地契合社会发展需求。
展开更多
关键词
扩散模型
隐式关键点模型
音频-嘴型同步
隐式空间
映射网络
面部动画
身份与行为失真
在线阅读
下载PDF
职称材料
题名
基于EchoMimic改进的面部动画生成算法及其应用规范
1
作者
詹奇玮
任好佳
肖甜甜
机构
中国政法大学刑事司法学院
新疆农业大学资源与环境学院
应急管理部大数据中心
出处
《计算机科学》
北大核心
2026年第4期326-336,共11页
基金
中央高校基本科研业务费专项资金(24CXTD02)。
文摘
近年来,基于扩散模型的语音驱动面部动画生成方法已取得突破性进展,此类方法能够高效生成长时序、音频嘴型同步的高分辨率讲话视频。然而,当前方法生成的视频在嘴部区域普遍存在显著的模糊与伪影问题,严重制约了合成视频的真实感与视觉可信度。针对这一问题,提出一种基于EchoMimic改进的面部动画生成算法LiveEchoMimic,并深入探讨其标准化应用规范。首先,在技术应用层面,以EchoMimic扩散模型与隐式关键点模型为双核心基础架构,构建了一套端到端的自然化讲话视频生成框架。其中,EchoMimic扩散模型借助音频特征与面部关键点的联合控制机制,完成粗粒度讲话视频的生成任务;隐式关键点模型则采用视频驱动的范式,通过控制隐式关键点空间的位移特征,实现高质量面部动画视频的精细化生成。其次,构建音频-嘴型映射模型,用于精准建模音频特征与嘴部运动状态间的内在关联,并针对性设计映射网络,以强化生成视频的音频-嘴型同步精度。最后,在公开数据集CelebV-HQ、MEAD及私有数据集Avatar上开展大规模实验验证,定量与定性结果表明,LiveEchoMimic方法在视觉质量、音频-嘴型同步性等核心指标上显著优于当前主流方法,实现了最佳的视频生成性能。在应用规范层面,鉴于高度逼真的语音驱动面部动画技术可能引发身份与行为的失真问题,从面临挑战、应用理念、实施措施等方面提出了可操作性的建议,以促进语音驱动面部动画技术在可控、安全前提下更好地契合社会发展需求。
关键词
扩散模型
隐式关键点模型
音频-嘴型同步
隐式空间
映射网络
面部动画
身份与行为失真
Keywords
Diffusion
model
implicit keypoint model
Audio-lip synchronization
implicit
space
Mapping network
Facial animation
Identity and behavior incongruence
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于EchoMimic改进的面部动画生成算法及其应用规范
詹奇玮
任好佳
肖甜甜
《计算机科学》
北大核心
2026
0
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部