期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于时空增强生成模型的协同音频人体全身动作生成
1
作者 张硕喆 宋文凤 +1 位作者 侯霞 李帅 《系统仿真学报》 2026年第1期211-224,共14页
生成与音频同步的演讲手势能够显著增强虚拟数字人的交互性,要求生成的手势动作不仅与语音精确同步,还需呈现逼真的全身动态。针对现有基于Transformer的方法通常忽略了动作序列的时间特征,而基于扩散模型的方法则未充分考虑不同身体部... 生成与音频同步的演讲手势能够显著增强虚拟数字人的交互性,要求生成的手势动作不仅与语音精确同步,还需呈现逼真的全身动态。针对现有基于Transformer的方法通常忽略了动作序列的时间特征,而基于扩散模型的方法则未充分考虑不同身体部位间的空间关联性的问题,提出了一种结合扩散模型、Mamba和注意力机制的方法,用于实现全身动作生成,引入空间自注意力-时序状态空间模型(STMamba Layer)作为降噪网络的核心模块,提取不同部位之间的空间特征以及同一部位的时序特征,提升动作的质量和多样性。将全身动作序列划分为空间和时间两个维度进行特征建模:在空间维度上,利用旋转相对位置编码和自注意力机制捕捉不同身体部位关节点的空间关联性;在时间维度上,利用Mamba捕获动作序列中同一部位的时序动态信息,以增强动作的连续性。在大规模音频-文本-动作数据集BEAT2上进行了实验验证和性能评估。结果表明:所提方法不仅保真度和多样性得到增强,同时能保持较高的推理速度。 展开更多
关键词 虚拟数字人 协同音频人体动作生成 条件扩散模型 Transformer Mamba
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部