-
题名基于时空增强生成模型的协同音频人体全身动作生成
- 1
-
-
作者
张硕喆
宋文凤
侯霞
李帅
-
机构
北京信息科技大学
-
出处
《系统仿真学报》
2026年第1期211-224,共14页
-
基金
国家自然科学基金(62572062,62525204)
北京市自然科学基金(L232102)。
-
文摘
生成与音频同步的演讲手势能够显著增强虚拟数字人的交互性,要求生成的手势动作不仅与语音精确同步,还需呈现逼真的全身动态。针对现有基于Transformer的方法通常忽略了动作序列的时间特征,而基于扩散模型的方法则未充分考虑不同身体部位间的空间关联性的问题,提出了一种结合扩散模型、Mamba和注意力机制的方法,用于实现全身动作生成,引入空间自注意力-时序状态空间模型(STMamba Layer)作为降噪网络的核心模块,提取不同部位之间的空间特征以及同一部位的时序特征,提升动作的质量和多样性。将全身动作序列划分为空间和时间两个维度进行特征建模:在空间维度上,利用旋转相对位置编码和自注意力机制捕捉不同身体部位关节点的空间关联性;在时间维度上,利用Mamba捕获动作序列中同一部位的时序动态信息,以增强动作的连续性。在大规模音频-文本-动作数据集BEAT2上进行了实验验证和性能评估。结果表明:所提方法不仅保真度和多样性得到增强,同时能保持较高的推理速度。
-
关键词
虚拟数字人
协同音频人体动作生成
条件扩散模型
Transformer
Mamba
-
Keywords
human Avatar
full-body co-speech gesture generation
conditional diffusion model
Transformer
Mamba
-
分类号
TP.391.41
[自动化与计算机技术]
-