[SIGGRAPH 2024 DiffPoseTalk] [Lip Sync.] [Context Expression] [Dataset Collection]

DiffPoseTalk: Speech-Driven Stylistic 3D Facial Animation and Head Pose Generation via Diffusion Models


Figure: DiffPoseTalk (SIGGRAPH 2024)

任务 (Task): 增强 stylistic 的 3D 人脸驱动。现有方法或者采用确定性回归方式学习 speech-to-motion 的映射,或者仅使用 one-hot 编码实现 stylized animation,均无法有效捕获 style 的复杂性,限制了泛化能力。

动机 (Motivation): 从一个短参考视频中提取 style 嵌入向量来表示个性化风格,结合扩散模型实现高质量、风格多样的驱动合成。

运动类型 (Motion): Expression and pose parameters.
数据集 (Dataset): 在 TFHQ 数据基础上收集 VFHQ 数据作为扩充。

方法观点 (Views):

  • 在单帧驱动参数上进行扩散生成;
  • 引入 style 嵌入向量表示多样的说话风格。

© 2025 - Zhihao Li Created using Stellar
Page UV: 326 | Page PV: 326
Site UV: 113701 | Site PV: 113701
🦉 感谢你的到访,愿你每天都有好心情!🦉