3D Talking Head: Generative Models

[SIGGRAPH 2024 DiffPoseTalk] [Lip Sync.] [Context Expression] [Dataset Collection]

DiffPoseTalk: Speech-Driven Stylistic 3D Facial Animation and Head Pose Generation via Diffusion Models

Figure: DiffPoseTalk (SIGGRAPH 2024)

任务 (Task): 增强 stylistic 的 3D 人脸驱动。现有方法或者采用确定性回归方式学习 speech-to-motion 的映射，或者仅使用 one-hot 编码实现 stylized animation，均无法有效捕获 style 的复杂性，限制了泛化能力。

动机 (Motivation): 从一个短参考视频中提取 style 嵌入向量来表示个性化风格，结合扩散模型实现高质量、风格多样的驱动合成。

运动类型 (Motion): Expression and pose parameters.
数据集 (Dataset): 在 TFHQ 数据基础上收集 VFHQ 数据作为扩充。

方法观点 (Views):