Next-X Autoregressive (XAR)

Beyond Next-Token: Next-X Prediction for Autoregressive Visual Generation

论文提出了 xAR 模型,旨在统一自回归视觉生成范式,采取了一种通用的 Next-X 预测框架,其中
X 是一种灵活的预测实体,可以表示一个独立图像块(token),一个单元(一组空间连续的tokens),
一个子样本(非局部组),一整个图像(flow-matching),一个尺度(粗到细分辨率),如上图所示。

研究动机
当前 Teacher forcing 自回归生成方法中在每一步将之前步骤的 ground truth 作为输入而不是
模型自身预测输出,尽管这种方法能够提高训练稳定性但会引入额外的偏差。在推理的时候,没有 ground truth 监督仅仅
依赖过去的预测输出,误差会随着时间的推移而累积,导致生成质量下降,如下图所示。

核心创新
xAR 通过\textcolor{myblue}{在每一步的 token 上添加噪声}来学习不完美、损坏的或是部分不精确的条件。
通过 flow-matching 机制,xAR 将离散的 token 分类任务(codebook 学习的token表示)转换为一个连续的实体
回归任务。


© 2025 - Zhihao Li Created using Stellar
Page UV: 326 | Page PV: 326
Site UV: 113701 | Site PV: 113701
🦉 感谢你的到访,愿你每天都有好心情!🦉