1我们介绍了 Video-As-Prompt (VAP),这是一种新的范式,将统一且可泛化的语义控制视频生成重新定义为情境生成。VAP 利用参考视频作为直接的语义提示,通过即插即用的 Mixture-of-Transformers (MoT) 专家引导冻结的视频扩散 Transformer (DiT)。这种架构防止灾难性遗忘,并由时间偏置的位置嵌入指导,消除虚假映射先验,实现稳健的情境检索。作为一个单一的统一模型,VAP 为开源方法设定了新的最先进水平,实现了 38.7% 的用户偏好率,可与领先的特定条件商业模型相媲美。VAP 强大的零样本泛化能力和对各种下游应用的支持,标志着向通用、可控视频生成的重要进步。









认证作者
支持自启动