1这是一个轻量级但功能强大的视频生成模型,仅用 83 亿参数就实现了最先进的视觉质量和运动连贯性,能够在消费级 GPU 上进行高效推理。这一成就基于几个关键组件,包括细致的数据管理、具有选择性滑动瓦片注意力的先进 DiT 架构(SSTA)、通过字形感知文本编码增强的双语理解、渐进式预训练和后训练,以及高效的视频超分辨率网络。利用这些设计,我们开发了一个统一的框架,能够在多个时长和分辨率下进行高质量的文本到视频和图像到视频生成。大量的实验表明,这个紧凑而专业的模型在开源模型中确立了新的最先进水平。通过发布 HunyuanVideo-1.5 的代码和权重,我们为社区提供了一个高性能的基础,显著降低了视频创作和研究的成本,使高级视频生成更加普及。









认证作者
支持自启动