镜像社区
部署GPU实例
文档中心
常见问题(FAQ)
ComfyUI
flux
通义
ComfyUI-Wanx-I2V
一键运行wanx i2v
0/小时
v1.0

WAN 2.1 视频生成模型使用指南

WAN 2.1 是一套高质量的视频生成模型系列,支持从文本到视频和从图像到视频的转换。本文档详细介绍模型特性、安装步骤和优化使用方法。

模型简介

WAN 2.1 提供两个主要版本:

  • 14B 参数版本:提供最高质量输出,支持 FP8 精度优化
  • 1.3B 参数版本:适合资源有限的设备,保持合理的质量表现

核心特性

  • 支持多种精度:FP16、BF16、FP8_scaled、FP8_e4m3fn
  • 灵活的分辨率支持:从 480P 到 720P
  • 可调节帧数输出
  • 优化的动画过渡算法
  • 精确的文本理解能力

技术规格对比

参数14B FP8版本1.3B FP16版本
模型大小约7GB约2GB
显存要求≥16GB≥8GB
推荐GPURTX 3090/4090RTX 3060及以上
支持分辨率480P至720P主要480P
生成速度较慢较快
视觉质量优秀良好

分辨率指南

视频方向推荐分辨率用途
横向视频1024×57616:9比例,适合一般场景
竖向视频480×10249:19.2比例,适合移动设备
正方形768×7681:1比例,适合社交媒体

安装要求

系统要求

  • ComfyUI 最新版本
  • Python 3.10 或更高版本
  • NVIDIA GPU,支持 CUDA

必需文件

文本编码器和 VAE:

  • umt5_xxl_fp8_e4m3fn_scaled.safetensors - 放置于: ComfyUI/models/text_encoders/
  • wan_2.1_vae.safetensors - 放置于: ComfyUI/models/vae/

CLIP 视觉模型:

  • CLIP-ViT-H-14-laion2B-s32B-b79K.safetensors - 放置于: ComfyUI/models/clip_vision/

视频扩散模型:

镜像使用方法

启动镜像后,在控制台位置,如图所示直接点击“ComfyUI”即可使用 image

模型下载列表

模型类型模型文件名大小精度推荐使用备注
文本到视频wan2.1_t2v_1.3B_bf16.safetensors2.84 GBBF16轻量版
文本到视频wan2.1_t2v_1.3B_fp16.safetensors2.84 GBFP16轻量版,最高质量
文本到视频wan2.1_t2v_14B_bf16.safetensors28.6 GBBF16高质量版
文本到视频wan2.1_t2v_14B_fp16.safetensors28.6 GBFP16高质量版,最佳效果
文本到视频wan2.1_t2v_14B_fp8_e4m3fn.safetensors14.3 GBFP8显存优化版
文本到视频wan2.1_t2v_14B_fp8_scaled.safetensors14.3 GBFP8显存优化版,更高质量
图像到视频(480P)wan2.1_i2v_480p_14B_bf16.safetensors32.8 GBBF16标准分辨率
图像到视频(480P)wan2.1_i2v_480p_14B_fp16.safetensors32.8 GBFP16标准分辨率,最高质量
图像到视频(480P)wan2.1_i2v_480p_14B_fp8_e4m3fn.safetensors16.4 GBFP8显存友好版
图像到视频(480P)wan2.1_i2v_480p_14B_fp8_scaled.safetensors16.4 GBFP8显存友好版,质量更好
图像到视频(720P)wan2.1_i2v_720p_14B_bf16.safetensors32.8 GBBF16高分辨率
图像到视频(720P)wan2.1_i2v_720p_14B_fp16.safetensors32.8 GBFP16高分辨率,最高质量
图像到视频(720P)wan2.1_i2v_720p_14B_fp8_e4m3fn.safetensors16.4 GBFP8高分辨率,显存友好
图像到视频(720P)wan2.1_i2v_720p_14B_fp8_scaled.safetensors16.4 GBFP8高分辨率,显存友好且质量更好

所有扩散模型文件应放置于:ComfyUI/models/diffusion_models/

模型质量排名(从高到低):fp16 > bf16 > fp8_scaled > fp8_e4m3fn

工作流示例

图像到视频

480P

使用 wan2.1_i2v_480p_14B_fp8_e4m3fn.safetensors 模型生成 33 帧视频,分辨率为 768x1024。适合日常使用,对显存要求较低。

720P

使用 wan2.1_i2v_720p_14B_fp8_e4m3fn.safetensors 模型生成 53 帧视频,分辨率为 768x1088。处理时间较长但质量更高。

文本到视频

1.3B(480P)

使用 wan2.1_t2v_1.3B_fp16.safetensors 模型生成 49 帧视频,分辨率为 480x1024。

14B(720P)

使用 wan2.1_t2v_14B_fp8_e4m3fn.safetensors 模型生成 49 帧视频,分辨率为 480x1024。

参数优化

参数类型参数名称推荐值可调范围影响
采样器采样方法euler_ancestral多种算法生成风格和稳定性
采样器调度器sgm_uniform多种选项噪声调度方式
采样器步数3020-50质量与速度平衡
采样器CFG Scale85-12提示词遵循程度
采样器去噪强度10.5-1创意自由度
视频设置帧数4925-100视频长度
视频设置帧率168-30播放速度
视频设置循环播放truetrue/falseWEBP循环设置
视频设置质量9050-100输出文件质量

提示词技巧

有效的提示词结构

[地点/环境],[人物特征],[动作描述],[服装描述],[肢体语言/姿态],[光线氛围]

示例提示词

大理扎染坊中,白族姑娘俯身展开靛蓝布料,盘扣衬衫被浑圆胸型撑得微微绽开,阔腿裤在弯腰时绷出惊人臀腰比,银饰项圈陷入锁骨窝,两颊高原红比染缸里的茜草更明艳。

优化建议

  1. 添加 ModelSamplingSD3 节点:显著提高生成质量,特别是对复杂场景
  2. 负面提示词设计:控制不需要的特征,避免常见生成问题
  3. 使用合适的参考图像:高质量、构图清晰的参考图能提升结果质量
  4. 显存管理
    • 8GB 显存:使用 fp8 模型生成短片段 480P 视频
    • 16GB 显存:可使用 fp16 模型生成 720P 视频
    • 24GB+ 显存:可生成更长时间的高质量 720P 视频

常见问题

  1. 显存不足:尝试使用 fp8 模型、减少帧数或降低分辨率
  2. 生成质量不佳:检查提示词质量和参考图像清晰度,增加采样步数
  3. 生成速度慢:视频生成是计算密集型任务,可在不需要最高质量时使用轻量级模型
  4. 选择合适模型:根据硬件和需求选择 - 追求质量选 14B 版本,优先考虑速度选 1.3B 版本
镜像信息
@Faych
已使用
119
镜像大小100GB
最近编辑2025-03-10
支持卡型
RTX40系30903080TiP4048G RTX40系
+5
框架版本
PyTorch-2.5.0
CUDA版本
12.4
应用
JupyterLab: 8888
版本
v1.0
2025-05-19
PyTorch:2.5.0 | CUDA:12.4 | 大小:100.00GB
优云智算 | ComfyUI-Wanx-I2V一键部署