WAN 2.1 是一套高质量的视频生成模型系列,支持从文本到视频和从图像到视频的转换。本文档详细介绍模型特性、安装步骤和优化使用方法。
WAN 2.1 提供两个主要版本:
参数 | 14B FP8版本 | 1.3B FP16版本 |
---|---|---|
模型大小 | 约7GB | 约2GB |
显存要求 | ≥16GB | ≥8GB |
推荐GPU | RTX 3090/4090 | RTX 3060及以上 |
支持分辨率 | 480P至720P | 主要480P |
生成速度 | 较慢 | 较快 |
视觉质量 | 优秀 | 良好 |
视频方向 | 推荐分辨率 | 用途 |
---|---|---|
横向视频 | 1024×576 | 16:9比例,适合一般场景 |
竖向视频 | 480×1024 | 9:19.2比例,适合移动设备 |
正方形 | 768×768 | 1:1比例,适合社交媒体 |
umt5_xxl_fp8_e4m3fn_scaled.safetensors
- 放置于: ComfyUI/models/text_encoders/
wan_2.1_vae.safetensors
- 放置于: ComfyUI/models/vae/
CLIP-ViT-H-14-laion2B-s32B-b79K.safetensors
- 放置于: ComfyUI/models/clip_vision/
启动镜像后,在控制台位置,如图所示直接点击“ComfyUI”即可使用
模型类型 | 模型文件名 | 大小 | 精度 | 推荐使用 | 备注 |
---|---|---|---|---|---|
文本到视频 | wan2.1_t2v_1.3B_bf16.safetensors | 2.84 GB | BF16 | 轻量版 | |
文本到视频 | wan2.1_t2v_1.3B_fp16.safetensors | 2.84 GB | FP16 | ✓ | 轻量版,最高质量 |
文本到视频 | wan2.1_t2v_14B_bf16.safetensors | 28.6 GB | BF16 | 高质量版 | |
文本到视频 | wan2.1_t2v_14B_fp16.safetensors | 28.6 GB | FP16 | 高质量版,最佳效果 | |
文本到视频 | wan2.1_t2v_14B_fp8_e4m3fn.safetensors | 14.3 GB | FP8 | ✓ | 显存优化版 |
文本到视频 | wan2.1_t2v_14B_fp8_scaled.safetensors | 14.3 GB | FP8 | 显存优化版,更高质量 | |
图像到视频(480P) | wan2.1_i2v_480p_14B_bf16.safetensors | 32.8 GB | BF16 | 标准分辨率 | |
图像到视频(480P) | wan2.1_i2v_480p_14B_fp16.safetensors | 32.8 GB | FP16 | ✓ | 标准分辨率,最高质量 |
图像到视频(480P) | wan2.1_i2v_480p_14B_fp8_e4m3fn.safetensors | 16.4 GB | FP8 | ✓ | 显存友好版 |
图像到视频(480P) | wan2.1_i2v_480p_14B_fp8_scaled.safetensors | 16.4 GB | FP8 | 显存友好版,质量更好 | |
图像到视频(720P) | wan2.1_i2v_720p_14B_bf16.safetensors | 32.8 GB | BF16 | 高分辨率 | |
图像到视频(720P) | wan2.1_i2v_720p_14B_fp16.safetensors | 32.8 GB | FP16 | ✓ | 高分辨率,最高质量 |
图像到视频(720P) | wan2.1_i2v_720p_14B_fp8_e4m3fn.safetensors | 16.4 GB | FP8 | ✓ | 高分辨率,显存友好 |
图像到视频(720P) | wan2.1_i2v_720p_14B_fp8_scaled.safetensors | 16.4 GB | FP8 | 高分辨率,显存友好且质量更好 |
所有扩散模型文件应放置于:ComfyUI/models/diffusion_models/
模型质量排名(从高到低):fp16 > bf16 > fp8_scaled > fp8_e4m3fn
使用
wan2.1_i2v_480p_14B_fp8_e4m3fn.safetensors
模型生成 33 帧视频,分辨率为 768x1024。适合日常使用,对显存要求较低。
使用
wan2.1_i2v_720p_14B_fp8_e4m3fn.safetensors
模型生成 53 帧视频,分辨率为 768x1088。处理时间较长但质量更高。
使用
wan2.1_t2v_1.3B_fp16.safetensors
模型生成 49 帧视频,分辨率为 480x1024。
使用
wan2.1_t2v_14B_fp8_e4m3fn.safetensors
模型生成 49 帧视频,分辨率为 480x1024。
参数类型 | 参数名称 | 推荐值 | 可调范围 | 影响 |
---|---|---|---|---|
采样器 | 采样方法 | euler_ancestral | 多种算法 | 生成风格和稳定性 |
采样器 | 调度器 | sgm_uniform | 多种选项 | 噪声调度方式 |
采样器 | 步数 | 30 | 20-50 | 质量与速度平衡 |
采样器 | CFG Scale | 8 | 5-12 | 提示词遵循程度 |
采样器 | 去噪强度 | 1 | 0.5-1 | 创意自由度 |
视频设置 | 帧数 | 49 | 25-100 | 视频长度 |
视频设置 | 帧率 | 16 | 8-30 | 播放速度 |
视频设置 | 循环播放 | true | true/false | WEBP循环设置 |
视频设置 | 质量 | 90 | 50-100 | 输出文件质量 |
[地点/环境],[人物特征],[动作描述],[服装描述],[肢体语言/姿态],[光线氛围]
大理扎染坊中,白族姑娘俯身展开靛蓝布料,盘扣衬衫被浑圆胸型撑得微微绽开,阔腿裤在弯腰时绷出惊人臀腰比,银饰项圈陷入锁骨窝,两颊高原红比染缸里的茜草更明艳。
ModelSamplingSD3
节点:显著提高生成质量,特别是对复杂场景