镜像社区
部署GPU实例
文档中心
常见问题(FAQ)
通义
ComfyUI
ComfyUI-Wanx-T2V
ComfyUI Native实现wan2.1(通义万象)。
0/小时
v1.0

WAN 2.1 文本生成视频模型

模型简介

WAN 2.1 是一款强大的文本到视频(T2V)生成模型,专为创建流畅、高质量的视频内容而设计。该模型提供两个版本:全尺寸14B参数版本(支持FP8精度)和轻量级1.3B参数版本,可根据不同硬件条件灵活选择。

主要特点

  • 高效能生成:14B版本使用FP8精度(e4m3fn)优化,在保持质量的同时大幅减少显存占用
  • 分辨率灵活:支持480×1024等多种常用分辨率
  • 多帧输出:默认生成49帧视频,可根据需要调整
  • 流畅过渡:专为创建连贯、自然的动态视频序列优化
  • 强大文本表现:能理解并精确表现中文描述的场景、服饰和动作细节

技术规格表

参数14B FP8版本1.3B FP16版本
模型大小约7GB约2GB
显存要求≥16GB≥8GB
推荐GPURTX 3090/4090RTX 3060及以上
支持分辨率480P至720P主要480P
生成速度较慢较快
视觉质量优秀良好
提示词理解全面精确基础理解

支持分辨率参考

视频方向推荐分辨率备注
横向视频1024×57616:9比例,适合一般场景
竖向视频480×10249:19.2比例,适合移动设备
正方形768×7681:1比例,适合社交媒体

安装要求

系统要求

  • ComfyUI最新版本
  • Python 3.10+
  • 支持CUDA的NVIDIA GPU

模型文件

  1. 下载所需模型文件:

    • 14B版本:

      • wan2.1_t2v_14B_fp8_e4m3fn.safetensors (主模型)
      • umt5_xxl_fp8_e4m3fn_scaled.safetensors (CLIP模型)
      • wan_2.1_vae.safetensors (VAE模型)
    • 1.3B版本:

      • wan2.1_t2v_1.3B_fp16.safetensors (主模型)
      • umt5_xxl_fp8_e4m3fn_scaled.safetensors (CLIP模型)
      • wan_2.1_vae.safetensors (VAE模型)
  2. 将文件放置于ComfyUI模型目录下对应文件夹

使用参数表

参数类型参数名称推荐值可调范围影响
采样器采样方法euler_ancestral多种算法生成风格和稳定性
采样器调度器sgm_uniform多种选项噪声调度方式
采样器步数3020-50质量与速度平衡
采样器CFG Scale85-12提示词遵循程度
采样器去噪强度10.5-1创意自由度
视频设置帧数4925-100视频长度
视频设置帧率168-30播放速度
视频设置循环播放truetrue/falseWEBP循环设置
视频设置质量9050-100输出文件质量

提示词技巧

有效的提示词结构

[地点/环境],[人物特征],[动作描述],[服装描述],[肢体语言/姿态],[光线氛围]

示例提示词

大理扎染坊中,白族姑娘俯身展开靛蓝布料,盘扣衬衫被浑圆胸型撑得微微绽开,阔腿裤在弯腰时绷出惊人臀腰比,银饰项圈陷入锁骨窝,两颊高原红比染缸里的茜草更明艳。

镜像信息
@Faych
已使用
26
镜像大小80GB
最近编辑2025-03-05
支持卡型
RTX40系30903080TiP4048G RTX40系
+5
框架版本
PyTorch-2.5.0
CUDA版本
12.4
应用
JupyterLab: 8888
版本
v1.0
2025-05-19
PyTorch:2.5.0 | CUDA:12.4 | 大小:80.00GB