阿里巴巴通义实验室推出的Wan-S2V是一款先进的AI模型,它能通过一张静态图片和一段音频(如说话或唱歌)自动生成高质量、口型同步的电影级视频。该模型不仅能产生逼真的面部表情和身体动作,还支持复杂的场景渲染和专业运镜效果,适用于对话、演唱、表演等多种专业创作场景,在多项关键技术指标上达到行业领先水平。
建议租用48GB显存的4090
复制启动命令并运行
source venv/bin/activate && python main.py --listen 0.0.0.0 --port 8188