镜像社区
部署GPU实例
模型API
文档中心
常见问题(FAQ)
SVC-WebUI
在线AI翻唱SVC训练,本地般丝滑体验,支持上传压缩文件,支持网页端打包训练好的模型并下载,无需命令行,由网页端自动处理,支持一键清空训练缓存,追求的就是高效率
0
0/小时
v1.1

AiMusicLab-SVC-WebUI镜像

在线AI翻唱SVC训练,本地般丝滑体验,支持上传压缩文件,支持网页端打包训练好的模型并下载,无需命令行,由网页端自动处理,支持网页端一键清空训练缓存,追求的就是高效率

镜像信息

基于bilibili@羽毛布団 SVC 4.1-Stable v2.3.18 整合包搭建
本镜像由:AiMusicLab@乔大峰 搭建并且完全免费,请勿用于商业活动或引流目的

功能支持

  • 无需复制ip地址,直接点击公网ip链接访问WebUI
  • 推理界面底部支持一键打包选中的训练好的模型
  • 支持导入zip直接分片时自动输出到训练目录
  • 支持分片时自动对文件进行降噪并后台做响度统一
  • 修复网页端推理单个文件时接口超时的问题
  • 支持网页端批量推理(将文件放置在指定目录即可)
  • 除训练素材上传、批量推理外,其他功能均已在网页端实现
  • 增加停止训练主模型和扩散模型按钮,不需要按ctrl+c结束
  • 训练过程中自动保存模型的文件名在训练步数后面增加了reference_loss参数
  • 模型联动选择,模型和配置文件只需要同样编号开头(如1.xxx.pt),即可一键选择
  • 新增“清空训练环境”功能,一键清理所有训练相关数据

使用方法:

立即部署这个镜像

点击访问镜像链接:一键部署:SVC-WebUI

在此页面右侧点击使用该镜像创建实例

QQ20250902-185529.png

在新页面选择配置以及付费方式后,点击立即部署

2ac38d66-71e9-4d81-9f12-be5c82b2b109.png

开机后,等待左侧显示运行中。再等待1分钟左右,再点击JupyterLab按钮如下图,如果弹出的页面没反应,继续等待,然后刷新页面,还是不行点旁边的重启,重新来一次。

b353d5f7-3f2a-4ee1-b678-04e8d23ccec0.png

1. 启动 WebUI 和 TensorBoard(可选,非必须)

  1. 运行 WebUI: 点击快速开始.ipynb标签,点击选中启动webui的代码框,前面会出现一条蓝色方块(🟦),在窗口上面的工具栏,有一个像“播放”符号(▶)的按钮,点它!

VeryCapture_20250902095307.png

等待片刻

QQ20250902-095532.png

控制台会输出一个公网IP链接,点击即可访问WebUI界面。

  1. 运行 TensorBoard (可选,用于查看训练曲线): 点击启动ensorBoard.ipynb标签,点击选中启动tensorboard的代码框,前面会出现一条蓝色方块(🟦),在窗口上面的工具栏,有一个像“播放”符号(▶)的按钮,点它!
    VeryCapture_20250902095839.png 等待片刻
    VeryCapture_20250902100125.png 控制台会输出一个公网IP链接,点击即可访问TensorBoard界面。

2. 导入训练素材

根据您的素材类型,选择以下导入方法:

训练素材种类a: 如果你有已经切片的音频文件:

a.1 如果素材是压缩文件 (.zip):

  1. 上传压缩包: 将包含您已切片音频的 .zip 压缩包上传到以下目录: /workspace/workdir/so-vits-svc/dataset_raw/
    • QQ20250902-100818.png 压缩包内部结构要求:
    • 推荐: 压缩包内应该包含一个文件夹(例如 /speaker0/),speaker0 文件夹内是已经切片5-15秒左右的wav格式音频文件。
    • 示例:
      your_dataset.zip
      ├───speaker0/
      │   ├───audio_001.wav
      │   ├───audio_002.wav
      │   └───...
      
    • QQ20250902-100637.png
  2. 在 WebUI 中识别数据集:
    • 在 WebUI 界面中,切换到 训练 标签页。
    • 点击 识别数据集 按钮 (主要按钮)。
    • 系统会自动检测 /workdir/so-vits-svc/dataset_raw/ 目录下的 .zip 文件。
    • 解压逻辑:
      • 如果 /workdir/so-vits-svc/dataset_raw/ 目录下没有其他说话人目录,系统会自动解压最新日期的 .zip 文件。
      • 解压后,所有 .wav 音频文件将被统一移动到 /workdir/so-vits-svc/dataset_raw/speaker0/ 目录下,并重命名为 file_0000.wav, file_0001.wav 等规范格式。
      • 原始 .zip 文件将被删除。
    • 原始数据集目录识别结果 文本框中,您应该看到类似 数据集识别通过,找到以下说话人目录:speaker0 的信息。

a.2 如果素材是目录(已解压)下的音频文件:

  1. 上传文件: 在/workdir/so-vits-svc/dataset_raw/下面新建说话人目录,(例如 my_speaker_data) 将您已切片音频上传到以下目录: /workdir/so-vits-svc/dataset_raw/my_speaker_data/ 目录内部结构要求:
    • 您的文件夹名称应只包含英文、数字、下划线。
    • 文件夹内直接是 .wav 音频文件。
    • 示例:
      dataset_raw/
      └───my_speaker_data/
          ├───audio_001.wav
          ├───audio_002.wav
          └───...
      

在 WebUI 中识别数据集: * 在 WebUI 界面中,切换到 训练 标签页。 * 点击 识别数据集 按钮 (主要按钮)。 * 在 原始数据集目录识别结果 文本框中,您应该看到类似 数据集识别通过,找到以下说话人目录:my_speaker_data 的信息。 * QQ20250902-110145.png

训练素材种类b:如果你有没有切片的原唱干声(原始音频):

  1. 上传原始音频: 将您的原始音频文件(例如歌曲干声、录音等)上传到以下目录: /workspace/workdir/so-vits-svc/a_slicer_fold/

    • 您可以直接上传音频文件,也可以是一个 .zip 压缩包。
    • QQ20250902-102201.png
  2. 切片方法:

    • 运行WebUI。
    • 在 WebUI 界面中,切换到 小工具/实验室特性 标签页。
    • 点击 智能音频切片 子标签。
    • 原始音频文件夹 输入框中,确保路径为 /workspace/workdir/so-vits-svc/a_slicer_fold/ (通常默认就是)。
    • 点击 加载原始音频 按钮 (主要按钮)。系统会识别 a_slicer_fold/ 中的文件,并自动为您建议一个 输出目录 (例如 dataset_raw/speaker0)。
    • (可选)配置降噪: 如果您的原始音频有背景噪音,可以展开 人声降噪设置
      • 勾选 启用降噪
      • 重要: 调整 噪声估计起始秒数噪声估计结束秒数,确保该时间段内只有纯背景噪音,没有人声。
      • 调整 噪声过减因子 (Alpha)噪声地板因子 (Beta) (通常默认值即可)。
      • 点击 应用降噪设置 按钮 (主要按钮) 保存配置。
    • 调整 切片的最长秒数切片的最短秒数 (推荐默认值 15 和 4)。
    • 点击 开始切片 按钮 (主要按钮)。
    • 切片完成后,在 输出信息 中会显示切片结果的统计信息。切片后的音频将自动保存到 dataset_raw/speaker0/ 目录下。
    • QQ20250902-102626.png

3. 数据预处理与训练

  1. 数据预处理:
    • 在 WebUI 界面中,切换到 训练 标签页。
    • 确认 原始数据集目录识别结果 显示正确。
    • 选择 选择训练使用的编码器选择训练使用的f0预测器
    • 根据需要勾选 是否使用浅扩散模型是否启用响度嵌入和音量增强是否启用TINY训练
    • 点击 数据预处理 按钮 (主要按钮)。
    • 等待预处理完成,并检查 预处理输出信息 是否有报错。
    • QQ20250902-111442.png
  2. 写入配置文件:
    • 训练 标签页,检查并调整 填写训练设置和超参数 部分的参数(例如 批量大小学习率 等)。
    • 如果需要训练扩散模型,展开 扩散模型配置 并调整相关参数。
    • 点击 写入配置文件 按钮 (主要按钮)。
    • QQ20250902-111722.png
  3. 开始训练:
    • 点击 从头开始训练 按钮 (主要按钮) 或 继续上一次的训练进度 按钮 (主要按钮)。
    • 如果需要训练扩散模型,点击 从头训练扩散模型 按钮 (主要按钮) 或 继续训练扩散模型 按钮 (主要按钮)。
    • 训练将在后台进行,您可以在运行 WebUI 的终端窗口查看训练日志,或通过 TensorBoard 监控训练进度。
    • QQ20250902-112016.png

4. 下载训练好的模型

您可以通过以下两种方式下载训练好的模型:

a. 网页端下载 (推荐,适用于打包好的模型):

  1. 在 WebUI 界面中,切换到 推理 标签页。
  2. 确保您已加载了想要打包的模型(或在下拉框中选择)。
    • QQ20250902-112743.png
  3. 在页面底部找到 模型打包 部分。
  4. 打包模型名称 输入框中填写您希望的模型名称(例如 my_new_voice)。
  5. 点击 打包当前选择的模型 按钮 (主要按钮)。
    • QQ20250902-113354.png
  6. 打包完成后,在 下载打包文件 区域会出现一个可下载的 .zip 文件链接,点击即可下载。

b. 使用 SFTP 工具下载 (适用于原始模型文件):

推荐使用客户端:winscp 或其他 SFTP 工具。 连接到您的镜像实例,然后前往以下目录下载您的模型文件(通常是 G_xxxx.pth): /workspace/workdir/so-vits-svc/logs/44k

5. 清空训练环境,方便下次直接运行

警告:此操作将删除以下目录中的所有内容,请务必提前备份重要数据!

  • /workspace/workdir/so-vits-svc/logs/44k/ (So-VITS模型和日志)
  • /workspace/workdir/so-vits-svc/dataset_raw/ (原始数据集)
  • /workspace/workdir/so-vits-svc/dataset/ (预处理后的数据集)
  • /workspace/workdir/so-vits-svc/raw/ (原始音频,如果存在)
  • /workspace/workdir/so-vits-svc/results/ (推理结果)
  • /workspace/workdir/so-vits-svc/a_slicer_fold/ (切片工具临时目录)
  • /workspace/workdir/so-vits-svc/a_piliang_tuili/ (批量推理临时目录)
  • /workspace/workdir/so-vits-svc/release_packs/ (模型打包临时目录)
  • 所有 .ipynb_checkpoints 目录

请在模型下载完成并检查无误后再执行此操作。

操作步骤: * QQ20250902-102858.png

  1. 在 WebUI 界面中,切换到 清空训练环境 标签页。
  2. 仔细阅读警告信息,确认您已备份所有重要数据。
  3. 点击 清空训练环境 按钮 (主要按钮)。
  4. 清空环境输出信息 文本框中,您将看到清理过程的日志。
镜像信息
@乔大峰
已使用6
运行时长
0 H
镜像大小
70GB
最后更新时间
2025-09-03
支持卡型
RTX40系48G RTX40系
+2
框架版本
PyTorch-2.5
CUDA版本
118
应用
JupyterLab: 8888
自定义开放端口
60066007
+2
版本
v1.1
2025-09-03
PyTorch:2.5 | CUDA:118 | 大小:70.00GB