在线AI翻唱SVC训练,本地般丝滑体验,支持上传压缩文件,支持网页端打包训练好的模型并下载,无需命令行,由网页端自动处理,支持网页端一键清空训练缓存,追求的就是高效率
基于bilibili@羽毛布団 SVC 4.1-Stable v2.3.18 整合包
搭建
本镜像由:AiMusicLab@乔大峰 搭建并且完全免费,请勿用于商业活动或引流目的
ctrl+c
结束reference_loss
参数点击访问镜像链接:一键部署:SVC-WebUI
在此页面右侧点击使用该镜像创建实例
在新页面选择配置以及付费方式后,点击立即部署
开机后,等待左侧显示运行中
。再等待1分钟左右,再点击JupyterLab
按钮如下图,如果弹出的页面没反应,继续等待,然后刷新页面,还是不行点旁边的重启
,重新来一次。
启动webui
的代码框,前面会出现一条蓝色方块(🟦),在窗口上面的工具栏,有一个像“播放”符号(▶)的按钮,点它!等待片刻
控制台会输出一个公网IP链接,点击即可访问WebUI界面。
启动tensorboard
的代码框,前面会出现一条蓝色方块(🟦),在窗口上面的工具栏,有一个像“播放”符号(▶)的按钮,点它!根据您的素材类型,选择以下导入方法:
a.1 如果素材是压缩文件 (.zip):
.zip
压缩包上传到以下目录:
/workspace/workdir/so-vits-svc/dataset_raw/
/speaker0/
),speaker0 文件夹内是已经切片5-15秒左右的wav格式音频文件。your_dataset.zip
├───speaker0/
│ ├───audio_001.wav
│ ├───audio_002.wav
│ └───...
训练
标签页。识别数据集
按钮 (主要按钮)。/workdir/so-vits-svc/dataset_raw/
目录下的 .zip
文件。/workdir/so-vits-svc/dataset_raw/
目录下没有其他说话人目录,系统会自动解压最新日期的 .zip
文件。.wav
音频文件将被统一移动到 /workdir/so-vits-svc/dataset_raw/speaker0/
目录下,并重命名为 file_0000.wav
, file_0001.wav
等规范格式。.zip
文件将被删除。原始数据集目录识别结果
文本框中,您应该看到类似 数据集识别通过,找到以下说话人目录:speaker0
的信息。a.2 如果素材是目录(已解压)下的音频文件:
my_speaker_data
)
将您已切片音频上传到以下目录:
/workdir/so-vits-svc/dataset_raw/my_speaker_data/
目录内部结构要求:
.wav
音频文件。dataset_raw/
└───my_speaker_data/
├───audio_001.wav
├───audio_002.wav
└───...
在 WebUI 中识别数据集:
* 在 WebUI 界面中,切换到 训练
标签页。
* 点击 识别数据集
按钮 (主要按钮)。
* 在 原始数据集目录识别结果
文本框中,您应该看到类似 数据集识别通过,找到以下说话人目录:my_speaker_data
的信息。
*
上传原始音频: 将您的原始音频文件(例如歌曲干声、录音等)上传到以下目录:
/workspace/workdir/so-vits-svc/a_slicer_fold/
.zip
压缩包。切片方法:
小工具/实验室特性
标签页。智能音频切片
子标签。原始音频文件夹
输入框中,确保路径为 /workspace/workdir/so-vits-svc/a_slicer_fold/
(通常默认就是)。加载原始音频
按钮 (主要按钮)。系统会识别 a_slicer_fold/
中的文件,并自动为您建议一个 输出目录
(例如 dataset_raw/speaker0
)。人声降噪设置
。
启用降噪
。噪声估计起始秒数
和 噪声估计结束秒数
,确保该时间段内只有纯背景噪音,没有人声。噪声过减因子 (Alpha)
和 噪声地板因子 (Beta)
(通常默认值即可)。应用降噪设置
按钮 (主要按钮) 保存配置。切片的最长秒数
和 切片的最短秒数
(推荐默认值 15 和 4)。开始切片
按钮 (主要按钮)。输出信息
中会显示切片结果的统计信息。切片后的音频将自动保存到 dataset_raw/speaker0/
目录下。训练
标签页。原始数据集目录识别结果
显示正确。选择训练使用的编码器
和 选择训练使用的f0预测器
。是否使用浅扩散模型
、是否启用响度嵌入和音量增强
、是否启用TINY训练
。数据预处理
按钮 (主要按钮)。预处理输出信息
是否有报错。训练
标签页,检查并调整 填写训练设置和超参数
部分的参数(例如 批量大小
、学习率
等)。扩散模型配置
并调整相关参数。写入配置文件
按钮 (主要按钮)。从头开始训练
按钮 (主要按钮) 或 继续上一次的训练进度
按钮 (主要按钮)。从头训练扩散模型
按钮 (主要按钮) 或 继续训练扩散模型
按钮 (主要按钮)。您可以通过以下两种方式下载训练好的模型:
推理
标签页。模型打包
部分。打包模型名称
输入框中填写您希望的模型名称(例如 my_new_voice
)。打包当前选择的模型
按钮 (主要按钮)。
下载打包文件
区域会出现一个可下载的 .zip
文件链接,点击即可下载。推荐使用客户端:winscp
或其他 SFTP 工具。
连接到您的镜像实例,然后前往以下目录下载您的模型文件(通常是 G_xxxx.pth
):
/workspace/workdir/so-vits-svc/logs/44k
警告:此操作将删除以下目录中的所有内容,请务必提前备份重要数据!
/workspace/workdir/so-vits-svc/logs/44k/
(So-VITS模型和日志)/workspace/workdir/so-vits-svc/dataset_raw/
(原始数据集)/workspace/workdir/so-vits-svc/dataset/
(预处理后的数据集)/workspace/workdir/so-vits-svc/raw/
(原始音频,如果存在)/workspace/workdir/so-vits-svc/results/
(推理结果)/workspace/workdir/so-vits-svc/a_slicer_fold/
(切片工具临时目录)/workspace/workdir/so-vits-svc/a_piliang_tuili/
(批量推理临时目录)/workspace/workdir/so-vits-svc/release_packs/
(模型打包临时目录).ipynb_checkpoints
目录请在模型下载完成并检查无误后再执行此操作。
操作步骤:
*
清空训练环境
标签页。清空训练环境
按钮 (主要按钮)。清空环境输出信息
文本框中,您将看到清理过程的日志。