Fish Speech
是一个强大的开源文本转语音(TTS)模型,相较于之前的版本,Fish Speech 1.5版本大幅提升了 Zero-Shot 能力,可以直接使用预训练模型进行推理,只需提供参考音频来指定音色。
此镜像包含了运行 Fish Speech 1.5 所需的所有环境和模型,不需要进行额外的环境搭建操作,咱们直接快速开始!
cd /root/workdir/fish-speech
/root/miniconda3/bin/python tools/run_webui.py --compile
WebUI 服务默认运行在6006
端口,启动成功后你可以在控制台看到如下输出:
http://<公网IP>:6006
打开 WebUI 页面:对于具有独特音色的角色音频,直接使用预训练模型进行推理的效果可能会比较差,所以需要进行微调模型。镜像中已经预置了三个jupyter文件,用于指导你一步步从数据准备阶段、预处理数据、训练模型直到完成微调,并使用微调后的模型进行推理,下面简单介绍一下主要的微调步骤:
/root/workdir/MSST/input
目录下:bash /root/workdir/MSST/putong.sh
/root/workdir/MSST/results
目录中,输入以下命令将它移动到/root/workdir/audio-slicer/input
目录中:mv results/*_vocals_noreverb.wav /root/workdir/audio-slicer/input/
# 进入切割文件夹
cd /root/workdir/audio-slicer/
# 开始切割
bash start.sh
/root/miniconda3/bin/python audio-killer.py
auto-VITS-DataLabeling/raw_audio
中:# 移动音频文件到标注文件夹
mv output/*.wav ../auto-VITS-DataLabeling/raw_audio
准备好音频数据后,可以打开fish speech(使用).ipynb
并按照步骤进行操作:
使用 auto-VITS-DataLabeling
工具对音频进行标注,并对标注后的数据进行预处理:<dirname>
——<modeldir 1>
——model.pth
——xxx.json
——<modeldir 2>
——model.pth
——xxx.json
融合后的模型保存在/root/workdir/fish-speech/output/fish-speech-1.5-yth-lora
中。,这里只提供一个文件夹,用于测试融合后的模型,后续融合的模型会覆盖掉之前融合的,这是你推理所需要的模型。
不同于前面运行 Fish Speech 1.5 (WebUI)的步骤,为了使用微调后的模型进行推理,这一步需要增加--llama-checkpoint-path
参数指定来使用微调后的模型目录路径,默认为output/fish-speech-1.5-yth-lora:
cd /root/workdir/fish-speech
/root/miniconda3/bin/python -m tools.run_webui \
--llama-checkpoint-path "output/fish-speech-1.5-yth-lora" \
--compile
WebUI 服务默认运行在6006
端口,启动成功后的使用步骤就跟Fish Speech 1.5 (WebUI)
一样啦!
Enjoy it!
aiguoliuguo-镜像作者交流群