镜像作者:bilibili@爱过_留过
交流群:172701496
详细文档地址:https://r1kc63iz15l.feishu.cn/wiki/JSp3wk7zuinvIXkIqSUcCXY1nKc
镜像使用交流群
通过镜像可以一键部署实例,部署成功后,可以在实例列表中看到实例对应的公网IP:
启动 WebUI 服务 按顺序执行以下命令,启动 WebUI 服务:
cd /root/MSST
export MPLBACKEND=Agg
/root/miniconda3/bin/python webUI.py --use_cloud --language "zh_CN" -d --model_download_link "hf-mirror.com" --ip_address "0.0.0.0" --port "7860"
WebUI 服务默认运行在7860
端口,启动成功后你可以在控制台看到如下输出:
接着,通过本地浏览器访问http://<公网IP>:7860
打开 WebUI 页面:
官方为中文用户提供了一些详细的中文文档,点击 这里 跳转,下面我以
MSST分离
功能作为示例进行演示。
点击顶部导航栏中的MSST分离选项,来到MSST分离功能页。
MSST提供了三种模型类型:
multi_stem_models
)single_stem_models)
, 通常只提取两个音轨:目标音轨和剩余音频vocal_models
)
这里我选择使用vocal_models
类型和melband_roformer_instvox_duality_v2.ckpt
模型来分离人声和伴奏:wav
、flac
和 mp3
格式输出。高级输出设置请参阅音频输出设置。输入文件夹
上传)。
这里我部署实例时选择了2张RTX4090显卡,所以可以看到两个GPU选项,两个都可以勾选上:batch_size
:一次处理的批次数。默认为1,增大此值会增加显存占用,但对速度提升有限。建议保持默认值。num_overlap
:窗口重叠长度。数值越小推理速度越快,但效果会有所牺牲。建议设为4以平衡速度和质量,设为2可显著提升速度但牺牲部分质量。chunksize
:音频切片大小。增大此值可以提高分离效果,但会增加处理时间和显存占用。建议设为44100的整数倍或0.5倍(如5倍、7.5倍、10倍等),以确保模型正常工作。这里我选择输入音频,上传了一个待处理的音频文件:
这里建议将超长音频进行切分,最好每段不超过1小时,以避免出现内存不足的问题。
完成上述参数设置,并且等待音频上传完成后,点击输入音频按钮即可开始分离:
你的硬件配置、选择的模型以及模型的参数设置将会影响到音频分离所需的时间,稍等片刻,分离完成后将会在输出信息(Output Message)中提示处理结果和保存文件的目录路径:
分离完成后,我们需要到文件管理页点击刷新input
和results
文件列表按钮,必须刷新后才能看到上一步完成分离后的文件列表。
刷新后,在results文件列表中可以看到分离的人声和伴奏音频文件:
最后,点击打包results文件夹内所有文件按钮,将results文件夹内所有的音频文件打包成压缩包后,就可以点击下载了:
资源