1MOSS-TTS-v1.5 音色克隆,文字转语音TTS,效果非常稳定,相似度高,支持30种语言,精准控制停顿,拼音,长参考音频+短目标文本的克隆更可靠!
无需任何配置,一键运行,然后通过公网IP访问生成服务。
1.支持任意时刻停顿:用户可以在文本中插入类似 [pause 3.2s] 的标记,精确控制语音中的停顿时长。
2.更强大的多语言性能:模型目前支持 31 种语言,覆盖中文、粤语、英语、日语、韩语、法语、德语、西班牙语、阿拉伯语、印地语、越南语、泰语等多种语言场景,适用于跨语言内容创作、国际化产品语音、教育、播客、有声内容和智能语音交互等应用。
3.更稳定的音色克隆 MOSS-TTS-v1.5 重点优化了音色克隆的一致性。对于需要反复生成同一角色、同一主播或同一品牌声音的场景,新版本在说话人相似度和多次生成稳定性上表现更好;同时,它对“长参考音频、短目标文本”的克隆场景更加可靠,降低了实际内容生产中的试错成本。
详细步骤,可在 B站 余子越TalkTalk 博主页面搜索 MOSS-TTS 观看视频教程!

认证作者
支持自启动