登录
微软开源VibeVoice ASR TTS集合webui语音到文本 文本到语音模型 二次卡发构建by科哥
微软开源VibeVoice ASR TTS集合webui语音到文本 文本到语音模型 二次卡发构建by科哥
star0
0/小时
v1.1

微软开源VibeVoice ASR TTS集合webui语音到文本 文本到语音模型 二次卡发构建by科哥

镜像简介

本镜像基于微软开源的VibeVoice模型,集成了ASR语音识别与TTS语音合成功能,并配备了友好的WebUI界面。用户可通过该工具实现语音到文本的精准转换,以及高质量文本到语音的生成。适用于语音助手开发、多语种内容创作、无障碍服务及语音交互系统等场景,提供高效、便捷的一站式语音AI解决方案。

镜像使用教程

创建实例后点击【SD-WebUI】即可进入操作页面

image.png

运行截图

image.png

image.png

VibeVoice ASR & TTS 用户使用手册

系统简介

VibeVoice ASR & TTS 是一个集成了语音识别(ASR)和语音合成(TTS)功能的 WebUI 系统。

核心功能:

  • 🎤 语音识别: 将音频转换为文字(支持中英文)
  • 🔊 语音合成: 将文字转换为语音(支持多语言)

访问地址: http://localhost:7860


快速开始

启动系统

./start_app.sh

启动后,在浏览器中访问 http://localhost:7860


语音识别(ASR)使用指南

1. 上传音频

系统支持三种方式提供音频:

方式一:文件上传

  1. 点击 "文件上传" 标签
  2. 点击上传区域选择音频文件
  3. 支持格式:WAV, MP3, FLAC, M4A, MP4(视频)

方式二:录音

  1. 点击 "录音" 标签
  2. 点击麦克风图标开始录音
  3. 再次点击停止录音

方式三:录视频

  1. 点击 "录视频" 标签
  2. 允许浏览器访问摄像头和麦克风
  3. 点击录制按钮开始录制
  4. 系统会从视频中提取音频进行识别

2. 预览音频

上传或录制完成后,音频会自动显示在 "媒体预览" 区域:

  • 可以播放预览音频
  • 可以调整播放进度
  • 确认音频正确后再进行识别

3. 选择模型

"Whisper 模型" 下拉框中选择识别模型:

模型特点推荐场景
base轻量快速快速测试、实时识别
small平衡性能日常使用(推荐)

💡 提示: 下拉框只显示已下载的模型。如需使用其他模型,请先下载。

4. 高级配置(可选)

点击 "高级配置" 展开更多选项:

  • 最大生成令牌数: 控制识别长度(默认 224,范围 1-400)
  • 自定义上下文(热词): 输入专业术语,用逗号分隔
  • 启用采样: 开启后可调整温度和 Top-p 参数
  • 温度: 控制输出随机性(0-1,默认 0.7)
  • Top-p 采样: 控制输出多样性(0-1,默认 0.9)

⚠️ 注意: 一般情况下使用默认设置即可,无需调整高级参数。

5. 开始识别

点击 "转录" 按钮开始识别。

识别过程中会显示进度,完成后结果会显示在输出区域。

6. 查看结果

系统提供四种输出方式:

原始输出

  • 显示识别的文字内容
  • 自动按句分行,方便阅读
  • 可以直接复制文本

音频分段

  • 显示带时间戳的分段结果
  • 点击时间按钮可跳转到对应位置播放
  • 适合查看详细的识别过程

视频字幕

  • 如果上传的是视频,会显示带字幕的视频播放器
  • 字幕会自动同步显示

下载字幕

  • 下载 SRT 格式的字幕文件
  • 可用于视频编辑软件

识别技巧

提升识别准确率的建议:

  1. 使用清晰的音频,避免背景噪音
  2. 音频音量适中,不要过大或过小
  3. 如有专业术语,在"自定义上下文"中添加
  4. 对于重要内容,建议使用 small 模型

语音合成(TTS)使用指南

1. 选择模型

"选择模型" 下拉框中选择 TTS 模型:

模型特点
0.5B (Realtime)实时合成,速度快(推荐)

2. 输入文本

"输入文本" 框中输入要合成的文字:

  • 支持中文和英文
  • 支持混合输入
  • 建议每次输入不超过 200 字

示例文本:

你好,这是一段测试文本。
Hello, this is a test.

3. 声音克隆(开发中)

"声音克隆(可选)" 功能目前处于开发中状态:

  • 该功能需要标准 VibeVoiceProcessor 支持
  • 当前版本暂不可用
  • 请使用系统预设的 voice presets

4. 开始合成

点击 "开始合成" 按钮。

合成过程:

  1. 系统加载模型(首次使用需要等待)
  2. 处理文本并生成音频
  3. 显示合成进度
  4. 完成后自动播放

5. 播放和下载

合成完成后:

  • 播放: 点击播放按钮试听
  • 下载: 点击下载按钮保存音频文件
  • 格式: WAV 格式,24kHz 采样率

6. 查看状态

"状态" 区域会显示:

  • 合成成功提示
  • 文件保存路径
  • 错误信息(如有)

合成技巧

获得更好音质的建议:

  1. 文本使用标准标点符号
  2. 避免过长的句子,适当分段
  3. 数字建议用中文表示(如"一百"而不是"100")
  4. 英文单词会自动识别并正确发音

常见问题

Q1: 识别结果不准确怎么办?

解决方法:

  1. 检查音频质量,确保清晰无噪音
  2. 尝试使用 small 模型
  3. 在"自定义上下文"中添加专业术语
  4. 如果是方言,识别效果可能不佳

Q2: 合成的语音听起来不自然?

解决方法:

  1. 检查文本标点符号是否正确
  2. 避免过长的句子
  3. 当前版本使用的是 0.5B 模型,音质已经较好
  4. 如需更高质量,可等待后续版本支持更大模型

Q3: 上传音频后一直 loading?

可能原因:

  1. 音频文件过大(建议小于 100MB)
  2. 网络连接问题
  3. 浏览器兼容性问题

解决方法:

  1. 尝试压缩音频文件
  2. 刷新页面重试
  3. 使用 Chrome 或 Firefox 浏览器

Q4: 选择模型后无响应?

可能原因:

  • 选择的模型未下载

解决方法:

  • 只选择下拉框中显示的模型
  • 下拉框会自动过滤未下载的模型

Q5: 如何处理长音频?

建议方法:

  1. 将长音频分段处理
  2. 每段建议不超过 10 分钟
  3. 使用音频编辑软件(如 Audacity)分割音频

Q6: 支持哪些语言?

ASR(语音识别):

  • 主要支持:中文、英文
  • 其他语言识别效果可能不佳

TTS(语音合成):

  • 支持:中文、英文
  • 自动识别语言并使用对应发音

使用场景

场景一:会议记录

  1. 录制会议音频
  2. 上传到 ASR 进行识别
  3. 下载 SRT 字幕文件
  4. 整理成会议纪要

场景二:视频字幕制作

  1. 上传视频文件
  2. 使用 ASR 识别生成字幕
  3. 下载 SRT 文件
  4. 导入视频编辑软件

场景三:有声读物制作

  1. 准备文本内容
  2. 使用 TTS 合成语音
  3. 下载音频文件
  4. 制作成有声读物

场景四:语音备忘录

  1. 使用录音功能记录想法
  2. 立即识别为文字
  3. 保存或分享文字内容

性能参考

识别速度

  • base 模型: 1 分钟音频约需 10-20 秒
  • small 模型: 1 分钟音频约需 20-30 秒

合成速度

  • 短文本(10 字): 约 3 秒
  • 中等文本(50 字): 约 10 秒
  • 长文本(200 字): 约 30 秒

文件大小

  • 识别音频: 建议小于 100MB
  • 合成文本: 建议每次不超过 200 字
  • 输出音频: 约 1MB/分钟(24kHz WAV)

快捷操作

键盘快捷键

浏览器标准快捷键:

  • Ctrl + C: 复制识别结果
  • Ctrl + V: 粘贴文本到输入框
  • Space: 播放/暂停音频

批量处理建议

如需处理多个文件:

  1. 逐个上传处理
  2. 每次处理完成后复制结果
  3. 汇总到文档中

💡 提示: 未来版本可能支持批量处理功能。


注意事项

隐私和安全

⚠️ 重要提示:

  1. 所有处理都在本地服务器进行
  2. 音频和文本不会上传到外部服务器
  3. 生成的文件保存在 outputs/ 目录
  4. 建议定期清理输出文件

使用限制

  1. 仅供研究使用: VibeVoice 目前仅用于研究目的
  2. AI 生成声明: TTS 生成的音频包含 AI 生成声明
  3. 音频水印: 生成的音频包含不可感知的水印
  4. 版权: 请遵守相关法律法规,不要用于非法用途

系统要求

推荐配置:

  • CPU: 4 核心以上
  • 内存: 8GB 以上
  • GPU: NVIDIA GPU(可选,显著提升速度)
  • 显存: 4GB 以上(使用 GPU 时)
  • 浏览器: Chrome, Firefox, Edge(最新版本)

技术支持

获取帮助

如遇到问题:

  1. 查看本使用手册
  2. 查看 README.md 了解技术细节
  3. 查看 todo.md 了解已知问题

反馈建议

欢迎提供使用反馈和改进建议。


版权信息

webUI 二次开发 by 科哥 | 微信:312088415 公众号:科哥玩AI

承诺永远开源使用,但需要保留版权信息!


文档版本: 1.0.0 最后更新: 2026-01-22

@科哥AIGC
科哥AIGC认证作者
镜像信息
已使用5
运行时长
0 H
支持自启动
镜像大小
60GB
最后更新时间
2026-01-22
支持卡型
3090RTX40系RTX50系48G RTX40系2080Ti3080Ti2080A800H20P40V100SA100
+12
框架版本
PyTorch-2.8
CUDA版本
12.8
应用
JupyterLab: 8888
版本
v1.1
2026-01-22
PyTorch:2.8 | CUDA:12.8 | 大小:60.00GB
logo

隶属于优刻得科技股份有限公司

股票代码:688158

优刻得是中立、安全的云计算服务平台