0
本手册指导用户如何使用 SenseVoice WebUI 进行语音识别
/bin/bash /root/run.sh
在浏览器中打开:
http://localhost:7860
┌─────────────────────────────────────────────────────────┐
│ [紫蓝渐变标题] SenseVoice WebUI │
│ webUI二次开发 by 科哥 | 微信:312088415 │
├─────────────────────────────────────────────────────────┤
│ 📖 使用说明 │
├──────────────────────┬──────────────────────────────────┤
│ 🎤 上传音频 │ 💡 示例音频 │
│ 🌐 语言选择 │ - zh.mp3 (中文) │
│ ⚙️ 配置选项 │ - en.mp3 (英文) │
│ 🚀 开始识别 │ - ja.mp3 (日语) │
│ 📝 识别结果 │ - ko.mp3 (韩语) │
└──────────────────────┴──────────────────────────────────┘
方式一:上传文件
方式二:麦克风录音
点击 🌐 语言选择 下拉菜单,选择识别语言:
| 语言 | 说明 |
|---|---|
| auto | 自动检测(推荐) |
| zh | 中文 |
| en | 英文 |
| yue | 粤语 |
| ja | 日语 |
| ko | 韩语 |
| nospeech | 无语音 |
点击 🚀 开始识别 按钮,等待识别完成。
识别时间:
识别结果会显示在 📝 识别结果 文本框中,包含:
文本内容:识别出的文字
情感标签(在文本末尾):
事件标签(在文本开头):
点击右侧 💡 示例音频 列表中的任意音频,可以快速体验:
| 示例 | 语言 | 内容特点 |
|---|---|---|
| zh.mp3 | 中文 | 日常对话 |
| yue.mp3 | 粤语 | 粤语识别 |
| en.mp3 | 英文 | 英文朗读 |
| ja.mp3 | 日语 | 日文识别 |
| ko.mp3 | 韩语 | 韩文识别 |
| emo_1.wav | 自动 | 情感识别示例 |
| rich_1.wav | 自动 | 综合识别示例 |
点击 ⚙️ 配置选项 展开高级设置(通常无需修改):
| 选项 | 说明 | 默认值 |
|---|---|---|
| 语言 | 识别语言 | auto |
| use_itn | 逆文本正则化 | True |
| merge_vad | 合并 VAD 分段 | True |
| batch_size_s | 动态批处理 | 60秒 |
开放时间早上9点至下午5点。😊
The tribal chieftain called for the boy and presented him with 50 pieces of gold.
🎼😀欢迎收听本期节目,我是主持人小明。😊
A: 检查音频文件是否损坏,尝试重新上传。
A:
A:
A: 点击识别结果文本框右侧的复制按钮。
开发: 科哥 联系方式: 微信 312088415 开源承诺: 承诺永远开源使用,保留本人版权信息
技术支持: FunAudioLLM/SenseVoice
最后更新: 2026-01-04
SenseVoice WebUI 是一个功能强大的多语言语音识别 Web 应用,支持语音识别(ASR)、情感识别(SER)和事件检测(AED)。本镜像基于 FunAudioLLM/SenseVoice 项目进行二次开发,提供现代化的用户界面和开箱即用的使用体验。
本镜像构建和运行所需的基础环境。
框架及版本:
Python版本: Python 3.12 (conda py312 虚拟环境)
CUDA版本: CUDA 11.8 / cuDNN 8(支持GPU加速,自动检测)
其他依赖:
bash scripts/start_app.sh
启动脚本会自动:
./models/ 目录(首次运行)浏览器访问:http://localhost:7860
模型配置文件位于 config/settings.yaml,可修改:
默认端口 7860,可通过环境变量修改:
export PORT=8080
bash scripts/start_app.sh
from funasr import AutoModel
import torch
print("=== SenseVoice 环境验证 ===")
print(f"PyTorch 版本: {torch.__version__}")
print(f"CUDA 可用: {torch.cuda.is_available()}")
if torch.cuda.is_available():
print(f"CUDA 版本: {torch.version.cuda}")
print(f"GPU 设备: {torch.cuda.get_device_name(0)}")
# 测试模型加载
try:
model = AutoModel(
model="./models/SenseVoiceSmall",
vad_model="./models/vad_model",
trust_remote_code=True,
)
print("✅ 模型加载成功!")
except Exception as e:
print(f"❌ 模型加载失败: {e}")
# 检查 conda 环境
conda activate py312 && python --version
# 检查依赖
pip list | grep -E "torch|funasr|gradio"
# 检查模型文件
ls -lh ./models/SenseVoiceSmall/model.pt
ls -lh ./models/vad_model/model.pt
# 检查端口
lsof -i:7860
Q1:首次启动模型下载很慢怎么办?
A1: 模型约 900MB,下载时间取决于网络速度。如果下载中断,重新运行启动脚本会自动断点续传。也可以手动从 ModelScope 下载模型到 ./models/ 目录。
Q2:识别结果是乱码?
A2: 检查模型权重文件 model.pt 是否存在。确保符号链接指向正确的模型目录:
ls -la ./models/SenseVoiceSmall/model.pt # 应该显示约 893MB
Q3:GPU 内存不足怎么办?
A3: 在 config/settings.yaml 中设置 device: "cpu" 使用 CPU 推理,或者减小 batch_size_s 参数。
Q4:如何更改页面主题颜色?
A4: 编辑 webui.py 中的 custom_theme 部分,修改 primary_hue 和 secondary_hue 颜色值。
Q5:支持批量处理吗? A5: 当前版本支持单文件识别。批量处理功能可在 WebUI 上连续上传多个音频文件进行识别。
Q6:如何导出识别结果?
A6: 识别结果会显示在页面上,可以复制文本。结果也会保存到 ./outputs/outputs_YYYYMMDDHHMMSS/ 目录。
Q7:端口被占用无法启动? A7: 启动脚本会自动检测并终止占用 7860 端口的进程。如果仍然失败,手动检查:
lsof -ti:7860 | xargs kill -9
认证作者

支持自启动