0

开发者: 科哥 (微信: 312088415 | 公众号: 科哥玩AI) 仓库地址: https://github.com/kegeai888/FireRedASR2S-webui-WebUI 原始项目: https://github.com/FireRedTeam/FireRedASR2S
FireRedASR2S 是工业级全栈语音识别系统,支持:
本 WebUI 提供友好的图形界面,无需命令行即可使用。
bash download_models.sh
说明:
models/ 目录bash start_app.sh
说明:
点击"上传音频文件",选择你的音频文件。
支持格式:
音频长度限制:
模块开关:
ASR 类型:
点击"高级参数"展开:
| 参数 | 说明 | 推荐值 |
|---|---|---|
| Beam Size | 解码束宽,越大越准确但越慢 | 3 |
| ASR Batch Size | ASR 批处理大小 | 1 |
| Punc Batch Size | 标点批处理大小 | 1 |
| 使用 GPU | 是否使用 GPU 加速 | ✅ |
点击"🚀 开始识别"按钮,等待处理完成。
处理流程:
识别文本:
语言识别结果:
zh mandarin: 5 句完整结果(JSON):
文件下载:
每次识别会在 outputs/ 目录下创建时间戳文件夹:
outputs/
└── outputs_20260224112734/
├── result.json # 完整结果(JSON 格式)
├── normalized_16k_mono.wav # 转换后的音频
├── hello_zh.TextGrid # TextGrid 文件
└── hello_zh.srt # SRT 字幕文件
配置:
适用:
配置:
适用:
配置:
适用:
解决方案:
解决方案:
ffmpeg -i long.wav -f segment -segment_time 30 -c copy output%03d.wav
解决方案:
bash start_app.sh
解决方案:
start_app.sh 会自动释放端口lsof -ti:7860 | xargs kill -9
说明:
解决方案:
ffmpeg -i input.mp3 -ar 16000 -ac 1 -acodec pcm_s16le output.wav
如需批量处理或脚本调用,可使用 CLI:
python fireredasr2s/fireredasr2s_cli.py \
--wav_path audio.wav \
--enable_vad 1 \
--enable_lid 1 \
--enable_punc 1 \
--asr_type aed
批量处理:
python fireredasr2s/fireredasr2s_cli.py \
--wav_dir /path/to/audio_folder \
--asr_batch_size 4
详细参数:
python fireredasr2s/fireredasr2s_cli.py --help
遇到问题?
反馈建议?
本 WebUI 由科哥二次开发,承诺永远开源使用,但需保留版权信息。
原始 FireRedASR2S 项目版权归 Xiaohongshu 所有。
祝使用愉快! 🎉
认证作者

支持自启动