Voila 是一系列全新的大型语音语言基础模型,旨在将人机交互体验提升到全新高度。Voila 突破了传统语音 AI 系统的限制——高延迟、语音细节缺失和机械响应——采用创新的端到端模型设计和新颖的分层 Transformer 架构。这种方法可实现实时、自主且丰富的语音交互,延迟低至 195 毫秒,超越人类的平均响应时间。Voila 结合先进的语音和语言建模,提供可定制的个性化互动体验,并在从自动语音识别 (ASR)、文本合成 (TTS) 到六种语言的语音翻译等一系列音频任务中表现出色。
项目地址:https://github.com/maitrix-org/Voila
# 1. 克隆项目仓库
git clone https://github.com/maitrix-org/Voila.git
cd Voila
# 3. 安装项目依赖
pip install -r requirements.txt
# 4. 验证安装
python -c "import torch; print('PyTorch version:', torch.__version__)"
Voila提供多个预训练模型供不同场景使用:
maitrix-org/Voila-audio-alpha
:音频优化版本maitrix-org/Voila-base
:基础版本maitrix-org/Voila-chat
:对话优化版本maitrix-org/Voila-autonomous-preview
:自主交互预览版模型会在首次运行时自动下载,或可手动预下载:
# 预下载模型(可选)
python -c "from transformers import AutoModel; AutoModel.from_pretrained('maitrix-org/Voila-base')"
# 启动Web界面
python gradio_demo.py
启动后访问 http://外部IP:7860
开始体验!