镜像社区
部署GPU实例
文档中心
常见问题(FAQ)
LLM
语音
深度学习
Voila-语音语言模型
Voila是一个超越人类反应速度的开源语音大模型,专为实时情感对话而设计。作为由美国加州大学圣地亚哥分校、阿联酋穆罕默德·本·扎耶德人工智能大学以及Maitrix.org团队共同开发的革命性语音基础模型,Voila采用端到端架构,实现了195ms超快响应,支持百万音色和10秒声音克隆,是构建有温度AI语音交互系统的理想选择。
0/小时
v1.0

项目介绍

Voila 是一系列全新的大型语音语言基础模型,旨在将人机交互体验提升到全新高度。Voila 突破了传统语音 AI 系统的限制——高延迟、语音细节缺失和机械响应——采用创新的端到端模型设计和新颖的分层 Transformer 架构。这种方法可实现实时、自主且丰富的语音交互,延迟低至 195 毫秒,超越人类的平均响应时间。Voila 结合先进的语音和语言建模,提供可定制的个性化互动体验,并在从自动语音识别 (ASR)、文本合成 (TTS) 到六种语言的语音翻译等一系列音频任务中表现出色。

项目地址:https://github.com/maitrix-org/Voila

快速开始

1 安装与配置

# 1. 克隆项目仓库
git clone https://github.com/maitrix-org/Voila.git
cd Voila

# 3. 安装项目依赖
pip install -r requirements.txt

# 4. 验证安装
python -c "import torch; print('PyTorch version:', torch.__version__)"

2 模型下载与准备

Voila提供多个预训练模型供不同场景使用:

  • maitrix-org/Voila-audio-alpha:音频优化版本
  • maitrix-org/Voila-base:基础版本
  • maitrix-org/Voila-chat:对话优化版本
  • maitrix-org/Voila-autonomous-preview:自主交互预览版

模型会在首次运行时自动下载,或可手动预下载:

# 预下载模型(可选)
python -c "from transformers import AutoModel; AutoModel.from_pretrained('maitrix-org/Voila-base')"

3 快速体验

方式一:Gradio Web界面(推荐)

# 启动Web界面
python gradio_demo.py

启动后访问 http://外部IP:7860 开始体验!

image.png

镜像信息
@敢敢のwings
已使用
4
镜像大小90GB
最近编辑2025-06-19
支持卡型
3080Ti3090RTX40系48G RTX40系A100A800
+6
框架版本
PyTorch-CUDA12.1+torch2.1.1
CUDA版本
12.1
应用
JupyterLab: 8888
自定义开放端口
7860
+1
版本
v1.0
2025-06-20
PyTorch:CUDA12.1+torch2.1.1 | CUDA:12.1 | 大小:90.00GB