控制台

立即注册

Voila-语音语言模型

Voila是一个超越人类反应速度的开源语音大模型，专为实时情感对话而设计。作采用端到端架构，实现了195ms超快响应，支持百万音色和10秒声音克隆，是构建有温度AI语音交互系统的理想选择。

0元/小时

v1.0

Voila-语音语言模型

项目介绍

Voila 是一系列全新的大型语音语言基础模型，旨在将人机交互体验提升到全新高度。Voila 突破了传统语音 AI 系统的限制——高延迟、语音细节缺失和机械响应——采用创新的端到端模型设计和新颖的分层 Transformer 架构。这种方法可实现实时、自主且丰富的语音交互，延迟低至 195 毫秒，超越人类的平均响应时间。Voila 结合先进的语音和语言建模，提供可定制的个性化互动体验，并在从自动语音识别 (ASR)、文本合成 (TTS) 到六种语言的语音翻译等一系列音频任务中表现出色。

项目地址：https://github.com/maitrix-org/Voila

使用步骤

1. 待实例初始化完成后，在控制台-应用中打开”JupyterLab“

2. 进入Jupyter后，新建一个终端Terminal，输入以下指令

cd Voila
python gradio_demo.py

3. 启动后访问 http://外部IP:7860 开始体验！外部IP可以在控制台-基础网络（外）中获取；成功进入web界面如下图所示

快速开始

1 安装与配置

# 1. 克隆项目仓库
git clone https://github.com/maitrix-org/Voila.git
cd Voila

# 3. 安装项目依赖
pip install -r requirements.txt

# 4. 验证安装
python -c "import torch; print('PyTorch version:', torch.__version__)"

2 模型下载与准备

Voila提供多个预训练模型供不同场景使用：

maitrix-org/Voila-audio-alpha：音频优化版本
maitrix-org/Voila-base：基础版本
maitrix-org/Voila-chat：对话优化版本
maitrix-org/Voila-autonomous-preview：自主交互预览版

模型会在首次运行时自动下载，或可手动预下载：

# 预下载模型（可选）
python -c "from transformers import AutoModel; AutoModel.from_pretrained('maitrix-org/Voila-base')"

3 快速体验

方式一：Gradio Web界面（推荐）

# 启动Web界面
python gradio_demo.py

启动后访问 http://外部IP:7860 开始体验！

@敢敢のwings

认证作者

镜像信息

已使用16 次

运行时长

6 H

镜像大小

90GB

最后更新时间

2026-02-03

支持卡型

RTX40系20803080Ti309048G RTX40系2080TiH20A800P40A100RTX50系V100SV100S

+13

框架版本

PyTorch-CUDA12.1+torch2.1.1

CUDA版本

12.1

应用

JupyterLab: 8888

自定义开放端口

7860

版本

v1.0

2026-02-03

PyTorch:CUDA12.1+torch2.1.1 | CUDA:12.1 | 大小:90.00GB

隶属于优刻得科技股份有限公司

股票代码：688158

优刻得是中立、安全的云计算服务平台

友情链接 :

优刻得

产品

GPU实例 GPU镜像社区模型API服务 Coding Plan

快速入口

文档中心 API文档用户协议

镜像合集

AI4S 数字人 TTS语音 Wan2.2 视频超分