镜像社区
部署GPU实例
文档中心
常见问题(FAQ)
LLM
深度学习
ollama-0.4.1
ollama-0.4.1
0/小时
v1.0

Ollama 0.3.14 镜像介绍

快速上手大型语言模型。安装版本为ollama 0.3.14

镜像快速使用教程

运行并与 Llama 3.2 聊天:

1. 先选择GPU型号,再点击立即部署

image

2. 待实例初始化完成后,在控制台-应用中打开“JupyterLab”;进入JupyterLab后,新建终端运行如下命令,用于启动ollama服务

ollama serve

3. 不要关闭前一个运行的终端,再新建一个终端,运行如下命令加载大模型,通常的命令格式为:ollama run 模型名:模型参数

ollama run llama3.2

当运行结果如下图所示时,即可在对话框开始和模型开启对话

image

python demo

from openai import OpenAI

client = OpenAI(
    base_url=http://localhost:11434/v1/,

    # required but ignored
    api_key=ollama,
)

chat_completion = client.chat.completions.create(
    messages=[
        {
            role: user,
            content: Say this is a test,
        }
    ],
    model=llama3.2,
)

response = client.chat.completions.create(
    model=llava,
    messages=[
        {
            role: user,
            content: [
                {type: text, text: Whats in this image?},
                {
                    type: image_url,
                    image_url: ,
                },
            ],
        }
    ],
    max_tokens=300,
)

completion = client.completions.create(
    model=llama3.2,
    prompt=Say this is a test,
)

list_completion = client.models.list()

model = client.models.retrieve(llama3.2)

embeddings = client.embeddings.create(
    model=all-minilm,
    input=[why is the sky blue?, why is the grass green?],
)

模型库

Ollama 支持多个模型,完整列表可在 [ollama.com/library](https://ollama.com/library ollama 模型库) 查看。

以下是一些可下载的示例模型:

模型参数大小下载命令
Llama 3.23B2.0GBollama run llama3.2
Llama 3.21B1.3GBollama run llama3.2:1b
Llama 3.18B4.7GBollama run llama3.1
Llama 3.170B40GBollama run llama3.1:70b
Llama 3.1405B231GBollama run llama3.1:405b
Phi 3 Mini3.8B2.3GBollama run phi3
Phi 3 Medium14B7.9GBollama run phi3:medium
Gemma 22B1.6GBollama run gemma2:2b
Gemma 29B5.5GBollama run gemma2
Gemma 227B16GBollama run gemma2:27b
Mistral7B4.1GBollama run mistral
Moondream 21.4B829MBollama run moondream
Neural Chat7B4.1GBollama run neural-chat
Starling7B4.1GBollama run starling-lm
Code Llama7B3.8GBollama run codellama
Llama 2 Uncensored7B3.8GBollama run llama2-uncensored
LLaVA7B4.5GBollama run llava
Solar10.7B6.1GBollama run solar

[!注意] 运行 7B 模型需至少 8GB RAM,13B 模型需 16GB RAM,33B 模型需 32GB RAM。

自定义模型

从 GGUF 导入

Ollama 支持从 GGUF 导入模型到 Modelfile:

  1. 创建名为 Modelfile 的文件,并在其中添加包含要导入的模型本地文件路径的 FROM 指令。

    FROM ./vicuna-33b.Q4_0.gguf
    
  2. 在 Ollama 中创建模型

    ollama create example -f Modelfile
    
  3. 运行模型

    ollama run example
    

从 PyTorch 或 Safetensors 导入

更多信息请参见导入模型的 指南

自定义提示

可以使用提示自定义 Ollama 库中的模型。例如,来自定义 llama3.2 模型:

ollama pull llama3.2

创建 Modelfile

FROM llama3.2

# 设置温度为 1 [越高越有创意,越低越一致]
PARAMETER temperature 1

# 设置系统消息
SYSTEM 
你是马里奥,请以马里奥助手的身份回答。

接着,创建并运行模型:

ollama create mario -f ./Modelfile
ollama run mario
>>> 你好
你好!我是你的朋友马里奥。

更多示例请见 examples 目录。有关使用 Modelfile 的详细信息,请参见 Modelfile 文档。

CLI 参考

创建模型

ollama create 用于从 Modelfile 创建模型。

ollama create mymodel -f ./Modelfile

下载模型

ollama pull llama3.2

此命令也可用于更新本地模型,仅下载差异部分。

删除模型

ollama rm llama3.2

复制模型

ollama cp llama3.2 my-model

多行输入

对于多行输入,可以使用 `` 包裹文本:

>>> 你好,
... 世界!
... 
我是一个简单的程序,用于打印经典的“你好,世界!”消息。

多模态模型

ollama run llava 这张图片里有什么? /Users/jmorgan/Desktop/smile.png
图片中是一个黄色的笑脸,可能是图片的中心主题。

通过参数传递提示

$ ollama run llama3.2 总结这个文件内容:$(cat README.md)
 Ollama 是一个轻量且可扩展的框架,用于在本地机器上构建和运行语言模型。它提供了简单的 API,用于创建、运行和管理模型,还提供了一个预构建模型库,方便在各种应用中使用。

显示模型信息

ollama show llama3.2

列出计算机上的模型

ollama list

列出当前加载的模型

ollama ps

停止当前正在运行的模型

ollama stop llama3.2

启动 Ollama

ollama serve 可用于无需启动桌面应用直接运行 Ollama。

REST API

Ollama 提供了用于运行和管理模型的 REST API。

生成响应

curl http://localhost:11434/api/generate -d {
  model: llama3.2,
  prompt:为什么天空是蓝色的?
}

与模型聊天

curl http://localhost:11434/api/chat -d {
  model: llama3.2,
  messages: [
    { role: user, content: 为什么天空是蓝色的? }
  ]
}

查看 API 文档 了解所有端点。

社区集成

Web & 桌面

镜像信息
@苍耳阿猫
已使用
26
镜像大小40GB
最近编辑2024-11-13
支持卡型
RTX40系48G RTX40系2080
+3
框架版本
PyTorch-2.3.0
CUDA版本
12.4
应用
JupyterLab: 8888
版本
v1.0
2025-07-02
PyTorch:2.3.0 | CUDA:12.4 | 大小:40.00GB