快速上手大型语言模型。安装版本为ollama 0.3.14
运行并与 Llama 3.2 聊天:
ollama serve
ollama run llama3.2
from openai import OpenAI
client = OpenAI(
base_url=http://localhost:11434/v1/,
# required but ignored
api_key=ollama,
)
chat_completion = client.chat.completions.create(
messages=[
{
role: user,
content: Say this is a test,
}
],
model=llama3.2,
)
response = client.chat.completions.create(
model=llava,
messages=[
{
role: user,
content: [
{type: text, text: Whats in this image?},
{
type: image_url,
image_url: ,
},
],
}
],
max_tokens=300,
)
completion = client.completions.create(
model=llama3.2,
prompt=Say this is a test,
)
list_completion = client.models.list()
model = client.models.retrieve(llama3.2)
embeddings = client.embeddings.create(
model=all-minilm,
input=[why is the sky blue?, why is the grass green?],
)
Ollama 支持多个模型,完整列表可在 [ollama.com/library](https://ollama.com/library ollama 模型库) 查看。
以下是一些可下载的示例模型:
模型 | 参数 | 大小 | 下载命令 |
---|---|---|---|
Llama 3.2 | 3B | 2.0GB | ollama run llama3.2 |
Llama 3.2 | 1B | 1.3GB | ollama run llama3.2:1b |
Llama 3.1 | 8B | 4.7GB | ollama run llama3.1 |
Llama 3.1 | 70B | 40GB | ollama run llama3.1:70b |
Llama 3.1 | 405B | 231GB | ollama run llama3.1:405b |
Phi 3 Mini | 3.8B | 2.3GB | ollama run phi3 |
Phi 3 Medium | 14B | 7.9GB | ollama run phi3:medium |
Gemma 2 | 2B | 1.6GB | ollama run gemma2:2b |
Gemma 2 | 9B | 5.5GB | ollama run gemma2 |
Gemma 2 | 27B | 16GB | ollama run gemma2:27b |
Mistral | 7B | 4.1GB | ollama run mistral |
Moondream 2 | 1.4B | 829MB | ollama run moondream |
Neural Chat | 7B | 4.1GB | ollama run neural-chat |
Starling | 7B | 4.1GB | ollama run starling-lm |
Code Llama | 7B | 3.8GB | ollama run codellama |
Llama 2 Uncensored | 7B | 3.8GB | ollama run llama2-uncensored |
LLaVA | 7B | 4.5GB | ollama run llava |
Solar | 10.7B | 6.1GB | ollama run solar |
[!注意] 运行 7B 模型需至少 8GB RAM,13B 模型需 16GB RAM,33B 模型需 32GB RAM。
Ollama 支持从 GGUF 导入模型到 Modelfile:
创建名为 Modelfile
的文件,并在其中添加包含要导入的模型本地文件路径的 FROM
指令。
FROM ./vicuna-33b.Q4_0.gguf
在 Ollama 中创建模型
ollama create example -f Modelfile
运行模型
ollama run example
更多信息请参见导入模型的 指南。
可以使用提示自定义 Ollama 库中的模型。例如,来自定义 llama3.2
模型:
ollama pull llama3.2
创建 Modelfile
:
FROM llama3.2
# 设置温度为 1 [越高越有创意,越低越一致]
PARAMETER temperature 1
# 设置系统消息
SYSTEM
你是马里奥,请以马里奥助手的身份回答。
接着,创建并运行模型:
ollama create mario -f ./Modelfile
ollama run mario
>>> 你好
你好!我是你的朋友马里奥。
更多示例请见 examples 目录。有关使用 Modelfile 的详细信息,请参见 Modelfile 文档。
ollama create
用于从 Modelfile 创建模型。
ollama create mymodel -f ./Modelfile
ollama pull llama3.2
此命令也可用于更新本地模型,仅下载差异部分。
ollama rm llama3.2
ollama cp llama3.2 my-model
对于多行输入,可以使用 `` 包裹文本:
>>> 你好,
... 世界!
...
我是一个简单的程序,用于打印经典的“你好,世界!”消息。
ollama run llava 这张图片里有什么? /Users/jmorgan/Desktop/smile.png
图片中是一个黄色的笑脸,可能是图片的中心主题。
$ ollama run llama3.2 总结这个文件内容:$(cat README.md)
Ollama 是一个轻量且可扩展的框架,用于在本地机器上构建和运行语言模型。它提供了简单的 API,用于创建、运行和管理模型,还提供了一个预构建模型库,方便在各种应用中使用。
ollama show llama3.2
ollama list
ollama ps
ollama stop llama3.2
ollama serve
可用于无需启动桌面应用直接运行 Ollama。
Ollama 提供了用于运行和管理模型的 REST API。
curl http://localhost:11434/api/generate -d {
model: llama3.2,
prompt:为什么天空是蓝色的?
}
curl http://localhost:11434/api/chat -d {
model: llama3.2,
messages: [
{ role: user, content: 为什么天空是蓝色的? }
]
}
查看 API 文档 了解所有端点。