Ollama:从入门到进阶 本文从开源工具Ollama的核心价值出发,系统介绍了其在大型语言模型(LLM)领域的应用优势。作为免费开源平台,Ollama显著降低了LLM的使用门槛,支持一键下载和管理Llama 3、Mistral等热门模型。文档详细解析了跨平台安装方法(macOS/Windows/Linux/Docker)、命令行操作流程(模型拉取、运行、交互),以及关键环境变量配置。重点阐述了基于HTTP的API设计,涵盖文本生成、多轮对话、模型管理等核心端点,并提供Python/JavaScript/curl的完整调用示例。此外,深入说明了Ollama与OpenAI API的兼容性方案,助力开发者无缝迁移现有项目,展现了其作为轻量级LLM部署方案的实用价值。 近年来,大型语言模型(LLM)以其强大的文本生成和理解能力,成为了人工智能领域的中坚力量。商业 LLM 的价格通常高昂且代码封闭,限制了研究者和开发者的探索空间。幸运的是,开源社区提供了像 Ollama 这样优秀的替代方案,让每个人都能够轻松体验 LLM 的魅力,并能结合 HPC 和 IDE 插件,打造更强大的个人助手。 什么是 Ollama?Ollama 是一个用于构建大型语言模型应用的工具,它提供了一个简洁易用的命令行界面和服务器,让你能够轻松下载、运行和管理各种开源 LLM。与需要复杂配置和强大硬件的传统 LLM 不同,Ollama 让你能够方便地像使用手机 App 一样体验 LLM 的强大功能。 Ollama 的优势Ollama 拥有以下显著优势: · 开源免费: Ollama 及其支持的模型完全开源免费,任何人都可以自由使用、修改和分发。
· 简单易用: 无需复杂的配置和安装过程,只需几条命令即可启动和运行 Ollama。
· 模型丰富: Ollama 支持 Llama 3、Mistral、Qwen2 等众多热门开源 LLM,并提供一键下载和切换功能。
· 资源占用低: 相比于商业 LLM,Ollama 对硬件要求更低,即使在普通笔记本电脑上也能流畅运行。
· 社区活跃: Ollama 拥有庞大且活跃的社区,用户可以轻松获取帮助、分享经验和参与模型开发。 如何使用 Ollama?使用 Ollama 非常简单,只需要按照以下步骤: · 安装 Ollama: 根据你的操作系统,从 Ollama 官网 下载并安装最新版本。
· 启动 Ollama: 打开终端或命令行,输入 ollama serve 命令启动 Ollama 服务器。
· 下载模型: 在模型仓库 找到想要的模型,然后使用 ollama pull 命令下载,例如 ollama pull llama3:70b 。
· 运行模型: 使用 ollama run 命令启动模型,例如 ollama run llama3:70b 。
· 开始聊天: 在终端中输入你的问题或指令,Ollama 会根据模型生成相应的回复。 安装 OllamamacOSWindowsLinuxcurl -fsSL https://ollama.com/install.sh | shDockerCPU 版本docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollamaGPU 版本docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama启动 Ollamaollama serve输出以下信息表示 Ollama 服务器已成功启动(V100 机器): $ ollama serve### 省略的日志输出 ###Listening on [::]:11434 (version 0.1.42)下载模型ollama pull deepseek-r1:1.5b运行模型ollama run deepseek-r1:1.5b例如,运行如下命令后: $ ollama run deepseek-r1:1.5b>>> who are you<think></think>Greetings! I'm DeepSeek-R1, an artificial intelligence assistant created by DeepSeek. I'm at your service andwould be delighted to assist you with any inquiries or tasks you may have.>>> Send a message (/? for help)Docker 容器中运行模型docker exec -it ollama ollama run deepseek-r1:1.5b配置 OllamaOllama 提供了多种环境变量以供配置: 名称解释默认值
OLLAMA_DEBUG是否开启调试模式false
OLLAMA_FLASH_ATTENTION是否闪烁注意力true
OLLAMA_HOSTOllama 服务器的主机地址empty
OLLAMA_KEEP_ALIVE保持连接的时间5m
OLLAMA_LLM_LIBRARYLLM 库empty
OLLAMA_MAX_LOADED_MODELS最大加载模型数1
OLLAMA_MAX_QUEUE最大队列数empty
OLLAMA_MAX_VRAM最大虚拟内存empty
OLLAMA_MODELS模型目录empty
OLLAMA_NOHISTORY是否保存历史记录false
OLLAMA_NOPRUNE是否启用剪枝false
OLLAMA_NUM_PARALLEL并行数1
OLLAMA_ORIGINS允许的来源empty
OLLAMA_RUNNERS_DIR运行器目录empty
OLLAMA_SCHED_SPREAD调度分布empty
OLLAMA_TMPDIR临时文件目录emptyOllama API 交互Ollama 提供了基于 HTTP 的 API,允许开发者通过编程方式与模型进行交互。 本文将详细介绍 Ollama API 的详细使用方法,包括请求格式、响应格式以及示例代码。 1. 启动 Ollama 服务在使用 API 之前,需要确保 Ollama 服务正在运行。可以通过以下命令启动服务: ollama serve设置环境变量OLLAMA_HOST = 0.0.0.0// OLLAMA_MODELS = D:\ModelsOLLAMA_ORIGINS = *2. API 端点Ollama 提供了以下主要 API 端点: 生成文本(Generate Text)端点:POST /api/generate功能:向模型发送提示词(prompt),并获取生成的文本。请求格式:{ "model": "<model-name>", // 模型名称 "prompt": "<input-text>", // 输入的提示词 "stream": false, // 是否启用流式响应(默认 false) "options": { // 可选参数 "temperature": 0.7, // 温度参数 "max_tokens": 100 // 最大 token 数 }}响应格式:{ "response": "<generated-text>", // 生成的文本 "done": true // 是否完成}聊天(Chat)端点:POST /api/chat功能:支持多轮对话,模型会记住上下文。请求格式:{ "model": "<model-name>", // 模型名称 "messages": [ // 消息列表 { "role": "user", // 用户角色 "content": "<input-text>" // 用户输入 } ], "stream": false, // 是否启用流式响应 "options": { // 可选参数 "temperature": 0.7, "max_tokens": 100 }}响应格式:{ "message": { "role": "assistant", // 助手角色 "content": "<generated-text>" // 生成的文本 }, "done": true}列出本地模型(List Models)端点:GET /api/tags功能:列出本地已下载的模型。响应格式:{ "models": [ { "name": "<model-name>", // 模型名称 "size": "<model-size>", // 模型大小 "modified_at": "<timestamp>" // 修改时间 } ]}拉取模型(Pull Model)端点:POST /api/pull功能:从模型库中拉取模型。请求格式:{ "name": "<model-name>" // 模型名称}响应格式:{ "status": "downloading", // 下载状态 "digest": "<model-digest>" // 模型摘要}3. 使用示例生成文本使用 curl 发送请求: curl http://localhost:11434/api/generate -d '{ "model": "deepseek-r1:1.5b", "prompt": "你好,你能帮我写一段代码吗?", "stream": false}'多轮对话使用 curl 发送请求: curl http://localhost:11434/api/chat -d '{ "model": "deepseek-r1:1.5b", "messages": [ { "role": "user", "content": "你好,你能帮我写一段 Python 代码吗?" } ], "stream": false}'列出本地模型使用 curl 发送请求: curl http://localhost:11434/api/tags拉取模型使用 curl 发送请求: curl http://localhost:11434/api/pull -d '{ "name": "deepseek-r1:1.5b"}'4. 流式响应Ollama 支持流式响应(streaming response),适用于实时生成文本的场景。 ##启用流式响应
在请求中设置 "stream": true,API 会逐行返回生成的文本。 curl http://localhost:11434/api/generate -d '{ "model": "deepseek-r1:1.5b", "prompt": "你好,你能帮我写一段代码吗?", "stream": true}'响应格式每行返回一个 JSON 对象: { "response": "<partial-text>", // 部分生成的文本 "done": false // 是否完成}5. 编程语言示例Python 使用 requests 库与 Ollama API 交互: import requests# 生成文本response = requests.post( "http://localhost:11434/api/generate", json={ "model": "deepseek-r1:1.5b", "prompt": "你好,你能帮我写一段代码吗?", "stream": False })print(response.json())多轮对话:response = requests.post( "http://localhost:11434/api/chat", json={ "model": "deepseek-r1:1.5b", "messages": [ { "role": "user", "content": "你好,你能帮我写一段 Python 代码吗?" } ], "stream": False })print(response.json())JavaScript 使用 fetch API 与 Ollama 交互: // 生成文本fetch("http://localhost:11434/api/generate", { method: "POST", headers: { "Content-Type": "application/json" }, body: JSON.stringify({ model: "deepseek-r1:1.5b", prompt: "你好,你能帮我写一段代码吗?", stream: false })}) .then(response => response.json()) .then(data => console.log(data));多轮对话: fetch("http://localhost:11434/api/chat", { method: "POST", headers: { "Content-Type": "application/json" }, body: JSON.stringify({ model: "deepseek-r1:1.5b", messages: [ { role: "user", content: "你好,你能帮我写一段 Python 代码吗?" } ], stream: false })}) .then(response => response.json()) .then(data => console.log(data));Ollama OpenAI API 交互使用方法OpenAI Python 库 from openai import OpenAIclient = OpenAI( base_url='http://localhost:11434/v1/', # required but ignored api_key='ollama',)chat_completion = client.chat.completions.create( messages=[ { 'role': 'user', 'content': 'Say this is a test', } ], model='deepseek-r1:1.5b',)response = client.chat.completions.create( model="llava", messages=[ { "role": "user", "content": [ {"type": "text", "text": "What's in this image?"}, { "type": "image_url", "image_url": "", }, ], } ], max_tokens=300,)completion = client.completions.create( model="deepseek-r1:1.5b", prompt="Say this is a test",)list_completion = client.models.list()model = client.models.retrieve("deepseek-r1:1.5b")embeddings = client.embeddings.create( model="all-minilm", input=["why is the sky blue?", "why is the grass green?"],)OpenAI JavaScript 库import OpenAI from "openai";const openai = new OpenAI({ baseURL: "http://localhost:11434/v1/", // required but ignored apiKey: "ollama",});const chatCompletion = await openai.chat.completions.create({ messages: [{ role: "user", content: "Say this is a test" }], model: "deepseek-r1:1.5b",});const response = await openai.chat.completions.create({ model: "llava", messages: [ { role: "user", content: [ { type: "text", text: "What's in this image?" }, { type: "image_url", image_url: "", }, ], }, ],});const completion = await openai.completions.create({ model: "deepseek-r1:1.5b", prompt: "Say this is a test.",});const listCompletion = await openai.models.list();const model = await openai.models.retrieve("deepseek-r1:1.5b");const embedding = await openai.embeddings.create({ model: "all-minilm", input: ["why is the sky blue?", "why is the grass green?"],});curlcurl http://localhost:11434/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "deepseek-r1:1.5b", "messages": [ { "role": "system", "content": "You are a helpful assistant." }, { "role": "user", "content": "Hello!" } ] }'curl http://localhost:11434/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "llava", "messages": [ { "role": "user", "content": [ { "type": "text", "text": "What'\''s in this image?" }, { "type": "image_url", "image_url": { "url": "" } } ] } ], "max_tokens": 300 }'curl http://localhost:11434/v1/completions \ -H "Content-Type: application/json" \ -d '{ "model": "deepseek-r1:1.5b", "prompt": "Say this is a test" }'curl http://localhost:11434/v1/modelscurl http://localhost:11434/v1/models/deepseek-r1:1.5bcurl http://localhost:11434/v1/embeddings \ -H "Content-Type: application/json" \ -d '{ "model": "all-minilm", "input": ["why is the sky blue?", "why is the grass green?"] }'端点/v1/chat/completions支持的功能[x] Chat completions
[x] 流式传输
[x] JSON 模式
[x] 可重复的输出
[x] 视觉
[x] 工具(流式传输支持即将推出)
[ ] 对数概率 支持的请求字段[x] model
[x] messages
[x] 文本 content
[x] 图像 content
[x] Base64 编码的图像
[ ] 图像 URL
[x] content 部分的数组
[x] frequency_penalty
[x] presence_penalty
[x] response_format
[x] seed
[x] stop
[x] stream
[x] temperature
[x] top_p
[x] max_tokens
[x] tools
[ ] tool_choice
[ ] logit_bias
[ ] user
[ ] n /v1/completions支持的功能[x] Completions
[x] 流式传输
[x] JSON 模式
[x] 可重复的输出
[ ] 对数概率 支持的请求字段[x] model
[x] prompt
[x] frequency_penalty
[x] presence_penalty
[x] seed
[x] stop
[x] stream
[x] temperature
[x] top_p
[x] max_tokens
[x] suffix
[ ] best_of
[ ] echo
[ ] logit_bias
[ ] user
[ ] n 注意事项prompt 目前仅接受字符串 /v1/models注意事项created 对应模型最后修改的时间
owned_by 对应 ollama 用户名,默认为 "library" /v1/models/{model}注意事项created 对应模型最后修改的时间
owned_by 对应 ollama 用户名,默认为 "library" /v1/embeddings支持的请求字段[x] model
[x] input
[x] 字符串
[x] 字符串数组
[ ] 令牌数组
[ ] 令牌数组的数组
[ ] encoding format
[ ] dimensions
[ ] user 模型在使用模型之前,请将其拉取到本地 ollama pull: ollama pull deepseek-r1:1.5b默认模型名称对于依赖默认 OpenAI 模型名称(如 gpt-3.5-turbo)的工具,使用 ollama cp 将现有模型名称复制到一个临时名称: ollama cp deepseek-r1:1.5b gpt-3.5-turbo之后,这个新的模型名称可以指定在 model 字段中: curl http://localhost:11434/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "gpt-3.5-turbo", "messages": [ { "role": "user", "content": "Hello!" } ] }'设置上下文大小OpenAI API 没有提供设置模型上下文大小的方法。如果你需要更改上下文大小,可以创建一个 Modelfile,其内容如下: FROM <some model>PARAMETER num_ctx <context size>使用 ollama create mymodel 命令创建一个具有更新上下文大小的新模型。使用更新后的模型名称调用 API: curl http://localhost:11434/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "deepseek-r1:1.5b", "messages": [ { "role": "user", "content": "Hello!" } ] }
|