当前位置：首页 - 技术 - 正文

Enjoy life！

Ollama本地部署大模型完全指南：Llama3/DeepSeek一键运行

2026-04-22 | 技术 | sun | 8 次阅读

A⁺ A^-

先说结论：Ollama让本地运行大模型变得超简单

如果你还在为云端大模型API费用发愁，或者担心隐私数据泄露，那Ollama绝对是你的菜。我最近折腾了几天，发现这玩意儿真的香——Llama3、DeepSeek这些热门模型，在本地电脑上就能一键运行，响应速度还贼快。最爽的是，完全免费，数据都在自己手里。

今天我就把完整的部署流程、模型选择建议、性能优化技巧，还有如何通过API调用本地模型，全都整理出来。跟着做，半小时内你就能在本地跑起自己的大模型。

一、Ollama安装配置：比你想的还简单

Ollama支持Windows、macOS和Linux，安装过程基本就是“下一步”到底。

1. 下载安装

Windows/macOS：直接去官网下载安装包，双击安装就行
Linux：一行命令搞定：curl -fsSL https://ollama.com/install.sh | sh

安装完成后，打开终端（或命令提示符），输入ollama --version，能看到版本号就说明安装成功了。

2. 第一次运行

Ollama默认会在后台启动服务，端口是11434。你可以通过浏览器访问http://localhost:11434，看到Ollama的API文档页面，说明服务正常运行。

二、模型选择：7B、13B还是70B？

这是很多人纠结的问题。我实测了几个主流模型，给你个直观对比：

1. 参数规模与性能

7B模型（如Llama3-8B、DeepSeek-Coder-7B）：
内存要求：8-16GB RAM
适合场景：编程助手、日常问答、轻度创作
我的体验：在16GB内存的笔记本上流畅运行，代码生成能力不错，响应速度2-3秒
13B模型（如Llama3-13B）：
内存要求：16-32GB RAM
适合场景：复杂推理、长文本理解、专业咨询
我的体验：需要24GB以上内存才流畅，能力明显比7B强，但速度稍慢
70B模型（如Llama3-70B）：
内存要求：64GB+ RAM，最好有GPU加速
适合场景：研究、企业级应用、最高质量输出
我的体验：普通电脑别想了，得专业工作站

2. 我的推荐

如果你是普通开发者或爱好者：
- 编程为主：选DeepSeek-Coder-7B，代码生成真的强
- 通用对话：选Llama3-8B，平衡性最好
- 内存充足（32GB+）：可以试试Llama3-13B

三、一键运行模型：就这么简单

Ollama最爽的地方就是拉取和运行模型超级简单。

1. 拉取模型

打开终端，输入：

# 拉取Llama3-8B
ollama pull llama3:8b

# 拉取DeepSeek-Coder
ollama pull deepseek-coder:7b

# 拉取Llama3-13B
ollama pull llama3:13b

第一次拉取会下载模型文件，根据网速和模型大小，可能需要几分钟到几十分钟。模型会保存在~/.ollama/models目录下。

2. 运行模型

拉取完成后，直接运行：

# 运行Llama3-8B并进入交互模式
ollama run llama3:8b

# 运行DeepSeek-Coder
ollama run deepseek-coder:7b

然后就可以像用ChatGPT一样直接对话了！试试问它“用Python写一个快速排序算法”，看看效果。

3. 后台运行

如果你想让模型在后台一直运行，方便API调用：

# 在后台运行模型
ollama serve &

# 然后启动模型
ollama run llama3:8b

四、性能优化：让你的模型跑得更快

默认配置可能不是最优的，这里有几个我实测有效的优化技巧：

1. 调整运行参数

# 设置线程数（根据CPU核心数调整）
export OLLAMA_NUM_PARALLEL=4

# 设置GPU层数（如果有NVIDIA GPU）
export OLLAMA_GPU_LAYERS=20

# 然后运行模型
ollama run llama3:8b

2. 量化版本选择

Ollama提供了不同精度的模型版本：

默认：通常是4-bit量化，平衡精度和速度
:q4_0：4-bit量化，速度最快，内存占用最小
:q8_0：8-bit量化，精度更高，内存占用更大

比如：ollama pull llama3:8b-q4_0

3. 内存管理

关闭不必要的应用程序
设置虚拟内存（Windows）或交换空间（Linux/macOS）
对于13B模型，确保至少有24GB可用内存

五、API调用：把本地模型集成到你的应用

这是Ollama最实用的功能之一——你可以像调用OpenAI API一样调用本地模型。

1. 基本API调用

Ollama提供了兼容OpenAI格式的API：

import requests
import json

# 调用本地模型生成文本
def generate_text(prompt, model="llama3:8b"):
    url = "http://localhost:11434/api/generate"
    payload = {
        "model": model,
        "prompt": prompt,
        "stream": False
    }
    
    response = requests.post(url, json=payload)
    if response.status_code == 200:
        result = response.json()
        return result["response"]
    else:
        return f"Error: {response.status_code}"

# 使用示例
response = generate_text("用Python写一个计算斐波那契数列的函数")
print(response)

2. 流式响应

对于长文本生成，可以使用流式响应：

def generate_stream(prompt, model="llama3:8b"):
    url = "http://localhost:11434/api/generate"
    payload = {
        "model": model,
        "prompt": prompt,
        "stream": True
    }
    
    with requests.post(url, json=payload, stream=True) as response:
        for line in response.iter_lines():
            if line:
                data = json.loads(line.decode('utf-8'))
                if "response" in data:
                    print(data["response"], end="", flush=True)

# 使用示例
generate_stream("给我讲一个关于AI的科幻故事")

3. 与LangChain集成

如果你用LangChain开发AI应用，可以这样集成：

from langchain_community.llms import Ollama
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain

# 初始化Ollama LLM
llm = Ollama(model="llama3:8b")

# 创建提示模板
template = """你是一个编程助手。请回答以下问题：

问题：{question}

回答："""
prompt = PromptTemplate(template=template, input_variables=["question"])

# 创建链
chain = LLMChain(llm=llm, prompt=prompt)

# 运行
result = chain.run("如何在Python中读取JSON文件？")
print(result)

六、常见问题与解决方案

1. 内存不足怎么办？

换更小的模型（7B→更小的模型）
使用量化版本（:q4_0）
增加虚拟内存/交换空间
关闭其他内存占用大的程序

2. 响应速度慢？

检查是否启用了GPU加速（ollama ps查看）
调整OLLAMA_NUM_PARALLEL参数
使用量化版本
确保有足够的内存，避免频繁交换

3. 模型下载失败？

检查网络连接
尝试设置代理：export HTTPS_PROXY=http://your-proxy:port
手动下载模型文件到~/.ollama/models

七、我的使用体验与建议

我用了Ollama大概一个月，主要感受：

优点：
1. 真的简单，几乎零配置
2. 模型更新快，Llama3发布后很快就支持了
3. API设计友好，集成方便
4. 完全免费，没有使用限制
缺点：
1. 大模型对硬件要求高
2. 某些专业领域的小众模型支持不够
3. 中文模型相对较少（期待更多国产模型加入）

给新手的建议：
1. 先从7B模型开始，体验好了再升级
2. 做好心理准备，本地模型的响应速度肯定不如GPT-4
3. 多试试不同的提示词，本地模型对提示词更敏感
4. 关注Ollama的GitHub，新功能发布很快

总结

Ollama确实让本地运行大模型的门槛降到了最低。无论你是想保护隐私、节省API费用，还是单纯想折腾AI技术，都值得一试。我的配置是16GB内存的MacBook Pro，跑Llama3-8B完全够用，日常编程辅助、文档总结都很流畅。

如果你也试了，欢迎在评论区分享你的体验。有什么问题也可以问我，我会尽量解答。

（本文首发于blog.298.name，转载请注明出处）

本文来源：一江山水的随笔

本文地址：https://blog.298.name/post/196.html

主要内容：Ollama本地部署大模型完全指南：Llama3/DeepSeek一键运行

标签：Ollama 大模型本地部署 Llama3 DeepSeek AI工具技术教程

上一篇

用AI智能体规划旅行：告别千篇一律的攻略，生成专属你的智能行程表

下一篇

国产AI智能体崛起：DeepSeek+WorkBuddy能干过GPT-4吗？

想找什么搜索会更快哦！

站点信息

文章总数:171
页面总数:1
分类总数:4
标签总数:170
评论总数:61
浏览总数:1643341

控制面板

您好，欢迎到访网站！
查看权限