Host the Right Model Through Ollama

学会通过 Ollama 在本地运行 LLM 并挑选合适的模型

@ AI

#unsorted

前言

虽然在 AI 出现之前很难想像，但 2026 年工作上我已经很少「手写程式」而是透过 AI 更有效率的辅助开发，我相信在 AI 百家争鸣的时代不用特别执着用哪个模型或工具，挑个最新顺手的免费方案就够了，未来模型只会更便宜更有效率。

可以优先找免费的模型服务来用：2026 年我在用的 AI Agent 工具。虽然有时候也会遇到问题需要本地 LLM：

断网
限流
延迟
政策
隐私
$$

最简单运行本地 LLM 的方式

OLLAMA🔗是开源社群最活跃的免费工具，如果下载新版 OLLAMA🔗 会发现它已经简单到把常用的对话、Coding 工具甚至龙虾整合进去了，可以一键启动本地模型：

ollama launch opencode
ollama
Ollama 0.20.3

  Chat with a model
    Start an interactive chat with a model

  Launch Claude Code
    Anthropic's coding tool with subagents

  Launch Codex
    OpenAI's open-source coding agent

  Launch OpenClaw (install)
    Personal AI with 100+ skills

▸ Launch OpenCode
    Anomaly's open-source coding agent

  Launch Droid (not installed)
    Factory's coding agent across terminal and IDEs

  Launch Pi (install)
    Minimal AI agent toolkit with plugin support

上去 OLLAMA Models🔗 挑个模型就可以直接跑，例如最新的 gemma4🔗 安装只要：

ollama run gemma4

实战上直接到 CanIRun.ai🔗 选择自己设备的规格就能过滤出合适的模型。

读懂模型配置

参数 (Parameters)

有点像脑细胞数量

模型中的参数数量以十亿计（如 7B 或 70B），参数越多模型越强大、内存需求更高且推论速度通常较慢。7B 适合基本任务，13B~34B 是平衡点，70B+ 有更高最高品质但需要强大硬件配合。

量化 (Quantization)

有点像压缩记忆的模式

模型中的量化透过 GGUF 量化格式的命名规则表示，例如 Q4_K_M、Q8_0或 F16（16 位元，原精度最大），量化降低精度以缩小模型大小并加速运行，但牺牲些许品质。

Q = Quantization（量化）
F = Float（浮点）
K = K-means 量化算法
M = Medium（尺寸等级）

VRAM

VRAM 是 GPU 显存，量化模型文件通常需要完全放入 VRAM（或 Apple 统一内存），否则无法顺利运行或会退回到慢速的 CPU 推理（如 8GB 模型需至少 8GB VRAM）。

Dense vs MoE（Mixture of Experts）架构

Dense 模型单纯且易于预估，每次运算激活所有参数。
MoE 模型将参数分为专家群，每 token 只激活少数专家（如 Mixtral 8x7B 总 46.7B 但仅用 12.9B），提供大模型品质但需全载入内存，达成用较少的算力，得到具备极大参数规模模型才有的回应水平。

上下文长度（Context Length）

模型可以一次处理的 Token 上限。

每秒 Token 速度（Tokens per Second (tok/s)）

每秒 LLM 回应多少 Token。

记忆体频宽（Memory Bandwidth）

从 VRAM 读取资料的速度。

推理瓶颈在于从内存中读取模型权重，因此更高的频宽意味着每秒可以读取更多的 Token。这就是为什么搭载 Apple 晶片的 Mac（具有高统一内存频宽）能够出色地运行大型模型，以及为什么即使在相同的显存使用量下，RTX 4090 生成文本的速度也比 RTX 4060 更快。

全站搜寻

学会通过 Ollama 在本地运行 LLM 并挑选合适的模型

前言

最简单运行本地 LLM 的方式

读懂模型配置

参数 (Parameters)

量化 (Quantization)

VRAM

Dense vs MoE（Mixture of Experts）架构

上下文长度（Context Length）

每秒 Token 速度（Tokens per Second (tok/s)）

记忆体频宽（Memory Bandwidth）

延伸阅读