Host the Right Model Through Ollama

学会通过 Ollama 在本地运行 LLM 并挑选合适的模型

前言

虽然在 AI 出现之前很难想像,但 2026 年工作上我已经很少「手写程式」而是透过 AI 更有效率的辅助开发,我相信在 AI 百家争鸣的时代不用特别执着用哪个模型或工具,挑个最新顺手的免费方案就够了,未来模型只会更便宜更有效率。

可以优先找免费的模型服务来用:2026 年我在用的 AI Agent 工具。虽然有时候也会遇到问题需要本地 LLM:

  • 断网
  • 限流
  • 延迟
  • 政策
  • 隐私
  • $$

最简单运行本地 LLM 的方式

OLLAMA🔗是开源社群最活跃的免费工具,如果下载新版 OLLAMA🔗 会发现它已经简单到把常用的对话、Coding 工具甚至龙虾整合进去了,可以一键启动本地模型:

Terminal window
ollama launch opencode
ollama
Ollama 0.20.3
Chat with a model
Start an interactive chat with a model
Launch Claude Code
Anthropic's coding tool with subagents
Launch Codex
OpenAI's open-source coding agent
Launch OpenClaw (install)
Personal AI with 100+ skills
Launch OpenCode
Anomaly's open-source coding agent
Launch Droid (not installed)
Factory's coding agent across terminal and IDEs
Launch Pi (install)
Minimal AI agent toolkit with plugin support

上去 OLLAMA Models🔗 挑个模型就可以直接跑,例如最新的 gemma4🔗 安装只要:

Terminal window
ollama run gemma4

实战上直接到 CanIRun.ai🔗 选择自己设备的规格就能过滤出合适的模型。

读懂模型配置

参数 (Parameters)

有点像脑细胞数量

模型中的参数数量以十亿计(如 7B70B),参数越多模型越强大、内存需求更高且推论速度通常较慢。7B 适合基本任务,13B~34B 是平衡点,70B+ 有更高最高品质但需要强大硬件配合。

量化 (Quantization)

有点像压缩记忆的模式

模型中的量化透过 GGUF 量化格式的命名规则表示,例如 Q4_K_MQ8_0F16(16 位元,原精度最大),量化降低精度以缩小模型大小并加速运行,但牺牲些许品质。

  • Q = Quantization(量化)
  • F = Float(浮点)
  • K = K-means 量化算法
  • M = Medium(尺寸等级)

VRAM

VRAM 是 GPU 显存,量化模型文件通常需要完全放入 VRAM(或 Apple 统一内存),否则无法顺利运行或会退回到慢速的 CPU 推理(如 8GB 模型需至少 8GB VRAM)。

Dense vs MoE(Mixture of Experts)架构

  • Dense 模型单纯且易于预估,每次运算激活所有参数。

  • MoE 模型将参数分为专家群,每 token 只激活少数专家(如 Mixtral 8x7B 总 46.7B 但仅用 12.9B),提供大模型品质但需全载入内存,达成用较少的算力,得到具备极大参数规模模型才有的回应水平。

上下文长度(Context Length)

模型可以一次处理的 Token 上限。

每秒 Token 速度(Tokens per Second (tok/s))

每秒 LLM 回应多少 Token。

记忆体频宽(Memory Bandwidth)

从 VRAM 读取资料的速度。

推理瓶颈在于从内存中读取模型权重,因此更高的频宽意味着每秒可以读取更多的 Token。这就是为什么搭载 Apple 晶片的 Mac(具有高统一内存频宽)能够出色地运行大型模型,以及为什么即使在相同的显存使用量下,RTX 4090 生成文本的速度也比 RTX 4060 更快。

延伸阅读