前言
虽然在 AI 出现之前很难想像,但 2026 年工作上我已经很少「手写程式」而是透过 AI 更有效率的辅助开发,我相信在 AI 百家争鸣的时代不用特别执着用哪个模型或工具,挑个最新顺手的免费方案就够了,未来模型只会更便宜更有效率。
可以优先找免费的模型服务来用:2026 年我在用的 AI Agent 工具。虽然有时候也会遇到问题需要本地 LLM:
- 断网
- 限流
- 延迟
- 政策
- 隐私
- $$
最简单运行本地 LLM 的方式
OLLAMA是开源社群最活跃的免费工具,如果下载新版 OLLAMA 会发现它已经简单到把常用的对话、Coding 工具甚至龙虾整合进去了,可以一键启动本地模型:
ollama launch opencodeollamaOllama 0.20.3
Chat with a model Start an interactive chat with a model
Launch Claude Code Anthropic's coding tool with subagents
Launch Codex OpenAI's open-source coding agent
Launch OpenClaw (install) Personal AI with 100+ skills
▸ Launch OpenCode Anomaly's open-source coding agent
Launch Droid (not installed) Factory's coding agent across terminal and IDEs
Launch Pi (install) Minimal AI agent toolkit with plugin support上去 OLLAMA Models 挑个模型就可以直接跑,例如最新的 gemma4 安装只要:
ollama run gemma4实战上直接到 CanIRun.ai 选择自己设备的规格就能过滤出合适的模型。
读懂模型配置
参数 (Parameters)
有点像脑细胞数量
模型中的参数数量以十亿计(如 7B 或 70B),参数越多模型越强大、内存需求更高且推论速度通常较慢。7B 适合基本任务,13B~34B 是平衡点,70B+ 有更高最高品质但需要强大硬件配合。
量化 (Quantization)
有点像压缩记忆的模式
模型中的量化透过 GGUF 量化格式的命名规则表示,例如 Q4_K_M、Q8_0或 F16(16 位元,原精度最大),量化降低精度以缩小模型大小并加速运行,但牺牲些许品质。
- Q = Quantization(量化)
- F = Float(浮点)
- K = K-means 量化算法
- M = Medium(尺寸等级)
VRAM
VRAM 是 GPU 显存,量化模型文件通常需要完全放入 VRAM(或 Apple 统一内存),否则无法顺利运行或会退回到慢速的 CPU 推理(如 8GB 模型需至少 8GB VRAM)。
Dense vs MoE(Mixture of Experts)架构
-
Dense 模型单纯且易于预估,每次运算激活所有参数。
-
MoE 模型将参数分为专家群,每 token 只激活少数专家(如 Mixtral 8x7B 总
46.7B但仅用12.9B),提供大模型品质但需全载入内存,达成用较少的算力,得到具备极大参数规模模型才有的回应水平。
上下文长度(Context Length)
模型可以一次处理的 Token 上限。
每秒 Token 速度(Tokens per Second (tok/s))
每秒 LLM 回应多少 Token。
记忆体频宽(Memory Bandwidth)
从 VRAM 读取资料的速度。
推理瓶颈在于从内存中读取模型权重,因此更高的频宽意味着每秒可以读取更多的 Token。这就是为什么搭载 Apple 晶片的 Mac(具有高统一内存频宽)能够出色地运行大型模型,以及为什么即使在相同的显存使用量下,RTX 4090 生成文本的速度也比 RTX 4060 更快。
延伸阅读
- What is Ollama? Running Local LLMs Made Simple - IBM Technology
- Quantization - Hugging Face
- Docs - CanIRun.ai