whichllm：本地模型太多不知道该下哪个？这个工具把选择过程做成了一条命令

这两年本地跑大模型最大的噪音，不是“模型不够多”，而是选择成本太高：显卡够不够、量化版本怎么挑、同样能装下的几个模型到底谁更值得跑。GitHub 这两天热起来的 whichllm，就是专门解决这个问题的。它会识别当前机器的 GPU、CPU 和内存，再结合 Hugging Face 模型数据与多路基准评测，给出“这台机器更适合先试哪个模型”的排序结果。对刚开始折腾本地 LLM，或准备升级硬件的人来说，这类工具比又一个聊天壳子更有实际价值。

📌 这个项目是干什么的

它不是推理框架，也不是聊天 UI，而是一个本地模型选型工具。
核心能力是根据硬件条件，推荐真正“能跑且值得跑”的模型，而不是只看参数量。
官方提供 whichllm、whichllm plan、whichllm upgrade、whichllm run、whichllm snippet 等命令，覆盖选型、购机规划、直接试跑和生成示例代码几类场景。
适合本地 AI 初学者、Ollama/llama.cpp 用户、准备买卡或换卡的开发者，以及需要给团队做硬件选型的人。

🔍 为什么值得关注

它解决的是高频真实问题。 很多人能装下模型，但不知道装下之后该选哪个；whichllm 把这个判断前移了。
判断逻辑比“显存能放下就行”更细。 README 和 CLI 文档里写得很清楚：它会综合 benchmark、模型新旧、证据置信度、量化方式和速度估算，而不是简单把“大模型”排第一。
上手路径短。 官方推荐直接 uvx whichllm，不想长期安装也能先试；如果只想看答案，跑完主命令就有结果。

🧪 谁适合试，怎么开始

如果你常见的问题是“24GB 显存现在先下 Qwen 还是别的模型”“8GB 显卡到底还有没有能用的选择”，可以优先试一下。

最短路径很简单：

先用 uvx whichllm 直接看当前机器推荐结果
想模拟别的硬件，可试 whichllm --gpu "RTX 4090"
想反推某个模型需要什么配置，用 whichllm plan "llama 3 70b"
想直接试跑，则看 whichllm run

如果你已经有 Ollama 或自建下载流程，更实用的用法反而是先拿它做筛选，再决定拉哪个模型。

⚠️ 使用提醒

它给的是估算与排序，不是你机器上的实时基准测试，最终速度仍要看驱动、后端和具体量化版本。
run 命令依赖 uv，首次实际试跑还会涉及依赖和模型下载，别把“一条命令”理解成零等待。
文档也明确提到，部分 Hugging Face 模型可能有访问限制；另外生成的 Transformers 示例会使用 trust_remote_code=True，正式环境要先审仓库来源。

🔗 参考资源

GitHub：https://github.com/Andyyyy64/whichllm
CLI 文档：https://github.com/Andyyyy64/whichllm/blob/main/docs/cli.md
Run / Snippet 文档：https://github.com/Andyyyy64/whichllm/blob/main/docs/run-snippet.md
Releases：https://github.com/Andyyyy64/whichllm/releases