2026年5月18日
whichllm:本地模型太多不知道该下哪个?这个工具把选择过程做成了一条命令
这两年本地跑大模型最大的噪音,不是“模型不够多”,而是选择成本太高:显卡够不够、量化版本怎么挑、同样能装下的几个模型到底谁更值得跑。GitHub 这两天热起来的 whichllm,就是专门解决这个问题的。它会识别当前机器的 GPU、CPU 和内存,再结合 Hugging Face
这两年本地跑大模型最大的噪音,不是“模型不够多”,而是选择成本太高:显卡够不够、量化版本怎么挑、同样能装下的几个模型到底谁更值得跑。GitHub 这两天热起来的 whichllm,就是专门解决这个问题的。它会识别当前机器的 GPU、CPU 和内存,再结合 Hugging Face 模型数据与多路基准评测,给出“这台机器更适合先试哪个模型”的排序结果。对刚开始折腾本地 LLM,或准备升级硬件的人来说,这类工具比又一个聊天壳子更有实际价值。
📌 这个项目是干什么的
- 它不是推理框架,也不是聊天 UI,而是一个本地模型选型工具。
- 核心能力是根据硬件条件,推荐真正“能跑且值得跑”的模型,而不是只看参数量。
- 官方提供
whichllm、whichllm plan、whichllm upgrade、whichllm run、whichllm snippet等命令,覆盖选型、购机规划、直接试跑和生成示例代码几类场景。 - 适合本地 AI 初学者、Ollama/llama.cpp 用户、准备买卡或换卡的开发者,以及需要给团队做硬件选型的人。
🔍 为什么值得关注
- 它解决的是高频真实问题。 很多人能装下模型,但不知道装下之后该选哪个;whichllm 把这个判断前移了。
- 判断逻辑比“显存能放下就行”更细。 README 和 CLI 文档里写得很清楚:它会综合 benchmark、模型新旧、证据置信度、量化方式和速度估算,而不是简单把“大模型”排第一。
- 上手路径短。 官方推荐直接
uvx whichllm,不想长期安装也能先试;如果只想看答案,跑完主命令就有结果。
🧪 谁适合试,怎么开始
如果你常见的问题是“24GB 显存现在先下 Qwen 还是别的模型”“8GB 显卡到底还有没有能用的选择”,可以优先试一下。
最短路径很简单:
- 先用
uvx whichllm直接看当前机器推荐结果 - 想模拟别的硬件,可试
whichllm --gpu "RTX 4090" - 想反推某个模型需要什么配置,用
whichllm plan "llama 3 70b" - 想直接试跑,则看
whichllm run
如果你已经有 Ollama 或自建下载流程,更实用的用法反而是先拿它做筛选,再决定拉哪个模型。
⚠️ 使用提醒
- 它给的是估算与排序,不是你机器上的实时基准测试,最终速度仍要看驱动、后端和具体量化版本。
run命令依赖uv,首次实际试跑还会涉及依赖和模型下载,别把“一条命令”理解成零等待。- 文档也明确提到,部分 Hugging Face 模型可能有访问限制;另外生成的 Transformers 示例会使用
trust_remote_code=True,正式环境要先审仓库来源。