2026年5月18日

whichllm:本地模型太多不知道该下哪个?这个工具把选择过程做成了一条命令

这两年本地跑大模型最大的噪音,不是“模型不够多”,而是选择成本太高:显卡够不够、量化版本怎么挑、同样能装下的几个模型到底谁更值得跑。GitHub 这两天热起来的 whichllm,就是专门解决这个问题的。它会识别当前机器的 GPU、CPU 和内存,再结合 Hugging Face

这两年本地跑大模型最大的噪音,不是“模型不够多”,而是选择成本太高:显卡够不够、量化版本怎么挑、同样能装下的几个模型到底谁更值得跑。GitHub 这两天热起来的 whichllm,就是专门解决这个问题的。它会识别当前机器的 GPU、CPU 和内存,再结合 Hugging Face 模型数据与多路基准评测,给出“这台机器更适合先试哪个模型”的排序结果。对刚开始折腾本地 LLM,或准备升级硬件的人来说,这类工具比又一个聊天壳子更有实际价值。

📌 这个项目是干什么的

  • 它不是推理框架,也不是聊天 UI,而是一个本地模型选型工具
  • 核心能力是根据硬件条件,推荐真正“能跑且值得跑”的模型,而不是只看参数量。
  • 官方提供 whichllmwhichllm planwhichllm upgradewhichllm runwhichllm snippet 等命令,覆盖选型、购机规划、直接试跑和生成示例代码几类场景。
  • 适合本地 AI 初学者、Ollama/llama.cpp 用户、准备买卡或换卡的开发者,以及需要给团队做硬件选型的人。

🔍 为什么值得关注

  • 它解决的是高频真实问题。 很多人能装下模型,但不知道装下之后该选哪个;whichllm 把这个判断前移了。
  • 判断逻辑比“显存能放下就行”更细。 README 和 CLI 文档里写得很清楚:它会综合 benchmark、模型新旧、证据置信度、量化方式和速度估算,而不是简单把“大模型”排第一。
  • 上手路径短。 官方推荐直接 uvx whichllm,不想长期安装也能先试;如果只想看答案,跑完主命令就有结果。

🧪 谁适合试,怎么开始

如果你常见的问题是“24GB 显存现在先下 Qwen 还是别的模型”“8GB 显卡到底还有没有能用的选择”,可以优先试一下。

最短路径很简单:

  • 先用 uvx whichllm 直接看当前机器推荐结果
  • 想模拟别的硬件,可试 whichllm --gpu "RTX 4090"
  • 想反推某个模型需要什么配置,用 whichllm plan "llama 3 70b"
  • 想直接试跑,则看 whichllm run

如果你已经有 Ollama 或自建下载流程,更实用的用法反而是先拿它做筛选,再决定拉哪个模型。

⚠️ 使用提醒

  • 它给的是估算与排序,不是你机器上的实时基准测试,最终速度仍要看驱动、后端和具体量化版本。
  • run 命令依赖 uv,首次实际试跑还会涉及依赖和模型下载,别把“一条命令”理解成零等待。
  • 文档也明确提到,部分 Hugging Face 模型可能有访问限制;另外生成的 Transformers 示例会使用 trust_remote_code=True,正式环境要先审仓库来源。

🔗 参考资源