LiteRT-LM：想把大模型真正跑到设备侧，可以先看它

这两天值得关注的一个 GitHub 开源项目，是 Google 开源的 LiteRT-LM。简单说，它不是新的聊天壳子，而是一套把大语言模型部署到手机、桌面端和 IoT 设备上的推理框架。最近项目刚把 Gemma 4 支持放到显眼位置，仓库、官方博客和 release 说明也比较完整。对想做端侧 AI、离线能力、低时延应用的团队来说，这类基础设施比“又一个 Agent 壳”更值得认真看一眼。

📌 这个项目是干什么的

它的定位是 端侧大模型推理框架，目标是在设备本地运行 LLM，而不是把请求全丢到云端。
官方给出的覆盖范围比较广：Android、iOS、Web、桌面端，以及 Raspberry Pi 这类 IoT 设备。
项目强调 GPU / NPU 加速、多模态输入，以及 function calling / tool use 这类 agent 工作流能力。
如果你想做的是“设备内可运行、可离线、响应更快”的 AI 功能，而不是通用大模型平台，这个方向就比较对口。

🔍 为什么值得关注

LiteRT-LM 最值得看的，不只是“Google 出品”，而是它把端侧大模型这件事做成了更接近产品化的路径。README 里明确写到，它已经用于 Chrome、Chromebook Plus、Pixel Watch 等 Google 产品场景，这说明它不是停留在 demo 层。

第二个值得关注的点，是上手门槛在下降。仓库给了 CLI 入口，可以直接用 uv tool install litert-lm 安装，再通过 litert-lm run 拉起模型；而且最新 release 里继续补了 Hugging Face 导入、CLI 迁移和性能相关更新，说明项目仍在快速推进。

如果你最近在看“端侧 Agent”“本地多模态”或“隐私敏感场景下的 AI 功能”，它比单纯追逐模型榜单更有实践价值，因为它解决的是落地层的问题。

🧪 谁适合试，怎么开始

如果你是移动端工程师、边缘设备开发者，或者正在评估“哪些 AI 能留在本地跑”，可以优先试一下。

最短路径建议：

先看 GitHub README，确认支持的平台和模型范围。
再看最新 release，了解最近更新是否涉及你关心的设备或能力。
如果只是快速试跑，不必急着从源码编译，项目文档已经明确提醒：大多数应用开发者优先用预构建 SDK 或 CLI 即可。

⚠️ 使用提醒

它适合的是“端侧部署”问题，不是通用的云端 LLM 编排平台。
虽然官方强调多平台，但不同设备的可用模型、加速能力和效果会有明显差异，不能把 README 中的能力默认等同于所有硬件都能稳定复现。
如果你需要的是最快上线业务，而不是深入做端侧优化，这类框架仍然有一定工程门槛，尤其会碰到模型格式、硬件适配和性能调优问题。

可以先记住一个小结：如果你关心的是“怎样把模型真正放到设备里跑起来”，LiteRT-LM 比单看模型发布新闻更值得花时间。

🔗 参考资源

GitHub 仓库：https://github.com/google-ai-edge/LiteRT-LM
GitHub Releases：https://github.com/google-ai-edge/LiteRT-LM/releases
官方博客（Gemma 4 支持）：https://developers.googleblog.com/bring-state-of-the-art-agentic-skills-to-the-edge-with-gemma-4/