2026年5月31日

LiteParse:如果你想把文档快速喂给 AI,这个开源解析器值得先记住

很多 AI 工作流卡住,不是因为模型不够强,而是文档输入太脏:PDF 版式乱、扫描件要 OCR、Office 文件格式不统一,最后很难稳定进入 RAG、Agent 或自动化流水线。今天筛下来更值得写给 AI 工具读者的是 LiteParse。它是 run-llama 开源的本地文

很多 AI 工作流卡住,不是因为模型不够强,而是文档输入太脏:PDF 版式乱、扫描件要 OCR、Office 文件格式不统一,最后很难稳定进入 RAG、Agent 或自动化流水线。今天筛下来更值得写给 AI 工具读者的是 LiteParse。它是 run-llama 开源的本地文档解析工具,主打 速度、轻量、可本地运行,把 PDF、Office 文档和图片转成带版面信息的文本或 JSON。对希望自己掌握文档入口、又不想一开始就接云端解析服务的团队,这个项目很值得关注。

📌 这个项目是干什么的

  • 官方把它定位为一个开源文档解析库,核心能力是提取文本、保留空间布局,并输出 bounding boxes。
  • 它支持 PDF,也支持通过转换处理 DOCX、XLSX、PPTX 以及常见图片格式,适合多来源文档入口。
  • OCR 默认可用,内置 Tesseract,也支持接外部 OCR 服务。
  • 提供 CLI、Python、Node.js/TypeScript、Rust 和 WASM 版本,适合脚本、后端服务和浏览器侧场景。

🔍 为什么值得关注

  1. 它解决的是“文档进入 AI 前的预处理”问题。 很多项目只讲检索和生成,但真正影响效果的往往是解析层。LiteParse 把文本、版面位置和截图能力一起提供,更适合接到后续 Agent 或 RAG 流程里。
  2. 本地运行边界清楚。 官方文档明确强调它没有云依赖、没有 API Key,也不夹带专有 LLM 功能,适合对隐私、成本和可控性更敏感的场景。
  3. 资料完整、近期活跃。 GitHub README、官方文档、CLI 说明、PyPI 包信息和 release 页面都能对上;PyPI 显示 2026-05-30 发布了 liteparse 2.0.4,说明项目仍在快速迭代。

🧪 谁适合试,怎么开始

  • 如果你在做知识库导入、合同/报告解析、AI 助手读文档,或者要给模型补截图上下文,可以优先试一下。
  • 最短路径很直接:Python 用 pip install liteparse,Node 用 npm i -g @llamaindex/liteparse,安装后直接执行 lit parse document.pdf
  • 第一次体验建议先试两步:先用 lit parse document.pdf --format json -o output.json 看结构化输出,再用 lit screenshot document.pdf -o ./screenshots 看页面截图是否满足后续流程需要。

⚠️ 使用提醒

  • 它更适合 轻量、本地、可控 的文档解析需求。官方也明确提示,遇到复杂表格、多栏排版、手写内容或高难扫描件时,效果边界会比不上更重型的云端解析服务。
  • 处理 Office 文档和图片时,README 与文档提到会依赖 LibreOffice、ImageMagick 这类转换能力,落地前最好先在你的运行环境验证。
  • 项目采用 Apache License 2.0,适合集成和二次开发;但如果你要直接接生产数据,仍建议先跑一轮真实样本,确认 OCR 语言、页数限制和输出质量。

🔗 参考资源