2026年5月31日

LiteParse：如果你想把文档快速喂给 AI，这个开源解析器值得先记住

很多 AI 工作流卡住，不是因为模型不够强，而是文档输入太脏：PDF 版式乱、扫描件要 OCR、Office 文件格式不统一，最后很难稳定进入 RAG、Agent 或自动化流水线。今天筛下来更值得写给 AI 工具读者的是 LiteParse。它是 run-llama 开源的本地文

很多 AI 工作流卡住，不是因为模型不够强，而是文档输入太脏：PDF 版式乱、扫描件要 OCR、Office 文件格式不统一，最后很难稳定进入 RAG、Agent 或自动化流水线。今天筛下来更值得写给 AI 工具读者的是 LiteParse。它是 run-llama 开源的本地文档解析工具，主打 速度、轻量、可本地运行，把 PDF、Office 文档和图片转成带版面信息的文本或 JSON。对希望自己掌握文档入口、又不想一开始就接云端解析服务的团队，这个项目很值得关注。

📌 这个项目是干什么的

官方把它定位为一个开源文档解析库，核心能力是提取文本、保留空间布局，并输出 bounding boxes。
它支持 PDF，也支持通过转换处理 DOCX、XLSX、PPTX 以及常见图片格式，适合多来源文档入口。
OCR 默认可用，内置 Tesseract，也支持接外部 OCR 服务。
提供 CLI、Python、Node.js/TypeScript、Rust 和 WASM 版本，适合脚本、后端服务和浏览器侧场景。

🔍 为什么值得关注

它解决的是“文档进入 AI 前的预处理”问题。 很多项目只讲检索和生成，但真正影响效果的往往是解析层。LiteParse 把文本、版面位置和截图能力一起提供，更适合接到后续 Agent 或 RAG 流程里。
本地运行边界清楚。 官方文档明确强调它没有云依赖、没有 API Key，也不夹带专有 LLM 功能，适合对隐私、成本和可控性更敏感的场景。
资料完整、近期活跃。 GitHub README、官方文档、CLI 说明、PyPI 包信息和 release 页面都能对上；PyPI 显示 2026-05-30 发布了 liteparse 2.0.4，说明项目仍在快速迭代。

🧪 谁适合试，怎么开始

如果你在做知识库导入、合同/报告解析、AI 助手读文档，或者要给模型补截图上下文，可以优先试一下。
最短路径很直接：Python 用 pip install liteparse，Node 用 npm i -g @llamaindex/liteparse，安装后直接执行 lit parse document.pdf。
第一次体验建议先试两步：先用 lit parse document.pdf --format json -o output.json 看结构化输出，再用 lit screenshot document.pdf -o ./screenshots 看页面截图是否满足后续流程需要。

⚠️ 使用提醒

它更适合 轻量、本地、可控 的文档解析需求。官方也明确提示，遇到复杂表格、多栏排版、手写内容或高难扫描件时，效果边界会比不上更重型的云端解析服务。
处理 Office 文档和图片时，README 与文档提到会依赖 LibreOffice、ImageMagick 这类转换能力，落地前最好先在你的运行环境验证。
项目采用 Apache License 2.0，适合集成和二次开发；但如果你要直接接生产数据，仍建议先跑一轮真实样本，确认 OCR 语言、页数限制和输出质量。

🔗 参考资源

GitHub：https://github.com/run-llama/liteparse
README：https://github.com/run-llama/liteparse/blob/main/README.md
官方文档：https://developers.llamaindex.ai/liteparse/
Getting Started：https://developers.llamaindex.ai/liteparse/getting_started/
PyPI：https://pypi.org/project/liteparse/
Releases：https://github.com/run-llama/liteparse/releases
License：https://raw.githubusercontent.com/run-llama/liteparse/main/LICENSE