2026年5月31日
LiteParse:如果你想把文档快速喂给 AI,这个开源解析器值得先记住
很多 AI 工作流卡住,不是因为模型不够强,而是文档输入太脏:PDF 版式乱、扫描件要 OCR、Office 文件格式不统一,最后很难稳定进入 RAG、Agent 或自动化流水线。今天筛下来更值得写给 AI 工具读者的是 LiteParse。它是 run-llama 开源的本地文
很多 AI 工作流卡住,不是因为模型不够强,而是文档输入太脏:PDF 版式乱、扫描件要 OCR、Office 文件格式不统一,最后很难稳定进入 RAG、Agent 或自动化流水线。今天筛下来更值得写给 AI 工具读者的是 LiteParse。它是 run-llama 开源的本地文档解析工具,主打 速度、轻量、可本地运行,把 PDF、Office 文档和图片转成带版面信息的文本或 JSON。对希望自己掌握文档入口、又不想一开始就接云端解析服务的团队,这个项目很值得关注。
📌 这个项目是干什么的
- 官方把它定位为一个开源文档解析库,核心能力是提取文本、保留空间布局,并输出 bounding boxes。
- 它支持 PDF,也支持通过转换处理 DOCX、XLSX、PPTX 以及常见图片格式,适合多来源文档入口。
- OCR 默认可用,内置 Tesseract,也支持接外部 OCR 服务。
- 提供 CLI、Python、Node.js/TypeScript、Rust 和 WASM 版本,适合脚本、后端服务和浏览器侧场景。
🔍 为什么值得关注
- 它解决的是“文档进入 AI 前的预处理”问题。 很多项目只讲检索和生成,但真正影响效果的往往是解析层。LiteParse 把文本、版面位置和截图能力一起提供,更适合接到后续 Agent 或 RAG 流程里。
- 本地运行边界清楚。 官方文档明确强调它没有云依赖、没有 API Key,也不夹带专有 LLM 功能,适合对隐私、成本和可控性更敏感的场景。
- 资料完整、近期活跃。 GitHub README、官方文档、CLI 说明、PyPI 包信息和 release 页面都能对上;PyPI 显示 2026-05-30 发布了
liteparse 2.0.4,说明项目仍在快速迭代。
🧪 谁适合试,怎么开始
- 如果你在做知识库导入、合同/报告解析、AI 助手读文档,或者要给模型补截图上下文,可以优先试一下。
- 最短路径很直接:Python 用
pip install liteparse,Node 用npm i -g @llamaindex/liteparse,安装后直接执行lit parse document.pdf。 - 第一次体验建议先试两步:先用
lit parse document.pdf --format json -o output.json看结构化输出,再用lit screenshot document.pdf -o ./screenshots看页面截图是否满足后续流程需要。
⚠️ 使用提醒
- 它更适合 轻量、本地、可控 的文档解析需求。官方也明确提示,遇到复杂表格、多栏排版、手写内容或高难扫描件时,效果边界会比不上更重型的云端解析服务。
- 处理 Office 文档和图片时,README 与文档提到会依赖 LibreOffice、ImageMagick 这类转换能力,落地前最好先在你的运行环境验证。
- 项目采用 Apache License 2.0,适合集成和二次开发;但如果你要直接接生产数据,仍建议先跑一轮真实样本,确认 OCR 语言、页数限制和输出质量。
🔗 参考资源
- GitHub:https://github.com/run-llama/liteparse
- README:https://github.com/run-llama/liteparse/blob/main/README.md
- 官方文档:https://developers.llamaindex.ai/liteparse/
- Getting Started:https://developers.llamaindex.ai/liteparse/getting_started/
- PyPI:https://pypi.org/project/liteparse/
- Releases:https://github.com/run-llama/liteparse/releases
- License:https://raw.githubusercontent.com/run-llama/liteparse/main/LICENSE