2026年6月4日

FunASR：想自建语音转写服务，可以先看这个开源工具箱

如果你最近在做会议纪要、语音录入、客服质检，或者想把音频能力接进 Agent 工作流，今天更值得关注的项目是 FunASR。它不是单一模型，而是一套开源语音理解工具链：把语音识别、VAD、标点、说话人分离、情绪识别和流式服务放到同一个 Python 接口里。更关键的是，项目最近把

如果你最近在做会议纪要、语音录入、客服质检，或者想把音频能力接进 Agent 工作流，今天更值得关注的项目是 FunASR。它不是单一模型，而是一套开源语音理解工具链：把语音识别、VAD、标点、说话人分离、情绪识别和流式服务放到同一个 Python 接口里。更关键的是，项目最近把本地转写服务做成了 OpenAI 兼容 API，这让它从“研究工具”更接近可落地的工程组件。

📌 这个项目是干什么的

定位：面向生产场景的开源语音识别与语音理解工具包。
适合谁：做会议转写、字幕、语音 Agent、私有化 ASR 服务的开发者和技术团队。
解决什么问题：把长音频转写、多说话人区分、标点补全、流式识别和本地 API 服务整合到一套接口里。
当前成熟度：README、文档站、示例和 release 更新都比较完整，适合工程试用，不只是论文仓库。

🔍 为什么值得关注

它把“能识别”推进到了“能部署”。官方最近新增 funasr-server，可以直接暴露 OpenAI 兼容的 /v1/audio/transcriptions 接口，这对已经有 Agent、工作流或内部服务框架的团队很友好。
模型选择比较清楚。如果你要高吞吐转写，可以先看 SenseVoice-Small 或 Paraformer-Large；如果你更在意多语言、时间戳和上下文能力，可以试 Fun-ASR-Nano。官方 benchmark 页面也给了 GPU 和 CPU 的参考速度，不是只谈概念。
实用功能比很多同类项目更完整。除了 ASR，它还把 VAD、说话人分离、情绪识别、热词和流式能力串在一起，比较适合直接拼进会议纪要、坐席分析、语音输入等真实流程。

🧪 谁适合试，怎么开始

最适合的试用人群：已经在用 Whisper 或云端语音 API，但开始关心成本、隐私或响应速度的团队。
最短尝试路径：先 pip install funasr，用 README 里的 AutoModel 示例跑一段真实会议录音；如果你需要服务化，再安装 fastapi、uvicorn 等依赖，启动 funasr-server 做本地接口验证。
建议先看：官方文档里的 Model Selection、Deployment Matrix 和 Migration Guide，这三块最能帮你少走弯路。

⚠️ 使用提醒

别只看峰值速度。官方 benchmark 很亮眼，但实际效果仍然受音频质量、语言、batch 策略和部署硬件影响，最好拿自己的样本做对比。
模型能力差异明显。SenseVoice、Paraformer、Fun-ASR-Nano 各自偏向速度、多语言或功能完整度，选型前先明确场景，不要默认“参数越大越好”。
开源许可证是 MIT，但部分预训练模型还要看模型侧授权说明，落到商用前最好把仓库和模型来源一起核验一遍。

🔗 参考资源

GitHub：https://github.com/modelscope/FunASR
文档 / 官网：https://modelscope.github.io/FunASR/
Benchmark：https://modelscope.github.io/FunASR/benchmark.html
Releases：https://github.com/modelscope/FunASR/releases
License（MIT）：https://raw.githubusercontent.com/modelscope/FunASR/main/LICENSE