Technical Guide

25. 接入搜索和工具

给研究型 Agent 接入搜索、抓取、整理和文件工具,并明确每个工具在任务流中的位置。

工具要服务流程

不要为了“工具多”而接工具。

先看任务流里缺什么动作。

研究型 Agent 至少需要:

搜索工具
网页抓取工具
资料清洗工具
文件写入工具
文件展示工具

搜索工具

搜索负责找到候选来源。

输出不要只给模型一个大段摘要。更好的输出是:

title
url
snippet
source_type

后面还要抓取正文。

抓取工具

抓取工具负责拿到网页正文。

如果抓取失败,要明确失败原因:

403
超时
页面需要 JS
正文为空

不要让 Agent 把搜索摘要当正文用。

文件工具

研究型 Agent 最后要生成报告。

所以必须有文件写入和展示能力。

保存后还要验证文件存在,而不是只说“已生成”。

工具输出要短

工具返回太长,模型会被噪声淹没。

建议工具返回结构化摘要,并保留原始来源 URL。

这一篇你要记住

接工具之前,先知道这个工具在任务流里负责哪一步。

工具不是越多越好,能被验证才有价值。

搜索关键词也要设计

不要只把用户原问题丢给搜索。

可以让 Agent 生成多组关键词:

项目名 + README
项目名 + architecture
项目名 + GitHub
项目名 + MCP / tools / sandbox

不同关键词负责不同方向。

来源筛选

优先级建议:

官方 README
官方文档
当前 GitHub 仓库
作者发布内容
可信技术文章
搜索摘要

搜索摘要只能帮助发现线索,不适合当最终证据。

工具调用预算

工具不是无限用。

可以限制:

最多搜索几次
最多抓取几个页面
每个页面最多保留多少摘要

否则上下文会很快被噪声占满。