Technical Guide

25. 接入搜索和工具

给研究型 Agent 接入搜索、抓取、整理和文件工具，并明确每个工具在任务流中的位置。

工具要服务流程

不要为了“工具多”而接工具。

先看任务流里缺什么动作。

研究型 Agent 至少需要：

搜索工具
网页抓取工具
资料清洗工具
文件写入工具
文件展示工具

搜索负责找到候选来源。

输出不要只给模型一个大段摘要。更好的输出是：

title
url
snippet
source_type

后面还要抓取正文。

抓取工具负责拿到网页正文。

如果抓取失败，要明确失败原因：

403
超时
页面需要 JS
正文为空

不要让 Agent 把搜索摘要当正文用。

研究型 Agent 最后要生成报告。

所以必须有文件写入和展示能力。

保存后还要验证文件存在，而不是只说“已生成”。

工具返回太长，模型会被噪声淹没。

建议工具返回结构化摘要，并保留原始来源 URL。

接工具之前，先知道这个工具在任务流里负责哪一步。

工具不是越多越好，能被验证才有价值。

不要只把用户原问题丢给搜索。

可以让 Agent 生成多组关键词：

项目名 + README
项目名 + architecture
项目名 + GitHub
项目名 + MCP / tools / sandbox

不同关键词负责不同方向。

优先级建议：

官方 README
官方文档
当前 GitHub 仓库
作者发布内容
可信技术文章
搜索摘要

搜索摘要只能帮助发现线索，不适合当最终证据。

工具不是无限用。

可以限制：

最多搜索几次
最多抓取几个页面
每个页面最多保留多少摘要

否则上下文会很快被噪声占满。