Technical Guide
25. 接入搜索和工具
给研究型 Agent 接入搜索、抓取、整理和文件工具,并明确每个工具在任务流中的位置。
工具要服务流程
不要为了“工具多”而接工具。
先看任务流里缺什么动作。
研究型 Agent 至少需要:
搜索工具
网页抓取工具
资料清洗工具
文件写入工具
文件展示工具
搜索工具
搜索负责找到候选来源。
输出不要只给模型一个大段摘要。更好的输出是:
title
url
snippet
source_type
后面还要抓取正文。
抓取工具
抓取工具负责拿到网页正文。
如果抓取失败,要明确失败原因:
403
超时
页面需要 JS
正文为空
不要让 Agent 把搜索摘要当正文用。
文件工具
研究型 Agent 最后要生成报告。
所以必须有文件写入和展示能力。
保存后还要验证文件存在,而不是只说“已生成”。
工具输出要短
工具返回太长,模型会被噪声淹没。
建议工具返回结构化摘要,并保留原始来源 URL。
这一篇你要记住
接工具之前,先知道这个工具在任务流里负责哪一步。
工具不是越多越好,能被验证才有价值。
搜索关键词也要设计
不要只把用户原问题丢给搜索。
可以让 Agent 生成多组关键词:
项目名 + README
项目名 + architecture
项目名 + GitHub
项目名 + MCP / tools / sandbox
不同关键词负责不同方向。
来源筛选
优先级建议:
官方 README
官方文档
当前 GitHub 仓库
作者发布内容
可信技术文章
搜索摘要
搜索摘要只能帮助发现线索,不适合当最终证据。
工具调用预算
工具不是无限用。
可以限制:
最多搜索几次
最多抓取几个页面
每个页面最多保留多少摘要
否则上下文会很快被噪声占满。