搜索类源
通过 Google、Jina、Firecrawl、Tavily、秘塔等搜索引擎 API 主动检索关键词,自动收集结果。
什么是搜索类源
搜索类源通过搜索引擎API主动搜索关键词,自动收集搜索结果。适合监控特定话题、跟踪品牌声量、发现行业动态。
核心优势:
- 主动发现内容(而非被动订阅)
- 支持复杂关键词组合
- 可选择性抓取详情页
支持的搜索引擎
1. Google Search
特点:
- 全球最大搜索引擎,覆盖面最广
- 使用 Google Custom Search API
- 支持抓取详情页(需要额外配置)
适用场景:
- 全球新闻监控
- 英文内容搜索
- 广泛的话题覆盖
配置要求:
- Google API Key(通过 Google Cloud Console 获取)
- Search Engine ID(创建自定义搜索引擎)
成本:约 10 credits/条
2. Jina AI Search
特点:
- AI驱动的语义搜索
- 专注于高质量内容
- 支持抓取详情页
适用场景:
- 技术文档搜索
- 高质量内容筛选
- 语义相关性匹配
配置要求:
- Jina API Key(访问 https://jina.ai 获取)
成本:约 10 credits/条
3. Firecrawl Search
特点:
- 专业的网页抓取服务
- 原生支持详情抓取(搜索时直接获取Markdown内容)
- 返回结构化的Markdown格式
适用场景:
- 需要完整内容的场景
- 结构化数据提取
- 高质量内容清洗
配置要求:
- Firecrawl API Key(访问 https://firecrawl.dev 获取)
成本:
- 搜索:约 10 credits/条
- 详情抓取:已包含在搜索中(无额外费用)
💡 提示:Firecrawl是唯一在搜索时直接返回Markdown的引擎,无需二次抓取
4. Tavily Search
特点:
- 面向 LLM / Agent 场景的搜索 API
- 同时返回原文链接、简短摘要与发布时间
- 不直接返回完整正文,需配合 scraper 二次抓取
- 搜索深度可调(basic / advanced)
适用场景:
- 给 Agent / 报告生成提供精炼候选集
- 配合
fetch_detail=true走二次抓取流水线 - 全球新闻 / 学术内容兼顾
配置要求:
- Tavily API Key(访问 https://tavily.com 获取)
成本:约 5 credits/次
5. Metaso Search (秘塔AI)
特点:
- 中文AI搜索引擎
- 专注于中文内容
- 支持全网搜索和学术搜索两种模式
- 不支持直接抓取详情(仅返回摘要)
适用场景:
- 中文内容监控
- 国内资讯搜索
- 学术文献发现
配置要求:
- Metaso API Key(访问 https://metaso.cn 获取)
搜索范围:
webpage- 全网搜索(默认)academic- 学术搜索
成本:约 3 credits/次
配置参数说明
1. 关键词 (keywords)
必填项,搜索的关键词或短语。
示例:
"人工智能 大模型"
"OpenAI GPT-4"
"renewable energy policy"技巧:
- 使用双引号精确匹配:
"exact phrase" - 使用空格表示AND关系:
AI GPT - 组合多个关键词提高相关性
2. 最大结果数 (max_results)
可选项,每次搜索返回的最大结果数。
默认值:10
范围:
- Google Search: 1-10(Google API限制)
- Jina/Firecrawl/Metaso: 1-50
示例:
{
"keywords": "AI news",
"max_results": 20
}成本提示:结果数越多,消耗积分越多(按条计费)
3. 是否抓取详情页 (fetch_detail)
可选项,是否抓取搜索结果的详情页内容。
默认值:
- Google/Jina/Firecrawl:
true(默认抓取) - Metaso: 不支持(永远返回摘要)
工作原理:
- Firecrawl:搜索时直接返回Markdown(无额外开销)
- Google/Jina:搜索后使用
Firecrawl → Browserless降级链路二次抓取 - Metaso:仅返回摘要(snippet),不支持详情抓取
示例:
{
"keywords": "AI news",
"fetch_detail": false
}详情页抓取机制
抓取策略
Firecrawl优先 + Browserless降级:
- 首先尝试使用 Firecrawl v2 Scrape API
- 如果失败,自动降级到 Browserless (headless Chrome)
- 如果仍失败,保留原始摘要(snippet)
CAPTCHA检测
系统自动检测验证码页面,避免保存无效内容:
- 检测关键词:
"verify you are human","captcha","robot check" - 检测到CAPTCHA时,使用摘要代替详情
- 不计入抓取成功统计
并发限制
为避免API限流,系统自动控制并发:
- Firecrawl:最多 5 个并发请求
- Browserless:最多 3 个并发请求
- 可在管理后台调整(
/admin/system-config)
统计信息
每次搜索完成后,会显示详情抓取统计:
Detail Scraping Stats:
- Total: 10
- Success: 8
- Failed: 2
- Firecrawl: 6
- Browserless: 2配置示例
示例 1: Google搜索 + 抓取详情
{
"keywords": "renewable energy policy 2024",
"max_results": 10,
"fetch_detail": true
}说明:
- 搜索关键词:
renewable energy policy 2024 - 返回 10 条结果
- 自动抓取每条结果的详情页
- 使用 Firecrawl → Browserless 降级链路
成本估算:
- 搜索:10条 × 10 credits = 100 credits
- 详情抓取:已包含在搜索中
示例 2: Firecrawl搜索(推荐)
{
"keywords": "AI大模型 最新进展",
"max_results": 15,
"fetch_detail": true
}说明:
- 使用 Firecrawl 搜索(选择
firecrawl子类型) - 搜索时直接返回 Markdown 内容
- 无需二次抓取,速度更快
- 内容质量最高(专业清洗)
示例 3: 秘塔AI搜索(中文)
{
"keywords": "人工智能 政策法规",
"max_results": 20,
"search_scope": "webpage"
}说明:
- 使用秘塔AI搜索(选择
metaso子类型) - 全网搜索模式(
webpage) - 仅返回摘要(不支持
fetch_detail) - 适合中文内容监控
示例 4: 学术搜索
{
"keywords": "machine learning interpretability",
"max_results": 10,
"search_scope": "academic"
}说明:
- 使用秘塔AI学术搜索
- 搜索范围:
academic(学术模式) - 返回论文、学术文章
- 适合研究和文献综述
最佳实践
✅ 关键词优化
使用精确短语:
- ❌
AI(太宽泛) - ✅
"GPT-4 Turbo release notes"(精确匹配)
组合多个关键词:
- ❌
news(结果过多) - ✅
"climate change" policy 2024(多关键词)
✅ 成本优化
关闭不必要的详情抓取:
- 仅需标题和摘要 →
fetch_detail: false - 节省 ~50% 成本
选择合适的搜索引擎:
- 中文内容 → Metaso (3 credits/次)
- 英文内容 + 详情 → Firecrawl (10 credits/次)
- 广泛覆盖 → Google (10 credits/次)
✅ 定时策略
新闻监控:
- 定时策略:每 12 小时
- 去重策略:KEEP_OLD(避免重复抓取)
关键词跟踪:
- 定时策略:每天 1-2 次
- 去重策略:UPDATE(获取最新版本)
⚠️ 常见问题
问题 1:搜索结果少于预期
原因:
- 关键词过于精确
- 搜索引擎API限制
解决:
- 放宽关键词
- 尝试不同搜索引擎
问题 2:详情抓取失败率高
原因:
- 目标网站有反爬虫机制
- 存在CAPTCHA验证
解决:
- 使用 Firecrawl 搜索(绕过率更高)
- 关闭
fetch_detail,仅使用摘要
问题 3:内容重复
原因:
- 定时策略过于频繁
- 去重策略设置不当
解决:
- 降低搜索频率(每天1次)
- 使用 KEEP_OLD 去重策略