OctoReport
OctoReport
HomeConsole文档
产品概述快速上手

内容采集

数据源管理 - 总览搜索类源RSS 订阅源网页与邮件源政府与新闻源

内容库与报告

知识库管理报告生成

投递与对话

触发收件箱(邮件通道)Ask 智能问答

运营

积分与日志
原子计费机制URL 去重技术系统可靠性
配置技巧优化与排查
OctoReport 常见问题与支持
功能内容源搜索类源

搜索类源

通过 Google、Jina、Firecrawl、Tavily、秘塔等搜索引擎 API 主动检索关键词,自动收集结果。

什么是搜索类源

搜索类源通过搜索引擎API主动搜索关键词,自动收集搜索结果。适合监控特定话题、跟踪品牌声量、发现行业动态。

核心优势:

  • 主动发现内容(而非被动订阅)
  • 支持复杂关键词组合
  • 可选择性抓取详情页

支持的搜索引擎

1. Google Search

特点:

  • 全球最大搜索引擎,覆盖面最广
  • 使用 Google Custom Search API
  • 支持抓取详情页(需要额外配置)

适用场景:

  • 全球新闻监控
  • 英文内容搜索
  • 广泛的话题覆盖

配置要求:

  • Google API Key(通过 Google Cloud Console 获取)
  • Search Engine ID(创建自定义搜索引擎)

成本:约 10 credits/条

2. Jina AI Search

特点:

  • AI驱动的语义搜索
  • 专注于高质量内容
  • 支持抓取详情页

适用场景:

  • 技术文档搜索
  • 高质量内容筛选
  • 语义相关性匹配

配置要求:

  • Jina API Key(访问 https://jina.ai 获取)

成本:约 10 credits/条

3. Firecrawl Search

特点:

  • 专业的网页抓取服务
  • 原生支持详情抓取(搜索时直接获取Markdown内容)
  • 返回结构化的Markdown格式

适用场景:

  • 需要完整内容的场景
  • 结构化数据提取
  • 高质量内容清洗

配置要求:

  • Firecrawl API Key(访问 https://firecrawl.dev 获取)

成本:

  • 搜索:约 10 credits/条
  • 详情抓取:已包含在搜索中(无额外费用)

💡 提示:Firecrawl是唯一在搜索时直接返回Markdown的引擎,无需二次抓取

4. Tavily Search

特点:

  • 面向 LLM / Agent 场景的搜索 API
  • 同时返回原文链接、简短摘要与发布时间
  • 不直接返回完整正文,需配合 scraper 二次抓取
  • 搜索深度可调(basic / advanced)

适用场景:

  • 给 Agent / 报告生成提供精炼候选集
  • 配合 fetch_detail=true 走二次抓取流水线
  • 全球新闻 / 学术内容兼顾

配置要求:

  • Tavily API Key(访问 https://tavily.com 获取)

成本:约 5 credits/次

5. Metaso Search (秘塔AI)

特点:

  • 中文AI搜索引擎
  • 专注于中文内容
  • 支持全网搜索和学术搜索两种模式
  • 不支持直接抓取详情(仅返回摘要)

适用场景:

  • 中文内容监控
  • 国内资讯搜索
  • 学术文献发现

配置要求:

  • Metaso API Key(访问 https://metaso.cn 获取)

搜索范围:

  • webpage - 全网搜索(默认)
  • academic - 学术搜索

成本:约 3 credits/次

配置参数说明

1. 关键词 (keywords)

必填项,搜索的关键词或短语。

示例:

"人工智能 大模型"
"OpenAI GPT-4"
"renewable energy policy"

技巧:

  • 使用双引号精确匹配:"exact phrase"
  • 使用空格表示AND关系:AI GPT
  • 组合多个关键词提高相关性

2. 最大结果数 (max_results)

可选项,每次搜索返回的最大结果数。

默认值:10

范围:

  • Google Search: 1-10(Google API限制)
  • Jina/Firecrawl/Metaso: 1-50

示例:

{
  "keywords": "AI news",
  "max_results": 20
}

成本提示:结果数越多,消耗积分越多(按条计费)

3. 是否抓取详情页 (fetch_detail)

可选项,是否抓取搜索结果的详情页内容。

默认值:

  • Google/Jina/Firecrawl: true(默认抓取)
  • Metaso: 不支持(永远返回摘要)

工作原理:

  1. Firecrawl:搜索时直接返回Markdown(无额外开销)
  2. Google/Jina:搜索后使用 Firecrawl → Browserless 降级链路二次抓取
  3. Metaso:仅返回摘要(snippet),不支持详情抓取

示例:

{
  "keywords": "AI news",
  "fetch_detail": false
}

详情页抓取机制

抓取策略

Firecrawl优先 + Browserless降级:

  1. 首先尝试使用 Firecrawl v2 Scrape API
  2. 如果失败,自动降级到 Browserless (headless Chrome)
  3. 如果仍失败,保留原始摘要(snippet)

CAPTCHA检测

系统自动检测验证码页面,避免保存无效内容:

  • 检测关键词:"verify you are human", "captcha", "robot check"
  • 检测到CAPTCHA时,使用摘要代替详情
  • 不计入抓取成功统计

并发限制

为避免API限流,系统自动控制并发:

  • Firecrawl:最多 5 个并发请求
  • Browserless:最多 3 个并发请求
  • 可在管理后台调整(/admin/system-config)

统计信息

每次搜索完成后,会显示详情抓取统计:

Detail Scraping Stats:
- Total: 10
- Success: 8
- Failed: 2
- Firecrawl: 6
- Browserless: 2

配置示例

示例 1: Google搜索 + 抓取详情

{
  "keywords": "renewable energy policy 2024",
  "max_results": 10,
  "fetch_detail": true
}

说明:

  • 搜索关键词:renewable energy policy 2024
  • 返回 10 条结果
  • 自动抓取每条结果的详情页
  • 使用 Firecrawl → Browserless 降级链路

成本估算:

  • 搜索:10条 × 10 credits = 100 credits
  • 详情抓取:已包含在搜索中

示例 2: Firecrawl搜索(推荐)

{
  "keywords": "AI大模型 最新进展",
  "max_results": 15,
  "fetch_detail": true
}

说明:

  • 使用 Firecrawl 搜索(选择 firecrawl 子类型)
  • 搜索时直接返回 Markdown 内容
  • 无需二次抓取,速度更快
  • 内容质量最高(专业清洗)

示例 3: 秘塔AI搜索(中文)

{
  "keywords": "人工智能 政策法规",
  "max_results": 20,
  "search_scope": "webpage"
}

说明:

  • 使用秘塔AI搜索(选择 metaso 子类型)
  • 全网搜索模式(webpage)
  • 仅返回摘要(不支持 fetch_detail)
  • 适合中文内容监控

示例 4: 学术搜索

{
  "keywords": "machine learning interpretability",
  "max_results": 10,
  "search_scope": "academic"
}

说明:

  • 使用秘塔AI学术搜索
  • 搜索范围:academic(学术模式)
  • 返回论文、学术文章
  • 适合研究和文献综述

最佳实践

✅ 关键词优化

使用精确短语:

  • ❌ AI (太宽泛)
  • ✅ "GPT-4 Turbo release notes" (精确匹配)

组合多个关键词:

  • ❌ news (结果过多)
  • ✅ "climate change" policy 2024 (多关键词)

✅ 成本优化

关闭不必要的详情抓取:

  • 仅需标题和摘要 → fetch_detail: false
  • 节省 ~50% 成本

选择合适的搜索引擎:

  • 中文内容 → Metaso (3 credits/次)
  • 英文内容 + 详情 → Firecrawl (10 credits/次)
  • 广泛覆盖 → Google (10 credits/次)

✅ 定时策略

新闻监控:

  • 定时策略:每 12 小时
  • 去重策略:KEEP_OLD(避免重复抓取)

关键词跟踪:

  • 定时策略:每天 1-2 次
  • 去重策略:UPDATE(获取最新版本)

⚠️ 常见问题

问题 1:搜索结果少于预期

原因:

  • 关键词过于精确
  • 搜索引擎API限制

解决:

  • 放宽关键词
  • 尝试不同搜索引擎

问题 2:详情抓取失败率高

原因:

  • 目标网站有反爬虫机制
  • 存在CAPTCHA验证

解决:

  • 使用 Firecrawl 搜索(绕过率更高)
  • 关闭 fetch_detail,仅使用摘要

问题 3:内容重复

原因:

  • 定时策略过于频繁
  • 去重策略设置不当

解决:

  • 降低搜索频率(每天1次)
  • 使用 KEEP_OLD 去重策略

下一步

  • RSS订阅源 - 订阅网站更新
  • 网页与邮件源 - 抓取指定页面
  • 数据源总览 - 了解所有数据源类型

数据源管理 - 总览

OctoReport 支持的 9 种采集器:搜索、RSS、爬虫、邮件、Webhook、招标、人才、财经、学术。

RSS 订阅源

通过 RSS Feed + RSSHub 双层架构订阅微博、Twitter、公众号、播客等几乎所有内容源。

On this page

什么是搜索类源支持的搜索引擎1. Google Search2. Jina AI Search3. Firecrawl Search4. Tavily Search5. Metaso Search (秘塔AI)配置参数说明1. 关键词 (keywords)2. 最大结果数 (max_results)3. 是否抓取详情页 (fetch_detail)详情页抓取机制抓取策略CAPTCHA检测并发限制统计信息配置示例示例 1: Google搜索 + 抓取详情示例 2: Firecrawl搜索(推荐)示例 3: 秘塔AI搜索(中文)示例 4: 学术搜索最佳实践✅ 关键词优化✅ 成本优化✅ 定时策略⚠️ 常见问题下一步