OctoReport
OctoReport
HomeConsole文档
产品概述快速上手

内容采集

数据源管理 - 总览搜索类源RSS 订阅源网页与邮件源政府与新闻源

内容库与报告

知识库管理报告生成

投递与对话

触发收件箱(邮件通道)Ask 智能问答

运营

积分与日志
原子计费机制URL 去重技术系统可靠性
配置技巧优化与排查
OctoReport 常见问题与支持
功能内容源数据源管理 - 总览

数据源管理 - 总览

OctoReport 支持的 9 种采集器:搜索、RSS、爬虫、邮件、Webhook、招标、人才、财经、学术。

什么是数据源

数据源定义了从哪里收集什么内容。

创建数据源后,系统会按照你设置的定时策略自动收集内容,存储到指定的知识库。

14 类数据源

OctoReport 内置 14 种 collector,每类对接不同来源;下表列出最常用的 6 类,完整列表见各专项文档。

类型适用场景更新频率建议成本
🔍 搜索类源(Google / Jina / Firecrawl / Tavily / Metaso)主动搜索关键词每天 1-2次中
📡 RSS 订阅订阅网站更新每 1-6 小时低
📧 邮件源监控邮箱邮件每小时低
🌐 网页抓取 / 爬取(scrape / crawl)抓取指定页面 / 站点每天 1-2次中
📢 招标 / 招聘 / 财经监控政府采购、岗位、上市公司动态每天 1次中
📰 Google News全球新闻监控每 2-6 小时低

完整 14 类:search、scrape、crawl、email、rss、tender_monitor、career_monitor、google-drive、webhook、sandbox、github、finance_monitor、preprint、scholarly_database。

如何选择数据源类型

决策流程

你的内容来源是?
├─ 特定网站有 RSS → 使用 **RSS订阅源**(最省钱)
├─ 需要搜索关键词 → 使用 **搜索类源**
├─ 监控邮件通知 → 使用 **邮件源**
├─ 抓取特定页面 → 使用 **网页抓取**
├─ 政府招标信息 → 使用 **招标公告源**
└─ 全球新闻监控 → 使用 **Google News**

推荐组合

新闻聚合场景:

  • RSS订阅源(主要来源,低成本)
  • Google News(补充,覆盖更多地区)
  • 搜索源(补充特定关键词)

招标监控场景:

  • 招标公告源(政府平台)
  • 搜索源(企业官网招标页面)

通用配置项

1. 定时策略

间隔模式

  • 每 X 小时执行一次
  • 例如:每 6 小时(适合新闻类)

周计划模式

  • 每周几 + 具体时间
  • 例如:每周一/三/五 9:00(适合定期报告)

手动触发

  • 不自动执行
  • 点击"立即执行"按钮触发

如何选择:

  • 新闻/实时内容 → 间隔模式(1-6小时)
  • 招标/定期更新 → 周计划模式(每天固定时间)
  • 临时需求 → 手动触发

2. 去重策略

UPDATE(默认)

  • 发现重复 URL 时,保存新版本
  • 旧版本标记为过期(isExpired=true)
  • 报告生成时自动过滤过期内容

适用场景:

  • 需要获取最新版本(新闻更新、价格变动)

KEEP_OLD

  • 发现重复 URL 时,仅记录,不重新抓取
  • 保留原有内容

适用场景:

  • 内容不会更新(RSS新闻、招标公告)
  • 节省成本(避免重复抓取)

对比:

策略是否重新抓取成本适用场景
UPDATE✅ 是高内容会更新
KEEP_OLD❌ 否低内容不变

3. 内容清洗

开启清洗

  • 使用 LLM 提取标题、摘要、关键词
  • 去除 HTML 标签和无关内容
  • 额外成本: 10-20 credits/次

关闭清洗

  • 保留原始 HTML 内容
  • 后续需要时再清洗(推荐)

如何选择:

  • 立即需要结构化数据 → 开启
  • 先收集原始数据 → 关闭(后续可手动触发清洗)

4. 关联知识库

每个数据源可关联 1 个或多个知识库。

场景:

  • 1个数据源 → 1个知识库(简单场景)
  • 1个数据源 → 多个知识库(按主题分类)

示例:

数据源: "36氪科技新闻"
  ├─ 关联知识库: "AI行业新闻"
  └─ 关联知识库: "创业投资资讯"

最佳实践

✅ 新闻类内容

  • 数据源: RSS订阅源
  • 定时策略: 每 6 小时
  • 去重策略: KEEP_OLD(省成本)
  • 内容清洗: 关闭(原始内容足够)

✅ 招标类内容

  • 数据源: 招标公告源
  • 定时策略: 每天 1 次
  • 去重策略: KEEP_OLD(不重复抓取)
  • 内容清洗: 开启(提取关键信息)

✅ 关键词监控

  • 数据源: 搜索源
  • 定时策略: 每天 2 次
  • 去重策略: UPDATE(获取最新)
  • 内容清洗: 开启(结构化数据)

下一步

  • 搜索类源 - 5 种搜索引擎详细配置
  • RSS订阅源 - RSSHub 高级配置
  • 网页与邮件源 - 自动化监控

快速上手

5 分钟跑通第一条采集 → 报告链路:注册账号、添加数据源、生成报告、自动投递。

搜索类源

通过 Google、Jina、Firecrawl、Tavily、秘塔等搜索引擎 API 主动检索关键词,自动收集结果。

On this page

什么是数据源14 类数据源如何选择数据源类型决策流程推荐组合通用配置项1. 定时策略间隔模式周计划模式手动触发2. 去重策略UPDATE(默认)KEEP_OLD3. 内容清洗开启清洗关闭清洗4. 关联知识库最佳实践✅ 新闻类内容✅ 招标类内容✅ 关键词监控下一步