数据源管理 - 总览
OctoReport 支持的 9 种采集器:搜索、RSS、爬虫、邮件、Webhook、招标、人才、财经、学术。
什么是数据源
数据源定义了从哪里收集什么内容。
创建数据源后,系统会按照你设置的定时策略自动收集内容,存储到指定的知识库。
14 类数据源
OctoReport 内置 14 种 collector,每类对接不同来源;下表列出最常用的 6 类,完整列表见各专项文档。
| 类型 | 适用场景 | 更新频率建议 | 成本 |
|---|---|---|---|
| 🔍 搜索类源(Google / Jina / Firecrawl / Tavily / Metaso) | 主动搜索关键词 | 每天 1-2次 | 中 |
| 📡 RSS 订阅 | 订阅网站更新 | 每 1-6 小时 | 低 |
| 📧 邮件源 | 监控邮箱邮件 | 每小时 | 低 |
| 🌐 网页抓取 / 爬取(scrape / crawl) | 抓取指定页面 / 站点 | 每天 1-2次 | 中 |
| 📢 招标 / 招聘 / 财经监控 | 政府采购、岗位、上市公司动态 | 每天 1次 | 中 |
| 📰 Google News | 全球新闻监控 | 每 2-6 小时 | 低 |
完整 14 类:search、scrape、crawl、email、rss、tender_monitor、career_monitor、google-drive、webhook、sandbox、github、finance_monitor、preprint、scholarly_database。
如何选择数据源类型
决策流程
你的内容来源是?
├─ 特定网站有 RSS → 使用 **RSS订阅源**(最省钱)
├─ 需要搜索关键词 → 使用 **搜索类源**
├─ 监控邮件通知 → 使用 **邮件源**
├─ 抓取特定页面 → 使用 **网页抓取**
├─ 政府招标信息 → 使用 **招标公告源**
└─ 全球新闻监控 → 使用 **Google News**推荐组合
新闻聚合场景:
- RSS订阅源(主要来源,低成本)
- Google News(补充,覆盖更多地区)
- 搜索源(补充特定关键词)
招标监控场景:
- 招标公告源(政府平台)
- 搜索源(企业官网招标页面)
通用配置项
1. 定时策略
间隔模式
- 每 X 小时执行一次
- 例如:每 6 小时(适合新闻类)
周计划模式
- 每周几 + 具体时间
- 例如:每周一/三/五 9:00(适合定期报告)
手动触发
- 不自动执行
- 点击"立即执行"按钮触发
如何选择:
- 新闻/实时内容 → 间隔模式(1-6小时)
- 招标/定期更新 → 周计划模式(每天固定时间)
- 临时需求 → 手动触发
2. 去重策略
UPDATE(默认)
- 发现重复 URL 时,保存新版本
- 旧版本标记为过期(
isExpired=true) - 报告生成时自动过滤过期内容
适用场景:
- 需要获取最新版本(新闻更新、价格变动)
KEEP_OLD
- 发现重复 URL 时,仅记录,不重新抓取
- 保留原有内容
适用场景:
- 内容不会更新(RSS新闻、招标公告)
- 节省成本(避免重复抓取)
对比:
| 策略 | 是否重新抓取 | 成本 | 适用场景 |
|---|---|---|---|
| UPDATE | ✅ 是 | 高 | 内容会更新 |
| KEEP_OLD | ❌ 否 | 低 | 内容不变 |
3. 内容清洗
开启清洗
- 使用 LLM 提取标题、摘要、关键词
- 去除 HTML 标签和无关内容
- 额外成本: 10-20 credits/次
关闭清洗
- 保留原始 HTML 内容
- 后续需要时再清洗(推荐)
如何选择:
- 立即需要结构化数据 → 开启
- 先收集原始数据 → 关闭(后续可手动触发清洗)
4. 关联知识库
每个数据源可关联 1 个或多个知识库。
场景:
- 1个数据源 → 1个知识库(简单场景)
- 1个数据源 → 多个知识库(按主题分类)
示例:
数据源: "36氪科技新闻"
├─ 关联知识库: "AI行业新闻"
└─ 关联知识库: "创业投资资讯"最佳实践
✅ 新闻类内容
- 数据源: RSS订阅源
- 定时策略: 每 6 小时
- 去重策略: KEEP_OLD(省成本)
- 内容清洗: 关闭(原始内容足够)
✅ 招标类内容
- 数据源: 招标公告源
- 定时策略: 每天 1 次
- 去重策略: KEEP_OLD(不重复抓取)
- 内容清洗: 开启(提取关键信息)
✅ 关键词监控
- 数据源: 搜索源
- 定时策略: 每天 2 次
- 去重策略: UPDATE(获取最新)
- 内容清洗: 开启(结构化数据)