OctoReport
OctoReport
HomeConsole文档
产品概述快速上手

内容采集

数据源管理 - 总览搜索类源RSS 订阅源网页与邮件源政府与新闻源

内容库与报告

知识库管理报告生成

投递与对话

触发收件箱(邮件通道)Ask 智能问答

运营

积分与日志
原子计费机制URL 去重技术系统可靠性
配置技巧优化与排查
OctoReport 常见问题与支持
功能内容源RSS 订阅源

RSS 订阅源

通过 RSS Feed + RSSHub 双层架构订阅微博、Twitter、公众号、播客等几乎所有内容源。

什么是 RSS 订阅

RSS(Really Simple Syndication)是一种网站内容分发格式,允许你自动接收网站的最新更新。通过订阅 RSS,你无需频繁访问网站,系统会自动为你收集新内容。

适用场景:

  • 订阅新闻网站、博客、播客
  • 监控技术社区、论坛动态
  • 追踪特定主题的内容更新

基础配置

创建 RSS 订阅源

  1. 点击左侧边栏 "数据源管理"
  2. 点击 "新建数据源" 按钮
  3. 选择类型:RSS - 通用RSS订阅
  4. 填写基础配置:
    • 名称:自定义名称(如"36氪科技新闻")
    • RSS URL:RSS/Atom 订阅地址
    • 关联知识库:选择存储位置
    • 定时策略:建议每 1-6 小时
    • 去重策略:选择 KEEP_OLD(推荐,省成本)

ℹ️ 提示:大多数网站的 RSS 地址在页面底部或导航栏,通常以 /feed 或 /rss 结尾。

标准 RSS URL 示例

网站RSS URL
36氪https://www.36kr.com/feed
少数派https://sspai.com/feed
阮一峰博客https://www.ruanyifeng.com/blog/atom.xml

RSSHub 高级功能

什么是 RSSHub

RSSHub 是一个开源项目,可以为 没有 RSS 的网站 生成 RSS 订阅(如微博、B站、知乎、GitHub 等)。OctoReport 内置了 RSSHub 支持,提供 2000+ 路由。

RSSHub 路由搜索

创建 RSS 订阅源时,点击 "搜索 RSSHub 路由" 按钮,可以搜索所有可用路由:

  1. 输入关键词(如"微博"、"GitHub")
  2. 查看搜索结果(路由路径、描述、参数)
  3. 点击 "使用此路由" 自动填入配置

💡 技巧:支持中英文搜索,例如搜索"bilibili"或"B站"都能找到相关路由。

RSSHub 配置示例

示例 1: 订阅 GitHub Trending

RSSHub 路径: /github/trending/daily/javascript
最终 URL: https://rsshub.app/github/trending/daily/javascript
说明: 每日 JavaScript 热门项目

示例 2: 订阅微博热搜

RSSHub 路径: /weibo/search/hot
最终 URL: https://rsshub.app/weibo/search/hot
说明: 微博实时热搜榜

Cookie 配置

为什么需要 Cookie

某些 RSSHub 路由需要登录后的 Cookie 才能访问内容(如微博个人主页、B站关注列表、知乎专栏等)。

配置方式

方式一:管理员全局 Cookie(推荐)

适用于管理员统一管理账号,所有用户共享 Cookie。

配置步骤:

  1. 管理员登录 → 进入 /admin/api-keys
  2. 添加 API Key,服务名称选择 "RSSHub Cookie (全局)"
  3. 输入完整 Cookie 字符串(从浏览器开发者工具获取)

方式二:用户自定义 Cookie(可选)

适用于用户有自己的账号,需要个性化内容。

配置步骤:

  1. 创建/编辑 RSS 订阅源
  2. 展开 "Cookie & User-Agent(可选)"
  3. 在 Cookie 文本框中输入您的 Cookie
  4. 保存

⚠️ 注意:Cookie 通常会在 7-30 天后过期,届时需要重新获取并更新。

优先级:用户 Cookie > 全局 Cookie > 无 Cookie


User-Agent 配置

为什么需要 User-Agent

有些网站会检测请求来源,阻止默认的爬虫请求。配置 User-Agent 可以伪装成浏览器访问,提高抓取成功率。

配置方式

方式一:全局 User-Agent(推荐)

管理员在 /admin/api-keys 中配置 "RSSHub User-Agent (全局)",所有用户共享。

方式二:用户自定义 User-Agent

在 RSS 订阅源表单中,展开 "Cookie & User-Agent(可选)",输入自定义 User-Agent。

预设选项

系统提供 8 个预设 User-Agent:

  • Chrome (Windows/macOS)
  • Firefox (Windows)
  • Safari (macOS)
  • Edge (Windows)
  • Mobile Chrome (Android)
  • Mobile Safari (iOS)
  • Curl

优先级:用户 UA > 全局 UA > RSSHub 默认 UA


自定义请求头

适用场景

  • 特殊认证:需要自定义 Authorization 头
  • 防盗链:需要特定的 Referer 头
  • API 访问:需要 X-API-Key 头

配置方式

在 RSS 订阅源表单中,展开 "自定义请求头(JSON 格式)",输入 JSON 对象:

{
  "Authorization": "Bearer your-token-here",
  "Referer": "https://example.com"
}

常用模板

场景请求头示例
Bearer Token 认证{"Authorization": "Bearer xxx"}
API 密钥认证{"X-API-Key": "your-api-key"}
防盗链{"Referer": "https://example.com"}
IP 伪装{"X-Forwarded-For": "1.2.3.4"}

⚠️ 安全性:敏感请求头(如 Authorization)会被加密存储,日志中显示为 ***。


URL 参数配置

功能概述

RSSHub 支持 20+ URL 参数,用于过滤、限制、转换内容。

常用参数

1. 内容过滤(12 个参数)

参数说明示例
filter_title过滤标题AI|GPT|ChatGPT
filterout_title排除标题广告|推广
filter过滤全文技术|开发
filterout排除全文娱乐|八卦
filter_time时间范围(秒)86400(最近24小时)

2. 内容控制(4 个参数)

参数说明示例
limit限制文章数量20
mode全文模式fulltext
sorted按时间排序true
brief生成摘要200

3. 高级功能(3 个参数)

参数说明示例
opencc繁简转换s2t(简→繁)/t2s(繁→简)
format输出格式rss / atom / json

配置方式

在 RSS 订阅源表单中,展开 "高级参数配置(可选)":

方式一:常用参数表单(推荐)

  • 限制文章数量:输入数字(如 20)
  • 标题过滤:输入正则表达式(如 AI|GPT)
  • 内容模式:选择"默认"或"全文模式"
  • 繁简转换:选择转换方向

方式二:JSON 格式(高级用户)

{
  "limit": 20,
  "filter_title": "AI|GPT|ChatGPT",
  "mode": "fulltext",
  "opencc": "t2s"
}

实战示例

场景 1: 订阅技术博客,只看 AI 文章

{
  "limit": 30,
  "filter_title": "AI|GPT|机器学习|深度学习",
  "filterout_title": "招聘|广告"
}

场景 2: 订阅繁体网站,转简体

{
  "limit": 20,
  "opencc": "t2s"
}

RSSHub 实例认证

认证模式

OctoReport 支持 3 种 RSSHub 实例认证模式:

模式传递方式适用场景
NONE无认证公开的 RSSHub 实例
KEYURL 参数需要访问密钥(?key=xxx)
BEARER请求头需要 Bearer Token(Authorization: Bearer xxx)

配置位置

管理员在 /admin/rsshub-instances 中配置:

  1. 创建/编辑 RSSHub 实例
  2. 选择认证模式
  3. 输入访问密钥/Token(如适用)

ℹ️ 安全性:访问密钥/Token 使用 AES-256-GCM 加密存储,URL 日志中显示为 ***。


多实例故障转移

工作原理

OctoReport 支持配置多个 RSSHub 实例(如官方实例、自建实例、镜像站),当主实例失败时,自动切换到备用实例。

配置方式

管理员在 /admin/rsshub-instances 中配置多个实例:

  1. 添加多个 RSSHub 实例(不同 URL)
  2. 设置优先级(数字越小越优先)
  3. 启用状态(是否参与故障转移)

故障转移策略

  1. 请求按优先级从低到高尝试(1 → 2 → 3)
  2. 如果实例返回错误(404/500/超时),自动切换到下一个
  3. 如果所有实例都失败,返回最后一个错误
  4. 自动记录失败原因到任务日志

最佳实践

  • 配置至少 2 个实例(主实例 + 备用实例)
  • 主实例优先级设为 1,备用实例设为 2
  • 自建实例速度更快,官方实例更稳定

💡 技巧:RSSHub 官方提供了多个镜像站,可在 rsshub.app 查看完整列表。


最佳实践

✅ 新闻类内容

推荐配置:

  • 定时策略:每 6 小时
  • 去重策略:KEEP_OLD(省成本)
  • 内容清洗:关闭(原始内容足够)
  • URL 参数:{"limit": 20}

✅ 社交媒体内容

推荐配置:

  • 定时策略:每 1-2 小时
  • 去重策略:UPDATE(获取更新)
  • Cookie:全局 Cookie(需登录)
  • URL 参数:{"limit": 50, "filter_title": "关键词"}

✅ 繁体网站

推荐配置:

  • URL 参数:{"limit": 20, "opencc": "t2s"}
  • User-Agent:桌面浏览器

常见问题

Q1: RSS URL 如何获取?

答:

  1. 在网站页面查找 RSS 图标或链接
  2. 通常在页面底部、侧边栏或导航栏
  3. 对于没有 RSS 的网站,使用 RSSHub 路由搜索

Q2: Cookie 过期怎么办?

答:

  • 表现:RSS 抓取失败,日志显示"未登录"
  • 解决:重新登录目标网站,更新 Cookie 配置

Q3: 如何测试配置是否生效?

答:

  1. 创建测试 RSS 订阅源
  2. 配置相关参数
  3. 点击"立即运行"按钮
  4. 查看任务日志和抓取结果

Q4: 多个实例如何选择?

答:

  • 自建实例:速度快,无限制
  • 官方实例:稳定可靠,可能有频率限制
  • 镜像站:分散流量,提高可用性

下一步

  • 网页与邮件源 - 单页抓取、批量抓取、邮件监控
  • 政府与新闻源 - 招标公告、Google News
  • 配置技巧 - 最佳实践和优化建议

搜索类源

通过 Google、Jina、Firecrawl、Tavily、秘塔等搜索引擎 API 主动检索关键词,自动收集结果。

网页与邮件源

网页抓取与邮件监控:适用于无 RSS 订阅的网站、邮件通知场景以及邮件列表新闻源。

On this page

什么是 RSS 订阅基础配置创建 RSS 订阅源标准 RSS URL 示例RSSHub 高级功能什么是 RSSHubRSSHub 路由搜索RSSHub 配置示例示例 1: 订阅 GitHub Trending示例 2: 订阅微博热搜Cookie 配置为什么需要 Cookie配置方式方式一:管理员全局 Cookie(推荐)方式二:用户自定义 Cookie(可选)User-Agent 配置为什么需要 User-Agent配置方式方式一:全局 User-Agent(推荐)方式二:用户自定义 User-Agent预设选项自定义请求头适用场景配置方式常用模板URL 参数配置功能概述常用参数1. 内容过滤(12 个参数)2. 内容控制(4 个参数)3. 高级功能(3 个参数)配置方式方式一:常用参数表单(推荐)方式二:JSON 格式(高级用户)实战示例场景 1: 订阅技术博客,只看 AI 文章场景 2: 订阅繁体网站,转简体RSSHub 实例认证认证模式配置位置多实例故障转移工作原理配置方式故障转移策略最佳实践最佳实践✅ 新闻类内容✅ 社交媒体内容✅ 繁体网站常见问题Q1: RSS URL 如何获取?Q2: Cookie 过期怎么办?Q3: 如何测试配置是否生效?Q4: 多个实例如何选择?下一步