功能知识库管理
知识库管理
了解如何创建知识库、组织数据源、管理内容标签,让多源信息变成可检索可分析的知识资产。
什么是知识库
知识库(Library)是 OctoReport 中用于分类存储和组织内容的容器。
核心作用:
- 内容分类:将不同主题的内容分门别类存储
- 多源聚合:一个知识库可以关联多个数据源,自动汇集所有收集的内容
- 报告生成:报告模板可以从指定知识库提取内容进行分析
- 对话问答:Ask 功能可以基于知识库进行智能问答
关系说明:
- 1 个知识库可以关联多个数据源
- 1 个数据源也可以关联多个知识库
- 数据源收集的内容会自动存储到所有关联的知识库中
ℹ️ 提示
知识库是内容管理的核心。合理规划知识库结构,可以大幅提升报告生成和问答的效率。
创建知识库
创建步骤
- 点击左侧边栏 "知识库管理"
- 点击 "新建知识库" 按钮
- 填写基本信息:
- 名称:知识库的名称(必填)
- 描述:知识库的用途说明(选填,推荐填写)
- 点击 "保存"
配置示例
示例 1:AI 行业新闻库
{
"name": "AI行业新闻",
"description": "收集人工智能领域的最新新闻、研究进展和行业动态"
}示例 2:政府招标信息库
{
"name": "IT项目招标",
"description": "监控政府和企业发布的IT咨询、软件开发相关的招标公告"
}示例 3:竞品分析库
{
"name": "竞品动态监控",
"description": "追踪竞争对手的产品更新、融资新闻、市场活动"
}最佳实践
- 名称简洁明确:建议 2-8 个字,一眼能看出主题
- 描述详细具体:写明知识库的用途、关联的数据源类型、预期用途
- 按主题分类:不要创建过于宽泛的知识库(如"所有新闻"),而是按行业、主题细分
关联数据源
关联方式 1:在知识库页面关联(推荐)
- 进入知识库详情页
- 点击 "关联数据源" 按钮
- 从下拉列表中选择要关联的数据源
- 点击 "确认"
关联方式 2:在数据源页面关联
- 进入 "数据源管理"
- 创建或编辑数据源时,在 "关联知识库" 字段选择目标知识库
- 保存数据源
多对多关系
知识库和数据源支持多对多关联:
场景 1:一个数据源关联多个知识库
数据源: "36氪科技新闻"
├─ 关联知识库: "AI行业新闻"
├─ 关联知识库: "创业投资资讯"
└─ 关联知识库: "产品设计灵感"场景 2:一个知识库关联多个数据源
知识库: "AI行业新闻"
├─ 关联数据源: "36氪科技新闻" (RSS)
├─ 关联数据源: "机器之心" (RSS)
├─ 关联数据源: "Google AI新闻" (Google News)
└─ 关联数据源: "AI关键词搜索" (搜索源)⚠️ 注意
- 关联操作是双向的:在知识库或数据源任一页面操作,都会建立关联关系
- 取消关联后,已收集的内容不会被删除,仍保留在知识库中
- 新关联的数据源,只会收集之后的内容,不会回溯历史
查看和筛选内容
内容列表
进入知识库详情页,可以看到所有已收集的内容:
显示信息:
- 标题:内容的标题
- 来源:来自哪个数据源
- 收集时间:内容被收集的时间
- 状态:是否已清洗、是否过期
排序方式:
- 默认按 "收集时间" 倒序(最新的在前)
- 可切换按 "标题" 排序
筛选功能
按数据源筛选:
- 点击 "数据源" 下拉菜单
- 选择特定数据源,只显示来自该源的内容
按时间范围筛选:
- 点击 "时间范围" 选择器
- 选择预设范围(最近 7 天/30 天/90 天)或自定义日期
按清洗状态筛选:
- 已清洗:已使用 LLM 提取摘要和关键词
- 未清洗:保留原始 HTML 内容
- 全部:显示所有内容
按过期状态筛选:
- 有效内容:当前最新版本(默认)
- 过期内容:因 URL 去重被标记为过期的旧版本
- 全部:显示所有内容
内容详情
点击任意内容标题,可查看详细信息:
基本信息:
- 标题、来源 URL、收集时间、数据源名称
内容预览:
- 如果已清洗:显示摘要和关键词
- 如果未清洗:显示原始 HTML(可点击"触发清洗")
操作:
- 查看原文:跳转到原始 URL
- 触发清洗:手动触发 LLM 清洗(消耗积分)
- 删除:从知识库中移除(不影响其他知识库)
使用技巧
- 定期检查内容质量:查看是否有无关内容混入,调整数据源配置
- 手动触发清洗:对于重要内容,可以手动触发清洗以获得更好的摘要
- 利用筛选功能:生成报告前,先用筛选功能确认知识库中有足够的相关内容
管理操作
编辑知识库
点击知识库详情页的 "编辑" 按钮,可修改名称或描述。
删除知识库
在知识库列表页点击 "删除" 按钮。
⚠️ 警告:删除知识库会永久删除所有内容,关联的数据源不受影响。
清空内容
点击 "清空内容" 可清空知识库但保留配置,适合测试阶段或重新开始收集。
最佳实践
✅ 按主题细分知识库
推荐做法:
知识库 1: "AI研究进展"
知识库 2: "AI商业应用"
知识库 3: "AI政策法规"不推荐做法:
知识库: "AI相关所有内容"原因:细分后的知识库更便于管理和使用,报告生成时可以精准提取相关内容。
✅ 合理使用多对多关联
场景:同一数据源可能涉及多个主题
示例:
数据源: "科技媒体综合新闻"
├─ 关联知识库: "AI行业新闻" (AI 相关文章)
├─ 关联知识库: "区块链动态" (区块链相关文章)
└─ 关联知识库: "科技公司融资" (融资新闻)收益:一次收集,多处使用,节省成本。
✅ 定期检查和优化
检查清单:
- 每周检查内容数量,确认数据源正常工作
- 每月检查内容质量,剔除无关内容
- 根据使用频率,考虑合并或拆分知识库
常见问题
Q1:知识库和数据源有什么区别?
- 数据源:定义从哪里收集内容(搜索、RSS、邮件等)
- 知识库:定义如何分类和使用内容(报告生成、问答(Ask))
Q2:删除知识库会影响数据源吗?
不会。数据源会继续收集内容,只是没有关联的知识库来存储。
Q3:内容为什么重复出现?
可能原因:同一数据源关联了多个知识库(正常现象),或去重策略设置为 UPDATE(旧版本标记为过期)。