自动化网站爬取任务的定时调度

FlowHunt 的定时调度功能可让你自动化网站、站点地图、域名及 YouTube 频道的爬取与索引，无需人工干预，即可确保 AI Agent 的知识库始终获取最新内容。

定时调度如何工作

自动爬取：
设置每日、每周、每月或每年定时爬取任务，持续为知识库更新内容。
多种爬取类型：
可根据内容源选择域名爬取、站点地图爬取、URL 爬取或 YouTube 频道爬取。
高级选项：
可配置浏览器渲染、链接跟踪、截图、代理轮换以及 URL 过滤，以实现最佳爬取效果。

定时调度配置选项

基础设置

类型： 选择你的爬取方式：

域名爬取： 系统化爬取整个域名
站点地图爬取： 利用网站的 sitemap.xml 高效爬取
URL 爬取： 针对特定 URL 或页面
YouTube 频道爬取： 索引 YouTube 频道视频内容

频率： 设定爬取的周期：

每日、每周、每月或每年

URL： 输入目标 URL、域名或 YouTube 频道

高级爬取选项

使用浏览器（消耗额外积分）：
适用于需要完整浏览器渲染的 JavaScript 密集型网站。此选项速度较慢且成本更高，但对于动态加载内容的网站来说是必需的。

跟踪链接（消耗额外积分）：
处理页面中发现的额外 URL。适用于站点地图未包含所有 URL 的情况，但会因爬取新增链接而消耗大量积分。

截图（消耗额外积分）：
爬取过程中截取页面截图。对于没有 og:images 或 AI 需要视觉上下文的网站尤为有用。

代理轮换（消耗额外积分）：
每次请求自动更换 IP，避免被网站防火墙（WAF）或反爬虫系统检测。

URL 过滤

跳过匹配的 URL：
输入字符串（每行一条），排除含有这些模式的 URL。例如：

/admin/
/login
.pdf

示例：跳过 /blog 的 flowhunt.io 爬取

本示例说明，若你在使用 FlowHunt 定时调度功能爬取 flowhunt.io 域名时，在 URL 过滤中设置 /blog 为需跳过的模式，将发生如下过程：

配置设置

类型： 域名爬取
URL： flowhunt.io
频率： 每周
URL 过滤（跳过匹配的 URL）： /blog
其他设置： 默认（无浏览器渲染、无链接跟踪、无截图、无代理轮换）

执行流程

任务启动：
- FlowHunt 开始对 flowhunt.io 进行域名级别爬取，目标包括该域名下所有可访问页面（如 flowhunt.io、flowhunt.io/features、flowhunt.io/pricing 等）。
应用 URL 过滤：
- 爬虫对每个发现的 URL 与 /blog 模式进行比对。
- 所有包含 /blog 的 URL（如 flowhunt.io/blog、flowhunt.io/blog/post1、flowhunt.io/blog/category）均排除在爬取之外。
- 其他如 flowhunt.io/about、flowhunt.io/contact 或 flowhunt.io/docs 等未包含 /blog 的 URL 会被正常爬取。
执行爬取：
- 爬虫系统性处理剩余的 URL，并为 AI Agent 的知识库建立索引。
- 因未启用浏览器渲染、链接跟踪、截图和代理轮换，本次爬取仅聚焦于未被排除的静态内容，过程轻量高效。
结果：
- AI Agent 的知识库更新了 flowhunt.io 上除 /blog 路径外的所有新内容。
- 该任务每周自动执行，无需人工干预，即可确保知识库持续获取新页面或更新内容（不含 /blog 部分）。

仅索引匹配的 URL：
输入字符串（每行一条），只爬取包含这些模式的 URL。例如：

/blog/
/articles/
/knowledge/

包含匹配 URL 的示例

配置设置

类型： 域名爬取
URL： flowhunt.io
频率： 每周
URL 过滤（仅索引匹配的 URL）：
```
/blog/
/articles/
/knowledge/
```
其他设置： 默认（无浏览器渲染、无链接跟踪、无截图、无代理轮换）

任务启动：
- FlowHunt 启动对 flowhunt.io 的域名级爬取，目标为所有可访问页面（如 flowhunt.io、flowhunt.io/blog、flowhunt.io/articles 等）。
应用 URL 过滤：
- 爬虫将每个发现的 URL 与 /blog/、/articles/、/knowledge/ 模式比对。
- 仅包含这些模式的 URL（如 flowhunt.io/blog/post1、flowhunt.io/articles/news、flowhunt.io/knowledge/guide）会被索引。
- 其余如 flowhunt.io/about、flowhunt.io/pricing、flowhunt.io/contact 等未匹配模式的 URL 将被排除。
执行爬取：
- 爬虫仅处理匹配 /blog/、/articles/ 或 /knowledge/ 的 URL，为 AI Agent 知识库建立索引。
- 因未启用浏览器渲染、链接跟踪、截图和代理轮换，任务专注于包含的静态内容，效率高。
结果：
- AI Agent 的知识库获得 flowhunt.io 域名下 /blog/、/articles/、/knowledge/ 路径下的最新内容。
- 任务每周自动执行，无需人工干预，确保这些版块的内容同步更新。

自定义请求头：
为爬取请求添加自定义 HTTP 请求头。格式为 HEADER=值（每行一条）：此功能非常适用于根据特定网站需求定制爬取行为。通过设置自定义请求头，用户可以为爬虫请求添加认证信息以访问受限内容，模拟特定浏览器访问，或遵循网站 API 或访问策略。例如，设置 Authorization 请求头可授权访问受保护页面，自定义 User-Agent 有助于规避反爬虫检测或提升特定网站兼容性。此灵活性可确保数据采集更准确、更全面，便于 AI Agent 索引相关内容，同时遵循网站安全和访问规范。

MYHEADER=Any value
Authorization=Bearer token123
User-Agent=Custom crawler

如何创建定时任务

进入 FlowHunt 控制台的 Schedules 页面
点击“Add new Schedule”
配置基础设置：
- 选择爬取类型（域名/站点地图/URL/YouTube）
- 设置爬取频率（每日/每周/每月/每年）
- 输入目标 URL
如需，展开高级选项：
- 针对 JS 密集型网站启用浏览器渲染
- 配置链接跟踪以完善爬取
- 设置 URL 过滤规则
  - 如需，自定义请求头
点击“Add new Schedule” 激活定时任务

最佳实践

大多数网站建议：

首选基础的站点地图或域名爬取
初期采用默认设置
仅在需要时添加高级选项

JavaScript 密集型网站：

启用“使用浏览器”选项
如需视觉内容，可启用截图
若被屏蔽，可考虑代理轮换

大型网站：

利用 URL 过滤聚焦重点内容
设置合适的爬取频率，平衡内容时效与积分消耗
使用高级功能时关注积分用量

电商或动态内容网站：

建议每日或每周爬取
启用链接跟踪以覆盖产品页
认证内容可用自定义请求头

积分消耗说明

高级功能会消耗额外积分：

浏览器渲染会增加处理时间和成本
跟踪链接会成倍增加爬取页面数
截图会增加视觉处理负载
代理轮换会增加网络开销

请根据需求与预算，监控积分用量并适时调整定时任务。

常见问题排查

爬取失败：

针对依赖 JS 的网站启用“使用浏览器”
若被 WAF 拦截，启用“代理轮换”
检查自定义请求头设置是否正确授权

爬取页面过多/过少：

用“跳过匹配的 URL”排除不需要的内容
用“仅索引匹配的 URL”聚焦特定版块
调整链接跟踪设置

内容缺失：

如站点地图不全，启用“跟踪链接”
检查 URL 过滤规则是否过于严格
确认目标 URL 可正常访问

自动化网站爬取任务的定时调度

定时调度如何工作

定时调度配置选项

基础设置

高级爬取选项

URL 过滤

示例：跳过 /blog 的 flowhunt.io 爬取

包含匹配 URL 的示例

准备好发展您的业务了吗？

如何创建定时任务

最佳实践

积分消耗说明

常见问题排查

了解更多

通过添加自定义知识库减少AI幻觉

计划任务

如何仅用选定的 cPanel 文档部分（而非整个站点）喂养 FlowHunt 聊天机器人

自动化网站爬取任务的定时调度

定时调度如何工作

定时调度配置选项

基础设置

高级爬取选项

URL 过滤

示例：跳过 /blog 的 flowhunt.io 爬取

包含匹配 URL 的示例

准备好发展您的业务了吗？

如何创建定时任务

最佳实践

加入我们的新闻通讯

积分消耗说明

常见问题排查

了解更多

通过添加自定义知识库减少AI幻觉

计划任务

如何仅用选定的 cPanel 文档部分（而非整个站点）喂养 FlowHunt 聊天机器人

Cookie 设置

必要的 Cookie

分析 Cookie