自动化网站爬取任务的定时调度

自动化网站爬取任务的定时调度

Schedules Crawling AI Agent Knowledge Base

FlowHunt 的定时调度功能可让你自动化网站、站点地图、域名及 YouTube 频道的爬取与索引,无需人工干预,即可确保 AI Agent 的知识库始终获取最新内容。

定时调度如何工作

  • 自动爬取:
    设置每日、每周、每月或每年定时爬取任务,持续为知识库更新内容。

  • 多种爬取类型:
    可根据内容源选择域名爬取、站点地图爬取、URL 爬取或 YouTube 频道爬取。

  • 高级选项:
    可配置浏览器渲染、链接跟踪、截图、代理轮换以及 URL 过滤,以实现最佳爬取效果。

定时调度配置选项

基础设置

类型: 选择你的爬取方式:

  • 域名爬取: 系统化爬取整个域名
  • 站点地图爬取: 利用网站的 sitemap.xml 高效爬取
  • URL 爬取: 针对特定 URL 或页面
  • YouTube 频道爬取: 索引 YouTube 频道视频内容

频率: 设定爬取的周期:

  • 每日、每周、每月或每年

URL: 输入目标 URL、域名或 YouTube 频道

高级爬取选项

使用浏览器(消耗额外积分):
适用于需要完整浏览器渲染的 JavaScript 密集型网站。此选项速度较慢且成本更高,但对于动态加载内容的网站来说是必需的。

跟踪链接(消耗额外积分):
处理页面中发现的额外 URL。适用于站点地图未包含所有 URL 的情况,但会因爬取新增链接而消耗大量积分。

截图(消耗额外积分):
爬取过程中截取页面截图。对于没有 og:images 或 AI 需要视觉上下文的网站尤为有用。

代理轮换(消耗额外积分):
每次请求自动更换 IP,避免被网站防火墙(WAF)或反爬虫系统检测。

URL 过滤

跳过匹配的 URL:
输入字符串(每行一条),排除含有这些模式的 URL。例如:

/admin/
/login
.pdf

示例:跳过 /blog 的 flowhunt.io 爬取

本示例说明,若你在使用 FlowHunt 定时调度功能爬取 flowhunt.io 域名时,在 URL 过滤中设置 /blog 为需跳过的模式,将发生如下过程:

配置设置

  • 类型: 域名爬取
  • URL: flowhunt.io
  • 频率: 每周
  • URL 过滤(跳过匹配的 URL): /blog
  • 其他设置: 默认(无浏览器渲染、无链接跟踪、无截图、无代理轮换)

执行流程

  1. 任务启动:

    • FlowHunt 开始对 flowhunt.io 进行域名级别爬取,目标包括该域名下所有可访问页面(如 flowhunt.ioflowhunt.io/featuresflowhunt.io/pricing 等)。
  2. 应用 URL 过滤:

    • 爬虫对每个发现的 URL 与 /blog 模式进行比对。
    • 所有包含 /blog 的 URL(如 flowhunt.io/blogflowhunt.io/blog/post1flowhunt.io/blog/category)均排除在爬取之外。
    • 其他如 flowhunt.io/aboutflowhunt.io/contactflowhunt.io/docs 等未包含 /blog 的 URL 会被正常爬取。
  3. 执行爬取:

    • 爬虫系统性处理剩余的 URL,并为 AI Agent 的知识库建立索引。
    • 因未启用浏览器渲染、链接跟踪、截图和代理轮换,本次爬取仅聚焦于未被排除的静态内容,过程轻量高效。
  4. 结果:

    • AI Agent 的知识库更新了 flowhunt.io 上除 /blog 路径外的所有新内容。
    • 该任务每周自动执行,无需人工干预,即可确保知识库持续获取新页面或更新内容(不含 /blog 部分)。

仅索引匹配的 URL:
输入字符串(每行一条),只爬取包含这些模式的 URL。例如:

/blog/
/articles/
/knowledge/

包含匹配 URL 的示例

配置设置

  • 类型: 域名爬取
  • URL: flowhunt.io
  • 频率: 每周
  • URL 过滤(仅索引匹配的 URL):
    /blog/
    /articles/
    /knowledge/
    
  • 其他设置: 默认(无浏览器渲染、无链接跟踪、无截图、无代理轮换)
  1. 任务启动:

    • FlowHunt 启动对 flowhunt.io 的域名级爬取,目标为所有可访问页面(如 flowhunt.ioflowhunt.io/blogflowhunt.io/articles 等)。
  2. 应用 URL 过滤:

    • 爬虫将每个发现的 URL 与 /blog//articles//knowledge/ 模式比对。
    • 仅包含这些模式的 URL(如 flowhunt.io/blog/post1flowhunt.io/articles/newsflowhunt.io/knowledge/guide)会被索引
    • 其余如 flowhunt.io/aboutflowhunt.io/pricingflowhunt.io/contact 等未匹配模式的 URL 将被排除
  3. 执行爬取:

    • 爬虫仅处理匹配 /blog//articles//knowledge/ 的 URL,为 AI Agent 知识库建立索引。
    • 因未启用浏览器渲染、链接跟踪、截图和代理轮换,任务专注于包含的静态内容,效率高。
  4. 结果:

    • AI Agent 的知识库获得 flowhunt.io 域名下 /blog//articles//knowledge/ 路径下的最新内容。
    • 任务每周自动执行,无需人工干预,确保这些版块的内容同步更新。

自定义请求头:
为爬取请求添加自定义 HTTP 请求头。格式为 HEADER=值(每行一条): 此功能非常适用于根据特定网站需求定制爬取行为。通过设置自定义请求头,用户可以为爬虫请求添加认证信息以访问受限内容,模拟特定浏览器访问,或遵循网站 API 或访问策略。例如,设置 Authorization 请求头可授权访问受保护页面,自定义 User-Agent 有助于规避反爬虫检测或提升特定网站兼容性。此灵活性可确保数据采集更准确、更全面,便于 AI Agent 索引相关内容,同时遵循网站安全和访问规范。

MYHEADER=Any value
Authorization=Bearer token123
User-Agent=Custom crawler

如何创建定时任务

  1. 进入 FlowHunt 控制台的 Schedules 页面 进入 Schedules 页面

  2. 点击“Add new Schedule” 点击 Add new Schedule

  3. 配置基础设置:

    • 选择爬取类型(域名/站点地图/URL/YouTube)
    • 设置爬取频率(每日/每周/每月/每年)
    • 输入目标 URL
  4. 如需,展开高级选项:

    • 针对 JS 密集型网站启用浏览器渲染
    • 配置链接跟踪以完善爬取
    • 设置 URL 过滤规则
      • 如需,自定义请求头 展开高级选项
  5. 点击“Add new Schedule” 激活定时任务

最佳实践

大多数网站建议:

  • 首选基础的站点地图或域名爬取
  • 初期采用默认设置
  • 仅在需要时添加高级选项

JavaScript 密集型网站:

  • 启用“使用浏览器”选项
  • 如需视觉内容,可启用截图
  • 若被屏蔽,可考虑代理轮换

大型网站:

  • 利用 URL 过滤聚焦重点内容
  • 设置合适的爬取频率,平衡内容时效与积分消耗
  • 使用高级功能时关注积分用量

电商或动态内容网站:

  • 建议每日或每周爬取
  • 启用链接跟踪以覆盖产品页
  • 认证内容可用自定义请求头

积分消耗说明

高级功能会消耗额外积分:

  • 浏览器渲染会增加处理时间和成本
  • 跟踪链接会成倍增加爬取页面数
  • 截图会增加视觉处理负载
  • 代理轮换会增加网络开销

请根据需求与预算,监控积分用量并适时调整定时任务。

常见问题排查

爬取失败:

  • 针对依赖 JS 的网站启用“使用浏览器”
  • 若被 WAF 拦截,启用“代理轮换”
  • 检查自定义请求头设置是否正确授权

爬取页面过多/过少:

  • 用“跳过匹配的 URL”排除不需要的内容
  • 用“仅索引匹配的 URL”聚焦特定版块
  • 调整链接跟踪设置

内容缺失:

  • 如站点地图不全,启用“跟踪链接”
  • 检查 URL 过滤规则是否过于严格
  • 确认目标 URL 可正常访问

了解更多

通过添加自定义知识库减少AI幻觉
通过添加自定义知识库减少AI幻觉

通过添加自定义知识库减少AI幻觉

通过使用FlowHunt的计划功能,减少AI幻觉并确保聊天机器人响应的准确性。了解其优势、实际应用场景,以及逐步设置此强大工具的指南。...

1 分钟阅读
AI Chatbot +4
计划任务
计划任务

计划任务

FlowHunt 的计划任务功能可以让您定期爬取域名和 YouTube 频道,确保您的聊天机器人和流程始终获得最新信息。通过可自定义的爬取类型和频率自动获取数据,确保您的 AI 交互始终相关且准确。...

1 分钟阅读
AI Schedules +4