자동화된 웹사이트 크롤링 일정 예약하기

자동화된 웹사이트 크롤링 일정 예약하기

Schedules Crawling AI Agent Knowledge Base

FlowHunt의 일정(Schedule) 기능을 활용하면 웹사이트, 사이트맵, 도메인, YouTube 채널의 크롤링과 인덱싱을 자동화할 수 있습니다. 이를 통해 AI 에이전트의 지식 베이스가 수동 작업 없이도 항상 최신 콘텐츠로 유지됩니다.

일정 기능의 작동 방식

  • 자동화된 크롤링:
    일일, 주간, 월간, 연간 등 반복 크롤링 일정을 설정하여 지식 베이스를 꾸준히 최신 상태로 유지할 수 있습니다.

  • 다양한 크롤링 유형:
    콘텐츠 소스에 따라 도메인 크롤, 사이트맵 크롤, URL 크롤, YouTube 채널 크롤 중에서 선택할 수 있습니다.

  • 고급 옵션:
    브라우저 렌더링, 링크 따라가기, 스크린샷, 프록시 회전, URL 필터링 등 결과 최적화를 위한 다양한 옵션을 설정할 수 있습니다.

일정 구성 옵션

기본 설정

유형: 크롤링 방식을 선택하세요:

  • 도메인 크롤: 전체 도메인을 체계적으로 크롤링
  • 사이트맵 크롤: 사이트의 sitemap.xml을 활용한 효율적 크롤링
  • URL 크롤: 특정 URL 또는 페이지 지정 크롤링
  • YouTube 채널 크롤: YouTube 채널의 영상 콘텐츠 인덱싱

빈도: 크롤링 실행 주기 설정

  • 일간, 주간, 월간, 연간

URL: 크롤링 대상의 URL, 도메인 또는 YouTube 채널 입력

고급 크롤링 옵션

브라우저 사용(추가 크레딧 소모): 자바스크립트 기반 웹사이트 등 전체 브라우저 렌더링이 필요한 경우 활성화하세요. 속도가 느리고 비용이 더 들지만, 동적 콘텐츠 로딩 사이트에 필수입니다.

링크 따라가기(추가 크레딧 소모): 페이지 내에서 추가로 발견된 URL까지 처리합니다. 사이트맵에 모든 URL이 포함되지 않은 경우 유용하지만, 발견된 링크까지 크롤링하므로 크레딧 소모가 커질 수 있습니다.

스크린샷 찍기(추가 크레딧 소모): 크롤링 시 화면 스크린샷 캡처. og:images가 없거나 AI 처리를 위한 시각 자료가 필요한 사이트에 유용합니다.

프록시 회전 사용(추가 크레딧 소모): 요청마다 IP를 바꿔 Web Application Firewall(WAF) 또는 봇 차단을 우회할 수 있습니다.

URL 필터링

일치하는 URL 건너뛰기: 입력한 문자열이 포함된 URL은 크롤링 대상에서 제외합니다(한 줄에 한 패턴씩 입력). 예시:

/admin/
/login
.pdf

예시: /blog 제외 설정으로 flowhunt.io 크롤링

이 예시는 flowhunt.io 도메인을 크롤링하면서, URL 필터링 설정에서 /blog 패턴을 “건너뛰기"로 지정했을 때의 동작을 설명합니다.

설정 예시

  • 유형: 도메인 크롤
  • URL: flowhunt.io
  • 빈도: 주간
  • URL 필터링(일치하는 URL 건너뛰기): /blog
  • 기타 설정: 기본값(브라우저 렌더링, 링크 따라가기, 스크린샷, 프록시 회전 미사용)

동작 과정

  1. 크롤 시작:

    • FlowHunt가 flowhunt.io 도메인을 대상으로 전체 접근 가능한 페이지(예: flowhunt.io, flowhunt.io/features, flowhunt.io/pricing 등)를 크롤링합니다.
  2. URL 필터링 적용:

    • 발견된 각 URL을 /blog 패턴과 비교합니다.
    • /blog가 포함된 모든 URL(예: flowhunt.io/blog, flowhunt.io/blog/post1, flowhunt.io/blog/category)은 크롤링 대상에서 제외됩니다.
    • /blog가 포함되지 않은 URL(예: flowhunt.io/about, flowhunt.io/contact, flowhunt.io/docs)은 크롤링됩니다.
  3. 크롤 실행:

    • 나머지 URL을 체계적으로 크롤링하여 AI 에이전트의 지식 베이스에 콘텐츠를 인덱싱합니다.
    • 브라우저 렌더링, 링크 따라가기, 스크린샷, 프록시 회전이 비활성화되어 있으므로, 제외된 URL을 제외한 정적 콘텐츠만 간단히 처리합니다.
  4. 결과:

    • /blog 경로 하위의 모든 콘텐츠를 제외하고, flowhunt.io의 최신 콘텐츠로 AI 에이전트의 지식 베이스가 갱신됩니다.
    • 이 크롤링은 매주 실행되어, /blog를 제외한 나머지 영역의 새 페이지나 업데이트된 페이지가 자동 반영됩니다.

일치하는 URL만 인덱싱: 입력한 문자열이 포함된 URL만 크롤링 대상으로 지정합니다(한 줄에 한 패턴씩 입력). 예시:

/blog/
/articles/
/knowledge/

일치하는 URL만 포함 예시

설정 예시

  • 유형: 도메인 크롤
  • URL: flowhunt.io
  • 빈도: 주간
  • URL 필터링(일치하는 URL만 인덱싱):
    /blog/
    /articles/
    /knowledge/
    
  • 기타 설정: 기본값(브라우저 렌더링, 링크 따라가기, 스크린샷, 프록시 회전 미사용)
  1. 크롤 시작:

    • FlowHunt가 flowhunt.io의 전체 접근 가능한 페이지(예: flowhunt.io, flowhunt.io/blog, flowhunt.io/articles 등)를 대상으로 크롤링을 시작합니다.
  2. URL 필터링 적용:

    • 발견된 각 URL을 /blog/, /articles/, /knowledge/ 패턴과 비교합니다.
    • 해당 패턴이 포함된 URL(예: flowhunt.io/blog/post1, flowhunt.io/articles/news, flowhunt.io/knowledge/guide)만 포함되어 크롤링됩니다.
    • /about, /pricing, /contact 등 지정되지 않은 URL은 제외됩니다.
  3. 크롤 실행:

    • /blog/, /articles/, /knowledge/ 패턴에 일치하는 URL만 크롤링하여 AI 에이전트의 지식 베이스에 인덱싱합니다.
    • 브라우저 렌더링, 링크 따라가기, 스크린샷, 프록시 회전이 비활성화되어 있으므로, 포함된 URL의 정적 콘텐츠만 빠르고 가볍게 처리합니다.
  4. 결과:

    • /blog/, /articles/, /knowledge/ 경로 하위의 최신 콘텐츠로 AI 에이전트의 지식 베이스가 갱신됩니다.
    • 이 크롤링은 매주 실행되어 해당 영역의 새 페이지나 업데이트된 페이지가 자동 반영됩니다.

커스텀 헤더: 크롤링 요청에 커스텀 HTTP 헤더를 추가할 수 있습니다. HEADER=Value 형식(한 줄에 한 개)으로 입력하세요: 이 기능은 특정 웹사이트 요구사항에 맞춰 크롤링을 맞춤화할 때 매우 유용합니다. 커스텀 헤더를 사용하면 인증이 필요한 콘텐츠 접근, 특정 브라우저 동작 모방, 사이트의 API 또는 접근 정책 준수 등이 가능합니다. 예를 들어 Authorization 헤더를 추가하면 보호된 페이지 접근이 가능하고, 커스텀 User-Agent를 지정하면 봇 감지 우회 또는 일부 크롤러 제한 사이트에서도 정상 작동할 수 있습니다. 이를 통해 AI 에이전트의 지식 베이스를 위한 더 정확하고 포괄적인 데이터 수집이 가능하며, 웹사이트의 보안 및 접근 정책도 준수할 수 있습니다.

MYHEADER=Any value
Authorization=Bearer token123
User-Agent=Custom crawler

일정 생성 방법

  1. FlowHunt 대시보드에서 [일정] 메뉴로 이동 일정 메뉴로 이동

  2. [새 일정 추가] 클릭 새 일정 추가 클릭

  3. 기본 설정 구성:

    • 크롤링 유형 선택(도메인/사이트맵/URL/YouTube)
    • 빈도 설정(일간/주간/월간/연간)
    • 대상 URL 입력
  4. 필요시 고급 옵션 확장:

    • JS 기반 사이트의 경우 브라우저 렌더링 활성화
    • 포괄적 크롤링을 위해 링크 따라가기 설정
    • URL 필터링 규칙 설정
      • 필요시 커스텀 헤더 추가 고급 옵션 확장
  5. [새 일정 추가] 클릭으로 활성화

활용 팁

일반 웹사이트:

  • 사이트맵 또는 도메인 크롤로 시작
  • 우선 기본 설정 사용
  • 필요할 때만 고급 옵션 추가

자바스크립트 기반 사이트:

  • “브라우저 사용” 옵션 활성화
  • 시각 콘텐츠가 필요하면 스크린샷도 사용 고려
  • 차단 시 프록시 회전 필요할 수 있음

대형 사이트:

  • URL 필터링으로 핵심 콘텐츠 중심 크롤링
  • 크롤 빈도 적절히 설정(신선도와 크레딧 소모 균형)
  • 고급 기능 사용 시 크레딧 소모 모니터링

이커머스·동적 콘텐츠:

  • 일간 또는 주간 빈도 추천
  • 상품 페이지를 위한 링크 따라가기 활성화
  • 인증이 필요한 콘텐츠는 커스텀 헤더 사용

크레딧 사용량

고급 기능은 추가 크레딧을 소모합니다:

  • 브라우저 렌더링은 처리 시간 및 비용 증가
  • 링크 따라가기는 크롤링 페이지 수 증가
  • 스크린샷은 시각 처리 오버헤드 발생
  • 프록시 회전은 네트워크 오버헤드 증가

크레딧 사용량을 주기적으로 점검하고, 예산에 맞게 일정을 조정하세요.

자주 발생하는 문제 해결

크롤 실패:

  • 자바스크립트 기반 사이트는 “브라우저 사용” 활성화
  • WAF 차단 시 “프록시 회전” 추가
  • 인증 필요시 커스텀 헤더 확인

페이지가 너무 많거나 적을 때:

  • 원하지 않는 콘텐츠는 “일치하는 URL 건너뛰기” 사용
  • 특정 섹션만 원할 땐 “일치하는 URL만 인덱싱” 활용
  • 링크 따라가기 설정 조정

콘텐츠 누락:

  • 사이트맵이 불완전할 경우 “링크 따라가기” 활성화
  • URL 필터링 규칙이 너무 엄격하지 않은지 확인
  • 대상 URL에 정상 접근 가능한지 점검

더 알아보기

맞춤형 지식베이스 추가로 AI 환각 줄이기
맞춤형 지식베이스 추가로 AI 환각 줄이기

맞춤형 지식베이스 추가로 AI 환각 줄이기

FlowHunt의 스케줄 기능을 사용하여 AI 환각을 줄이고 챗봇 응답의 정확성을 보장하세요. 이 강력한 도구의 장점, 실용적인 활용 사례, 단계별 설정 가이드를 알아보세요....

5 분 읽기
AI Chatbot +4
스케줄
스케줄

스케줄

FlowHunt의 스케줄 기능은 도메인과 YouTube 채널을 주기적으로 크롤링하여 챗봇과 플로우가 최신 정보를 항상 유지할 수 있도록 합니다. 맞춤형 크롤링 유형과 주기로 데이터 수집을 자동화하여 AI 기반 상호작용이 항상 관련성 있고 정확하게 유지되도록 하세요....

2 분 읽기
AI Schedules +4
캘린들리(Calendly)
캘린들리(Calendly)

캘린들리(Calendly)

FlowHunt를 Calendly와 연동하여 미팅 일정 예약을 자동화하고, 약속을 관리하며, AI 기반 워크플로우로 캘린더를 손쉽게 동기화하세요....

3 분 읽기
AI Calendly +3