Planowanie Automatycznych Przeszukiwań Stron Internetowych

Planowanie Automatycznych Przeszukiwań Stron Internetowych

Schedules Crawling AI Agent Knowledge Base

Funkcja Harmonogram w FlowHunt pozwala zautomatyzować przeszukiwanie i indeksowanie stron internetowych, map witryn, domen oraz kanałów YouTube. Dzięki temu baza wiedzy Twojego Agenta AI pozostaje zawsze aktualna, bez konieczności ręcznej interwencji.

Jak działa planowanie

  • Automatyczne przeszukiwanie:
    Ustaw cykliczne przeszukiwania uruchamiane codziennie, co tydzień, co miesiąc lub co rok, aby utrzymać bazę wiedzy na bieżąco.

  • Różne typy przeszukiwań:
    Wybierz spośród przeszukiwania domeny, mapy witryny, konkretnego adresu URL lub kanału YouTube – w zależności od źródła treści.

  • Opcje zaawansowane:
    Skonfiguruj renderowanie przeglądarki, podążanie za linkami, wykonywanie zrzutów ekranu, rotację proxy oraz filtrowanie adresów URL dla optymalnych rezultatów.

Opcje konfigurowania harmonogramu

Ustawienia podstawowe

Typ: Wybierz metodę przeszukiwania:

  • Przeszukiwanie domeny: Systematyczne przeszukiwanie całej domeny
  • Przeszukiwanie mapy witryny: Wykorzystanie pliku sitemap.xml do efektywnego przeszukiwania
  • Przeszukiwanie URL: Wskazanie konkretnych adresów URL lub stron
  • Przeszukiwanie kanału YouTube: Indeksowanie treści wideo z kanałów YouTube

Częstotliwość: Ustal, jak często ma być uruchamiane przeszukiwanie:

  • Codziennie, Co tydzień, Co miesiąc lub Co rok

URL: Wprowadź docelowy adres URL, domenę lub kanał YouTube do przeszukania

Zaawansowane opcje przeszukiwania

Z przeglądarką (dodatkowe kredyty): Włącz tę opcję podczas przeszukiwania stron o dużej ilości JavaScript, które wymagają pełnego renderowania w przeglądarce. Opcja ta jest wolniejsza i bardziej kosztowna, ale niezbędna dla stron dynamicznie ładujących treści.

Podążaj za linkami (dodatkowe kredyty): Przetwarzaj dodatkowe adresy URL znalezione na stronach. Przydatne, gdy mapa witryny nie zawiera wszystkich adresów, ale może znacząco zwiększyć zużycie kredytów, gdyż przeszukiwane są wszystkie odkryte linki.

Wykonaj zrzut ekranu (dodatkowe kredyty): Wykonuj zrzuty ekranu podczas przeszukiwania. Pomocne dla stron bez og:image lub tam, gdzie kontekst wizualny jest istotny dla przetwarzania przez AI.

Z rotacją proxy (dodatkowe kredyty): Rotacja adresów IP przy każdym żądaniu, aby uniknąć blokad przez Web Application Firewalls (WAF) lub systemy antybotowe.

Filtrowanie adresów URL

Pomiń pasujące adresy URL: Wpisz ciągi znaków (każdy w osobnej linii), by wykluczyć adresy zawierające te wzorce z przeszukiwania. Przykład:

/admin/
/login
.pdf

Przykład: Przeszukiwanie flowhunt.io z pominięciem /blog

Ten przykład wyjaśnia, co się dzieje, gdy używasz funkcji Harmonogram w FlowHunt do przeszukiwania domeny flowhunt.io, ustawiając /blog jako wzorzec adresu do pominięcia w ustawieniach filtrowania URL.

Ustawienia konfiguracyjne

  • Typ: Przeszukiwanie domeny
  • URL: flowhunt.io
  • Częstotliwość: Co tydzień
  • Filtrowanie URL (Pomiń pasujące adresy): /blog
  • Inne ustawienia: Domyślne (bez renderowania przeglądarki, podążania za linkami, zrzutów ekranu i rotacji proxy)

Co się dzieje

  1. Rozpoczęcie przeszukiwania:

    • FlowHunt rozpoczyna przeszukiwanie domeny flowhunt.io, celując we wszystkie dostępne strony tej domeny (np. flowhunt.io, flowhunt.io/features, flowhunt.io/pricing itd.).
  2. Zastosowanie filtrowania URL:

    • Każdy znaleziony adres jest sprawdzany pod kątem wzorca /blog.
    • Każdy adres zawierający /blog (np. flowhunt.io/blog, flowhunt.io/blog/post1, flowhunt.io/blog/category) jest wykluczany z przeszukiwania.
    • Pozostałe adresy, takie jak flowhunt.io/about, flowhunt.io/contact czy flowhunt.io/docs, są przeszukiwane, ponieważ nie zawierają wzorca /blog.
  3. Wykonanie przeszukiwania:

    • Systematycznie przetwarzane są wszystkie pozostałe adresy w domenie flowhunt.io, a ich treść jest indeksowana do bazy wiedzy Twojego Agenta AI.
    • Ponieważ renderowanie przeglądarki, podążanie za linkami, zrzuty ekranu i rotacja proxy są wyłączone, przeszukiwanie jest lekkie i skupia się tylko na statycznych treściach z niepominiętych adresów.
  4. Efekt:

    • Baza wiedzy Agenta AI zostaje zaktualizowana o nowe treści z flowhunt.io, z wyłączeniem wszystkiego, co znajduje się pod ścieżką /blog.
    • Przeszukiwanie odbywa się co tydzień, zapewniając aktualność bazy bez ręcznej interwencji (poza /blog).

Indeksuj tylko pasujące adresy URL: Wpisz ciągi znaków (każdy w osobnej linii), aby przeszukiwać wyłącznie adresy zawierające te wzorce. Przykład:

/blog/
/articles/
/knowledge/

Przykład uwzględniania wybranych adresów URL

Ustawienia konfiguracyjne

  • Typ: Przeszukiwanie domeny
  • URL: flowhunt.io
  • Częstotliwość: Co tydzień
  • Filtrowanie URL (Indeksuj tylko pasujące adresy):
    /blog/
    /articles/
    /knowledge/
    
  • Inne ustawienia: Domyślne (bez renderowania przeglądarki, podążania za linkami, zrzutów ekranu i rotacji proxy)
  1. Rozpoczęcie przeszukiwania:

    • FlowHunt rozpoczyna przeszukiwanie domeny flowhunt.io, celując we wszystkie dostępne strony tej domeny (np. flowhunt.io, flowhunt.io/blog, flowhunt.io/articles itd.).
  2. Zastosowanie filtrowania URL:

    • Każdy znaleziony adres jest sprawdzany pod kątem wzorców /blog/, /articles/ i /knowledge/.
    • Przeszukiwane są wyłącznie adresy zawierające te wzorce (np. flowhunt.io/blog/post1, flowhunt.io/articles/news, flowhunt.io/knowledge/guide).
    • Pozostałe adresy, takie jak flowhunt.io/about, flowhunt.io/pricing czy flowhunt.io/contact, są pomijane, ponieważ nie pasują do określonych wzorców.
  3. Wykonanie przeszukiwania:

    • System przetwarza tylko adresy pasujące do /blog/, /articles/ lub /knowledge/, indeksując ich treść w bazie wiedzy Agenta AI.
    • Ponieważ renderowanie przeglądarki, podążanie za linkami, zrzuty ekranu i rotacja proxy są wyłączone, przeszukiwanie jest lekkie i skupia się tylko na statycznych treściach z wybranych adresów.
  4. Efekt:

    • Baza wiedzy Agenta AI zostaje zaktualizowana o nowe treści z flowhunt.io w ramach ścieżek /blog/, /articles/ i /knowledge/.
    • Przeszukiwanie odbywa się co tydzień, zapewniając aktualność bazy w wybranych sekcjach bez ręcznej interwencji.

Niestandardowe nagłówki: Dodaj własne nagłówki HTTP do żądań przeszukiwania. Format: NAGŁÓWEK=Wartość (każdy w osobnej linii): Ta funkcja jest bardzo przydatna do dostosowania przeszukiwania do wymagań konkretnej strony. Włączając niestandardowe nagłówki, możesz uwierzytelniać żądania do treści chronionych, symulować określone zachowania przeglądarki lub spełniać wymagania API lub zasad dostępu danej witryny. Na przykład ustawienie nagłówka Authorization umożliwia dostęp do stron zabezpieczonych, a niestandardowy User-Agent może pomóc uniknąć wykrycia przez systemy antybotowe lub zapewnić kompatybilność ze stronami ograniczającymi dostęp niektórym przeglądarkom. Ta elastyczność umożliwia dokładniejsze i szersze pozyskiwanie danych, co ułatwia indeksowanie treści istotnych dla bazy wiedzy Agenta AI przy zachowaniu zgodności z polityką bezpieczeństwa lub dostępem witryny.

MYHEADER=Dowolna wartość
Authorization=Bearer token123
User-Agent=Custom crawler

Jak utworzyć harmonogram

  1. Przejdź do Harmonogramów na swoim pulpicie FlowHunt Przejdź do Harmonogramów

  2. Kliknij “Dodaj nowy harmonogram” Kliknij Dodaj nowy harmonogram

  3. Skonfiguruj ustawienia podstawowe:

    • Wybierz typ przeszukiwania (Domena/Mapa witryny/URL/YouTube)
    • Ustaw częstotliwość (Codziennie/Co tydzień/Co miesiąc/Co rok)
    • Wprowadź docelowy adres URL
  4. Rozwiń opcje zaawansowane w razie potrzeby:

    • Włącz renderowanie przeglądarki dla stron z dużą ilością JS
    • Skonfiguruj podążanie za linkami dla pełnego przeszukiwania
    • Ustaw zasady filtrowania adresów URL
      • Dodaj niestandardowe nagłówki, jeśli to konieczne Rozwiń opcje zaawansowane
  5. Kliknij “Dodaj nowy harmonogram”, aby aktywować

Najlepsze praktyki

Dla większości stron:

  • Zacznij od podstawowego przeszukiwania mapy witryny lub domeny
  • Używaj domyślnych ustawień na początku
  • Dodawaj opcje zaawansowane tylko w razie potrzeby

Dla stron z dużą ilością JavaScript:

  • Włącz opcję “Z przeglądarką”
  • Rozważ wykonywanie zrzutów ekranu dla treści wizualnych
  • Może być konieczna rotacja proxy w przypadku blokad

Dla dużych stron:

  • Użyj filtrowania adresów URL, aby skupić się na istotnych treściach
  • Ustaw częstotliwość tak, by zrównoważyć świeżość z wykorzystaniem kredytów
  • Monitoruj zużycie kredytów przy opcjach zaawansowanych

Dla e-commerce lub dynamicznych treści:

  • Użyj częstotliwości codziennej lub tygodniowej
  • Włącz podążanie za linkami dla stron produktów
  • Rozważ niestandardowe nagłówki dla treści wymagających uwierzytelnienia

Zużycie kredytów

Funkcje zaawansowane zużywają dodatkowe kredyty:

  • Renderowanie przeglądarki zwiększa czas i koszt przetwarzania
  • Podążanie za linkami multiplikuje liczbę przeszukiwanych stron
  • Zrzuty ekranu dodają obciążenie związane z przetwarzaniem wizualnym
  • Rotacja proxy zwiększa obciążenie sieciowe

Monitoruj zużycie kredytów i dostosowuj harmonogramy do swoich potrzeb i budżetu.

Rozwiązywanie typowych problemów

Nieudane przeszukiwania:

  • Włącz “Z przeglądarką” dla stron wymagających JS
  • Dodaj “Z rotacją proxy” w przypadku blokad przez WAF
  • Sprawdź niestandardowe nagłówki pod kątem uwierzytelnienia

Za dużo/za mało stron:

  • Użyj “Pomiń pasujące adresy URL”, aby wykluczyć zbędne treści
  • Skorzystaj z “Indeksuj tylko pasujące adresy URL”, by skupić się na wybranych sekcjach
  • Dostosuj ustawienia podążania za linkami

Brak treści:

  • Włącz opcję “Podążaj za linkami”, jeśli mapa witryny jest niekompletna
  • Sprawdź, czy zasady filtrowania URL nie są zbyt restrykcyjne
  • Upewnij się, że docelowy adres URL jest dostępny

Dowiedz się więcej

Harmonogramy
Harmonogramy

Harmonogramy

Funkcja Harmonogramy w FlowHunt umożliwia okresowe skanowanie domen i kanałów YouTube, aby Twoje chatboty i flowy były zawsze aktualne. Automatyzuj pobieranie d...

2 min czytania
AI Schedules +4
Calendly
Calendly

Calendly

Zintegruj FlowHunt z Calendly, aby zautomatyzować umawianie spotkań, zarządzać terminami i synchronizować kalendarze bez wysiłku dzięki przepływom pracy opartym...

3 min czytania
AI Calendly +3
Zredukuj halucynacje AI poprzez dodanie własnych baz wiedzy
Zredukuj halucynacje AI poprzez dodanie własnych baz wiedzy

Zredukuj halucynacje AI poprzez dodanie własnych baz wiedzy

Zredukuj halucynacje AI i zapewnij dokładne odpowiedzi chatbota dzięki funkcji Harmonogramu FlowHunt. Poznaj korzyści, praktyczne zastosowania i krok po kroku d...

6 min czytania
AI Chatbot +4