Otomatik Web Sitesi Taramalarını Zamanlama

Otomatik Web Sitesi Taramalarını Zamanlama

Schedules Crawling AI Agent Knowledge Base

FlowHunt’ın Zamanlama özelliği, web sitelerinin, site haritalarının, alan adlarının ve YouTube kanallarının otomatik olarak taranıp indekslenmesini sağlar. Böylece AI Agent’ınızın bilgi tabanı, manuel müdahaleye gerek kalmadan güncel kalır.

Zamanlama Nasıl Çalışır?

  • Otomatik tarama:
    Bilgi tabanınızı güncel tutmak için günlük, haftalık, aylık veya yıllık olarak tekrarlayan taramalar ayarlayın.

  • Çoklu tarama türleri:
    İçerik kaynağınıza göre Alan Adı taraması, Site Haritası taraması, URL taraması veya YouTube kanal taraması seçeneklerinden birini kullanın.

  • Gelişmiş seçenekler:
    En iyi sonuçlar için tarayıcı render’ı, bağlantı takibi, ekran görüntüleri, proxy rotasyonu ve URL filtreleme gibi gelişmiş ayarları yapılandırın.

Zamanlama Yapılandırma Seçenekleri

Temel Ayarlar

Tür: Tarama yöntemini seçin:

  • Alan Adı taraması: Bir alan adının tamamını sistematik olarak tarar
  • Site Haritası taraması: Web sitesinin sitemap.xml dosyasını kullanarak verimli tarama yapar
  • URL taraması: Belirli URL’leri veya sayfaları hedefler
  • YouTube kanal taraması: YouTube kanallarındaki video içeriğini indeksler

Sıklık: Taramanın ne sıklıkla çalışacağını belirleyin:

  • Günlük, Haftalık, Aylık veya Yıllık

URL: Taranacak hedef URL’yi, alan adını veya YouTube kanalını girin

Gelişmiş Tarama Seçenekleri

Tarayıcı ile (ek kredi): JavaScript ağırlıklı ve tam tarayıcı render’ı gerektiren web sitelerini tararken etkinleştirin. Bu seçenek daha yavaş ve maliyetlidir, ancak dinamik içerik yükleyen siteler için gereklidir.

Bağlantıları takip et (ek kredi): Sayfalarda bulunan ek URL’leri işler. Site haritalarında tüm URL’ler yoksa faydalıdır, ancak keşfedilen bağlantıları taradığı için önemli miktarda kredi tüketebilir.

Ekran görüntüsü al (ek kredi): Tarama sırasında görsel ekran görüntüleri yakalar. og:image olmayan veya AI işleme için görsel bağlam gerektiren siteler için faydalıdır.

Proxy rotasyonu ile (ek kredi): Her istek için IP adreslerini döndürerek Web Application Firewall (WAF) veya bot engelleme sistemlerinden kaçınmayı sağlar.

URL Filtreleme

Eşleşen URL’leri atla: Tarama sırasında bu desenleri içeren URL’leri hariç tutmak için (her satıra bir tane) dize girin. Örnek:

/admin/
/login
.pdf

Örnek: flowhunt.io’yu /blog Hariç Tutarak Tarama

Bu örnek, FlowHunt’ın Zamanlama özelliğini kullanarak flowhunt.io alan adını tararken URL filtreleme ayarlarında atla olarak /blog belirlediğinizde neler olduğunu açıklar.

Yapılandırma Ayarları

  • Tür: Alan adı tarama
  • URL: flowhunt.io
  • Sıklık: Haftalık
  • URL Filtreleme (Eşleşen URL’leri atla): /blog
  • Diğer ayarlar: Varsayılan (tarayıcı render’ı yok, bağlantı takibi yok, ekran görüntüsü yok, proxy rotasyonu yok)

Ne Olur?

  1. Tarama Başlatma:

    • FlowHunt, flowhunt.io alan adının tüm erişilebilir sayfalarını (ör. flowhunt.io, flowhunt.io/features, flowhunt.io/pricing vb.) hedefleyerek bir alan adı taraması başlatır.
  2. URL Filtreleme Uygulanır:

    • Tarayıcı, bulunan her URL’yi /blog desenine göre değerlendirir.
    • /blog içeren tüm URL’ler (ör. flowhunt.io/blog, flowhunt.io/blog/post1, flowhunt.io/blog/category) tarama dışında bırakılır.
    • flowhunt.io/about, flowhunt.io/contact veya flowhunt.io/docs gibi diğer URL’ler, /blog desenine uymadığı için taranır.
  3. Tarama Gerçekleştirilir:

    • Tarayıcı, flowhunt.io üzerindeki kalan URL’leri sistematik olarak işler ve içeriklerini AI Agent’ın bilgi tabanına indeksler.
    • Tarayıcı render’ı, bağlantı takibi, ekran görüntüsü ve proxy rotasyonu devre dışı olduğundan tarama hafif olur ve sadece hariç tutulmamış statik içeriklere odaklanır.
  4. Sonuç:

    • AI Agent’ın bilgi tabanı, /blog yolu altındaki her şey hariç olmak üzere flowhunt.iodan güncel içerikle güncellenir.
    • Tarama haftalık olarak çalışır, böylece bilgi tabanı yeni veya güncellenmiş sayfalarla ( /blog hariç) manuel müdahale olmadan güncel kalır.

Sadece eşleşen URL’leri indeksle: Yalnızca bu desenleri içeren URL’leri taramak için (her satıra bir tane) dize girin. Örnek:

/blog/
/articles/
/knowledge/

Eşleşen URL’leri Dahil Etme Örneği

Yapılandırma Ayarları

  • Tür: Alan adı tarama
  • URL: flowhunt.io
  • Sıklık: Haftalık
  • URL Filtreleme (Sadece eşleşen URL’leri indeksle):
    /blog/
    /articles/
    /knowledge/
    
  • Diğer ayarlar: Varsayılan (tarayıcı render’ı yok, bağlantı takibi yok, ekran görüntüsü yok, proxy rotasyonu yok)
  1. Tarama Başlatma:

    • FlowHunt, flowhunt.io alan adı üzerinde tüm erişilebilir sayfaları (ör. flowhunt.io, flowhunt.io/blog, flowhunt.io/articles vb.) hedefleyerek bir alan adı taraması başlatır.
  2. URL Filtreleme Uygulanır:

    • Tarayıcı, bulunan her URL’yi /blog/, /articles/ ve /knowledge/ desenlerine göre değerlendirir.
    • Sadece bu desenleri içeren URL’ler (ör. flowhunt.io/blog/post1, flowhunt.io/articles/news, flowhunt.io/knowledge/guide) tarama dahil edilir.
    • flowhunt.io/about, flowhunt.io/pricing veya flowhunt.io/contact gibi diğer URL’ler, belirtilen desenlerle eşleşmediği için hariç tutulur.
  3. Tarama Gerçekleştirilir:

    • Tarayıcı, yalnızca /blog/, /articles/ veya /knowledge/ ile eşleşen URL’leri işler ve içeriklerini AI Agent’ın bilgi tabanına indeksler.
    • Tarayıcı render’ı, bağlantı takibi, ekran görüntüsü ve proxy rotasyonu devre dışı olduğundan tarama hafif olur ve sadece dahil edilen URL’lerdeki statik içeriklere odaklanır.
  4. Sonuç:

    • AI Agent’ın bilgi tabanı, flowhunt.iodaki /blog/, /articles/ ve /knowledge/ yolları altındaki sayfalardan alınan güncel içerikle güncellenir.
    • Tarama haftalık olarak çalışır, böylece bilgi tabanı bu bölümlerdeki yeni veya güncellenmiş sayfalarla manuel müdahaleye gerek kalmadan güncel tutulur.

Özel Başlıklar: Tarama istekleri için özel HTTP başlıkları ekleyin. Her satıra bir tane olacak şekilde HEADER=Değer formatında yazın: Bu özellik, taramaları belirli web sitesi gereksinimlerine göre uyarlamak için oldukça kullanışlıdır. Özel başlıkları etkinleştirerek, kullanıcılar korumalı içeriğe erişmek için istekleri kimlik doğrulayabilir, belirli tarayıcı davranışlarını taklit edebilir veya bir sitenin API ya da erişim politikalarına uyum sağlayabilirler. Örneğin, Authorization başlığı ayarlayarak korumalı sayfalara erişim sağlanabilirken, özel User-Agent ile bot tespiti önlenebilir veya belirli tarayıcılarla uyumluluk sağlanabilir. Bu esneklik, AI Agent bilgi tabanı için daha doğru ve kapsamlı veri toplamayı kolaylaştırır ve bir web sitesinin güvenlik/politikalarına uyumlu olunmasını sağlar.

MYHEADER=Herhangi bir değer
Authorization=Bearer token123
User-Agent=Custom crawler

Zamanlama Nasıl Oluşturulur?

  1. FlowHunt panelinizde Zamanlamalar’a gidin Zamanlamalara gidin

  2. “Yeni Zamanlama Ekle"ye tıklayın Yeni Zamanlama Ekle'ye tıklayın

  3. Temel ayarları yapılandırın:

    • Tarama türünü seçin (Alan Adı/Site Haritası/URL/YouTube)
    • Sıklığı ayarlayın (Günlük/Haftalık/Aylık/Yıllık)
    • Hedef URL’yi girin
  4. Gelişmiş seçenekleri açın (gerekiyorsa):

    • JS ağırlıklı siteler için tarayıcı render’ını etkinleştirin
    • Kapsamlı tarama için bağlantı takibini yapılandırın
    • URL filtreleme kurallarını ayarlayın
      • Gerekirse özel başlıklar ekleyin Gelişmiş seçenekleri açın
  5. “Yeni Zamanlama Ekle"ye tıklayarak etkinleştirin

En İyi Uygulamalar

Çoğu Web Sitesi İçin:

  • Temel Site Haritası veya Alan Adı taramasıyla başlayın
  • Başlangıçta varsayılan ayarları kullanın
  • Gelişmiş seçenekleri yalnızca gerektiğinde ekleyin

JavaScript-Ağırlıklı Siteler İçin:

  • “Tarayıcı ile” seçeneğini etkinleştirin
  • Görsel içerikler için ekran görüntüsü almayı düşünün
  • Engellenirseniz proxy rotasyonu gerekebilir

Büyük Siteler İçin:

  • İlgili içeriğe odaklanmak için URL filtreleme kullanın
  • Güncellik ve kredi kullanımı arasında denge kuracak uygun sıklığı ayarlayın
  • Gelişmiş özelliklerle kredi tüketimini izleyin

E-ticaret veya Dinamik İçerik İçin:

  • Günlük veya Haftalık sıklık kullanın
  • Ürün sayfaları için bağlantı takibini etkinleştirin
  • Kimlik doğrulamalı içerik için özel başlıkları düşünün

Kredi Kullanımı

Gelişmiş özellikler ek kredi tüketir:

  • Tarayıcı render’ı işlem süresi ve maliyeti artırır
  • Bağlantı takibi, taranan sayfa sayısını çoğaltır
  • Ekran görüntüleri görsel işleme yükü ekler
  • Proxy rotasyonu ağ yükü ekler

Kredi kullanımınızı izleyin ve zamanlamaları ihtiyacınıza ve bütçenize göre ayarlayın.

Yaygın Sorunları Giderme

Tarama Başarısızlıkları:

  • JavaScript’e bağımlı siteler için “Tarayıcı ile"yi etkinleştirin
  • WAF tarafından engellenirse “Proxy Rotasyonu ile” ekleyin
  • Kimlik doğrulama için özel başlıkları kontrol edin

Çok Fazla/Az Sayfa:

  • İstenmeyen içerikleri hariç tutmak için “Eşleşen URL’leri atla"yı kullanın
  • Belirli bölümlere odaklanmak için “Sadece eşleşen URL’leri indeksle"yi kullanın
  • Bağlantı takibi ayarlarını değiştirin

Eksik İçerik:

  • Site haritası eksikse “Bağlantıları takip et"i etkinleştirin
  • URL filtreleme kurallarının çok kısıtlayıcı olmadığını kontrol edin
  • Hedef URL’nin erişilebilir olduğundan emin olun

Daha fazla bilgi

Akış Sürüm Geçmişini Anlama
Akış Sürüm Geçmişini Anlama

Akış Sürüm Geçmişini Anlama

FlowHunt AIStudio'nun Akış sürüm geçmişini otomatik olarak nasıl yönettiğini ve gerekirse önceki sürümleri nasıl inceleyip geri yükleyebileceğinizi öğrenin....

2 dakika okuma
Version History AI +2