Programación de rastreos automáticos de sitios web

Programación de rastreos automáticos de sitios web

Schedules Crawling AI Agent Knowledge Base

La función de Horarios de FlowHunt te permite automatizar el rastreo e indexación de sitios web, sitemaps, dominios y canales de YouTube. Así, la base de conocimiento de tu Agente AI se mantiene actualizada con contenido fresco sin intervención manual.

Cómo funciona la programación

  • Rastreo automático:
    Configura rastreos recurrentes que se ejecuten diariamente, semanalmente, mensualmente o anualmente para mantener tu base de conocimiento al día.

  • Varios tipos de rastreo:
    Elige entre rastreo de dominio, de sitemap, de URL o de canal de YouTube según la fuente de tu contenido.

  • Opciones avanzadas:
    Configura renderizado de navegador, seguimiento de enlaces, capturas de pantalla, rotación de proxy y filtrado de URLs para obtener resultados óptimos.

Opciones de configuración de Horarios

Configuración básica

Tipo: Elige tu método de rastreo:

  • Rastreo de dominio: Rastrea sistemáticamente todo un dominio
  • Rastreo de sitemap: Utiliza el sitemap.xml del sitio para un rastreo eficiente
  • Rastreo de URL: Apunta a URLs o páginas específicas
  • Rastreo de canal de YouTube: Indexa contenido de video de canales de YouTube

Frecuencia: Establece cada cuánto se ejecuta el rastreo:

  • Diario, Semanal, Mensual o Anual

URL: Ingresa la URL, dominio o canal de YouTube objetivo a rastrear

Opciones avanzadas de rastreo

Con Navegador (créditos extra): Activa cuando rastrees sitios web con mucho JavaScript que requieren renderizado completo de navegador. Esta opción es más lenta y costosa, pero necesaria para sitios que cargan contenido dinámicamente.

Seguir enlaces (créditos extra): Procesa URLs adicionales encontradas dentro de las páginas. Útil cuando los sitemaps no incluyen todas las URLs, pero puede consumir muchos créditos al rastrear los enlaces descubiertos.

Tomar captura de pantalla (créditos extra): Captura imágenes visuales durante el rastreo. Es útil para sitios sin og:images o que requieren contexto visual para el procesamiento AI.

Con Rotación de Proxy (créditos extra): Rota las direcciones IP en cada petición para evitar la detección por parte de Firewalls de Aplicaciones Web (WAF) o sistemas anti-bot.

Filtrado de URLs

Saltar URLs coincidentes: Introduce cadenas (una por línea) para excluir del rastreo las URLs que contengan estos patrones. Ejemplo:

/admin/
/login
.pdf

Ejemplo: Rastreando flowhunt.io omitiendo /blog

Este ejemplo explica lo que ocurre al usar la función de Horarios de FlowHunt para rastrear el dominio flowhunt.io mientras se configura /blog como URL a omitir en la configuración de filtrado.

Configuración

  • Tipo: Rastreo de dominio
  • URL: flowhunt.io
  • Frecuencia: Semanal
  • Filtrado de URL (Saltar URLs coincidentes): /blog
  • Otras opciones: Predeterminado (sin renderizado de navegador, sin seguimiento de enlaces, sin capturas de pantalla, sin rotación de proxy)

¿Qué sucede?

  1. Inicio del rastreo:

    • FlowHunt inicia un rastreo del dominio flowhunt.io, apuntando a todas las páginas accesibles del dominio (por ejemplo, flowhunt.io, flowhunt.io/features, flowhunt.io/pricing, etc.).
  2. Aplicación del filtrado de URL:

    • El rastreador evalúa cada URL descubierta contra el patrón a omitir /blog.
    • Toda URL que contenga /blog (por ejemplo, flowhunt.io/blog, flowhunt.io/blog/post1, flowhunt.io/blog/category) se excluye del rastreo.
    • Otras URLs como flowhunt.io/about, flowhunt.io/contact o flowhunt.io/docs sí se rastrean porque no coinciden con el patrón /blog.
  3. Ejecución del rastreo:

    • El rastreador procesa sistemáticamente las URLs restantes de flowhunt.io, indexando su contenido para la base de conocimiento de tu Agente AI.
    • Como el renderizado de navegador, el seguimiento de enlaces, las capturas de pantalla y la rotación de proxy están desactivados, el rastreo es ligero y se centra solo en contenido estático de las URLs no excluidas.
  4. Resultado:

    • La base de conocimiento de tu Agente AI se actualiza con contenido fresco de flowhunt.io, excluyendo todo lo que esté bajo la ruta /blog.
    • El rastreo se ejecuta semanalmente, asegurando que la base de conocimiento se mantenga actualizada con páginas nuevas o modificadas (fuera de /blog) sin intervención manual.

Indexar solo URLs coincidentes: Introduce cadenas (una por línea) para rastrear solo las URLs que contengan estos patrones. Ejemplo:

/blog/
/articles/
/knowledge/

Ejemplo de inclusión de URLs coincidentes

Configuración

  • Tipo: Rastreo de dominio
  • URL: flowhunt.io
  • Frecuencia: Semanal
  • Filtrado de URL (Indexar solo URLs coincidentes):
    /blog/
    /articles/
    /knowledge/
    
  • Otras opciones: Predeterminado (sin renderizado de navegador, sin seguimiento de enlaces, sin capturas de pantalla, sin rotación de proxy)
  1. Inicio del rastreo:

    • FlowHunt inicia un rastreo de dominio de flowhunt.io, apuntando a todas las páginas accesibles del dominio (por ejemplo, flowhunt.io, flowhunt.io/blog, flowhunt.io/articles, etc.).
  2. Aplicación del filtrado de URL:

    • El rastreador evalúa cada URL descubierta contra los patrones de indexación /blog/, /articles/ y /knowledge/.
    • Solo las URLs que contienen estos patrones (por ejemplo, flowhunt.io/blog/post1, flowhunt.io/articles/news, flowhunt.io/knowledge/guide) se incluyen en el rastreo.
    • Otras URLs como flowhunt.io/about, flowhunt.io/pricing o flowhunt.io/contact se excluyen porque no coinciden con los patrones especificados.
  3. Ejecución del rastreo:

    • El rastreador procesa solo las URLs que coinciden con /blog/, /articles/ o /knowledge/, indexando su contenido para la base de conocimiento de tu Agente AI.
    • Como el renderizado de navegador, el seguimiento de enlaces, las capturas de pantalla y la rotación de proxy están desactivados, el rastreo es ligero y se centra solo en contenido estático de las URLs incluidas.
  4. Resultado:

    • La base de conocimiento de tu Agente AI se actualiza con contenido fresco de las páginas de flowhunt.io bajo las rutas /blog/, /articles/ y /knowledge/.
    • El rastreo se ejecuta semanalmente, asegurando que la base de conocimiento se mantenga al día con páginas nuevas o actualizadas en estas secciones sin intervención manual.

Encabezados personalizados: Agrega encabezados HTTP personalizados para las solicitudes de rastreo. El formato es HEADER=Value (uno por línea): Esta función es muy útil para adaptar los rastreos a requisitos específicos de cada sitio web. Al habilitar encabezados personalizados, los usuarios pueden autenticar solicitudes para acceder a contenido restringido, simular comportamientos de navegadores específicos o cumplir con políticas de acceso o API de un sitio. Por ejemplo, establecer un encabezado Authorization puede otorgar acceso a páginas protegidas, mientras que un User-Agent personalizado puede ayudar a evitar la detección de bots o asegurar la compatibilidad con sitios que restringen ciertos rastreadores. Esta flexibilidad permite recopilar datos más precisos y completos, facilitando la indexación de contenido relevante para la base de conocimiento de un Agente AI mientras se cumplen los protocolos de seguridad o acceso del sitio.

MYHEADER=Any value
Authorization=Bearer token123
User-Agent=Custom crawler

Cómo crear un Horario

  1. Navega a Horarios en tu panel de FlowHunt Navega a Horarios

  2. Haz clic en “Agregar nuevo Horario” Haz clic en Agregar nuevo Horario

  3. Configura los ajustes básicos:

    • Selecciona el tipo de rastreo (Dominio/Sitemap/URL/YouTube)
    • Define la frecuencia (Diario/Semanal/Mensual/Anual)
    • Ingresa la URL objetivo
  4. Despliega las opciones avanzadas si lo necesitas:

    • Habilita el renderizado de navegador para sitios con mucho JS
    • Configura el seguimiento de enlaces para un rastreo completo
    • Establece reglas de filtrado de URL
      • Agrega encabezados personalizados si se requiere Despliega las opciones avanzadas
  5. Haz clic en “Agregar nuevo Horario” para activar

Mejores prácticas

Para la mayoría de sitios web:

  • Comienza con un rastreo básico de Sitemap o Dominio
  • Usa la configuración predeterminada al principio
  • Agrega opciones avanzadas solo si es necesario

Para sitios con mucho JavaScript:

  • Habilita la opción “Con Navegador”
  • Considera tomar capturas de pantalla para contenido visual
  • Puede requerir rotación de proxy si hay bloqueos

Para sitios grandes:

  • Usa el filtrado de URLs para centrarte en el contenido relevante
  • Establece una frecuencia adecuada para equilibrar frescura y consumo de créditos
  • Monitorea el consumo de créditos con funciones avanzadas

Para e-commerce o contenido dinámico:

  • Usa frecuencia Diaria o Semanal
  • Habilita el seguimiento de enlaces para páginas de productos
  • Considera encabezados personalizados para contenido autenticado

Consumo de créditos

Las funciones avanzadas consumen créditos adicionales:

  • El renderizado de navegador aumenta el tiempo de procesamiento y el costo
  • El seguimiento de enlaces multiplica las páginas rastreadas
  • Las capturas de pantalla añaden procesamiento visual extra
  • La rotación de proxy añade carga de red

Monitorea tu uso de créditos y ajusta los horarios según tus necesidades y presupuesto.

Solución de problemas frecuentes

Fallos de rastreo:

  • Habilita “Con Navegador” para sitios dependientes de JavaScript
  • Agrega “Con Rotación de Proxy” si hay bloqueos por WAF
  • Revisa los encabezados personalizados para autenticación

Demasiadas/pocas páginas:

  • Usa “Saltar URLs coincidentes” para excluir contenido no deseado
  • Usa “Indexar solo URLs coincidentes” para centrarte en secciones específicas
  • Ajusta las configuraciones de seguimiento de enlaces

Contenido faltante:

  • Habilita “Seguir enlaces” si el sitemap está incompleto
  • Verifica que las reglas de filtrado de URL no sean demasiado restrictivas
  • Asegúrate de que la URL objetivo sea accesible

Saber más

Calendly
Calendly

Calendly

Integra FlowHunt con Calendly para automatizar la programación de reuniones, gestionar citas y sincronizar calendarios sin esfuerzo con flujos de trabajo impuls...

4 min de lectura
AI Calendly +3
Google Calendar
Google Calendar

Google Calendar

Integra FlowHunt con Google Calendar para automatizar la programación, gestionar eventos y potenciar flujos de trabajo de calendario impulsados por IA.

2 min de lectura
AI Google Calendar +3