Agendando Rastreamentos Automatizados de Sites

Agendando Rastreamentos Automatizados de Sites

Schedules Crawling AI Agent Knowledge Base

O recurso de Agendamento da FlowHunt permite automatizar o rastreamento e a indexação de sites, sitemaps, domínios e canais do YouTube. Isso garante que a base de conhecimento do seu Agente de IA permaneça atualizada com conteúdos novos sem intervenção manual.

Como Funciona o Agendamento

  • Rastreamento automatizado:
    Programe rastreamentos recorrentes que serão executados diariamente, semanalmente, mensalmente ou anualmente para manter sua base de conhecimento sempre atualizada.

  • Vários tipos de rastreamento:
    Escolha entre Rastreamento de Domínio, Rastreamento de Sitemap, Rastreamento de URL ou Rastreamento de Canal do YouTube conforme a fonte do seu conteúdo.

  • Opções avançadas:
    Configure renderização de navegador, seguir links, capturas de tela, rotação de proxy e filtragem de URLs para obter resultados ideais.

Opções de Configuração de Agendamento

Configurações Básicas

Tipo: Escolha o método de rastreamento:

  • Rastreamento de domínio: Rastreamento sistemático de todo o domínio
  • Rastreamento de sitemap: Uso do sitemap.xml do site para rastreamento eficiente
  • Rastreamento de URL: Alvo em URLs ou páginas específicas
  • Rastreamento de canal do YouTube: Indexe conteúdos de vídeo de canais do YouTube

Frequência: Defina com que frequência o rastreamento será executado:

  • Diário, Semanal, Mensal ou Anual

URL: Insira a URL, domínio ou canal do YouTube que deseja rastrear

Opções Avançadas de Rastreamento

Com navegador (créditos extras): Habilite ao rastrear sites pesados em JavaScript que exigem renderização completa do navegador. Esta opção é mais lenta e cara, mas necessária para sites que carregam conteúdo de forma dinâmica.

Seguir links (créditos extras): Processa URLs adicionais encontradas em páginas. Útil quando o sitemap não contém todas as URLs, mas pode consumir muitos créditos ao rastrear os links descobertos.

Capturar tela (créditos extras): Tira capturas de tela durante o rastreamento. Ajuda em sites sem og:images ou que exigem contexto visual para processamento por IA.

Com rotação de proxy (créditos extras): Altera o IP a cada requisição para evitar detecção por Firewalls de Aplicação Web (WAF) ou sistemas anti-bot.

Filtragem de URLs

Ignorar URLs correspondentes: Insira expressões (uma por linha) para excluir URLs que contêm esses padrões do rastreamento. Exemplo:

/admin/
/login
.pdf

Exemplo: Rastreando flowhunt.io com /blog Ignorado

Este exemplo explica o que acontece ao usar o recurso de Agendamento da FlowHunt para rastrear o domínio flowhunt.io enquanto define /blog como padrão de URL a ignorar nas configurações de filtragem.

Configurações

  • Tipo: Rastreamento de domínio
  • URL: flowhunt.io
  • Frequência: Semanal
  • Filtragem de URL (Ignorar URLs correspondentes): /blog
  • Outras configurações: Padrão (sem renderização de navegador, sem seguir links, sem capturas de tela, sem rotação de proxy)

O que acontece

  1. Início do rastreamento:

    • A FlowHunt inicia o rastreamento do domínio flowhunt.io, visando todas as páginas acessíveis do domínio (ex.: flowhunt.io, flowhunt.io/features, flowhunt.io/pricing, etc.).
  2. Aplicação da filtragem de URL:

    • O rastreador avalia cada URL descoberta em relação ao padrão de exclusão /blog.
    • Qualquer URL contendo /blog (ex.: flowhunt.io/blog, flowhunt.io/blog/post1, flowhunt.io/blog/category) é excluída do rastreamento.
    • Outras URLs, como flowhunt.io/about, flowhunt.io/contact ou flowhunt.io/docs, são rastreadas, pois não correspondem ao padrão /blog.
  3. Execução do rastreamento:

    • O rastreador processa sistematicamente as demais URLs em flowhunt.io, indexando o conteúdo para a base de conhecimento do seu Agente de IA.
    • Como renderização de navegador, seguir links, capturas de tela e rotação de proxy estão desabilitados, o rastreamento é leve, focando apenas no conteúdo estático das URLs não excluídas.
  4. Resultado:

    • A base de conhecimento do seu Agente de IA é atualizada com conteúdo novo de flowhunt.io, excluindo tudo que está sob o caminho /blog.
    • O rastreamento ocorre semanalmente, mantendo a base sempre atualizada com páginas novas ou modificadas (fora de /blog) sem intervenção manual.

Indexar apenas URLs correspondentes: Insira expressões (uma por linha) para rastrear apenas URLs que contenham esses padrões. Exemplo:

/blog/
/articles/
/knowledge/

Exemplo de Inclusão de URLs Correspondentes

Configurações

  • Tipo: Rastreamento de domínio
  • URL: flowhunt.io
  • Frequência: Semanal
  • Filtragem de URL (Indexar apenas URLs correspondentes):
    /blog/
    /articles/
    /knowledge/
    
  • Outras configurações: Padrão (sem renderização de navegador, sem seguir links, sem capturas de tela, sem rotação de proxy)
  1. Início do rastreamento:

    • A FlowHunt inicia o rastreamento do domínio flowhunt.io, visando todas as páginas acessíveis do domínio (ex.: flowhunt.io, flowhunt.io/blog, flowhunt.io/articles, etc.).
  2. Aplicação da filtragem de URL:

    • O rastreador avalia cada URL descoberta em relação aos padrões de indexação /blog/, /articles/ e /knowledge/.
    • Apenas URLs contendo esses padrões (ex.: flowhunt.io/blog/post1, flowhunt.io/articles/news, flowhunt.io/knowledge/guide) são incluídas no rastreamento.
    • Outras URLs, como flowhunt.io/about, flowhunt.io/pricing ou flowhunt.io/contact, são excluídas pois não correspondem aos padrões especificados.
  3. Execução do rastreamento:

    • O rastreador processa somente as URLs que correspondem a /blog/, /articles/ ou /knowledge/, indexando seu conteúdo para a base de conhecimento do seu Agente de IA.
    • Como renderização de navegador, seguir links, capturas de tela e rotação de proxy estão desabilitados, o rastreamento é leve, focando apenas no conteúdo estático das URLs incluídas.
  4. Resultado:

    • A base de conhecimento do seu Agente de IA é atualizada com conteúdo novo das páginas de flowhunt.io sob os caminhos /blog/, /articles/ e /knowledge/.
    • O rastreamento ocorre semanalmente, mantendo a base sempre atualizada com páginas novas ou modificadas nessas seções, sem intervenção manual.

Cabeçalhos personalizados: Adicione cabeçalhos HTTP personalizados para as requisições de rastreamento. Formato: HEADER=Valor (um por linha): Este recurso é extremamente útil para adaptar rastreamentos a requisitos específicos de sites. Ao habilitar cabeçalhos personalizados, os usuários podem autenticar requisições para acessar conteúdo restrito, simular comportamentos específicos de navegador ou cumprir políticas de API ou acesso de um site. Por exemplo, definir um cabeçalho Authorization pode liberar acesso a páginas protegidas, enquanto um User-Agent personalizado pode evitar detecção como bot ou garantir compatibilidade com sites que restringem certos rastreadores. Essa flexibilidade garante coleta de dados mais precisa e abrangente, facilitando a indexação de conteúdo relevante para a base de conhecimento do Agente de IA, respeitando os protocolos de segurança ou acesso do site.

MYHEADER=Qualquer valor
Authorization=Bearer token123
User-Agent=Custom crawler

Como Criar um Agendamento

  1. Navegue até Agendamentos no seu painel da FlowHunt Navegue até Agendamentos

  2. Clique em “Adicionar novo Agendamento” Clique em Adicionar novo Agendamento

  3. Configure as opções básicas:

    • Selecione o tipo de rastreamento (Domínio/Sitemap/URL/YouTube)
    • Defina a frequência (Diário/Semanal/Mensal/Anual)
    • Insira a URL de destino
  4. Expanda as opções avançadas se necessário:

    • Ative a renderização de navegador para sites pesados em JS
    • Configure o seguimento de links para rastreamento completo
    • Defina regras de filtragem de URLs
      • Adicione cabeçalhos personalizados se necessário Expandir opções avançadas
  5. Clique em “Adicionar novo Agendamento” para ativar

Boas Práticas

Para a maioria dos sites:

  • Comece com rastreamento básico por Sitemap ou Domínio
  • Use configurações padrão inicialmente
  • Adicione opções avançadas apenas se necessário

Para sites pesados em JavaScript:

  • Ative a opção “Com Navegador”
  • Considere capturar telas para conteúdo visual
  • Pode ser necessário rotação de proxy se houver bloqueio

Para sites grandes:

  • Use a filtragem de URLs para focar no conteúdo relevante
  • Defina frequência adequada para equilibrar atualização e consumo de créditos
  • Monitore o consumo de créditos com recursos avançados

Para e-commerces ou conteúdo dinâmico:

  • Use frequência diária ou semanal
  • Ative o seguimento de links para páginas de produtos
  • Considere cabeçalhos personalizados para conteúdo autenticado

Consumo de Créditos

Recursos avançados consomem créditos adicionais:

  • Renderização de navegador aumenta tempo de processamento e custo
  • Seguir links multiplica as páginas rastreadas
  • Capturas de tela adicionam sobrecarga de processamento visual
  • Rotação de proxy adiciona sobrecarga de rede

Monitore seu consumo de créditos e ajuste os agendamentos conforme suas necessidades e orçamento.

Solução de Problemas Comuns

Falhas no rastreamento:

  • Ative “Com Navegador” para sites dependentes de JavaScript
  • Adicione “Com Rotação de Proxy” se houver bloqueio por WAF
  • Verifique cabeçalhos personalizados para autenticação

Páginas demais ou de menos:

  • Use “Ignorar URLs correspondentes” para excluir conteúdos indesejados
  • Use “Indexar apenas URLs correspondentes” para focar em seções específicas
  • Ajuste as configurações de seguimento de links

Conteúdo ausente:

  • Ative “Seguir links” se o sitemap estiver incompleto
  • Verifique se as regras de filtragem de URLs não estão muito restritivas
  • Confirme se a URL de destino está acessível

Saiba mais

Calendly
Calendly

Calendly

Integre o FlowHunt com o Calendly para automatizar o agendamento de reuniões, gerenciar compromissos e sincronizar calendários sem esforço com fluxos de trabalh...

4 min de leitura
AI Calendly +3
Agendamentos
Agendamentos

Agendamentos

O recurso de Agendamentos no FlowHunt permite rastrear periodicamente domínios e canais do YouTube, mantendo seus chatbots e fluxos sempre atualizados com as in...

3 min de leitura
AI Schedules +4
Automação de Aprovação de Solicitações de Férias com IA
Automação de Aprovação de Solicitações de Férias com IA

Automação de Aprovação de Solicitações de Férias com IA

Automatize e otimize a aprovação de solicitações de férias no Google Agenda usando um agente de IA. Este fluxo detecta novas solicitações de férias, avalia-as c...

4 min de leitura