URL-Retriever

URL-Retriever

Mit dem URL-Retriever können Sie Inhalte von Weblinks abrufen und verarbeiten – unterstützt OCR, Metadatenextraktion und flexiblen Output zur Ansteuerung von KI-Workflows.

Komponentenbeschreibung

So funktioniert die URL-Retriever-Komponente

The URL Retriever is a versatile flow component designed to fetch and process web content from specified URLs, returning the information as structured documents. It serves as a bridge between external online content and your AI workflow, enabling you to integrate, analyze, or process web-based information efficiently.

What Does It Do?

This component retrieves the content of one or multiple URLs provided as input. It can extract the main text, metadata, and even process content from images using Optical Character Recognition (OCR). The retrieved data is then made available in various structured formats suitable for downstream AI tasks such as summarization, question answering, or knowledge extraction.

Input Options

You can supply URLs to the component in two ways:

  • Text URLs:

    • Input Type: Message
    • Description: A list of plain URL links for the component to fetch content from.
  • URL Records:

    • Input Type: UrlRecord
    • Description: A list of structured URL records, which may include additional metadata.

Advanced Input Parameters

ParameterTypeDefaultDescription
Apply OCRBooleanfalseIf enabled, applies OCR to extract text from images in the document.
Cache TTLDropdown2 weeksHow long the content should be cached, with options from no cache up to 1 year.
From H1 if existsBooleantrueBegins extraction from the H1 tag if present, focusing on main content.
Load from pointerBooleantrueLoads content starting from the most relevant section based on your query.
Hide ResourcesBooleanfalseHides the retrieved resources from being output or displayed.
Max TokensInteger3000Sets the maximum number of tokens for the output text.
Skip Last HeaderBooleantrueSkips the last header during extraction for streamlined content.
StrategyDropdownInclude equal size from each documentsDetermines how content is combined: concatenate fully or include equal parts from each document.
Export ContentMulti-selectAllChoose which HTML elements to export (H1-H6, Paragraph).
Include MetadataMulti-selectProductSpecify which metadata fields to include (e.g., Product, Author, Website, etc.).
VerboseBooleanfalseEnables detailed output for debugging or information purposes.
Tool NameString(empty)Optionally assign a custom name to the tool for agent reference.
Tool DescriptionMultiline(empty)Provide a description to help agents understand the tool’s purpose.

Outputs

The URL Retriever provides its outputs in several formats, allowing flexible integration with various AI processes:

Output NameTypeDescription
DocumentsMessageThe processed content from the URLs, ready for use in messaging-oriented workflows.
Raw DocumentsDocumentThe raw, unprocessed document objects for advanced downstream processing.
Documents As ToolToolThe content packaged as a tool, enabling agent-based workflows to utilize the documents.

Why Use the URL Retriever?

  • Integrate External Knowledge: Seamlessly bring web-based information into your AI applications, such as chatbots, search engines, or knowledge bases.
  • Customizable Extraction: Fine-tune what content and metadata you want, control the amount of data, and use OCR for images.
  • Performance & Efficiency: Use caching to avoid redundant downloads, and limit token output for performance.
  • Flexible Output Formats: Choose the output format that best fits your next workflow step—structured document, message, or tool.

Example Use Cases

  • Building knowledge-grounded conversational agents that answer questions using up-to-date web content.
  • Aggregating product data from e-commerce sites for comparison or analytics.
  • Monitoring and analyzing blog or news articles based on specific topics or keywords.
  • Extracting information from web pages containing mixed media (text and images).

Summary Table

FeatureDescription
Fetches URLsRetrieves and processes web content from provided URLs.
OCR SupportExtracts text from images in documents if enabled.
Metadata ExtractionOptionally includes metadata such as author, product, or schema.org types.
Customizable OutputSelect which HTML elements or metadata to export.
CachingConfigurable cache lifetimes for efficiency.
Multiple Output TypesSupports message, raw document, and tool outputs for workflow flexibility.

The URL Retriever is a powerful and flexible bridge between web content and your AI workflows, offering granular control over content extraction and integration.

Beispiele für Flow-Vorlagen mit der URL-Retriever-Komponente

Um Ihnen den schnellen Einstieg zu erleichtern, haben wir mehrere Beispiel-Flow-Vorlagen vorbereitet, die zeigen, wie die URL-Retriever-Komponente effektiv genutzt wird. Diese Vorlagen präsentieren verschiedene Anwendungsfälle und Best Practices und erleichtern Ihnen das Verständnis und die Implementierung der Komponente in Ihren eigenen Projekten.

Verwandle jede URL in einen ansprechenden X-Post
Verwandle jede URL in einen ansprechenden X-Post

Verwandle jede URL in einen ansprechenden X-Post

Verwandelt den Inhalt jeder angegebenen URL automatisch in einen prägnanten, ansprechenden Beitrag, der für X (Twitter) geeignet ist, und hilft Vermarktern und ...

2 Min. Lesezeit
Video-Transkript-Extraktor
Video-Transkript-Extraktor

Video-Transkript-Extraktor

Erzeugen Sie Transkripte aus Videos, indem Sie Untertitel von bereitgestellten URLs extrahieren. Nützlich, um schnell lesbaren Text aus Online-Videos mit nicht ...

2 Min. Lesezeit
Website- & Video-Fazitgenerator
Website- & Video-Fazitgenerator

Website- & Video-Fazitgenerator

Erstellen Sie mithilfe von KI prägnante Fazits aus Websites, hochgeladenen Dokumenten oder YouTube-Videos. Perfekt, um schnell die wichtigsten Erkenntnisse zusa...

3 Min. Lesezeit
Website-Lesbarkeits-Analyzer
Website-Lesbarkeits-Analyzer

Website-Lesbarkeits-Analyzer

Analysieren Sie die Lesbarkeit jeder beliebigen Website, indem Sie deren URL eingeben. Dieser Workflow ruft den Inhalt von der angegebenen URL ab und bewertet d...

3 Min. Lesezeit
YouTube Video-Chatbot
YouTube Video-Chatbot

YouTube Video-Chatbot

Interagieren Sie mit jedem YouTube-Video, indem Sie mit dessen Transkript chatten. Extrahieren und durchsuchen Sie Videoinhalte sofort, um prägnante, KI-gestütz...

3 Min. Lesezeit
YouTube-Beschreibungsgenerator aus URL
YouTube-Beschreibungsgenerator aus URL

YouTube-Beschreibungsgenerator aus URL

Erzeugen Sie automatisch SEO-optimierte YouTube-Videotitel, Beschreibungen und Hashtags aus jeder Webseiten-URL. Perfekt für Marketer, Content-Ersteller und Unt...

3 Min. Lesezeit
YouTube-Video-zu-Google-Slides-Präsentationsgenerator
YouTube-Video-zu-Google-Slides-Präsentationsgenerator

YouTube-Video-zu-Google-Slides-Präsentationsgenerator

Verwandeln Sie jedes YouTube-Video in wenigen Minuten in eine professionelle Google Slides Präsentation. Dieser KI-gestützte Workflow extrahiert Inhalte aus ein...

4 Min. Lesezeit
YouTube-Video-zu-SEO-Blog-Generator
YouTube-Video-zu-SEO-Blog-Generator

YouTube-Video-zu-SEO-Blog-Generator

Automatisches Generieren von hochrangigen SEO-Blogartikeln aus YouTube-Videos. Dieser Workflow extrahiert Videotranskripte, analysiert Top-SEO-Keywords, erstell...

3 Min. Lesezeit
Vorherige Nächste

Häufig gestellte Fragen

Was macht die URL-Retriever-Komponente?

Der URL-Retriever ruft Inhalte von angegebenen Weblinks ab und verarbeitet sie, sodass Text und Metadaten aus Online-Dokumenten für Ihren Workflow oder KI-Agenten verfügbar werden.

Kann sie Inhalte aus Bildern oder PDFs extrahieren?

Ja, wenn die OCR-Option aktiviert ist, kann die Komponente Text aus bildbasierten Dokumenten oder gescannten PDFs extrahieren.

Welche Arten von Ausgaben bietet sie?

Sie gibt verarbeitete Dokumente als Textnachrichten, rohe Dokumentenobjekte oder als Tool für Agenten-Workflows aus – je nach Setup.

Wie funktioniert das Caching im URL-Retriever?

Sie können festlegen, wie lange abgerufene Inhalte zwischengespeichert werden, um wiederholte Downloads zu vermeiden und Ihre Flows zu beschleunigen.

Kann ich steuern, welche Teile einer Webseite extrahiert werden?

Ja, Sie können festlegen, welche Überschriften, Absätze oder Metadatenfelder in die Ausgabe aufgenommen werden sollen, um gezielt zu extrahieren.

Ist dies für den Aufbau von Wissens-Bots oder Webdaten-Automatisierungen geeignet?

Absolut. Der URL-Retriever ist essenziell für jede Automatisierung oder jeden Chatbot, der Live-Webinhalte lesen, verarbeiten oder zusammenfassen muss.

Testen Sie den FlowHunt URL-Retriever

Steigern Sie Ihre Workflows, indem Sie Live-Webinhalte integrieren. Extrahieren, verarbeiten und nutzen Sie Daten aus URLs ganz einfach.

Mehr erfahren

Google Docs Retriever
Google Docs Retriever

Google Docs Retriever

Integrieren Sie Ihre Workflows mit Google Docs mithilfe der Google Docs Retriever-Komponente – holen Sie nahtlos Dokumenteninhalte zur Nutzung in Automatisierun...

3 Min. Lesezeit
Google Docs Automation +3
Datei-Retriever
Datei-Retriever

Datei-Retriever

Die Datei-Retriever-Komponente in FlowHunt ermöglicht es Ihnen, Dateien in Ihren Workflow einzubringen und in Dokumente für die weitere Verarbeitung umzuwandeln...

3 Min. Lesezeit
Files Automation +3
Screenshot-Tool
Screenshot-Tool

Screenshot-Tool

Erfassen Sie Website-Screenshots sofort mit der Screenshot-Tool-Komponente. Automatisieren Sie ganz einfach das Aufnehmen von Screenshots jeder URL innerhalb Ih...

2 Min. Lesezeit
Automation Web +3