URL-Retriever
Mit dem URL-Retriever können Sie Inhalte von Weblinks abrufen und verarbeiten – unterstützt OCR, Metadatenextraktion und flexiblen Output zur Ansteuerung von KI-Workflows.

Komponentenbeschreibung
So funktioniert die URL-Retriever-Komponente
URL-Retriever-Komponente
Der URL-Retriever ist eine vielseitige Flow-Komponente zum Abrufen und Verarbeiten von Webinhalten aus angegebenen URLs und gibt die Informationen als strukturierte Dokumente zurück. Sie dient als Brücke zwischen externen Online-Inhalten und Ihrem KI-Workflow, sodass Sie Webinformationen effizient integrieren, analysieren oder verarbeiten können.
Was macht sie?
Diese Komponente ruft die Inhalte einer oder mehrerer als Eingabe bereitgestellter URLs ab. Sie kann den Haupttext und Metadaten extrahieren und sogar Inhalte aus Bildern mittels optischer Zeichenerkennung (OCR) verarbeiten. Die abgerufenen Daten stehen dann in verschiedenen strukturierten Formaten für nachgelagerte KI-Aufgaben wie Zusammenfassung, Beantwortung von Fragen oder Wissensextraktion zur Verfügung.
Eingabeoptionen
Sie können der Komponente URLs auf zwei Arten bereitstellen:
Text-URLs:
- Eingabetyp:
Message
- Beschreibung: Eine Liste einfacher URL-Links, von denen die Komponente Inhalte abruft.
- Eingabetyp:
URL-Datensätze:
- Eingabetyp:
UrlRecord
- Beschreibung: Eine Liste strukturierter URL-Datensätze, die zusätzliche Metadaten enthalten können.
- Eingabetyp:
Erweiterte Eingabeparameter
Parameter | Typ | Standardwert | Beschreibung |
---|---|---|---|
OCR anwenden | Boolean | false | Wenn aktiviert, wird OCR angewendet, um Text aus Bildern im Dokument zu extrahieren. |
Cache TTL | Dropdown | 2 Wochen | Gibt an, wie lange der Inhalt zwischengespeichert werden soll, von keinem Cache bis zu 1 Jahr. |
Von H1, falls vorhanden | Boolean | true | Beginnt die Extraktion beim H1-Tag, falls vorhanden, mit Fokus auf den Hauptinhalt. |
Von Pointer laden | Boolean | true | Lädt Inhalte ab dem relevantesten Abschnitt basierend auf Ihrer Abfrage. |
Ressourcen ausblenden | Boolean | false | Blendet die abgerufenen Ressourcen aus, sodass sie nicht ausgegeben oder angezeigt werden. |
Maximale Tokens | Integer | 3000 | Setzt die maximale Anzahl an Tokens für den Ausgabetext. |
Letztes Header überspringen | Boolean | true | Überspringt die letzte Überschrift während der Extraktion für einen schlankeren Inhalt. |
Strategie | Dropdown | Gleiche Teile aus jedem Dokument einschließen | Legt fest, wie Inhalte kombiniert werden: vollständig zusammenfügen oder gleiche Teile aus jedem Dokument. |
Inhalte exportieren | Multi-select | Alle | Wählen Sie aus, welche HTML-Elemente exportiert werden sollen (H1-H6, Absatz). |
Metadaten einschließen | Multi-select | Produkt | Geben Sie an, welche Metadatenfelder zu exportieren sind (z.B. Produkt, Autor, Website, etc.). |
Ausführlich | Boolean | false | Aktiviert detaillierte Ausgabe für Debugging oder Informationszwecke. |
Tool-Name | String | (leer) | Optional kann ein benutzerdefinierter Name für das Tool vergeben werden, damit Agenten darauf verweisen können. |
Tool-Beschreibung | Multiline | (leer) | Geben Sie eine Beschreibung an, um Agenten den Zweck des Tools zu erläutern. |
Ausgaben
Der URL-Retriever liefert seine Ausgaben in mehreren Formaten, sodass Sie flexibel verschiedene KI-Prozesse integrieren können:
Ausgabename | Typ | Beschreibung |
---|---|---|
Dokumente | Message | Die verarbeiteten Inhalte aus den URLs, bereit für den Einsatz in nachrichtenorientierten Workflows. |
Rohe Dokumente | Document | Die rohen, unverarbeiteten Dokumentenobjekte für fortgeschrittene Weiterverarbeitung. |
Dokumente als Tool | Tool | Die Inhalte als Tool verpackt, damit agentenbasierte Workflows die Dokumente nutzen können. |
Warum den URL-Retriever verwenden?
- Externe Wissensintegration: Bringen Sie Webinformationen nahtlos in Ihre KI-Anwendungen wie Chatbots, Suchmaschinen oder Wissensdatenbanken.
- Anpassbare Extraktion: Bestimmen Sie gezielt, welche Inhalte und Metadaten Sie möchten, steuern Sie die Datenmenge und nutzen Sie OCR für Bilder.
- Leistung & Effizienz: Nutzen Sie Caching, um redundante Downloads zu vermeiden, und begrenzen Sie die Token-Ausgabe für bessere Performance.
- Flexible Ausgabeformate: Wählen Sie das Ausgabeformat, das am besten zum nächsten Workflow-Schritt passt – strukturiertes Dokument, Nachricht oder Tool.
Beispielanwendungen
- Aufbau wissensbasierter Konversationsagenten, die Fragen mithilfe aktueller Webinhalte beantworten.
- Aggregation von Produktdaten aus E-Commerce-Websites für Vergleich oder Analysen.
- Überwachung und Analyse von Blog- oder Nachrichtenartikeln zu bestimmten Themen oder Stichwörtern.
- Extraktion von Informationen aus Webseiten, die gemischte Medien (Text und Bilder) enthalten.
Übersichtstabelle
Funktion | Beschreibung |
---|---|
URLs abrufen | Ruft Webinhalte von angegebenen URLs ab und verarbeitet sie. |
OCR-Unterstützung | Extrahiert Text aus Bildern in Dokumenten, falls aktiviert. |
Metadatenextraktion | Inkludiert optional Metadaten wie Autor, Produkt oder schema.org-Typen. |
Anpassbarer Output | Auswahl, welche HTML-Elemente oder Metadaten exportiert werden. |
Caching | Konfigurierbare Cache-Laufzeiten für mehr Effizienz. |
Verschiedene Ausgaben | Unterstützt Nachrichten-, Rohdokumenten- und Tool-Outputs für Workflow-Flexibilität. |
Der URL-Retriever ist eine leistungsstarke und flexible Brücke zwischen Webinhalten und Ihren KI-Workflows und bietet Ihnen granulare Kontrolle über Inhaltsextraktion und Integration.
Beispiele für Flow-Vorlagen mit der URL-Retriever-Komponente
Um Ihnen den schnellen Einstieg zu erleichtern, haben wir mehrere Beispiel-Flow-Vorlagen vorbereitet, die zeigen, wie die URL-Retriever-Komponente effektiv genutzt wird. Diese Vorlagen präsentieren verschiedene Anwendungsfälle und Best Practices und erleichtern Ihnen das Verständnis und die Implementierung der Komponente in Ihren eigenen Projekten.
Häufig gestellte Fragen
- Was macht die URL-Retriever-Komponente?
Der URL-Retriever ruft Inhalte von angegebenen Weblinks ab und verarbeitet sie, sodass Text und Metadaten aus Online-Dokumenten für Ihren Workflow oder KI-Agenten verfügbar werden.
- Kann sie Inhalte aus Bildern oder PDFs extrahieren?
Ja, wenn die OCR-Option aktiviert ist, kann die Komponente Text aus bildbasierten Dokumenten oder gescannten PDFs extrahieren.
- Welche Arten von Ausgaben bietet sie?
Sie gibt verarbeitete Dokumente als Textnachrichten, rohe Dokumentenobjekte oder als Tool für Agenten-Workflows aus – je nach Setup.
- Wie funktioniert das Caching im URL-Retriever?
Sie können festlegen, wie lange abgerufene Inhalte zwischengespeichert werden, um wiederholte Downloads zu vermeiden und Ihre Flows zu beschleunigen.
- Kann ich steuern, welche Teile einer Webseite extrahiert werden?
Ja, Sie können festlegen, welche Überschriften, Absätze oder Metadatenfelder in die Ausgabe aufgenommen werden sollen, um gezielt zu extrahieren.
- Ist dies für den Aufbau von Wissens-Bots oder Webdaten-Automatisierungen geeignet?
Absolut. Der URL-Retriever ist essenziell für jede Automatisierung oder jeden Chatbot, der Live-Webinhalte lesen, verarbeiten oder zusammenfassen muss.
Testen Sie den FlowHunt URL-Retriever
Steigern Sie Ihre Workflows, indem Sie Live-Webinhalte integrieren. Extrahieren, verarbeiten und nutzen Sie Daten aus URLs ganz einfach.