URL-Retriever

Mit dem URL-Retriever können Sie Inhalte von Weblinks abrufen und verarbeiten – unterstützt OCR, Metadatenextraktion und flexiblen Output zur Ansteuerung von KI-Workflows.

URL-Retriever

Komponentenbeschreibung

So funktioniert die URL-Retriever-Komponente

URL-Retriever-Komponente

Der URL-Retriever ist eine vielseitige Flow-Komponente zum Abrufen und Verarbeiten von Webinhalten aus angegebenen URLs und gibt die Informationen als strukturierte Dokumente zurück. Sie dient als Brücke zwischen externen Online-Inhalten und Ihrem KI-Workflow, sodass Sie Webinformationen effizient integrieren, analysieren oder verarbeiten können.

Was macht sie?

Diese Komponente ruft die Inhalte einer oder mehrerer als Eingabe bereitgestellter URLs ab. Sie kann den Haupttext und Metadaten extrahieren und sogar Inhalte aus Bildern mittels optischer Zeichenerkennung (OCR) verarbeiten. Die abgerufenen Daten stehen dann in verschiedenen strukturierten Formaten für nachgelagerte KI-Aufgaben wie Zusammenfassung, Beantwortung von Fragen oder Wissensextraktion zur Verfügung.

Eingabeoptionen

Sie können der Komponente URLs auf zwei Arten bereitstellen:

  • Text-URLs:

    • Eingabetyp: Message
    • Beschreibung: Eine Liste einfacher URL-Links, von denen die Komponente Inhalte abruft.
  • URL-Datensätze:

    • Eingabetyp: UrlRecord
    • Beschreibung: Eine Liste strukturierter URL-Datensätze, die zusätzliche Metadaten enthalten können.

Erweiterte Eingabeparameter

ParameterTypStandardwertBeschreibung
OCR anwendenBooleanfalseWenn aktiviert, wird OCR angewendet, um Text aus Bildern im Dokument zu extrahieren.
Cache TTLDropdown2 WochenGibt an, wie lange der Inhalt zwischengespeichert werden soll, von keinem Cache bis zu 1 Jahr.
Von H1, falls vorhandenBooleantrueBeginnt die Extraktion beim H1-Tag, falls vorhanden, mit Fokus auf den Hauptinhalt.
Von Pointer ladenBooleantrueLädt Inhalte ab dem relevantesten Abschnitt basierend auf Ihrer Abfrage.
Ressourcen ausblendenBooleanfalseBlendet die abgerufenen Ressourcen aus, sodass sie nicht ausgegeben oder angezeigt werden.
Maximale TokensInteger3000Setzt die maximale Anzahl an Tokens für den Ausgabetext.
Letztes Header überspringenBooleantrueÜberspringt die letzte Überschrift während der Extraktion für einen schlankeren Inhalt.
StrategieDropdownGleiche Teile aus jedem Dokument einschließenLegt fest, wie Inhalte kombiniert werden: vollständig zusammenfügen oder gleiche Teile aus jedem Dokument.
Inhalte exportierenMulti-selectAlleWählen Sie aus, welche HTML-Elemente exportiert werden sollen (H1-H6, Absatz).
Metadaten einschließenMulti-selectProduktGeben Sie an, welche Metadatenfelder zu exportieren sind (z.B. Produkt, Autor, Website, etc.).
AusführlichBooleanfalseAktiviert detaillierte Ausgabe für Debugging oder Informationszwecke.
Tool-NameString(leer)Optional kann ein benutzerdefinierter Name für das Tool vergeben werden, damit Agenten darauf verweisen können.
Tool-BeschreibungMultiline(leer)Geben Sie eine Beschreibung an, um Agenten den Zweck des Tools zu erläutern.

Ausgaben

Der URL-Retriever liefert seine Ausgaben in mehreren Formaten, sodass Sie flexibel verschiedene KI-Prozesse integrieren können:

AusgabenameTypBeschreibung
DokumenteMessageDie verarbeiteten Inhalte aus den URLs, bereit für den Einsatz in nachrichtenorientierten Workflows.
Rohe DokumenteDocumentDie rohen, unverarbeiteten Dokumentenobjekte für fortgeschrittene Weiterverarbeitung.
Dokumente als ToolToolDie Inhalte als Tool verpackt, damit agentenbasierte Workflows die Dokumente nutzen können.

Warum den URL-Retriever verwenden?

  • Externe Wissensintegration: Bringen Sie Webinformationen nahtlos in Ihre KI-Anwendungen wie Chatbots, Suchmaschinen oder Wissensdatenbanken.
  • Anpassbare Extraktion: Bestimmen Sie gezielt, welche Inhalte und Metadaten Sie möchten, steuern Sie die Datenmenge und nutzen Sie OCR für Bilder.
  • Leistung & Effizienz: Nutzen Sie Caching, um redundante Downloads zu vermeiden, und begrenzen Sie die Token-Ausgabe für bessere Performance.
  • Flexible Ausgabeformate: Wählen Sie das Ausgabeformat, das am besten zum nächsten Workflow-Schritt passt – strukturiertes Dokument, Nachricht oder Tool.

Beispielanwendungen

  • Aufbau wissensbasierter Konversationsagenten, die Fragen mithilfe aktueller Webinhalte beantworten.
  • Aggregation von Produktdaten aus E-Commerce-Websites für Vergleich oder Analysen.
  • Überwachung und Analyse von Blog- oder Nachrichtenartikeln zu bestimmten Themen oder Stichwörtern.
  • Extraktion von Informationen aus Webseiten, die gemischte Medien (Text und Bilder) enthalten.

Übersichtstabelle

FunktionBeschreibung
URLs abrufenRuft Webinhalte von angegebenen URLs ab und verarbeitet sie.
OCR-UnterstützungExtrahiert Text aus Bildern in Dokumenten, falls aktiviert.
MetadatenextraktionInkludiert optional Metadaten wie Autor, Produkt oder schema.org-Typen.
Anpassbarer OutputAuswahl, welche HTML-Elemente oder Metadaten exportiert werden.
CachingKonfigurierbare Cache-Laufzeiten für mehr Effizienz.
Verschiedene AusgabenUnterstützt Nachrichten-, Rohdokumenten- und Tool-Outputs für Workflow-Flexibilität.

Der URL-Retriever ist eine leistungsstarke und flexible Brücke zwischen Webinhalten und Ihren KI-Workflows und bietet Ihnen granulare Kontrolle über Inhaltsextraktion und Integration.

Beispiele für Flow-Vorlagen mit der URL-Retriever-Komponente

Um Ihnen den schnellen Einstieg zu erleichtern, haben wir mehrere Beispiel-Flow-Vorlagen vorbereitet, die zeigen, wie die URL-Retriever-Komponente effektiv genutzt wird. Diese Vorlagen präsentieren verschiedene Anwendungsfälle und Best Practices und erleichtern Ihnen das Verständnis und die Implementierung der Komponente in Ihren eigenen Projekten.

Häufig gestellte Fragen

Was macht die URL-Retriever-Komponente?

Der URL-Retriever ruft Inhalte von angegebenen Weblinks ab und verarbeitet sie, sodass Text und Metadaten aus Online-Dokumenten für Ihren Workflow oder KI-Agenten verfügbar werden.

Kann sie Inhalte aus Bildern oder PDFs extrahieren?

Ja, wenn die OCR-Option aktiviert ist, kann die Komponente Text aus bildbasierten Dokumenten oder gescannten PDFs extrahieren.

Welche Arten von Ausgaben bietet sie?

Sie gibt verarbeitete Dokumente als Textnachrichten, rohe Dokumentenobjekte oder als Tool für Agenten-Workflows aus – je nach Setup.

Wie funktioniert das Caching im URL-Retriever?

Sie können festlegen, wie lange abgerufene Inhalte zwischengespeichert werden, um wiederholte Downloads zu vermeiden und Ihre Flows zu beschleunigen.

Kann ich steuern, welche Teile einer Webseite extrahiert werden?

Ja, Sie können festlegen, welche Überschriften, Absätze oder Metadatenfelder in die Ausgabe aufgenommen werden sollen, um gezielt zu extrahieren.

Ist dies für den Aufbau von Wissens-Bots oder Webdaten-Automatisierungen geeignet?

Absolut. Der URL-Retriever ist essenziell für jede Automatisierung oder jeden Chatbot, der Live-Webinhalte lesen, verarbeiten oder zusammenfassen muss.

Testen Sie den FlowHunt URL-Retriever

Steigern Sie Ihre Workflows, indem Sie Live-Webinhalte integrieren. Extrahieren, verarbeiten und nutzen Sie Daten aus URLs ganz einfach.

Mehr erfahren