Dokument zu Text

Verwandeln Sie strukturierte Daten mit FlowHunts Document to Text-Komponente in lesbaren Markdown-Text und profitieren Sie von anpassbaren Steuerungen für eine effiziente und relevante KI-gestützte Ausgabe.

Dokument zu Text

Komponentenbeschreibung

So funktioniert die Dokument zu Text-Komponente

KI kann große Datenmengen in Sekunden analysieren, aber nur ein Teil dieser Daten ist relevant oder für die Ausgabe geeignet. Die Document to Text-Komponente gibt Ihnen Kontrolle darüber, wie die Daten aus Retrievern verarbeitet und in Text umgewandelt werden.

Document to Text-Komponente

Die Document to Text-Komponente wurde entwickelt, um eingehende Wissensdokumente in ein reines Textformat umzuwandeln. Dies ist besonders nützlich in KI- und Datenverarbeitungs-Workflows, in denen Textdaten für weitere Verarbeitung, Analyse oder als Eingabe für Sprachmodelle benötigt werden.

Was die Komponente macht

Diese Komponente nimmt ein oder mehrere strukturierte Dokumente (wie HTML, Markdown, PDFs oder andere unterstützte Formate) und extrahiert den Textinhalt. Sie ermöglicht es Ihnen, genau anzugeben, welche Teile der Dokumente exportiert werden sollen, ob Metadaten einbezogen werden und wie mit Dokumentabschnitten oder Überschriften umgegangen wird. Die Ausgabe ist ein einheitliches Nachrichtenobjekt mit dem extrahierten Text, bereit für nachgelagerte Aufgaben wie Zusammenfassung, Klassifizierung oder Beantwortung von Fragen.

Eingaben

Die Komponente akzeptiert mehrere konfigurierbare Eingaben:

EingabenameTypErforderlichBeschreibungStandardwert
DokumenteList[Document]JaDie Wissensdokumente, die in Text umgewandelt werden sollen.N/A (vom Benutzer bereitgestellt)
Von H1 falls vorhandenBooleanJaExtraktion ab der ersten H1-Überschrift, falls vorhanden.true
Von Pointer ladenBooleanJaExtraktion ab dem Pointer, der der Eingabeabfrage am besten entspricht, oder alle laden, falls kein Treffer.true
Max TokensIntegerNeinMaximale Anzahl an Tokens im Ausgabetext.3000
Letzte Überschrift überspringenBooleanJaÜberspringen der letzten Überschrift (oft ein Footer) zur Optimierung der Ausgabe.false
StrategieStringJaText-Extraktionsstrategie: Dokumente verketten oder gleiche Größe aus jedem einbeziehen.“Gleiche Größe aus allen Dokumenten einbeziehen”
Inhalt exportierenMulti-selectNeinWelche Inhaltstypen einbeziehen (z.B. H1, H2, Absatz).Alle Typen ausgewählt
Metadaten einbeziehenMulti-selectNeinMetadaten-Felder, die ggf. in die Ausgabe aufgenommen werden.Produkt

Verfügbare Inhaltstypen: H1, H2, H3, H4, H5, H6, Absatz
Metadaten-Optionen: Autor, Produkt, BreadcrumbList, VideoObject, BlogPosting, FAQPage, WebSite, opengraph

Ausgaben

Die Komponente erzeugt folgende Ausgabe:

  • Nachricht: Ein Nachrichtenobjekt mit dem umgewandelten Text und ggf. enthaltenen Metadaten.

Hauptfunktionen & Nutzen

  • Flexible Inhaltsextraktion: Präzise Steuerung, welche Teile Ihrer Dokumente extrahiert werden (z.B. nur Hauptüberschriften und Absätze oder kompletter Inhalt).
  • Metadaten-Inklusion: Optional können umfangreiche Metadaten (z.B. Autor, Produkt oder strukturierte Daten) in die Ausgabe aufgenommen werden, nützlich für nachgelagerte Kontextualisierung.
  • Token-Limit-Management: Begrenzen Sie die Ausgabemenge so, dass sie den Anforderungen nachgelagerter Modelle entspricht, indem Sie eine maximale Token-Anzahl festlegen.
  • Anpassbare Extraktionsstrategie:
    • Dokumente verketten, von erstem bis Token-Limit auffüllen: Füllt die Ausgabe priorisiert und sequenziell aus dem ersten Dokument.
    • Gleiche Größe aus jedem Dokument einbeziehen: Balanciert den Inhalt mehrerer Dokumente innerhalb des Token-Limits.
  • Intelligente Abschnittsbehandlung: Optionen zum Überspringen von Dokumenten-Footern oder zum Starten beim relevantesten Abschnitt für Ihre Abfrage erhöhen die Relevanz des extrahierten Textes.

Typische Anwendungsfälle

  • Vorverarbeitung von Wissensdatenbanken für KI-Modelle (z.B. vor dem Embedding oder Indexing).
  • Zusammenfassen oder Kondensieren großer Dokumente durch Extraktion nur relevanter Abschnitte.
  • Strukturierten Inhalt in Chatbots, Suchmaschinen oder andere Natural Language Processing-Pipelines einspeisen.
  • Hybride Retrieval-Systeme aufbauen, die Text mit Metadaten für einen reichhaltigeren Kontext kombinieren.

Übersichtstabelle

FähigkeitBeschreibung
EingabetypenListe von Dokumenten
AusgabetypNachricht (Text + Metadaten)
InhaltsgranularitätAuswahl von Überschriften/Absätzen zur Einbeziehung
Metadaten-OptionenAuswahl mehrerer Metadatenfelder zum Export
AusgabengrößenkontrolleMaximale Tokens festlegen
ExtraktionsstrategienDokumente verketten oder balancieren
AbschnittsauswahlStart ab H1, von Pointer oder letzte Überschrift überspringen

Strategie

Der Bot kann viele Dokumente durchforsten, um die Textausgabe zu erstellen. Mit der Strategie-Einstellung steuern Sie, wie diese Dokumente intelligent genutzt werden, während das Token-Limit eingehalten wird.

Derzeit gibt es zwei mögliche Strategien:

  • Gleiche Größe aus jedem Dokument einbeziehen: Nutzt alle gefundenen Dokumente gleichermaßen.
  • Dokumente verketten, von erstem bis Token-Limit auffüllen: Verbindet die Dokumente, priorisiert nach ihrer Relevanz zur Abfrage.

So verbinden Sie die Document to Text-Komponente mit Ihrem Flow

Dies ist eine Transformator-Komponente, das heißt, sie überbrückt die Lücke zwischen zwei Ausgaben. Document to Text nimmt Dokumente, die von den Retriever-Komponenten ausgegeben werden:

  • Document Retriever – holt Wissen aus angeschlossenen Wissensquellen (Seiten, Dokumente usw.).
  • URL Retriever – erlaubt die Angabe einer URL, von der der Bot Wissen holen soll.
  • GoogleSearch – gibt dem Bot die Möglichkeit, im Web nach Wissen zu suchen.

Das Wissen wird beim Durchlauf durch den Transformer in lesbaren Markdown-Text umgewandelt. Dieser Text kann dann mit Komponenten verbunden werden, die eine Texteingabe benötigen, wie Splitter, Widgets oder Ausgaben.

Hier ist ein Beispiel-Flow, der die Document to Text-Komponente nutzt, um die Lücke zwischen den Document Retrievers und dem AI Generator zu überbrücken:

Example of how to use Document Retriever in Flowhunt

Häufig gestellte Fragen

Was ist die Document to Text-Komponente?

Die Komponente holt Wissen aus Retriever-Komponenten und wandelt es in lesbaren Markdown-Text um, der dann mit jeder Komponente verbunden werden kann, die Text als Eingabe akzeptiert.

Testen Sie Dokument zu Text in FlowHunt

Beginnen Sie mit dem Aufbau intelligenterer KI-Lösungen mit der Document to Text-Komponente von FlowHunt. Wandeln Sie Daten nahtlos in verwertbaren Text um und verbessern Sie Ihre automatisierten Workflows.

Mehr erfahren