
Recuperator de Documente
Document Retriever de la FlowHunt îmbunătățește acuratețea AI-ului conectând modelele generative la propriile tale documente și URL-uri actualizate, asigurând r...
Află cum să setezi parametrii ‘From H1 if exists’, ‘Load from pointer’ și ‘Skip Last Header’.
Componenta Document Retriever permite chatbot-ului să recupereze cunoștințe din sursele pe care le-ai specificat în secțiunile Documents și Schedules. Rolul acestei componente este să controleze procesul de extragere, iar mai mulți parametri influențează modul în care aceasta recuperează informațiile din acele documente.
Opțiunea From H1 if exists indică retriever-ului să înceapă extragerea conținutului de la primul antet H1 găsit (de obicei titlul principal al articolului).
Ce se întâmplă?
Exemplu de utilizare:
Vrei să recuperezi doar ghidul propriu-zis, fără navigarea site-ului sau anteturile de pagină care aglomerează website-ul tău.
Notă:
From H1 if exists este activată în mod implicit în componenta Document Retriever.
Opțiunea Load from pointer îți oferă mai multă precizie, permițând Document Retriever să încarce doar datele aflate după un pointer în cadrul unui articol posibil mai lung.
Ce se întâmplă?
Ce este un “pointer”?
Un pointer este, de obicei, un șir unic sau un antet prezent în document (de exemplu, un H2 sau o sintagmă/titlu de secțiune specific).
Exemplu de utilizare:
Vrei să sari peste secțiunile introductive și să recuperezi informații pentru o anumită secțiune relevantă dintr-un articol sau document posibil lung (de exemplu, de la „Pasul 4: Adăugarea unui buton de chat live” într-un ghid de configurare).
Opțiunea Skip Last Header este utilă pentru a ignora ultimul antet din document, care este adesea repetitiv sau folosit pentru navigare sau în subsol.
Ce se întâmplă?
Exemplu de utilizare:
Vrei să eviți ca Document Retriever să preia un antet de navigare din subsol (cum ar fi „Alte articole” de la finalul unei pagini de ajutor), asigurându-te că doar conținutul principal este procesat.
Notă:
Skip Last Header poate ajuta cu documentele care generează automat subsoluri sau elemente de navigare repetitive. Totuși, dacă nu ai astfel de secțiuni, folosirea acestui parametru ar putea face ca o parte a articolului cu informații valide să nu fie recuperată. Prin urmare, este recomandat să lași această opțiune nebifată până când ai un motiv valid să o activezi.
Parametrul Max tokens îți permite să controlezi numărul maxim de tokeni (cuvinte și semne de punctuație, așa cum sunt numărate de modelul AI de bază) pe care Document Retriever îi va furniza din textul extras.
Ce se întâmplă?
Valoare implicită:
Valoarea implicită este, de obicei, 3000 de tokeni, dar poți ajusta această valoare după necesitate.
Exemplu de utilizare:
Dacă procesezi documente lungi, setarea unei valori mai mici pentru Max tokens ajută la menținerea răspunsurilor concise. Totuși, pentru cele mai bune rezultate, ia în calcul activarea parametrului „Load from pointer”. Astfel, textul extras va începe de la secțiunea cea mai relevantă a documentului, nu de la început, permițându-ți să obții un fragment de informație concentrat și gestionabil în limita de tokeni stabilită. Această combinație este deosebit de utilă când ai nevoie de rezultate concise și relevante contextual din surse ample.
Notă:
Dacă observi că informațiile sunt tăiate, încearcă să crești valoarea Max tokens. Dimpotrivă, dacă vrei rezultate mai scurte și concentrate, redu parametrul Max tokens.
Atunci când Document Retriever găsește mai multe documente relevante, parametrul Strategy determină modul în care acestea sunt combinate într-un singur rezultat text pentru chatbot-ul tău, ținând cont de limita „Max tokens”.
Două opțiuni de strategie:
Include equal size from each document:
Limita de tokeni este împărțită în mod egal. De exemplu, cu trei documente și o limită de 3.000 tokeni, fiecare primește până la 1.000 tokeni. Acest lucru asigură că toate sursele contribuie în mod egal, util atunci când vrei un răspuns echilibrat care folosește informații din mai multe documente.
Concat documents, fill from first up to the tokens limit:
Documentele sunt adăugate în ordinea relevanței până când se atinge limita de tokeni. Cel mai relevant document ocupă primul spațiul; dacă mai rămâne spațiu, sunt adăugate și celelalte, în ordine. Dacă primul document este lung, poate folosi întreaga limită.
Cum alegi?
Notă:
Aceste strategii afectează doar modul în care textul este construit din documentele extrase, înainte de a fi trimis către pasul următor (cum ar fi generarea AI). Ele nu schimbă ce documente sunt extrase—doar modul în care conținutul lor este îmbinat și tăiat pentru a se încadra în setarea Max tokens.
Deși acest articol se concentrează pe configurarea parametrilor ‘From H1 if exists’, ‘Load from pointer’, ‘Skip Last Header’ și ‘Max tokens’, Document Retriever oferă și alți parametri care ajută la controlul modului în care documentele sunt selectate și extrase:
Această setare limitează numărul de documente pe care fluxul le va extrage, asigurând rezultate relevante și generarea rapidă a răspunsurilor.
Această setare opțională îți permite să limitezi extragerea la una sau mai multe categorii pe care le-ai creat în secțiunea Documents din Knowledge Sources.
Aceasta îți permite să incluzi sau să ascunzi o secțiune separată, înaintea răspunsului efectiv al chatbot-ului, cu o listă a resurselor extrase de retriever. Pentru integrarea cu LiveAgent, trebuie bifată, deoarece această secțiune nu este suportată și nu va fi afișată corect în widgetul chatbot LiveAgent.
Îți permite să restricționezi extragerea la unul sau mai multe Schedules pe care le-ai specificat pentru crawl sau actualizarea conținutului în Knowledge Sources.
Controlează cât de apropiate trebuie să fie documentele extrase de interogarea introdusă, folosind un scor de relevanță (de la 0 la 1). De exemplu, un prag de 0,7–0,8 este recomandat pentru răspunsuri foarte relevante. Pragurile mai mari oferă potriviri mai precise, în timp ce pragurile mai mici pot include documente mai puțin relevante.
Exemplu:
Dacă setezi un prag de 0,6 și ai patru articole cu scoruri de relevanță de 0,8, 0,65, 0,5 și 0,9, doar cele peste 0,6 (adică 0,8, 0,65 și 0,9) vor fi folosite pentru extragere.
Dacă răspunsul oferit de chatbot nu conține informații despre care ești sigur că sunt disponibile în documentele sau schedule-urile tale, încearcă să verifici istoricul conversației cu opțiunea “Verbose” pentru a vedea jurnalele detaliate despre dacă Document Retriever a fost folosit și ce documente au fost extrase. Dacă este necesar, ajustează setările și promptul pe baza acestor jurnale.
Document Retriever de la FlowHunt îmbunătățește acuratețea AI-ului conectând modelele generative la propriile tale documente și URL-uri actualizate, asigurând r...
Deblochează conținutul web în fluxurile tale de lucru cu componenta URL Retriever. Extrage și procesează cu ușurință textul și metadatele din orice listă de URL...
Integrează-ți fluxurile de lucru cu Google Docs folosind componenta Google Docs Retriever—preia fără efort conținutul documentelor pentru a fi folosit în automa...