Qu’est-ce que la fonctionnalité d’ignorance d’indexation dans FlowHunt ?

La fonctionnalité d’ignorance d’indexation vous permet d’exclure certains contenus de l’utilisation par votre chatbot IA. En ajoutant la classe flowhunt-skip aux éléments HTML, vous vous assurez que le contenu inadapté ou répétitif n’est pas indexé ni utilisé dans les réponses du chatbot.

Pourquoi devrais-je ignorer certains contenus lors de l’entraînement de mon chatbot IA ?

Ignorer le contenu répétitif, inapproprié ou potentiellement trompeur aide votre chatbot IA à fournir des réponses plus pertinentes, sûres et précises. Cela améliore aussi la performance et réduit les coûts de traitement inutiles.

Comment utiliser la classe flowhunt-skip ?

Ajoutez la classe flowhunt-skip à tout élément HTML que vous ne souhaitez pas indexer. FlowHunt ignorera ces éléments lors de son processus de crawl, les excluant ainsi de la base de connaissances de votre chatbot.

Comment FlowHunt traite et stocke-t-il le contenu indexé ?

FlowHunt explore votre site, convertit le HTML en markdown, divise le texte en segments et les stocke dans une base de données vectorielle. Cela permet la recherche sémantique afin que l’IA puisse comprendre les mots liés et fournir des réponses pertinentes aux requêtes des utilisateurs.

Qu’est-ce que la recherche sémantique et pourquoi est-elle importante ?

La recherche sémantique utilise des bases de données vectorielles pour comprendre la signification et les relations des mots, pas juste les correspondances exactes. Cela permet à votre chatbot de fournir des réponses plus intelligentes et contextuelles, même si les utilisateurs emploient des formulations différentes.

Ignorer l’indexation du contenu

Utilisez la fonctionnalité d’ignorance d’indexation de FlowHunt pour exclure le contenu répétitif ou inadapté de la base de connaissances de votre chatbot IA, garantissant des interactions pertinentes et sûres.

AI Chatbot Indexing Semantic Search

Essayez maintenant Réserver une démo

Aussi puissante soit-elle, l’IA reste une machine qui relaie les informations qu’elle apprend. Elle ne comprend pas les blagues, les hypothèses ou le sarcasme, qui sont souvent à l’origine des réponses les plus hilarantes (et parfois sérieusement problématiques). Pour éviter que votre chatbot ne crée le prochain scandale de l’IA et pour l’aider à mieux comprendre votre contenu, vous pouvez lui indiquer quel contenu ignorer.

La fiabilité de l’IA repose sur la surveillance des informations dont elle s’inspire. Tout votre contenu ne sera pas adapté à l’utilisation par le chatbot. La classe flowhunt-skip vous permet de marquer le contenu que FlowHunt ne doit pas indexer. Tout élément HTML portant cette classe sera ignoré lors du traitement du contenu.

Quand utiliser le paramètre d’ignorance

Il y a deux principales raisons d’utiliser cette classe, mais n’hésitez pas à l’appliquer à tout contenu que vous jugez inutile ou inadapté à l’usage du bot.

Ignorer le contenu répétitif : Si un contenu similaire est constamment indexé, cela complique la tâche de l’IA pour distinguer et catégoriser le sujet traité. Ignorer les informations en double vous fait également économiser sur le traitement du texte à long terme.
Ignorer les informations risquées ou inappropriées : Vous devriez ignorer toute information susceptible d’amener l’IA à fournir des réponses fausses, nuisibles ou hors contexte. Soyez particulièrement vigilant si le ton de votre marque utilise souvent l’humour ou un langage fort. Même si cela fonctionne pour d’autres contenus, les utilisateurs risquent de ne pas apprécier un bot sarcastique.

Comment utiliser le paramètre flowhunt-skip

FlowHunt explore et indexe votre site web afin de fournir du contexte au chatbot. Tout ce que FlowHunt indexe pourra éventuellement être utilisé par votre chatbot.

En ajoutant la classe flowhunt-skip aux éléments HTML, vous marquez le contenu que vous ne souhaitez pas indexer. Tout élément portant cette classe sera ignoré et n’atteindra jamais le chatbot.

Voici un exemple d’utilisation de la classe :

<div class="flowhunt-skip">
  <h2>Duplicit content</h2>
  <p>This content is duplicate. I don’t want FlowHunt to index it again.</p>
</div>

Vous pouvez aussi ignorer un seul paragraphe ou une partie d’un élément :

<div>
  <h2>My content</h2>
  <p>This paragraph should be indexed.</p>
  <p class="flowhunt-skip">I don't want the Chatbot to use this information.</p>
  <p>This paragraph should be indexed.</p>
</div>

Comment fonctionne l’indexation

Le processus d’exploration s’exécute en arrière-plan selon les horaires que vous définissez. Il télécharge uniquement la page HTML. Toutes les images ou médias sont simplement stockés sous forme de liens. Les redirections sont suivies, et les URLs canoniques sont évaluées.

Une fois le crawl effectué, le contenu HTML est converti en texte markdown brut. Certaines informations peuvent être supprimées durant ce processus. Le texte markdown final est proposé au chatbot comme contexte. Le bot peut ensuite récupérer cette information à tout moment si nécessaire.

Comment l’IA choisit-elle les informations à utiliser

Le texte markdown est divisé en segments, vectorisé et stocké dans une base de données vectorielle. Ce type de base de données attribue des valeurs aux significations des mots. Ainsi, l’IA peut comprendre les mots liés sans avoir besoin d’une correspondance exacte.

Les mots sont répartis sur une grille selon leur valeur attribuée. Cela permet à l’ordinateur de comprendre quels mots sont proches par leur sens :

Text split into chunks, vectorized, and stored in a vector database

Remarque : Il s’agit d’un modèle très simplifié. En pratique, l’IA effectue ce travail avec des milliers de mots, d’expressions et de phrases entières.

La récupération d’informations depuis les bases de données vectorielles s’appelle la recherche sémantique. C’est la capacité de l’IA à rechercher et évaluer le sens des mots dans la base de données vectorielle afin de fournir des réponses.

Lorsqu’un utilisateur soumet une requête, le bot convertit les mots en vecteurs. Il recherche ensuite dans la base de données toutes les correspondances proches issues de votre contenu. En trouvant des correspondances ou du contenu similaire, il utilise alors ces informations pour formuler une réponse.

Pourquoi la recherche sémantique est-elle si importante

Imaginez que vous possédiez une animalerie en ligne. Un client pose la question suivante :

« Vendez-vous de la nourriture pour chatons ? »

Vous en vendez, mais le nom du produit comprend le mot “junior” au lieu de “chaton”. Le bot sera capable de comprendre que “nourriture pour chats junior” est la même chose (ou très similaire) que “nourriture pour chatons” et orientera avec succès le client vers le bon produit.

Sans recherche sémantique dans la base de données vectorielle, le chatbot se contenterait de répondre que vous ne proposez pas de “nourriture pour chatons”, vous faisant ainsi perdre un client potentiel. Avec FlowHunt, vous n’avez pas à vous soucier de ce genre de situation.

Questions fréquemment posées

: La fonctionnalité d’ignorance d’indexation vous permet d’exclure certains contenus de l’utilisation par votre chatbot IA. En ajoutant la classe flowhunt-skip aux éléments HTML, vous vous assurez que le contenu inadapté ou répétitif n’est pas indexé ni utilisé dans les réponses du chatbot.
: Ignorer le contenu répétitif, inapproprié ou potentiellement trompeur aide votre chatbot IA à fournir des réponses plus pertinentes, sûres et précises. Cela améliore aussi la performance et réduit les coûts de traitement inutiles.
: Ajoutez la classe flowhunt-skip à tout élément HTML que vous ne souhaitez pas indexer. FlowHunt ignorera ces éléments lors de son processus de crawl, les excluant ainsi de la base de connaissances de votre chatbot.
: FlowHunt explore votre site, convertit le HTML en markdown, divise le texte en segments et les stocke dans une base de données vectorielle. Cela permet la recherche sémantique afin que l’IA puisse comprendre les mots liés et fournir des réponses pertinentes aux requêtes des utilisateurs.
: La recherche sémantique utilise des bases de données vectorielles pour comprendre la signification et les relations des mots, pas juste les correspondances exactes. Cela permet à votre chatbot de fournir des réponses plus intelligentes et contextuelles, même si les utilisateurs emploient des formulations différentes.