跳过内容索引

跳过内容索引

使用 FlowHunt 的跳过索引功能,将重复或不适合的内容从 AI 聊天机器人的知识库中排除,确保互动相关且安全。

无论多么强大,AI 依然只是传递它学到的信息的机器。它并不理解笑话、假设或讽刺,而这些往往会导致令人捧腹(有时甚至严重有害)的回答。为了确保您的聊天机器人不会制造新的 AI 丑闻,并帮助其更好地理解您的内容,您可以告知它哪些内容需要跳过。

确保 AI 可靠性的关键在于监控它获取信息的来源。并非所有内容都适合被聊天机器人使用。flowhunt-skip 类允许您标记不应被 FlowHunt 索引的内容。任何带有该类的 HTML 元素在处理内容时都会被忽略。

何时使用跳过参数

有两个主要原因建议使用此类,但您也可以根据需要将其用于任何不适合或不必要让机器人使用的内容。

  1. 跳过重复内容: 如果相似内容不断被索引,会让 AI 难以区分和分类内容主题。跳过重复信息还能长期节省文本处理费用。

  2. 跳过有风险或不当信息: 您应跳过任何可能导致 AI 给出错误、有害或断章取义回答的信息。尤其当您的品牌语气常用玩笑或激烈措辞时要格外小心。这类内容虽然适合其他场合,但用户未必喜欢冷嘲热讽的机器人。

如何使用 flowhunt-skip 参数

FlowHunt 会抓取并索引您的网站,为聊天机器人提供上下文。凡被 FlowHunt 索引的内容,您的聊天机器人都可能在某个时刻使用。

为 HTML 元素添加 flowhunt-skip 类,即可标记您不希望被索引的内容。所有带有该类的元素都会被忽略,永远不会进入聊天机器人。

以下是该类的使用示例:

<div class="flowhunt-skip">
  <h2>重复内容</h2>
  <p>这段内容是重复的。我不希望 FlowHunt 再次索引它。</p>
</div>

您也可以只跳过某个段落或某元素的一部分:

<div>
  <h2>我的内容</h2>
  <p>这个段落应该被索引。</p>
  <p class="flowhunt-skip">我不希望聊天机器人使用这段信息。</p>
  <p>这个段落应该被索引。</p>
</div>

索引的工作原理

抓取流程在后台按您设定的计划运行,只下载 HTML 页面。所有图片或媒体仅以链接方式保存。所有重定向都会被跟踪,规范 URL 也会被评估。

抓取完成后,HTML 内容会被转换为纯 markdown 文本。在此过程中,部分信息可能被移除。最终的 markdown 文本会作为上下文提供给聊天机器人,机器人可根据需要随时调用这些信息。

AI 如何选择要使用的信息

markdown 文本会被拆分成片段,向量化后存储到向量数据库中。这类数据库会为词语的含义分配数值。这样 AI 不需要精确匹配词语,也能理解相关词汇。

词语会根据其数值分布在网格上,使计算机能够理解哪些词语在含义上彼此接近:

文本被拆分为片段、向量化并存储在向量数据库中

注意:这是极度简化的模型。实际中,AI 处理的是成千上万个词语、短语乃至整个句子。

从向量数据库检索信息被称为语义搜索。它是 AI 在向量数据库中搜索并评估词语含义、据此提供答案的能力。

当用户提交查询时,机器人会将词语转换为向量,然后在数据库中搜索与您的内容最接近的匹配项。找到匹配或相似内容后,机器人会利用这些信息生成答案。

为什么语义搜索如此重要

假设您经营一家宠物用品网店。有客户提出如下问题:

“你们卖小猫吃的粮吗?”

答案是肯定的,但您的产品名称用的是“幼猫”而不是“小猫”。机器人能够理解“幼猫粮”和“小猫吃的粮”是相同或非常相似的,从而成功引导客户找到正确的产品。

如果没有向量数据库中的语义搜索,聊天机器人就会直接回复您没有“小猫吃的粮”,让您失去一个潜在客户。使用 FlowHunt,您无需担心此类情况发生。

常见问题

FlowHunt 的跳过索引功能是什么?

跳过索引功能可以让您排除特定内容,不被 AI 聊天机器人使用。只需将 flowhunt-skip 类添加到 HTML 元素,即可确保不合适或重复的内容不会被索引或用于聊天机器人回复。

为什么在训练 AI 聊天机器人时需要跳过某些内容?

跳过重复、不当或可能误导的内容,有助于让 AI 聊天机器人提供更相关、安全和准确的回复。同时还能提升性能,并减少不必要的处理成本。

如何使用 flowhunt-skip 类?

将 flowhunt-skip 类添加到您不希望被索引的任何 HTML 元素。FlowHunt 在抓取过程中会忽略这些元素,不会将其纳入聊天机器人的知识库。

FlowHunt 如何处理和存储被索引的内容?

FlowHunt 会抓取您的网站,将 HTML 转换为 markdown,然后将文本拆分成片段,并存储到向量数据库。这使得 AI 能够进行语义搜索,理解相关词汇,并为用户查询提供相关答案。

什么是语义搜索,为什么它很重要?

语义搜索利用向量数据库来理解词语的含义和关系,而不仅仅是精确匹配。这样您的聊天机器人即使遇到用户不同的表述,也能提供更智能、更具上下文的回复。

准备好创建自己的 AI 吗?

智能聊天机器人和 AI 工具一站式集成。连接直观模块,将您的想法变为自动化流程。

了解更多

通过添加自定义知识库减少AI幻觉
通过添加自定义知识库减少AI幻觉

通过添加自定义知识库减少AI幻觉

通过使用FlowHunt的计划功能,减少AI幻觉并确保聊天机器人响应的准确性。了解其优势、实际应用场景,以及逐步设置此强大工具的指南。...

1 分钟阅读
AI Chatbot +4
如何配置文档检索器
如何配置文档检索器

如何配置文档检索器

了解如何设置“如有则从 H1 开始”、“从指针加载”和“跳过最后一个标题”参数。

1 分钟阅读
Document Retriever AI knowledge base +3
FlowHunt JS API:高级聊天机器人自定义
FlowHunt JS API:高级聊天机器人自定义

FlowHunt JS API:高级聊天机器人自定义

学习如何通过流变量、URL参数、事件驱动回调和自定义聊天激活,深度定制您的 FlowHunt 聊天机器人,实现更强的个性化、分析和用户互动。...

3 分钟阅读
AI Chatbot +4