如何配置文档检索器

如何配置文档检索器

了解如何设置“如有则从 H1 开始”、“从指针加载”和“跳过最后一个标题”参数。

文档检索器组件 允许聊天机器人从您在文档和计划中指定的来源检索知识。该组件的作用是控制检索过程,多个参数会影响组件如何从这些文档中获取信息。

Flowhunt version history

如有则从 H1 开始 —— 从主标题开始提取

如有则从 H1 开始选项会指示检索器从它找到的 H1 标题(通常是文章的主标题)开始提取内容。

会发生什么?

  • 如果勾选:在第一个 H1 之前的所有内容(如导航、面包屑或登录链接)都会被忽略,提取从主文章内容开始。
  • 如果未勾选:内容提取将从页面最顶部开始,包括所有导航、标题以及主文章上方的任何元数据。

用例示例:
您只想检索实际的指南内容,而不包括网站存在的任何导航或页面头部杂乱内容。

注意:
文档检索器组件默认启用如有则从 H1 开始

从指针加载 —— 从特定标记处开始提取

从指针加载选项让您可以更精确地让文档检索器仅从长文章中的一个指针开始加载数据。

会发生什么?

  • 如果勾选(并设置了指针):提取将从指定指针处开始,跳过之前的所有内容,即使它在 H1 之后。
  • 如果未勾选:提取将从默认位置开始(文档顶部,或者如果勾选了“如有则从 H1 开始”则从第一个 H1 开始)。

什么是“指针”?
指针通常是文档中存在的唯一字符串或标题(例如,一个 H2 或特定短语或章节标题)。

用例示例:
您想跳过引言部分,只检索某个相关章节的信息(例如,在设置指南中从“步骤 4:添加实时聊天按钮”开始)。

跳过最后一个标题 —— 排除页脚或重复标题

跳过最后一个标题选项可用于忽略文档中的最后一个标题,这通常是重复出现或用于导航或页脚的标题。

会发生什么?

  • 如果勾选:提取时会忽略最后一个标题(例如,重复的文章标题或“其他文章”部分)。
  • 如果未勾选:所有标题,包括最后一个,都会包含在输出中。

用例示例:
您希望文档检索器不要加载页脚导航标题(如帮助页面末尾的“其他文章”),确保只处理主要内容。

注意:
跳过最后一个标题有助于处理自动生成页脚或重复导航元素的文档。但如果您的文档没有这些部分,使用该参数可能导致包含有效信息的文章部分未被检索。因此,建议在有合理理由启用时再勾选此选项。

最大 tokens —— 控制输出长度上限

最大 tokens参数允许您控制文档检索器从提取文本中输出的最大 token(单词和标点符号,由底层 AI 模型计数)数量。

会发生什么?

  • 提取内容会限制在指定的 token 数量内。超出此限制的内容将被截断并排除在输出之外。
  • 此参数有助于管理非常长的文档,确保输出保持在 AI 模型的处理限制内。

默认值:
默认通常为 3000 tokens,如有需要可以调整。

用例示例:
如果您正在处理较长文档,设置较低的最大 tokens 值有助于保持回答简洁。但为了获得最佳效果,建议同时启用“从指针加载”参数。这样可确保提取的文本从文档中最相关的部分开始,而不是从开头,从而在您指定的 token 限制内获得聚焦且易于管理的信息片段。这种组合在需要从大型来源获得简洁且有上下文的输出时尤其有用。

注意:
如果发现信息被截断,可以尝试增加最大 tokens 值。相反,如需更短、更聚焦的输出,则可减少最大 tokens 参数。

策略 —— 控制多文档如何合并为文本

当文档检索器找到多个相关文档时,策略参数决定如何将它们合并为您的聊天机器人的单个文本输出,同时遵循“最大 tokens”限制。

两种策略选项:

  1. 每个文档均等分配 token:
    token 限制会被平均分配。例如,3 个文档、3000 token 限制下,每个可获得最多 1000 token。这确保所有来源均有贡献,当您希望答案均衡地来自多个文档时很有用。

    • 适用场景:当您有文档在不同文档中分布了某主题的不同方面,需要从多个来源平等地获取信息以形成全面答案。这种方法在没有任何一个文档包含所有必要细节,并且希望每个相关文档的信息都能在回答中体现时最有效,从而提供多样或全面的视角。
  2. 拼接文档,按相关性依次填满 token 限制:
    文档会按相关性顺序添加,直到 token 限制用尽。最相关的文档优先填充空间;如有剩余,则依次添加相关性较低的文档。如果第一个文档很长,可能会独占所有 token 限制。

    • 适用场景:当您有文档,每个主题的详细信息都包含在单个文档中,回答问题时更希望尽可能多地使用该文档的内容,而不是组合多个可能涉及类似主题的文档信息。

如何选择?

  • 如果想让所有来源均衡参与,使用每个文档均等分配 token
  • 如果更希望优先展示最相关文档,对包含所有来源不那么关心,使用拼接文档,按相关性依次填满 token 限制

注意:
这些策略只影响将检索到的文档内容如何构建为文本(在传递到下一步如 AI 生成前)。它们不会改变检索哪些文档——仅影响其内容如何合并与修剪以适应最大 token 设置。

文档检索器的其他参数

本文重点讲解了“如有则从 H1 开始”、“从指针加载”、“跳过最后一个标题”以及“最大 tokens”参数,文档检索器还提供了其他有助于控制文档选择和检索的参数:

文档数量

此设置限制流程应检索的文档数量,确保结果相关且响应快速生成。

文档类别

此可选设置允许您将检索范围限制在知识源的文档部分创建的一个或多个类别内。

隐藏资源

允许您在实际聊天机器人答案前,包含或隐藏一个单独的部分,列出检索器检索到的资源。与 LiveAgent 集成时必须勾选此项,因为该部分不受支持且不会在 LiveAgent 聊天机器人小部件中正确显示。

计划

允许您将检索限制在已为知识源内容爬取或更新而指定的一个或多个计划内。

阈值

控制检索到的文档与输入查询的匹配度,使用相关性分数(0 到 1)。例如,建议将阈值设置在 0.7–0.8 以获得高度相关的答案。阈值越高,匹配越精确,阈值越低,可能包含相关性较低的文档。

示例:
如果您将阈值设为 0.6,且有四篇文章相关性分数分别为 0.8、0.65、0.5 和 0.9,则只有高于 0.6 的(即 0.8、0.65 和 0.9)会被用于提取。


故障排查

如果聊天机器人给出的答案没有包含您确定已在文档或计划中的信息,请尝试在会话历史中勾选“详细”选项,以查看文档检索器是否被使用以及检索了哪些文档的详细日志。如有需要,请根据这些日志调整您的设置和提示词。

了解更多

跳过内容索引
跳过内容索引

跳过内容索引

通过 FlowHunt 的跳过索引功能提升您的 AI 聊天机器人的准确性。排除不适合的内容,确保互动相关且安全。使用 flowhunt-skip 类控制哪些内容被索引,提升机器人可靠性和性能。...

1 分钟阅读
AI Chatbot +4
文档检索器
文档检索器

文档检索器

FlowHunt 的文档检索器通过将生成式模型连接到您自己的最新文档和网址,提高了 AI 的准确性,确保使用检索增强生成(RAG)获得可靠且相关的答案。...

1 分钟阅读
AI Document Retrieval +3
URL检索器
URL检索器

URL检索器

通过URL检索器组件,在工作流中轻松获取和处理网页内容。高效提取并处理任意URL列表(包括网络文章、文档等)的文本和元数据。支持高级选项,如图像OCR、选择性元数据提取和可定制缓存,非常适合构建知识丰富的AI流程和自动化。...

1 分钟阅读
Automation Web Scraping +4