Sitemap 到 llms.txt AI 转换器

使用 AI 将任意 sitemap.xml 转换为结构良好的 llms.txt 格式。此工作流从 sitemap 中获取 URL,提取和处理其内容,并利用 AI 智能体生成适合 AI 训练或知识摄取的优化 llms.txt 文件。

Thumbnail for Video
AI流程的工作原理 - Sitemap 到 llms.txt AI 转换器

流程

AI流程的工作原理

显示欢迎信息.
当聊天窗口打开时,展示欢迎或指引信息以引导用户。
用户输入 Sitemap URL.
用户通过聊天界面提交 sitemap.xml 的 URL。
提取 URL 及内容.
从提供的 sitemap 获取所有 URL,并提取其网页内容。
AI 智能体转换内容.
AI 智能体分析提取到的内容,判定重要性,并将其结构化为 llms.txt 格式。
输出生成的 llms.txt.
将生成的 llms.txt 文件展示给用户,可以下载或进一步使用。

此流程中使用的提示

以下是此流程中用于实现其功能的所有提示的完整列表。提示是给予AI模型的指令,用于生成响应或执行操作。它们指导AI理解用户意图并生成相关输出。

AI 智能体

AI 智能体根据详细的提示词和示例,将 sitemap.xml 格式化为 llms.txt,输入为网页内容。自定义提示词见 'goal' 字段。

                You are an AI assistant that formats sitemap.xml into llms.txt .
Below is the full text content of a webpage, including the page title and body.
Your task:
- Identify the title (either from the first line or a heading).
- convert the content of the xml sitemap into an llms.txt SIMILAR TO THE EXAMPLE GIVEN BELOW.
-YOU CAN DECIDE WHICH PAGES ARE MORE IMPORTANT AND PUT THEM AT THE START AND OTHER THINGS LIKE CATEGORIES AND TAGS CAN COME AND THE VERY END.
this is an example from langfuse:

**example of llms.txt**

**YOUR OUTPUT SHOULD LOOK AND HAVE A VERY SIMILAR FORMAT TO SOMETHING LIKE THE EXAMPLE ABOVE.**

            

此流程中使用的组件

以下是此流程中用于实现其功能的所有组件的完整列表。组件是每个AI流程的构建块。它们允许您通过连接各种功能来创建复杂的交互并自动化任务。每个组件都有特定的用途,例如处理用户输入、处理数据或与外部服务集成。

聊天开启触发器

聊天开启触发器组件能够检测聊天会话的开始,一旦用户打开聊天窗口,即刻触发工作流响应。它以用户的首条消息启动流程,是构建高响应、互动型聊天机器人的关键组件。

消息小部件

消息小部件组件可在您的工作流中显示自定义消息。非常适合欢迎用户、提供操作说明或显示任何重要信息,支持 Markdown 格式,并可设置为每个会话仅显示一次。

聊天输出

了解 FlowHunt 中的 Chat Output(聊天输出)组件——通过灵活的多部分输出完善聊天机器人回复。是实现流程顺畅结束和打造高级互动式 AI 聊天机器人的关键工具。

聊天输入

FlowHunt 中的聊天输入组件通过在 Playground 捕获消息来启动用户交互。它作为流程的起点,使工作流能够处理文本和基于文件的输入。

URL检索器

通过URL检索器组件,在工作流中轻松获取和处理网页内容。高效提取并处理任意URL列表(包括网络文章、文档等)的文本和元数据。支持高级选项,如图像OCR、选择性元数据提取和可定制缓存,非常适合构建知识丰富的AI流程和自动化。

AI代理

FlowHunt中的AI代理组件为您的工作流赋予自主决策和工具使用能力。它利用大型语言模型并连接各种工具以解决任务、实现目标并提供智能响应。非常适合构建高级自动化和互动式AI解决方案。

GoogleSearch 组件

FlowHunt 的 GoogleSearch 组件通过使用检索增强生成(RAG),从 Google 获取最新知识,提升聊天机器人的准确性。可通过设置语言、国家和查询前缀等选项精准控制搜索结果,确保输出内容的相关性和精确性。

流程描述

目的和优势

此工作流自动化地将网站的 sitemap.xml 转换为结构化且适合 AI 的 llms.txt 格式。该流程利用 AI 智能体和内容提取工具,简化了为大型语言模型(LLMs)和其他 AI 应用准备网站内容的流程。以下是步骤和组件的详细分解。


1. 用户体验与入口

  • 聊天开启时欢迎信息
    当用户打开聊天窗口时,消息组件会显示友好的提示信息:

    🗂️ 请在下方粘贴您的 sitemap.xml URL!
    我会将其转换为干净的 llms.txt 格式,非常适合用于 AI 模型训练 🤖📄

    这为用户设定了明确预期,并引导其输入正确内容。


2. 用户输入处理

  • 聊天输入节点
    用户将 sitemap.xml 文件的 URL 粘贴到聊天界面中。
  • 触发流程
    输入的 URL 会自动传递到下一个处理步骤。

3. 提取和处理 Sitemap URL

  • URL 提取器(主要)
    工作流使用 URL 内容提取节点来:

    • 从提供的 sitemap.xml URL 获取内容。
    • 应用提取策略(如从标题、段落中提取)。
    • 缓存结果以提高效率。
    • 通过 token 和标题策略限制内容(如从 H1 开始,跳过最后一个标题)。
    • 可选处理元数据(如产品数据)。
  • 高级设置

    • 每个文档最多处理 300,000 个 token。
    • 可包含各种 HTML 元素(H1–H6、段落)内容。
    • 支持严格白名单、缓存(2 周)和加载策略。
    • 可集成 OCR 识别图片内容(默认关闭)。

4. 外部知识补充

  • Google 搜索工具
    AI 智能体配备 Google 搜索工具,能够:

    • 搜索额外上下文或相关文档(如有需要)。
    • 限制结果数量(默认:3),可指定国家/语言。
    • 使用缓存结果提升效率。
  • 二级 URL 提取器
    可配置额外提取节点,从 Google 搜索获得的 URL 中抓取内容,进一步丰富 AI 智能体的知识库(如有需要)。


5. AI 智能体内容转换

  • AI 智能体节点
    工作流核心为 AI 智能体,配置如下:
    • 目标:
      按提供的示例将 sitemap.xml 内容转为结构良好的 llms.txt
    • 背景与角色:
      智能体定位为生成 llms.txt 文件的专家。
    • 工具:
      同时利用 Google 搜索和 URL 提取工具获取网站及网页内容。
    • 操作流程:
      智能体会:
      • 读取所有已获取页面内容。
      • 识别标题和结构。
      • 决定最重要的页面优先列出。
      • 将次要页面(如分类、标签)放在末尾。
      • 严格遵循格式,确保输出符合 LLM 数据摄取的 llms.txt 要求。

6. 输出与用户反馈

  • 聊天输出节点
    AI 智能体格式化后的输出(即 llms.txt 内容)会在聊天中展示给用户,可直接用于 AI 训练或数据摄取。

工作流结构(流程总览)

步骤组件目的
1聊天开启触发展示欢迎/指引信息
2消息组件指导用户输入 sitemap.xml URL
3聊天输入接收用户提交的 sitemap.xml URL
4URL 提取器抓取并解析 sitemap 中的 URL 和内容
5Google 搜索工具(可选)为页面查找额外上下文
6URL 提取器(Google)(可选)抓取 Google 搜索到的 URL 内容
7AI 智能体将全部页面内容转换为格式化的 llms.txt
8聊天输出向用户展示格式化的 llms.txt

此工作流的优势是什么?

  • 可扩展性:
    自动化繁琐的手工流程,让你无需技术背景即可将任意网站 sitemap 转为 LLM 可用格式。

  • 高质量与一致性:
    确保输出严格符合格式要求,提高 AI 训练数据的质量。

  • 可拓展性:
    可自定义集成更多知识源或应用更高级的提取逻辑。

  • 高效性:
    集成缓存和 token 限制,即使是大型网站亦可快速可靠处理。

  • AI 驱动的智能决策:
    智能体可智能排序重要页面并结构化输出,避免人工整理的繁琐和出错。


应用示例

  • 将整个网站整理为单一结构化文档,便于 AI 数据摄取。
  • 自动化知识库或文档系统的内容整理。
  • 批量生成高质量数据集,用于 LLM 领域微调训练。

此工作流让你能够轻松、快速且可靠地将网站 sitemap 转换为 AI 优化的文本文件,节省大量人工操作时间,确保 AI 模型获得高质量、结构化的输入。

让我们为您构建专属的AI团队

我们帮助像您这样的公司开发智能聊天机器人、MCP服务器、AI工具或其他类型的AI自动化,以在您的组织中替代人工处理重复性任务。