URL检索器

URL检索器

URL检索器可从网页链接提取和处理内容,支持OCR、元数据提取和灵活输出,为AI工作流赋能。

组件描述

URL检索器组件的工作原理

URL检索器 是一个多功能流程组件,可从指定URL抓取并处理网页内容,并以结构化文档的形式返回信息。它充当外部在线内容与您的AI工作流之间的桥梁,使您能够高效集成、分析或处理基于网页的信息。

它能做什么?

该组件可检索输入的一或多个URL的内容。它能提取主要文本、元数据,甚至能利用光学字符识别(OCR)处理图片内容。检索到的数据会以多种结构化格式提供,适用于诸如摘要、问答或知识提取等下游AI任务。

输入选项

您可以通过以下两种方式为组件提供URL:

  • 文本URL

    • 输入类型:Message
    • 说明:要抓取内容的纯URL链接列表。
  • URL记录

    • 输入类型:UrlRecord
    • 说明:结构化URL记录列表,可包含附加元数据。

高级输入参数

参数类型默认值说明
启用OCRBooleanfalse启用后,将对文档中的图片应用OCR以提取文本。
缓存时长Dropdown2周内容缓存时间,可选无缓存至1年。
从H1标签提取Booleantrue如有H1标签,则从H1标签开始提取,聚焦主要内容。
按需加载内容Booleantrue根据您的查询,从最相关部分开始加载内容。
隐藏资源Booleanfalse隐藏检索到的资源,不输出或显示。
最多输出Token数Integer3000设置输出文本的最大token数量。
跳过最后一级标题Booleantrue提取时跳过最后一级标题,使内容更简洁。
内容合并策略Dropdown每个文档等量包含决定内容合并方式:全部拼接或每个文档等量包含。
导出内容元素Multi-select全部选择要导出的HTML元素(H1-H6,段落等)。
包含元数据Multi-select产品指定要包含哪些元数据字段(如产品、作者、网站等)。
详细输出Booleanfalse启用后输出详细信息,便于调试或分析。
工具名称String(空)可选,为工具分配自定义名称供代理引用。
工具描述Multiline(空)提供描述,帮助代理理解本工具用途。

输出

URL检索器提供多种输出格式,便于灵活集成到不同AI流程中:

输出名称类型说明
文档MessageURL中的处理内容,适用于消息型工作流。
原始文档Document原始未处理的文档对象,适合后续高级处理。
工具化文档Tool将内容封装为工具,支持代理型工作流利用文档。

为什么要用URL检索器?

  • 集成外部知识: 轻松将网页信息引入AI应用,如聊天机器人、搜索引擎或知识库。
  • 可定制提取: 精细控制要提取的内容和元数据,限定数据量,对图片可用OCR。
  • 高效性能: 通过缓存避免重复下载,限制输出token提升性能。
  • 灵活输出格式: 可选择最适合下游流程的输出格式——结构化文档、消息或工具。

应用示例

  • 构建基于最新网页内容回答问题的知识型对话代理。
  • 聚合电商网站产品数据,用于对比或分析。
  • 按特定主题或关键词监控、分析博客或新闻文章。
  • 从包含图文混合的网页中提取信息。

总结表

功能说明
URL抓取从输入URL检索并处理网页内容。
支持OCR如启用可从文档图片中提取文本。
元数据提取可选提取作者、产品或schema.org等元数据信息。
可定制输出选择导出哪些HTML元素或元数据。
缓存可配置缓存时长以提升效率。
多种输出类型支持消息、原始文档及工具输出,以适应不同工作流需求。

URL检索器 是连接网页内容与AI工作流的强大灵活桥梁,让内容提取与集成更加细致可控。

使用URL检索器组件的流程模板示例

为了帮助您快速上手,我们准备了几个示例流程模板,展示如何有效使用URL检索器组件。这些模板展示了不同的用例和最佳实践,让您更容易理解并在自己的项目中实现该组件。

实时领域专属RAG聊天机器人
实时领域专属RAG聊天机器人

实时领域专属RAG聊天机器人

一个实时聊天机器人,使用仅限于您自有域名的Google搜索,检索相关的网页内容,并利用OpenAI LLM为用户提供最新的信息答案。非常适合在客户支持或信息门户中提供准确、特定领域的响应。...

1 分钟阅读
视频转录提取器
视频转录提取器

视频转录提取器

通过提取所提供网址中的字幕,从视频中生成转录文本。适用于快速获取带有非自动生成字幕的在线视频的可读文本。

1 分钟阅读
搜索意图分类器与落地页生成器
搜索意图分类器与落地页生成器

搜索意图分类器与落地页生成器

此AI驱动的工作流可根据意图对搜索查询进行分类,研究排名靠前的URL,并为PPC和SEO活动生成高度优化的落地页。非常适合希望通过将落地内容与真实搜索意图相匹配,以最大化Google广告转化率的营销人员。...

1 分钟阅读
网站可读性分析器
网站可读性分析器

网站可读性分析器

通过输入网址,分析任何网站的可读性。此工作流会从提供的网址中获取内容,并使用多种指标评估其可读性,提供关于文本复杂度和可访问性的清晰分级。非常适合写作者、教育工作者、市场人员以及任何希望提升网页内容清晰度的人士。...

1 分钟阅读
网站与视频结论生成器
网站与视频结论生成器

网站与视频结论生成器

使用AI从网站、上传的文档或YouTube视频中生成简明扼要的结论。非常适合快速总结关键信息,并为各种内容来源创建文章结尾。...

1 分钟阅读
在 Google 表格中自动化线索数据丰富
在 Google 表格中自动化线索数据丰富

在 Google 表格中自动化线索数据丰富

此 AI 驱动的工作流通过搜索和 AI 智能体自动从网络检索缺失的 LinkedIn 个人资料、职位和行业信息,丰富 Google 表格中的线索数据。它会用丰富后的信息更新表格,简化销售和市场团队的数据丰富流程。...

2 分钟阅读
自动化C级高管线索生成
自动化C级高管线索生成

自动化C级高管线索生成

此AI驱动的工作流通过识别特定细分领域和地区的顶级企业,深入研究公司资料,查找C级高管,并获取其直接联系信息,实现外呼线索生成的自动化。...

1 分钟阅读
自动化从 Google Sheets 获取 LinkedIn、职位和行业数据补全
自动化从 Google Sheets 获取 LinkedIn、职位和行业数据补全

自动化从 Google Sheets 获取 LinkedIn、职位和行业数据补全

此工作流可自动通过查找 LinkedIn 个人资料、提取职位和行业信息,并使用 AI 代理和 Google 搜索更新表格,来丰富 Google Sheets 联系人数据。它简化了大规模为销售或市场营销潜在客户名单研究和补充缺失信息的流程。...

2 分钟阅读
上一页 下一页

常见问题

URL检索器组件的功能是什么?

URL检索器可从指定网页链接获取并处理内容,使在线文档的文本和元数据可用于您的工作流或AI代理。

它可以从图片或PDF中提取内容吗?

可以,启用OCR选项后,该组件可以从基于图片的文档或扫描PDF中提取文本。

它提供哪些类型的输出?

它可以将处理后的文档输出为文本消息、原始文档对象,或作为工具用于代理工作流,具体取决于您的设置。

URL检索器中的缓存如何工作?

您可以设置检索内容的缓存时长,从而减少重复下载并加快流程速度。

我可以控制网页的哪些部分被提取吗?

可以,您可以指定要在输出中包含哪些标题、段落或元数据字段,实现有针对性的提取。

该组件适合构建知识机器人或网页数据自动化吗?

当然。URL检索器是任何需要读取、处理或摘要实时网页内容的自动化或聊天机器人的关键组件。

试用 FlowHunt URL 检索器

通过集成实时网页内容,为您的工作流提速。轻松提取、处理并利用URL数据。

了解更多

XML文档搜索
XML文档搜索

XML文档搜索

使用FlowHunt的XML文档搜索组件高效地探索和查询XML文件。该工具支持在XML文档中进行灵活搜索,无论是普通文本还是高级查询表达式。非常适合需要从XML源进行结构化数据提取或自动化的工作流,并支持缓存和结果数量限制选项。...

1 分钟阅读
Data XML +3
文件检索器
文件检索器

文件检索器

FlowHunt 的文件检索器组件让您可以将文件引入工作流,并将其转换为可进一步处理的文档。它支持多文档处理策略,并可对文件中的图像使用 OCR,非常适合从各种文件类型中提取和转换信息。...

1 分钟阅读
Files Automation +3
搜索记忆
搜索记忆

搜索记忆

借助搜索记忆组件释放您的工作流潜能——通过用户查询从存储的记忆中检索相关信息。高效搜索、筛选并提取文档或知识片段,使您的AI流程能够访问具备上下文的资源和长期数据。...

1 分钟阅读
AI Memory +4