Trình truy xuất URL

Trình truy xuất URL

Trình truy xuất URL cho phép bạn lấy và xử lý nội dung từ các liên kết web, hỗ trợ OCR, trích xuất siêu dữ liệu và đầu ra linh hoạt để tăng sức mạnh cho các quy trình AI.

Mô tả thành phần

Cách thành phần Trình truy xuất URL hoạt động

Trình truy xuất URL là một thành phần đa năng trong luồng, được thiết kế để truy xuất và xử lý nội dung web từ các URL chỉ định, trả về thông tin dưới dạng tài liệu có cấu trúc. Nó đóng vai trò cầu nối giữa nội dung trực tuyến bên ngoài và quy trình AI của bạn, giúp bạn tích hợp, phân tích hoặc xử lý thông tin web một cách hiệu quả.

Nó Làm Gì?

Thành phần này truy xuất nội dung của một hoặc nhiều URL được cung cấp làm đầu vào. Nó có thể trích xuất văn bản chính, siêu dữ liệu, và thậm chí xử lý nội dung từ hình ảnh bằng Nhận diện Ký tự Quang học (OCR). Dữ liệu thu thập được sau đó sẽ có sẵn ở nhiều định dạng có cấu trúc, phù hợp cho các tác vụ AI tiếp theo như tóm tắt, trả lời câu hỏi, hoặc trích xuất tri thức.

Tùy Chọn Đầu Vào

Bạn có thể cung cấp URL cho thành phần này theo hai cách:

  • URL dạng văn bản:

    • Loại đầu vào: Message
    • Mô tả: Danh sách các liên kết URL đơn giản để thành phần truy xuất nội dung.
  • Bản ghi URL:

    • Loại đầu vào: UrlRecord
    • Mô tả: Danh sách các bản ghi URL có cấu trúc, có thể bao gồm thêm siêu dữ liệu.

Tham Số Đầu Vào Nâng Cao

Tham sốLoạiMặc địnhMô tả
Áp dụng OCRBooleanfalseNếu bật, sẽ sử dụng OCR để trích xuất văn bản từ hình ảnh trong tài liệu.
Cache TTLDropdown2 tuầnThời gian lưu trữ nội dung trong bộ nhớ đệm, tùy chọn từ không lưu cho đến 1 năm.
Từ H1 nếu cóBooleantrueBắt đầu trích xuất từ thẻ H1 nếu có, tập trung vào nội dung chính.
Tải từ vị trí phù hợpBooleantrueTải nội dung bắt đầu từ phần có liên quan nhất dựa trên truy vấn của bạn.
Ẩn tài nguyênBooleanfalseẨn các tài nguyên đã truy xuất khỏi đầu ra hoặc hiển thị.
Số lượng token tối đaInteger3000Đặt số lượng token tối đa cho văn bản đầu ra.
Bỏ qua tiêu đề cuốiBooleantrueBỏ qua tiêu đề cuối cùng trong quá trình trích xuất để nội dung mạch lạc hơn.
Chiến lượcDropdownBao gồm phần bằng nhau từ mỗi tài liệuXác định cách kết hợp nội dung: nối toàn bộ hoặc lấy phần bằng nhau từ mỗi tài liệu.
Xuất nội dungMulti-selectTất cảChọn các phần tử HTML nào để xuất (H1-H6, Đoạn văn).
Bao gồm siêu dữ liệuMulti-selectSản phẩmChỉ định các trường siêu dữ liệu cần đưa vào (ví dụ: Sản phẩm, Tác giả, Website, v.v.).
Chi tiếtBooleanfalseBật chế độ đầu ra chi tiết cho mục đích gỡ lỗi hoặc thông tin.
Tên công cụString(trống)Tùy chọn đặt tên riêng cho công cụ để tác tử tham chiếu.
Mô tả công cụMultiline(trống)Cung cấp mô tả giúp tác tử hiểu mục đích sử dụng công cụ.

Đầu Ra

Trình truy xuất URL cung cấp đầu ra dưới nhiều định dạng, giúp linh hoạt tích hợp với các quy trình AI khác nhau:

Tên đầu raLoạiMô tả
Tài liệuMessageNội dung đã xử lý từ các URL, sẵn sàng sử dụng cho các luồng công việc dạng tin nhắn.
Tài liệu thôDocumentĐối tượng tài liệu thô, chưa qua xử lý cho các tác vụ nâng cao phía sau.
Tài liệu dạng công cụToolNội dung được đóng gói dưới dạng công cụ, cho phép tác tử sử dụng các tài liệu này.

Tại Sao Nên Sử Dụng Trình truy xuất URL?

  • Tích hợp tri thức bên ngoài: Dễ dàng đưa thông tin web vào ứng dụng AI của bạn, như chatbot, công cụ tìm kiếm hoặc cơ sở tri thức.
  • Trích xuất tùy chỉnh: Tinh chỉnh nội dung, siêu dữ liệu cần lấy, kiểm soát lượng dữ liệu, và sử dụng OCR cho hình ảnh.
  • Hiệu suất & Tối ưu: Sử dụng bộ nhớ đệm để tránh tải lại không cần thiết, giới hạn token đầu ra để tăng hiệu suất.
  • Định dạng đầu ra linh hoạt: Chọn định dạng đầu ra phù hợp nhất cho bước tiếp theo—tài liệu có cấu trúc, tin nhắn hay công cụ.

Ví Dụ Ứng Dụng

  • Xây dựng tác tử hội thoại dựa trên tri thức có khả năng trả lời nhờ cập nhật nội dung web mới nhất.
  • Tổng hợp dữ liệu sản phẩm từ các trang thương mại điện tử để so sánh hoặc phân tích.
  • Giám sát và phân tích bài viết blog hoặc tin tức theo chủ đề hoặc từ khóa cụ thể.
  • Trích xuất thông tin từ các trang web có nội dung hỗn hợp (văn bản và hình ảnh).

Bảng Tóm Tắt

Tính năngMô tả
Truy xuất URLLấy và xử lý nội dung web từ các URL được cung cấp.
Hỗ trợ OCRTrích xuất văn bản từ hình ảnh trong tài liệu nếu bật.
Trích xuất siêu dữ liệuTùy chọn bao gồm siêu dữ liệu như tác giả, sản phẩm hoặc các loại schema.org.
Đầu ra tùy chỉnhChọn các phần tử HTML hoặc siêu dữ liệu cần xuất.
Bộ nhớ đệmThời gian lưu trữ bộ nhớ đệm có thể cấu hình để tối ưu hiệu suất.
Nhiều loại đầu raHỗ trợ đầu ra dạng tin nhắn, tài liệu thô, và công cụ cho sự linh hoạt trong luồng.

Trình truy xuất URL là cầu nối mạnh mẽ và linh hoạt giữa nội dung web và các quy trình AI của bạn, mang đến khả năng kiểm soát chi tiết việc trích xuất và tích hợp nội dung.

Các ví dụ về mẫu luồng sử dụng thành phần Trình truy xuất URL

Để giúp bạn bắt đầu nhanh chóng, chúng tôi đã chuẩn bị một số mẫu luồng ví dụ minh họa cách sờ dụng thành phần Trình truy xuất URL một cách hiệu quả. Những mẫu này giới thiệu các trường hợp sử dụng khác nhau và thực hành tốt nhất, giúp bạn dễ dàng hiểu và triển khai thành phần trong các dự án của riêng mình.

Trình Trích Xuất Bản Ghi Video
Trình Trích Xuất Bản Ghi Video

Trình Trích Xuất Bản Ghi Video

Tạo bản ghi từ video bằng cách trích xuất phụ đề từ các URL được cung cấp. Hữu ích để nhanh chóng thu được văn bản dễ đọc từ các video trực tuyến có phụ đề khôn...

3 phút đọc
Trình Tùy Chỉnh CV AI cho Đơn Ứng Tuyển Việc Làm
Trình Tùy Chỉnh CV AI cho Đơn Ứng Tuyển Việc Làm

Trình Tùy Chỉnh CV AI cho Đơn Ứng Tuyển Việc Làm

Quy trình làm việc sử dụng AI này giúp đơn giản hóa việc tùy chỉnh CV của người dùng sao cho phù hợp với một tin tuyển dụng cụ thể. Bằng cách phân tích cả CV gố...

5 phút đọc
Trợ Lý AI với Khả Năng Nhận Biết Lịch Google Calendar
Trợ Lý AI với Khả Năng Nhận Biết Lịch Google Calendar

Trợ Lý AI với Khả Năng Nhận Biết Lịch Google Calendar

Một trợ lý AI thông minh tích hợp với Google Calendar để giúp người dùng quản lý lịch trình của mình. Người dùng có thể tương tác qua trò chuyện để kiểm tra sự ...

5 phút đọc
Trợ Lý Nghiên Cứu AI Google Docs
Trợ Lý Nghiên Cứu AI Google Docs

Trợ Lý Nghiên Cứu AI Google Docs

Quy trình làm việc sử dụng AI này sẽ trích xuất thông tin cụ thể từ một Google Doc, sau đó mở rộng bằng cách nghiên cứu qua các nguồn như Google Search, Wikiped...

5 phút đọc
Trợ Lý Nghiên Cứu Chủ Đề Đang Thịnh Hành
Trợ Lý Nghiên Cứu Chủ Đề Đang Thịnh Hành

Trợ Lý Nghiên Cứu Chủ Đề Đang Thịnh Hành

Khám phá những gì mọi người đang bàn luận trực tuyến xung quanh từ khóa bạn chọn. Quy trình AI này nghiên cứu các chủ đề đang thịnh hành hoặc liên quan từ các c...

5 phút đọc
Tự Động Làm Giàu Dữ Liệu Lead Trong Google Sheets
Tự Động Làm Giàu Dữ Liệu Lead Trong Google Sheets

Tự Động Làm Giàu Dữ Liệu Lead Trong Google Sheets

Quy trình tự động dựa trên AI này làm giàu dữ liệu lead trong Google Sheets bằng cách tự động truy xuất hồ sơ LinkedIn, chức danh công việc và ngành nghề còn th...

6 phút đọc
Tự Động Tạo Khách Hàng Tiềm Năng Cấp Lãnh Đạo (C-Suite)
Tự Động Tạo Khách Hàng Tiềm Năng Cấp Lãnh Đạo (C-Suite)

Tự Động Tạo Khách Hàng Tiềm Năng Cấp Lãnh Đạo (C-Suite)

Quy trình làm việc tích hợp AI này tự động hóa việc tạo khách hàng tiềm năng outbound bằng cách xác định những doanh nghiệp hàng đầu trong một lĩnh vực và khu v...

5 phút đọc
Trước Tiếp

Câu hỏi thường gặp

Thành phần Trình truy xuất URL dùng để làm gì?

Trình truy xuất URL lấy và xử lý nội dung từ các liên kết web được chỉ định, giúp văn bản và siêu dữ liệu từ tài liệu trực tuyến sẵn sàng cho quy trình làm việc hoặc tác tử AI của bạn.

Thành phần này có thể trích xuất nội dung từ hình ảnh hoặc PDF không?

Có, bằng cách bật tùy chọn OCR, thành phần có thể trích xuất văn bản từ tài liệu dạng hình ảnh hoặc PDF được quét.

Nó cung cấp những loại đầu ra nào?

Nó xuất tài liệu đã xử lý dưới dạng tin nhắn văn bản, đối tượng tài liệu thô, hoặc như một công cụ cho quy trình tác tử, tùy theo thiết lập của bạn.

Bộ nhớ đệm trong Trình truy xuất URL hoạt động như thế nào?

Bạn có thể đặt thời gian lưu trữ nội dung đã truy xuất, giúp giảm tải việc tải lại và tăng tốc dòng chảy làm việc của bạn.

Tôi có thể kiểm soát phần nào của trang web sẽ được trích xuất không?

Có, bạn có thể chỉ định các tiêu đề, đoạn văn hoặc trường siêu dữ liệu nào sẽ đưa vào đầu ra, giúp trích xuất chính xác theo mục tiêu.

Có phù hợp để xây dựng bot tri thức hoặc tự động hóa dữ liệu web không?

Chắc chắn rồi. Trình truy xuất URL là thành phần thiết yếu cho mọi tự động hóa hoặc chatbot cần đọc, xử lý hoặc tóm tắt nội dung web trực tiếp.

Trải nghiệm FlowHunt URL Retriever

Tăng tốc quy trình làm việc của bạn bằng cách tích hợp nội dung web trực tiếp. Trích xuất, xử lý và sử dụng dữ liệu từ URL một cách dễ dàng.

Tìm hiểu thêm

Tóm tắt bất kỳ URL nào ngay lập tức
Tóm tắt bất kỳ URL nào ngay lập tức

Tóm tắt bất kỳ URL nào ngay lập tức

Nhanh chóng tạo bản tóm tắt ngắn gọn cho bất kỳ trang web nào chỉ bằng cách cung cấp URL. Quy trình làm việc được hỗ trợ bởi AI này sẽ lấy nội dung từ liên kết ...

3 phút đọc
Trình Truy Xuất Tệp
Trình Truy Xuất Tệp

Trình Truy Xuất Tệp

Thành phần Trình Truy Xuất Tệp trong FlowHunt cho phép bạn đưa các tệp vào quy trình làm việc và chuyển đổi chúng thành tài liệu để xử lý thêm. Nó hỗ trợ các ch...

4 phút đọc
Files Automation +3
Trình Đánh Giá Tần Suất Từ Khoá
Trình Đánh Giá Tần Suất Từ Khoá

Trình Đánh Giá Tần Suất Từ Khoá

Phân tích văn bản của bạn để khám phá các từ khoá xuất hiện thường xuyên và quan trọng nhất bằng cách sử dụng thành phần Trình Đánh Giá Tần Suất Từ Khoá trong F...

4 phút đọc
AI Text Processing +3