Chuyển Đổi Tài Liệu Thành Văn Bản

Chuyển Đổi Tài Liệu Thành Văn Bản

Chuyển đổi dữ liệu có cấu trúc thành văn bản markdown dễ đọc với thành phần Chuyển Đổi Tài Liệu Thành Văn Bản của FlowHunt, cung cấp các điều khiển tùy chỉnh cho đầu ra AI hiệu quả và phù hợp.

Mô tả thành phần

Cách thành phần Chuyển Đổi Tài Liệu Thành Văn Bản hoạt động

AI có thể phân tích một lượng lớn dữ liệu chỉ trong vài giây, nhưng chỉ một phần dữ liệu là phù hợp hoặc thích hợp để xuất ra. Thành phần Chuyển Đổi Tài Liệu Thành Văn Bản giúp bạn kiểm soát cách dữ liệu từ các bộ truy xuất được xử lý và chuyển đổi thành văn bản.

Thành phần Chuyển Đổi Tài Liệu Thành Văn Bản được thiết kế để chuyển đổi các tài liệu kiến thức đầu vào thành định dạng văn bản thuần túy. Điều này đặc biệt hữu ích trong các quy trình AI và xử lý dữ liệu, nơi dữ liệu dạng văn bản là cần thiết cho các bước xử lý tiếp theo, phân tích hoặc làm đầu vào cho các mô hình ngôn ngữ.

Thành phần này làm gì

Thành phần này nhận một hoặc nhiều tài liệu có cấu trúc (như HTML, Markdown, PDF hoặc các định dạng khác được hỗ trợ) và trích xuất nội dung văn bản. Bạn có thể chỉ định chính xác phần nào của tài liệu sẽ xuất ra, có bao gồm siêu dữ liệu hay không, và cách xử lý các phần hoặc tiêu đề của tài liệu. Đầu ra là một đối tượng tin nhắn hợp nhất chứa văn bản đã trích xuất, sẵn sàng cho các tác vụ tiếp theo như tóm tắt, phân loại hoặc trả lời câu hỏi.

Đầu vào

Thành phần chấp nhận một số đầu vào có thể cấu hình:

Tên Đầu VàoLoạiBắt BuộcMô TảGiá Trị Mặc Định
Tài LiệuList[Document]Các tài liệu kiến thức cần chuyển đổi thành văn bản.N/A (người dùng cung cấp)
Từ H1 nếu cóBooleanBắt đầu trích xuất từ tiêu đề H1 đầu tiên nếu có.true
Tải từ con trỏBooleanBắt đầu trích xuất từ con trỏ phù hợp nhất với truy vấn đầu vào, hoặc tải tất cả nếu không khớp.true
Số lượng Token Tối ĐaIntegerKhôngSố lượng token tối đa trong văn bản đầu ra.3000
Bỏ qua tiêu đề cuốiBooleanBỏ qua tiêu đề cuối cùng (thường là chân trang) để tối ưu hóa đầu ra.false
Chiến lượcStringChiến lược trích xuất văn bản: nối tài liệu hoặc chia đều từ mỗi tài liệu.“Bao gồm kích thước bằng nhau từ mỗi tài liệu”
Xuất nội dungMulti-selectKhôngLoại nội dung nào sẽ xuất ra (ví dụ: H1, H2, Đoạn văn).Chọn tất cả loại
Bao gồm Siêu dữ liệuMulti-selectKhôngTrường siêu dữ liệu sẽ bao gồm trong đầu ra nếu có.Product

Các loại nội dung khả dụng: H1, H2, H3, H4, H5, H6, Đoạn văn
Tùy chọn siêu dữ liệu: Tác giả, Sản phẩm, BreadcrumbList, VideoObject, BlogPosting, FAQPage, WebSite, opengraph

Đầu ra

Thành phần tạo ra đầu ra sau:

  • Tin nhắn: Một đối tượng tin nhắn chứa văn bản đã chuyển đổi và bất kỳ siêu dữ liệu nào được bao gồm.

Tính năng nổi bật & Lợi ích

  • Trích xuất nội dung linh hoạt: Kiểm soát chính xác phần nào của tài liệu được trích xuất (ví dụ: chỉ tiêu đề chính và đoạn văn, hoặc toàn bộ nội dung).
  • Bao gồm Siêu dữ liệu: Tùy chọn đưa vào siêu dữ liệu phong phú (ví dụ: tác giả, sản phẩm, hoặc dữ liệu có cấu trúc) trong đầu ra, hữu ích cho bước xử lý theo ngữ cảnh tiếp theo.
  • Quản lý giới hạn token: Hạn chế kích thước đầu ra để phù hợp với yêu cầu mô hình phía sau bằng cách thiết lập số lượng token tối đa.
  • Chiến lược trích xuất tùy chỉnh:
    • Nối tài liệu, điền từ đầu tiên cho đến khi đạt giới hạn token: Ưu tiên điền tuần tự từ tài liệu đầu tiên.
    • Bao gồm kích thước bằng nhau từ mỗi tài liệu: Cân bằng nội dung từ nhiều tài liệu trong phạm vi giới hạn token.
  • Xử lý phần thông minh: Tùy chọn bỏ qua chân trang của tài liệu hoặc bắt đầu từ phần liên quan nhất với truy vấn, tăng tính phù hợp của văn bản trích xuất.

Các trường hợp sử dụng điển hình

  • Tiền xử lý kho kiến thức cho các mô hình AI (ví dụ: trước khi nhúng hoặc lập chỉ mục).
  • Tóm tắt hoặc rút gọn tài liệu lớn bằng cách chỉ trích xuất các phần liên quan.
  • Cung cấp nội dung có cấu trúc cho chatbot, công cụ tìm kiếm hoặc các quy trình xử lý ngôn ngữ tự nhiên khác.
  • Xây dựng hệ thống truy xuất lai kết hợp văn bản với siêu dữ liệu để bổ sung ngữ cảnh phong phú hơn.

Bảng tóm tắt

Khả năngMô tả
Loại đầu vàoDanh sách Tài Liệu
Loại đầu raTin nhắn (Văn bản + Siêu dữ liệu)
Độ chi tiết nội dungChọn tiêu đề/đoạn văn cần xuất ra
Tùy chọn Siêu dữ liệuChọn nhiều trường siêu dữ liệu để xuất
Kiểm soát kích thước đầu raThiết lập số lượng token tối đa
Chiến lược trích xuấtNối hoặc chia đều giữa các tài liệu
Lựa chọn phầnBắt đầu từ H1, từ con trỏ, hoặc bỏ qua tiêu đề cuối

Chiến lược

Bot có thể thu thập nhiều tài liệu để tạo ra đầu ra văn bản. Thiết lập Chiến lược giúp bạn kiểm soát cách nó sử dụng các tài liệu này một cách thông minh trong phạm vi giới hạn token.

Hiện tại có hai chiến lược khả dụng:

  • Bao gồm kích thước bằng nhau từ mỗi tài liệu: Sử dụng tất cả các tài liệu tìm được một cách đồng đều.
  • Nối tài liệu, điền từ đầu tiên cho đến khi đạt giới hạn token: Liên kết các tài liệu lại với nhau, ưu tiên theo mức độ liên quan với truy vấn.

Cách kết nối thành phần Chuyển Đổi Tài Liệu Thành Văn Bản vào luồng của bạn

Đây là một thành phần transformer, nghĩa là nó kết nối giữa hai đầu ra. Chuyển Đổi Tài Liệu Thành Văn Bản nhận Tài Liệu được xuất ra từ các thành phần Bộ Truy Xuất:

  • Bộ Truy Xuất Tài Liệu – lấy kiến thức từ các nguồn kiến thức đã kết nối (trang, tài liệu, v.v.).
  • Bộ Truy Xuất URL – Cho phép bạn chỉ định một URL để bot lấy kiến thức.
  • GoogleSearch – Mang đến cho bot khả năng tìm kiếm kiến thức trên web.

Kiến thức sẽ được chuyển đổi thành văn bản Markdown dễ đọc khi đi qua transformer. Văn bản này sau đó có thể kết nối với các thành phần cần đầu vào dạng văn bản, như splitter, widget hoặc đầu ra.

Dưới đây là ví dụ về luồng sử dụng thành phần Chuyển Đổi Tài Liệu Thành Văn Bản để kết nối giữa Bộ Truy Xuất Tài Liệu và AI Generator:

Example of how to use Document Retriever in Flowhunt

Câu hỏi thường gặp

Thành phần Chuyển Đổi Tài Liệu Thành Văn Bản là gì?

Thành phần này lấy kiến thức từ các thành phần kiểu bộ truy xuất và chuyển đổi chúng thành văn bản markdown dễ đọc, sau đó có thể kết nối với bất kỳ thành phần nào nhận văn bản làm đầu vào.

Trải nghiệm Chuyển Đổi Tài Liệu Thành Văn Bản trên FlowHunt

Bắt đầu xây dựng các giải pháp AI thông minh hơn với thành phần Chuyển Đổi Tài Liệu Thành Văn Bản của FlowHunt. Dễ dàng chuyển đổi dữ liệu thành văn bản có thể hành động và nâng cao quy trình tự động hóa của bạn.

Tìm hiểu thêm

Phân Tích Dữ Liệu
Phân Tích Dữ Liệu

Phân Tích Dữ Liệu

Thành phần Phân Tích Dữ Liệu chuyển đổi dữ liệu có cấu trúc thành văn bản thuần túy bằng cách sử dụng các mẫu tùy chỉnh. Nó cho phép định dạng linh hoạt và chuy...

3 phút đọc
Data Processing Automation +3
Xuất ra Tệp
Xuất ra Tệp

Xuất ra Tệp

Thành phần Xuất ra Tệp trong FlowHunt cho phép bạn lưu văn bản hoặc dữ liệu được tạo trong quy trình làm việc của mình vào các tệp có thể tải về với nhiều định ...

3 phút đọc
Automation File Export +3
Trình tạo Đầu ra Có cấu trúc
Trình tạo Đầu ra Có cấu trúc

Trình tạo Đầu ra Có cấu trúc

Thành phần Trình tạo Đầu ra Có cấu trúc cho phép bạn tạo ra dữ liệu có cấu trúc chính xác từ bất kỳ lời nhắc đầu vào nào bằng mô hình LLM bạn chọn. Định nghĩa c...

4 phút đọc
AI Automation +4