Cách cấu hình Bộ truy xuất Tài liệu

Cách cấu hình Bộ truy xuất Tài liệu

Tìm hiểu cách thiết lập các tham số ‘Từ H1 nếu tồn tại’, ‘Tải từ con trỏ’ và ‘Bỏ qua tiêu đề cuối cùng’.

Thành phần Bộ truy xuất Tài liệu cho phép chatbot truy xuất tri thức từ các nguồn bạn đã chỉ định trong Tài liệu và Lịch biểu. Vai trò của thành phần này là kiểm soát quá trình truy xuất và nhiều tham số ảnh hưởng đến cách thành phần này lấy thông tin từ các tài liệu đó.

Flowhunt version history

Từ H1 nếu tồn tại – Bắt đầu trích xuất tại tiêu đề chính

Tùy chọn Từ H1 nếu tồn tại yêu cầu bộ truy xuất bắt đầu trích xuất nội dung từ tiêu đề H1 mà nó tìm thấy (thường là tiêu đề chính của bài viết).

Điều gì xảy ra?

  • Nếu được chọn: Mọi thứ trước H1 đầu tiên (như điều hướng, breadcrumbs hoặc liên kết đăng nhập) sẽ bị bỏ qua. Việc trích xuất bắt đầu tại nội dung chính của bài viết.
  • Nếu không chọn: Việc trích xuất nội dung bắt đầu từ đầu trang, bao gồm tất cả điều hướng, tiêu đề và bất kỳ siêu dữ liệu nào phía trên bài viết chính.

Tình huống sử dụng ví dụ:
Bạn muốn chỉ lấy phần hướng dẫn thực tế, không lấy các phần điều hướng trang web hoặc tiêu đề trang gây rối mắt trên website của mình.

Lưu ý:
Từ H1 nếu tồn tại được bật mặc định trong thành phần Bộ truy xuất Tài liệu.

Tải từ con trỏ – Trích xuất bắt đầu từ một dấu hiệu cụ thể

Tùy chọn Tải từ con trỏ giúp bạn chính xác hơn bằng cách cho phép Bộ truy xuất Tài liệu chỉ tải dữ liệu từ một con trỏ trong bài viết (có thể rất dài).

Điều gì xảy ra?

  • Nếu được chọn (và đã thiết lập con trỏ): Việc trích xuất bắt đầu tại con trỏ đã chỉ định, bỏ qua mọi thứ trước đó, ngay cả khi nó nằm sau H1.
  • Nếu không chọn: Việc trích xuất bắt đầu từ vị trí mặc định (đầu tài liệu, hoặc từ H1 đầu tiên nếu tùy chọn này cũng được chọn).

“Con trỏ” là gì?
Con trỏ thường là một chuỗi hoặc tiêu đề duy nhất xuất hiện trong tài liệu (ví dụ, một H2 hoặc một cụm từ/tiêu đề phần cụ thể).

Tình huống sử dụng ví dụ:
Bạn muốn bỏ qua các phần giới thiệu và chỉ lấy thông tin cho một phần liên quan cụ thể của một bài viết hoặc tài liệu dài (ví dụ, từ “Bước 4: Thêm nút chat trực tiếp” trong một hướng dẫn cài đặt).

Tùy chọn Bỏ qua tiêu đề cuối cùng hữu ích để bỏ qua tiêu đề cuối cùng trong tài liệu, vốn thường được lặp lại hoặc dùng cho điều hướng hay footer.

Điều gì xảy ra?

  • Nếu được chọn: Tiêu đề cuối cùng (ví dụ, tiêu đề bài viết lặp lại hoặc phần “Bài viết khác”) sẽ bị bỏ qua khi trích xuất.
  • Nếu không chọn: Tất cả tiêu đề, kể cả tiêu đề cuối cùng, sẽ được đưa vào kết quả.

Tình huống sử dụng ví dụ:
Bạn muốn tránh Bộ truy xuất Tài liệu tải tiêu đề điều hướng ở phần chân trang (như “Bài viết khác” ở cuối trang trợ giúp), đảm bảo chỉ xử lý nội dung chính.

Lưu ý:
Bỏ qua tiêu đề cuối cùng có thể giúp với các tài liệu tự động tạo phần chân trang hoặc phần điều hướng lặp lại. Tuy nhiên, nếu tài liệu của bạn không có các phần này, sử dụng tham số này có thể khiến phần bài viết chứa thông tin hợp lệ không được truy xuất. Vì vậy, bạn nên để tùy chọn này ở trạng thái chưa chọn cho đến khi có lý do chính đáng để bật nó.

Số lượng tokens tối đa – Kiểm soát độ dài kết quả tối đa

Tham số Số lượng tokens tối đa cho phép bạn kiểm soát số lượng tokens tối đa (từ và dấu câu, theo cách đếm của mô hình AI nền tảng) mà Bộ truy xuất Tài liệu sẽ xuất ra từ văn bản đã trích xuất.

Điều gì xảy ra?

  • Nội dung được trích xuất sẽ bị giới hạn trong số tokens bạn chỉ định. Bất kỳ phần nội dung nào vượt quá giới hạn này sẽ bị cắt bỏ và không xuất ra.
  • Tham số này giúp xử lý các tài liệu rất dài, đảm bảo kết quả nằm trong giới hạn xử lý của các mô hình AI.

Giá trị mặc định:
Giá trị mặc định thường là 3000 tokens, nhưng bạn có thể điều chỉnh nếu cần.

Tình huống sử dụng ví dụ:
Nếu bạn đang xử lý các tài liệu dài, đặt giá trị Số lượng tokens tối đa thấp sẽ giúp câu trả lời ngắn gọn. Tuy nhiên, để có kết quả tốt nhất, hãy cân nhắc bật tham số “Tải từ con trỏ”. Điều này đảm bảo văn bản trích xuất bắt đầu từ phần liên quan nhất của tài liệu, thay vì từ đầu, cho phép bạn nhận được một phần thông tin tập trung và dễ quản lý trong giới hạn tokens bạn đặt ra. Cách kết hợp này đặc biệt hữu ích khi bạn muốn kết quả ngắn gọn, phù hợp ngữ cảnh từ các nguồn lớn.

Lưu ý:
Nếu bạn thấy thông tin bị cắt, hãy thử tăng giá trị Số lượng tokens tối đa. Ngược lại, nếu muốn kết quả ngắn gọn, tập trung hơn, hãy giảm tham số này.

Chiến lược – Kiểm soát cách nhiều tài liệu được chuyển thành văn bản

Khi Bộ truy xuất Tài liệu tìm thấy nhiều tài liệu liên quan, tham số Chiến lược quyết định cách chúng được gộp lại thành một kết quả văn bản cho chatbot của bạn, đồng thời tính đến giới hạn “Số lượng tokens tối đa”.

Hai tùy chọn chiến lược:

  1. Bao gồm kích thước bằng nhau từ mỗi tài liệu:
    Giới hạn tokens sẽ được chia đều. Ví dụ, với ba tài liệu và giới hạn 3.000 tokens, mỗi tài liệu được tối đa 1.000 tokens. Điều này đảm bảo mọi nguồn đều đóng góp như nhau, hữu ích khi bạn muốn câu trả lời cân bằng từ nhiều tài liệu.

    • Sử dụng khi: Bạn có tài liệu mà các khía cạnh của chủ đề nằm rải rác ở nhiều tài liệu khác nhau và cần tổng hợp từ nhiều nguồn để có câu trả lời đầy đủ. Cách này phù hợp khi không có tài liệu nào chứa trọn vẹn thông tin cần thiết và bạn muốn đảm bảo dữ liệu từ mỗi tài liệu liên quan đều xuất hiện trong câu trả lời, nhằm cung cấp góc nhìn đa dạng hoặc toàn diện.
  2. Nối tài liệu, lấy từ tài liệu đầu tiên cho đến khi hết tokens:
    Các tài liệu sẽ được thêm lần lượt theo mức độ liên quan cho đến khi hết giới hạn tokens. Tài liệu liên quan nhất đi đầu; nếu còn chỗ, các tài liệu ít liên quan hơn sẽ được thêm tiếp. Nếu tài liệu đầu tiên dài, nó có thể chiếm hết giới hạn tokens.

    • Sử dụng khi: Bạn có tài liệu chứa thông tin chi tiết về từng chủ đề trong một tài liệu đơn lẻ và việc trả lời câu hỏi nên khai thác tối đa tài liệu này, thay vì kết hợp thông tin từ nhiều tài liệu có thể cùng chủ đề.

Chọn thế nào?

  • Sử dụng Bao gồm kích thước bằng nhau từ mỗi tài liệu nếu bạn muốn đại diện cân bằng từ tất cả các nguồn.
  • Sử dụng Nối tài liệu, lấy từ tài liệu đầu tiên cho đến khi hết tokens nếu bạn muốn ưu tiên các tài liệu liên quan nhất và không quá quan tâm đến việc lấy hết mọi nguồn.

Lưu ý:
Các chiến lược này chỉ ảnh hưởng đến cách văn bản được tạo ra từ các tài liệu đã truy xuất trước khi chuyển sang bước tiếp theo (như sinh văn bản AI). Chúng không thay đổi tài liệu nào được truy xuất—chỉ quyết định cách nội dung của chúng được hợp nhất và cắt tỉa để phù hợp với cài đặt Số lượng tokens tối đa.

Các tham số khác của Bộ truy xuất Tài liệu

Bên cạnh các tham số ‘Từ H1 nếu tồn tại’, ‘Tải từ con trỏ’, ‘Bỏ qua tiêu đề cuối cùng’ và ‘Số lượng tokens tối đa’, Bộ truy xuất Tài liệu còn cung cấp các tham số khác giúp kiểm soát việc chọn lọc và truy xuất tài liệu:

Số lượng tài liệu

Thiết lập này giới hạn số lượng tài liệu mà quy trình nên truy xuất, đảm bảo kết quả phù hợp và câu trả lời được tạo nhanh chóng.

Danh mục tài liệu

Thiết lập tùy chọn này cho phép bạn giới hạn việc truy xuất chỉ các danh mục mà bạn đã tạo trong phần Tài liệu của Nguồn tri thức.

Ẩn tài nguyên

Tùy chọn này cho phép bạn đưa vào hoặc ẩn một phần riêng, đứng trước câu trả lời thực tế của chatbot, với danh sách các tài nguyên đã được truy xuất. Đối với tích hợp với LiveAgent, bắt buộc phải chọn, vì phần này không được hỗ trợ và sẽ không hiển thị đúng trong widget chatbot của LiveAgent.

Lịch biểu

Cho phép bạn giới hạn việc truy xuất chỉ các Lịch biểu mà bạn đã chỉ định để thu thập hoặc cập nhật nội dung trong Nguồn tri thức.

Ngưỡng

Kiểm soát mức độ phù hợp của các tài liệu truy xuất với truy vấn đầu vào, sử dụng điểm số mức độ liên quan (từ 0 đến 1). Ví dụ, ngưỡng 0.7–0.8 được khuyến nghị để có câu trả lời chính xác. Ngưỡng cao sẽ cho kết quả phù hợp hơn, còn ngưỡng thấp có thể bao gồm các tài liệu kém liên quan.

Ví dụ:
Nếu bạn đặt ngưỡng là 0.6 và có bốn bài viết với điểm số lần lượt là 0.8, 0.65, 0.5 và 0.9, chỉ các bài trên 0.6 (tức 0.8, 0.65 và 0.9) sẽ được sử dụng để trích xuất.


Khắc phục sự cố

Nếu câu trả lời của chatbot không chứa thông tin mà bạn chắc chắn chatbot đã có trong tài liệu hoặc lịch biểu, hãy thử kiểm tra lịch sử hội thoại với tùy chọn “Chi tiết” để xem nhật ký về việc Bộ truy xuất Tài liệu đã được sử dụng và tài liệu nào đã được truy xuất. Nếu cần, hãy điều chỉnh thiết lập và câu nhắc dựa trên các nhật ký này.

Tìm hiểu thêm

Trình Truy Xuất Tệp
Trình Truy Xuất Tệp

Trình Truy Xuất Tệp

Thành phần Trình Truy Xuất Tệp trong FlowHunt cho phép bạn đưa các tệp vào quy trình làm việc và chuyển đổi chúng thành tài liệu để xử lý thêm. Nó hỗ trợ các ch...

4 phút đọc
Files Automation +3
Trình Đánh Giá Tần Suất Từ Khoá
Trình Đánh Giá Tần Suất Từ Khoá

Trình Đánh Giá Tần Suất Từ Khoá

Phân tích văn bản của bạn để khám phá các từ khoá xuất hiện thường xuyên và quan trọng nhất bằng cách sử dụng thành phần Trình Đánh Giá Tần Suất Từ Khoá trong F...

4 phút đọc
AI Text Processing +3
Trình Tìm kiếm Tài liệu
Trình Tìm kiếm Tài liệu

Trình Tìm kiếm Tài liệu

Trình Tìm kiếm Tài liệu của FlowHunt nâng cao độ chính xác của AI bằng cách kết nối các mô hình tạo sinh với tài liệu và URL cập nhật của riêng bạn, đảm bảo câu...

6 phút đọc
AI Document Retrieval +3