Bỏ qua nội dung khi lập chỉ mục

Bỏ qua nội dung khi lập chỉ mục

AI Chatbot Indexing Semantic Search

Dù mạnh mẽ đến đâu, AI vẫn chỉ là một cỗ máy truyền đạt lại thông tin mà nó học được. Nó không hiểu các câu nói đùa, giả định, hay mỉa mai – những điều thường gây ra các câu trả lời dở khóc dở cười (và đôi khi gây hại nghiêm trọng). Để đảm bảo Chatbot của bạn không gây ra một vụ bê bối AI mới và giúp nó hiểu nội dung của bạn tốt hơn, bạn có thể cho nó biết nên bỏ qua phần nội dung nào.

Cách để đảm bảo độ tin cậy của AI là kiểm soát thông tin mà nó học hỏi. Không phải tất cả nội dung của bạn đều phù hợp cho Chatbot sử dụng. Class flowhunt-skip cho phép bạn đánh dấu những nội dung mà FlowHunt không nên lập chỉ mục. Bất kỳ phần tử HTML nào có class này sẽ bị bỏ qua khi xử lý nội dung.

Khi nào nên sử dụng tham số bỏ qua

Có hai lý do chính bạn nên dùng class này, nhưng bạn hoàn toàn có thể áp dụng cho bất cứ nội dung nào mà bạn thấy không cần thiết hoặc không phù hợp để bot sử dụng.

  1. Bỏ qua nội dung lặp lại: Nếu các nội dung tương tự liên tục được lập chỉ mục, AI sẽ khó phân biệt và phân loại chủ đề của nội dung. Việc loại bỏ thông tin trùng lặp cũng giúp bạn tiết kiệm chi phí xử lý văn bản về lâu dài.

  2. Bỏ qua thông tin rủi ro hoặc không phù hợp: Bạn nên bỏ qua bất kỳ thông tin nào có thể khiến AI đưa ra câu trả lời sai, gây hại hoặc không đúng ngữ cảnh. Đặc biệt lưu ý nếu thương hiệu của bạn thường xuyên sử dụng câu đùa hay ngôn ngữ mạnh mẽ. Dù phù hợp với nội dung khác, người dùng có thể không thích một chatbot “cà khịa”.

Cách dùng tham số flowhunt-skip

FlowHunt sẽ thu thập dữ liệu và lập chỉ mục website của bạn để cung cấp ngữ cảnh cho Chatbot. Bất cứ thứ gì FlowHunt lập chỉ mục, Chatbot của bạn có thể sử dụng vào lúc nào đó.

Thêm class flowhunt-skip vào phần tử HTML giúp bạn đánh dấu nội dung không muốn lập chỉ mục. Bất kỳ phần tử nào có class này sẽ bị bỏ qua và không bao giờ đến tay Chatbot.

Ví dụ sử dụng class:

<div class="flowhunt-skip">
  <h2>Duplicit content</h2>
  <p>This content is duplicate. I don’t want FlowHunt to index it again.</p>
</div>

Bạn cũng có thể chỉ bỏ qua một đoạn hoặc một phần tử đơn lẻ:

<div>
  <h2>My content</h2>
  <p>This paragraph should be indexed.</p>
  <p class="flowhunt-skip">I don't want the Chatbot to use this information.</p>
  <p>This paragraph should be indexed.</p>
</div>

Cơ chế lập chỉ mục hoạt động như thế nào

Quy trình thu thập dữ liệu chạy ở chế độ nền dựa trên lịch trình bạn thiết lập. Nó chỉ tải về trang HTML. Các hình ảnh hoặc media sẽ chỉ được lưu dưới dạng liên kết. Bất kỳ chuyển hướng nào cũng sẽ được theo dõi, và các URL chuẩn sẽ được đánh giá.

Sau khi thu thập dữ liệu, nội dung HTML sẽ được chuyển đổi sang văn bản markdown thuần túy. Một số thông tin có thể bị loại bỏ trong quá trình này. Văn bản markdown cuối cùng sẽ được cung cấp cho Chatbot để làm ngữ cảnh. Bot có thể lấy lại thông tin này bất cứ khi nào cần.

Làm sao AI biết nên chọn thông tin nào

Văn bản markdown sẽ được chia nhỏ thành các đoạn, vector hóa và lưu trữ vào cơ sở dữ liệu vector. Loại cơ sở dữ liệu này sẽ gán giá trị cho ý nghĩa của từ. Nhờ vậy, AI có thể hiểu các từ liên quan thay vì chỉ khớp chính xác từ.

Các từ sẽ được sắp xếp trên một lưới dựa theo giá trị được gán. Điều này cho phép máy tính hiểu từ nào có ý nghĩa gần nhau:

Text split into chunks, vectorized, and stored in a vector database

Lưu ý: Đây là mô hình cực kỳ đơn giản hóa. Thực tế, AI thực hiện với hàng nghìn từ, cụm từ và cả câu hoàn chỉnh.

Việc truy xuất thông tin từ cơ sở dữ liệu vector được gọi là tìm kiếm ngữ nghĩa. Đây là khả năng của AI tìm kiếm và đánh giá ý nghĩa từ trong cơ sở dữ liệu vector, sử dụng chúng để đưa ra câu trả lời.

Khi người dùng gửi truy vấn, bot sẽ chuyển đổi các từ thành vector. Sau đó, nó sẽ tìm trong cơ sở dữ liệu các nội dung phù hợp hoặc gần giống từ nội dung của bạn. Nếu tìm được, nó sẽ dùng thông tin này để soạn câu trả lời.

Tại sao tìm kiếm ngữ nghĩa lại quan trọng

Giả sử bạn sở hữu một cửa hàng thú cưng trực tuyến. Một khách hàng hỏi:

“Bạn có bán thức ăn cho mèo con không?”

Bạn có, nhưng tên sản phẩm lại dùng từ “junior” thay vì “mèo con”. Bot sẽ hiểu rằng “thức ăn cho mèo junior” là giống (hoặc rất gần) với “thức ăn cho mèo con” và hướng dẫn khách hàng đến đúng sản phẩm.

Nếu không có tìm kiếm ngữ nghĩa trong cơ sở dữ liệu vector, Chatbot sẽ chỉ trả lời rằng bạn không kinh doanh “thức ăn cho mèo con”, và bạn sẽ mất một khách hàng tiềm năng. Khi sử dụng FlowHunt, bạn hoàn toàn không phải lo lắng điều này xảy ra.

Câu hỏi thường gặp

Tính năng bỏ qua lập chỉ mục trong FlowHunt là gì?

Tính năng bỏ qua lập chỉ mục cho phép bạn loại trừ nội dung cụ thể khỏi việc sử dụng bởi chatbot AI. Bằng cách thêm class flowhunt-skip vào các phần tử HTML, bạn đảm bảo nội dung không phù hợp hoặc lặp lại sẽ không được lập chỉ mục hoặc dùng cho phản hồi của chatbot.

Tại sao tôi nên bỏ qua một số nội dung khi huấn luyện chatbot AI?

Bỏ qua nội dung lặp lại, không phù hợp hoặc gây hiểu nhầm giúp chatbot AI của bạn cung cấp phản hồi chính xác, an toàn và liên quan hơn. Điều này cũng giúp cải thiện hiệu suất và giảm chi phí xử lý không cần thiết.

Làm thế nào để sử dụng class flowhunt-skip?

Thêm class flowhunt-skip vào bất kỳ phần tử HTML nào bạn không muốn lập chỉ mục. FlowHunt sẽ bỏ qua các phần tử này trong quá trình thu thập dữ liệu, giữ chúng ngoài cơ sở tri thức của chatbot.

FlowHunt xử lý và lưu trữ nội dung được lập chỉ mục như thế nào?

FlowHunt thu thập dữ liệu trang web của bạn, chuyển đổi HTML sang markdown, chia nhỏ văn bản và lưu trữ vào cơ sở dữ liệu vector. Điều này cho phép tìm kiếm ngữ nghĩa để AI có thể hiểu các từ liên quan và cung cấp câu trả lời phù hợp cho truy vấn người dùng.

Tìm kiếm ngữ nghĩa là gì và tại sao nó quan trọng?

Tìm kiếm ngữ nghĩa sử dụng cơ sở dữ liệu vector để hiểu ý nghĩa và mối quan hệ giữa các từ, không chỉ đơn thuần là đối chiếu chính xác. Điều này giúp chatbot của bạn đưa ra phản hồi thông minh, có ngữ cảnh, kể cả khi người dùng diễn đạt khác đi.

Sẵn sàng xây dựng AI của riêng bạn?

Chatbot thông minh và công cụ AI tất cả trong một. Kết nối các khối trực quan để biến ý tưởng của bạn thành Flows tự động hóa.

Tìm hiểu thêm

Chặn Bot AI
Chặn Bot AI

Chặn Bot AI

Chặn Bot AI ngăn các bot điều khiển bởi AI truy cập dữ liệu website bằng robots.txt, bảo vệ nội dung khỏi việc sử dụng trái phép. Nó bảo vệ tính toàn vẹn nội du...

4 phút đọc
AI Bot Blocking +4
Hiểu và Phòng Ngừa Ảo giác trong Chatbot AI
Hiểu và Phòng Ngừa Ảo giác trong Chatbot AI

Hiểu và Phòng Ngừa Ảo giác trong Chatbot AI

Ảo giác trong AI là gì, vì sao chúng xảy ra và bạn có thể tránh như thế nào? Tìm hiểu cách giữ cho câu trả lời của chatbot AI chính xác với các chiến lược thực ...

6 phút đọc
Theory Intermediate
Cách dịch văn bản có nội dung bằng AI cho người mới bắt đầu
Cách dịch văn bản có nội dung bằng AI cho người mới bắt đầu

Cách dịch văn bản có nội dung bằng AI cho người mới bắt đầu

Hướng dẫn thực tế về cách dịch nội dung giữa các ngôn ngữ mà vẫn giữ được phong cách, giọng điệu và cấu trúc — và cách đảo ngược bản dịch để kiểm tra độ chính x...

5 phút đọc
ChatGPT Beginner +1