Lên Lịch Tự Động Thu Thập Dữ Liệu Website

Lên Lịch Tự Động Thu Thập Dữ Liệu Website

Schedules Crawling AI Agent Knowledge Base

Tính năng Lên Lịch của FlowHunt cho phép bạn tự động hóa việc thu thập và lập chỉ mục website, sitemap, domain và kênh YouTube. Điều này đảm bảo cơ sở tri thức của AI Agent luôn được cập nhật với nội dung mới mà không cần can thiệp thủ công.

Cách Hoạt Động của Lên Lịch

  • Thu thập dữ liệu tự động:
    Thiết lập lịch thu thập định kỳ hàng ngày, hàng tuần, hàng tháng hoặc hàng năm để cơ sở tri thức luôn được cập nhật.

  • Nhiều loại thu thập khác nhau:
    Chọn giữa thu thập toàn bộ Domain, thu thập theo Sitemap, thu thập URL cụ thể hoặc thu thập kênh YouTube tùy theo nguồn nội dung của bạn.

  • Tùy chọn nâng cao:
    Cấu hình hiển thị trình duyệt, theo dõi liên kết, chụp ảnh màn hình, xoay proxy và lọc URL để đạt hiệu quả tối ưu.

Tùy Chọn Cấu Hình Lịch

Cài Đặt Cơ Bản

Loại: Chọn phương thức thu thập:

  • Thu thập Domain: Thu thập toàn bộ domain một cách hệ thống
  • Thu thập Sitemap: Sử dụng sitemap.xml của website để thu thập hiệu quả
  • Thu thập URL: Nhắm đến các URL hoặc trang cụ thể
  • Thu thập kênh YouTube: Lập chỉ mục nội dung video từ các kênh YouTube

Tần suất: Đặt tần suất chạy thu thập:

  • Hàng ngày, Hàng tuần, Hàng tháng hoặc Hàng năm

URL: Nhập URL, domain hoặc kênh YouTube mục tiêu cần thu thập

Tùy Chọn Thu Thập Nâng Cao

Sử dụng Trình Duyệt (tốn thêm credit): Kích hoạt khi thu thập các website sử dụng nhiều JavaScript cần hiển thị trình duyệt đầy đủ. Tùy chọn này chậm hơn và tốn nhiều chi phí hơn nhưng cần thiết cho các trang tải nội dung động.

Theo dõi liên kết (tốn thêm credit): Xử lý thêm các URL được tìm thấy trong trang. Hữu ích khi sitemap không chứa đủ các URL, nhưng có thể tốn nhiều credit do thu thập thêm các liên kết được phát hiện.

Chụp ảnh màn hình (tốn thêm credit): Chụp lại màn hình trong quá trình thu thập. Hữu ích cho các website không có og:image hoặc cần ngữ cảnh hình ảnh cho AI xử lý.

Xoay Proxy (tốn thêm credit): Xoay IP cho mỗi lần gửi yêu cầu để tránh bị hệ thống tường lửa (WAF) hoặc chống bot phát hiện.

Lọc URL

Bỏ qua URL khớp mẫu: Nhập chuỗi (mỗi dòng một chuỗi) để loại trừ các URL chứa mẫu này khỏi quá trình thu thập. Ví dụ:

/admin/
/login
.pdf

Ví Dụ: Thu Thập flowhunt.io và Bỏ Qua /blog

Ví dụ này minh họa điều gì sẽ xảy ra khi bạn sử dụng tính năng Lên Lịch của FlowHunt để thu thập domain flowhunt.io nhưng thiết lập /blog là mẫu URL để bỏ qua trong phần lọc URL.

Cài Đặt Cấu Hình

  • Loại: Thu thập Domain
  • URL: flowhunt.io
  • Tần suất: Hàng tuần
  • Lọc URL (Bỏ qua URL khớp mẫu): /blog
  • Cài đặt khác: Mặc định (không hiển thị trình duyệt, không theo liên kết, không chụp màn hình, không xoay proxy)

Quy Trình

  1. Khởi động thu thập:

    • FlowHunt bắt đầu thu thập domain flowhunt.io, hướng đến tất cả các trang có thể truy cập trên domain (ví dụ: flowhunt.io, flowhunt.io/features, flowhunt.io/pricing, v.v.).
  2. Áp dụng lọc URL:

    • Bộ thu thập đánh giá từng URL phát hiện được với mẫu bỏ qua /blog.
    • Bất kỳ URL nào chứa /blog (ví dụ: flowhunt.io/blog, flowhunt.io/blog/post1, flowhunt.io/blog/category) sẽ bị loại trừ khỏi quá trình thu thập.
    • Các URL khác như flowhunt.io/about, flowhunt.io/contact hoặc flowhunt.io/docs vẫn được thu thập vì không khớp với mẫu /blog.
  3. Thực thi thu thập:

    • Bộ thu thập tiến hành xử lý hệ thống các URL còn lại trên flowhunt.io, lập chỉ mục nội dung cho cơ sở tri thức của AI Agent.
    • Do không bật hiển thị trình duyệt, theo dõi liên kết, chụp màn hình và xoay proxy, quá trình thu thập nhẹ, chỉ tập trung vào nội dung tĩnh từ các URL không bị loại trừ.
  4. Kết quả:

    • Cơ sở tri thức của AI Agent được cập nhật nội dung mới từ flowhunt.io, loại trừ mọi thứ dưới đường dẫn /blog.
    • Việc thu thập được thực hiện hàng tuần, đảm bảo cơ sở tri thức luôn mới nhất với các trang mới/cập nhật (ngoài /blog) mà không cần thao tác thủ công.

Chỉ lập chỉ mục URL khớp mẫu: Nhập chuỗi (mỗi dòng một chuỗi) để chỉ thu thập các URL chứa mẫu này. Ví dụ:

/blog/
/articles/
/knowledge/

Ví Dụ Lọc Chỉ Lập Chỉ Mục URL Khớp Mẫu

Cài Đặt Cấu Hình

  • Loại: Thu thập Domain
  • URL: flowhunt.io
  • Tần suất: Hàng tuần
  • Lọc URL (Chỉ lập chỉ mục URL khớp mẫu):
    /blog/
    /articles/
    /knowledge/
    
  • Cài đặt khác: Mặc định (không hiển thị trình duyệt, không theo liên kết, không chụp màn hình, không xoay proxy)
  1. Khởi động thu thập:

    • FlowHunt bắt đầu thu thập domain flowhunt.io, hướng đến tất cả các trang có thể truy cập trên domain (ví dụ: flowhunt.io, flowhunt.io/blog, flowhunt.io/articles, v.v.).
  2. Áp dụng lọc URL:

    • Bộ thu thập đánh giá từng URL phát hiện được với các mẫu /blog/, /articles/, và /knowledge/.
    • Chỉ những URL chứa các mẫu này (ví dụ: flowhunt.io/blog/post1, flowhunt.io/articles/news, flowhunt.io/knowledge/guide) mới được đưa vào quá trình thu thập.
    • Những URL khác như flowhunt.io/about, flowhunt.io/pricing hoặc flowhunt.io/contact sẽ bị loại trừ vì không khớp các mẫu chỉ định.
  3. Thực thi thu thập:

    • Bộ thu thập chỉ xử lý các URL khớp /blog/, /articles/ hoặc /knowledge/, lập chỉ mục nội dung cho cơ sở tri thức của AI Agent.
    • Do không bật hiển thị trình duyệt, theo dõi liên kết, chụp màn hình và xoay proxy, quá trình thu thập nhẹ, chỉ tập trung vào nội dung tĩnh từ các URL đã lọc.
  4. Kết quả:

    • Cơ sở tri thức của AI Agent được cập nhật nội dung mới từ các trang flowhunt.io dưới đường dẫn /blog/, /articles//knowledge/.
    • Việc thu thập được thực hiện hàng tuần, đảm bảo cơ sở tri thức luôn mới nhất với các trang mới/cập nhật trong các mục này mà không cần thao tác thủ công.

Headers Tùy Chỉnh: Thêm header HTTP tùy chỉnh cho các yêu cầu thu thập. Định dạng HEADER=Giá trị (mỗi dòng một header): Tính năng này rất hữu ích để tùy biến quá trình thu thập cho từng website. Nhờ headers tùy chỉnh, người dùng có thể xác thực truy cập nội dung hạn chế, giả lập hành vi trình duyệt hoặc tuân thủ yêu cầu API/chính sách truy cập. Ví dụ, thiết lập header Authorization giúp truy cập trang được bảo vệ, còn User-Agent tùy chỉnh giúp tránh bị phát hiện bot hoặc đảm bảo tương thích với các site giới hạn crawler. Sự linh hoạt này giúp thu thập dữ liệu chính xác và đầy đủ hơn, thuận tiện cho việc lập chỉ mục nội dung liên quan cho AI Agent trong khi vẫn tuân thủ các quy tắc bảo mật/truy cập của website.

MYHEADER=Any value
Authorization=Bearer token123
User-Agent=Custom crawler

Cách Tạo Lịch Thu Thập

  1. Truy cập mục Lịch trong bảng điều khiển FlowHunt Đi đến mục Lịch

  2. Nhấn “Thêm Lịch Mới” Nhấn Thêm Lịch Mới

  3. Cấu hình cài đặt cơ bản:

    • Chọn loại thu thập (Domain/Sitemap/URL/YouTube)
    • Cài đặt tần suất (Hàng ngày/Hàng tuần/Hàng tháng/Hàng năm)
    • Nhập URL mục tiêu
  4. Mở rộng tùy chọn nâng cao nếu cần:

    • Bật hiển thị trình duyệt cho các site dùng nhiều JS
    • Cấu hình theo dõi liên kết để thu thập toàn diện
    • Thiết lập quy tắc lọc URL
      • Thêm headers tùy chỉnh nếu cần Mở rộng Tùy Chọn Nâng Cao
  5. Nhấn “Thêm Lịch Mới” để kích hoạt

Thực Hành Tốt Nhất

Đối với Hầu Hết Các Website:

  • Bắt đầu với việc thu thập Sitemap hoặc Domain cơ bản
  • Dùng cài đặt mặc định ban đầu
  • Chỉ thêm tùy chọn nâng cao khi cần

Đối với Website Nặng JavaScript:

  • Bật tùy chọn “Sử dụng Trình Duyệt”
  • Cân nhắc chụp ảnh màn hình cho nội dung trực quan
  • Có thể cần xoay proxy nếu bị chặn

Đối với Website Lớn:

  • Dùng lọc URL để tập trung vào phần nội dung liên quan
  • Cài đặt tần suất phù hợp để cân bằng giữa cập nhật và tiêu tốn credit
  • Theo dõi lượng credit sử dụng khi dùng tính năng nâng cao

Đối với Thương Mại Điện Tử hoặc Nội Dung Động:

  • Dùng tần suất Hàng ngày hoặc Hàng tuần
  • Bật theo dõi liên kết cho trang sản phẩm
  • Cân nhắc headers tùy chỉnh cho nội dung xác thực

Quản Lý Sử Dụng Credit

Các tính năng nâng cao sẽ tiêu tốn thêm credit:

  • Hiển thị trình duyệt làm tăng thời gian xử lý và chi phí
  • Theo dõi liên kết làm tăng số trang thu thập
  • Chụp ảnh màn hình làm tăng tải xử lý hình ảnh
  • Xoay proxy làm tăng tải mạng

Theo dõi việc sử dụng credit và điều chỉnh lịch phù hợp với nhu cầu và ngân sách của bạn.

Khắc Phục Sự Cố Thường Gặp

Lỗi khi thu thập:

  • Bật “Sử dụng Trình Duyệt” cho các site phụ thuộc JavaScript
  • Bật “Xoay Proxy” nếu bị WAF chặn
  • Kiểm tra headers tùy chỉnh cho xác thực

Quá nhiều/ít trang được thu thập:

  • Dùng “Bỏ qua URL khớp mẫu” để loại trừ nội dung không mong muốn
  • Dùng “Chỉ lập chỉ mục URL khớp mẫu” để tập trung vào mục nhất định
  • Điều chỉnh cài đặt theo dõi liên kết

Thiếu nội dung:

  • Bật “Theo dõi liên kết” nếu sitemap chưa đầy đủ
  • Kiểm tra quy tắc lọc URL không quá chặt
  • Đảm bảo URL mục tiêu có thể truy cập

Tìm hiểu thêm

Lịch trình
Lịch trình

Lịch trình

Tính năng Lịch trình trong FlowHunt cho phép bạn thu thập dữ liệu định kỳ từ các tên miền và kênh YouTube, giúp chatbot và luồng của bạn luôn được cập nhật với ...

3 phút đọc
AI Schedules +4
Google Lịch
Google Lịch

Google Lịch

Tích hợp FlowHunt với Google Lịch để tự động hóa lập lịch, quản lý sự kiện và thúc đẩy quy trình làm việc trên lịch dựa trên AI....

2 phút đọc
AI Google Calendar +3
Giảm Ảo Giác AI Bằng Cách Thêm Cơ Sở Tri Thức Tùy Chỉnh
Giảm Ảo Giác AI Bằng Cách Thêm Cơ Sở Tri Thức Tùy Chỉnh

Giảm Ảo Giác AI Bằng Cách Thêm Cơ Sở Tri Thức Tùy Chỉnh

Giảm ảo giác AI và đảm bảo câu trả lời chính xác cho chatbot bằng cách sử dụng tính năng Lập lịch của FlowHunt. Khám phá các lợi ích, tình huống sử dụng thực tế...

10 phút đọc
AI Chatbot +4