Lên Lịch Tự Động Thu Thập Dữ Liệu Website

Tính năng Lên Lịch của FlowHunt cho phép bạn tự động hóa việc thu thập và lập chỉ mục website, sitemap, domain và kênh YouTube. Điều này đảm bảo cơ sở tri thức của AI Agent luôn được cập nhật với nội dung mới mà không cần can thiệp thủ công.

Cách Hoạt Động của Lên Lịch

Thu thập dữ liệu tự động:
Thiết lập lịch thu thập định kỳ hàng ngày, hàng tuần, hàng tháng hoặc hàng năm để cơ sở tri thức luôn được cập nhật.
Nhiều loại thu thập khác nhau:
Chọn giữa thu thập toàn bộ Domain, thu thập theo Sitemap, thu thập URL cụ thể hoặc thu thập kênh YouTube tùy theo nguồn nội dung của bạn.
Tùy chọn nâng cao:
Cấu hình hiển thị trình duyệt, theo dõi liên kết, chụp ảnh màn hình, xoay proxy và lọc URL để đạt hiệu quả tối ưu.

Tùy Chọn Cấu Hình Lịch

Cài Đặt Cơ Bản

Loại: Chọn phương thức thu thập:

Thu thập Domain: Thu thập toàn bộ domain một cách hệ thống
Thu thập Sitemap: Sử dụng sitemap.xml của website để thu thập hiệu quả
Thu thập URL: Nhắm đến các URL hoặc trang cụ thể
Thu thập kênh YouTube: Lập chỉ mục nội dung video từ các kênh YouTube

Tần suất: Đặt tần suất chạy thu thập:

Hàng ngày, Hàng tuần, Hàng tháng hoặc Hàng năm

URL: Nhập URL, domain hoặc kênh YouTube mục tiêu cần thu thập

Tùy Chọn Thu Thập Nâng Cao

Sử dụng Trình Duyệt (tốn thêm credit): Kích hoạt khi thu thập các website sử dụng nhiều JavaScript cần hiển thị trình duyệt đầy đủ. Tùy chọn này chậm hơn và tốn nhiều chi phí hơn nhưng cần thiết cho các trang tải nội dung động.

Theo dõi liên kết (tốn thêm credit): Xử lý thêm các URL được tìm thấy trong trang. Hữu ích khi sitemap không chứa đủ các URL, nhưng có thể tốn nhiều credit do thu thập thêm các liên kết được phát hiện.

Chụp ảnh màn hình (tốn thêm credit): Chụp lại màn hình trong quá trình thu thập. Hữu ích cho các website không có og:image hoặc cần ngữ cảnh hình ảnh cho AI xử lý.

Xoay Proxy (tốn thêm credit): Xoay IP cho mỗi lần gửi yêu cầu để tránh bị hệ thống tường lửa (WAF) hoặc chống bot phát hiện.

Lọc URL

Bỏ qua URL khớp mẫu: Nhập chuỗi (mỗi dòng một chuỗi) để loại trừ các URL chứa mẫu này khỏi quá trình thu thập. Ví dụ:

/admin/
/login
.pdf

Ví Dụ: Thu Thập flowhunt.io và Bỏ Qua `/blog`

Ví dụ này minh họa điều gì sẽ xảy ra khi bạn sử dụng tính năng Lên Lịch của FlowHunt để thu thập domain flowhunt.io nhưng thiết lập /blog là mẫu URL để bỏ qua trong phần lọc URL.

Cài Đặt Cấu Hình

Loại: Thu thập Domain
URL: flowhunt.io
Tần suất: Hàng tuần
Lọc URL (Bỏ qua URL khớp mẫu): /blog
Cài đặt khác: Mặc định (không hiển thị trình duyệt, không theo liên kết, không chụp màn hình, không xoay proxy)

Quy Trình

Khởi động thu thập:
- FlowHunt bắt đầu thu thập domain flowhunt.io, hướng đến tất cả các trang có thể truy cập trên domain (ví dụ: flowhunt.io, flowhunt.io/features, flowhunt.io/pricing, v.v.).
Áp dụng lọc URL:
- Bộ thu thập đánh giá từng URL phát hiện được với mẫu bỏ qua /blog.
- Bất kỳ URL nào chứa /blog (ví dụ: flowhunt.io/blog, flowhunt.io/blog/post1, flowhunt.io/blog/category) sẽ bị loại trừ khỏi quá trình thu thập.
- Các URL khác như flowhunt.io/about, flowhunt.io/contact hoặc flowhunt.io/docs vẫn được thu thập vì không khớp với mẫu /blog.
Thực thi thu thập:
- Bộ thu thập tiến hành xử lý hệ thống các URL còn lại trên flowhunt.io, lập chỉ mục nội dung cho cơ sở tri thức của AI Agent.
- Do không bật hiển thị trình duyệt, theo dõi liên kết, chụp màn hình và xoay proxy, quá trình thu thập nhẹ, chỉ tập trung vào nội dung tĩnh từ các URL không bị loại trừ.
Kết quả:
- Cơ sở tri thức của AI Agent được cập nhật nội dung mới từ flowhunt.io, loại trừ mọi thứ dưới đường dẫn /blog.
- Việc thu thập được thực hiện hàng tuần, đảm bảo cơ sở tri thức luôn mới nhất với các trang mới/cập nhật (ngoài /blog) mà không cần thao tác thủ công.

Chỉ lập chỉ mục URL khớp mẫu: Nhập chuỗi (mỗi dòng một chuỗi) để chỉ thu thập các URL chứa mẫu này. Ví dụ:

/blog/
/articles/
/knowledge/

Ví Dụ Lọc Chỉ Lập Chỉ Mục URL Khớp Mẫu

Cài Đặt Cấu Hình

Loại: Thu thập Domain
URL: flowhunt.io
Tần suất: Hàng tuần
Lọc URL (Chỉ lập chỉ mục URL khớp mẫu):
```
/blog/
/articles/
/knowledge/
```
Cài đặt khác: Mặc định (không hiển thị trình duyệt, không theo liên kết, không chụp màn hình, không xoay proxy)

Khởi động thu thập:
- FlowHunt bắt đầu thu thập domain flowhunt.io, hướng đến tất cả các trang có thể truy cập trên domain (ví dụ: flowhunt.io, flowhunt.io/blog, flowhunt.io/articles, v.v.).
Áp dụng lọc URL:
- Bộ thu thập đánh giá từng URL phát hiện được với các mẫu /blog/, /articles/, và /knowledge/.
- Chỉ những URL chứa các mẫu này (ví dụ: flowhunt.io/blog/post1, flowhunt.io/articles/news, flowhunt.io/knowledge/guide) mới được đưa vào quá trình thu thập.
- Những URL khác như flowhunt.io/about, flowhunt.io/pricing hoặc flowhunt.io/contact sẽ bị loại trừ vì không khớp các mẫu chỉ định.
Thực thi thu thập:
- Bộ thu thập chỉ xử lý các URL khớp /blog/, /articles/ hoặc /knowledge/, lập chỉ mục nội dung cho cơ sở tri thức của AI Agent.
- Do không bật hiển thị trình duyệt, theo dõi liên kết, chụp màn hình và xoay proxy, quá trình thu thập nhẹ, chỉ tập trung vào nội dung tĩnh từ các URL đã lọc.
Kết quả:
- Cơ sở tri thức của AI Agent được cập nhật nội dung mới từ các trang flowhunt.io dưới đường dẫn /blog/, /articles/ và /knowledge/.
- Việc thu thập được thực hiện hàng tuần, đảm bảo cơ sở tri thức luôn mới nhất với các trang mới/cập nhật trong các mục này mà không cần thao tác thủ công.

Headers Tùy Chỉnh: Thêm header HTTP tùy chỉnh cho các yêu cầu thu thập. Định dạng HEADER=Giá trị (mỗi dòng một header): Tính năng này rất hữu ích để tùy biến quá trình thu thập cho từng website. Nhờ headers tùy chỉnh, người dùng có thể xác thực truy cập nội dung hạn chế, giả lập hành vi trình duyệt hoặc tuân thủ yêu cầu API/chính sách truy cập. Ví dụ, thiết lập header Authorization giúp truy cập trang được bảo vệ, còn User-Agent tùy chỉnh giúp tránh bị phát hiện bot hoặc đảm bảo tương thích với các site giới hạn crawler. Sự linh hoạt này giúp thu thập dữ liệu chính xác và đầy đủ hơn, thuận tiện cho việc lập chỉ mục nội dung liên quan cho AI Agent trong khi vẫn tuân thủ các quy tắc bảo mật/truy cập của website.

MYHEADER=Any value
Authorization=Bearer token123
User-Agent=Custom crawler

Cách Tạo Lịch Thu Thập

Truy cập mục Lịch trong bảng điều khiển FlowHunt
Nhấn “Thêm Lịch Mới”
Cấu hình cài đặt cơ bản:
- Chọn loại thu thập (Domain/Sitemap/URL/YouTube)
- Cài đặt tần suất (Hàng ngày/Hàng tuần/Hàng tháng/Hàng năm)
- Nhập URL mục tiêu
Mở rộng tùy chọn nâng cao nếu cần:
- Bật hiển thị trình duyệt cho các site dùng nhiều JS
- Cấu hình theo dõi liên kết để thu thập toàn diện
- Thiết lập quy tắc lọc URL
  - Thêm headers tùy chỉnh nếu cần
Nhấn “Thêm Lịch Mới” để kích hoạt