جدولة الزحف التلقائي للمواقع الإلكترونية

جدولة الزحف التلقائي للمواقع الإلكترونية

Schedules Crawling AI Agent Knowledge Base

تتيح لك ميزة الجدولة في FlowHunt أتمتة زحف وفهرسة المواقع الإلكترونية وملفات السايت ماب والنطاقات وقنوات يوتيوب. هذا يضمن بقاء قاعدة معرفة وكيل الذكاء الاصطناعي لديك محدثة بمحتوى جديد دون تدخل يدوي.

كيف تعمل الجدولة

  • الزحف التلقائي:
    قم بضبط عمليات الزحف المجدولة لتعمل يوميًا أو أسبوعيًا أو شهريًا أو سنويًا للحفاظ على تحديث قاعدة المعرفة.

  • أنواع زحف متعددة:
    اختر من بين زحف النطاق، زحف السايت ماب، زحف الروابط، أو زحف قناة يوتيوب حسب مصدر المحتوى لديك.

  • خيارات متقدمة:
    قم بضبط عرض المتصفح، وتتبع الروابط، والتقاط لقطات الشاشة، وتدوير البروكسي، وتصفية الروابط للحصول على أفضل النتائج.

خيارات تكوين الجدولة

الإعدادات الأساسية

النوع: اختر طريقة الزحف:

  • زحف النطاق: زحف كامل لجميع صفحات النطاق
  • زحف السايت ماب: استخدام ملف sitemap.xml للموقع لزحف فعال
  • زحف الروابط: استهداف روابط أو صفحات محددة
  • زحف قناة يوتيوب: فهرسة محتوى الفيديو من قنوات يوتيوب

التكرار: حدد عدد مرات تكرار الزحف:

  • يوميًا، أسبوعيًا، شهريًا، أو سنويًا

الرابط (URL): أدخل عنوان الرابط أو النطاق أو قناة اليوتيوب المستهدفة للزحف

خيارات الزحف المتقدمة

مع المتصفح (يستهلك أرصدة إضافية): فعّل عند زحف المواقع المعتمدة على جافاسكريبت والتي تتطلب عرض المتصفح الكامل. هذا الخيار أبطأ وأكثر تكلفة لكنه ضروري للمواقع التي تحمل المحتوى ديناميكيًا.

تتبع الروابط (يستهلك أرصدة إضافية): معالجة روابط إضافية يتم العثور عليها ضمن الصفحات. مفيد عندما لا تحتوي السايت ماب على جميع الروابط، لكنه قد يستهلك الكثير من الأرصدة لأنه يزحف الروابط المكتشفة.

التقاط لقطات شاشة (يستهلك أرصدة إضافية): التقاط صور أثناء الزحف. مفيد للمواقع التي لا تحتوي على og:images أو التي تحتاج إلى سياق بصري لمعالجة الذكاء الاصطناعي.

تدوير البروكسي (يستهلك أرصدة إضافية): تدوير عناوين الـ IP لكل طلب لتفادي الحظر من جدران الحماية أو أنظمة مكافحة الروبوتات.

تصفية الروابط (URL)

تخطي الروابط المطابقة: أدخل عبارات (واحدة في كل سطر) لاستثناء الروابط التي تحتوي على هذه الأنماط من عملية الزحف. مثال:

/admin/
/login
.pdf

مثال: زحف flowhunt.io مع تخطي /blog

يوضح هذا المثال ما يحدث عند استخدام ميزة الجدولة في FlowHunt لزحف نطاق flowhunt.io مع تعيين /blog كنمط رابط ليتم تخطيه في إعدادات تصفية الروابط.

إعدادات التكوين

  • النوع: زحف النطاق
  • الرابط: flowhunt.io
  • التكرار: أسبوعي
  • تصفية الروابط (تخطي الروابط المطابقة): /blog
  • إعدادات أخرى: افتراضية (بدون عرض متصفح، بدون تتبع روابط، بدون لقطات شاشة، بدون تدوير بروكسي)

ما الذي يحدث

  1. بدء الزحف:

    • يبدأ FlowHunt زحف نطاق flowhunt.io، مستهدفًا جميع الصفحات المتاحة على النطاق (مثل flowhunt.io، flowhunt.io/features، flowhunt.io/pricing، إلخ).
  2. تطبيق تصفية الروابط:

    • يقوم الزاحف بفحص كل رابط مكتشف ويقارنه بنمط التخطي /blog.
    • أي رابط يحتوي على /blog (مثل flowhunt.io/blog، flowhunt.io/blog/post1، flowhunt.io/blog/category) يتم استثناؤه من الزحف.
    • الروابط الأخرى مثل flowhunt.io/about، flowhunt.io/contact، أو flowhunt.io/docs يتم زحفها لأنها لا تطابق النمط.
  3. تنفيذ الزحف:

    • يعالج الزاحف الروابط المتبقية بشكل منهجي ويفهرس محتواها في قاعدة معرفة وكيل الذكاء الاصطناعي لديك.
    • بما أن عرض المتصفح وتتبع الروابط والتقاط لقطات الشاشة وتدوير البروكسي معطلة، يكون الزحف خفيفًا ويركز فقط على المحتوى الثابت من الروابط غير المستثناة.
  4. النتيجة:

    • يتم تحديث قاعدة معرفة وكيل الذكاء الاصطناعي لديك بمحتوى جديد من flowhunt.io باستثناء أي شيء تحت مسار /blog.
    • يتم تنفيذ الزحف أسبوعيًا لضمان بقاء قاعدة المعرفة محدثة بصفحات جديدة أو معدلة (خارج /blog) دون تدخل يدوي.

فهرسة الروابط المطابقة فقط: أدخل عبارات (واحدة في كل سطر) ليتم زحف الروابط التي تحتوي على هذه الأنماط فقط. مثال:

/blog/
/articles/
/knowledge/

مثال على تضمين الروابط المطابقة

إعدادات التكوين

  • النوع: زحف النطاق
  • الرابط: flowhunt.io
  • التكرار: أسبوعي
  • تصفية الروابط (فهرسة الروابط المطابقة فقط):
    /blog/
    /articles/
    /knowledge/
    
  • إعدادات أخرى: افتراضية (بدون عرض متصفح، بدون تتبع روابط، بدون لقطات شاشة، بدون تدوير بروكسي)
  1. بدء الزحف:

    • يبدأ FlowHunt زحف نطاق flowhunt.io، مستهدفًا جميع الصفحات المتاحة على النطاق (مثل flowhunt.io، flowhunt.io/blog، flowhunt.io/articles، إلخ).
  2. تطبيق تصفية الروابط:

    • يقوم الزاحف بفحص كل رابط مكتشف ويقارنه بأنماط الفهرسة /blog/، /articles/، و/knowledge/.
    • فقط الروابط التي تحتوي على هذه الأنماط (مثل flowhunt.io/blog/post1، flowhunt.io/articles/news، flowhunt.io/knowledge/guide) يتم شملها في الزحف.
    • الروابط الأخرى مثل flowhunt.io/about، flowhunt.io/pricing، أو flowhunt.io/contact يتم استثناؤها لأنها لا تطابق الأنماط المحددة.
  3. تنفيذ الزحف:

    • يعالج الزاحف فقط الروابط المطابقة لـ /blog/، /articles/، أو /knowledge/ ويفهرس محتواها في قاعدة معرفة وكيل الذكاء الاصطناعي لديك.
    • بما أن عرض المتصفح وتتبع الروابط والتقاط لقطات الشاشة وتدوير البروكسي معطلة، يكون الزحف خفيفًا ويركز فقط على المحتوى الثابت من الروابط المشمولة.
  4. النتيجة:

    • يتم تحديث قاعدة معرفة وكيل الذكاء الاصطناعي لديك بمحتوى جديد من صفحات flowhunt.io تحت مسارات /blog/ و/articles/ و/knowledge/.
    • يتم تنفيذ الزحف أسبوعيًا لضمان بقاء قاعدة المعرفة محدثة بصفحات جديدة أو معدلة داخل هذه الأقسام دون تدخل يدوي.

رؤوس مخصصة: أضف رؤوس HTTP مخصصة لطلبات الزحف. الصيغة HEADER=Value (كل رأس في سطر منفصل): هذه الميزة مفيدة جدًا لتخصيص الزحف حسب متطلبات موقع معين. بفضل الرؤوس المخصصة، يمكن للمستخدمين المصادقة للوصول إلى محتوى محمي، أو محاكاة سلوك متصفح معين، أو الالتزام بسياسات الوصول أو الـ API الخاصة بالموقع. على سبيل المثال، تعيين رأس Authorization يمنح الوصول للصفحات المحمية، بينما رأس User-Agent مخصص يساعد في تفادي حظر الروبوتات أو ضمان التوافق مع المواقع التي تقيد بعض الزواحف. هذه المرونة تضمن جمع بيانات أكثر دقة وشمولية، مما يسهل فهرسة المحتوى ذي الصلة لوكيل الذكاء الاصطناعي مع الالتزام ببروتوكولات الأمان أو الوصول الخاصة بالموقع.

MYHEADER=Any value
Authorization=Bearer token123
User-Agent=Custom crawler

كيفية إنشاء جدول زمني

  1. انتقل إلى قسم الجداول في لوحة تحكم FlowHunt انتقل إلى قسم الجداول

  2. انقر على “إضافة جدول جديد” انقر على إضافة جدول جديد

  3. اضبط الإعدادات الأساسية:

    • اختر نوع الزحف (نطاق/سايت ماب/رابط/يوتيوب)
    • حدد التكرار (يومي/أسبوعي/شهري/سنوي)
    • أدخل الرابط المستهدف
  4. وسّع الخيارات المتقدمة إذا لزم الأمر:

    • فعّل عرض المتصفح للمواقع المعتمدة على الجافاسكريبت
    • اضبط تتبع الروابط لزحف شامل
    • ضع قواعد تصفية الروابط
      • أضف رؤوس مخصصة إذا دعت الحاجة وسّع الخيارات المتقدمة
  5. انقر على “إضافة جدول جديد” لتفعيل الجدولة

أفضل الممارسات

لأغلب المواقع الإلكترونية:

  • ابدأ بزحف السايت ماب أو النطاق الأساسي
  • استخدم الإعدادات الافتراضية مبدئيًا
  • أضف الخيارات المتقدمة فقط عند الحاجة

للمواقع الثقيلة على الجافاسكريبت:

  • فعّل خيار “مع المتصفح”
  • فكّر في التقاط لقطات شاشة للمحتوى البصري
  • قد تحتاج لتدوير البروكسي عند الحظر

للمواقع الكبيرة:

  • استخدم تصفية الروابط للتركيز على المحتوى المهم
  • حدد التكرار المناسب لتحقيق التوازن بين التحديث واستهلاك الأرصدة
  • راقب استهلاك الأرصدة عند استخدام الميزات المتقدمة

للتجارة الإلكترونية أو المحتوى الديناميكي:

  • استخدم التكرار اليومي أو الأسبوعي
  • فعّل تتبع الروابط لصفحات المنتجات
  • فكّر في الرؤوس المخصصة للوصول إلى المحتوى المحمي

استهلاك الأرصدة

الميزات المتقدمة تستهلك أرصدة إضافية:

  • عرض المتصفح يزيد زمن المعالجة والتكلفة
  • تتبع الروابط يضاعف عدد الصفحات التي يتم زحفها
  • لقطات الشاشة تضيف معالجة بصرية إضافية
  • تدوير البروكسي يزيد من الحمل على الشبكة

راقب استهلاك الأرصدة وعدّل الجداول حسب احتياجاتك وميزانيتك.

استكشاف مشاكل شائعة وحلولها

فشل الزحف:

  • فعّل “مع المتصفح” للمواقع المعتمدة على الجافاسكريبت
  • أضف “تدوير البروكسي” إذا تم حظرك من قبل جدران الحماية
  • تحقق من الرؤوس المخصصة للمصادقة

عدد الصفحات كبير/قليل جدًا:

  • استخدم “تخطي الروابط المطابقة” لاستبعاد محتوى غير مرغوب
  • استخدم “فهرسة الروابط المطابقة فقط” للتركيز على أقسام معينة
  • عدّل إعدادات تتبع الروابط

المحتوى مفقود:

  • فعّل “تتبع الروابط” إذا كانت السايت ماب غير مكتملة
  • تحقق من أن قواعد تصفية الروابط ليست متشددة جدًا
  • تأكد من أن الرابط المستهدف متاح

اعرف المزيد

تقليل هلوسة الذكاء الاصطناعي بإضافة قواعد معرفة مخصصة
تقليل هلوسة الذكاء الاصطناعي بإضافة قواعد معرفة مخصصة

تقليل هلوسة الذكاء الاصطناعي بإضافة قواعد معرفة مخصصة

قلل من هلوسة الذكاء الاصطناعي وضمن دقة إجابات الشات بوت باستخدام ميزة الجداول الزمنية في FlowHunt. اكتشف الفوائد، والحالات العملية، ودليل خطوة بخطوة لإعداد هذه ...

7 دقيقة قراءة
AI Chatbot +4
واجهة برمجة تطبيقات FlowHunt JS: تخصيص متقدم للشات بوت
واجهة برمجة تطبيقات FlowHunt JS: تخصيص متقدم للشات بوت

واجهة برمجة تطبيقات FlowHunt JS: تخصيص متقدم للشات بوت

تعرّف على كيفية تخصيص شات بوت FlowHunt بعمق باستخدام متغيرات التدفق، ومعاملات الروابط، وردود الأفعال للأحداث، وتفعيل الدردشة المخصص لتعزيز التخصيص والتحليلات وت...

5 دقيقة قراءة
AI Chatbot +4
وكلاء الذكاء الاصطناعي الذين يكتبون المدونات ويبرمجون من أجلك: أتمتة إنشاء المحتوى وتدفقات عمل GitHub
وكلاء الذكاء الاصطناعي الذين يكتبون المدونات ويبرمجون من أجلك: أتمتة إنشاء المحتوى وتدفقات عمل GitHub

وكلاء الذكاء الاصطناعي الذين يكتبون المدونات ويبرمجون من أجلك: أتمتة إنشاء المحتوى وتدفقات عمل GitHub

تعرّف كيف يمكن لوكلاء الذكاء الاصطناعي إنشاء منشورات مدونة محسّنة للسيو تلقائيًا، وتوليد ملفات ماركداون، وتقديم طلبات السحب على GitHub—كل ذلك من خلال إدخال كلمة...

15 دقيقة قراءة
AI Agents Automation +4