كيفية إعداد مستخرج المستندات

تعرف على كيفية ضبط معلمات ‘من H1 إذا وجدت’ و’التحميل من مؤشر’ و’تخطي آخر عنوان’.

Document Retriever AI knowledge base Knowledge Sources Components

يتيح لك مكون مستخرج المستندات للروبوت الذكي استرجاع المعرفة من المصادر التي حددتها في المستندات والجداول الزمنية. تتمثل وظيفة هذا المكون في التحكم في عملية الاسترجاع، وهناك عدة معلمات تؤثر على كيفية استخراج المعلومات من تلك المستندات.

من H1 إذا وجدت – بدء الاستخراج من العنوان الرئيسي

يخبر خيار من H1 إذا وجدت المستخرج ببدء استخراج المحتوى من أول عنوان H1 يجده (غالباً ما يكون العنوان الرئيسي للمقالة).

ماذا يحدث؟

إذا تم التفعيل: يتم تجاهل كل شيء قبل أول H1 (مثل الملاحة أو روابط تسجيل الدخول)، ويبدأ الاستخراج من محتوى المقالة الرئيسي.
إذا لم يتم التفعيل: يبدأ استخراج المحتوى من أعلى الصفحة، بما في ذلك كل عناصر الملاحة والعناوين وأي بيانات وصفية فوق المقالة الرئيسية.

مثال استخدام:
ترغب في استخراج الدليل الفعلي فقط، دون أي عناصر تنقل للموقع أو رؤوس صفحات قد تكون موجودة على موقعك.

ملاحظة:
يتم تفعيل خيار من H1 إذا وجدت في مكون مستخرج المستندات بشكل افتراضي.

التحميل من مؤشر – استخراج بدءاً من علامة مميزة معينة

يمنحك خيار التحميل من مؤشر دقة أكبر من خلال السماح لمستخرج المستندات بتحميل البيانات فقط من مؤشر معين في المقالة الطويلة.

ماذا يحدث؟

إذا تم التفعيل (وتم تحديد مؤشر): يبدأ الاستخراج من المؤشر المحدد، متجاوزاً كل ما قبله، حتى وإن كان بعد الـ H1.
إذا لم يتم التفعيل: يبدأ الاستخراج من الموضع الافتراضي (أعلى المستند أو من أول H1 إذا كان هذا الخيار قيد التفعيل أيضاً).

ما هو “المؤشر”؟
المؤشر عادةً ما يكون سلسلة فريدة أو عنوان موجود في المستند (مثل H2 أو عبارة أو عنوان قسم محدد).

مثال استخدام:
تريد تخطي الأقسام التمهيدية واستخراج المعلومات لقسم معين ذي صلة في مقال أو مستند طويل (مثلاً من “الخطوة 4: إضافة زر محادثة مباشرة” في دليل إعداد).

تخطي آخر عنوان – استبعاد التذييل أو العناوين المتكررة

يعد خيار تخطي آخر عنوان مفيداً لتجاهل آخر عنوان في المستند، والذي غالباً ما يكون متكرراً أو يُستخدم لأغراض التنقل أو التذييل.

ماذا يحدث؟

إذا تم التفعيل: يتم تجاهل آخر عنوان (مثل تكرار عنوان المقال أو قسم “مقالات أخرى”) أثناء الاستخراج.
إذا لم يتم التفعيل: يتم تضمين جميع العناوين، بما في ذلك الأخير، في الناتج.

مثال استخدام:
ترغب في منع مستخرج المستندات من تحميل عنوان تذييل (مثل “مقالات أخرى” في نهاية صفحة المساعدة)، لضمان معالجة المحتوى الرئيسي فقط.

ملاحظة:
يمكن أن يساعد خيار تخطي آخر عنوان مع المستندات التي تولد تذييلات تلقائية أو عناصر تنقل متكررة. ومع ذلك، إذا لم يكن لديك مثل هذه الأقسام، فقد يؤدي استخدام هذا الخيار إلى عدم استخراج جزء من المقالة يحتوي على معلومات مهمة. لذا، يُنصح بترك هذا الخيار غير مفعل حتى يكون هناك سبب حقيقي لتفعيله.

الحد الأقصى للرموز – التحكم في طول الناتج الأقصى

تتيح لك معلمة الحد الأقصى للرموز التحكم في أقصى عدد من الرموز (الكلمات وعلامات الترقيم كما يحسبها نموذج الذكاء الاصطناعي) التي سيخرجها مستخرج المستندات من النص المستخرج.

ماذا يحدث؟

يتم تقييد المحتوى المستخرج بعدد الرموز المحدد، وسيتم استبعاد أي محتوى إضافي يتجاوز هذا الحد.
تساعد هذه المعلمة في إدارة المستندات الطويلة جداً، لضمان بقاء الناتج ضمن حدود معالجة نماذج الذكاء الاصطناعي.

القيمة الافتراضية:
القيمة الافتراضية عادةً 3000 رمز، ولكن يمكنك تعديلها إذا لزم الأمر.

مثال استخدام:
إذا كنت تعالج مستندات طويلة، فإن تعيين قيمة أقل للحد الأقصى للرموز يساعد في جعل الردود مختصرة. ومع ذلك، للحصول على أفضل النتائج، يُنصح بتفعيل خيار “التحميل من مؤشر”. هذا يضمن أن يبدأ النص المستخرج من القسم الأكثر صلة في المستند وليس من البداية، مما يسمح لك بالحصول على جزء مركز وقابل للإدارة من المعلومات ضمن الحد الذي حددته من الرموز. هذا الجمع مفيد بشكل خاص عندما ترغب في مخرجات مختصرة وذات صلة سياقياً من مصادر كبيرة.

ملاحظة:
إذا وجدت أن المعلومات يتم اقتطاعها، جرب زيادة قيمة الحد الأقصى للرموز. وعلى العكس، إذا رغبت في مخرجات أقصر وأكثر تركيزاً، قلل قيمة هذه المعلمة.

الاستراتيجية – التحكم في كيفية تحويل عدة مستندات إلى نص

عندما يجد مستخرج المستندات عدة مستندات ذات صلة، تحدد معلمة الاستراتيجية كيفية دمجها في ناتج نصي واحد للروبوت الذكي، مع الأخذ في الاعتبار حد “الحد الأقصى للرموز”.

خياران للاستراتيجية:

تضمين حجم متساوٍ من كل مستند:
يتم تقسيم الحد من الرموز بالتساوي. على سبيل المثال، مع ثلاثة مستندات وحد 3,000 رمز، يحصل كل واحد على 1,000 رمز كحد أقصى. يضمن ذلك أن تساهم جميع المصادر بشكل متساوٍ، وهو مفيد عندما ترغب في إجابة متوازنة تستند إلى عدة مستندات.
- استخدمه عندما: يكون لديك وثائق توزع جوانب مختلفة من الموضوع عبر مستندات متعددة، ويتطلب إنشاء إجابة شاملة الاستناد إلى عدة مصادر بالتساوي. هذا النهج فعال عندما لا يحتوي مستند واحد على جميع التفاصيل المطلوبة، وترغب في ضمان تمثيل المعلومات من كل مستند ذي صلة في الرد، مما يوفر منظوراً متنوعاً أو شاملاً.
دمج المستندات، والتعبئة من الأول حتى حد الرموز:
تُضاف المستندات حسب الأهمية حتى بلوغ حد الرموز. يملأ المستند الأكثر صلة المساحة أولاً؛ وإذا بقي هناك مجال، تتم إضافة المستندات الأقل صلة حسب الترتيب. إذا كان المستند الأول طويلاً، فقد يستهلك كامل الحد بنفسه.
- استخدمه عندما: يكون لديك مستند يحتوي على معلومات مفصلة عن كل موضوع، وستستفيد الإجابات من استخدام أكبر قدر ممكن من هذا المستند، بدلاً من دمج معلومات من مستندات عدة حول موضوعات متشابهة.

كيف تختار؟

استخدم تضمين حجم متساوٍ من كل مستند إذا رغبت في تمثيل متوازن من جميع المصادر.
استخدم دمج المستندات، والتعبئة من الأول حتى حد الرموز إذا رغبت في إعطاء الأولوية للمستند الأكثر صلة ولا تهتم كثيراً بتضمين كل مصدر.

ملاحظة:
تؤثر هذه الاستراتيجيات فقط على كيفية بناء النص من المستندات المستخرجة قبل تمريره إلى الخطوة التالية (مثل توليد النص بالذكاء الاصطناعي). ولا تغير أي من هذه الخيارات المستندات التي يتم استرجاعها – بل فقط كيفية دمج محتواها واقتطاعه ليتناسب مع إعداد الحد الأقصى للرموز.

معلمات أخرى لمستخرج المستندات

بينما يركز هذا المقال على إعداد معلمات ‘من H1 إذا وجدت’ و’التحميل من مؤشر’ و’تخطي آخر عنوان’ و’الحد الأقصى للرموز’، يوفر مستخرج المستندات أيضاً معلمات إضافية تساعد في التحكم بكيفية اختيار المستندات واسترجاعها:

عدد المستندات

يحدد هذا الإعداد الحد الأقصى لعدد المستندات التي يجب على النظام استرجاعها، لضمان بقاء النتائج ذات صلة وسرعة توليد الردود.

فئات المستندات

يتيح لك هذا الخيار الاختياري قصر الاسترجاع على فئة واحدة أو أكثر قمت بإنشائها في قسم المستندات ضمن مصادر المعرفة.

إخفاء الموارد

يتيح لك تضمين أو إخفاء قسم منفصل، قبل إجابة الروبوت الفعلية، يحتوي على قائمة بالموارد التي استرجعها المستخرج. عند التكامل مع LiveAgent، يجب تفعيل هذا الخيار، لأن هذا القسم غير مدعوم ولن يُعرض بشكل صحيح في ودجة روبوت LiveAgent.

الجداول الزمنية

يتيح لك تقييد الاسترجاع على جدول زمني واحد أو أكثر قمت بتحديدها للزحف أو تحديث المحتوى في مصادر المعرفة.

العتبة

تتحكم في مدى تطابق المستندات المستخرجة مع استفسارك، باستخدام درجة الصلة (من 0 إلى 1). على سبيل المثال، يوصى بعتبة 0.7–0.8 للحصول على إجابات عالية الصلة. تعطي العتبات الأعلى تطابقات أكثر دقة، بينما قد تتضمن العتبات الأقل مستندات أقل صلة.

مثال:
إذا قمت بتعيين العتبة إلى 0.6 ولديك أربعة مقالات بدرجات صلة 0.8 و0.65 و0.5 و0.9، فسيتم استخدام فقط تلك التي تزيد عن 0.6 (أي 0.8 و0.65 و0.9) للاستخراج.

استكشاف الأخطاء وإصلاحها

إذا لم تتضمن إجابة الروبوت الذكي معلومات تعرف أنها متوفرة في مستنداتك أو جداولك الزمنية، جرب مراجعة سجل المحادثة باستخدام خيار “مفصل” (Verbose) لرؤية سجلات تفصيلية حول ما إذا تم استخدام مستخرج المستندات وما هي المستندات التي تم استرجاعها. إذا لزم الأمر، قم بتعديل إعداداتك والتعليمات بناءً على هذه السجلات.

اعرف المزيد

كيفية تغذية روبوت FlowHunt بأقسام مختارة من توثيق cPanel (وليس الموقع بالكامل)

دليل مفصل لاستيراد أقسام محددة فقط من docs.cpanel.net إلى روبوت FlowHunt الخاص بك، ليصبح خبيرًا في مواضيع cPanel المستهدفة دون استيعاب بوابة التوثيق بالكامل....

Jun 10, 2024 6 دقيقة قراءة

FlowHunt integrations +3

مولد فقرة المقالات ذات الصلة

يولّد تلقائيًا فقرة قصيرة وجذابة لموقعك الإلكتروني تتضمن روابط لأكثر المقالات ذات الصلة. يقوم سير العمل المدعوم بالذكاء الاصطناعي هذا بتحليل محتوى موقعك للتوصية...

Jun 6, 2025 4 دقيقة قراءة

مولد الاستنتاجات للمواقع والفيديو

أنشئ استنتاجات موجزة من المواقع الإلكترونية أو المستندات المرفوعة أو فيديوهات يوتيوب باستخدام الذكاء الاصطناعي. مثالي لتلخيص النقاط الرئيسية بسرعة وإنشاء خواتيم...

Jun 6, 2025 3 دقيقة قراءة

كيفية إعداد مستخرج المستندات

من H1 إذا وجدت – بدء الاستخراج من العنوان الرئيسي

التحميل من مؤشر – استخراج بدءاً من علامة مميزة معينة

تخطي آخر عنوان – استبعاد التذييل أو العناوين المتكررة

الحد الأقصى للرموز – التحكم في طول الناتج الأقصى

الاستراتيجية – التحكم في كيفية تحويل عدة مستندات إلى نص

معلمات أخرى لمستخرج المستندات

عدد المستندات

فئات المستندات

إخفاء الموارد

الجداول الزمنية

العتبة

استكشاف الأخطاء وإصلاحها

اعرف المزيد

كيفية تغذية روبوت FlowHunt بأقسام مختارة من توثيق cPanel (وليس الموقع بالكامل)

مولد فقرة المقالات ذات الصلة

مولد الاستنتاجات للمواقع والفيديو

إعدادات ملفات تعريف الارتباط

ملفات تعريف الارتباط الضرورية

ملفات تعريف الارتباط التحليلية