كيفية إعداد مستخرج المستندات

كيفية إعداد مستخرج المستندات

تعرف على كيفية ضبط معلمات ‘من H1 إذا وجدت’ و’التحميل من مؤشر’ و’تخطي آخر عنوان’.

يتيح لك مكون مستخرج المستندات للروبوت الذكي استرجاع المعرفة من المصادر التي حددتها في المستندات والجداول الزمنية. تتمثل وظيفة هذا المكون في التحكم في عملية الاسترجاع، وهناك عدة معلمات تؤثر على كيفية استخراج المعلومات من تلك المستندات.

Flowhunt version history

من H1 إذا وجدت – بدء الاستخراج من العنوان الرئيسي

يخبر خيار من H1 إذا وجدت المستخرج ببدء استخراج المحتوى من أول عنوان H1 يجده (غالباً ما يكون العنوان الرئيسي للمقالة).

ماذا يحدث؟

  • إذا تم التفعيل: يتم تجاهل كل شيء قبل أول H1 (مثل الملاحة أو روابط تسجيل الدخول)، ويبدأ الاستخراج من محتوى المقالة الرئيسي.
  • إذا لم يتم التفعيل: يبدأ استخراج المحتوى من أعلى الصفحة، بما في ذلك كل عناصر الملاحة والعناوين وأي بيانات وصفية فوق المقالة الرئيسية.

مثال استخدام:
ترغب في استخراج الدليل الفعلي فقط، دون أي عناصر تنقل للموقع أو رؤوس صفحات قد تكون موجودة على موقعك.

ملاحظة:
يتم تفعيل خيار من H1 إذا وجدت في مكون مستخرج المستندات بشكل افتراضي.

التحميل من مؤشر – استخراج بدءاً من علامة مميزة معينة

يمنحك خيار التحميل من مؤشر دقة أكبر من خلال السماح لمستخرج المستندات بتحميل البيانات فقط من مؤشر معين في المقالة الطويلة.

ماذا يحدث؟

  • إذا تم التفعيل (وتم تحديد مؤشر): يبدأ الاستخراج من المؤشر المحدد، متجاوزاً كل ما قبله، حتى وإن كان بعد الـ H1.
  • إذا لم يتم التفعيل: يبدأ الاستخراج من الموضع الافتراضي (أعلى المستند أو من أول H1 إذا كان هذا الخيار قيد التفعيل أيضاً).

ما هو “المؤشر”؟
المؤشر عادةً ما يكون سلسلة فريدة أو عنوان موجود في المستند (مثل H2 أو عبارة أو عنوان قسم محدد).

مثال استخدام:
تريد تخطي الأقسام التمهيدية واستخراج المعلومات لقسم معين ذي صلة في مقال أو مستند طويل (مثلاً من “الخطوة 4: إضافة زر محادثة مباشرة” في دليل إعداد).

تخطي آخر عنوان – استبعاد التذييل أو العناوين المتكررة

يعد خيار تخطي آخر عنوان مفيداً لتجاهل آخر عنوان في المستند، والذي غالباً ما يكون متكرراً أو يُستخدم لأغراض التنقل أو التذييل.

ماذا يحدث؟

  • إذا تم التفعيل: يتم تجاهل آخر عنوان (مثل تكرار عنوان المقال أو قسم “مقالات أخرى”) أثناء الاستخراج.
  • إذا لم يتم التفعيل: يتم تضمين جميع العناوين، بما في ذلك الأخير، في الناتج.

مثال استخدام:
ترغب في منع مستخرج المستندات من تحميل عنوان تذييل (مثل “مقالات أخرى” في نهاية صفحة المساعدة)، لضمان معالجة المحتوى الرئيسي فقط.

ملاحظة:
يمكن أن يساعد خيار تخطي آخر عنوان مع المستندات التي تولد تذييلات تلقائية أو عناصر تنقل متكررة. ومع ذلك، إذا لم يكن لديك مثل هذه الأقسام، فقد يؤدي استخدام هذا الخيار إلى عدم استخراج جزء من المقالة يحتوي على معلومات مهمة. لذا، يُنصح بترك هذا الخيار غير مفعل حتى يكون هناك سبب حقيقي لتفعيله.

الحد الأقصى للرموز – التحكم في طول الناتج الأقصى

تتيح لك معلمة الحد الأقصى للرموز التحكم في أقصى عدد من الرموز (الكلمات وعلامات الترقيم كما يحسبها نموذج الذكاء الاصطناعي) التي سيخرجها مستخرج المستندات من النص المستخرج.

ماذا يحدث؟

  • يتم تقييد المحتوى المستخرج بعدد الرموز المحدد، وسيتم استبعاد أي محتوى إضافي يتجاوز هذا الحد.
  • تساعد هذه المعلمة في إدارة المستندات الطويلة جداً، لضمان بقاء الناتج ضمن حدود معالجة نماذج الذكاء الاصطناعي.

القيمة الافتراضية:
القيمة الافتراضية عادةً 3000 رمز، ولكن يمكنك تعديلها إذا لزم الأمر.

مثال استخدام:
إذا كنت تعالج مستندات طويلة، فإن تعيين قيمة أقل للحد الأقصى للرموز يساعد في جعل الردود مختصرة. ومع ذلك، للحصول على أفضل النتائج، يُنصح بتفعيل خيار “التحميل من مؤشر”. هذا يضمن أن يبدأ النص المستخرج من القسم الأكثر صلة في المستند وليس من البداية، مما يسمح لك بالحصول على جزء مركز وقابل للإدارة من المعلومات ضمن الحد الذي حددته من الرموز. هذا الجمع مفيد بشكل خاص عندما ترغب في مخرجات مختصرة وذات صلة سياقياً من مصادر كبيرة.

ملاحظة:
إذا وجدت أن المعلومات يتم اقتطاعها، جرب زيادة قيمة الحد الأقصى للرموز. وعلى العكس، إذا رغبت في مخرجات أقصر وأكثر تركيزاً، قلل قيمة هذه المعلمة.

الاستراتيجية – التحكم في كيفية تحويل عدة مستندات إلى نص

عندما يجد مستخرج المستندات عدة مستندات ذات صلة، تحدد معلمة الاستراتيجية كيفية دمجها في ناتج نصي واحد للروبوت الذكي، مع الأخذ في الاعتبار حد “الحد الأقصى للرموز”.

خياران للاستراتيجية:

  1. تضمين حجم متساوٍ من كل مستند:
    يتم تقسيم الحد من الرموز بالتساوي. على سبيل المثال، مع ثلاثة مستندات وحد 3,000 رمز، يحصل كل واحد على 1,000 رمز كحد أقصى. يضمن ذلك أن تساهم جميع المصادر بشكل متساوٍ، وهو مفيد عندما ترغب في إجابة متوازنة تستند إلى عدة مستندات.

    • استخدمه عندما: يكون لديك وثائق توزع جوانب مختلفة من الموضوع عبر مستندات متعددة، ويتطلب إنشاء إجابة شاملة الاستناد إلى عدة مصادر بالتساوي. هذا النهج فعال عندما لا يحتوي مستند واحد على جميع التفاصيل المطلوبة، وترغب في ضمان تمثيل المعلومات من كل مستند ذي صلة في الرد، مما يوفر منظوراً متنوعاً أو شاملاً.
  2. دمج المستندات، والتعبئة من الأول حتى حد الرموز:
    تُضاف المستندات حسب الأهمية حتى بلوغ حد الرموز. يملأ المستند الأكثر صلة المساحة أولاً؛ وإذا بقي هناك مجال، تتم إضافة المستندات الأقل صلة حسب الترتيب. إذا كان المستند الأول طويلاً، فقد يستهلك كامل الحد بنفسه.

    • استخدمه عندما: يكون لديك مستند يحتوي على معلومات مفصلة عن كل موضوع، وستستفيد الإجابات من استخدام أكبر قدر ممكن من هذا المستند، بدلاً من دمج معلومات من مستندات عدة حول موضوعات متشابهة.

كيف تختار؟

  • استخدم تضمين حجم متساوٍ من كل مستند إذا رغبت في تمثيل متوازن من جميع المصادر.
  • استخدم دمج المستندات، والتعبئة من الأول حتى حد الرموز إذا رغبت في إعطاء الأولوية للمستند الأكثر صلة ولا تهتم كثيراً بتضمين كل مصدر.

ملاحظة:
تؤثر هذه الاستراتيجيات فقط على كيفية بناء النص من المستندات المستخرجة قبل تمريره إلى الخطوة التالية (مثل توليد النص بالذكاء الاصطناعي). ولا تغير أي من هذه الخيارات المستندات التي يتم استرجاعها – بل فقط كيفية دمج محتواها واقتطاعه ليتناسب مع إعداد الحد الأقصى للرموز.

معلمات أخرى لمستخرج المستندات

بينما يركز هذا المقال على إعداد معلمات ‘من H1 إذا وجدت’ و’التحميل من مؤشر’ و’تخطي آخر عنوان’ و’الحد الأقصى للرموز’، يوفر مستخرج المستندات أيضاً معلمات إضافية تساعد في التحكم بكيفية اختيار المستندات واسترجاعها:

عدد المستندات

يحدد هذا الإعداد الحد الأقصى لعدد المستندات التي يجب على النظام استرجاعها، لضمان بقاء النتائج ذات صلة وسرعة توليد الردود.

فئات المستندات

يتيح لك هذا الخيار الاختياري قصر الاسترجاع على فئة واحدة أو أكثر قمت بإنشائها في قسم المستندات ضمن مصادر المعرفة.

إخفاء الموارد

يتيح لك تضمين أو إخفاء قسم منفصل، قبل إجابة الروبوت الفعلية، يحتوي على قائمة بالموارد التي استرجعها المستخرج. عند التكامل مع LiveAgent، يجب تفعيل هذا الخيار، لأن هذا القسم غير مدعوم ولن يُعرض بشكل صحيح في ودجة روبوت LiveAgent.

الجداول الزمنية

يتيح لك تقييد الاسترجاع على جدول زمني واحد أو أكثر قمت بتحديدها للزحف أو تحديث المحتوى في مصادر المعرفة.

العتبة

تتحكم في مدى تطابق المستندات المستخرجة مع استفسارك، باستخدام درجة الصلة (من 0 إلى 1). على سبيل المثال، يوصى بعتبة 0.7–0.8 للحصول على إجابات عالية الصلة. تعطي العتبات الأعلى تطابقات أكثر دقة، بينما قد تتضمن العتبات الأقل مستندات أقل صلة.

مثال:
إذا قمت بتعيين العتبة إلى 0.6 ولديك أربعة مقالات بدرجات صلة 0.8 و0.65 و0.5 و0.9، فسيتم استخدام فقط تلك التي تزيد عن 0.6 (أي 0.8 و0.65 و0.9) للاستخراج.


استكشاف الأخطاء وإصلاحها

إذا لم تتضمن إجابة الروبوت الذكي معلومات تعرف أنها متوفرة في مستنداتك أو جداولك الزمنية، جرب مراجعة سجل المحادثة باستخدام خيار “مفصل” (Verbose) لرؤية سجلات تفصيلية حول ما إذا تم استخدام مستخرج المستندات وما هي المستندات التي تم استرجاعها. إذا لزم الأمر، قم بتعديل إعداداتك والتعليمات بناءً على هذه السجلات.

اعرف المزيد

مسترجع المستندات
مسترجع المستندات

مسترجع المستندات

يعزز مسترجع المستندات من FlowHunt دقة الذكاء الاصطناعي من خلال ربط النماذج التوليدية بمستنداتك وروابطك الخاصة المحدثة، مما يضمن الحصول على إجابات موثوقة وذات صل...

4 دقيقة قراءة
AI Document Retrieval +3
مستخرج الروابط (URL Retriever)
مستخرج الروابط (URL Retriever)

مستخرج الروابط (URL Retriever)

افتح محتوى الويب في سير عملك مع مكون مستخرج الروابط. استخرج النص والبيانات الوصفية من أي قائمة روابط بسهولة—بما في ذلك مقالات الويب، المستندات، والمزيد. يدعم خي...

3 دقيقة قراءة
Automation Web Scraping +4
بحث الذاكرة
بحث الذاكرة

بحث الذاكرة

اكتشف قوة سير العمل لديك مع مكون بحث الذاكرة—استرجع المعلومات ذات الصلة من الذاكرة المخزنة باستخدام استفسارات المستخدم. ابحث، وصفِّ، واستخرج المستندات أو مقتطفا...

3 دقيقة قراءة
AI Memory +4