تحويل المستند إلى نص

تحويل المستند إلى نص

حوّل البيانات المهيكلة إلى نص ماركداون مقروء باستخدام مكوّن تحويل المستند إلى نص من FlowHunt، مع تحكمات قابلة للتخصيص لإخراج فعال وملائم مدعوم بالذكاء الاصطناعي.

وصف المكون

كيف يعمل مكون تحويل المستند إلى نص

يمكن للذكاء الاصطناعي تحليل كميات كبيرة من البيانات في ثوانٍ، لكن جزءًا فقط من هذه البيانات سيكون ذا صلة أو مناسبًا للإخراج. يمنحك مكوّن تحويل المستند إلى نص التحكم في كيفية معالجة البيانات من أدوات الجلب وتحويلها إلى نص.

تم تصميم مكوّن تحويل المستند إلى نص لتحويل مستندات المعرفة المدخلة إلى صيغة نصية بسيطة. هذا مفيد بشكل خاص في تدفقات عمل الذكاء الاصطناعي ومعالجة البيانات حيث يُطلب بيانات نصية لمزيد من المعالجة أو التحليل أو كمدخلات لنماذج اللغة.

ماذا يفعل المكوّن

يستقبل هذا المكوّن مستندًا واحدًا أو أكثر من المستندات المهيكلة (مثل HTML، ماركداون، PDF أو أي تنسيقات مدعومة أخرى) ويستخرج المحتوى النصي منها. يسمح لك بتحديد الأجزاء التي ترغب بتصديرها بدقة، وما إذا كنت تريد تضمين البيانات الوصفية، وكيفية التعامل مع أقسام المستند أو رؤوسه. الناتج هو كائن رسالة موحد يحتوي على النص المستخرج، وجاهز للمهام التالية مثل التلخيص أو التصنيف أو الإجابة عن الأسئلة.

المدخلات

يقبل المكوّن عدة مدخلات قابلة للتهيئة:

اسم المدخلالنوعمطلوبالوصفالقيمة الافتراضية
المستنداتقائمة[مستند]نعممستندات المعرفة التي سيتم تحويلها إلى نص.غير متوفر (من المستخدم)
من H1 إذا وجدمنطقينعمبدء الاستخراج من أول عنوان H1 إذا كان موجودًا.true
التحميل من مؤشرمنطقينعمبدء الاستخراج من المؤشر الأكثر تطابقًا مع استعلام الإدخال، أو تحميل الكل إذا لم يوجد تطابق.true
أقصى عدد من الرموزعدد صحيحلاالحد الأقصى لعدد الرموز في النص الناتج.3000
تخطي آخر عنوانمنطقينعمتخطي آخر عنوان (غالبًا تذييل) لتحسين الإخراج.false
الإستراتيجيةنصنعماستراتيجية استخراج النص: دمج المستندات أو تضمين حجم متساوي من كل مستند.“تضمين حجم متساوٍ من كل مستند”
تصدير المحتوىاختيار متعددلاأنواع المحتوى التي سيتم تضمينها (مثل H1، H2، الفقرات).جميع الأنواع محددة
تضمين البيانات الوصفيةاختيار متعددلاحقول البيانات الوصفية التي يمكن تضمينها في الإخراج إذا كانت متوفرة.المنتج

أنواع المحتوى المتاحة: H1، H2، H3، H4، H5، H6، فقرة
خيارات البيانات الوصفية: المؤلف، المنتج، BreadcrumbList، VideoObject، BlogPosting، FAQPage، WebSite، opengraph

المخرجات

ينتج المكوّن الإخراج التالي:

  • رسالة: كائن رسالة يحتوي على النص المحول وأي بيانات وصفية مضافة.

الميزات الرئيسية والفائدة

  • استخراج محتوى مرن: تحكم بدقة في الأجزاء التي يتم استخراجها من مستنداتك (مثل العناوين الرئيسية والفقرات فقط، أو كل المحتوى).
  • تضمين البيانات الوصفية: خيار لإضافة بيانات وصفية غنية (مثل المؤلف، المنتج، أو بيانات منظمة) في الإخراج، مفيد للسياق في المراحل التالية.
  • إدارة حد الرموز: التحكم في حجم الإخراج بما يتناسب مع متطلبات النماذج اللاحقة عن طريق تحديد الحد الأقصى للرموز.
  • استراتيجية استخراج مخصصة:
    • دمج المستندات، تعبئة من الأول حتى حد الرموز: يعطي أولوية لتعبئة الإخراج تسلسليًا من أول مستند.
    • تضمين حجم متساوٍ من كل مستند: يوازن المحتوى من مستندات متعددة ضمن حد الرموز.
  • معالجة ذكية للأقسام: خيارات لتخطي تذييلات المستند أو البدء من القسم الأكثر صلة باستعلامك، مما يزيد من ملاءمة النص المستخرج.

حالات الاستخدام النموذجية

  • معالجة قواعد المعرفة لنماذج الذكاء الاصطناعي (مثلًا قبل التضمين أو الفهرسة).
  • تلخيص أو اختصار المستندات الكبيرة من خلال استخراج الأقسام ذات الصلة فقط.
  • إدخال المحتوى المهيكل في روبوتات الدردشة، أو محركات البحث، أو أنظمة معالجة اللغة الطبيعية الأخرى.
  • بناء أنظمة استرجاع هجينة تجمع بين النص والبيانات الوصفية لسياق أغنى.

جدول الملخص

الإمكانيةالوصف
أنواع المدخلاتقائمة من المستندات
نوع المخرجاترسالة (نص + بيانات وصفية)
دقة المحتوىتحديد العناوين/الفقرات المراد تضمينها
خيارات البيانات الوصفيةتحديد عدة حقول بيانات وصفية للتصدير
التحكم في حجم الإخراجتعيين الحد الأقصى للرموز
استراتيجيات الاستخراجدمج أو توازن عبر المستندات
اختيار الأقسامبدء من H1، من مؤشر، أو تخطي آخر عنوان

الإستراتيجية

قد يقوم الروبوت بجلب العديد من المستندات لإنشاء النص الناتج. يتيح لك إعداد الإستراتيجية التحكم في كيفية استخدام هذه المستندات بذكاء مع الالتزام بحد الرموز.

حاليًا، هناك استراتيجيتان ممكنتان:

  • تضمين حجم متساوٍ من كل مستند: يستخدم جميع المستندات التي تم العثور عليها بشكل متساوٍ.
  • دمج المستندات، تعبئة من الأول حتى حد الرموز: يربط المستندات معًا مع إعطاء الأولوية حسب مدى صلتها بالاستعلام.

كيفية ربط مكوّن تحويل المستند إلى نص في تدفقك

هذا مكوّن محوّل، أي أنه يربط بين مخرجين. يأخذ تحويل المستند إلى نص المستندات الناتجة من مكونات أدوات الجلب:

  • أداة جلب المستندات – يحصل على المعرفة من مصادر المعرفة المتصلة (صفحات، مستندات، إلخ).
  • أداة جلب من عنوان URL – تتيح لك تحديد عنوان URL ليحصل منه الروبوت على المعرفة.
  • GoogleSearch – تمنح الروبوت القدرة على البحث في الويب عن المعرفة.

يتم تحويل المعرفة إلى نص ماركداون مقروء أثناء مرورها عبر المحول. يمكن بعد ذلك ربط هذا النص بمكونات تتطلب مدخلات نصية، مثل القواطع، أو الأدوات، أو المخرجات.

فيما يلي مثال على تدفق يستخدم مكوّن تحويل المستند إلى نص للربط بين أدوات جلب المستندات ومولد الذكاء الاصطناعي:

Example of how to use Document Retriever in Flowhunt

الأسئلة الشائعة

ما هو مكوّن تحويل المستند إلى نص؟

يقوم هذا المكوّن بجلب المعرفة من مكونات أدوات الجلب وتحويلها إلى نص ماركداون مقروء، والذي يمكن بعد ذلك ربطه بأي مكوّن يقبل النص كمدخل.

جرّب تحويل المستند إلى نص في FlowHunt

ابدأ ببناء حلول ذكاء اصطناعي أذكى مع مكون تحويل المستند إلى نص من FlowHunt. حوّل البيانات بسلاسة إلى نص قابل للتنفيذ وعزز تدفقات العمل المؤتمتة لديك.

اعرف المزيد

تصدير إلى ملف
تصدير إلى ملف

تصدير إلى ملف

تتيح لك مكونة التصدير إلى ملف في FlowHunt حفظ النصوص أو البيانات التي تم إنشاؤها أثناء سير عملك في ملفات قابلة للتنزيل بصيغ متعددة، بما في ذلك TXT وPDF وCSV وغي...

2 دقيقة قراءة
Automation File Export +3
تحليل البيانات
تحليل البيانات

تحليل البيانات

يحوّل مكون تحليل البيانات البيانات المهيكلة إلى نص عادي باستخدام قوالب قابلة للتخصيص. يتيح ذلك تنسيقًا مرنًا وتحويلًا لمدخلات البيانات لاستخدامها لاحقًا في سير ...

2 دقيقة قراءة
Data Processing Automation +3
محوّل النصوص الذكية إلى نصوص بشرية
محوّل النصوص الذكية إلى نصوص بشرية

محوّل النصوص الذكية إلى نصوص بشرية

حوّل النصوص التي تم إنشاؤها بواسطة الذكاء الاصطناعي أو النصوص الآلية إلى لغة طبيعية وجذابة تشبه أسلوب البشر باستخدام أداة محوّل النصوص الذكية المتقدمة. تعيد هذه...

2 دقيقة قراءة
AI Content Writing +3