التعرف على الكيانات المسماة (NER)

التعرف على الكيانات المسماة (NER)

يقوم NER بأتمتة تحديد وتصنيف الكيانات في النصوص، مما يمكّن أنظمة الذكاء الاصطناعي من هيكلة البيانات غير المهيكلة لتحليلات متقدمة وأتمتة العمليات.

التعرف على الكيانات المسماة (NER)

يعد التعرف على الكيانات المسماة (NER) مجالًا فرعيًا أساسيًا في معالجة اللغة الطبيعية يهدف إلى تحديد وتصنيف الكيانات في النصوص ضمن فئات مثل الأشخاص والمواقع والمنظمات. يعزز تحليل البيانات في العديد من المجالات، بالاعتماد على تقنيات الذكاء الاصطناعي وتعلم الآلة.

يعتبر التعرف على الكيانات المسماة (NER) مجالًا مهمًا داخل معالجة اللغة الطبيعية يربط بين التفاعل البشري والحاسوبي. اكتشف الجوانب الرئيسية له، وآلية عمله، وتطبيقاته اليوم!") (NLP)، وهو فرع من فروع الذكاء الاصطناعي (AI) يركز على تمكين الآلات من فهم اللغة البشرية ومعالجتها. الوظيفة الأساسية لـ NER هي تحديد وتصنيف المعلومات المهمة في النصوص — المعروفة بالكيانات المسماة — ضمن فئات محددة مسبقًا مثل الأشخاص والمنظمات والمواقع والتواريخ والمصطلحات الهامة الأخرى. يُعرف أيضًا بتجميع الكيانات أو استخراج الكيانات أو تحديد الكيانات.

يعمل NER على اكتشاف وتصنيف المعلومات الأساسية داخل النص، ويشمل ذلك مجموعة واسعة من الموضوعات مثل الأسماء، والمواقع، والشركات، والأحداث، والمنتجات، والمواضيع، والأوقات، والقيم النقدية، والنسب المئوية. وباعتباره تقنية أساسية في مجالات الذكاء الاصطناعي، بما في ذلك تعلم الآلة والتعلم العميق، أصبح NER محورًا في العديد من المجالات العلمية والتطبيقات العملية، حيث أحدث ثورة في كيفية تفاعلنا مع البيانات النصية وتحليلها.

Named Entity Recognition illustration

كيف يعمل NER؟

يعمل NER من خلال عملية متعددة الخطوات تتضمن ما يلي:

  1. اكتشاف الكيانات: يقوم النظام بمسح النص لتحديد الكلمات أو العبارات التي تعتبر كيانات. غالبًا ما يتضمن ذلك تقطيع النص إلى وحدات أصغر تُسمى التوكنات.
  2. تصنيف الكيانات: بعد اكتشاف الكيانات، يتم تصنيفها ضمن فئات محددة مسبقًا مثل شخص، منظمة، موقع، إلخ. قد تستخدم الأنظمة المتقدمة نماذج تعلم آلي مدربة على مجموعات بيانات مشروحة لتحسين الدقة.
  3. المعالجة اللاحقة: بعد التصنيف، قد يقوم نظام NER بمهام إضافية مثل ربط الكيانات بقواعد بيانات، والمعروفة باسم ربط الكيانات، لتعزيز فائدة البيانات المستخرجة.

تشمل التقنية بناء خوارزميات قادرة على تحديد وتصنيف الكيانات من البيانات النصية بدقة. يتطلب ذلك فهمًا عميقًا للمبادئ الرياضية وخوارزميات تعلم الآلة، وربما تقنيات معالجة الصور. أو بدلاً من ذلك، يمكن تسريع تطوير خوارزميات NER قوية ومخصصة لمجموعات بيانات معينة باستخدام أطر عمل شائعة مثل PyTorch وTensorFlow، جنبًا إلى جنب مع النماذج المدربة مسبقًا.

أنواع أنظمة NER

  1. الأنظمة المعتمدة على القواعد
    تعتمد على مجموعة من القواعد اللغوية المحددة مسبقًا لتحديد وتصنيف الكيانات. على الرغم من بساطتها، إلا أنها قد تواجه صعوبة في التعامل مع تنوع النصوص وتتطلب تحديثات مستمرة.
  2. الأنظمة المعتمدة على تعلم الآلة
    تستخدم خوارزميات مثل الحقول العشوائية الشرطية (CRF) أو نماذج ماركوف ذات الحد الأقصى للإنتروبيا (MEMM) والمدربة على بيانات مشروحة. هذه الأنظمة أكثر قدرة على التكيف لكنها تحتاج إلى كميات كبيرة من البيانات المشروحة.
  3. الأنظمة المعتمدة على التعلم العميق
    توظف الشبكات العصبية، مثل الشبكات العصبية المتكررة (RNNs) أو المحولات مثل BERT، لتتعلم الميزات تلقائيًا من البيانات، مما يقلل الحاجة إلى هندسة الميزات يدويًا.
  4. الأنظمة الهجينة
    تجمع بين الأساليب القائمة على القواعد وتعلم الآلة للاستفادة من نقاط القوة في كلا النهجين.

حالات الاستخدام والتطبيقات

يستخدم NER في العديد من المجالات بفضل قدرته على هيكلة البيانات النصية غير المهيكلة. إليك بعض حالات الاستخدام البارزة:

  • استرجاع المعلومات: يعزز محركات البحث بجعل نتائج البحث أكثر ملاءمة ودقة بناءً على الكيانات المحددة في الاستعلامات.
  • توصية المحتوى: يدعم أنظمة التوصية من خلال تحديد المواضيع محل الاهتمام في تفاعلات المستخدمين، مثل اقتراحات نتفليكس بناءً على تفضيلات المشاهد.
  • تحليل المشاعر: يساعد NER في تحديد الكيانات المرتبطة بمشاعر إيجابية أو سلبية في المراجعات أو التعليقات، مما يمكّن الشركات من معالجة القضايا المحددة.
  • إدخال البيانات التلقائي وRPA: في بيئات الشركات، يمكّن NER الروبوتات البرمجية من استخراج البيانات الأساسية من الوثائق مثل الفواتير أو العقود وإدخالها في أنظمة الإدارة، مما يعزز الكفاءة.
  • الرعاية الصحية: يستخرج معلومات طبية حيوية من سجلات المرضى أو الملاحظات السريرية، مما يسهل إدارة المرضى والبحث العلمي.
  • المالية: يحدد ويتتبع ذكر الشركات أو المؤشرات المالية في الأخبار ووسائل التواصل الاجتماعي، مما يساعد في تحليل السوق وتقييم المخاطر.
  • القانون والامتثال: يساعد في تحديد المصطلحات القانونية والأطراف المعنية في كميات كبيرة من النصوص، مما يسهل عمليات التحقق من الامتثال وتحليل العقود.
  • روبوتات الدردشة والمساعدون الذكيون: تستخدم أنظمة مثل ChatGPT من OpenAI وBard من Google نماذج NER لفهم استفسارات المستخدمين بفعالية، وفهم السياق وتقديم ردود أكثر دقة.
  • دعم العملاء: تستفيد أقسام الدعم من أنظمة NER لتصنيف الملاحظات والشكاوى حسب أسماء المنتجات، مما يمكّن من الاستجابة بسرعة وكفاءة.
  • المؤسسات التعليمية: يمكّن NER الطلاب والباحثين والمعلمين من التنقل بين كميات ضخمة من البيانات النصية، مما يسرع الوصول إلى المعلومات ذات الصلة ويعزز البحث العلمي.

فوائد NER

  • أتمتة استخراج البيانات: يقلل الحاجة إلى إدخال البيانات يدويًا من خلال استخراج المعلومات المنظمة تلقائيًا من النصوص غير المنظمة.
  • تحسين دقة معالجة اللغة الطبيعية: يعزز مهام معالجة اللغة الطبيعية الأخرى التي تربط بين التفاعل البشري والحاسوبي. اكتشف الجوانب الرئيسية له، وآلية عمله، وتطبيقاته اليوم!") مثل الإجابة على الأسئلة، وتحسين الدقة باستخدام بيانات فورية. اكتشف المزيد!") والترجمة الآلية من خلال توفير بيانات منظمة للأنظمة.
  • توليد رؤى تحليلية: يزود المؤسسات برؤى حول الاتجاهات وتعليقات العملاء وظروف السوق من خلال تحليل كميات ضخمة من البيانات النصية.

تحديات NER

  • الغموض: صعوبة معالجة الألفاظ المتشابهة (مثل “Apple” التي قد تعني فاكهة أو شركة) واختلاف السياقات.
  • تنوع اللغات: يواجه صعوبة مع اللغات أو اللهجات المختلفة بسبب نقص البيانات المشروحة.
  • الكيانات الخاصة بالمجال: يحتاج إلى بيانات تدريب متخصصة بالمجال لتحديد وتصنيف الكيانات الفريدة بدقة في بعض التخصصات.

المفاهيم والمصطلحات الأساسية

  • تصنيف الأجزاء النحوية (POS Tagging): تعيين الأجزاء النحوية للكلمات في النص مما يساعد على فهم السياق.
  • المجموعة النصية (Corpus): مجموعة كبيرة من النصوص تُستخدم لتدريب نماذج NER.
  • التجميع (Chunking): تجميع الكلمات في وحدات ذات معنى مثل العبارات الاسمية لتسهيل التحليل.
  • تمثيلات الكلمات (Word Embeddings): تمثيلات متجهة كثيفة للكلمات تلتقط معانيها الدلالية وتستخدم لتحسين دقة النماذج.

تنفيذ NER

لتنفيذ NER، يمكن استخدام أطر عمل ومكتبات مثل:

  • SpaCy: مكتبة مفتوحة المصدر بلغة بايثون معروفة بسرعتها وكفاءتها في مهام معالجة اللغة الطبيعية، بما في ذلك NER.
  • Stanford NER: مكتبة مبنية على جافا وتوفر نماذج مدربة مسبقًا لاستخراج الكيانات.
  • OpenNLP: توفر أدوات لمهام معالجة اللغة الطبيعية المختلفة، بما في ذلك NER، وتدعم عدة لغات.
  • خدمات Azure AI للغة: تقدم ميزات NER جاهزة ومخصصة لتحديد وتصنيف الكيانات في النصوص غير المنظمة.

غالبًا ما تأتي هذه الأدوات مع نماذج مدربة مسبقًا، ولكن للتطبيقات المخصصة يُفضّل التدريب على بيانات خاصة بالمجال لتحقيق دقة أعلى.

الأبحاث حول التعرف على الكيانات المسماة (NER)

يُعد التعرف على الكيانات المسماة (NER) مهمة أساسية في معالجة اللغة الطبيعية (NLP) تتضمن تحديد وتصنيف الكيانات المسماة في النصوص ضمن فئات محددة مسبقًا مثل أسماء الأشخاص والمنظمات والمواقع وتعبيرات الوقت والكميات والقيم النقدية والنسب المئوية وغيرها. فيما يلي بعض الأوراق البحثية البارزة حول NER التي تقدم رؤى حول جوانب وطرق مختلفة لهذه المهمة:

  1. تصنيف تسلسل الكيانات المسماة

    • المؤلف: مهدي نمازی‌فر
    • تاريخ النشر: 2017-12-06
      تركز هذه الورقة على مشكلة تحديد مستويات الثقة للكيانات المسماة المكتشفة، والمعروفة بتصنيف تسلسل الكيانات المسماة (NESC). تعرض الدراسة NESC كمهمة تصنيف ثنائي، وتستخدم NER والشبكات العصبية المتكررة لتقدير احتمال أن تكون الكيان المرشح حقيقيًا. تم تطبيق المنهج على بيانات تويتر، وأظهرت كيف يمكن تحديد الكيانات المسماة عالية الثقة من التغريدات. تؤكد الدراسة أهمية وجود مقاييس ثقة موثوقة في التطبيقات مثل توصية المحتوى. اقرأ المزيد
  2. نمذجة الكيانات المسماة المفتوحة من توزيع التمثيلات

    • المؤلفون: يينغ لوو، هاي تشاو، تشوشينغ زانغ، بينغجي تانغ
    • تاريخ النشر: 2021-02-10
      تستكشف هذه الورقة توزيع الكيانات المسماة ضمن فضاء التمثيلات النصية، وتقترح تعريفًا مفتوحًا للكيانات المسماة متعددة اللغات. توضح الدراسة أن الكيانات المسماة تميل إلى التجمع في فضاء التمثيلات، مما يسمح بنمذجة الكيانات باستخدام هيكل هندسي يسمى “الكرة الفائقة للكيانات المسماة”. يوفر هذا النموذج وصفًا مفتوحًا لأنواع و لغات الكيانات المتنوعة، ويقدم نهجًا جديدًا لبناء مجموعات بيانات الكيانات المسماة للغات ذات الموارد المحدودة. وتشير النتائج إلى تحسينات محتملة في أنظمة NER المتقدمة. اقرأ المزيد
  3. CMNEROne في مهمة SemEval-2022 رقم 11: التعرف على الكيانات المسماة في النصوص المختلطة لغويًا عبر الاستفادة من البيانات متعددة اللغات

    • المؤلفان: سومان دولاغار، راديكا ماميدي
    • تاريخ النشر: 2022-06-15
      تتناول هذه الورقة تحديات NER في النصوص المختلطة لغويًا، والتي تتسم بتعقيد لغوي نتيجة مزج اللغات. يأتي هذا العمل ضمن مهمة SEMEVAL 2022 حول MultiCoNER، ويركز على تحديد الكيانات المسماة في مجموعة بيانات مختلطة عبر الاستفادة من البيانات متعددة اللغات. حقق الفريق متوسط F1 مرجح قدره 0.7044، متفوقًا على خط الأساس بنسبة 6%. وتبرز الدراسة الصعوبات والاستراتيجيات الفعالة للتعرف على الكيانات المسماة في السياقات متعددة اللغات والمختلطة. اقرأ المزيد

الأسئلة الشائعة

ما هو التعرف على الكيانات المسماة (NER)؟

NER هو مجال فرعي من معالجة اللغة الطبيعية والذكاء الاصطناعي يركز على تحديد وتصنيف الكيانات تلقائيًا—مثل الأشخاص والمنظمات والمواقع والتواريخ والمزيد—ضمن بيانات نصية غير مهيكلة.

كيف يعمل NER؟

تقوم أنظمة NER عادةً باكتشاف الكيانات المحتملة في النص وتصنيفها في فئات محددة مسبقًا، وقد تستخدم أساليب قائمة على القواعد أو تعلم الآلة أو التعلم العميق لتحسين الدقة.

ما هي الاستخدامات الرئيسية لـ NER؟

يُستخدم NER على نطاق واسع في استرجاع المعلومات، وتوصية المحتوى، وتحليل المشاعر، وإدخال البيانات التلقائي، والرعاية الصحية، والمالية، والامتثال القانوني، وروبوتات الدردشة، ودعم العملاء، والبحث الأكاديمي.

ما هي التحديات التي يواجهها NER؟

قد تواجه أنظمة NER صعوبة في التعامل مع الغموض، وتنوع اللغات، والمصطلحات الخاصة بالمجال، وغالبًا ما تتطلب بيانات تدريب ونماذج مخصصة لتحقيق أداء أمثل.

ما هي الأدوات والأطر الشائعة لتطبيق NER؟

تشمل أدوات NER الشائعة SpaCy وStanford NER وOpenNLP وخدمات Azure AI للغة، والتي توفر العديد منها نماذج مدربة مسبقًا ودعمًا للتدريب المخصص.

جرّب FlowHunt لحلول NER قوية

استفد من أدوات الذكاء الاصطناعي في FlowHunt لأتمتة استخراج الكيانات وتسريع مشاريع معالجة اللغة الطبيعية بسهولة.

اعرف المزيد

فهم تصنيف النوايا في الذكاء الاصطناعي
فهم تصنيف النوايا في الذكاء الاصطناعي

فهم تصنيف النوايا في الذكاء الاصطناعي

تعرّف على أساسيات تصنيف النوايا في الذكاء الاصطناعي، وتقنياته، وتطبيقاته العملية، والتحديات التي يواجهها، والاتجاهات المستقبلية في تعزيز التفاعل بين الإنسان وال...

7 دقيقة قراءة
AI Intent Classification +4
تصنيف النصوص
تصنيف النصوص

تصنيف النصوص

تصنيف النصوص، المعروف أيضًا بتصنيف أو وسم النصوص، هو مهمة أساسية في معالجة اللغة الطبيعية (NLP) تهدف إلى إسناد فئات محددة مسبقًا إلى مستندات نصية. يساعد في تنظي...

6 دقيقة قراءة
NLP Text Classification +4
تضمين الكلمات
تضمين الكلمات

تضمين الكلمات

تضمين الكلمات هو تمثيل متقدم للكلمات في فضاء متجه مستمر، حيث يلتقط العلاقات الدلالية والتركيبية لاستخدامها في مهام معالجة اللغة الطبيعية المتقدمة مثل تصنيف النص...

5 دقيقة قراءة
Word Embeddings NLP +3