
معالجة اللغة الطبيعية (NLP)
تمكن معالجة اللغة الطبيعية (NLP) أجهزة الكمبيوتر من فهم اللغة البشرية وتفسيرها وتوليدها باستخدام اللغويات الحاسوبية وتعلم الآلة والتعلم العميق. تدعم NLP تطبيقات...
بيرت هو نموذج ثوري لمعالجة اللغة الطبيعية من جوجل يستخدم المحولات ثنائية الاتجاه لتمكين الآلات من فهم اللغة بسياقها، مما يدعم تطبيقات الذكاء الاصطناعي المتقدمة.
بيرت، والذي يرمز إلى تمثيلات التشفير ثنائية الاتجاه من المحولات، هو إطار عمل مفتوح المصدر للتعلم الآلي لمعالجة اللغة الطبيعية (NLP). تم تطويره بواسطة باحثي لغة الذكاء الاصطناعي في جوجل وطرح لأول مرة في عام 2018، وقد أحدث بيرت تقدمًا كبيرًا في معالجة اللغة الطبيعية من خلال تمكين الآلات من فهم اللغة بشكل أقرب لطريقة البشر.
في جوهره، يساعد بيرت أجهزة الكمبيوتر على تفسير معاني اللغة الغامضة أو المعتمدة على السياق في النص عبر أخذ الكلمات المحيطة في الجملة بعين الاعتبار—قبل وبعد الكلمة المستهدفة. يسمح هذا النهج الثنائي الاتجاه لبيرت بفهم كامل لفروق اللغة، مما يجعله فعالًا جدًا في مجموعة واسعة من مهام معالجة اللغة الطبيعية.
قبل بيرت، كانت معظم نماذج اللغة تعالج النص باتجاه واحد (إما من اليسار إلى اليمين أو من اليمين إلى اليسار)، مما حد من قدرتها على التقاط السياق.
النماذج السابقة مثل Word2Vec وGloVe أنشأت تمثيلات كلمات ثابتة، حيث تعطي متجهًا واحدًا لكل كلمة بغض النظر عن السياق. كان هذا النهج يواجه صعوبة مع الكلمات متعددة المعاني (مثل “bank” التي تعني مؤسسة مالية أو ضفة نهر).
في عام 2017، تم تقديم بنية المحول في ورقة بحثية بعنوان “Attention Is All You Need”. المحولات هي نماذج تعلم عميق تستخدم آلية الانتباه الذاتي، ما يسمح لها بتقييم أهمية كل جزء من المدخلات بشكل ديناميكي.
أحدثت المحولات ثورة في معالجة اللغة الطبيعية من خلال معالجة جميع كلمات الجملة في آن واحد، مما مكّن من التدريب على نطاق أوسع.
استند باحثو جوجل إلى بنية المحول لتطوير بيرت، والذي تم تقديمه في ورقة عام 2018 بعنوان “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”. كانت ابتكار بيرت هو تطبيق التدريب ثنائي الاتجاه، بحيث ينظر إلى السياق من كلا الجانبين.
تم تدريب بيرت مسبقًا على ويكيبيديا الإنجليزية بالكامل (2.5 مليار كلمة) وBookCorpus (800 مليون كلمة)، مما منحه فهمًا عميقًا للأنماط والتركيب والدلالات.
بيرت هو مجموعة من مكدسات التشفير في بنية المحول (يستخدم التشفير فقط وليس فك التشفير). يتكون من عدة طبقات (12 أو 24 كتلة محول)، كل منها تحتوي على انتباه ذاتي وشبكات عصبية أمامية.
يستخدم بيرت تقسيم WordPiece، حيث يتم تقطيع الكلمات إلى وحدات فرعية لمعالجة الكلمات النادرة أو غير المعروفة.
يمثل كل رمز مدخل بمجموع ثلاثة تمثيلات:
تساعد هذه التمثيلات بيرت على فهم البنية والدلالة معًا.
تتيح آلية الانتباه الذاتي لبيرت تقييم أهمية كل رمز بالنسبة للرموز الأخرى في التسلسل، مما يلتقط العلاقات بغض النظر عن المسافة بينها.
على سبيل المثال، في جملة “The bank raised its interest rates”، يساعد الانتباه الذاتي بيرت على ربط “bank” بـ “interest rates”، ويفهم أن “bank” تشير إلى مؤسسة مالية.
يتيح التدريب ثنائي الاتجاه لبيرت التقاط السياق من كلا الجانبين. ويتم ذلك عبر هدفين تدريبيين:
في MLM، يختار بيرت عشوائيًا 15% من الرموز لاستبدالها:
[MASK]
تشجع هذه الاستراتيجية على فهم أعمق للغة.
مثال:
[MASK]
jumps over the lazy [MASK]
.”يساعد NSP بيرت على فهم العلاقات بين الجمل.
أمثلة:
بعد التدريب المسبق، يتم ضبط بيرت لاحقًا لمهام معالجة اللغة الطبيعية المحددة من خلال إضافة طبقات إخراج. ويتطلب الضبط اللاحق بيانات وموارد حسابية أقل من التدريب من الصفر.
يدعم بيرت العديد من مهام معالجة اللغة الطبيعية، وغالبًا ما يحقق نتائج متقدمة.
يمكن لبيرت تصنيف المشاعر (مثلاً: تقييمات إيجابية/سلبية) بدقة عالية.
يفهم بيرت الأسئلة ويوفر إجابات من السياق.
يحدد NER الكيانات الأساسية (الأسماء، المؤسسات، التواريخ).
على الرغم من أن بيرت لم يُصمم للترجمة، إلا أن فهمه العميق للنص يساعد في الترجمة عند دمجه مع نماذج أخرى.
يمكن لبيرت توليد ملخصات مختصرة من خلال تحديد المفاهيم الأساسية.
يتوقع بيرت الكلمات أو التسلسلات المقنعة، مما يساعد في توليد النصوص.
في عام 2019، بدأت جوجل في استخدام بيرت لتحسين خوارزميات البحث وفهم سياق واستهداف الاستفسارات.
مثال:
يدعم بيرت الشات بوتات، مما يحسن من فهم مدخلات المستخدم.
تعالج نماذج بيرت المتخصصة مثل BioBERT النصوص الطبية الحيوية.
يستخدم المحامون بيرت لتحليل وتلخيص النصوص القانونية.
توجد عدة تعديلات على بيرت لزيادة الكفاءة أو التخصص في مجالات معينة:
يدعم الفهم السياقي لبيرت العديد من تطبيقات الذكاء الاصطناعي:
حسن بيرت بشكل كبير جودة الشات بوتات وأتمتة الذكاء الاصطناعي.
أمثلة:
يمكّن بيرت أتمتة الذكاء الاصطناعي لمعالجة كميات كبيرة من النصوص دون تدخل بشري.
حالات الاستخدام:
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
المؤلفون: جيكوب ديفلين، مينغ-وي تشانغ، كينتون لي، كريستينا توتانوفا
تقدم هذه الورقة بنية بيرت وفعاليتها في عدة اختبارات قياسية، من خلال تمكين الضبط المشترك للسياقين الأيسر والأيمن.
اقرأ المزيد
Multi-Task Bidirectional Transformer Representations for Irony Detection
المؤلفون: تشيو زانغ، محمد عبد المجيد
تطبق بيرت لاكتشاف السخرية باستخدام التعلم المتعدد المهام والتدريب المسبق للتكيف مع المجال. تحقق نتيجة 82.4 في مؤشر F1 الكلي.
اقرأ المزيد
Sketch-BERT: Learning Sketch Bidirectional Encoder Representation from Transformers by Self-supervised Learning of Sketch Gestalt
المؤلفون: هانغيو لين، يانوي فو، يو-غانغ جيانغ، شيانغيانغ شيوي
تقدم Sketch-BERT للتعرف على الرسومات واسترجاعها، وتطبق التعلم الذاتي الإشراف وشبكات التمثيل المبتكرة.
اقرأ المزيد
Transferring BERT Capabilities from High-Resource to Low-Resource Languages Using Vocabulary Matching
المؤلف: بيوتر ريباك
يقترح مطابقة المفردات لتكييف بيرت مع اللغات ضعيفة الموارد، مما يساهم في نشر تقنيات معالجة اللغة الطبيعية.
اقرأ المزيد
بيرت (تمثيلات التشفير ثنائية الاتجاه من المحولات) هو إطار عمل مفتوح المصدر للتعلم الآلي لمعالجة اللغة الطبيعية، طورته جوجل للذكاء الاصطناعي في عام 2018. يمكّن الآلات من فهم اللغة بشكل سياقي من خلال أخذ السياق من كلا جانبي الكلمة باستخدام بنية المحول.
على عكس النماذج أحادية الاتجاه السابقة، يعالج بيرت النص بشكل ثنائي الاتجاه، مما يسمح له بالتقاط السياق الكامل للكلمة من خلال النظر إلى الكلمات السابقة واللاحقة. يؤدي ذلك إلى فهم أعمق لفروق اللغة الدقيقة، مما يعزز الأداء في جميع مهام معالجة اللغة الطبيعية.
يستخدم بيرت على نطاق واسع في تحليل المشاعر، والإجابة على الأسئلة، والتعرف على الكيانات المسماة، وترجمة النصوص، وتلخيص النصوص، وتوليد النصوص، وتعزيز الشات بوتات ونظم الأتمتة للذكاء الاصطناعي.
تشمل إصدارات بيرت الشائعة DistilBERT (نسخة أخف)، TinyBERT (محسن للسرعة والحجم)، RoBERTa (بتدريب أولي محسن)، BioBERT (للنصوص الطبية الحيوية)، ونماذج مخصصة للمجالات مثل PatentBERT وSciBERT.
يتم تدريب بيرت مسبقًا باستخدام نمذجة اللغة المقنعة (MLM)، حيث يتم إخفاء كلمات عشوائية وتوقعها، وتوقع الجملة التالية (NSP)، حيث يتعلم النموذج العلاقة بين أزواج الجمل. بعد التدريب المسبق، يتم ضبطه لاحقًا على مهام معالجة اللغة الطبيعية المحددة بطبقات إضافية.
حسّن بيرت بشكل كبير الفهم السياقي للشات بوتات وأدوات الأتمتة، مما مكن من استجابات أكثر دقة، ودعم أفضل للعملاء، ومعالجة المستندات بكفاءة مع تدخل بشري ضئيل.
شات بوتات ذكية وأدوات ذكاء اصطناعي تحت سقف واحد. وصل بين اللبنات بسهولة لتجعل أفكارك تدفقات مؤتمتة.
تمكن معالجة اللغة الطبيعية (NLP) أجهزة الكمبيوتر من فهم اللغة البشرية وتفسيرها وتوليدها باستخدام اللغويات الحاسوبية وتعلم الآلة والتعلم العميق. تدعم NLP تطبيقات...
مجموعة أدوات اللغة الطبيعية (NLTK) هي مجموعة شاملة من مكتبات وبرامج بايثون لمعالجة اللغة الطبيعية الرمزية والإحصائية (NLP). تُستخدم على نطاق واسع في الأوساط الأ...
معالجة اللغة الطبيعية (NLP) هي فرع من فروع الذكاء الاصطناعي (AI) يتيح للحواسيب فهم اللغة البشرية وتفسيرها وتوليدها. اكتشف الجوانب الرئيسية، وكيفية عملها، وتطبيق...