التجميع
التجميع هو تقنية تعلم آلي غير خاضعة للإشراف تقوم بتجميع نقاط البيانات المتشابهة معًا، مما يتيح تحليل البيانات الاستكشافي دون الحاجة إلى بيانات معنونة. تعرف على ...
التجميع هو تقنية في التعلم الجماعي تعزز الدقة التنبؤية من خلال دمج عدة نماذج مدربة على مجموعات بيانات مأخوذة بإعادة السحب وتجميع مخرجاتها.
التجميع (Bagging)، أو الاختصار لـ Bootstrap Aggregating، هو تقنية أساسية في التعلم الجماعي تُستخدم في الذكاء الاصطناعي وتعلم الآلة لتعزيز دقة وقوة النماذج التنبؤية. تعتمد هذه التقنية على إنشاء عدة مجموعات فرعية من بيانات التدريب من خلال السحب العشوائي مع الإرجاع، والذي يُعرف بإعادة السحب (Bootstrapping). تُستخدم هذه المجموعات الفرعية لتدريب عدة نماذج أساسية، تُسمى أيضاً المتعلمين الضعفاء، بشكل مستقل. ثم تُجمع توقعات هذه النماذج، عادةً من خلال المتوسط في مهام الانحدار أو التصويت بالأغلبية في مهام التصنيف، مما يؤدي إلى توقع نهائي يقل فيه التباين وتتحسن الاستقرارية.
التعلم الجماعي هو نموذج في تعلم الآلة يعتمد على استخدام عدة نماذج لبناء نموذج أقوى. الفكرة الأساسية هي أن مجموعة من النماذج، عند عملها معاً، يمكن أن تتفوق على أي نموذج منفرد. يشبه هذا الأسلوب فريقاً من الخبراء يجمعون رؤاهم للوصول إلى تنبؤ أكثر دقة. تقنيات التعلم الجماعي، بما في ذلك التجميع والتقوية والتكديس، تستفيد من نقاط قوة النماذج الفردية لتحسين الأداء من خلال معالجة الأخطاء المرتبطة بالتباين أو التحيز. يُعد هذا النهج مفيداً بشكل خاص في مهام تعلم الآلة التي تعاني فيها النماذج الفردية من تباين أو تحيز مرتفع، مما يؤدي إلى الإفراط في التوافق أو ضعف التوافق.
إعادة السحب هي تقنية إحصائية تعتمد على إنشاء عدة عينات عشوائية من مجموعة بيانات مع السماح بتكرار العناصر. في سياق التجميع، تتيح إعادة السحب لكل نموذج أن يحصل على وجهة نظر مختلفة قليلاً لنفس البيانات، وغالباً ما تتضمن نقاط بيانات مكررة. يساعد هذا التنوع في مجموعات البيانات التدريبية على تقليل احتمالية الإفراط في التوافق من خلال ضمان أن كل نموذج يلتقط جوانب مختلفة من البيانات. تُعد إعادة السحب عنصراً أساسياً في بناء مجموعة النماذج في التجميع، حيث تضمن تدريب النماذج على عينات متنوعة، مما يعزز قوة النموذج الجماعي وقدرته على التعميم.
المتعلمون الأساسيون هم النماذج الفردية التي تُدرب على عينات بيانات مختلفة في عملية التجميع. غالباً ما تكون هذه النماذج بسيطة أو ضعيفة، مثل أشجار القرار، والتي قد لا تقدم أداءً تنبؤياً قوياً بشكل منفرد. ومع ذلك، عند دمجها، تشكل نموذجاً جماعياً قوياً. يؤثر اختيار المتعلم الأساسي بشكل كبير على أداء المجموعة؛ حيث تُعتبر أشجار القرار خياراً شائعاً لبساطتها وقدرتها على التقاط العلاقات غير الخطية في البيانات. التنوع بين المتعلمين الأساسيين، الناتج عن تعرضهم لعينات بيانات مختلفة تم اختيارها بطريقة إعادة السحب، هو مفتاح نجاح التجميع.
التجميع هو الخطوة النهائية في عملية التجميع، حيث يتم دمج توقعات المتعلمين الأساسيين لإنتاج المخرج النهائي. في مهام الانحدار، يتم غالباً حساب متوسط التوقعات لتخفيف الأخطاء. في مهام التصنيف، يُستخدم التصويت بالأغلبية لتحديد الفئة النهائية. تساعد عملية التجميع هذه في تقليل تباين توقعات النموذج، مما يؤدي إلى مزيد من الاستقرار والدقة. من خلال دمج مخرجات عدة نماذج، يُخفف التجميع من تأثير أخطاء أي نموذج منفرد، مما ينتج عنه توقع جماعي أكثر قوة.
يتبع التجميع عملية منظمة لتحسين أداء النماذج:
مثال بارز على تطبيق التجميع هو خوارزمية الغابة العشوائية، التي تستخدم التجميع مع أشجار القرار كمتعلمين أساسيين. يتم تدريب كل شجرة على عينة مختلفة مأخوذة بطريقة إعادة السحب، ويتم التنبؤ النهائي من خلال تجميع توقعات جميع الأشجار. تُستخدم الغابة العشوائية على نطاق واسع في مهام التصنيف والانحدار لقدرتها على التعامل مع مجموعات بيانات كبيرة وذات أبعاد عالية، بالإضافة إلى مقاومتها للإفراط في التوافق.
يمكن تنفيذ التجميع بسهولة في بايثون باستخدام مكتبات مثل scikit-learn. فيما يلي مثال أساسي باستخدام BaggingClassifier
مع شجرة قرار كالمقدر الأساسي:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.ensemble import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
# تحميل مجموعة بيانات Iris
iris = load_iris()
X = iris.data
y = iris.target
# تقسيم مجموعة البيانات إلى تدريب واختبار
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# تهيئة المصنف الأساسي
base_classifier = DecisionTreeClassifier(random_state=42)
# تهيئة مصنف التجميع
bagging_classifier = BaggingClassifier(base_estimator=base_classifier, n_estimators=10, random_state=42)
# تدريب مصنف التجميع
bagging_classifier.fit(X_train, y_train)
# إجراء التنبؤات على مجموعة الاختبار
y_pred = bagging_classifier.predict(X_test)
# حساب الدقة
accuracy = accuracy_score(y_test, y_pred)
print("دقة مصنف التجميع:", accuracy)
التجميع، أو Bootstrap Aggregating، هو تقنية جماعية تدرب عدة نماذج أساسية على عينات بيانات مختارة عشوائياً. يتم تجميع توقعاتهم لتقليل التباين وتحسين الدقة والثبات للنموذج النهائي.
من خلال تدريب كل نموذج أساسي على عينات مختلفة تم اختيارها بطريقة إعادة السحب، يولد التجميع تنوعاً بين النماذج. عند تجميع التوقعات، يتم تخفيف أخطاء النماذج الفردية، مما يقلل من الإفراط في التوافق ويعزز التعميم.
تُعتبر أشجار القرار هي أكثر المتعلمين الأساسيين استخداماً في التجميع لبساطتها وارتفاع تباينها، ويمكن أيضاً استخدام خوارزميات أخرى حسب المشكلة.
يستخدم التجميع في الرعاية الصحية للنمذجة التنبؤية، والتمويل للكشف عن الاحتيال، والبيئة للتنبؤات البيئية، وأمن تكنولوجيا المعلومات لاكتشاف التسلل في الشبكات، وغيرها.
يقوم التجميع بتدريب النماذج الأساسية بشكل مستقل ويجمع مخرجاتها لتقليل التباين، بينما تدرب التقوية النماذج بشكل تسلسلي مع التركيز على تصحيح الأخطاء السابقة لتقليل التحيز والتباين معاً.
ابدأ في بناء حلول الذكاء الاصطناعي باستخدام أدوات FlowHunt البديهية وروبوتات الدردشة. قم بتوصيل الوحدات، وأتمتة المهام، واجعل أفكارك حقيقة.
التجميع هو تقنية تعلم آلي غير خاضعة للإشراف تقوم بتجميع نقاط البيانات المتشابهة معًا، مما يتيح تحليل البيانات الاستكشافي دون الحاجة إلى بيانات معنونة. تعرف على ...
انحدار الغابة العشوائية هو خوارزمية قوية في تعلم الآلة تُستخدم للتحليلات التنبؤية. تقوم بإنشاء عدة أشجار قرار وتُعدل متوسط مخرجاتها للحصول على دقة أعلى، وموثوقي...
التعزيز هو تقنية في تعلم الآلة تجمع تنبؤات عدة متعلمين ضعفاء لإنشاء متعلم قوي، مما يُحسّن الدقة ويتعامل مع البيانات المعقدة. تعرف على الخوارزميات الرئيسية، والف...