الانتروبي المتقاطع
الانتروبي المتقاطع هو مفهوم محوري في نظرية المعلومات وتعلم الآلة، ويعمل كمقياس لقياس التباعد بين توزيعين احتماليين. في تعلم الآلة، يُستخدم كدالة خسارة لقياس الف...
يقسّم التحقق المتقاطع البيانات إلى مجموعات تدريب وتحقق عدة مرات لتقييم وتحسين تعميم النموذج في تعلم الآلة.
التحقق المتقاطع هو طريقة إحصائية تُستخدم لتقييم ومقارنة نماذج تعلم الآلة من خلال تقسيم البيانات إلى مجموعات تدريب وتحقق عدة مرات. الفكرة الأساسية هي تقييم مدى تعميم نتائج النموذج على مجموعة بيانات مستقلة، مما يضمن أن النموذج لا يعمل جيدًا فقط على بيانات التدريب بل أيضًا على بيانات جديدة غير مرئية. تُعد هذه التقنية ضرورية لتقليل مشكلات مثل الإفراط في التكيّف، حيث يتعلم النموذج بيانات التدريب بشكل مفرط، بما في ذلك الضوضاء والقيم الشاذة، لكنه يفشل في الأداء الجيد على بيانات جديدة.
يتضمن التحقق المتقاطع تقسيم مجموعة البيانات إلى مجموعات فرعية مكملة، حيث تُستخدم إحداها لتدريب النموذج والأخرى للتحقق منه. يتم تكرار العملية لعدة جولات، مع استخدام مجموعات فرعية مختلفة للتدريب والتحقق في كل جولة. ثم يتم حساب متوسط نتائج التحقق لإنتاج تقدير واحد لأداء النموذج. توفر هذه الطريقة قياسًا أكثر دقة لقدرة النموذج على التنبؤ مقارنةً بتقسيم التدريب والاختبار لمرة واحدة فقط.
التحقق المتقاطع ذو K طيّة
التحقق المتقاطع الطبقي ذو K طيّة
التحقق المتقاطع بترك نقطة واحدة (LOOCV)
طريقة الحجز (Holdout Method)
التحقق المتقاطع لسلاسل الزمن
التحقق المتقاطع بترك P نقاط
التحقق المتقاطع مونت كارلو (Shuffle-Split)
يُعد التحقق المتقاطع عنصرًا أساسيًا في تقييم نماذج تعلم الآلة. فهو يوفر رؤى حول كيفية أداء النموذج على بيانات غير مرئية ويساعد في ضبط المعاملات الفائقة من خلال السماح بتدريب النموذج والتحقق منه على مجموعات فرعية متعددة من البيانات. يمكن أن يوجه هذا الاختيار لأفضل نموذج أداءً وأفضل معاملات فائقة، مما يعزز قدرة النموذج على التعميم.
من الفوائد الرئيسة للتحقق المتقاطع قدرته على اكتشاف الإفراط في التكيّف. من خلال التحقق من النموذج على مجموعات بيانات فرعية متعددة، يوفر التحقق المتقاطع تقديرًا أكثر واقعية لأداء تعميم النموذج. فهو يضمن ألا يقتصر دور النموذج على حفظ بيانات التدريب، بل يتعلم التنبؤ بدقة مع بيانات جديدة. من ناحية أخرى، يمكن تحديد النقص في التكيّف إذا كان أداء النموذج ضعيفًا عبر جميع مجموعات التحقق، مما يشير إلى فشله في التقاط الأنماط الأساسية للبيانات.
افترض وجود مجموعة بيانات بها 1000 عنصر. في التحقق المتقاطع ذو 5 طيّات:
يُعد التحقق المتقاطع أداة أساسية في ضبط المعاملات الفائقة. على سبيل المثال، عند تدريب آلة الدعم النقطي (SVM):
عند وجود عدة نماذج مرشحة للنشر:
بالنسبة لبيانات السلاسل الزمنية:
توفر مكتبات بايثون مثل Scikit-learn دوال مدمجة لتنفيذ التحقق المتقاطع.
مثال على تنفيذ التحقق المتقاطع ذو k طيّة باستخدام Scikit-learn:
from sklearn.model_selection import cross_val_score, KFold
from sklearn.svm import SVC
from sklearn.datasets import load_iris
# تحميل مجموعة البيانات
iris = load_iris()
X, y = iris.data, iris.target
# إنشاء مصنف SVM
svm_classifier = SVC(kernel='linear')
# تحديد عدد الطيّات
num_folds = 5
kf = KFold(n_splits=num_folds, shuffle=True, random_state=42)
# تنفيذ التحقق المتقاطع
cross_val_results = cross_val_score(svm_classifier, X, y, cv=kf)
# مقاييس التقييم
print(f'Cross-Validation Results (Accuracy): {cross_val_results}')
print(f'Mean Accuracy: {cross_val_results.mean()}')
التحقق المتقاطع هو طريقة إحصائية تُستخدم لتقدير كفاءة نماذج تعلم الآلة. يُستخدم بشكل أساسي في تعلم الآلة التطبيقي لتقدير أداء النموذج على بيانات جديدة. يتضمن التحقق المتقاطع تقسيم مجموعة البيانات إلى مجموعات فرعية مكملة، وإجراء التحليل على إحدى المجموعات (مجموعة التدريب)، والتحقق من التحليل على المجموعة الأخرى (مجموعة الاختبار). لتقديم فهم أعمق للتحقق المتقاطع، يمكن الرجوع إلى عدة أوراق علمية:
Approximate Cross-validation: Guarantees for Model Assessment and Selection
Ashia Wilson, Maximilian Kasy, and Lester Mackey (2020)
يناقش الكثافة الحسابية للتحقق المتقاطع مع العديد من الطيّات، ويقترح تقريبًا عبر خطوة نيوتن واحدة، ويوفر ضمانات لمشكلات التنبؤ غير السلسة.
اقرأ المزيد هنا
Counterfactual Cross-Validation: Stable Model Selection Procedure for Causal Inference Models
Yuta Saito and Shota Yasui (2020)
يركز على اختيار النموذج في توقع متوسط التأثير الشرطي للعلاج، ويقترح مقياسًا جديدًا لتصنيف الأداء الثابت والدقيق، مفيد في الاستدلال السببي.
اقرأ المزيد هنا
Blocked Cross-Validation: A Precise and Efficient Method for Hyperparameter Tuning
Giovanni Maria Merola (2023)
يقدم التحقق المتقاطع المجزأ (BCV)، ويوفر تقديرات خطأ أكثر دقة مع عمليات حسابية أقل، مما يعزز كفاءة ضبط المعاملات الفائقة.
اقرأ المزيد هنا
التحقق المتقاطع هو طريقة إحصائية تقوم بتقسيم البيانات إلى مجموعات تدريب وتحقق متعددة لتقييم أداء النموذج وضمان تعميمه بشكل جيد على بيانات غير مرئية.
يساعد في اكتشاف الإفراط أو النقص في التكيّف، ويوفر تقديرًا واقعيًا لأداء النموذج، ويوجه ضبط المعاملات الفائقة واختيار النموذج.
تشمل الأنواع الشائعة: التحقق المتقاطع ذو K طيّة، والتحقق المتقاطع الطبقي، وترك نقطة واحدة LOOCV، وطريقة الحجز، والتحقق المتقاطع لسلاسل الزمن، وترك P نقاط، والتحقق المتقاطع مونت كارلو.
من خلال تدريب وتقييم النماذج على مجموعات بيانات فرعية متعددة، يساعد التحقق المتقاطع في تحديد أفضل مجموعة من المعاملات الفائقة التي تحقق أعلى أداء في التحقق.
يمكن أن يكون التحقق المتقاطع مكلفًا حسابيًا، خاصةً مع مجموعات البيانات الكبيرة أو الطرق مثل LOOCV، وقد يتطلب عناية خاصة مع البيانات غير المتوازنة أو بيانات السلاسل الزمنية.
شات بوت وأدوات ذكاء اصطناعي ذكية في مكان واحد. اربط الكتل البديهية لتحويل أفكارك إلى تدفقات مؤتمتة.
الانتروبي المتقاطع هو مفهوم محوري في نظرية المعلومات وتعلم الآلة، ويعمل كمقياس لقياس التباعد بين توزيعين احتماليين. في تعلم الآلة، يُستخدم كدالة خسارة لقياس الف...
منحنى التعلم في الذكاء الاصطناعي هو تمثيل بياني يوضح العلاقة بين أداء التعلم للنموذج والمتغيرات مثل حجم مجموعة البيانات أو عدد تكرارات التدريب، مما يساعد في تشخ...
مصفوفة الالتباس هي أداة في تعلم الآلة لتقييم أداء نماذج التصنيف، حيث توضح الإيجابيات/السلبيات الحقيقية والخاطئة لتقديم رؤى تتجاوز الدقة، وتعد مفيدة بشكل خاص في ...