التجميع
التجميع هو تقنية تعلم آلي غير خاضعة للإشراف تقوم بتجميع نقاط البيانات المتشابهة معًا، مما يتيح تحليل البيانات الاستكشافي دون الحاجة إلى بيانات معنونة. تعرف على ...
تجميع K-Means هو خوارزمية فعالة لتجميع البيانات في مجموعات بناءً على التشابه، وتستخدم على نطاق واسع في تجزئة العملاء، وتحليل الصور، واكتشاف الشذوذ.
تجميع K-Means هو خوارزمية تعلم آلي غير خاضعة للإشراف شائعة تُستخدم لتقسيم مجموعة بيانات إلى عدد محدد مسبقًا من المجموعات المتميزة وغير المتداخلة. تعمل الخوارزمية من خلال محاولة تقليل مجموع المربعات للمسافات بين نقاط البيانات ومراكز مجموعاتها، وهي متوسط مواقع جميع النقاط في المجموعة. تُعد هذه التقنية مفيدة بشكل خاص لتحديد الأنماط أو التجمعات الطبيعية داخل البيانات دون الحاجة إلى نتائج معنونة.
يعتمد تجميع K-Means على فكرة تجميع نقاط البيانات بناءً على تشابهها. كل مجموعة تمثلها مركز، وهو متوسط جميع نقاط البيانات في تلك المجموعة. الهدف هو إيجاد مواقع المراكز المثلى التي تقلل التباين داخل كل مجموعة مع تعظيم المسافة بين المجموعات المختلفة.
يهدف هذا التكرار إلى تقليل مجموع المربعات للأخطاء (SSE)، وهو إجمالي المسافة من كل نقطة إلى مركزها المخصص. من خلال تقليل SSE، يضمن K-Means أن تكون المجموعات مدمجة ومنفصلة قدر الإمكان.
الهدف الأساسي من تجميع K-Means هو تقسيم مجموعة البيانات إلى K من المجموعات بحيث يتم تعظيم التشابه داخل المجموعة (أي أن نقاط البيانات في نفس المجموعة تكون قريبة قدر الإمكان من بعضها) وتقليل التشابه بين المجموعات (أي أن المجموعات تكون متميزة قدر الإمكان). يتحقق ذلك من خلال تقليل مجموع المربعات للمسافات من كل نقطة بيانات إلى مركز مجموعتها المقابل.
تسعى الخوارزمية لإيجاد التقسيم الأمثل الذي ينتج مجموعات متماسكة ومنفصلة، مما يسهل تفسير البنية الأساسية للبيانات.
يُستخدم تجميع K-Means على نطاق واسع في مجالات متنوعة، منها:
يُعد اختيار العدد الأمثل للمجموعات أمرًا بالغ الأهمية للحصول على تجميع فعال. تشمل الطرق الشائعة:
يمكن أن يؤثر اختيار K بشكل كبير على نتائج التجميع، وغالبًا ما يتم تحديده وفقًا لمتطلبات التطبيق وطبيعة مجموعة البيانات.
يمكن تنفيذ خوارزمية K-Means باستخدام لغات برمجة ومكتبات شائعة مثل مكتبة scikit-learn
في بايثون. يتضمن التنفيذ النموذجي تحميل مجموعة البيانات، وتهيئة المراكز، والتكرار بين التعيينات والتحديثات، وأخيرًا تقييم النتائج.
import pandas as pd
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
# تحميل مجموعة البيانات
customer_data = pd.read_csv('customer_data.csv')
# اختيار الخصائص للتجميع
X = customer_data[['Annual Income', 'Spending Score']]
# تطبيق تجميع K-Means
kmeans = KMeans(n_clusters=3, init='k-means++', max_iter=300, n_init=10, random_state=0)
kmeans.fit(X)
# عرض المجموعات
plt.scatter(X['Annual Income'], X['Spending Score'], c=kmeans.labels_, cmap='viridis')
plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], s=300, c='red')
plt.title('شرائح العملاء')
plt.xlabel('الدخل السنوي')
plt.ylabel('درجة الإنفاق')
plt.show()
يوضح هذا المثال كيفية تنفيذ K-Means لتجزئة العملاء. من خلال تجميع العملاء بناءً على دخلهم ودرجة إنفاقهم، يمكن للشركات فهم سلوك العملاء بشكل أفضل وتخصيص استراتيجياتها.
يُعد تجميع K-Means طريقة مستخدمة على نطاق واسع في تحليل البيانات والتعلم الآلي غير الخاضع للإشراف لتقسيم مجموعة بيانات إلى مجموعات متميزة. تهدف الخوارزمية إلى تقليل التباين داخل كل مجموعة عن طريق تعيين نقاط البيانات إلى أقرب مركز وتحديث المراكز بناءً على التعيينات الحالية بشكل متكرر. فيما يلي بعض الدراسات البارزة التي تستكشف جوانب مختلفة من تجميع K-Means:
تنفيذ خوارزمية K-Means العلائقية (تاريخ النشر: 2013-04-25) للباحث Balázs Szalkai يقدم تنفيذًا بلغة C# لنسخة معممة تُعرف باسم k-means العلائقي. يوسع هذا النهج طريقة k-means التقليدية لتشمل الفضاءات غير الإقليدية من خلال السماح بأن يكون الإدخال مصفوفة مسافات تعسفية بدلاً من الحاجة إلى تمثيل العناصر كمتجهات. يوسع هذا التعميم قابلية تطبيق k-means على مجموعة أوسع من هياكل البيانات. رابط الورقة
التجميع العميق باستخدام K-Means الملموس (تاريخ النشر: 2019-10-17) للباحث Boyan Gao وآخرين، يتناول دمج تعلم الميزات والتجميع بطريقة غير خاضعة للإشراف. يقترح البحث نهجًا جديدًا يحسن هدف k-means باستخدام مقدر التدرج من خلال حيلة إعادة التمركز Gumbel-Softmax، مما يتيح التدريب من البداية للنهاية دون تحسين متبادل. يُظهر هذا الأسلوب أداءً محسنًا على معايير التجميع مقارنة بالاستراتيجيات التقليدية. رابط الورقة
تجميع K-Means الضبابي بدون مراكز مجموعات (تاريخ النشر: 2024-04-07) للباحث Han Lu وآخرين، يقدّم خوارزمية جديدة لتجميع k-means الضبابي لا تعتمد على مراكز مجموعات محددة مسبقًا، متناولًا بذلك الحساسية لاختيار المراكز الأولية والضوضاء. تعتمد الطريقة على حساب مصفوفة العضوية باستخدام مصفوفة المسافات، مما يعزز المرونة والمتانة. تم إثبات الروابط النظرية مع تقنيات k-means الضبابي الحالية، وتظهر التجارب على مجموعات بيانات حقيقية فعالية الخوارزمية. رابط الورقة
تجميع K-Means هو خوارزمية تعلم آلي غير خاضعة للإشراف تقوم بتقسيم مجموعة بيانات إلى عدد محدد من المجموعات عن طريق تقليل مجموع المربعات للمسافات بين نقاط البيانات ومراكز مجموعاتها.
يعمل تجميع K-Means من خلال تهيئة مراكز المجموعات، ثم تعيين كل نقطة بيانات إلى أقرب مركز، وتحديث مراكز المجموعات بناءً على النقاط المخصصة، وتكرار هذه الخطوات حتى تثبت المراكز.
تشمل التطبيقات الشائعة تجزئة العملاء، تجزئة الصور، تجميع المستندات، واكتشاف الشذوذ في مجالات مثل التسويق، الرعاية الصحية، والأمن.
يمكن اختيار العدد الأمثل للمجموعات باستخدام تقنيات مثل طريقة الكوع أو درجة السيلويت، والتي تساعد على تحقيق التوازن بين تماسك المجموعة والانفصال بينها.
تشمل المزايا البساطة والكفاءة وقابلية التوسع. أما التحديات فتشمل الحساسية لمواقع المراكز الأولية، والحاجة لتحديد عدد المجموعات مسبقًا، وقابلية التأثر بالقيم الشاذة.
استفد من قوة التجميع المدعوم بالذكاء الاصطناعي لتجزئة العملاء، واكتشاف الأنماط، وأكثر من ذلك. ابدأ مع أدوات FlowHunt البديهية.
التجميع هو تقنية تعلم آلي غير خاضعة للإشراف تقوم بتجميع نقاط البيانات المتشابهة معًا، مما يتيح تحليل البيانات الاستكشافي دون الحاجة إلى بيانات معنونة. تعرف على ...
خوارزمية الجيران الأقرب (KNN) هي خوارزمية تعلم إشرافي غير معلمي تُستخدم في مهام التصنيف والانحدار في تعلم الآلة. تتنبأ بالنتائج من خلال إيجاد أقرب 'k' نقاط بيان...
التجميع، أو الاختصار لـ Bootstrap Aggregating، هو تقنية أساسية في التعلم الجماعي في الذكاء الاصطناعي وتعلم الآلة تهدف إلى تحسين دقة النموذج وقوته من خلال تدريب ...