Inertia (inertia/within-cluster sum of squares - WCSS) este o metrică care măsoară cat de compacte sunt clusterele în modelul KMeans.
Inertia = suma distanțelor patratice dintre fiecare punct și centroidul clusterului său
Inerție = Σ ||xᵢ - cₖ||²
unde:
- xᵢ = un punct de date
- cₖ = centroidul clusterului k
- ||...||² = distanța pătrată (euclidiană)
Imaginează-ți că ai 3 grupuri de jucători NBA:
- Grup 1: Jucători care aruncă puțin de la 3 puncte
- Grup 2: Jucători moderați la 3 puncte
- Grup 3: Specialiști la 3 puncte
Fiecare grup are un centroid (punctul central/media grupului).
Inerția măsoară: Cât de departe sunt jucătorii de centrul grupului lor?
- Jucătorii sunt aproape de centrul grupului lor
- Clusterele sunt compacte și omogene
- Jucătorii din același grup sunt similari între ei
- Jucătorii sunt răspândiți departe de centru
- Clusterele sunt difuze și neomogene
- Jucătorii din același grup sunt foarte diferiți
Cluster COMPACT (inerție mică): Cluster DIFUZ (inerție mare):
● ●
● X ● ● ●
● ● X ●
● ●
(X = centroid)
Să zicem că ai un cluster cu 3 jucători:
Jucător A: 100 aruncări 3P
Jucător B: 110 aruncări 3P
Jucător C: 105 aruncări 3P
Centroid: 105 aruncări 3P
Inerția = (100-105)² + (110-105)² + (105-105)²
Inerția = 25 + 25 + 0 = 50 (inerție mică - cluster compact!)
Dacă ar fi fost:
Jucător A: 50 aruncări 3P
Jucător B: 200 aruncări 3P
Jucător C: 100 aruncări 3P
Centroid: ~117 aruncări 3P
Inerția ar fi fost mult mai mare - jucătorii sunt foarte diferiți!
- KMeans încearcă să minimizeze inerția - caută cea mai bună grupare
- Compară modele diferite - model cu inerție mai mică = grupare mai bună
- Curba Elbow folosește inerția pentru a găsi numărul optim de clustere
- Inerția scade mereu când adaugi mai multe clustere
- Cu K = număr de puncte → inerția = 0 (dar e inutil!)
- De aceea folosim curba Elbow - pentru echilibru între inerție mică și număr rezonabil de clustere