Curba Elbow (curba cotului) este o metodă grafică folosită pentru a determina numărul optim de clustere într-o analiză KMeans.
Când aplicăm KMeans, trebuie să specificăm câte clustere vrem (parametrul K). Dar cum știm care este numărul ideal? Aici intervine curba Elbow!
- Rulăm KMeans pentru diferite valori ale lui K (ex: 1, 2, 3, 4, 5... 10 clustere)
- Calculăm inerția pentru fiecare K
- Plotăm un grafic: K pe axa X, inerția pe axa Y
- Căutăm "cotul" - punctul unde curba se îndoaie dramatic
Inerție
|
|●
| \
| ●
| \
| ●___
| ●___●___●___●
|________________________ K (număr clustere)
↑
"COTUL"
- Inainte de cot: Inerția scade dramatic - fiecare cluster adăugat îmbunătățește mult modelul
- La cot: Punctul de echilibru optim
- După cot: Inerția scade puțin - clustere suplimentare aduc beneficii minime
Dacă graficul arată:
- K=1: Inerție = 50000 (foarte mare)
- K=2: Inerție = 25000 (scădere mare)
- K=3: Inerție = 15000 (scădere mare) ← COTUL!
- K=4: Inerție = 13000 (scădere mică)
- K=5: Inerție = 12000 (scădere mică)
→ K=3 este optim! După acest punct, adăugarea de clustere nu mai ajută mult.
Pentru că forma graficului seamănă cu un braț îndoit la cot - prima parte coboară abrupt (antebrațul), apoi se aplatizează (brațul).