K-means: differenze tra le versioni

Contenuto cancellato Contenuto aggiunto
+NN +richiesta indobox
Riga 7:
 
==Descrizione formale==
Dati N oggetti con ''<math>i''</math> attributi, modellizzati come vettori in uno spazio vettoriale <math>i</math>-dimensionale, definiamo <math>X={X_1,X_2,\ldots,X_N}</math> come insieme degli oggetti. Ricordiamo che si definisce [[Partizione (teoria degli insiemi)|partizione]] degli oggetti il gruppo di insiemi <math>P={P_1,P_2,\ldots,P_K}</math> che soddisfano le seguenti proprietà:
*<math>\bigcup_1^{K} P_i = X</math> : l'unione di tutti i cluster deve contenere tutti gli oggetti di partenza;
*<math> P_i \cap P_j = \varnothing</math>, i \ne j</math> : ogni oggetto può appartenere ad un solo cluster;
*<math>\varnothing \subset P_i \subset X</math> : almeno un oggetto deve appartenere ad un cluster e nessun cluster può contenere tutti gli oggetti.
 
Ovviamente deve valere anche che <math>1 < K < N</math>; non avrebbe infatti senso né cercare un solo cluster né avere un numero di cluster pari al numero di oggetti.
Una partizione viene rappresentata mediante una matrice <math>U \in \mathbb{N}^{K \times N}</math>, il cui generico elemento <math>u_{ij} = \{0,1\}</math> indica l'appartenenza dell'oggetto <math>j</math> al cluster <math>i</math>.
Indichiamo quindi con <math>C={C_1,C_2,\ldots,C_K}</math> l'insieme dei <math>K</math> centroidi.
A questo punto definiamo la [[Ricerca operativa#Ottimizzazione|funzione obiettivo]] come:
::<math>V(U,C) = \sum_{i=1}^{K} \sum_{X_j \in P_i} ||X_j - C_i ||^2 </math>
Riga 24:
 
Tipici criteri di convergenza sono i seguenti:
* Nessun cambiamento nella matrice <math>U</math>;
* la differenza fra i valori della funzione obiettivo in due iterazioni successive non supera una soglia prefissata.