K-means algoritmo de agrupamiento
Procedimiento
K-means es un algoritmo de tipo No Supervisado, por lo que se trabaja con conjuntos de datos que no tienen etiquetas asignadas. Se basa en el desarrollo de K grupos a partir de la identificación de patrones y encontrando similitudes entre los datos. Ejemplos de características generalmente utilizadas para el agrupamiento son el género, la edad, el país, el historial de compra registrado, entre muchos otros ejemplos, actividad en una aplicación móvil.
El procedimiento de trabajo se resume en:
1- Seleccionar un valor para K (centroides).
2- Asignamos cada uno de los elementos restantes al centro más cercano.
3- Asignamos cada punto a su centroide mas cercano.
4- Repetimos paso 2 y 3 hasta que los centros no se modifiquen.
Source: Platzi.com
Source: ai.plainenglish.io
Método del codo
Lo que hace es dividir los siguiente centroides o información hasta graficarlo en un panel o un eje XY
Calcula el agrupamiento para diferentes de K
El error al cuadrado para cada punto es el cuadrado de las distancia del punto desde su centro.
Source: Platzi.com
Trabajando con el dataset Iris
0
5.1
3.5
1
4.9
3.0
2
4.7
3.2
3
4.6
3.1
4
5.0
3.6
Petal
Predicciones [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
1 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 1 2 2 2 2 1 2 2 2 2
2 2 1 1 2 2 2 2 1 2 1 2 1 2 2 1 1 2 2 2 2 2 1 2 2 2 2 1 2 2 2 1 2 2 2 1 2
2 1]
0.7302382722834697
Sepal
Predicciones [1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 0 2 2 2 2 0 2 2 2 2
2 2 0 0 2 2 2 2 0 2 0 2 0 2 2 0 0 2 2 2 2 2 0 2 2 2 2 0 2 2 2 0 2 2 2 0 2
2 0]
0.7302382722834697