Tecnología

Inicio

K-means clustering MATLAB Tutorial

Es posible que a menudo desean para dividir los datos en grupos significativos sobre la base de un cierto grado de "proximidad". Sin embargo, decidir cómo ir realmente acerca de la partición es altamente subjetiva y por lo tanto abierto a las críticas de otros investigadores. La solución a este problema es k-means clustering. K-means clustering es un algoritmo que divide automáticamente sus datos para usted. Es una forma de aprendizaje automático que da una partición de datos óptima bajo un conjunto de restricciones. MATLAB ofrece una función de k-medias que se puede aplicar fácilmente a su conjunto de datos de agrupamiento.

Instrucciones

1 Leer los datos en MATLAB como una matriz. Busque el archivo de datos en el ordenador y recordar el nombre de archivo (por ejemplo, "Datafile.dat"). Utilice el comando "[dat, Vars, casos] = tblread (nombre de archivo)", donde "nombre de archivo" es el nombre del archivo que contiene los datos, tales como "Datafile.dat." Pulsa enter y la variable "que" será una matriz de datos que contiene los datos.

2 Decidir sobre el número de medios para el algoritmo de agrupamiento k-medias. El número de medios que elija va a ser exactamente igual al número de grupos cedió. Utilice las propiedades de los datos y el problema en cuestión a decidir el número de grupos que desea particionar los datos.

3 Decidir cómo el algoritmo de agrupamiento k-medias debe calcular la distancia entre los puntos. Hay dos métodos comunes para calcular la distancia de este algoritmo: euclidiana y correlacional. Euclidiana sólo se ve a la distancia "física" entre los puntos como si se representan gráficamente en un plano cartesiano. distancia correlacional tiene en cuenta la variación de los datos y puede ser más adecuado cuando se trata de datos que tiene una distribución conocida (como la distribución normal).

4 Ejecutar el algoritmo de agrupamiento k-medias. Utilice el comando "ind = KMeans (dat, g," distancia ")" donde "g" es un número que representa el número de grupos que desee y "distancia" es el tipo de distancia que desea el k-means clustering algoritmo para utilizar : "sqEuclidean" para la distancia euclídea y "correlación" para la distancia de correlación.