Las 10 mejores algoritmos de minería de datos

September 29

La minería de datos es el proceso de analizar y resumir los datos desde diferentes perspectivas. Se esfuerza por definir patrones y relaciones de datos a través de grandes charcos de información utilizando algoritmos --- conjuntos de reglas que resuelven un problema a través de una serie de medidas concretas (pensando que el algoritmo de Euclides en el álgebra, que encuentra máximo común divisor de dos números ').

La Conferencia Internacional IEEE 2006 en la minería de datos ocupa los 10 primeros algoritmos en el campo.

Árboles de decisión

algoritmos de árboles de decisión pretenden organizar los datos en competir opciones en las ramas de la influencia después de una decisión inicial. El tronco del árbol representa la decisión inicial, y comienza con un sí-o-no, como por ejemplo si o no comer el desayuno. El desayuno de comer y no comer el desayuno sería las dos primeras ramas divergentes del árbol, y cada elección a partir de entonces tendría sus propias ramas divergentes que conducen a un punto final.

El algoritmo k-medias

El algoritmo de k-medias se basa en el análisis de conglomerados. Su objetivo es romper los datos recopilados en "grupos" independientes agrupados por características similares.

Máquinas de Vectores Soporte

Algoritmos de apoyo de máquinas de vectores toman los datos de entrada y predecir cuál de las dos posibles categorías que incluyen los datos de entrada. Un ejemplo podría ser la recopilación de los códigos postales de un grupo de votantes y tratar de predecir si un votante dar es un demócrata o republicano.

El algoritmo Apriori

El algoritmo Apriori típicamente un seguimiento de datos de la transacción. Por ejemplo, en una tienda de ropa, el algoritmo podría realizar un seguimiento de lo que las camisas clientes suelen comprar juntos.

El algoritmo EM

Este algoritmo define los parámetros mediante el análisis de datos y predice la probabilidad de un resultado futuro o un evento aleatorio dentro de los parámetros de los datos. Por ejemplo, el algoritmo de EM podría intentar predecir el momento de la próxima erupción de un géiser basado en los datos de tiempo de erupciones pasadas.

Algoritmo PageRank

El algoritmo PageRank es un algoritmo de base para los motores de búsqueda. Se clasifica y calcula la relevancia de una sola pieza de datos dentro de un conjunto más amplio de datos, tales como una sola página web dentro del conjunto más grande de todos los sitios web en Internet.

AdaBoost Algoritmo

El algoritmo Adaboost trabaja dentro de otros algoritmos de aprendizaje que anticipan el comportamiento basado en datos observados para que sean más sensibles a los valores atípicos estadísticos. Aunque el algoritmo EM podría estar sesgada por un géiser que tiene dos erupciones en menos de un minuto cuando se entra en erupción por lo general una vez al día, el algoritmo Adaboost sería ajustar la salida del algoritmo EM mediante el análisis de la relevancia del valor atípico.

K-vecinos más cercanos algoritmo

Este algoritmo reconoce patrones en los datos de ubicación y asocia esos datos con un identificador más grande. Por ejemplo, si desea asignar una oficina de correos a la ubicación geográfica de cada hogar y tenía el banco de datos de la ubicación geográfica de cada hogar, el más cercano-k algoritmo Neighbor asignaría los hogares a la oficina de correos más cercana en función de su proximidad entre sí.

ingenua Baye

El Naive Bayes algoritmo predice un resultado identidad basada en datos de observaciones conocidas. Por ejemplo, si una persona es g pies y seis pulgadas de alto y lleva tamaño de los zapatos 14, el algoritmo bayesiano predeciría con una cierta probabilidad de que la persona es un hombre.

Carro Algoritmo

"Carro" se refiere a un análisis "árboles de clasificación y regresivo". Al igual que el análisis de árbol de decisión, que organiza los datos en base a elecciones, como si una persona ha sobrevivido a un terremoto de la competencia? A diferencia de los algoritmos de árbol de decisión, que sólo puede clasificar a un resultado o dar un resultado numérico basado en la regresión, el algoritmo CART puede utilizar tanto para predecir la probabilidad de un evento.

Tecnología