Tecnología

Inicio

Cómo construir una base de datos de árbol de decisión

Cómo construir una base de datos de árbol de decisión


Los árboles de decisión son objeto de intensos estudios académicos en los campos de la investigación de operaciones y la informática. Si bien no es necesariamente la mejor manera de estructurar la información necesaria para llegar a una conclusión, los árboles de decisión funcionan bien con algoritmos informáticos uniformes de ayuda a la decisión. Además, proporcionan un método para expresar las reglas de negocio de una manera que las personas que no tienen experiencia previa con los árboles de decisión son capaces de seguir. Un árbol de decisión es una similar a un diagrama de flujo, lo que permite la navegación a través de un camino de opciones hasta que se llegó a una conclusión final.

Instrucciones

1 Obtener los conjuntos de datos que serán utilizados para el análisis y la verificación del árbol final. Más datos utilizados en el análisis dará lugar a una representación de árbol más precisa del proceso de decisión. Hay muchas maneras diferentes para crear y estructurar un árbol de decisión. El algoritmo ID3 es un enfoque principios sobre los que se han basado las variaciones más sofisticadas.

2 Una lista de todos los atributos que son utilizados por el conjunto de datos. Por ejemplo, en un conjunto de datos de la aplicación de préstamos bancarios, el registro para cada solicitante incluirá atributos tales como nombre, dirección, teléfono, ingresos, valor de la vivienda, hipoteca, banco y saldos de tarjetas de crédito.

Si la creación manual de un árbol de decisión, naturalmente excluir atributos tales como nombre, que no se pueden esperar de influir en la decisión de conceder un préstamo. Cuando se utilizan técnicas de minería de datos informáticos, todos los atributos se consideran, dejando el programa de ordenador para determinar cuáles tienen ninguna relevancia para el resultado final.

3 Especificar qué atributo es el atributo de destino. En el ejemplo de una solicitud de préstamo, el atributo de destino es el que indica si el préstamo fue concedido o denegado.

4 Seleccione el atributo para proporcionar la mayor ganancia de información para su uso como el nodo raíz. El árbol se compone de nodos de decisión y nodos hoja. En los nodos de decisión, se crea una rama para cada valor posible del atributo de destino. Cada rama representa los registros de datos que comparten el mismo valor para el atributo de destino.

Un nodo hoja se alcanza cuando todos los registros que se analicen en el nodo actual tiene el mismo resultado para el atributo de destino. En el ejemplo de préstamo, si todos los que se aplica para un préstamo es aprobado, todo el árbol de decisión es el caso trivial de un solo nodo hoja sin ramas. Es más probable que los datos se dividen en dos ramas: aprobadas y denegadas.

Métodos de cálculo seleccionando el atributo de usar en cualquier nodo del árbol son extremadamente complejas. Busque el atributo que predice con mayor fuerza el resultado objetivo. Intuitivamente, "ingreso" sería un mejor candidato para el nodo raíz de "nombre de pila".

5 Quitar el atributo de la raíz de la lista de posibles atributos que se utilizará para los nodos rama. Seleccione el atributo que queda con la mayor ganancia de información para asignar a los nodos rama.

En el presente ejemplo, los nodos rama en cada punto en el árbol crean ramas de los préstamos aprobados y denegados. Puede haber cualquier número de ramas procedentes de un nodo de árbol de decisión, dependiendo de cuántos valores posibles se pueden asignar a un atributo de destino.

6 Repita el proceso a lo largo de todas las ramas hasta que haya alcanzado un nodo hoja en la que todos los datos comparte el mismo valor para el atributo de destino. La profundidad máxima del árbol en cualquier punto será el número total de atributos identificados en el inicio.

Es probable que no todos los atributos es relevante para la decisión en cada rama y por lo que algunas ramas serán más cortos. Una vez que haya completado el árbol, caminar a través de ella para encontrar las reglas que se haya obtenido. Por ejemplo, usted podría encontrar que "un préstamo será aprobado si usted tiene un ingreso alto, alto nivel de ahorro y ninguna deuda."

7 Utilizar los datos de prueba establecidos para validar el árbol creado. El árbol debe predecir con precisión los resultados de los nuevos datos.