Saltar al contenido principal
Página

Tema 1.1 - Introducción a los arboles de decisión


Resumen

Los árboles de decisión son una de las técnicas más populares dentro del campo del aprendizaje automático. Estos modelos dividen o segmentan el espacio de las variables predictoras en una serie de regiones. Una vez creado el árbol de decisión es utilizado para predecir observaciones futuras. Para este propósito se utiliza la moda en el caso de que la variable a predecir sea categórica (clasificación) o bien la media en el caso de que sea numérica (regresión). Como el conjunto de las reglas para separar las variables predictoras se pueden resumir en forma de árbol, a estos métodos se les conoce popularmente con el nombre de árboles de decisión. Los árboles de decisión dividen el espacio en rectángulos que minimizan el error de la predicción. 

Ejemplo: Árbol de decisión sencillo para estimar el salario de los jugadores de béisbol en función de los años y de los golpes.





El árbol de decisión anterior se obtiene por medio de la representación en un espacio de dos dimensiones de los puntos donde están el eje de años (years) y el de los golpes (hits). 

Cada uno de esos puntos le corresponde un salario determinado y el objetivo es agrupar aquellos puntos que tienen un salario similar utilizando la información de las otras dos variables (golpes y años de experiencia).




El árbol de decisión se obtiene por medio de un algoritmo que elige primero aquella variable que es más predictiva de la variable objetivo.

El árbol de decisión se obtiene por medio de un algoritmo que elige primero aquella variable que es más predictiva de la variable objetivo. 

A continuación, los ejemplos de entrenamiento se dividen en grupos con distintos valores para las clases de esta primera variable. El algoritmo continúa dividiendo los nodos con la elección de la mejor variable en cada iteración hasta que se alcance el criterio de parada. En cada iteración el algoritmo elige aquella variable que mejor predice la variable objetivo. 

El criterio de parada puede venir dado por algunas de estas situaciones:

1. Todos, o casi todos, los ejemplos del nodo son de la misma clase.

2. No existen variables para distinguir entre los ejemplos.

3. El árbol ha alcanzado un tamaño predefinido. Los árboles de decisión dividen o segmentan el espacio de las variables predictoras en una serie de regiones. 

En el caso de los árboles utilizados para modelos de regresión se utiliza la media para estimar los valores que se encuentran en una determinada región. En el caso de los modelos de clasificación se utiliza la moda de la clase.





Última modificación: martes, 28 de marzo de 2023, 05:25