Saltar al contenido principal
Página

Tema 1.1 - Explotando la diversidad bagging y selección de variables



Resumen

Uno de los inconvenientes principales de los árboles de decisión es su baja capacidad predictiva.

Este inconveniente se puede solventar por medio de un ensemble o combinación de modelos de  árboles de decisión.

El modelo Random Forests es en esencia, un ensemble de árboles de decisión. Los ensembles de árboles se pueden combinar utilizando los métodos de bagging o boosting.

Los modelos de Random Forests se basan en la combinación de árboles por medio métodos como el bagging.

En problemas de clasificación, en cada observación de test se almacena la clase predicha por cada uno de los B árboles y la clase final se obtiene por medio del voto de la mayoría, es decir, la predicción global es la clase  que más veces ocurre a lo largo de las B predicciones.

En el caso de los problemas de regresión la predicción global es la media de las predicciones de cada uno de  los árboles

El modelo de random forests combina los principios de bagging con selección de variables aleatorias para  añadir diversidad a los árboles de decisión. Una vez es generado el ensemble de árboles (forest) el modelo utiliza el mecanismo de votación o la media para  generar las predicciones.

Ejemplo de un problema de clasificación usando Random forest

Imagen tomada de: https://www.fis.unam.mx/~javazquez/MACSS2021.html


Se trata de un modelo que combina versatilidad y potencia en un enfoque.

A la hora de construir cada uno de los árboles, se utiliza una porción pequeña y aleatoria de las variables de entrada disponibles.

Al ser un modelo que genera cada árbol con un subconjunto de los registros de entrada y una selección aleatoria de las variables, puede trabajar con conjuntos de datos bastantes grandes y no se encuentra afectado por los problemas de curse of dimensionality.

Este modelo se basa en la utilización de un gran número de árboles.

La razón de utilizar un gran número de árboles, es para que cada variable de entre todas las posibles, tenga la oportunidad de aparecer en varios modelos.

Última modificación: viernes, 20 de enero de 2023, 10:39