Resumen
Uno de los inconvenientes principales de los árboles de decisión es su baja capacidad predictiva.
Este inconveniente se puede solventar por medio de un ensemble o combinación de modelos de árboles de decisión.
El modelo Random Forests es en esencia, un ensemble de árboles de decisión. Los ensembles de árboles se pueden combinar utilizando los métodos de bagging o boosting.
Los modelos de Random Forests se basan en la combinación de árboles por medio métodos como el bagging.
En problemas de clasificación, en cada observación de test se almacena la clase predicha por cada uno de los B árboles y la clase final se obtiene por medio del voto de la mayoría, es decir, la predicción global es la clase que más veces ocurre a lo largo de las B predicciones.
En el caso de los problemas de regresión la predicción global es la media de las predicciones de cada uno de los árboles.
El modelo de random forests combina los principios de bagging con selección de variables aleatorias para añadir diversidad a los árboles de decisión. Una vez es generado el ensemble de árboles (forest) el modelo utiliza el mecanismo de votación o la media para generar las predicciones.
Ejemplo de un problema de clasificación usando Random forest
Imagen tomada de: https://www.fis.unam.mx/~javazquez/MACSS2021.html
Se trata de un modelo que combina versatilidad y potencia en un enfoque.
A la hora de construir cada uno de los árboles, se utiliza una porción pequeña y aleatoria de las variables de entrada disponibles.
Al ser un modelo que genera cada árbol con un subconjunto de los registros de entrada y una selección aleatoria de las variables, puede trabajar con conjuntos de datos bastantes grandes y no se encuentra afectado por los problemas de curse of dimensionality.
Este modelo se basa en la utilización de un gran número de árboles.
La razón de utilizar un gran número de árboles, es para que cada variable de entre todas las posibles, tenga la oportunidad de aparecer en varios modelos.