Saltar al contenido principal
Página

Tema 3.1 - Evolución del número de árboles e importancia de las variables



Resumen

Los modelos basados en Random Forests principalmente tienen dos parámetros para optimizar:

1. Número de árboles.

2. Número de variables que se evalúan en cada tirada.

Existen otros parámetros como la profundidad de los árboles, pero en la práctica no se presentan muchos cambios.

En la siguiente gráfica se observa la evolución del error en el conjunto de test en función del número de árboles y del número de variables que se prueban en cada split.

Imagen tomada de: James et.al., 2017


Se observa que el valor de 𝑝 proporciona un error menor que los otros valores.

Tres diferentes resultados de un Random Forests para un problema de clasificación de 15 clases y que tiene 500 predictores.

En principio se puede pensar que cuanto más grande sea el número de árboles mejor. Sin embargo, por lo general existe un punto óptimo donde a pesar de añadir más árboles el error no se reduce de forma significativa.

Una de las ventajas de los modelos Random Forests, es que pueden generar buenos resultados sin necesidad de muchos ajustes manuales. Además, permiten construir de forma sencilla gráficos de importancia de variables.

Última modificación: viernes, 20 de enero de 2023, 10:59