Saltar al contenido principal
Página

Tema 3.1 - Poda de los árboles


Resumen

El proceso de generación de cortes recursivos denominado top-down greedy puede generar buenas predicciones en el conjunto de entrenamiento, pero también sufre el problema del sobre ajuste. Este motivo se debe a que el árbol resultante puede llegar a ser muy complejo y ajustarse muy bien a los datos de entrenamiento. Un árbol mucho más pequeño puede dar lugar a una menor varianza y mejor interpretación con el coste de un pequeño sesgo. La estrategia para generar estos árboles más pequeños y con una menor varianza suele ser generar un árbol muy grande y después podarlo para obtener un sub-árbol.


¿Cómo seleccionamos el sub-árbol?


Una buena solución es utilizar aquel sub-árbol que proporcione un menor error de test en validación- cruzada (cross validaiton) o bien en el conjunto de validación.



Se observa que el punto optimo es utilizar tres niveles



Última modificación: miércoles, 18 de enero de 2023, 13:59