Saltar al contenido principal
Página

Tema 4.1 - Metodologías de Validación.



Resumen

Las metodologías de validación nos permiten usar ese conjunto de datos de manera apropiada para realizar la selección de los parámetros del modelo y estimar medidas de desempeño confiables.

Existen varias maneras de mostrar los datos, las dos metodologías más utilizadas son validación cruzada y Bootstrapping.

Validación cruzada

Validación Bootstrapping

En primer lugar, se divide el conjunto de datos de manera aleatoria en dos subconjuntos: Training y Test, típicamente 80% - 20% respectivamente. (cruzada, 2022)

El conjunto de entrenamiento a su vez se divide nuevamente de manera aleatoria en k subconjuntos disyuntos, se usan k−1 subconjuntos para entrenar y el conjunto restante para validar.

Proceso se repite k veces.

En este la partición de las muestras entre entrenamiento y validación se realiza utilizando aleatoriamente definiendo un porcentaje para entrenamiento/validación y un número de repeticiones. La diferencia fundamental con la metodología anterior es que en el caso de Bootstrapping es posible que una misma muestra se repita en dos subconjuntos de validación. Adicionalmente en el caso de validación cruzada los porcentajes de entrenamiento y validación están definidos implícitamente por el número de folds, mientras que en Bootstrapping no.

... ...

Imagen tomada de:
https://scikit-learn.org/stable/modules/cross_validation.html

Imagen tomada de:
http://rasbt.github.io/mlxtend/user_guide/evaluate/BootstrapOutOfBag/

  • El proceso de entrenamiento y validación se utiliza para seleccionar los hiperparámetros del modelo.

  • El conjunto de test para evaluar el desempeño una vez escogido el mejor subconjunto de parámetros.

  • La división de las muestras entre entrenamiento y validación se realiza aleatoriamente definiendo un porcentaje para entrenamiento/validación y un número de repeticiones.

  • La diferencia fundamental con la metodología anterior es que en el caso de Bootstrapping (Bootstrapping, 2022) es posible que una misma muestra se repita en dos subconjuntos de validación.

Última modificación: lunes, 2 de enero de 2023, 15:48