Resumen
Las metodologías de validación nos permiten usar ese conjunto de datos de manera apropiada para realizar la selección de los parámetros del modelo y estimar medidas de desempeño confiables.
Existen varias maneras de mostrar los datos, las dos metodologías más utilizadas son validación cruzada y Bootstrapping.
|
Validación cruzada |
Validación Bootstrapping |
|---|---|
|
En primer lugar, se divide el conjunto de datos de manera aleatoria en dos subconjuntos: Training y Test, típicamente 80% - 20% respectivamente. (cruzada, 2022) El conjunto de entrenamiento a su vez se divide nuevamente de manera aleatoria en k subconjuntos disyuntos, se usan k−1 subconjuntos para entrenar y el conjunto restante para validar. Proceso se repite k veces. |
En este la partición de las muestras entre entrenamiento y validación se realiza utilizando aleatoriamente definiendo un porcentaje para entrenamiento/validación y un número de repeticiones. La diferencia fundamental con la metodología anterior es que en el caso de Bootstrapping es posible que una misma muestra se repita en dos subconjuntos de validación. Adicionalmente en el caso de validación cruzada los porcentajes de entrenamiento y validación están definidos implícitamente por el número de folds, mientras que en Bootstrapping no. |
|
|
|
Imagen tomada de: |
Imagen tomada de: |
|
|