Resumen
La clave de cualquier modelo de aprendizaje automático es su capacidad de generalizar situaciones del futuro en función de los datos históricos observados.
En la siguiente imagen visualizaremos el flujo de cada una de las fases (Entrenamiento/Validación/Prueba).
|
|---|
|
Imagen tomada de: |
En la fase de entrenamiento (a) se extraen las características o variables relevantes de los datos de entrada para construir un modelo por medio de algoritmos de aprendizaje automático. Posteriormente, en la fase predicción (b) se realiza una extracción de variables similar sobre las que se aplica el modelo previamente entrenado para obtener el resultado estimado. (learning, 2022)
Durante la fase de construcción de los modelos de aprendizaje automático, las diferentes implementaciones software proporcionan métricas de error. Estas métricas suelen obtenerse con el conjunto de datos utilizado para realizar el entrenamiento.
Este conjunto de datos se conoce con el nombre de training set o conjunto de entrenamiento.
Las métricas obtenidas con los datos de entrenamiento deben utilizarse solo como referencia, pues no son buenos indicadores del comportamiento futuro.
Un modelo puede ser capaz de tener un error mínimo con datos históricos (conjunto de entrenamiento) y no ser capaz de predecir bien los valores futuros.
Para solucionar el problema anterior, una buena práctica es utilizar un conjunto de datos de test. Este conjunto de datos de test puede estar formado con un subconjunto de los datos de entrenamiento.
|
|---|
|
Imagen tomada de: |
El conjunto de entrenamiento se utiliza para crear el modelo que es evaluado utilizando el conjunto de test. Normalmente, se utiliza un 80% de los datos para crear el conjunto de entrenamiento y un 20% de los datos para generar conjunto de test.
No se pueden utilizar observaciones o instancias del conjunto de test para crear el clasificador.