Saltar al contenido principal
Página

Tema 3.1 - Comprobando la Calidad de las Predicciones

Comprobando la Calidad de las Predicciones

Ahora tenemos una función que puede predecir el precio de cualquier espacio habitable que queramos listar siempre que sepamos el número de personas que puede alojar. La función que escribimos representa un predicted_price, lo que significa que emite una predicción basada en la entrada del modelo.

Una forma sencilla de comprobar la calidad del modelo es:

  • Dividir el conjunto de datos en 2 particiones: 
    1. El conjunto de entrenamiento: contiene la mayoría de las filas (75%) 
    2. El conjunto de prueba: contiene la minoría restante de las filas (25%) 
  • Utilizar las filas del conjunto de entrenamiento para predecir el valor del precio de las filas del conjunto de prueba 
  • Añada una nueva columna denominada predicted_price al conjunto de prueba 
  • Compare los predicted_price con los valores de price reales del conjunto de prueba para ver la precisión de los valores predichos

Este proceso de validación, en el que utilizamos el conjunto de entrenamiento para hacer predicciones y el conjunto de prueba para predecir valores, se conoce como validación de entrenamiento/prueba, siempre que realices aprendizaje automático, querrás realizar algún tipo de validación para asegurarte de que tu modelo de aprendizaje automático puede hacer buenas predicciones con nuevos datos; aunque la validación de entrenamiento/prueba no es perfecta, la utilizaremos para entender el proceso de validación, para seleccionar una métrica de error, y luego nos sumergiremos en un proceso de validación más robusto más adelante en este curso.

Modifiquemos la función predict_price para utilizar solo las filas del conjunto de entrenamiento, en lugar del conjunto de datos completo, para encontrar los vecinos más cercanos, promediar los valores de price de esas filas y devolver el valor del precio predicho, a continuación, utilizaremos esta función para predecir el precio de las filas del conjunto de prueba. Una vez que tengamos los valores de los precios predichos, podremos compararlos con los valores de los precios reales y empezar a entender la eficacia del modelo en la siguiente pantalla.

Para empezar, hemos asignado el primer 75% de las filas de dc_listings a train_df y el último 25% de las filas a test_df, aquí hay un diagrama que explica la división:



Instrucciones

  • Dentro de la función predict_price, cambie el Dataframe al que se asigna temp_df, cámbielo de dc_listings a, train_df para que solo se utilice el conjunto de entrenamiento 
  • Utilice el método Series apply para pasar todos los valores de la columna accommodates de test_df a través de la función predict_price 
  • Asigne el objeto Series resultante a la columna predicted_price de test_df


Soluciones


Última modificación: miércoles, 27 de abril de 2022, 17:49