Ahora tenemos una función que puede predecir el precio de cualquier espacio habitable que queramos listar siempre que sepamos el número de personas que puede alojar. La función que escribimos representa un predicted_price, lo que significa que emite una predicción basada en la entrada del modelo.
Una forma sencilla de comprobar la calidad del modelo es:
Este proceso de validación, en el que utilizamos el conjunto de entrenamiento para hacer predicciones y el conjunto de prueba para predecir valores, se conoce como validación de entrenamiento/prueba, siempre que realices aprendizaje automático, querrás realizar algún tipo de validación para asegurarte de que tu modelo de aprendizaje automático puede hacer buenas predicciones con nuevos datos; aunque la validación de entrenamiento/prueba no es perfecta, la utilizaremos para entender el proceso de validación, para seleccionar una métrica de error, y luego nos sumergiremos en un proceso de validación más robusto más adelante en este curso.
Modifiquemos la función predict_price para utilizar solo las filas del conjunto de entrenamiento, en lugar del conjunto de datos completo, para encontrar los vecinos más cercanos, promediar los valores de price de esas filas y devolver el valor del precio predicho, a continuación, utilizaremos esta función para predecir el precio de las filas del conjunto de prueba. Una vez que tengamos los valores de los precios predichos, podremos compararlos con los valores de los precios reales y empezar a entender la eficacia del modelo en la siguiente pantalla.
Para empezar, hemos asignado el primer 75% de las filas de dc_listings a train_df y el último 25% de las filas a test_df, aquí hay un diagrama que explica la división: