En la última misión, nos centramos en aumentar el número de atributos que utiliza el modelo, hemos visto que, en general, añadir más atributos reduce el error del modelo, esto se debe a que el modelo es capaz de identificar mejor los espacios vitales del conjunto de entrenamiento que son más similares a los del conjunto de prueba, sin embargo, también observamos que el uso de todas las características disponibles no mejoraba la precisión del modelo de forma automática y que algunas de las características probablemente no eran relevantes para la clasificación de la similitud, aprendimos que la selección de rasgos relevantes era la palanca adecuada para mejorar la precisión de un modelo, y no sólo el aumento de los rasgos utilizados en la clasificación absoluta.
In this mission, we'll focus on the impact of increasing k, the number of nearby neighbors the model uses to make predictions. We exported both the training (train_df) and test sets (test_df) from the last missions to CSV files, dc_airbnb_train.csv and dc_airbnb_test.csv respectively. Let's read both these CSV's into Dataframes.
|
|
|