Resumen
|
Tratamiento de missing, reparación, dataset y codificación de variables 1. Eliminar aquellas columnas que no agreguen valor al problema o aquellas que no estén relacionadas con la variable a predecir.
Realizar un mapa de calor usando Coeficiente de correlación de Pearson. De acuerdo al mapa de correlación, la temperatura y la temperatura de punto de rocío tiene una correlación muy alta (0.91) por lo tanto, se debe eliminar Dew point temperature(°C). 2. Utilizar la codificación Label Encoding para las características Categóricas 3. Crear un vector X 4. Crear un vector Y |
Determinar el conjunto de entrenamiento y el de prueba. Seleccione la metodología de validación más adecuada de acuerdo al problema, describa la misma y argumente por qué fue seleccionada. 1. Hacer división de los datos 80% train, 20% test. 2. Crear un Normalizer StandardScaler usando la librería Sklearn https://scikitlearn.org/stable/modules/ generated/sklearn.preprocessing.StandardScaler.html 3. Normalizar los datos de entrenamiento. 4. Imprimir el shape o dimensiones del vector de entrenamiento (x_train). 5. Imprimir el shape o dimensiones del vector de prueba (x_test).
|
|---|