Saltar al contenido principal
Página

Tema 2.2 - Limpieza y preparación de datos reto de regresión



Resumen


Tratamiento de missing, reparación, dataset y codificación de variables 

1. Eliminar aquellas columnas que no agreguen valor al problema o aquellas que no estén relacionadas con la variable a predecir.

  • Borrar los registro que cuyo Functioning Day == No
  • Borrar columna Functioning Day porque no aporta información relevante

Realizar un mapa de calor usando Coeficiente de correlación de Pearson.

De acuerdo al mapa de correlación, la temperatura y la temperatura de punto de rocío tiene una correlación muy alta (0.91) por lo tanto, se debe eliminar Dew point temperature(°C).

2. Utilizar la codificación Label Encoding para las características Categóricas

3. Crear un vector X

4. Crear un vector Y

Determinar el conjunto de entrenamiento y el de prueba. 

Seleccione la metodología de validación más adecuada de acuerdo al problema, describa la misma y argumente por qué fue seleccionada.

1. Hacer división de los datos 80% train, 20% test.

2. Crear un Normalizer StandardScaler usando la librería Sklearn https://scikitlearn.org/stable/modules/

generated/sklearn.preprocessing.StandardScaler.html

3. Normalizar los datos de entrenamiento.

4. Imprimir el shape o dimensiones del vector de entrenamiento (x_train).

5. Imprimir el shape o dimensiones del vector de prueba (x_test).

  • Dimensiones vector de entrenamiento (Registros:6772, Características: 13)
  • Dimensiones vector de prueba (Registros:1693, Características: 13)

Recursos


Ayuda: usar la función train_test_split de sklearn 

Última modificación: viernes, 20 de enero de 2023, 18:24