Saltar al contenido principal
Página

Tema 1.2 - Limpieza y preparación de datos reto de clasificación



Resumen


Limpieza y preparación de los datos para el reto de clasificación:

Primero, se eliminará aquellas columnas que no agregan un valor al problema o aquellas que no estén relacionadas con la variable a predecir.


Nota: Para una mejor visualización, dar clic sobre la imagen.

Como podemos observar se eliminará la variable mes, Navegador, sistema operativo, región, tipo de tráfico y la variable respecto si era fin de semana o no, ya que en el anterior video se pudo observar que no representa un valor. Por lo tanto, se podrá eliminar.

Luego, se codificaran las variables categóricas utilizando el estándar One Hot Encoding, para ello se utiliza el método .get_dummies.


Nota: Para una mejor visualización, dar clic sobre la imagen.

A continuación, se crea el vector X con las características de datos o columnas, menos la variable a predecir en este caso (‘Revenue’), de esta manera el vector X tiene las características de interés.


Nota: Para una mejor visualización, dar clic sobre la imagen.

Luego, se utiliza el vector Y el cual contiene la información de interés si se realizó o no la compra. Para ello se usa la columna llamada Revenue, pero se tiene que elaborar la codificación, ya que la columna tiene valor de True o False. En este caso True toma el valor de 1 y False toma el valor de 0, de esta manera la columna tiene valores de cero y uno entonces ya se tendría todos los datos en números en formato numérico.

Nota: Para una mejor visualización, dar clic sobre la imagen.


Determinar el conjunto de entrenamiento y el de prueba:

Para ello se utiliza el método train_test_split, luego indicamos las características de los valores a predecir.

Nota: En este caso estamos ante un problema desbalanceado, por lo tanto, utilizamos el parámetro llamado stratify  para aplicar una metodología de validación estratificada.

Seguido a esto, se tiene en cuenta la cantidad de muestras y de esta manera se entrega el modelo utilizando una cantidad de datos igualitarios para ambas clases.

Entonces, un 20% de los datos van a ser para prueba, un 80% para entrenar, luego se define un normalizado, este normalizador se entrena con la información única y exclusivamente de entrenamiento, ya que no se tiene acceso a la información de prueba, luego se realiza la transformación con el método fit_transform y luego se normaliza.

Última modificación: viernes, 20 de enero de 2023, 18:13