Saltar al contenido principal
Página

Tema 2.1 - Explicación reto de regresión



Resumen


Reto regresión predecir demanda de bicicletas compartidas 

1. Descripción del problema 

Describa de manera clara el problema de predicción que está abordando, su campo de aplicación y explique si corresponde a un problema de clasificación o de regresión. 

  • Problema de aprendizaje supervisado 

  • Problema de regresión 

Objetivo: Predecir demanda de bicicletas compartidas

2. Descripción del dataset 

  1. Enumere las variables incluidas como entrada al sistema y la o las variables a predecir. 
  2. Explique claramente el tipo de codificación de cada variable. 
  3. Si la base de datos cuenta con valores faltantes, explique cómo se llenaron los vacíos en cada caso. 
  4. Describa en detalle la base de datos: número de muestras, número clases y muestras por clases (si el problema es de clasificación). 
  5. Realizar gráfica para cada una de la variable que permita visualizar claramente su distribución y relación con otras variables y/o la variable a predecir (si existe alguna relación).

Variables de Entrada

  • Date: año-mes-día 
  • Hour: Hora del día del préstamo 
  • Temperature: Temperatura en Celsius 
  • Humidity: Humedad % 
  • Windspeed: Velocidad del viento m/s 
  • Visibility: Visibilidad 10 m 
  • Dew point temperature: Temperatura del punto de rocío - Celsius 
  • Solar radiation: Radiación solar - MJ/m2 
  • Rainfall: Precipitación - mm 
  • Snowfall: Nieve - cm 
  • Seasons : Estaciones - Invierno, Primavera, Verano, Otoño 
  • Holiday: Vacaciones - Vacaciones/Sin vacaciones 
  • Functional Day: Día funcional - NoFunc(horas no funcionales), Fun(horas funcionales)

Variables de Salida 

  • Total Recuento de bicicletas alquiladas en cada hora 
  1. Las variables que sean categóricas se codificaran usando la codificación Label encoding. 
  2. La base de datos no tiene valores faltantes. 
  3. El conjunto de datos es un conjunto de 14 características.
  4. Formatear las columnas de acuerdo al tipo de dato almacenado. Nota: Aquellas columnas con valores categóricos deben ser formateadas a Dtype category No deben ser Object, por lo tanto, no debe quedar ninguna variable de este tipo.
  5. Realizar gráfica de algunas variables que permita visualizar claramente su distribución y relación con otras variables y/o la variable a predecir (si existe alguna relación) y tome la decisión sobre qué variables no deben ser incluidas.

Diagramas de dispersión:

  • Realizar un diagrama de dispersión que relacione la demanda de bicicleta por día(eje X) y la temperatura promedio(eje Y)
  • Realizar un diagrama de dispersión que relacione la demanda de bicicleta por día(eje X) y la humedad promedio(eje Y)
  • Realizar un diagrama de dispersión que relacione la demanda de bicicleta por día(eje X) y la precipitación(mm) promedio (eje Y) 
  • Realizar un diagrama de dispersión que relacione la demanda de bicicleta por día(eje X) y la Velocidad del viento m/s promedio (eje Y)

Diagramas de barras:

  • Realizar un gráfico de barras que muestre la distribución de la demanda por estación 
  •  Realizar un gráfico de barras que muestre la distribución de la demanda por día festivo 
  •  Realizar un gráfico de barras que muestre la distribución de la demanda por día funcional

Se deben borrar los registro que cuyo Functioning Day == No

Agregar una columna DataFrame llamada Weekend en donde los días de lunes a jueves tendrán el valor de 0 y de viernes a domingo de 1.

Diagrama de línea:

  • Realizar un diagrama de línea que muestre el comportamiento de la demanda de bicicleta en los días de la semana por hora.

Recursos

Dataset
Seoul Bike Sharing Demand Data Set

Al dar clic en este enlace encontrarás un repositorio que contiene una variación de Dataset que nos ayudaran mucho en este reto.

En este notebook podrás seguir los pasos del reto:

Última modificación: viernes, 20 de enero de 2023, 18:17