Reto de Clasificación:
consiste en decir la intención de compra en un sitio web y así predecir si una persona va a finalizar una compra en un sitio web con base en la información de la sesión.
El repositorio dataset se encuentra en el siguiente enlace:
https://archive.ics.uci.edu/ml/datasets/Online+Shoppers+Purchasing+Intention+Dataset
Donde aparecerá lo siguiente:
Nota: Para una mejor visualización, dar clic sobre la imagen.
Entonces de esta manera encontrarás todas las caracteristicas que tiene daset. La información de este repositorio se puede encontrar en la opción "Data Folder", donde aparecerá lo siguiente:
Nota: Para una mejor visualización, dar clic sobre la imagen.
En donde se entrara al archivo “online_shoppers_intention.csv”y automáticamente empieza la descarga del archivo de información y aparecerá lo siguiente:
Nota: Para una mejor visualización, dar clic sobre la imagen.
Como podemos observar hay variables numéricas y categóricas.
Variables de entrada y salida:
Variables de Entrada:
- Administrative: Es el número de páginas de este tipo (administrativas) que visitó el usuario.
- Administrative_Duration: Es la cantidad de tiempo que se ha pasado en esta categoría de páginas.
- Informational: Es el número de páginas de este tipo (informativas) que el usuario ha visitado.
- Informational_Duration: Es la cantidad de tiempo que se pasa en esta categoría de páginas.
- ProductRelated: Es el número de páginas de este tipo (relacionadas con productos) que el usuario visitó.
- ProductRelated_Duration: Es la cantidad de tiempo que se pasa en esta categoría de páginas.
- BounceRates: Es el porcentaje de visitantes que entran en el sitio web a través de esa página y salen sin realizar ninguna tarea adicional.
- ExitRates: El porcentaje de visitas al sitio web que terminan en esa página específica.
- PageValues: El valor medio de la página promediado sobre el valor de la página de destino y/o la finalización de una transacción de eCommerce. Más información sobre cómo se calcula.
- SpecialDay: Este valor representa la proximidad de la fecha de navegación a días especiales o festivos (por ejemplo, el Día de la Madre o el Día de San Valentín) en los que es más probable
que se finalice la transacción. Más información sobre cómo se calcula este valor a continuación.
- Month: Contiene el mes en que se produjo la visita a la página, en forma de cadena.
- OperatingSystems: Un valor entero que representa el sistema operativo en el que se encontraba el usuario cuando vio la página. (Windows users, Mac users, Linux users).
- Browser: Un valor entero que representa el navegador que el usuario estaba utilizando para ver la página.
- Region: Un valor entero que representa la región en la que se encuentra el usuario.
- TrafficType: Un valor entero que representa en qué tipo de tráfico está clasificado el usuario. Saber mas https://www.practicalecommerce.com/Understanding-Traffic-Sources-in-Google-Analytics
- VisitorType: Una cadena que representa si un visitante es un nuevo visitante, un visitante recurrente u otro.
- Weekend: Un booleano que representa si la sesión es en fin de semana.
Variables de Salida:
- Revenue: Un valor booleano que representa si el usuario completó o no la compra.
- Las variables que sean categóricas se codificaran usando la codificación One Hot Encoding.
- La base de datos no tiene valores faltantes.
- El conjunto de datos es un conjunto de 18 características:
- 10 numéricas y 8 categóricas.
- El atributo Ingresos es la clase y existen dos clases: Compradores que no compraron (False), Compradores que si compraron (True).
- Este conjunto de datos tiene 12.330 entradas, divididas en 10.422 entradas en las que los compradores no compraron y 1908 entradas en las que los compradores sí compraron.
Vamos a realizar algunos gráficos de la distribución de las variables:
Ejemplo:
Nota: Para una mejor visualización, dar clic sobre la imagen.
Tenemos un gráfico de barra de la distribución de los registros por mes, como podemos observar hace falta dos meses (enero y Abril).
Nota: en este caso no utilizaremos varios gráficos, los cuales son:
- sistema operativo.
- distribución del navegador.
- numero de registros respecto a la región.
El siguiente grafico se trata sobre la distribución los tipos de usuarios que ingresaron a la pagina y si estos son recurrentes, son nuevos o son otro tipo:
Nota: Para una mejor visualización, dar clic sobre la imagen.
Se Realizara el siguiente grafico para ver la distribución y cuando se realizó la compra:
Nota: Para una mejor visualización, dar clic sobre la imagen.
La siguiente imagen es un mapa de calor, el cual trata sobre la relación que existen entre algunas variables:
Nota: Para una mejor visualización, dar clic sobre la imagen.