Saltar al contenido principal
Página

Tema 4.2 - Eliminación de Características

Eliminación de Características

Las siguientes columnas contienen valores no numéricos:

  • room_type: e.g. private_room
  • city: e.g. Washington
  • state: e.g. DC

Mientras que estas columnas contienen valores numéricos pero no ordinales:

  • latitude: e.g. 38.913458
  • longitude: e.g. -77.031
  • zipcode: e.g. 20009

Los valores geográficos de este tipo no son ordinales, porque un valor numérico menor no se corresponde directamente con un valor menor de forma significativa, por ejemplo, el código postal 20009 no es más pequeño ni más grande que el código postal 75023, sino que ambos son valores únicos e identificadores, los pares de valores de latitud y longitud describen un punto en un sistema de coordenadas geográficas y en esos casos se utilizan ecuaciones diferentes (por ejemplo, el haverseno).

Aunque podríamos convertir las columnas host_response_rate y host_acceptance_rate para que fueran numéricas (ahora mismo son tipos de datos de objeto y contienen el signo %), estas columnas  describen al anfitrión y no al espacio vital en sí, puesto que un anfitrión puede tener muchos espacios vitales y no tenemos suficiente información para agrupar de forma exclusiva los espacios vitales con  los propios anfitriones, vamos a evitar el uso de cualquier columna que no describa directamente el espacio vital o el propio listado:

  • host_response_rate
  • host_acceptance_rate
  • host_listings_count


Vamos a eliminar estas 9 columnas del Dataframe:

Instrucciones

  • Elimine las 9 columnas de las que hablamos anteriormente de dc_listings:
    1. 3 que contienen valores no numéricos
    2. 3 que contienen valores numéricos pero no ordinales
    3. 3 que describen al anfitrión en lugar del propio espacio vital

Soluciones

1
2
3
4
5
6
drop_colums = ['room_type', 'city!, "state",
'latitude', 'longitude', 'zipcode',
'host_response_rate', 'host_acceptance_rate',
'host_listings_count']
dc_listings = dc_listings.drop(drop_colums, axis=1)
print(dc_listings.isnull().sum())


Última modificación: miércoles, 27 de abril de 2022, 18:09