La métrica de similitud funciona comparando un conjunto fijo de características numéricas (otra palabra para atributos) entre dos observaciones, o espacios vitales en nuestro caso, cuando se trata de predecir un valor continuo, como el precio, la principal métrica de similitud es la distancia euclidiana, esta es la fórmula general de la distancia euclidiana:
Donde q1 a qn representan los valores de las características de una observación y p1 a pn representan los valores de las características de la otra observación, a continuación se muestra un diagrama que desglosa la distancia euclidiana entre las dos primeras observaciones del conjunto de datos utilizando únicamente las columnas host_listing_count, accommodates, bedrooms, bathrooms y bed.
En esta lección, utilizaremos solo una característica para mantener las cosas simples mientras se familiariza con el flujo de trabajo del aprendizaje automático, dado que solo estamos utilizando una característica, este caso se denomina caso univariante. La fórmula para el caso univariante es:
La raíz cuadrada y la potencia al cuadrado se cancelan, y la fórmula se simplifica a:
La vivienda que queremos alquilar tiene capacidad para tres personas. En primer lugar, calculemos la distancia entre la primera vivienda del conjunto de datos y la nuestra, utilizando únicamente la función de accommodates.
|
|
|