● Estadística descriptiva
● Inferencia estadística
● Correlación
● Regresión
● Clasificación
● Agrupación
● Detección de valores atípicos
● Visualización de datos
● Los algoritmos pueden realizar tareas de cálculo, procesamiento de datos y razonamiento automatizado
● Aplicando algoritmos a grandes volúmenes de datos, se pueden obtener valiosos conocimientos y percepciones
● La aplicación de algoritmos, y su posterior uso para Big Data, se basa en el dominio científico de la estadística
● Por lo tanto, todas las personas involucradas en la ciencia de los datos deberían tener un conocimiento fundamental sobre las operaciones estadísticas y cómo podrían aplicarse en los algoritmos

Figura 22: Ejemplo de algoritmo sencillo para encontrar el valor máximo en un conjunto de datos
● Las estadísticas descriptivas son estadísticas de resumen que describen o resumen cuantitativamente las características de una colección de información
● A continuación se explican las estadísticas descriptivas:
● Las estadísticas de tendencia central (o medidas de tendencia central) son típicas para definir valores en conjuntos de datos
● Estos estadísticas describen cómo se organizan varios puntos de datos en torno a su punto central ● Las medidas de tendencia central más comunes son:
1. Media
2. La mediana
3. Moda

Figura 23: El calculo de la media

Figura 24: El cálculo de la mediana.
Moda: La moda de un conjunto de valores de datos es el valor que aparece con más frecuencia, en otras palabras, es el valor que tiene más probabilidades de ser muestreado.

Figura 25 : El calculo de la moda
● En estadística, la dispersión (también llamada variabilidad o dispersión) es el grado de estiramiento o compresión de una distribución, las estadísticas de dispersión indican cómo se distribuyen los puntos de datos alrededor de sus valores centrales.
● Las medidas de dispersión estadística son:
1. Rango
2. Rango intercuartil
3. Varianza
4. Desviación estándar
Rango: El rango de un conjunto de datos es la diferencia entre el mayor y el menor valor.

Figura 26: El cálculo del Rango
Rango Intercuartílico
● El rango intercuartílico (IQR), también llamado dispersión media o 50% medio, es una medida de dispersión que equivale a la diferencia entre los percentiles 75 y 25 (QR = Q3 - Q1)
● En otras palabras, el IQR es una estadística que indica dónde se encuentra el 50% medio de los valores, según el ejemplo siguiente:

Figura 27: El cálculo del rango intercuartílico
Varianza
● La varianza es la expectativa de la desviación al cuadrado de una variable aleatoria respecto a su media. De manera informal, mide la dispersión de un conjunto de números (aleatorios) con respecto a su valor medio
● Cuanto más se acerque la varianza a cero, más agrupados estarán los puntos de datos
● La varianza de un conjunto de datos se calcula siguiendo estos pasos:

Figura 28: El Cálculo de la Varianza
Desviación Estándar:
● La desviación estándar (SD, también representada por la letra griega sigma σ o la letra latina s) es una medida que se utiliza para cuantificar la cantidad de variación o dispersión de un conjunto de valores de datos
● Una desviación estándar baja indica que los puntos de datos tienden a estar cerca de la media (también llamada valor esperado) del conjunto, mientras que una desviación estándar alta indica que los puntos de datos están dispersos en un rango más amplio de valores
● La forma de calcular la desviación estándar es exactamente la misma que la de la varianza, con la diferencia de tomar la raíz cuadrada de la varianza

Figura 29: Comparación de una desviación estándar baja y desviación estándar alta
● Una distribución es un grupo de números o una función que muestra todas las ocurrencias de los diferentes valores o resultados de una variable. En otras palabras, muestra cómo se distribuyen los valores de una variable
● En el análisis y la analítica de Big Data, se utilizan varias distribuciones comunes:
Distribución de frecuencias
● Una distribución de frecuencias es una tabla o un gráfico que muestra la frecuencia de varios resultados en una muestra
● Cada entrada de la tabla contiene la frecuencia o el recuento de las ocurrencias de los valores dentro de un grupo o intervalo concreto, y de esta manera, la tabla resume la distribución de los valores en la muestra.(Figura: Distribución de frecuencias de los jugadores de baloncesto)
Distribución de probabilidades
● Una probabilidad es la "posibilidad" o probabilidad de que se produzca un determinado resultado. La probabilidad de que una moneda flip salga cruz es de 0,5, lo que indica que hay un 50% de que la moneda salga cruz en un futuro flip. (Figura: Ejemplo de distribución de probabilidad)

Figura 30: Distribución de Frecuencias de los Jugadores de Baloncesto.

Figura 31: Ejemplo de Distribución de la Probabilidad
Distribución muestral
● Una distribución de muestreo es la distribución de probabilidad de una estadística determinada basada en una muestra aleatoria
● Las distribuciones de muestreo son importantes en Big Data porque proporcionan una importante simplificación que puede utilizarse para el análisis predictivo
Distribución normal
● La distribución normal (o más conocida como gaussiana) es la distribución de probabilidad continua más importante y común
● Las distribuciones normales son importantes en estadística y se utilizan a menudo en la ciencia de los datos para representar variables aleatorias de valor real cuyas distribuciones no se conocen
● Una distribución normal tiene la misma media, mediana y moda

Figura 32: Forma y propiedades de la distribución normal
La asimetría es una medida de la asimetría de una distribución de probabilidad de una variable aleatoria de valor real en torno a su media. El valor de la asimetría puede ser positivo o negativo, o no definido.
● Asimetría negativa: Una distribución está sesgada negativamente cuando la cola de la curva es más larga en el lado izquierdo o está sesgada hacia la izquierda, y la media es menor que la mediana y la moda. La mayoría de los valores se encuentran en el lado derecho de la curva
● Sesgo positivo: Una distribución está sesgada positivamente cuando la cola de la curva es más larga en el lado derecho o está sesgada hacia la derecha, y la media es mayor que la mediana y la moda. La mayoría de los valores se encuentran en el lado izquierdo de la curva

Figura 33: Distribuciones Asimétricas Positivas y Negativas
● La inferencia estadística es el proceso de deducir propiedades de una muestra de datos (es decir, una distribución de probabilidad) para hacer predicciones sobre todo el grupo de datos
● La estadística inferencial deduce que si se pueden probar ciertas características de una muestra, es probable que estas características también estén presentes en toda la población
● Una población es un conjunto de elementos o eventos similares que son de interés para algún experimento
● Es todo el grupo el que interesa al experimento
● Sin embargo, desde la perspectiva de la recopilación de datos, con frecuencia no es posible contar con toda la población
● Una muestra es un subconjunto de la población que se está analizando y sobre la que hay datos disponibles
● Los elementos de una muestra se conocen como puntos de muestra, unidades de muestreo u observaciones
● Los análisis estadísticos y los algoritmos se aplican a los datos de la muestra para hacer suposiciones y declaraciones sobre toda la población
● Si la muestra que se ha seleccionado no es una representación adecuada de toda la población, se denomina muestra sesgada
● El sesgo dará lugar a predicciones inadecuadas o erróneas sobre el futuro, porque en la estadística inferencial se hacen suposiciones sobre toda la población basadas en la muestra
● La mayoría de las predicciones incorrectas en estadística se hacen cuando los datos de la muestra están sesgados
● El sesgo puede dar lugar a predicciones inadecuadas porque la muestra no siempre representa a la población
● La única forma de eliminar completamente el sesgo es cuando la muestra es igual a la población real
● Con el Big Data, es posible analizar cantidades masivas de datos. Cuanto mayor sea el conjunto de datos, más se acercará a la población real y menos probable será que el conjunto de datos esté sesgado
● En otras palabras, gracias al Big Data, las predicciones sobre el futuro son cada vez más precisas
● La dependencia (o asociación) es cualquier relación estadística, causal o no, entre dos variables aleatorias o datos bivariantes
● En la correlación, dos (o más) variables se comparan entre sí. Estas variables pueden ser dependientes o independientes:
Ejemplos comunes de variables independientes son la temperatura, la edad o la altura de los jugadores de baloncesto
Ejemplo anterior, la probabilidad de ser seleccionado para las pruebas de la NBA es la variable dependiente que nos gustaría conocer (dependiente de la variable independiente de ʻla altura de los jugadoresʼ)
● El coeficiente de correlación de Pearson es la medida de una correlación linear entre dos variables X y Y
● Tiene un valor entre +1 y -1, donde 1 es la correlación lineal positiva total, 0 es no correlación lineal, y -1 es correlación lineal negativa total
● Es ampliamente usada en ciencia de datos para detectar relaciones entre variables
● Correlaciones que están cerca a -1 o +1 son consideradas correlaciones fuertes, porque las variables tienden a moverse en direcciones similares

Figura 34: Ejemplos de Coeficientes de Correlación de Pearson
● El análisis de regresión es un conjunto de procesos estadísticos para estimar las relaciones entre variables
● Incluye muchas técnicas de modelización y análisis de varias variables, cuando la atención se centra en la relación entre una variable dependiente y una o más variables independientes (o "predictores")
● En la regresión, tratamos de encontrar la mejor línea de ajuste para hacer predicciones (o pronósticos) sobre la relación entre las variables. Debido a su naturaleza predictiva, se utiliza ampliamente en el aprendizaje automático para encontrar relaciones en conjuntos de datos
● Encontrar una relación lineal entre la variable dependiente y la variable independiente x a partir de la siguiente función de regresión simple: y = α x + β
● Donde α es la pendiente de la línea de mejor ajuste y β es igual a la intersección de y
● El objetivo es fincar los valores de y β que proporcionen el mejor " ajuste" a través de todos los puntos de datos disponibles

Figura 35: La regresión lineal tiene como objetivo encontrar la línea de mejor ajuste
● La correlación sólo indica si existe una relación, mientras que la regresión pretende estimar el alcance de esta relación con fines predictivos
● En primer lugar, algunas similitudes importantes entre la correlación y la regresión:
● En segundo lugar, algunas diferencias importantes entre correlación y regresión:
● La clasificación es el problema de identificar a cuál de un conjunto de categorías pertenece una nueva observación, basándose en un conjunto de datos de entrenamiento que contiene observaciones cuya pertenencia a una categoría es conocida. Dado que el ordenador recibe datos de muestra, la clasificación es una forma de aprendizaje automático supervisado
● Un algoritmo de clasificación ̶ simplificado ̶ ejecuta los siguientes pasos:

Figura 36: Un ejemplo de clasificador lineal
● El análisis de clústeres o clustering es la tarea de agrupar un conjunto de objetos de tal manera que los objetos del mismo grupo (llamado clúster) sean más similares (en algún sentido) entre sí que los de otros grupos (clústeres)
● La agrupación es un ejemplo de aprendizaje no supervisado
● No hay datos de muestra que se "introduzcan" primero en la máquina, sino que el ordenador empieza a formular clústeres basados en las similitudes entre los grupos
● Para llegar a un clúster, el ordenador tiene que ejecutar un algoritmo de agrupación
● Existen muchos algoritmos de clustering conocidos, dependiendo de las características del problema a resolver. Un aspecto común es que la mayoría de los algoritmos de clustering se fijan en la "similitud" entre los puntos de datos

Figura 37: Un ejemplo de agrupación - Aprendizaje Automatizado no Supervisado
● Un valor atípico es un punto de observación que se aleja de otras observaciones
● Un valor atípico puede deberse a la variabilidad de la medición o puede indicar un error en los datos
● Especialmente en el análisis de conjuntos de Big Data, la detección de valores atípicos es una técnica frecuentemente utilizada para detectar puntos de datos erróneos o falsos
● La distribución normal estándar puede utilizarse para detectar valores atípicos
● Recordemos que, dentro de la distribución normal, el 99% de los puntos de datos se sitúan dentro de las tres desviaciones estándar de la media
● Por lo tanto, si uno o más puntos de datos se alejan más de tres desviaciones estándar de la media, esto podría ser una indicación de que estos puntos son incorrectos o contienen datos defectuosos. (Figura: Detección de valores atípicos mediante la distribución normal estándar

Figura 38: Detección de valores atípicos para detectar puntos de datos erróneos

Figura 39: Detección de valores atípicos mediante la distribución normalizada
● La visualización de datos se utiliza ampliamente en el ámbito del Big Data, porque condensa grandes conjuntos de datos en gráficos de resumen que son fáciles de entender y de discutir
● Las técnicas de visualización de datos más comunes y sus propiedades:

Figura 40: Ejemplo de Gráfico de Barras

Figura 41: Ejemplo de histograma

Figura 42: Ejemplo de Gráfico de Dispersión
● Un Biplot es un gráfico de dispersión mejorado que utiliza tanto puntos como vectores para representar la estructura
● Un biplot utiliza puntos para representar las puntuaciones de las observaciones en los componentes principales, y utiliza vectores para representar los coeficientes de las variables en los componentes principales (Figura: Ejemplo de un biplot)
● Un diagrama de caja o boxplot es un método para representar gráficamente grupos de datos numéricos a través de sus cuartiles
● Los gráficos de caja también pueden tener líneas que se extienden verticalmente desde las cajas (bigotes) indicando la variabilidad fuera de los cuartiles superior e inferior, de ahí los términos gráfico de caja y bigotes y diagrama de caja y bigotes. Los valores atípicos pueden representarse como puntos individuales (Figura: Ejemplo de diagrama de caja y su información clave)

Figura 43: Ejemplo de un Biplot

Figura 44: Ejemplo de Diagrama de Caja y su Información Clave
● Un diagrama Q-Q (cuantil-cuantil) es un diagrama de probabilidad, que es un método gráfico para comparar dos distribuciones de probabilidad trazando sus cuantiles entre sí (Figura: Ejemplo de un diagrama Q-Q
● Un gráfico de tarta (o gráfico circular) es un gráfico estadístico circular que se divide en rebanadas para ilustrar la proporción numérica
● En un gráfico circular, la longitud del arco de cada rebanada (y, por consiguiente, su ángulo central y su área) es proporcional a la cantidad que representa (Figura: Ejemplo de un gráfico circular)
● Un gráfico de radar es un método gráfico de visualización de datos multivariados en forma de gráfico bidimensional de tres o más variables cuantitativas representadas en ejes que parten de un mismo punto
● La posición y el ángulo relativos de los ejes no suelen ser informativos. El gráfico de radar también se conoce como gráfico de araña debido a la naturaleza de su diseño (Figura: Ejemplo de gráfico de radar)

Figura 45: Ejemplo de Gráficos Q-Q

Figura 46: Ejemplo de un gráfico circular

Figura 47: Ejemplo de Gráfico de Radar