
Establecer procesos de Big Data en la empresa puede ser una tarea que lleve mucho tiempo al principio, pero que sin duda proporciona beneficios a largo plazo. En esta sección, analizaremos cómo los procesos de Big Data pueden estructurar el análisis de los datos. Los procesos de Big Data pueden subdividirse en tres subprocesos principales:
Figura 48: Los 3 Procesos de Big Data
El proceso de análisis de datos contiene pasos secuenciales que las empresas realizan para procesar Big Data:

● En los proyectos de Big Data, los objetivos empresariales (y, por tanto, su problema subyacente) suelen subdividirse en seis tipos de problemas
● Cada uno de estos tipos tiene su propia forma de abordar el resultado del problema y la manera en que deben interpretarse los resultados finales:
1. Objetivo empresarial descriptivo
2. Objetivo empresarial exploratorio
3. Objetivo empresarial inferencial
4. Objetivo empresarial predictivo
5. Objetivo empresarial causal
6. Objetivo empresarial mecanicista
La mayoría de los análisis de datos comienzan con la identificación de los datos brutos, los datos brutos son aquellos que aún no han sido procesados y que proceden directamente de la fuente, las fuentes de datos pueden ser:
● Archivos binarios de dispositivos de medición (sensores)
● Archivos CSV que residen en un sitio web público
● Hojas de Excel sin formato con múltiples pestañas de datos
● Datos JSON obtenidos de una API de Twitter

Figura 50: Gráfico de Identificación de Datos
Una vez que se ha identificado qué datos son necesarios para lograr el resultado empresarial requerido, el siguiente paso es garantizar la obtención de los datos para su procesamiento.
● Recogida de datos: En la mayoría de las empresas, los datos (internos) se almacenan en varias ubicaciones físicas o centros de datos de todo el mundo. Para poder utilizar estos datos, el analista o científico de datos debe obtener los derechos de acceso adecuados y colaborar con el equipo de gestión de datos
● Obtención de datos: Para obtener valor de los Big Data, los conjuntos de datos internos de la empresa se combinan con conjuntos de datos externos (por ejemplo, información meteorológica o feeds de Twitter). Algunos de estos conjuntos de datos externos pueden estar disponibles de forma gratuita, pero la mayoría de los conjuntos de datos tendrán que ser adquiridos a proveedores externos
● Una vez que se dispone de los conjuntos de datos necesarios, se inicia la etapa de revisión de datos. La revisión de datos es el proceso de exploración de los conjuntos de datos y suele incluir el examen de la estructura y las variables de los distintos conjuntos de datos
● Los principales objetivos del proceso de revisión de datos son:
1. Determinar si hay problemas o cuestiones con los conjuntos de datos
2. Determinar las variables y la distribución de los datos en los conjuntos de datos
3. Determinar si el conjunto de datos contiene valores que faltan o datos corruptos
4. Determinar si los objetivos empresariales (paso 1) pueden alcanzarse con estos conjuntos de datos

Figura 51: El impacto de los valores atípicos o ausentes en la media
● La limpieza de datos es el proceso de modificar o eliminar los datos de una base de datos que son incorrectos, están incompletos, tienen un formato inadecuado o están duplicados
● La limpieza de datos puede realizarse de forma interactiva a través de herramientas de limpieza de datos, o como procesamiento por lotes a través de secuencias de comandos
● El siguiente paso en el proceso de análisis de datos es la generación de un modelo estadístico que pueda utilizarse para encontrar el resultado del objetivo empresarial
● La creación de un modelo es el proceso iterativo de definir y mejorar un modelo estadístico que pueda aplicarse al conjunto de datos (depurados)
● La etapa de procesamiento de datos se dedica a realizar la tarea de análisis propiamente dicha, que suele implicar la ejecución de uno o varios algoritmos (estadísticos)
● Este paso puede ser iterativo, especialmente si el análisis de los datos es exploratorio, de modo que el análisis se repite hasta que se descubre el patrón o la correlación adecuados
● El proceso de análisis de Big Data termina con la comunicación de los resultados finales, aunque se trata del último paso lógico de cualquier proyecto de análisis, no hay que subestimar su importancia
● Comunicar con claridad es esencial para un buen análisis de datos Proceso de Gobernanza de Datos (Cumplimiento)
● El proceso de gobernanza de los datos es un proceso definitivo que las empresas siguen para garantizar el control de sus datos a lo largo de todo su ciclo de vida. Dado que el "Big Data" es un activo estratégico, la mayoría de las organizaciones necesitan establecer medidas de control
● El proceso de gobernanza de datos garantiza que los activos de datos importantes se gestionen formalmente en toda la empresa, y que los datos sean fiables para la toma de decisiones, a menudo, los procesos utilizados en el gobierno de los datos incluyen la responsabilidad por cualquier evento adverso que resulte de la calidad de los datos

Figura 52: La Sinergia entre la Gobernanza de Datos y la Gestión de Datos
● Actividades del proceso de gobierno de datos: El proceso de gobierno de datos abarca a las personas, la estructura organizativa y la tecnología necesarias para crear un manejo coherente y adecuado de los datos de una organización en toda la empresa, aunque los objetivos pueden variar en función de la naturaleza de la empresa, el nivel de control necesario y los requisitos normativos (locales), una serie de actividades universales de gobierno de datos son las mismas para todas las organizaciones.
● Desarrollar una estrategia de calidad de datos: Se necesita una estrategia de calidad de datos para gestionar y dirigir todas las actividades de calidad de datos en consonancia con la estrategia empresarial general, la estrategia de calidad de datos incluye los objetivos estratégicos que persigue el proceso de gestión de datos.
● Revisar los requisitos reglamentarios y de privacidad: La revisión de los requisitos normativos y de privacidad es, por tanto, una parte integral del proceso de gobernanza de datos que debe realizarse mensualmente para garantizar su cumplimiento.
● Desarrollar políticas de gobierno de datos: La estrategia de calidad de datos y los requisitos normativos deben traducirse en una serie de políticas de gobernanza de datos que estén disponibles públicamente para todos en la organización.
● Asignar funciones y responsabilidades: El proceso de gobernanza de datos debe definir funciones y responsabilidades claras en todas las divisiones de la empresa.
● Por lo tanto, las empresas necesitan el proceso de gestión de datos para verificar, actualizar y limpiar continuamente los datos de la empresa
● El proceso de gestión de datos se perfila en un enfoque estructurado y práctico para aplicar las siguientes ideas:
● El proceso de gestión de datos es un proceso práctico y operativo (en consonancia con las directrices estratégicas del proceso de gobernanza de datos) que supervisa diariamente la calidad de los datos.
El proceso consta de las siguientes actividades: ( especificar métricas e indicadores de rendimiento)

Figura 53: Métricas de Datos e Indicadores de Rendimiento
● Supervisar y gestionar los datos de la empresa: Sobre la base de las métricas y los indicadores de rendimiento que se han especificado en la actividad anterior, es necesario supervisar los datos de la empresa.
● Mejora y validación de los datos: La siguiente actividad del proceso de gestión de datos es mejorar los conjuntos de datos de la empresa, la tarjeta de puntuación de datos equilibrada de la actividad anterior podría indicar, por ejemplo, que hay muchos registros duplicados en los conjuntos de datos.
● Comunicar y educar sobre la gestión de datos: La última actividad del proceso de gestión de datos es comunicar y educar a las partes interesadas de la empresa para que participen activamente en las iniciativas de gestión de datos.

Figura 54: Aplicación de Reglas de Validación