Inicio › Tecnología › Big Data
Big Data es el término que describe conjuntos de datos tan masivos, rápidos y diversos que los sistemas de bases de datos convencionales no pueden capturarlos, almacenarlos, gestionarlos y analizarlos de forma eficiente. Se define clásicamente por las 3V: Volumen (terabytes o petabytes), Velocidad (procesamiento en tiempo real o casi real) y Variedad (datos estructurados, semiestructurados y no estructurados: texto, imágenes, logs, sensores IoT). Las herramientas características son Hadoop, Apache Spark, Kafka y los data lakes en cloud.
Big Data es como intentar leer todos los libros del mundo a la vez y extraer conclusiones. Una base de datos convencional gestiona miles de registros; Big Data gestiona billones de eventos por segundo (clics, transacciones, señales de sensores). La diferencia no es solo de tamaño sino de velocidad y tipo de dato: vídeos, emails, tuits, lecturas de GPS —datos que una hoja de Excel no puede manejar.
Inditex (Zara) procesa Big Data de 2.000 tiendas + e-commerce globales: cada venta, cada devolución, cada producto probado y no comprado, cada búsqueda web genera un evento. Apache Kafka ingesta 5 millones de eventos por hora. Spark los procesa y actualiza el algoritmo de reaprovisionamiento cada 24-48 horas, enviando exactamente las tallas y colores que cada tienda necesita. Resultado: Zara tiene el lead time más corto de la industria (15 días del diseño a la tienda) y el menor stock muerto del sector.
Un proyecto Big Data consta de: ingesta (Kafka, Kinesis, Flume), almacenamiento (HDFS, S3, Azure Data Lake), procesamiento batch (Spark, Hive) y stream (Flink, Spark Streaming), análisis y ML (Python, R, Databricks) y visualización (Tableau, Power BI, Grafana). En España, el RGPD impone que el Big Data con datos personales cumpla con los principios de minimización, finalidad y base jurídica legítima. La seudonimización o anonimización es obligatoria cuando los datos de análisis no requieren identificación individual.
Error 1: hacer Big Data sin un caso de uso de negocio claro — recopilar datos por si acaso es costoso y puede incumplir el RGPD (principio de minimización). Error 2: confundir data lake con data swamp — sin gobierno de datos, el lake se convierte en un pantano de datos inutilizables. Error 3: ignorar la calidad del dato — 'basura entra, basura sale'. Error 4: no calcular el ROI antes de invertir — una infraestructura Hadoop puede costar cientos de miles de euros anuales.
RGPD (UE) 2016/679 — principios de minimización de datos y finalidad en el análisis. Estrategia Europea de Datos (COM 2020/66) — marco para espacios europeos de datos. ISO/IEC 20546:2019 — definición y vocabulario de Big Data. Directiva sobre datos (Data Act, UE 2023) — acceso y uso de datos generados por máquinas.
BI trabaja con datos estructurados, históricos y limpios en un data warehouse para generar informes y dashboards. Big Data trabaja con volúmenes masivos, datos semiestructurados o no estructurados y velocidades que el BI no puede manejar. Son complementarios: Big Data puede alimentar el data warehouse del BI.
Un data lake almacena datos en bruto en su formato original (sin transformar). Un data warehouse almacena datos ya limpios, estructurados y modelados para análisis. El data lake es más flexible y barato para almacenar; el data warehouse es más rápido para consultas analíticas. La arquitectura moderna (lakehouse) combina ambos.
Sí, con las herramientas cloud modernas (BigQuery, Redshift, Azure Synapse). Una pyme con 100.000 transacciones al mes puede analizar patrones de compra, predecir devoluciones o segmentar clientes sin infraestructura propia, pagando solo por las consultas ejecutadas. El umbral de entrada ha bajado drásticamente.