Si alguna vez te has sentido abrumado por términos como Data Lake, Metadata o Data Governance, entonces has llegado al lugar correcto.
Entiendo que incluso un solo concepto puede tener diferentes interpretaciones, así que mi objetivo no es definir, sino explicar estos términos de manera sencilla con ejemplos o contexto.
Data
Hechos, cifras o información en bruto que se recopilan y almacenan para su posterior análisis. Esto puede incluir hechos, números, mediciones, observaciones o cualquier otro detalle que se pueda utilizar para comprender un tema en particular.
Si estás registrando la temperatura diaria en una ciudad durante el transcurso de un mes, podrías recopilar datos sobre la temperatura, la humedad, la velocidad del viento y las precipitaciones a lo largo del día. Los datos existen en diversas formas y se pueden encontrar en situaciones cotidianas.
Metadata
Es información que describe otros datos. Proporciona detalles sobre el contenido, la calidad, la condición, el origen y otras características de un elemento específico. En el contexto digital, los metadatos pueden incluir detalles como el autor, la fecha de creación, el tamaño del archivo y palabras clave.
Si tienes fotos en tu smartphone, abre una imagen y podrás ver metadatos como la fecha en que fue tomada, el tamaño, la ubicación, etc. La foto en sí es el dato primario, mientras que los metadatos proporcionan información complementaria sobre la foto.
Database
Se trata de una colección organizada de información estructurada, que normalmente se almacena y se accede a ella electrónicamente desde un sistema informático. Permite el almacenamiento, la recuperación y la manipulación eficientes de los datos.
El ejemplo clásico es pensar en una biblioteca. Cada libro tiene su etiqueta con su título, autor, etc. En la biblioteca, se almacenan y organizan libros, pero en lugar de libros, piense en datos. Al igual que un sistema de archivos, una base de datos ayuda a mantener la información estructurada.
Structured Data
Se refiere a información que está organizada en un formato específico, lo que facilita su comprensión tanto para humanos como para computadoras. Consiste en elementos de datos organizados en filas y columnas, como una tabla.
Una guía telefónica contiene datos estructurados porque organiza campos específicos como nombre, número de teléfono, dirección, etc.
Unstructured Data
Se refiere a información que no tiene un formato específico. Generalmente, los datos no estructurados carecen de una estructura predefinida, lo que hace que sean más difíciles de analizar y procesar en comparación con los datos estructurados.
Imagina una pila de cartas escritas a mano. Cada carta puede contener diferentes tipos de información, como historias personales, emociones u opiniones. Estas cartas no siguen un formato estandarizado y pueden variar en longitud, estilo de escritura o lenguaje.
En el mundo digital, los correos electrónicos, las publicaciones en las redes sociales, las imágenes, los videos, las grabaciones de audio y los documentos de texto de formato libre son ejemplos de datos no estructurados.
Semi-structured Data
Los datos semiestructurados se encuentran entre los datos estructurados y los no estructurados. Tienen cierta organización, pero carecen del formato predefinido estricto de los datos estructurados.
Piensa en una bandeja de entrada de correo electrónico. Cada correo electrónico consta de elementos estructurados como remitente, destinatario, asunto y marca de tiempo. Sin embargo, el cuerpo del correo electrónico puede contener información no estructurada, como texto de formato libre, archivos adjuntos o diferentes estilos de formato. Esta combinación de estructura y flexibilidad representa los datos semiestructurados.
Data Testing
Es el proceso de examinar y validar datos para garantizar su calidad, precisión y fiabilidad. Implica comprobar si los datos cumplen los estándares esperados y satisfacen los criterios deseados. Básicamente, la prueba de datos es como corregir los datos para detectar errores o inconsistencias, lo que garantiza que la información con la que se trabaja sea fiable y digna de confianza.
Imagina que trabajas como cajero en un supermercado y tu trabajo consiste en registrar los precios de los diferentes productos que se venden. Data testing en este contexto implicaría verificar que el precio que introduce para cada producto sea correcto, asegurándose de que no haya errores tipográficos ni equivocaciones. Puede comparar los precios introducidos con una lista de referencia o consultar con un compañero de trabajo para validar la precisión de los datos registrados.
Duplicate Data
Se refiere a tener múltiples copias idénticas o casi idénticas de la misma información dentro de un conjunto de datos o sistemas.
Considera el escenario en el que estás administrando tu lista de contactos. En esa lista, almacenas nombres, números de teléfono y correos electrónicos de tus amigos. Ahora, supongamos que agregas accidentalmente el mismo contacto dos veces con un typo, lo que da como resultado datos duplicados.
Orphaned Data
Se trata de datos que existen sin ningún contexto asociado o significativo. Básicamente, son datos que carecen de conexiones o relaciones adecuadas con otros elementos de datos.
Imagina una biblioteca en la que encuentras un libro al que le falta información sobre su autor, título, etc. Este libro se convierte en un libro huérfano porque no se puede categorizar ni utilizar adecuadamente, ya que carece de los detalles que lo harían valioso dentro del sistema de la biblioteca.
De manera similar, en el contexto de los datos, los datos huérfanos podrían ser una entrada sin ninguna información correspondiente, como un registro de cliente sin nombre ni datos de contacto. Estos datos se vuelven difíciles de analizar o utilizar de manera efectiva porque carecen del contexto necesario.
Incomplete or Missing Data
Se trata de datos que no están completamente disponibles o carecen de cierta información necesaria. Esto implica que existen lagunas en los datos que pueden dificultar su utilidad para el análisis o la toma de decisiones.
Imagina que estás viajando y utilizas una aplicación de navegación (como Google Maps) que proporciona tiempos de viaje estimados en función de datos históricos de tráfico. Sin embargo, si la aplicación no tiene información actualizada sobre el tráfico actual o los cierres de carreteras, no podrás predecir con precisión tu tiempo de viaje.
En este escenario, los datos incompletos o faltantes son la ausencia de información de tráfico en tiempo real. De manera similar, en el mundo de los datos, es posible que falten datos al analizar el comportamiento del cliente si no se capturan o registran ciertas variables.
Mislabeled Data
Datos que han sido etiquetados o clasificados incorrectamente, lo que genera información inexacta o engañosa. Esto significa que los datos no representan con precisión su verdadera naturaleza o significado.
Estás organizando una colección de fotos. Tienes una carpeta llamada “Vacaciones en Europa”, pero cuando la abres, encuentras imágenes de tus vacaciones en México. En el contexto de los datos, los datos mal etiquetados ocurren cuando se asignan etiquetas incorrectas.
Data Swamp
Se trata de una situación en la que una gran cantidad de datos se desorganizan, desestructuran y dificultan su uso eficaz. Es un estado en el que los datos pierden valor y se estancan o se vuelven inutilizables debido a la falta de una gestión y organización adecuadas.
Imagina que estás en una habitación llena de diversos objetos, como ropa, zapatos, libros, etc. La habitación está desorganizada, lo que hace que sea muy difícil encontrar lo que necesitas. En este ejemplo, la habitación desordenada representa un pantano de datos.
De manera similar, en el ámbito digital, un pantano de datos puede surgir cuando hay una cantidad abrumadora de datos desorganizados almacenados en varios sistemas, bases de datos o archivos.
Data Temperature
Es una clasificación que indica con qué frecuencia se accede y utiliza un conjunto de datos. Los datos “calientes” son de acceso frecuente, los “tibios” de acceso ocasional, y los “fríos” raramente se consultan. Esta clasificación ayuda a las organizaciones a optimizar el almacenamiento y los costos, manteniendo los datos más críticos fácilmente accesibles.
Imagina el refrigerador de tu casa. Guardas la leche y los alimentos que usas diariamente al frente (datos calientes), las sobras de ayer en el medio (datos tibios), y en el congelador al fondo tienes comida que raramente usas (datos fríos).
En el mundo empresarial, un banco mantendría las transacciones del día actual como datos calientes en sistemas rápidos, el historial del último año como datos tibios, y las transacciones de hace 10 años como datos fríos en almacenamiento más económico.
Data Lineage
Es la capacidad de rastrear el origen y el movimiento de los datos a lo largo de su ciclo de vida. Esto le ayuda a comprender de dónde provienen los datos, cómo se transforman y a dónde van, lo que le permite rastrear y analizar el flujo de datos dentro de un sistema u organización.
En términos simples, el linaje de datos es como rastrear los pasos de sus datos, lo que le ayuda a comprender su recorrido de principio a fin y obtener información sobre cómo se usan y se transforman a lo largo del camino.
Imagina que pides un producto en línea. La plataforma de comercio electrónico procesa tu pedido, lo que implica varios pasos como la gestión de inventario, el procesamiento de pagos y el envío. El linaje de datos en este escenario implicaría rastrear el recorrido de los detalles de tu pedido desde el momento en que realizas el pedido hasta que llega a tu puerta.
Por ejemplo, el linaje de datos podría mostrar que los detalles de tu pedido se originaron en la base de datos de la tienda en línea, luego se trasladaron al sistema de pago y, posteriormente, al departamento de logística para el envío.
Data Migration
Es el proceso de transferir datos de un sistema, aplicación o ubicación de almacenamiento a otro. Implica mover datos desde su ubicación actual a un nuevo destino, asegurando su integridad, completitud y compatibilidad. En resumen, es como mover sus datos digitales de una ubicación a otra, de manera muy similar a mover elementos físicos de una casa a otra durante una mudanza.
Es como mudarse de una casa antigua a una nueva. Como parte de la mudanza, debe transferir todas sus pertenencias, incluidos muebles, electrodomésticos y artículos personales de su antigua casa a la nueva. La migración de datos es similar a este proceso, pero en lugar de objetos físicos, implica mover datos digitales.
Durante la migración, es importante considerar factores como la compatibilidad del formato de datos, la seguridad de los datos y la validación de los datos para garantizar una transferencia exitosa.
Data Model
Es la representación estructurada de cómo se organizan, almacenan y relacionan los datos entre sí. Define la estructura lógica, las relaciones y las restricciones que deben seguir los datos. Funciona como un plano arquitectónico que guía el diseño y construcción de un sistema de datos.
Piensa en el plano de una casa: muestra dónde van las habitaciones, cómo se conectan, y qué reglas existen (por ejemplo, la cocina debe estar cerca del comedor).
En datos, si diseñas un sistema para una escuela, tu modelo mostraría que cada estudiante tiene un nombre y matrícula, cada clase tiene un código y horario, y que existe una relación entre estudiantes y clases (un estudiante puede inscribirse en varias clases).
Empresas como Spotify usan modelos de datos para definir cómo se relacionan usuarios, canciones, playlists y artistas en su base de datos
Data Modeling
Es el proceso de creación del modelo de datos. Implica analizar los requisitos, comprender las fuentes de datos y diseñar la estructura y las relaciones de los datos.
El ‘modelado de datos’ puede considerarse como la actividad de traducir conceptos y entidades del mundo real en una representación formal de un modelo de datos.
Tienes una plataforma de comercio electrónico. Al crear un modelo de datos para dicha plataforma, el modelado de datos implicaría identificar y representar entidades, relaciones y atributos clave. Por ejemplo, un usuario representaría a una persona que se registra en la plataforma y puede tener atributos como ID, nombre, información de contacto y detalles del método de pago.
Schema
Es la estructura organizacional que define cómo se almacenan y relacionan los datos en una base de datos. Incluye las tablas, columnas, tipos de datos, restricciones y relaciones entre diferentes elementos. Funciona como el plano arquitectónico que establece las reglas de organización de la información.
Piensa en un formulario de inscripción escolar: tiene campos específicos como nombre (texto), fecha de nacimiento (fecha), grado (número), y reglas como “el nombre es obligatorio” o “la fecha no puede ser futura”.
Un schema hace exactamente eso con los datos. En una aplicación como Instagram, el schema define que cada usuario tiene un nombre de usuario único (texto), una fecha de registro (fecha), seguidores (número), y que cada foto tiene un usuario asociado (relación), garantizando que todos los datos sigan estas reglas y estructura consistente.
Source System
Es cualquier sistema, aplicación o base de datos que genera u origina datos que posteriormente serán consumidos por pipelines de ingeniería de datos. Puede ser una base de datos transaccional (OLTP), APIs, archivos, logs, sensores IoT, o aplicaciones SaaS. Comprender los source systems es crítico porque sus características (velocidad de generación, formato, schema) dictan las estrategias de ingesta y transformación downstream.
Imagina las fuentes de agua de una ciudad: manantiales, ríos, pozos, cada uno con diferentes características (calidad, volumen, constancia). Los sistemas fuente son igual de diversos.
Una empresa de retail tiene múltiples source systems: su aplicación web genera eventos de clicks en tiempo real (streaming), su ERP guarda transacciones de ventas (base de datos transaccional), proveedores envían archivos CSV de inventario diariamente (batch files), y sensores en tiendas físicas registran tráfico de clientes (IoT). Cada uno requiere estrategias diferentes de ingesta: APIs para la web, CDC para el ERP, procesamiento batch para CSVs, y streaming para sensores, pero todos alimentan el ecosistema de datos de la empresa.
Slowly Changing Dimensions (SCD)
Son dimensiones en un data warehouse cuyo contenido cambia lentamente y de forma impredecible a lo largo del tiempo, requiriendo estrategias específicas para rastrear cambios históricos. Los tipos más comunes son: Tipo 1 (sobrescribir), Tipo 2 (agregar nueva fila con versión histórica), y Tipo 3 (agregar columna para valores previos). La elección del tipo depende de requisitos de negocio sobre si se debe mantener historial de cambios.
Imagina que llevas un registro de tus amigos: si uno se muda de ciudad, puedes simplemente actualizar su dirección borrando la anterior (Tipo 1), o agregar una nueva línea manteniendo su dirección anterior con fechas de vigencia (Tipo 2), o agregar una columna “dirección_anterior” (Tipo 3).
Una empresa rastrea información de clientes: Juan Pérez vive en Ciudad A desde 2020. En 2023 se muda a Ciudad B. Con SCD Tipo 2, se crea un nuevo registro indicando que la dirección en Ciudad A fue válida de 2020-2023 (marcando fin de vigencia), y la dirección en Ciudad B es válida desde 2023-presente. Esto permite analizar históricamente: “¿Cuántas ventas tuvimos en Ciudad A cuando Juan vivía ahí?” manteniendo precisión histórica en los reportes.
Data Maturity
Es el nivel de desarrollo y sofisticación de las capacidades de gestión de datos de una organización. Se refiere a qué tan bien una empresa recopila, almacena, analiza y utiliza sus datos para la toma de decisiones. La madurez se evalúa generalmente en niveles progresivos, desde inicial hasta optimizado.
Piensa en aprender a cocinar: al principio sigues recetas básicas sin entender por qué (nivel inicial), luego experimentas y mejoras técnicas (nivel intermedio), y finalmente creas tus propios platillos optimizando sabores (nivel avanzado).
Una startup podría comenzar guardando datos en hojas de cálculo sin análisis formal, mientras que empresas maduras como Amazon tienen sistemas automatizados que predicen demanda y optimizan inventarios en tiempo real basándose en datos históricos y patrones complejos.
Data Pipeline
Se trata de una serie de procesos digitales que se utilizan para recopilar, modificar y entregar datos de un lugar a otro. Consiste en ingerir datos sin procesar de diversas fuentes, como aplicaciones, dispositivos y otros canales digitales, y trasladarlos a un repositorio de datos, como un Data Lake o un Data Warehouse, para su análisis.
Piensa que estás en una tienda en línea. Cuando realizas un pedido, el sitio necesita procesar su pedido, verificar el inventario, generar una etiqueta de envío y enviarle un correo electrónico de confirmación. Todos estos pasos son parte de un data pipeline porque el sitio toma su pedido, pasa por varias etapas y, finalmente, recibe su correo electrónico de confirmación.
ETL
Es el proceso de Extraer (Extract), Transformar (Transform) y Cargar (Load) datos desde fuentes originales hacia un destino como un data warehouse. La extracción obtiene datos de diversos sistemas, la transformación los limpia y adapta al formato deseado, y la carga los almacena en el sistema objetivo. Es uno de los procesos más tradicionales y fundamentales en gestión de datos.
Imagina que eres chef y necesitas preparar una ensalada: primero extraes ingredientes del refrigerador (Extract), luego los lavas, cortas y mezclas según tu receta (Transform), y finalmente los sirves en un plato (Load).
En el mundo empresarial, un banco extrae transacciones diarias de múltiples sucursales y cajeros automáticos, las transforma para estandarizar formatos de moneda y fechas eliminando duplicados, y finalmente las carga en un data warehouse central donde los analistas pueden generar reportes consolidados de operaciones del día.
ELT
Es el proceso de Extraer (Extract), Cargar (Load) y Transformar (Transform) datos, donde a diferencia del ETL tradicional, los datos se cargan directamente en el destino en su forma cruda y se transforman después usando el poder de procesamiento del sistema objetivo. Es más rápido y flexible que ETL, especialmente para grandes volúmenes de datos y cuando se trabaja con data warehouses modernos en la nube.
Imagina que estás mudándote de casa: con ETL sería organizar y empacar perfectamente todas tus cosas antes de transportarlas, con ELT es llevar todo tal como está a la nueva casa y organizarlo allá donde tienes más espacio y herramientas. En el mundo real, una empresa de comercio electrónico recibe millones de registros de clickstream diarios.
*Con ELT, cargan todos esos datos crudos directamente en su data warehouse en la nube (como Snowflake o BigQuery), y luego diferentes equipos transforman los datos según sus necesidades específicas: marketing extrae métricas de conversión, producto analiza patrones de navegación, todo usando el poder de procesamiento masivo del warehouse sin necesidad de servidores intermedios.
EtLT
Es un enfoque híbrido que combina Extract, transform (lite), Load, Transform, realizando una transformación ligera inicial para manejar datos sensibles o cumplir requisitos de seguridad, luego carga los datos en el destino donde se realizan transformaciones complejas finales. Resuelve las limitaciones de seguridad del ELT puro manteniendo velocidad y eficiencia.
Imagina que trabajas en un hospital mudando archivos médicos: primero remueves información sensible como números de seguro social (transform lite), luego transportas todo a la nueva ubicación (load), y finalmente organizas y procesas la información completa ya en el destino (transform).
*Una empresa de salud necesita analizar millones de registros médicos rápidamente pero debe cumplir regulaciones estrictas. Con EtLT, primero extraen los datos y realizan transformaciones rápidas para enmascarar información personal identificable (PII) como nombres y direcciones, cargan estos datos anonimizados en su data warehouse, y ahí realizan análisis complejos integrando múltiples fuentes para identificar patrones de enfermedades sin comprometer la privacidad de pacientes.
Idempotency
Es la propiedad de una operación o proceso que puede ejecutarse múltiples veces produciendo siempre el mismo resultado, sin importar cuántas veces se repita. En ingeniería de datos, garantiza que si un pipeline falla y se reintenta, los datos no se duplican ni corrompen. Es fundamental para construir sistemas confiables y resilientes que manejen errores de forma segura.
Imagina que enciendes un interruptor de luz: presionarlo una vez enciende la luz, presionarlo 10 veces más no hace que la luz se vuelva “más encendida”, el resultado es el mismo.
*En datos, un banco procesa transferencias diarias mediante un pipeline. Si el pipeline falla a mitad de ejecución y se reintenta, una operación idempotente asegura que la misma transferencia no se procese dos veces. Por ejemplo, usar “UPSERT” (actualizar si existe, insertar si no) en lugar de “INSERT” simple, o nombrar archivos con fechas únicas para que sobrescriban en lugar de duplicar. Esto permite que plataformas como Uber o Netflix reinten operaciones fallidas confiadamente sin crear registros duplicados o métricas incorrectas.
Incremental Load
Es una técnica de carga de datos que transfiere únicamente los registros nuevos o modificados desde la última ejecución, en lugar de recargar todo el dataset. Utiliza mecanismos como Change Data Capture (CDC), timestamps o flags de actualización para identificar cambios. Es más rápido y eficiente que full load, permitiendo actualizaciones frecuentes con menor consumo de recursos.
Imagina que llevas un diario: en lugar de reescribir todo el diario cada día, simplemente agregas la nueva página del día actual. Una empresa de e-commerce con millones de productos actualiza su catálogo constantemente.
*Con incremental load, cada hora el pipeline identifica solo los productos que cambiaron de precio, se agregaron o se marcaron como agotados en esa hora (usando un campo “última_modificación”), y actualiza únicamente esos registros en el data warehouse. Si solo 5,000 productos de 10 millones cambiaron, el pipeline procesa 5,000 en lugar de recargar 10 millones completos, reduciendo el tiempo de carga de horas a minutos y permitiendo análisis casi en tiempo real.
Full Load
Es una técnica de carga de datos que transfiere el dataset completo desde la fuente al destino, sobrescribiendo toda la información existente. Garantiza consistencia total de datos y es simple de implementar, pero consume más recursos y tiempo. Se usa típicamente en cargas iniciales, cuando no hay mecanismo para detectar cambios, o en datasets pequeños.
Imagina que estás haciendo respaldo de tu teléfono: en lugar de identificar qué fotos son nuevas, simplemente copias todas las fotos cada vez. Una pequeña startup que genera reportes mensuales de 50,000 registros de ventas hace un full load: cada inicio de mes, elimina la tabla completa del data warehouse y recarga todos los datos desde cero.
*Aunque no es la técnica más eficiente, garantiza que no haya inconsistencias y es simple de mantener. También se usa en la carga inicial cuando implementas un nuevo data warehouse o cuando ocurre un error crítico y necesitas “empezar de cero” para garantizar integridad total de datos.
CDC (Change Data Capture)
Es una técnica que captura y rastrea cambios (inserciones, actualizaciones, eliminaciones) realizados en una base de datos en tiempo real o casi real, permitiendo replicar o sincronizar estos cambios hacia otros sistemas sin necesidad de recargar todo el dataset. Utiliza logs de transacciones o triggers para identificar modificaciones desde la última captura, facilitando pipelines eficientes de integración de datos.
Imagina que tienes un cuaderno donde anotas todas las correcciones que haces a tus apuntes: página 5 cambié “rojo” por “azul”, página 10 agregué un párrafo, página 3 borré una línea. En lugar de reescribir todo el cuaderno, solo compartes esa lista de cambios. Una empresa de e-commerce tiene una base de datos transaccional donde se actualizan precios, inventarios y órdenes constantemente.
*Con CDC, cada cambio en la base de datos se captura automáticamente mediante los logs de transacciones (como el binlog en MySQL) y se transmite en tiempo real a sistemas analíticos o data warehouses. Si un producto cambia de precio de $100 a $80, CDC captura ese cambio específico y lo replica, sin necesidad de leer toda la tabla de productos cada vez.
Dead Letter Queue (DLQ)
Es un mecanismo de almacenamiento temporal para mensajes o registros que no pueden ser procesados exitosamente por un pipeline después de múltiples reintentos. En lugar de perder estos datos o detener el pipeline completo, los registros problemáticos se envían a una cola especial donde pueden ser investigados, corregidos y reprocesados posteriormente sin afectar el flujo principal de datos.
Imagina una línea de producción de una fábrica: si una pieza está defectuosa y no puede pasar por el proceso normal, en lugar de detener toda la línea, la apartan en una bandeja especial para revisión posterior.
Un pipeline de ingesta de eventos de comercio electrónico procesa millones de transacciones diarias. Ocasionalmente llegan registros con formatos inesperados que causan errores. En lugar de fallar todo el pipeline, estos registros se envían automáticamente a una DLQ en Amazon SQS. El equipo revisa semanalmente la DLQ, identifica patrones de errores, corrige el código de validación, y reprocesa los registros corregidos sin haber perdido ninguna transacción ni interrumpido el servicio.
Data Deduplication
Es el proceso de identificar y eliminar registros duplicados de un dataset para garantizar que cada ocurrencia se procese solo una vez. En pipelines batch, la deduplicación analiza el dataset completo; en pipelines streaming, utiliza ventanas de tiempo para mantener un estado de registros ya procesados. Requiere definir atributos de deduplicación que garanticen la unicidad de cada registro.
Imagina que tienes un cuaderno donde anotas tus gastos diarios, pero a veces escribes la misma compra dos veces por error. La deduplicación sería revisar tu cuaderno y eliminar las entradas repetidas dejando solo una.
*Una plataforma de streaming como Netflix recibe eventos de visualización de usuarios que, debido a reintentos automáticos de la red, pueden llegar duplicados. Un sistema de deduplicación identifica eventos con el mismo ID de usuario, video y timestamp, retiene solo el primero, y descarta los duplicados, asegurando que las métricas de visualizaciones sean precisas. Para streaming, el sistema mantiene una ventana temporal (por ejemplo, últimos 10 minutos) donde recuerda IDs ya procesados, balanceando precisión con uso de recursos.
Data Compaction
Es el proceso de optimizar el almacenamiento combinando múltiples archivos pequeños en archivos más grandes para mejorar el rendimiento de lectura y reducir overhead de metadatos. Es especialmente crítico en sistemas que escriben datos incrementalmente o en streaming, donde se generan miles de archivos pequeños que degradan el rendimiento de consultas. No modifica los datos, solo reorganiza su disposición física.
Imagina que guardas documentos importantes: en lugar de tener 100 carpetas con una sola hoja cada una, es mejor consolidarlas en 5 carpetas con 20 hojas cada una, facilitando encontrar información.
*Un pipeline de streaming procesa eventos de IoT cada minuto, generando 1,440 archivos pequeños diarios (uno por minuto). Después de un mes, acumula 43,200 archivos diminutos. Consultar este dataset se vuelve extremadamente lento porque el sistema debe abrir miles de archivos. Un proceso de compactación periódico (por ejemplo, cada hora) combina esos 60 archivos pequeños en uno solo más grande, reduciendo de 43,200 a 720 archivos mensuales, mejorando dramáticamente la velocidad de consultas sin perder información.
Query
Es una solicitud o consulta que se realiza a una base de datos para recuperar, manipular o actualizar información específica. Las queries se escriben típicamente en lenguajes especializados como SQL (Structured Query Language) y permiten filtrar, ordenar, agregar y transformar datos según las necesidades del usuario.
Imagina que estás en una biblioteca enorme y le dices al bibliotecario exactamente qué libro quieres: “Dame todos los libros de ciencia ficción publicados después del 2020”. Eso es una query.
En datos, si trabajas en una tienda de comercio electrónico y necesitas saber cuántos productos se vendieron ayer con un precio mayor a $100 en la región norte, escribirías una query que busca esa información específica en la base de datos y te devuelve exactamente esos resultados en segundos.
Data Contract
Es un documento que define la estructura, el formato, la semántica, la calidad y los términos de uso para el intercambio de datos entre un proveedor de datos y sus consumidores. Ayuda a garantizar que los datos sean coherentes, confiables y comprensibles en diferentes sistemas.
Tu eres un chef que necesita otros ingredientes de un proveedor. En este caso, un contrato de datos sería una lista de compras detallada que especifica claramente el tipo de ingredientes, la cantidad necesaria, etc.
Ahora bien, en el campo de los datos, diferentes sistemas necesitan compartir o intercambiar datos. Para garantizar una comunicación fluida, un contrato ayuda a definir la estructura y las reglas para los datos que se comparten. Especifica aspectos como el formato de los datos (por ejemplo, CSV, JSON), los campos y sus tipos, cualquier regla de validación o restricción y el comportamiento esperado.
Data Entropy
Describe la cantidad de incertidumbre o desorden en un conjunto de datos. Cuanto mayor sea la entropía, mayor será la aleatoriedad y la falta de patrones en los datos.
Tienes una baraja de cartas que está perfectamente ordenada del as al rey en cada palo. En este caso, la entropía de los datos es baja porque el orden es predecible y no contiene mucha aleatoriedad. Ahora, consideremos una baraja de cartas barajada donde las cartas están en un orden aleatorio. En este caso, la entropía de los datos es alta porque el orden es impredecible y contiene más aleatoriedad.
Data Debt
Es la acumulación de problemas que surgen de prácticas inadecuadas de gestión de datos. Similar a la deuda técnica, resulta de descuidar el mantenimiento de activos de datos, generando inconsistencias, redundancias e imprecisiones. Con el tiempo, esta deuda se vuelve costosa de resolver y afecta la confiabilidad de las decisiones.
Imagina que empiezas guardando recetas en servilletas, post-its y cuadernos diferentes sin orden. Al principio funciona, pero después de meses no encuentras las recetas y tienes versiones contradictorias de la misma.
En el ámbito empresarial, un equipo de ciencia de datos presionado por entregar resultados rápidos decide acceder directamente a bases de datos de origen sin estándares ni mejores prácticas, creando pipelines improvisados. Con el tiempo acumulan múltiples versiones de la misma métrica, nadie sabe cuál es correcta, y los costos de mantenimiento se disparan.
Data Silo
Los silos de datos son una colección de datos que está controlada por un departamento o unidad de negocios y aislada del resto de la organización. Normalmente, los datos terminan almacenándose en un sistema separado y, a menudo, son incompatibles con otros conjuntos de datos, lo que dificulta que los usuarios de otras partes de la organización accedan a ellos y los utilicen.
Imagina que tienes varias piezas de rompecabezas esparcidas en diferentes habitaciones de tu casa. Cada habitación representa un departamento diferente dentro de una empresa y las piezas del rompecabezas representan datos.
En el escenario del silo de datos, cada departamento tiene su propia pieza del rompecabezas que está separada de las demás. Las piezas de una habitación no son accesibles ni compartidas con otras habitaciones. Esto significa que cada departamento tiene su propio conjunto de datos que está aislado del resto de la organización.
Data Virtualization
Es una tecnología que integra datos de múltiples fuentes creando una capa virtual unificada sin necesidad de mover o copiar físicamente la información. Permite a usuarios y aplicaciones acceder a datos en tiempo real desde su ubicación original, abstrayendo la complejidad técnica de dónde y cómo están almacenados. Incluye funcionalidades avanzadas como cacheo, seguridad y optimización de consultas.
Imagina que tienes fotos en tu teléfono, computadora y en la nube, pero usas una aplicación que te muestra todas juntas como si estuvieran en un solo lugar sin tener que copiarlas. En una empresa de retail, los datos de ventas están en un sistema, inventario en otro, y datos de clientes en la nube.
Con virtualización, los analistas consultan todo desde una interfaz única que presenta los datos como si estuvieran en un solo lugar, obteniendo información en tiempo real sin crear copias costosas ni procesos ETL complejos.
Data Federation
Es una técnica específica de integración que permite consultar y acceder a múltiples bases de datos distribuidas como si fueran una sola fuente unificada. Los datos permanecen en sus sistemas originales sin moverse, y las consultas se traducen y ejecutan en cada fuente, agregando los resultados de manera transparente para el usuario. Es un componente de data virtualization enfocado en bases de datos.
Imagina una red de bibliotecas públicas donde cada sucursal mantiene sus propios libros, pero tú puedes buscar en un catálogo unificado y solicitar cualquier libro de cualquier sucursal sin necesidad de visitarlas todas. Una empresa multinacional con oficinas en diferentes países mantiene bases de datos locales para cumplir regulaciones regionales.
Con data federation, los ejecutivos globales pueden ejecutar reportes que consultan automáticamente todas las bases regionales simultáneamente, obteniendo resultados consolidados sin centralizar físicamente los datos ni violar regulaciones de residencia de datos.
Data Management
Es el proceso de recopilar, almacenar, organizar y utilizar datos de una manera segura, eficiente y rentable.
Tienes una gran colección de fotos familiares almacenadas en tu computadora. Para administrar mejor tu colección, crea carpetas y subcarpetas para categorizar las fotos según eventos (probablemente separa las carpetas por cumpleaños, vacaciones, etc.). Si deseas encontrar una foto en particular, es mucho más fácil navegar hasta la carpeta correspondiente en lugar de buscar las fotos una por una.
De manera similar, en la administración de datos, los datos deben organizarse, etiquetarse y almacenarse en sistemas apropiados. Esto lleva a definir estructuras de datos, establecer convenciones de nomenclatura de datos, determinar controles de acceso e implementar mecanismos de copia de seguridad y recuperación de datos.
Master Data Management
Es un proceso y un conjunto de prácticas destinadas a crear y gestionar un único ‘golden record’ de entidades de datos importantes dentro de una organización para garantizar la coherencia, la precisión y la fiabilidad. Un MDM proporciona una visión unificada de los datos en varios sistemas para satisfacer las necesidades de una empresa.
Formas parte de una empresa minorista que opera varias tiendas y una plataforma en línea. En esta empresa, tienes datos de clientes dispersos en diferentes sistemas y bases de datos (como registros de ventas, programas de fidelización y registros en línea). Sin una gestión de datos maestros adecuada, puedes terminar teniendo registros duplicados o inconsistencias en la entidad del cliente (por ejemplo, tiene a John Smith, y en el sistema de ventas tiene diferentes entradas, programa de fidelidad y sistema de registro en línea con diferentes variaciones en el nombre, información de contacto, etc.)
Entonces, la empresa decide abordar este problema mediante la creación de un MDM. Decide crear un repositorio central que actúe como la única fuente de verdad para los datos de los clientes. En este sistema de gestión de datos maestros, se consolidan, estandarizan y eliminan los duplicados de distintas fuentes. De esta manera, en lugar de tener múltiples versiones de los registros de ‘Juan Hernandez’, el MDM garantiza que solo exista un registro consolidado y preciso.
Data Democratization
Significa que todos en la organización pueden acceder, comprender y usar los datos para tomar decisiones sin depender exclusivamente de especialistas en datos o departamentos de TI. Elimina los silos de datos y promueve la colaboración entre diferentes usuarios, empoderando a los equipos con autoservicio analítico.
Imagina una biblioteca donde antes tenías que pedirle al bibliotecario cada libro que querías consultar, y él decidía si te lo daba. Democratización sería que ahora puedes entrar, buscar y tomar los libros tú mismo.
Una empresa de comercio electrónico tenía un equipo de análisis centralizado donde marketing, ventas y operaciones debían solicitar e interpretar datos. Al implementar democratización, introdujeron herramientas de autoservicio con interfaces fáciles donde cada departamento ahora puede generar sus propios reportes y análisis sin involucrar al equipo de análisis en cada paso.
Data Catalog
Es un inventario organizado de activos de datos que utiliza metadatos para ayudar a una organización a administrar sus datos. Piense en él como un repositorio centralizado donde puede encontrar información relevante para sus necesidades de datos, ya que lo ayuda a comprender qué datos están disponibles, dónde se encuentran y cómo puede acceder a ellos.
Estás en una tienda minorista. Un catálogo de datos tendría información de varias fuentes de datos, como datos de ventas, datos de clientes, datos de inventario, etc. Esto tendría detalles como qué conjunto de datos tienen, cuándo se actualizó por última vez, quién lo administra y metadatos relevantes.
Un catálogo de datos abarca una gama más amplia de información sobre varios activos de datos en toda la organización, incluidos metadatos, linaje de datos, calidad de datos e información de acceso. El objetivo es proporcionar una vista integral del panorama de datos de la organización.
Data Dictionary
Se centra en proporcionar definiciones y descripciones de elementos de datos específicos dentro de una base de datos o conjunto de datos. Le ayuda a comprender el significado y el formato de los elementos de datos individuales.
Tienes una aplicación de gestión de contactos y desea almacenar información sobre tus amigos. Para cada amigo, deseas almacenar su nombre, número de teléfono y dirección de correo electrónico.
Un diccionario de datos te ayudaría a obtener una descripción general de los datos disponibles, te ayudaría a identificar recursos relevantes y te permitiría ver detalles técnicos como esquemas, formatos de datos, mantenedores, etc.
Data Ops
Es la aplicación de prácticas de DevOps (desarrollo y operaciones) al ciclo de vida de los datos, enfocándose en mejorar la colaboración, automatización, monitoreo y calidad de los pipelines de datos. Combina metodologías ágiles, control de versiones, integración continua, testing automatizado y observabilidad para entregar datos confiables más rápidamente y con menos errores.
Imagina una fábrica moderna con líneas de producción automatizadas, sensores que detectan defectos, y sistemas que alertan inmediatamente si algo sale mal, en lugar de una fábrica antigua donde todo se hace manualmente y los problemas se descubren días después.
Un equipo de data engineering implementa DataOps cuando versiona sus pipelines en Git (como código), ejecuta tests automatizados antes de desplegar cambios en producción, monitorea la calidad de datos en tiempo real con alertas cuando aparecen anomalías, y puede revertir cambios problemáticos en minutos. Esto contrasta con equipos que modifican pipelines manualmente, descubren errores semanas después cuando usuarios reportan números incorrectos, y tardan días en identificar qué salió mal.
Data Orchestration
Es el proceso coordinado de automatizar, programar y gestionar múltiples tareas y flujos de trabajo de datos para que se ejecuten en el orden correcto, con las dependencias apropiadas y en el momento adecuado. Actúa como el director de una orquesta que asegura que cada instrumento (pipeline, transformación, validación) toque en el momento preciso para crear una sinfonía armoniosa de flujo de datos.
Imagina organizar una cena grande: primero compras ingredientes, luego preparas entradas mientras el plato principal se cocina, y finalmente sirves el postre cuando todos terminan. No puedes servir el postre antes de las entradas. La orquestación de datos funciona igual: coordina tareas secuenciales y paralelas.
Una empresa de e-commerce ejecuta diariamente: extraer datos de ventas a las 2 AM, transformarlos a las 3 AM (después de la extracción), cargar métricas a las 4 AM, y finalmente enviar reportes ejecutivos a las 6 AM. Herramientas como Apache Airflow o Prefect automatizan esta coordinación, reintentando tareas fallidas, enviando alertas cuando algo falla, y asegurando que cada paso espere a que el anterior complete exitosamente antes de ejecutarse.
Data Governance
Son las políticas, reglas y prácticas que garantizan la calidad, integridad y seguridad de los datos dentro de una organización. Incluye la catalogación de datos, la definición de estándares, y los procesos que regulan cómo se utilizan, acceden y mantienen los datos.
Imagina una biblioteca pública bien organizada: hay reglas sobre quién puede sacar libros, cuánto tiempo pueden tenerlos, y cómo se catalogan.
En el mundo empresarial, un hospital implementa gobernanza cuando establece quién puede acceder a los registros médicos, cómo se protegen, qué información es confiable para decisiones médicas, y quién es responsable si surgen problemas con los datos de pacientes.
Data Owner
El individuo o entidad que tiene la responsabilidad y el control final sobre activos de datos específicos. El propietario de los datos suele ser responsable de determinar quién tiene acceso a los datos, garantizar su precisión y seguridad, y definir su uso permitido.
Un ejemplo podría ser un hospital, donde el médico jefe o el administrador del hospital pueden ser designados como el propietario de los datos de los registros médicos de los pacientes. Serían responsables de supervisar quién puede acceder a los registros, mantener su confidencialidad y garantizar el cumplimiento de las normas de protección de datos.
Data Steward
Se trata de una persona responsable de gestionar y garantizar la calidad, la seguridad y el uso de los activos de datos de una organización. Por lo general, establece y aplica políticas y procedimientos de gestión de datos, supervisa la integración de datos y facilita el cumplimiento normativo.
Eres la persona a cargo de una institución financiera que supervisa la protección y privacidad de los datos de los clientes. Es responsable de garantizar que los datos de los clientes se gestionen de acuerdo con los requisitos legales, los estándares de la industria y las políticas internas, actuando así como un administrador de datos para los datos financieros confidenciales de la organización.
Data Guardian
Hace referencia a una función, política o tecnología específicamente designada para proteger la integridad, confidencialidad y disponibilidad de los datos. Esto podría incluir la gestión de permisos, la implementación de medidas de seguridad y el control del acceso a los datos.
Imagina que has dejado tu casa al cuidado de un vecino de confianza mientras estás de vacaciones. Este vecino vigila tu casa, riega tus plantas y se asegura de que no entren visitantes no deseados. En este escenario, tu casa y tus pertenencias son tus datos, y el vecino es el guardián de los datos que mantiene todo seguro y en orden hasta que regreses.
En un entorno de datos, un guardián de datos es crucial. Un guardián supervisaría los registros de los pacientes, los tipos de datos sensibles que requieren una protección rigurosa. El guardián se aseguraría de que los datos médicos estén encriptados, de que el acceso se registre y analice para detectar actividades no autorizadas, y de que los datos se compartan de forma segura con las partes autorizadas.
Data Security
Se refiere a la protección de los datos digitales contra el acceso no autorizado, la corrupción o el robo a lo largo de su ciclo de vida. Implica la implementación de medidas como el cifrado, los controles de acceso y la supervisión para salvaguardar la información confidencial y evitar infracciones o divulgaciones no autorizadas.
Una institución financiera cifra los datos financieros de los clientes e implementa controles de acceso estrictos para evitar que personas no autorizadas vean o modifiquen los datos. Esto ayuda a proteger la información financiera confidencial de los clientes de las amenazas cibernéticas y las posibles infracciones de datos.
Data Privacy
Se trata de respetar los derechos y preferencias de las personas en relación con el uso y el manejo de sus datos personales. Es el manejo responsable de la información personal de las personas, garantizando que sus datos estén protegidos contra el acceso, uso o divulgación no autorizados.
“No necesitas privacidad si no tienes nada que ocultar”. Esta es una mala manera de interpretar la privacidad porque crea la sensación de que las personas que exigen privacidad deben ser delincuentes. Todos sabemos lo que pasa cuando vas a bañarte pero aún así cierras la puerta. Un ejemplo de privacidad de datos es cuando un minorista en línea recopila información personal de los clientes para procesar pedidos, pero garantiza que estos datos se almacenan de forma segura y que se obtiene el consentimiento de los clientes para las comunicaciones de marketing.
Data Lifecycle
Se refiere a las etapas por las que pasa la información desde su creación o captura inicial hasta su eliminación o archivo final. Estas etapas suelen incluir la creación de datos, el almacenamiento, el uso, el intercambio, el archivo y la eliminación.
Es como el recorrido de un libro: desde que el autor lo escribe, pasando por su publicación, la lectura por parte de la gente, el almacenamiento en una biblioteca y, posiblemente, el desmantelamiento.
En el ámbito de los datos, un ejemplo del ciclo de vida de los datos sería la información de productos de una empresa minorista. Comienza con la creación de la información del producto, luego se almacena en una base de datos, se utiliza para las ventas en línea, se comparte con los proveedores, se archiva para el análisis histórico y, finalmente, se elimina cuando el producto ya no está disponible.
Data Engineering Lifecycle
El ciclo de ingeniería de datos implica la recopilación, el almacenamiento, el procesamiento, el análisis y el mantenimiento de la infraestructura. Se descubren las fuentes, se define el almacenamiento, se define la ingesta, se transforma y, finalmente, se pone a disposición la información.
Una empresa de comercio electrónico ingiere datos de múltiples fuentes, los transforma, los integra, realiza análisis y visualiza la información para tomar mejores decisiones. Es un proceso iterativo e implica un seguimiento y una mejora continuos.
Data Sources
Se refiere a la fuente o ubicación de la que se recopilan o extraen datos para su uso en análisis, informes o toma de decisiones.
Las fuentes de datos se pueden comparar con los diferentes ingredientes que se utilizan en la cocina, como frutas, verduras y especias, que se recopilan de varias ubicaciones para crear una receta.
En el mundo de los datos, un ejemplo de fuentes de datos es una empresa que recopila información de sistemas dispares, como transacciones de ventas de un sistema de punto de venta, datos de clientes de una plataforma CRM y datos de tráfico web de una herramienta de análisis, para el análisis y la elaboración de informes comerciales.
Data Storage
Es un lugar centralizado donde se recopilan y combinan datos de múltiples fuentes. Conlleva conservar los datos en un formato estructurado para acceder a ellos y utilizarlos en el futuro.
Es como encontrar un lugar para guardar tus libros en una librería para que luego puedas encontrarlos y usarlos cuando los necesites. En el mundo digital, este concepto implica el uso de sistemas o dispositivos para almacenar y recuperar información digital.
Data Ingestion
Es el proceso de recopilar, importar y transferir datos de varias fuentes a un sistema informático o de almacenamiento para su posterior procesamiento y análisis.
Es como recopilar y organizar ingredientes de diferentes proveedores y llevarlos a la cocina de un restaurante para preparar comidas.
Ahora bien, en materia de datos, un ejemplo sería una empresa minorista que recopila datos de ventas de varias tiendas y canales en línea y los incorpora a un almacén de datos centralizado para su análisis y elaboración de informes.
Data Integration
Se centra en combinar datos de distintas fuentes en una vista unificada y coherente. Su finalidad es establecer un modelo de datos común.
De la misma forma en que se juntan piezas de un rompecabezas de distintos lugares para completar el cuadro, la integración de datos unifica las fuentes. Un ejemplo sería una empresa que fusiona datos de clientes de un CRM, datos de ventas de un sistema ERP y datos de marketing de campañas digitales para crear una vista integral para el análisis y la toma de decisiones comerciales estratégicas.
Data Transformation
Es el proceso de convertir datos de un formato, estructura o sistema a otro para que sean utilizables y compatibles con el destino final. Incluye actividades como limpiar, normalizar, agregar, filtrar o enriquecer los datos. Es una etapa crítica en cualquier pipeline de datos para asegurar que la información esté lista para el análisis o almacenamiento.
Imagina que recolectas recetas de cocina de diferentes países: unas están en tazas, otras en gramos, algunas en celsius y otras en fahrenheit. Transformar sería convertir todo a un sistema único (por ejemplo, todo a gramos y celsius) para poder comparar recetas fácilmente.
En el mundo real, una empresa de comercio electrónico recibe datos de ventas de múltiples tiendas con formatos diferentes: algunas usan “USD”, otras “$”, las fechas varían entre “DD/MM/YYYY” y “MM-DD-YY”. El proceso de transformación convierte todo a un formato estándar para que los analistas puedan crear reportes consolidados precisos.
Data Serving
Es el proceso de hacer que los datos procesados y transformados sean accesibles y estén disponibles para los usuarios finales o aplicaciones de manera eficiente y en el formato adecuado. Implica proporcionar acceso mediante APIs, dashboards, reportes o consultas directas, asegurando que la información llegue rápidamente a quien la necesita.
Imagina que estás en un restaurante: los chefs preparan la comida en la cocina y, cuando está lista, los meseros la sirven en tu mesa de forma presentable y a la temperatura correcta. En datos, los usuarios son los clientes y los datos procesados son los platillos listos para consumir. Una empresa de logística procesa millones de datos de entregas cada día.
El equipo de Data Serving se encarga de que los gerentes de operaciones puedan consultar en tiempo real cuántos paquetes están en tránsito, los equipos de servicio al cliente vean el estatus de envíos específicos, y los ejecutivos accedan a dashboards con métricas clave, todo sin tocar las bases de datos originales directamente.
Staging Data
Es el proceso de almacenar y preparar temporalmente datos para cargarlos en un almacén de datos, lago de datos u otro repositorio de datos.
Es como preparar y organizar todas las herramientas, equipos y materiales necesarios antes de comenzar un proyecto en el hogar, como pintar una habitación o ensamblar muebles. Implica tener todo listo y organizado para facilitar la ejecución fluida del proyecto.
En datos, sería almacenar y estructurar datos sin procesar de varias fuentes en un área de preparación antes de integrarlos en una plataforma unificada de almacenamiento o análisis.
Data Warehouse
Es un repositorio centralizado diseñado específicamente para almacenar grandes volúmenes de datos estructurados e históricos provenientes de múltiples fuentes. Está optimizado para consultas analíticas complejas, generación de reportes y toma de decisiones estratégicas. A diferencia de bases de datos transaccionales, su enfoque no es procesar operaciones en tiempo real sino facilitar análisis históricos y tendencias.
Imagina que tienes una biblioteca personal donde guardas libros desordenadamente en diferentes habitaciones. Cuando quieres investigar un tema, pierdes horas buscando. Un data warehouse sería consolidar todos los libros en una biblioteca organizada con un catálogo único donde encuentras todo rápidamente.
Una cadena de retail como Walmart recibe datos diarios de miles de tiendas (ventas, inventario, devoluciones), sitios web (clicks, carritos), proveedores (entregas, precios) y redes sociales (menciones). El data warehouse centraliza y organiza toda esta información histórica en un formato optimizado donde analistas y ejecutivos pueden generar reportes consolidados comparando ventas de este trimestre vs años anteriores, identificar productos de bajo rendimiento, o analizar patrones de compra por región sin tocar los sistemas operacionales.
OLAP
Online Analytical Processing (OLAP) es una tecnología diseñada para realizar análisis multidimensionales complejos y consultas sobre grandes volúmenes de datos históricos. Está optimizado para lectura, agregaciones rápidas y análisis de tendencias, soportando operaciones como drill-down, slice-and-dice y pivot. Es la base de Business Intelligence y reportes analíticos.
Imagina un cubo Rubik donde cada cara representa una dimensión de análisis: puedes girar y ver datos de ventas por región, luego por producto, luego por mes, todo instantáneamente.
Una cadena de supermercados usa OLAP para analizar ventas: los ejecutivos pueden ver ventas totales del año, hacer drill-down a un trimestre específico, filtrar por categoría de productos, comparar regiones, y pivotar para ver todo por línea de tiempo o por tienda, todo en segundos sin esperar que se procesen millones de transacciones porque OLAP ya tiene los datos precalculados y organizados para análisis rápidos.
OLTP
Online Transaction Processing (OLTP) es un sistema diseñado para gestionar y procesar transacciones operacionales en tiempo real con alta velocidad y concurrencia. Está optimizado para operaciones de escritura frecuentes, consultas simples y rápidas, garantizando integridad de datos mediante propiedades ACID. Maneja las operaciones diarias del negocio como ventas, reservas o actualizaciones de inventario.
Imagina la caja registradora de una tienda: necesita procesar cada compra instantáneamente, actualizar inventario, registrar pago, y garantizar que todo sea preciso sin errores. Eso es OLTP.
Cuando compras un boleto de avión en línea, el sistema OLTP procesa tu reservación en segundos: verifica disponibilidad de asiento, bloquea ese asiento para que nadie más lo tome, registra tu pago, actualiza inventario, y confirma tu compra, todo garantizando que si dos personas intentan reservar el mismo asiento simultáneamente, solo una lo obtenga. Este tipo de sistema maneja miles de transacciones concurrentes por segundo con precisión absoluta.
Data Mart
Es un subconjunto del Data Warehouse de una organización que está diseñado para servir a una línea de negocio o departamento específico.
Es como una sección especializada en una biblioteca que contiene libros, revistas y recursos enfocados en un tema o asunto específico, satisfaciendo las necesidades de un grupo particular de lectores.
Si ponemos el tema de datos en contexto, un ejemplo práctico de un Data Mart es un departamento de ventas que tiene su propio Data Mart dentro del Data Warehouse de la empresa, dedicado a almacenar y analizar datos relacionados con las ventas para los requisitos específicos de análisis e informes del departamento.
Data Lake
Es un repositorio que puede recopilar una gran cantidad de datos estructurados, semiestructurados y no estructurados que se almacenan hasta que se necesitan para su procesamiento o análisis.
Vas de viaje a una playa y tienes varias fotos de dónde estuviste. En lugar de organizar tus fotos, las envías a tu Data Lake donde estarán disponibles en su estado original. Cuando quieras clasificarlas, puedes elegir qué fotos y organizarlas según tus necesidades.
Data Lakehouse
Es una arquitectura moderna de gestión de datos que combina elementos de un Data Lake y un Data Warehouse. Permite almacenar grandes volúmenes de datos estructurados y no estructurados como un lago, pero también soporta consultas y análisis eficientes típicos de un almacén. Unifica flexibilidad y rendimiento en una sola plataforma.
Imagina que tienes una biblioteca donde algunos libros están organizados por categoría (estructurados) y otros están en cajas sin ordenar (no estructurados). Un lakehouse sería como tener ambos en el mismo edificio con un sistema que te permite buscar rápidamente en ambos tipos.
Netflix maneja datos masivos de usuarios, preferencias, streaming y metadata de contenido. Con un lakehouse, pueden almacenar todo en un solo lugar y realizar análisis complejos para recomendar películas y optimizar la calidad del streaming sin mover constantemente los datos entre diferentes sistemas.
Data Platform
Es una infraestructura tecnológica que permite la recopilación, el almacenamiento, la gestión y el análisis de datos de diversas fuentes para respaldar las operaciones comerciales y la toma de decisiones.
Una plataforma de datos se asemeja a un panel de control central que reúne varias herramientas y sistemas, lo que permite a los usuarios acceder, administrar y analizar los datos de manera eficaz, como un único panel para múltiples funciones.
Una plataforma de datos agiliza el proceso de recopilación, gestión y almacenamiento de datos, haciéndolos accesibles y utilizables para una variedad de aplicaciones. Proporciona gestión de datos en toda la extensión del entorno, incluidas funciones críticas para el negocio, como la seguridad y la observabilidad.
Sin una plataforma de datos, cada componente suele ser manejado por una herramienta o conjunto de herramientas diferente para hacer que los datos fluyan desde la fuente hasta el usuario final en un entorno complejo.
Data Fabric
Es una arquitectura unificada que proporciona acceso, gestión y gobernanza consistente de datos a través de toda la organización mediante una “tela” o red que conecta diversas fuentes de datos. Permite integrar, transformar y compartir datos sin problemas independientemente de su ubicación, automatizando muchas tareas de gestión de datos mediante inteligencia artificial y metadatos.
Imagina una red eléctrica de una ciudad: no importa si la electricidad viene de paneles solares, una represa o carbón, todos están conectados a una red única que distribuye energía a cualquier hogar que la necesite de forma transparente.
*Una empresa multinacional tiene datos en bases de datos locales, aplicaciones en la nube, sistemas legacy y data lakes. Con data fabric, crean una capa inteligente que conecta automáticamente todas estas fuentes, permitiendo que un analista en México consulte datos de servidores en Europa y Asia sin saber siquiera dónde están físicamente, todo con gobernanza centralizada y transformaciones automatizadas.
Data Mesh
Es un enfoque descentralizado de arquitectura de datos que distribuye la propiedad, el acceso y la gobernanza de los datos entre diferentes dominios o unidades de negocio dentro de una organización. En lugar de tener un equipo centralizado que controla todos los datos, cada área es responsable de sus propios datos como productos independientes pero colaborativos.
Imagina una ciudad donde en lugar de tener una sola biblioteca gigante controlada centralmente, cada barrio tiene su propia biblioteca que administra sus propios libros, pero todas comparten un catálogo común y reglas similares de préstamo. Si necesitas un libro de otro barrio, puedes solicitarlo fácilmente.
En una empresa grande como Spotify, en lugar de que un solo equipo de datos centralizado gestione toda la información, el equipo de podcasts administra sus datos, el equipo de música los suyos, y el equipo de usuarios los propios, pero todos colaboran usando estándares compartidos para que los datos fluyan entre áreas cuando sea necesario.
Data Sharing
Es el proceso de poner los mismos recursos de datos a disposición de múltiples aplicaciones, usuarios u organizaciones. Conlleva tecnologías, prácticas, marcos legales y elementos culturales que facilitan el acceso seguro a los datos para múltiples entidades sin comprometer la integridad de los datos.
Data Sharing mejora la eficiencia dentro de una organización y fomenta la colaboración con proveedores y socios. Permite a las partes interesadas aprender unas de otras y colaborar en prioridades compartidas.
Data Sharing puede ir desde artículos de investigación o publicaciones académicas hasta estadísticas corporativas, datos científicos o revisiones anuales de desempeño.
Data Product
Es una aplicación o herramienta de software que utiliza datos para brindar información, servicios o funcionalidades valiosas a los usuarios u otros sistemas.
Es como una aplicación de un smartphone que utiliza datos de ubicación para ofrecer recomendaciones personalizadas de restaurantes cercanos, lo que ayuda a los usuarios a tomar decisiones informadas sobre dónde cenar.
Un producto de datos es un dashboard de business intelligence que integra y visualiza datos de ventas, marketing y finanzas para brindar información útil a los tomadores de decisiones dentro de una organización.
Data Quality
Abarca dimensiones como la precisión, la integridad, la coherencia, la fiabilidad y la puntualidad. Implica procesos y tecnologías que miden, gestionan y mejoran la salud de los datos. Mantener la calidad de los datos requiere vigilancia en las prácticas de gestión de datos y un seguimiento constante para detectar y corregir problemas.
Piensa como si estuvieras haciendo un viaje por carretera utilizando un mapa. Si el mapa está actualizado, es preciso y detallado, es probable que el viaje sea tranquilo, pero si está desactualizado, puede perderse o retrasarse. Los datos de alta calidad son como un mapa preciso y actualizado para una empresa, que conduce a mejores decisiones y operaciones más eficientes.
Data Observability
Es la capacidad de comprender completamente el estado de salud de los datos en un sistema mediante monitoreo, alertas y análisis de métricas clave como frescura, volumen, esquema, linaje y distribución. Permite detectar, diagnosticar y resolver problemas de calidad de datos proactivamente antes de que afecten decisiones de negocio o análisis.
Imagina que eres médico monitoreando la salud de un paciente: mides signos vitales constantemente (temperatura, presión, ritmo cardíaco) y recibes alertas si algo está mal. Data observability hace lo mismo con tus datos.
Una plataforma de streaming como Netflix monitorea constantemente sus pipelines de datos: si detectan que las métricas de visualización no se actualizaron en las últimas 2 horas cuando deberían actualizarse cada hora (problema de frescura), o si el volumen de datos recibidos cayó 50% inesperadamente, el sistema alerta automáticamente al equipo de ingeniería mostrando exactamente dónde falló el pipeline para que puedan resolverlo antes de que afecte las recomendaciones a usuarios.
Data Gathering
Es el proceso de recopilar, compilar y capturar información de diversas fuentes. La recopilación es esencial para adquirir la materia prima necesaria para el análisis, la interpretación y la toma de decisiones.
Imagina que quieres saber qué sabor de helado prefiere la gente. Haces una encuesta preguntando a tus amigos y vecinos cuál es su favorito. La recopilación de datos es simplemente reunir todas esas respuestas. En el mundo empresarial, una tienda podría realizar encuestas para conocer las preferencias de los clientes sobre un nuevo producto, recopilando respuestas que luego analizará para comprender mejor las necesidades y preferencias de sus clientes.
Data Scalability
Es la capacidad de un sistema de datos para crecer y manejar volúmenes crecientes de información, usuarios concurrentes o cargas de trabajo sin degradar significativamente el rendimiento. Incluye escalabilidad vertical (agregar recursos a un servidor) y horizontal (agregar más servidores). Es fundamental para sistemas que anticipan crecimiento continuo de datos.
Imagina una carretera: cuando hay poco tráfico funciona bien, pero cuando crece la ciudad necesitas expandirla. Escalabilidad vertical es hacer los carriles más anchos; horizontal es construir nuevas carreteras paralelas. Instagram comenzó con miles de usuarios compartiendo fotos, hoy tiene miles de millones.
Su infraestructura de datos es escalable horizontalmente: cuando el volumen de fotos y usuarios crece, automáticamente agregan más servidores distribuidos globalmente que trabajan en paralelo, permitiendo que usuarios en México, Japón y España suban y vean fotos simultáneamente sin ralentizaciones, manejando petabytes de datos sin colapsar.
Data Latency
Es el tiempo de retraso entre el momento en que ocurre un evento que genera datos y el momento en que esos datos están disponibles para su consulta o análisis. Puede variar desde milisegundos (baja latencia) hasta horas o días (alta latencia), dependiendo de la arquitectura y requisitos del sistema. Es crítica para aplicaciones en tiempo real.
Imagina que estás viendo un partido de fútbol: verlo en vivo en el estadio es latencia cero, verlo por TV es 5 segundos de latencia, verlo por streaming puede ser 30 segundos, y ver el resumen al día siguiente es alta latencia. Una aplicación de trading financiero requiere latencia ultra baja (milisegundos) porque cada segundo cuenta para decisiones de compra/venta de acciones.
En contraste, un reporte mensual de ventas puede tolerar alta latencia (horas). Uber necesita baja latencia en el matching de conductores (segundos), pero puede tener mayor latencia en reportes de tendencias mensuales que los ejecutivos revisan después.
Data Engineer
Es el profesional encargado de construir, mantener y optimizar la infraestructura y los sistemas que recopilan, almacenan y procesan grandes cantidades de datos. Diseña y opera pipelines de datos, asegura la calidad de los flujos de información, y garantiza que los datos estén disponibles, confiables y listos para su análisis por otros equipos.
Imagina que eres responsable de construir y mantener las carreteras de una ciudad para que los camiones puedan transportar mercancías de forma eficiente y segura. El ingeniero de datos hace lo mismo pero con información.
En una empresa como Amazon o Mercado Libre, un ingeniero de datos construye los sistemas que recopilan millones de transacciones diarias, las procesan para eliminar errores, las transforman a formatos estándares, y las almacenan en diferentes bases de datos donde los analistas y científicos de datos pueden consultarlas. También asegura que estos procesos funcionen las 24 horas sin interrupciones y que los datos lleguen a tiempo para generar reportes y tomar decisiones críticas.
Data Analyst
Es el profesional que explora, analiza y encuentra patrones en los datos para obtener conocimiento y responder preguntas de negocio. Utiliza estadísticas, herramientas de visualización y técnicas analíticas para comprender el pasado y el presente. Su objetivo es transformar datos en información útil que ayude a tomar decisiones informadas.
Imagina que eres un detective investigando un caso: examinas pistas, buscas patrones, y armas una historia lógica de lo que sucedió. Un analista de datos hace lo mismo con números y hechos.
En una tienda de ropa en línea, un analista de datos examinaría las ventas del último trimestre para identificar qué productos se venden más, en qué días de la semana hay más tráfico, qué regiones compran más, y cuál es el ticket promedio de compra. Con esta información, el equipo de marketing puede diseñar campañas más efectivas y el equipo de inventario puede planificar mejor sus compras.
Data Scientist
Es similar al analista de datos, pero la diferencia es que los científicos de datos utilizan técnicas estadísticas sólidas y aprendizaje automático para predecir el futuro. (Los analistas son el pasado y el presente, los científicos son el futuro).
Si quieres predecir el clima, primero tienes que entender por qué algunas regiones reciben más lluvia que otras, luego recopilar datos sobre temperatura, patrones, etc. Y luego usar herramientas para analizar y predecir cuándo lloverá, o usar herramientas de toma de decisiones para ver si es seguro viajar.
Data Architect
Es el profesional responsable de diseñar, estructurar y organizar los activos de datos físicos y lógicos de una organización, así como los recursos de gestión de datos. Define cómo se almacenan, integran, acceden y consumen los datos a través de diferentes sistemas. Es el arquitecto del ecosistema de datos de una empresa.
Imagina que quieres construir una casa: necesitas un plano que muestre dónde irán las habitaciones, la cocina, las puertas, y cómo se conectan entre sí. Un arquitecto de datos hace lo mismo pero con información.
En una empresa de seguros, el arquitecto de datos diseñaría cómo los datos de pólizas, clientes, siniestros y pagos se almacenan en diferentes sistemas, cómo se conectan entre sí, qué estándares de seguridad aplicar, y cómo los diferentes equipos pueden acceder eficientemente a la información que necesitan sin duplicar datos ni comprometer la privacidad.