Saltar al contenido principal
Formación DatIACode

Data Lakes y Lakehouse: Delta Lake y Databricks

Construye un lakehouse sobre Databricks: arquitectura medallion, Delta Lake con transacciones ACID, time travel y schema evolution, gobierno con Unity Catalog y optimización de tablas para consultas rápidas y fiables.

Nivel
Intermedio
Duración
20 horas
Modalidades
Online en directo · In-company · A medida
Dirigido a
Ingenieros y arquitectos de datos que diseñan o evolucionan la plataforma analítica de su organización.
Sobre el curso

¿Qué es este curso y por qué te interesa?

Los data lakes prometían un repositorio único y barato para todos los datos de la organización, y muchos acabaron siendo lo contrario: ficheros sin esquema fiable, sin transacciones, sin posibilidad de corregir un dato sin reescribir la partición entera. El lakehouse es la respuesta a ese fracaso: mantener el almacenamiento abierto y económico del lake y añadirle las garantías de un warehouse —transacciones ACID, esquemas gobernados, rendimiento de consulta— mediante un formato de tabla transaccional.

Este curso recorre esa arquitectura sobre su implementación más extendida: Delta Lake en Databricks. Se trabaja el formato en profundidad —el transaction log, las transacciones ACID, time travel para auditar y recuperar versiones, schema enforcement y evolution, operaciones MERGE para upserts y CDC— y la organización del dato con la arquitectura medallion: capas bronze, silver y gold con responsabilidades claras desde la ingesta cruda hasta el dato listo para negocio.

La parte final aborda lo que hace al lakehouse explotable a escala: gobierno con Unity Catalog —catálogo, permisos, linaje— y optimización de tablas: OPTIMIZE y compactación, Z-Ordering y liquid clustering, VACUUM y gestión de versiones, y los ajustes que marcan la diferencia entre consultas de segundos y de minutos. Todo se practica sobre Databricks con casos de plataforma reales.

Qué aprenderás

Capacidades que adquirirás

  • Entender el lakehouse y decidir con criterio frente a data lake y data warehouse clásicos.
  • Dominar Delta Lake: transaction log, ACID, time travel, schema enforcement y evolution.
  • Diseñar una arquitectura medallion con capas bronze, silver y gold bien delimitadas.
  • Implementar ingestas y upserts fiables con COPY INTO, Auto Loader y MERGE.
  • Gobernar y optimizar el lakehouse: Unity Catalog, OPTIMIZE, clustering y VACUUM.
Objetivos

Objetivos del curso

  1. 01Comprender qué problemas del data lake resuelve el formato de tabla transaccional.
  2. 02Operar tablas Delta con soltura: DML completo, versiones, restore y auditoría de cambios.
  3. 03Estructurar pipelines por capas medallion con contratos claros entre cada capa.
  4. 04Gestionar la evolución de esquemas sin romper consumidores ni pipelines.
  5. 05Aplicar permisos, catálogo y linaje con Unity Catalog.
  6. 06Optimizar tablas Delta para que las consultas escalen con el volumen de datos.
A quién va dirigido

¿Es este curso para ti o para tu equipo?

Ingenieros y arquitectos de datos que diseñan o evolucionan la plataforma analítica de su organización.

Ingenieros de datos

Profesionales que construyen pipelines sobre data lakes y necesitan las garantías y los patrones del lakehouse para producción.

Arquitectos de datos y de plataforma

Perfiles que diseñan la plataforma analítica de la organización y evalúan o lideran la adopción del modelo lakehouse.

Analistas y desarrolladores de BI avanzados

Perfiles que consumen del lake y quieren entender la plataforma por dentro para diseñar mejor las capas de consumo.

Temario

Temario completo

Programa estructurado en módulos. Cada itinerario in-company se ajusta al nivel y a los objetivos concretos del equipo.

    • Por qué fracasaron tantos data lakes: el pantano de datos.
    • Lakehouse: qué añade y qué conserva frente a lake y warehouse.
    • Formatos de tabla abiertos: Delta Lake, Iceberg y Hudi en contexto.
    • El ecosistema Databricks: workspace, clusters, SQL warehouses y notebooks.
Metodología

Cómo se imparte

Práctica desde la primera sesión

Cada bloque combina explicación, demostración y laboratorio. Los alumnos trabajan sobre casos reales aplicables a su contexto profesional.

Casos de cliente

En programas in-company partimos de los procesos y datos del cliente. La formación deja de sonar genérica y empieza a resolver problemas concretos.

Materiales de apoyo

Los participantes reciben código, plantillas y guías reutilizables tras la formación. Lo que se aprende se mantiene en el día a día.

Adaptación al nivel del equipo

Antes de impartir, hacemos un breve diagnóstico y ajustamos profundidad y ritmo. La formación no se queda corta ni avanza por encima del grupo.

Modalidades

Modalidades disponibles

Cada formato puede adaptarse al ritmo y al contexto operativo de la organización.

Online en directo

Sesiones en streaming con interacción en vivo, ejercicios guiados y resolución de dudas.

In-company

Programa diseñado a medida y impartido para un único equipo o organización.

A medida

Itinerario completamente personalizado: temario, duración, formato y casos del cliente.

Beneficios para empresas

¿Por qué contratar este programa para tu equipo?

La formación no se diseña contra un examen, se diseña contra un objetivo de negocio.

  • Mejora de productividad real en el puesto de trabajo.
  • Actualización de competencias clave para el negocio.
  • Mayor autonomía técnica y reducción de dependencia externa.
  • Aplicación práctica inmediata sobre procesos del cliente.
  • Mejor adopción tecnológica con criterios profesionales.
  • Preparación para proyectos de IA, datos, automatización o desarrollo.
Formación bonificada

¿Se puede gestionar como formación bonificada?

Este curso puede plantearse como formación para empresas y, según las condiciones de cada organización, podría gestionarse dentro de iniciativas de formación bonificada. En DatIACode te ayudamos a estructurar la propuesta formativa y la documentación necesaria para su valoración.

Requisitos previos

¿Qué necesitas saber antes de empezar?

  • Experiencia básica con Spark o PySpark: DataFrames y SQL.
  • Conocimientos sólidos de SQL y de modelado de datos básico.
  • Familiaridad con algún cloud (Azure, AWS o GCP) recomendada.
Aplicaciones

Cómo se aplica lo aprendido

  • Diseño e implantación de la plataforma analítica corporativa como lakehouse.
  • Migración de data lakes problemáticos a tablas Delta gobernadas.
  • Unificación de cargas batch y streaming sobre las mismas tablas.
  • Sincronización fiable de datos operacionales con MERGE y patrones CDC.
  • Implantación de gobierno, permisos y linaje con Unity Catalog.
  • Reducción de tiempos de consulta y costes de almacenamiento mediante optimización de tablas.
DatIACode

Por qué elegir DatIACode

No vendemos formación: diseñamos programas que se traducen en capacidad operativa real.

Experiencia aplicada

Más de 20 años combinando consultoría, desarrollo y formación tecnológica para empresas de distintos sectores.

Visión de negocio

Cada programa parte de los objetivos del cliente. La técnica está al servicio del problema, no al revés.

Adaptación al equipo

Ajustamos profundidad, ritmo y casos de uso al nivel real del equipo tras un breve diagnóstico inicial.

Formación + consultoría

Si la formación destapa un proyecto, podemos acompañarte en su implantación. No abandonamos el resultado.

Especialización en IA

Trabajamos en IA aplicada todos los días. La formación no la imparte alguien que solo enseña, la imparte alguien que también construye.

Orientación a resultados

Entregables tangibles y métricas pactadas. Sin promesas vacías.

Preguntas frecuentes

FAQ

  • No. El curso introduce el workspace, los clusters y los notebooks en el primer módulo. Lo que sí se asume es una base de Spark o de SQL para seguir los ejercicios con fluidez; si no la tienes, el curso de Apache Spark y Databricks es la puerta de entrada recomendada.

Solicitar información

Cuéntanos qué necesitas

Te respondemos en menos de 24h laborables con disponibilidad, opciones de modalidad y propuesta a medida si aplica.

  • Diagnóstico inicial sin compromiso.
  • Propuesta adaptada al nivel y al sector.
  • Asesoramiento sobre formación bonificada.
Modalidad de interés*
Número aproximado de alumnos*

Información básica de protección de datos. Responsable: Datiacode Tech S.L.. Finalidad: atender tu solicitud y, si lo aceptas, enviarte comunicaciones comerciales. Legitimación: consentimiento del interesado y/o medidas precontractuales. Destinatarios: encargados de tratamiento descritos en la política. Derechos: acceso, rectificación, supresión, oposición, limitación y portabilidad escribiendo a privacidad@datiacode.com. Más información en la Política de Privacidad.

  • Ver curso
    Big Data30 horas

    Apache Spark con Databricks — Procesamiento a gran escala

  • Ver curso
    Big Data20 horas

    Fundamentos de Big Data y arquitecturas de datos modernas

  • Ver curso
    Big Data16 horas

    Gobierno, calidad y linaje del dato en Big Data

Ver todos los cursos