Data Lakes y Lakehouse: Delta Lake y Databricks
Construye un lakehouse sobre Databricks: arquitectura medallion, Delta Lake con transacciones ACID, time travel y schema evolution, gobierno con Unity Catalog y optimización de tablas para consultas rápidas y fiables.
- Nivel
- Intermedio
- Duración
- 20 horas
- Modalidades
- Online en directo · In-company · A medida
- Dirigido a
- Ingenieros y arquitectos de datos que diseñan o evolucionan la plataforma analítica de su organización.

¿Qué es este curso y por qué te interesa?
Los data lakes prometían un repositorio único y barato para todos los datos de la organización, y muchos acabaron siendo lo contrario: ficheros sin esquema fiable, sin transacciones, sin posibilidad de corregir un dato sin reescribir la partición entera. El lakehouse es la respuesta a ese fracaso: mantener el almacenamiento abierto y económico del lake y añadirle las garantías de un warehouse —transacciones ACID, esquemas gobernados, rendimiento de consulta— mediante un formato de tabla transaccional.
Este curso recorre esa arquitectura sobre su implementación más extendida: Delta Lake en Databricks. Se trabaja el formato en profundidad —el transaction log, las transacciones ACID, time travel para auditar y recuperar versiones, schema enforcement y evolution, operaciones MERGE para upserts y CDC— y la organización del dato con la arquitectura medallion: capas bronze, silver y gold con responsabilidades claras desde la ingesta cruda hasta el dato listo para negocio.
La parte final aborda lo que hace al lakehouse explotable a escala: gobierno con Unity Catalog —catálogo, permisos, linaje— y optimización de tablas: OPTIMIZE y compactación, Z-Ordering y liquid clustering, VACUUM y gestión de versiones, y los ajustes que marcan la diferencia entre consultas de segundos y de minutos. Todo se practica sobre Databricks con casos de plataforma reales.
Capacidades que adquirirás
- Entender el lakehouse y decidir con criterio frente a data lake y data warehouse clásicos.
- Dominar Delta Lake: transaction log, ACID, time travel, schema enforcement y evolution.
- Diseñar una arquitectura medallion con capas bronze, silver y gold bien delimitadas.
- Implementar ingestas y upserts fiables con COPY INTO, Auto Loader y MERGE.
- Gobernar y optimizar el lakehouse: Unity Catalog, OPTIMIZE, clustering y VACUUM.
Objetivos del curso
- 01Comprender qué problemas del data lake resuelve el formato de tabla transaccional.
- 02Operar tablas Delta con soltura: DML completo, versiones, restore y auditoría de cambios.
- 03Estructurar pipelines por capas medallion con contratos claros entre cada capa.
- 04Gestionar la evolución de esquemas sin romper consumidores ni pipelines.
- 05Aplicar permisos, catálogo y linaje con Unity Catalog.
- 06Optimizar tablas Delta para que las consultas escalen con el volumen de datos.
¿Es este curso para ti o para tu equipo?
Ingenieros y arquitectos de datos que diseñan o evolucionan la plataforma analítica de su organización.
Ingenieros de datos
Profesionales que construyen pipelines sobre data lakes y necesitan las garantías y los patrones del lakehouse para producción.
Arquitectos de datos y de plataforma
Perfiles que diseñan la plataforma analítica de la organización y evalúan o lideran la adopción del modelo lakehouse.
Analistas y desarrolladores de BI avanzados
Perfiles que consumen del lake y quieren entender la plataforma por dentro para diseñar mejor las capas de consumo.
Temario completo
Programa estructurado en módulos. Cada itinerario in-company se ajusta al nivel y a los objetivos concretos del equipo.
- Por qué fracasaron tantos data lakes: el pantano de datos.
- Lakehouse: qué añade y qué conserva frente a lake y warehouse.
- Formatos de tabla abiertos: Delta Lake, Iceberg y Hudi en contexto.
- El ecosistema Databricks: workspace, clusters, SQL warehouses y notebooks.
Cómo se imparte
Práctica desde la primera sesión
Cada bloque combina explicación, demostración y laboratorio. Los alumnos trabajan sobre casos reales aplicables a su contexto profesional.
Casos de cliente
En programas in-company partimos de los procesos y datos del cliente. La formación deja de sonar genérica y empieza a resolver problemas concretos.
Materiales de apoyo
Los participantes reciben código, plantillas y guías reutilizables tras la formación. Lo que se aprende se mantiene en el día a día.
Adaptación al nivel del equipo
Antes de impartir, hacemos un breve diagnóstico y ajustamos profundidad y ritmo. La formación no se queda corta ni avanza por encima del grupo.
Modalidades disponibles
Cada formato puede adaptarse al ritmo y al contexto operativo de la organización.
Online en directo
Sesiones en streaming con interacción en vivo, ejercicios guiados y resolución de dudas.
In-company
Programa diseñado a medida y impartido para un único equipo o organización.
A medida
Itinerario completamente personalizado: temario, duración, formato y casos del cliente.
¿Por qué contratar este programa para tu equipo?
La formación no se diseña contra un examen, se diseña contra un objetivo de negocio.
- Mejora de productividad real en el puesto de trabajo.
- Actualización de competencias clave para el negocio.
- Mayor autonomía técnica y reducción de dependencia externa.
- Aplicación práctica inmediata sobre procesos del cliente.
- Mejor adopción tecnológica con criterios profesionales.
- Preparación para proyectos de IA, datos, automatización o desarrollo.
¿Se puede gestionar como formación bonificada?
Este curso puede plantearse como formación para empresas y, según las condiciones de cada organización, podría gestionarse dentro de iniciativas de formación bonificada. En DatIACode te ayudamos a estructurar la propuesta formativa y la documentación necesaria para su valoración.
¿Qué necesitas saber antes de empezar?
- Experiencia básica con Spark o PySpark: DataFrames y SQL.
- Conocimientos sólidos de SQL y de modelado de datos básico.
- Familiaridad con algún cloud (Azure, AWS o GCP) recomendada.
Cómo se aplica lo aprendido
- Diseño e implantación de la plataforma analítica corporativa como lakehouse.
- Migración de data lakes problemáticos a tablas Delta gobernadas.
- Unificación de cargas batch y streaming sobre las mismas tablas.
- Sincronización fiable de datos operacionales con MERGE y patrones CDC.
- Implantación de gobierno, permisos y linaje con Unity Catalog.
- Reducción de tiempos de consulta y costes de almacenamiento mediante optimización de tablas.
Por qué elegir DatIACode
No vendemos formación: diseñamos programas que se traducen en capacidad operativa real.
Experiencia aplicada
Más de 20 años combinando consultoría, desarrollo y formación tecnológica para empresas de distintos sectores.
Visión de negocio
Cada programa parte de los objetivos del cliente. La técnica está al servicio del problema, no al revés.
Adaptación al equipo
Ajustamos profundidad, ritmo y casos de uso al nivel real del equipo tras un breve diagnóstico inicial.
Formación + consultoría
Si la formación destapa un proyecto, podemos acompañarte en su implantación. No abandonamos el resultado.
Especialización en IA
Trabajamos en IA aplicada todos los días. La formación no la imparte alguien que solo enseña, la imparte alguien que también construye.
Orientación a resultados
Entregables tangibles y métricas pactadas. Sin promesas vacías.
FAQ
No. El curso introduce el workspace, los clusters y los notebooks en el primer módulo. Lo que sí se asume es una base de Spark o de SQL para seguir los ejercicios con fluidez; si no la tienes, el curso de Apache Spark y Databricks es la puerta de entrada recomendada.
Cuéntanos qué necesitas
Te respondemos en menos de 24h laborables con disponibilidad, opciones de modalidad y propuesta a medida si aplica.
- Diagnóstico inicial sin compromiso.
- Propuesta adaptada al nivel y al sector.
- Asesoramiento sobre formación bonificada.
Cursos relacionados
Ver todos los cursos- Ver curso
Big Data30 horasApache Spark con Databricks — Procesamiento a gran escala
- Ver curso
Big Data20 horasFundamentos de Big Data y arquitecturas de datos modernas
- Ver curso
Big Data16 horasGobierno, calidad y linaje del dato en Big Data
