¿Necesito experiencia previa con Databricks?

No. El curso introduce el workspace, los clusters y los notebooks en el primer módulo. Lo que sí se asume es una base de Spark o de SQL para seguir los ejercicios con fluidez; si no la tienes, el curso de Apache Spark y Databricks es la puerta de entrada recomendada.

¿Lo aprendido sirve fuera de Databricks?

En gran parte, sí. Delta Lake es un formato abierto utilizable con Spark en cualquier plataforma, y la arquitectura medallion y los patrones de ingesta aplican igual con Iceberg o Hudi. Lo específico de Databricks —Unity Catalog, Auto Loader, liquid clustering— se señala expresamente, junto con sus equivalencias aproximadas en otros entornos.

¿El curso cubre también la parte de streaming?

Se cubre la ingesta incremental y continua sobre tablas Delta con Auto Loader y la convivencia de batch y streaming sobre las mismas tablas, que es parte esencial del lakehouse. El procesamiento de streaming en profundidad —ventanas, watermarks, estado— se trabaja en el curso de procesamiento en tiempo real con Kafka y Spark Streaming.

¿Puede impartirse para empresas?

Sí. Todos nuestros cursos pueden impartirse en formato in-company, adaptando temario, duración y nivel al equipo. Diseñamos el itinerario tras un breve diagnóstico previo.

¿El curso es práctico?

Sí. Combinamos explicación, demostración guiada y laboratorios. Cada alumno trabaja sobre casos reales y termina con entregables aplicables a su contexto profesional.

¿Se entrega certificado de aprovechamiento?

Sí. Al finalizar el curso emitimos un certificado de aprovechamiento de DatIACode con detalle del temario y horas. Si el curso prepara para certificación oficial, lo indicaremos expresamente en su descripción.

Todos los cursos Big Data

Formación DatIACode

Data Lakes y Lakehouse: Delta Lake y Databricks

Construye un lakehouse sobre Databricks: arquitectura medallion, Delta Lake con transacciones ACID, time travel y schema evolution, gobierno con Unity Catalog y optimización de tablas para consultas rápidas y fiables.

Nivel: Intermedio
Duración: 20 horas
Modalidades: Online en directo · In-company · A medida
Dirigido a: Ingenieros y arquitectos de datos que diseñan o evolucionan la plataforma analítica de su organización.

Sobre el curso

¿Qué es este curso y por qué te interesa?

Los data lakes prometían un repositorio único y barato para todos los datos de la organización, y muchos acabaron siendo lo contrario: ficheros sin esquema fiable, sin transacciones, sin posibilidad de corregir un dato sin reescribir la partición entera. El lakehouse es la respuesta a ese fracaso: mantener el almacenamiento abierto y económico del lake y añadirle las garantías de un warehouse —transacciones ACID, esquemas gobernados, rendimiento de consulta— mediante un formato de tabla transaccional.

Este curso recorre esa arquitectura sobre su implementación más extendida: Delta Lake en Databricks. Se trabaja el formato en profundidad —el transaction log, las transacciones ACID, time travel para auditar y recuperar versiones, schema enforcement y evolution, operaciones MERGE para upserts y CDC— y la organización del dato con la arquitectura medallion: capas bronze, silver y gold con responsabilidades claras desde la ingesta cruda hasta el dato listo para negocio.

La parte final aborda lo que hace al lakehouse explotable a escala: gobierno con Unity Catalog —catálogo, permisos, linaje— y optimización de tablas: OPTIMIZE y compactación, Z-Ordering y liquid clustering, VACUUM y gestión de versiones, y los ajustes que marcan la diferencia entre consultas de segundos y de minutos. Todo se practica sobre Databricks con casos de plataforma reales.

Qué aprenderás

Capacidades que adquirirás

Entender el lakehouse y decidir con criterio frente a data lake y data warehouse clásicos.
Dominar Delta Lake: transaction log, ACID, time travel, schema enforcement y evolution.
Diseñar una arquitectura medallion con capas bronze, silver y gold bien delimitadas.
Implementar ingestas y upserts fiables con COPY INTO, Auto Loader y MERGE.
Gobernar y optimizar el lakehouse: Unity Catalog, OPTIMIZE, clustering y VACUUM.

Objetivos

Objetivos del curso

01Comprender qué problemas del data lake resuelve el formato de tabla transaccional.
02Operar tablas Delta con soltura: DML completo, versiones, restore y auditoría de cambios.
03Estructurar pipelines por capas medallion con contratos claros entre cada capa.
04Gestionar la evolución de esquemas sin romper consumidores ni pipelines.
05Aplicar permisos, catálogo y linaje con Unity Catalog.
06Optimizar tablas Delta para que las consultas escalen con el volumen de datos.

A quién va dirigido

¿Es este curso para ti o para tu equipo?

Ingenieros y arquitectos de datos que diseñan o evolucionan la plataforma analítica de su organización.

Ingenieros de datos

Profesionales que construyen pipelines sobre data lakes y necesitan las garantías y los patrones del lakehouse para producción.

Arquitectos de datos y de plataforma

Perfiles que diseñan la plataforma analítica de la organización y evalúan o lideran la adopción del modelo lakehouse.

Analistas y desarrolladores de BI avanzados

Perfiles que consumen del lake y quieren entender la plataforma por dentro para diseñar mejor las capas de consumo.

Temario

Temario completo

Programa estructurado en módulos. Cada itinerario in-company se ajusta al nivel y a los objetivos concretos del equipo.

- Por qué fracasaron tantos data lakes: el pantano de datos.
- Lakehouse: qué añade y qué conserva frente a lake y warehouse.
- Formatos de tabla abiertos: Delta Lake, Iceberg y Hudi en contexto.
- El ecosistema Databricks: workspace, clusters, SQL warehouses y notebooks.

Metodología

Cómo se imparte

Práctica desde la primera sesión

Cada bloque combina explicación, demostración y laboratorio. Los alumnos trabajan sobre casos reales aplicables a su contexto profesional.

Casos de cliente

En programas in-company partimos de los procesos y datos del cliente. La formación deja de sonar genérica y empieza a resolver problemas concretos.

Materiales de apoyo

Los participantes reciben código, plantillas y guías reutilizables tras la formación. Lo que se aprende se mantiene en el día a día.

Adaptación al nivel del equipo

Antes de impartir, hacemos un breve diagnóstico y ajustamos profundidad y ritmo. La formación no se queda corta ni avanza por encima del grupo.

Modalidades

Modalidades disponibles

Cada formato puede adaptarse al ritmo y al contexto operativo de la organización.

Online en directo

Sesiones en streaming con interacción en vivo, ejercicios guiados y resolución de dudas.

In-company

Programa diseñado a medida y impartido para un único equipo o organización.

A medida

Itinerario completamente personalizado: temario, duración, formato y casos del cliente.

Beneficios para empresas

¿Por qué contratar este programa para tu equipo?

La formación no se diseña contra un examen, se diseña contra un objetivo de negocio.

Mejora de productividad real en el puesto de trabajo.
Actualización de competencias clave para el negocio.
Mayor autonomía técnica y reducción de dependencia externa.
Aplicación práctica inmediata sobre procesos del cliente.
Mejor adopción tecnológica con criterios profesionales.
Preparación para proyectos de IA, datos, automatización o desarrollo.

Formación bonificada

¿Se puede gestionar como formación bonificada?

Este curso puede plantearse como formación para empresas y, según las condiciones de cada organización, podría gestionarse dentro de iniciativas de formación bonificada. En DatIACode te ayudamos a estructurar la propuesta formativa y la documentación necesaria para su valoración.

Requisitos previos

¿Qué necesitas saber antes de empezar?

Experiencia básica con Spark o PySpark: DataFrames y SQL.
Conocimientos sólidos de SQL y de modelado de datos básico.
Familiaridad con algún cloud (Azure, AWS o GCP) recomendada.

Aplicaciones

Cómo se aplica lo aprendido

Diseño e implantación de la plataforma analítica corporativa como lakehouse.
Migración de data lakes problemáticos a tablas Delta gobernadas.
Unificación de cargas batch y streaming sobre las mismas tablas.
Sincronización fiable de datos operacionales con MERGE y patrones CDC.
Implantación de gobierno, permisos y linaje con Unity Catalog.
Reducción de tiempos de consulta y costes de almacenamiento mediante optimización de tablas.

DatIACode

Por qué elegir DatIACode

No vendemos formación: diseñamos programas que se traducen en capacidad operativa real.

Experiencia aplicada

Más de 20 años combinando consultoría, desarrollo y formación tecnológica para empresas de distintos sectores.

Visión de negocio

Cada programa parte de los objetivos del cliente. La técnica está al servicio del problema, no al revés.

Adaptación al equipo

Ajustamos profundidad, ritmo y casos de uso al nivel real del equipo tras un breve diagnóstico inicial.

Formación + consultoría

Si la formación destapa un proyecto, podemos acompañarte en su implantación. No abandonamos el resultado.

Especialización en IA

Trabajamos en IA aplicada todos los días. La formación no la imparte alguien que solo enseña, la imparte alguien que también construye.

Orientación a resultados

Entregables tangibles y métricas pactadas. Sin promesas vacías.

Preguntas frecuentes

FAQ

No. El curso introduce el workspace, los clusters y los notebooks en el primer módulo. Lo que sí se asume es una base de Spark o de SQL para seguir los ejercicios con fluidez; si no la tienes, el curso de Apache Spark y Databricks es la puerta de entrada recomendada.

Solicitar información

Cuéntanos qué necesitas

Te respondemos en menos de 24h laborables con disponibilidad, opciones de modalidad y propuesta a medida si aplica.

Diagnóstico inicial sin compromiso.
Propuesta adaptada al nivel y al sector.
Asesoramiento sobre formación bonificada.

Nombre*

Email*

Empresa

Teléfono

Cargo

Sector

Modalidad de interés*

Número aproximado de alumnos*

Mensaje*

He leído y acepto la Política de Privacidad.Acepto recibir comunicaciones comerciales de DatIACode sobre cursos y novedades. Es opcional y puedo darme de baja en cualquier momento.

Información básica de protección de datos. Responsable: Datiacode Tech S.L.. Finalidad: atender tu solicitud y, si lo aceptas, enviarte comunicaciones comerciales. Legitimación: consentimiento del interesado y/o medidas precontractuales. Destinatarios: encargados de tratamiento descritos en la política. Derechos: acceso, rectificación, supresión, oposición, limitación y portabilidad escribiendo a privacidad@datiacode.com. Más información en la Política de Privacidad.

Ver todos los cursos

Ver curso
Big Data30 horas
Apache Spark con Databricks — Procesamiento a gran escala
Ver curso
Big Data20 horas
Fundamentos de Big Data y arquitecturas de datos modernas
Ver curso
Big Data16 horas
Gobierno, calidad y linaje del dato en Big Data