Procesamiento en tiempo real con Kafka y Spark Streaming
Construye pipelines de streaming de extremo a extremo: Structured Streaming sobre Kafka, ventanas y watermarks, agregaciones con estado, escritura fiable en sinks y tolerancia a fallos con checkpointing en producción.
- Nivel
- Avanzado
- Duración
- 20 horas
- Modalidades
- Online en directo · In-company · A medida
- Dirigido a
- Ingenieros de datos que necesitan pasar de pipelines batch a procesamiento en tiempo real.

¿Qué es este curso y por qué te interesa?
Cada vez más decisiones no pueden esperar al batch nocturno: detección de fraude, monitorización de operaciones, stock en tiempo real, personalización en el momento. Pasar de procesar datos en lotes a procesarlos según llegan cambia las reglas del juego: aparecen los eventos desordenados, los datos que llegan tarde, el estado que crece sin límite y los fallos a mitad de un flujo que no puede perder ni duplicar registros.
Este curso enseña a construir pipelines de streaming de extremo a extremo con la pareja más extendida del sector: Kafka como fuente de eventos y Spark Structured Streaming como motor de procesamiento. Se trabaja el modelo de micro-batch y sus implicaciones, la lectura desde Kafka con gestión de offsets, las transformaciones y agregaciones sobre flujos, y los dos conceptos que separan al que copia ejemplos del que diseña: el tiempo de evento frente al tiempo de proceso y los watermarks que acotan los datos tardíos.
La segunda mitad aborda lo que exige la producción: agregaciones con estado y su gestión de memoria, joins entre streams, escritura fiable en sinks —Delta Lake, bases de datos, Kafka— con semántica exactly-once donde es posible, checkpointing y recuperación ante fallos, y monitorización y dimensionado de pipelines que corren sin parar. El proyecto final implementa un pipeline completo Kafka→Spark→Delta con tolerancia a fallos demostrada apagando cosas a propósito.
Capacidades que adquirirás
- Construir pipelines con Structured Streaming: fuentes, transformaciones, sinks y triggers.
- Leer de Kafka con garantías: offsets, checkpoints y reprocesamiento controlado.
- Dominar el tiempo de evento, las ventanas (tumbling, sliding, session) y los watermarks.
- Implementar agregaciones con estado y joins entre streams controlando memoria y tardíos.
- Diseñar pipelines tolerantes a fallos: checkpointing, recuperación y semántica de entrega por sink.
Objetivos del curso
- 01Comprender el modelo de ejecución de Structured Streaming y sus modos de salida.
- 02Integrar Kafka y Spark de forma fiable en lectura y escritura.
- 03Aplicar ventanas y watermarks con criterio según la latencia y los datos tardíos del caso.
- 04Gestionar estado en streaming: agregaciones, deduplicación y operaciones con mapGroupsWithState.
- 05Escribir resultados en Delta Lake, bases de datos y Kafka con las garantías de cada sink.
- 06Operar pipelines de streaming: monitorización, backlog, dimensionado y evolución del job.
¿Es este curso para ti o para tu equipo?
Ingenieros de datos que necesitan pasar de pipelines batch a procesamiento en tiempo real.
Ingenieros de datos con experiencia batch
Profesionales que dominan pipelines batch con Spark y necesitan incorporar procesamiento en tiempo real a su plataforma.
Desarrolladores backend en sistemas de eventos
Perfiles que trabajan con Kafka y necesitan procesar, agregar y derivar valor de los flujos más allá del consumo simple.
Arquitectos de plataformas de datos
Perfiles que diseñan la capa de tiempo real de la plataforma y necesitan criterio sobre garantías, latencias y costes.
Temario completo
Programa estructurado en módulos. Cada itinerario in-company se ajusta al nivel y a los objetivos concretos del equipo.
- Casos que justifican el tiempo real y casos que no lo necesitan.
- El modelo de Structured Streaming: la tabla infinita y los micro-batches.
- Modos de salida: append, update y complete, y qué permite cada consulta.
- Triggers: micro-batch por intervalo, disponible-ahora y consideraciones de latencia.
Cómo se imparte
Práctica desde la primera sesión
Cada bloque combina explicación, demostración y laboratorio. Los alumnos trabajan sobre casos reales aplicables a su contexto profesional.
Casos de cliente
En programas in-company partimos de los procesos y datos del cliente. La formación deja de sonar genérica y empieza a resolver problemas concretos.
Materiales de apoyo
Los participantes reciben código, plantillas y guías reutilizables tras la formación. Lo que se aprende se mantiene en el día a día.
Adaptación al nivel del equipo
Antes de impartir, hacemos un breve diagnóstico y ajustamos profundidad y ritmo. La formación no se queda corta ni avanza por encima del grupo.
Modalidades disponibles
Cada formato puede adaptarse al ritmo y al contexto operativo de la organización.
Online en directo
Sesiones en streaming con interacción en vivo, ejercicios guiados y resolución de dudas.
In-company
Programa diseñado a medida y impartido para un único equipo o organización.
A medida
Itinerario completamente personalizado: temario, duración, formato y casos del cliente.
¿Por qué contratar este programa para tu equipo?
La formación no se diseña contra un examen, se diseña contra un objetivo de negocio.
- Mejora de productividad real en el puesto de trabajo.
- Actualización de competencias clave para el negocio.
- Mayor autonomía técnica y reducción de dependencia externa.
- Aplicación práctica inmediata sobre procesos del cliente.
- Mejor adopción tecnológica con criterios profesionales.
- Preparación para proyectos de IA, datos, automatización o desarrollo.
¿Se puede gestionar como formación bonificada?
Este curso puede plantearse como formación para empresas y, según las condiciones de cada organización, podría gestionarse dentro de iniciativas de formación bonificada. En DatIACode te ayudamos a estructurar la propuesta formativa y la documentación necesaria para su valoración.
¿Qué necesitas saber antes de empezar?
- Experiencia con Spark en batch: DataFrames, transformaciones y escrituras.
- Conocimientos básicos de Kafka: topics, particiones y consumo.
- Soltura con Python; los laboratorios se realizan en PySpark.
Cómo se aplica lo aprendido
- Detección de fraude y anomalías sobre transacciones en tiempo real.
- Monitorización de operaciones, logística o IoT con agregaciones por ventana.
- Alimentación continua del lakehouse con datos frescos para analítica.
- Cálculo de métricas y KPIs en tiempo casi real para dashboards operativos.
- Enriquecimiento de eventos en tránsito con datos de referencia.
- Migración de procesos batch críticos a pipelines de streaming.
Por qué elegir DatIACode
No vendemos formación: diseñamos programas que se traducen en capacidad operativa real.
Experiencia aplicada
Más de 20 años combinando consultoría, desarrollo y formación tecnológica para empresas de distintos sectores.
Visión de negocio
Cada programa parte de los objetivos del cliente. La técnica está al servicio del problema, no al revés.
Adaptación al equipo
Ajustamos profundidad, ritmo y casos de uso al nivel real del equipo tras un breve diagnóstico inicial.
Formación + consultoría
Si la formación destapa un proyecto, podemos acompañarte en su implantación. No abandonamos el resultado.
Especialización en IA
Trabajamos en IA aplicada todos los días. La formación no la imparte alguien que solo enseña, la imparte alguien que también construye.
Orientación a resultados
Entregables tangibles y métricas pactadas. Sin promesas vacías.
FAQ
Son complementarios y atacan capas distintas: el curso de Kafka avanzado trata el diseño de arquitecturas event-driven —Streams, Connect, esquemas, patrones, operación del cluster—. Este curso se centra en el procesamiento: qué se hace con los flujos una vez en Kafka, usando Spark Structured Streaming con ventanas, watermarks, estado y escritura fiable en destinos analíticos.
Cuéntanos qué necesitas
Te respondemos en menos de 24h laborables con disponibilidad, opciones de modalidad y propuesta a medida si aplica.
- Diagnóstico inicial sin compromiso.
- Propuesta adaptada al nivel y al sector.
- Asesoramiento sobre formación bonificada.
Cursos relacionados
Ver todos los cursos- Ver curso
Big Data20 horasApache Kafka avanzado: arquitecturas event-driven
- Ver curso
Big Data20 horasApache Spark avanzado: optimización y rendimiento
- Ver curso
Big Data30 horasApache Kafka — Data Streaming: fundamentos, producers y consumers
