Saltar al contenido principal
Formación DatIACode

Procesamiento en tiempo real con Kafka y Spark Streaming

Construye pipelines de streaming de extremo a extremo: Structured Streaming sobre Kafka, ventanas y watermarks, agregaciones con estado, escritura fiable en sinks y tolerancia a fallos con checkpointing en producción.

Nivel
Avanzado
Duración
20 horas
Modalidades
Online en directo · In-company · A medida
Dirigido a
Ingenieros de datos que necesitan pasar de pipelines batch a procesamiento en tiempo real.
Sobre el curso

¿Qué es este curso y por qué te interesa?

Cada vez más decisiones no pueden esperar al batch nocturno: detección de fraude, monitorización de operaciones, stock en tiempo real, personalización en el momento. Pasar de procesar datos en lotes a procesarlos según llegan cambia las reglas del juego: aparecen los eventos desordenados, los datos que llegan tarde, el estado que crece sin límite y los fallos a mitad de un flujo que no puede perder ni duplicar registros.

Este curso enseña a construir pipelines de streaming de extremo a extremo con la pareja más extendida del sector: Kafka como fuente de eventos y Spark Structured Streaming como motor de procesamiento. Se trabaja el modelo de micro-batch y sus implicaciones, la lectura desde Kafka con gestión de offsets, las transformaciones y agregaciones sobre flujos, y los dos conceptos que separan al que copia ejemplos del que diseña: el tiempo de evento frente al tiempo de proceso y los watermarks que acotan los datos tardíos.

La segunda mitad aborda lo que exige la producción: agregaciones con estado y su gestión de memoria, joins entre streams, escritura fiable en sinks —Delta Lake, bases de datos, Kafka— con semántica exactly-once donde es posible, checkpointing y recuperación ante fallos, y monitorización y dimensionado de pipelines que corren sin parar. El proyecto final implementa un pipeline completo Kafka→Spark→Delta con tolerancia a fallos demostrada apagando cosas a propósito.

Qué aprenderás

Capacidades que adquirirás

  • Construir pipelines con Structured Streaming: fuentes, transformaciones, sinks y triggers.
  • Leer de Kafka con garantías: offsets, checkpoints y reprocesamiento controlado.
  • Dominar el tiempo de evento, las ventanas (tumbling, sliding, session) y los watermarks.
  • Implementar agregaciones con estado y joins entre streams controlando memoria y tardíos.
  • Diseñar pipelines tolerantes a fallos: checkpointing, recuperación y semántica de entrega por sink.
Objetivos

Objetivos del curso

  1. 01Comprender el modelo de ejecución de Structured Streaming y sus modos de salida.
  2. 02Integrar Kafka y Spark de forma fiable en lectura y escritura.
  3. 03Aplicar ventanas y watermarks con criterio según la latencia y los datos tardíos del caso.
  4. 04Gestionar estado en streaming: agregaciones, deduplicación y operaciones con mapGroupsWithState.
  5. 05Escribir resultados en Delta Lake, bases de datos y Kafka con las garantías de cada sink.
  6. 06Operar pipelines de streaming: monitorización, backlog, dimensionado y evolución del job.
A quién va dirigido

¿Es este curso para ti o para tu equipo?

Ingenieros de datos que necesitan pasar de pipelines batch a procesamiento en tiempo real.

Ingenieros de datos con experiencia batch

Profesionales que dominan pipelines batch con Spark y necesitan incorporar procesamiento en tiempo real a su plataforma.

Desarrolladores backend en sistemas de eventos

Perfiles que trabajan con Kafka y necesitan procesar, agregar y derivar valor de los flujos más allá del consumo simple.

Arquitectos de plataformas de datos

Perfiles que diseñan la capa de tiempo real de la plataforma y necesitan criterio sobre garantías, latencias y costes.

Temario

Temario completo

Programa estructurado en módulos. Cada itinerario in-company se ajusta al nivel y a los objetivos concretos del equipo.

    • Casos que justifican el tiempo real y casos que no lo necesitan.
    • El modelo de Structured Streaming: la tabla infinita y los micro-batches.
    • Modos de salida: append, update y complete, y qué permite cada consulta.
    • Triggers: micro-batch por intervalo, disponible-ahora y consideraciones de latencia.
Metodología

Cómo se imparte

Práctica desde la primera sesión

Cada bloque combina explicación, demostración y laboratorio. Los alumnos trabajan sobre casos reales aplicables a su contexto profesional.

Casos de cliente

En programas in-company partimos de los procesos y datos del cliente. La formación deja de sonar genérica y empieza a resolver problemas concretos.

Materiales de apoyo

Los participantes reciben código, plantillas y guías reutilizables tras la formación. Lo que se aprende se mantiene en el día a día.

Adaptación al nivel del equipo

Antes de impartir, hacemos un breve diagnóstico y ajustamos profundidad y ritmo. La formación no se queda corta ni avanza por encima del grupo.

Modalidades

Modalidades disponibles

Cada formato puede adaptarse al ritmo y al contexto operativo de la organización.

Online en directo

Sesiones en streaming con interacción en vivo, ejercicios guiados y resolución de dudas.

In-company

Programa diseñado a medida y impartido para un único equipo o organización.

A medida

Itinerario completamente personalizado: temario, duración, formato y casos del cliente.

Beneficios para empresas

¿Por qué contratar este programa para tu equipo?

La formación no se diseña contra un examen, se diseña contra un objetivo de negocio.

  • Mejora de productividad real en el puesto de trabajo.
  • Actualización de competencias clave para el negocio.
  • Mayor autonomía técnica y reducción de dependencia externa.
  • Aplicación práctica inmediata sobre procesos del cliente.
  • Mejor adopción tecnológica con criterios profesionales.
  • Preparación para proyectos de IA, datos, automatización o desarrollo.
Formación bonificada

¿Se puede gestionar como formación bonificada?

Este curso puede plantearse como formación para empresas y, según las condiciones de cada organización, podría gestionarse dentro de iniciativas de formación bonificada. En DatIACode te ayudamos a estructurar la propuesta formativa y la documentación necesaria para su valoración.

Requisitos previos

¿Qué necesitas saber antes de empezar?

  • Experiencia con Spark en batch: DataFrames, transformaciones y escrituras.
  • Conocimientos básicos de Kafka: topics, particiones y consumo.
  • Soltura con Python; los laboratorios se realizan en PySpark.
Aplicaciones

Cómo se aplica lo aprendido

  • Detección de fraude y anomalías sobre transacciones en tiempo real.
  • Monitorización de operaciones, logística o IoT con agregaciones por ventana.
  • Alimentación continua del lakehouse con datos frescos para analítica.
  • Cálculo de métricas y KPIs en tiempo casi real para dashboards operativos.
  • Enriquecimiento de eventos en tránsito con datos de referencia.
  • Migración de procesos batch críticos a pipelines de streaming.
DatIACode

Por qué elegir DatIACode

No vendemos formación: diseñamos programas que se traducen en capacidad operativa real.

Experiencia aplicada

Más de 20 años combinando consultoría, desarrollo y formación tecnológica para empresas de distintos sectores.

Visión de negocio

Cada programa parte de los objetivos del cliente. La técnica está al servicio del problema, no al revés.

Adaptación al equipo

Ajustamos profundidad, ritmo y casos de uso al nivel real del equipo tras un breve diagnóstico inicial.

Formación + consultoría

Si la formación destapa un proyecto, podemos acompañarte en su implantación. No abandonamos el resultado.

Especialización en IA

Trabajamos en IA aplicada todos los días. La formación no la imparte alguien que solo enseña, la imparte alguien que también construye.

Orientación a resultados

Entregables tangibles y métricas pactadas. Sin promesas vacías.

Preguntas frecuentes

FAQ

  • Son complementarios y atacan capas distintas: el curso de Kafka avanzado trata el diseño de arquitecturas event-driven —Streams, Connect, esquemas, patrones, operación del cluster—. Este curso se centra en el procesamiento: qué se hace con los flujos una vez en Kafka, usando Spark Structured Streaming con ventanas, watermarks, estado y escritura fiable en destinos analíticos.

Solicitar información

Cuéntanos qué necesitas

Te respondemos en menos de 24h laborables con disponibilidad, opciones de modalidad y propuesta a medida si aplica.

  • Diagnóstico inicial sin compromiso.
  • Propuesta adaptada al nivel y al sector.
  • Asesoramiento sobre formación bonificada.
Modalidad de interés*
Número aproximado de alumnos*

Información básica de protección de datos. Responsable: Datiacode Tech S.L.. Finalidad: atender tu solicitud y, si lo aceptas, enviarte comunicaciones comerciales. Legitimación: consentimiento del interesado y/o medidas precontractuales. Destinatarios: encargados de tratamiento descritos en la política. Derechos: acceso, rectificación, supresión, oposición, limitación y portabilidad escribiendo a privacidad@datiacode.com. Más información en la Política de Privacidad.

  • Ver curso
    Big Data20 horas

    Apache Kafka avanzado: arquitecturas event-driven

  • Ver curso
    Big Data20 horas

    Apache Spark avanzado: optimización y rendimiento

  • Ver curso
    Big Data30 horas

    Apache Kafka — Data Streaming: fundamentos, producers y consumers

Ver todos los cursos