Apache Iceberg vs Delta Lake vs Hudi: qué formato de tabla elegir en 2026

Apache Iceberg, Delta Lake y Apache Hudi son los tres formatos de tabla abiertos que aportan transacciones ACID, time travel y evolución de esquema a un data lake. En 2026, Iceberg es el estándar de facto para analítica multi-motor por su gobernanza neutral; Delta Lake es la opción natural si trabajas sobre Databricks o Spark; y Hudi sigue siendo el más fuerte para ingesta en streaming y CDC de alta frecuencia. Gracias a UniForm y Apache XTable, la elección ya no es irreversible, pero sigue importando.
Un formato de tabla abierto (open table format) es una especificación que organiza ficheros Parquet sobre almacenamiento de objetos (S3, ADLS, GCS) y añade una capa de metadatos que habilita transacciones ACID, consultas históricas (time travel), evolución de esquema y de particiones. Sin él, un data lake es solo un conjunto de ficheros sin garantías; con él, se convierte en un lakehouse.
Los tres comparten una base común —todos almacenan los datos en Parquet y, por defecto, actualizan reescribiendo ficheros (copy-on-write)— pero difieren en su arquitectura de metadatos, su modelo de actualización y, sobre todo, en su ecosistema. Esta guía compara las tres opciones con criterio técnico y cierra con un árbol de decisión para tu caso.
Qué es cada formato de tabla abierto
Los tres resuelven el mismo problema —dar garantías de base de datos a ficheros en un data lake— pero nacieron de necesidades distintas, y eso marca su carácter. Conviene partir de una definición limpia de cada uno antes de compararlos.
- Apache Iceberg: formato de tabla abierto creado en Netflix y gobernado por la Apache Software Foundation, diseñado como especificación neutral e independiente del motor. Su arquitectura de metadatos en árbol (metadata file → manifest list → manifests) permite que varios motores lean y escriban la misma tabla concurrentemente. Destaca por el hidden partitioning y la evolución de particiones sin reescribir histórico. Desde Iceberg v3, cada fichero lleva su propio deletion vector.
- Delta Lake: formato creado por Databricks y donado a la Linux Foundation, construido sobre un log de transacciones (_delta_log) en JSON con checkpoints en Parquet. Aporta ACID, time travel, schema enforcement y la operación MERGE. Sus diferenciales son el rendimiento dentro de Databricks/Spark y funciones como liquid clustering, Z-ordering y deletion vectors.
- Apache Hudi: formato creado en Uber y gobernado por la Apache Software Foundation, diseñado desde su origen para upserts e ingesta incremental de baja latencia. Es el único que ofrece de serie merge-on-read y change streams nativos, lo que lo hace el más eficiente para CDC real (no solo inserciones, también actualizaciones y borrados).
Comparativa Iceberg vs Delta Lake vs Hudi (2026)
Esta tabla resume las dimensiones que de verdad condicionan la decisión. Más abajo desarrollamos las dos o tres que suelen inclinar la balanza en un proyecto real.
| Dimensión | Apache Iceberg | Delta Lake | Apache Hudi |
|---|---|---|---|
| Origen / gobierno | Netflix → Apache (neutral) | Databricks → Linux Foundation | Uber → Apache |
| Metadatos | Árbol de manifests | Log de transacciones + checkpoints | Timeline + índice de registros |
| Actualización | Copy-on-write y merge-on-read | Copy-on-write + deletion vectors | Copy-on-write y merge-on-read (nativo) |
| CDC / incremental | Solo lectura de inserciones (appends) | Change Data Feed | Change streams completos (append/update/delete) |
| Evolución de partición | Sí, sin reescribir histórico | Limitada (liquid clustering) | Limitada |
| Mejor ecosistema | Multi-motor (Spark, Flink, Trino, Snowflake, BigQuery, DuckDB) | Databricks / Spark | Spark, Flink (streaming) |
| Punto fuerte | Estándar neutral, analítica a gran escala | Rendimiento en Databricks | Upserts y CDC de alta frecuencia |
Las diferencias que sí deciden tu elección
La tabla orienta, pero en la práctica solo unas pocas dimensiones inclinan la decisión. Estas son las que más pesan.
Arquitectura de metadatos. Iceberg usa un árbol de manifests inmutables que escala bien con miles de particiones y favorece la concurrencia multi-motor. Delta usa un log secuencial de transacciones, eficiente y simple pero históricamente más acoplado a Spark. Hudi mantiene una timeline de acciones y un índice a nivel de registro, lo que le da ventaja para localizar y actualizar filas concretas.
Copy-on-write vs merge-on-read. Copy-on-write (CoW) reescribe los ficheros afectados en cada actualización: lecturas rápidas, escrituras caras. Merge-on-read (MoR) registra los cambios en logs ligeros y los fusiona en lectura o en una compactación posterior: escrituras rápidas y baja latencia de ingesta, a costa de lecturas algo más lentas hasta compactar. Hudi nació con MoR; Iceberg y Delta lo incorporan vía deletion vectors, pero con menos madurez para upserts intensivos.
- CDC e ingesta incremental: aquí está la distinción menos explicada y más decisiva. Hudi rastrea de serie todos los cambios (inserciones, actualizaciones y borrados) y los expone como flujos de cambio. Iceberg ofrece lectura incremental pero solo de inserciones, no de actualizaciones ni borrados, lo que limita el CDC verdadero.
- Ecosistema y portabilidad: Iceberg tiene el soporte multi-motor más amplio (Spark, Flink, Trino, Snowflake, BigQuery, DuckDB) y gobernanza neutral. Si tu prioridad es no quedar atado a un proveedor, es la apuesta más segura.
- Rendimiento por ecosistema: Delta da su mejor rendimiento y funciones (liquid clustering, deletion vectors) dentro de Databricks/Spark. Fuera de ahí, la ventaja se diluye.
La convergencia de 2026: ¿importa todavía la elección?
Sí, sigue importando, aunque cada vez menos por bloqueo de proveedor y más por idoneidad técnica. Dos tecnologías han difuminado las fronteras entre formatos.
Delta UniForm (GA) hace que una tabla Delta genere metadatos Iceberg —y ahora también Hudi— en paralelo, sin duplicar datos: cualquier cliente Iceberg puede leerla. Apache XTable (incubating), respaldado por Microsoft, Google y Onehouse, traduce metadatos de forma omnidireccional entre los tres formatos. La adquisición de Tabular (creadores de Iceberg) por parte de Databricks aceleró esta convergencia.
La consecuencia práctica es que muchas organizaciones conviven con varios formatos: Delta para pipelines nativos de Databricks, Iceberg para analítica compartida entre plataformas y Hudi para flujos de CDC de alta frecuencia. La interoperabilidad reduce el coste de equivocarse, pero el formato de origen sigue condicionando rendimiento, latencia de ingesta y capacidades de CDC.
Cómo elegir: árbol de decisión
Reducido a lo esencial, la decisión depende de dónde corre tu cómputo y de qué tipo de carga domina tu pipeline.
- Si tu plataforma es Databricks o todo tu cómputo es Spark → Delta Lake. Máximo rendimiento y funciones nativas; con UniForm conservas interoperabilidad.
- Si necesitas analítica a gran escala consultada por varios motores (Trino, Snowflake, BigQuery, Flink) y gobernanza neutral → Apache Iceberg. Es la apuesta estándar y a prueba de futuro.
- Si tu carga dominante es ingesta en streaming o CDC con upserts de alta frecuencia y baja latencia → Apache Hudi. El más maduro en merge-on-read y change streams.
- Si no lo tienes claro o prevés varios casos de uso → empieza por Iceberg como capa de analítica y apóyate en UniForm/XTable para interoperar. Es la decisión con menor coste de reversión.
Conclusión
No hay un ganador absoluto: hay un formato adecuado para cada combinación de plataforma y patrón de carga. Iceberg gana como estándar neutral y apuesta segura a largo plazo, Delta brilla dentro de Databricks y Hudi manda en CDC y streaming. Y gracias a UniForm y XTable, equivocarse ya no es irreversible.
En DatIACode diseñamos arquitecturas de datos y formamos a equipos para construir lakehouses listos para IA. Si necesitas decidir tu formato de tabla, migrar tu data lake o capacitar a tu equipo en ingeniería de datos moderna, hablamos.
Preguntas frecuentes
¿Cuál es la diferencia principal entre Iceberg, Delta Lake y Hudi?
La arquitectura de metadatos y el caso de uso óptimo: Iceberg es un estándar neutral multi-motor para analítica, Delta Lake destaca en el ecosistema Databricks/Spark, y Hudi está optimizado para upserts e ingesta incremental (CDC).
¿Qué formato de tabla es el estándar de la industria en 2026?
Apache Iceberg se ha consolidado como estándar de facto por su gobernanza independiente del proveedor y el soporte multi-motor más amplio, reforzado tras la adquisición de Tabular por Databricks.
¿Puedo usar varios formatos de tabla a la vez?
Sí. Con Delta UniForm y Apache XTable puedes generar y traducir metadatos entre los tres formatos sin duplicar datos, lo que permite combinar Delta, Iceberg y Hudi según el caso de uso.
¿Cuál es mejor para CDC y streaming?
Apache Hudi. Es el único que expone de serie flujos de cambio completos (inserciones, actualizaciones y borrados) y nació con merge-on-read, ideal para ingesta de alta frecuencia. Iceberg solo permite lectura incremental de inserciones.
¿Qué es merge-on-read frente a copy-on-write?
Copy-on-write reescribe los ficheros en cada actualización (lecturas rápidas, escrituras caras); merge-on-read registra los cambios en logs y los fusiona después (escrituras rápidas y baja latencia, lecturas algo más lentas hasta compactar).
Sigue leyendo
Ver todos los artículos- Leer artículo
MCP · Agentes de IA · IntegraciónArquitecturas IA13 minMCP (Model Context Protocol): cómo conectar tus agentes de IA a los sistemas de tu empresa
- Leer artículo
Modelos de IA · Comparativa · EmpresaEstrategia12 minClaude vs GPT vs Gemini: qué modelo de IA elegir para tu empresa
- Leer artículo
Agentes de IA · EmpresasArquitecturas IA12 minDe ChatGPT a los agentes de IA: qué cambia para las empresas y cómo prepararse
