Evaluación de sistemas RAG: precisión, relevancia y alucinaciones
Monta el sistema de evaluación de tu RAG: datasets de referencia, métricas de retrieval y generación con Ragas, detección de alucinaciones y evaluación continua para decidir cambios con datos.
- Nivel
- Avanzado
- Duración
- 16 horas
- Modalidades
- Online en directo · In-company · A medida
- Dirigido a
- Equipos técnicos con un RAG construido que necesitan medir su calidad de forma objetiva y reproducible.

¿Qué es este curso y por qué te interesa?
¿Cómo sabes si tu RAG responde bien? La mayoría de los equipos lo valora probando unas cuantas preguntas a mano: si las respuestas parecen razonables, se da por bueno. Ese método no detecta las alucinaciones sutiles, no dice si el problema está en el retrieval o en la generación y se vuelve inviable en cuanto el sistema cambia cada semana. Sin medición, no hay forma honesta de afirmar que el asistente es fiable.
Este curso es un monográfico de evaluación de RAG. Aprenderás a construir un dataset de referencia representativo de tu dominio, a medir la recuperación (¿llegan los fragmentos correctos?) y la generación (¿la respuesta se apoya en ellos o se los inventa?) con métricas como context precision, context recall, faithfulness y answer relevancy, y a montar un harness reproducible con herramientas como Ragas que convierta cada cambio del pipeline en un experimento medible.
Trabajarás sobre un sistema RAG de referencia con fallos reales: preguntas sin cobertura documental, chunks irrelevantes que contaminan el contexto y respuestas que suenan bien pero no están en las fuentes. El objetivo es que salgas sabiendo diagnosticar cada tipo de fallo y atribuirlo al componente responsable, en lugar de tocar parámetros a ciegas.
Es la pieza que falta entre construir un RAG y confiar en él. Si tu equipo ya tiene un asistente documental funcionando, este curso le da el instrumento de medida; las técnicas para mejorar lo que las métricas destapen se cubren en el curso de RAG avanzado.
Capacidades que adquirirás
- Construir un dataset de evaluación de RAG: preguntas, respuestas de referencia y contextos esperados.
- Medir el retrieval con context precision, context recall, MRR y nDCG, y saber interpretarlas.
- Medir la generación: faithfulness, answer relevancy y grounding de las respuestas en las fuentes.
- Detectar alucinaciones de forma sistemática con evaluadores automáticos y LLM-as-a-judge.
- Montar un harness de evaluación reproducible con Ragas e integrarlo en el ciclo de cambios del sistema.
Objetivos del curso
- 01Comprender qué dimensiones de calidad tiene un RAG y qué métrica mide cada una.
- 02Construir y mantener un golden dataset representativo del uso real del sistema.
- 03Atribuir cada fallo a su componente: índice, chunking, recuperación, prompt o modelo.
- 04Cuantificar la tasa de alucinación y el grounding de las respuestas con criterio estadístico.
- 05Comparar configuraciones del pipeline (embeddings, chunking, prompts) con experimentos controlados.
- 06Establecer una evaluación continua que detecte regresiones antes que los usuarios.
¿Es este curso para ti o para tu equipo?
Equipos técnicos con un RAG construido que necesitan medir su calidad de forma objetiva y reproducible.
Ingenieros de IA con RAG en marcha
Perfiles que han construido un asistente documental y necesitan demostrar y mantener su fiabilidad.
Equipos de datos y ML engineers
Profesionales acostumbrados a evaluar modelos que quieren trasladar ese rigor a sistemas RAG.
Tech leads responsables de asistentes corporativos
Perfiles que deben decidir con evidencia si un RAG está listo para ampliarse a más usuarios o más documentación.
Temario completo
Programa estructurado en módulos. Cada itinerario in-company se ajusta al nivel y a los objetivos concretos del equipo.
- Dimensiones de calidad: recuperación, grounding, relevancia, completitud, formato.
- Tipos de fallo: no recuperado, mal recuperado, ignorado, contradicho, inventado.
- Por qué la revisión manual engaña: sesgo de muestreo y preguntas fáciles.
- Anatomía de una evaluación: dataset, métricas, evaluador, criterio de decisión.
Cómo se imparte
Práctica desde la primera sesión
Cada bloque combina explicación, demostración y laboratorio. Los alumnos trabajan sobre casos reales aplicables a su contexto profesional.
Casos de cliente
En programas in-company partimos de los procesos y datos del cliente. La formación deja de sonar genérica y empieza a resolver problemas concretos.
Materiales de apoyo
Los participantes reciben código, plantillas y guías reutilizables tras la formación. Lo que se aprende se mantiene en el día a día.
Adaptación al nivel del equipo
Antes de impartir, hacemos un breve diagnóstico y ajustamos profundidad y ritmo. La formación no se queda corta ni avanza por encima del grupo.
Modalidades disponibles
Cada formato puede adaptarse al ritmo y al contexto operativo de la organización.
Online en directo
Sesiones en streaming con interacción en vivo, ejercicios guiados y resolución de dudas.
In-company
Programa diseñado a medida y impartido para un único equipo o organización.
A medida
Itinerario completamente personalizado: temario, duración, formato y casos del cliente.
¿Por qué contratar este programa para tu equipo?
La formación no se diseña contra un examen, se diseña contra un objetivo de negocio.
- Mejora de productividad real en el puesto de trabajo.
- Actualización de competencias clave para el negocio.
- Mayor autonomía técnica y reducción de dependencia externa.
- Aplicación práctica inmediata sobre procesos del cliente.
- Mejor adopción tecnológica con criterios profesionales.
- Preparación para proyectos de IA, datos, automatización o desarrollo.
¿Se puede gestionar como formación bonificada?
Este curso puede plantearse como formación para empresas y, según las condiciones de cada organización, podría gestionarse dentro de iniciativas de formación bonificada. En DatIACode te ayudamos a estructurar la propuesta formativa y la documentación necesaria para su valoración.
¿Qué necesitas saber antes de empezar?
- Haber construido o mantenido un sistema RAG, aunque sea un prototipo.
- Python sólido y soltura con APIs de LLMs.
- Conocimientos básicos de embeddings y bases vectoriales.
Cómo se aplica lo aprendido
- Auditoría de calidad de un asistente documental antes de abrirlo a toda la organización.
- Comparativa objetiva de modelos de embeddings o estrategias de chunking sobre datos propios.
- Cuantificación de la tasa de alucinación de un RAG expuesto a clientes.
- Suite de regresión que valida cada cambio del pipeline antes de desplegarlo.
- Evaluación continua con muestreo de tráfico real y alertas de degradación.
- Evidencias de fiabilidad del sistema para auditorías internas o requisitos de gobernanza.
Por qué elegir DatIACode
No vendemos formación: diseñamos programas que se traducen en capacidad operativa real.
Experiencia aplicada
Más de 20 años combinando consultoría, desarrollo y formación tecnológica para empresas de distintos sectores.
Visión de negocio
Cada programa parte de los objetivos del cliente. La técnica está al servicio del problema, no al revés.
Adaptación al equipo
Ajustamos profundidad, ritmo y casos de uso al nivel real del equipo tras un breve diagnóstico inicial.
Formación + consultoría
Si la formación destapa un proyecto, podemos acompañarte en su implantación. No abandonamos el resultado.
Especialización en IA
Trabajamos en IA aplicada todos los días. La formación no la imparte alguien que solo enseña, la imparte alguien que también construye.
Orientación a resultados
Entregables tangibles y métricas pactadas. Sin promesas vacías.
FAQ
El curso de RAG avanzado dedica una parte a evaluación y luego avanza hacia seguridad y técnicas de optimización. Este es un monográfico: profundiza solo en la medición — datasets, métricas, alucinaciones, harness y evaluación continua — con mucho más detalle. Son complementarios: aquí construyes el instrumento de medida; allí, las mejoras que ese instrumento justifica.
Cuéntanos qué necesitas
Te respondemos en menos de 24h laborables con disponibilidad, opciones de modalidad y propuesta a medida si aplica.
- Diagnóstico inicial sin compromiso.
- Propuesta adaptada al nivel y al sector.
- Asesoramiento sobre formación bonificada.
Cursos relacionados
Ver todos los cursos- Ver curso
IA20 horasRAG avanzado: evaluación, seguridad y optimización de respuestas
- Ver curso
IA20 horasEvaluación de aplicaciones con IA generativa: métricas, testing y calidad
- Ver curso
IA24 horasArquitecturas RAG con LangChain, FastAPI y bases vectoriales
