Por Qué Esto Importa Ahora

¡Hola Devs! Muchos equipos tratan los evals de LLM y los tests A/B como una bifurcación en el camino: elige uno. Eso es un error. En Spotify, solo alrededor del 12% de los tests A/B terminan con un resultado positivo implementado. Alrededor del 64% producen aprendizaje válido — una regresión detectada, una idea descartada, una hipótesis refinada. La tasa de victorias subestima el valor de la experimentación.

Los evals de LLM traen una capacidad nueva: pueden evaluar relevancia, coherencia, tono y alineación de intención a escala, más rápido y más barato que la anotación humana. Pero miden calidad de salida, no comportamiento del usuario. La relación correcta es un embudo, no una bifurcación. Los evals van antes de tu experimento, no en lugar de él.

Este insight, basado en la investigación de ingeniería de Spotify y el trabajo de Schultzberg y Ottens (2024), reformula cómo pensamos sobre la infraestructura de evaluación. Vamos a desglosar por qué los evals y los experimentos sirven para propósitos diferentes, cómo calibrarlos y qué pasa cuando cierras el ciclo.

Data scientist analyzing LLM eval scores on a funnel chart

El Embudo de Evaluación: Verificación vs. Validación

Schultzberg y Ottens hacen una distinción crítica:

  • Verificación — ¿La salida cumple con los estándares de calidad? (Evals)
  • Validación — ¿Los usuarios reales responden como se predijo? (Experimentos)

Los evals descartan candidatos poco prometedores antes de que consuman ancho de banda de experimentos. Aumentan la tasa de acierto de los experimentos que vienen después. Pero no pueden decirte si los usuarios que recibieron la versión mejorada realmente tuvieron mejores resultados — si la corrección evitó la erosión lenta de la confianza que eventualmente lleva al churn. Esa pregunta requiere un experimento.

Lo Que los Evals Te Dan

  • Velocidad: Ejecuta en conjuntos de prueba o variantes A/B en minutos.
  • Granularidad: Evalúa dimensiones que no podías escalar antes (relevancia, tono, intención).
  • Generación de hipótesis: Un juez LLM que señala contenido que rompe la confianza puede revelar patrones que tu equipo ni siquiera sabía que existían. Después de que se implementa la corrección, el mismo juez verifica que funcionó.

Lo Que los Evals No Te Dan

  • Impacto en el negocio: ¿La versión mejorada realmente aumentó la retención o los ingresos?
  • Detección de métricas secundarias: En Spotify, alrededor del 42% de los experimentos lanzados se revierten para evitar regresión en métricas secundarias — caída en el tiempo de sesión, aumento en la tasa de crash, erosión en la retención. Ningún eval señaló eso.
  • Comportamiento a largo plazo: Las tareas largas y el comportamiento a largo plazo son inherentemente difíciles de capturar con evals.

El Ciclo de Calibración

Los evals son proxies. Sustituyen una puntuación por un resultado que realmente te importa. Esa sustitución solo es válida mientras la puntuación siga el resultado real — la misma dinámica que las métricas proxy.

Ahora, los jueces LLM añaden una segunda capa de calibración sobre métricas cuantitativas tradicionales (ranking scores, precisión, recall). Ambas capas necesitan validación contra resultados online. Cuando el juez dice que la Variante A es mejor, ¿realmente ofrece una mejor experiencia de usuario, o el juez está recompensando patrones superficiales que no generan resultados?

Por ejemplo, cuando Anthropic lanzó el modelo Opus 4.5, los evals de codificación de Qodo no mostraron mejora, pero el modelo había mejorado sustancialmente en tareas más largas que un experimento controlado habría revelado. La mala calibración funciona en ambos sentidos.

Al ajustar continuamente los evals para mejorar su mapeo a resultados online, los evals se convierten en mejores herramientas de verificación. No estamos descartando que, en el futuro, a medida que la IA avance, los evals puedan mapear lo suficientemente bien como para empezar a actuar como validaciones — pero solo si el ciclo de calibración offline/online está implementado.

Fuente: Este análisis está basado en el post del blog de ingeniería de Spotify sobre evals de LLM y experimentos. Lee el artículo original para más contexto.

A/B test dashboard showing experiment results and guardrail metrics Developer Related Image

Consejos Prácticos: Cierra el Ciclo

  1. Ejecuta evals temprano y con frecuencia para encontrar los mejores tratamientos antes de que entren al pipeline de experimentos.
  2. Deja que el experimento valide si los usuarios y sistemas reales responden como se predijo. Monitorea las métricas que no optimizaste (guardrails).
  3. Ejecuta tus evals de LLM en los propios datos del test A/B. ¿La versión que el juez prefirió realmente tuvo mejor rendimiento con los usuarios? Esto extiende el embudo de evaluación tradicional.
  4. Cuando la brecha entre las puntuaciones del eval y los resultados del experimento sea grande, trátalo como oro diagnóstico. Cada ciclo ayuda a calibrar el siguiente.

Limitaciones y Precauciones

  • Los evals pueden derivar con el tiempo a medida que el modelo o la distribución de datos cambian. Recalibra periódicamente.
  • No todos los cambios necesitan el mismo nivel de evidencia: pruebas direccionales rápidas para iteración y recolección de datos, pruebas rigurosas para decisiones de deploy.
  • Sin calibración offline-online, los evals son opiniones, no evidencia.

Próximos Pasos

  • Empieza con un juez LLM simple para una dimensión (ej.: relevancia).
  • Combínalo con un pequeño test A/B en una funcionalidad de bajo riesgo.
  • Compara las puntuaciones del juez con los resultados del experimento. Busca discrepancias.
  • Itera: ajusta el prompt del juez o la rúbrica de puntuación basándote en la señal de calibración.

Lectura Relacionada

Developer reviewing LLM judge calibration output on laptop Coding Session Visual

Conclusión

Spotify ya tiene una cultura de evaluación fuerte en el formato de experimentación. Los evals de LLM extienden esa cultura río arriba, con un rol claro en el embudo: encontrar los mejores tratamientos antes del experimento y calibrar los jueces después de él.

Como Ankargren (2025) argumenta, el éxito viene de hacer lo básico bien a escala. El valor se acumula cuando el sistema es lo suficientemente simple para usar y lo suficientemente riguroso para confiar. No bifurques tu pipeline de evaluación — conviértelo en un embudo.

Este contenido fue redactado con la asistencia de herramientas de IA, basándose en fuentes confiables, y fue revisado por nuestro equipo editorial antes de su publicación. No reemplaza el asesoramiento de un profesional especializado.