Por Que Isso Importa Agora
Muitos times tratam evals de LLM e testes A/B como uma bifurcação na estrada: escolha um. Isso é um erro. No Spotify, apenas cerca de 12% dos testes A/B terminam com um resultado positivo implementado. Cerca de 64% produzem aprendizado válido — uma regressão detectada, uma ideia descartada, uma hipótese refinada. A taxa de vitórias subestima o valor da experimentação.
Os evals de LLM trazem uma nova capacidade: eles podem avaliar relevância, coerência, tom e alinhamento de intenção em escala, mais rápido e mais barato que anotação humana. Mas eles medem qualidade da saída, não comportamento do usuário. A relação correta é um funil, não uma bifurcação. Os evals vêm antes do seu experimento, não no lugar dele.
Este insight, baseado na pesquisa de engenharia do Spotify e no trabalho de Schultzberg e Ottens (2024), reformula como pensamos sobre infraestrutura de avaliação. Vamos detalhar por que evals e experimentos servem a propósitos diferentes, como calibrá-los e o que acontece quando você fecha o loop.

O Funil de Avaliação: Verificação vs. Validação
Schultzberg e Ottens fazem uma distinção crítica:
- Verificação — A saída está de acordo com os padrões de qualidade? (Evals)
- Validação — Usuários reais respondem como previsto? (Experimentos)
Evals descartam candidatos pouco promissores antes que eles consumam largura de banda de experimentos. Eles aumentam a taxa de acerto dos experimentos que vêm depois. Mas eles não podem dizer se os usuários que receberam a versão melhorada realmente tiveram resultados melhores — se a correção evitou a erosão lenta da confiança que eventualmente leva ao churn. Essa pergunta exige um experimento.
O Que os Evals Te Dão
- Velocidade: Execute em conjuntos de teste ou variantes A/B em minutos.
- Granularidade: Avalie dimensões que você não conseguia escalar antes (relevância, tom, intenção).
- Geração de hipóteses: Um juiz LLM que sinaliza conteúdo que quebra a confiança pode revelar padrões que seu time nem sabia que existiam. Depois que a correção é implementada, o mesmo juiz verifica se funcionou.
O Que os Evals Não Te Dão
- Impacto no negócio: A versão melhorada realmente aumentou retenção ou receita?
- Detecção de métricas secundárias: No Spotify, cerca de 42% dos experimentos lançados são revertidos para evitar regressão em métricas secundárias — queda no tempo de sessão, aumento na taxa de crash, erosão na retenção. Nenhum eval sinalizou isso.
- Comportamento de longo prazo: Tarefas longas e comportamento de longo prazo são inerentemente difíceis de capturar com evals.
O Loop de Calibração
Evals são proxies. Eles substituem uma pontuação por um resultado que você realmente se importa. Essa substituição só é válida enquanto a pontuação acompanha o resultado real — a mesma dinâmica das métricas proxy.
Agora, os juízes LLM adicionam uma segunda camada de calibração sobre métricas quantitativas tradicionais (ranking scores, precisão, recall). Ambas as camadas precisam de validação contra resultados online. Quando o juiz diz que a Variante A é melhor, ela realmente oferece uma experiência melhor ao usuário, ou o juiz está recompensando padrões superficiais que não geram resultados?
Por exemplo, quando a Anthropic lançou o modelo Opus 4.5, os evals de codificação do Qodo não mostraram melhora, mas o modelo havia melhorado substancialmente em tarefas mais longas que um experimento controlado teria revelado. A má calibração funciona nos dois sentidos.
Ao ajustar continuamente os evals para melhorar seu mapeamento para resultados online, os evals se tornam ferramentas de verificação melhores. Não estamos descartando que, no futuro, conforme a IA avança, os evals possam mapear bem o suficiente para começar a atuar como validações — mas apenas se o loop de calibração offline/online estiver implementado.
Fonte: Esta análise é baseada no post do blog de engenharia do Spotify sobre evals de LLM e experimentos. Leia o artigo original para mais contexto.

Conselhos Práticos: Feche o Loop
- Execute evals cedo e com frequência para encontrar os melhores tratamentos antes que eles entrem no pipeline de experimentos.
- Deixe o experimento validar se os usuários e sistemas reais respondem como previsto. Monitore as métricas que você não otimizou (guardrails).
- Execute seus evals de LLM nos próprios dados do teste A/B. A versão que o juiz preferiu realmente teve melhor desempenho com os usuários? Isso estende o funil de avaliação tradicional.
- Quando a diferença entre as pontuações do eval e os resultados do experimento for grande, trate isso como ouro diagnóstico. Cada ciclo ajuda a calibrar o próximo.
Limitações e Cuidados
- Evals podem sofrer drift ao longo do tempo conforme o modelo ou a distribuição dos dados muda. Recalibre periodicamente.
- Nem toda mudança precisa do mesmo nível de evidência: testes direcionais rápidos para iteração e coleta de dados, testes rigorosos para decisões de deploy.
- Sem calibração offline-online, evals são opiniões, não evidências.
Próximos Passos
- Comece com um juiz LLM simples para uma dimensão (ex.: relevância).
- Emparelhe com um pequeno teste A/B em uma funcionalidade de baixo risco.
- Compare as pontuações do juiz com os resultados do experimento. Procure por discrepâncias.
- Itere: ajuste o prompt do juiz ou a rubrica de pontuação com base no sinal de calibração.
Leitura Relacionada
- Beyond Libraries: How the Native Popover API Changes the Game for Tooltips
- RCCLX by Meta: Revolutionizing GPU Communication for AMD Platforms

Conclusão
O Spotify já tem uma cultura de avaliação forte no formato de experimentação. Os evals de LLM estendem essa cultura rio acima, com um papel claro no funil: encontrar os melhores tratamentos antes do experimento e calibrar os juízes depois dele.
Como Ankargren (2025) argumenta, o sucesso vem de fazer o básico bem em escala. O valor se acumula quando o sistema é simples o suficiente para usar e rigoroso o suficiente para confiar. Não bifurque seu pipeline de avaliação — transforme-o em um funil.