O Desafio: Migrar Milhares de Consumidores de Datasets
Qualquer time de dados conhece a dor de depreciar um dataset muito usado. Quando o Spotify precisou desativar dois dos seus datasets de usuários mais críticos para lançar versões com novas dimensões, a escala era assustadora: ~1.800 pipelines downstream diretos, impactando indiretamente milhares mais. O prazo era de seis meses, e os pipelines usavam três frameworks radicalmente diferentes: BigQuery Runner (SQL), dbt e Scio (Scala). O esforço manual estimado? 10 semanas de engenharia.
Foi aí que o Honk, o agente de codificação autônomo interno do Spotify, entrou em ação. Honk não é um wrapper do ChatGPT—é um agente construído especificamente para reescrever código em escala, integrado profundamente ao portal Backstage e à plataforma Fleet Management.
Para uma visão estratégica de como agentes de IA podem gerar ROI mensurável, confira nosso guia sobre maximizando o ROI de IA e gerenciamento de custos.

Como o Honk Fez a Migração: Engenharia de Contexto é Tudo
Passo 1: Encontrar as Agulhas no Palheiro com Backstage
Antes de qualquer alteração de código, o time precisava entender a linhagem completa dos datasets depreciados. Os plugins de linhagem de endpoint e Codesearch do Backstage tornaram isso possível. Cada página de endpoint mostrava uma lista clara de consumidores downstream, e consultas no Codesearch identificavam os repositórios afetados em todo o ecossistema GitHub do Spotify. Tudo foi marcado como escopo usando o plugin Fleetshift.
Passo 2: Engenharia de Contexto—A Fase que Faz ou Quebra
Como discutido na Parte 2 da série Honk, a engenharia de contexto é a fase mais crítica—e mais demorada—ao trabalhar com agentes de codificação autônomos. O grande desafio aqui era a heterogeneidade dos frameworks:
- BigQuery Runner & dbt: Relativamente consistentes entre times.
- Scio: Altamente flexível, com implementações muito variadas.
Na época desta migração, o Honk não tinha acesso a habilidades Claude ou configuribilidade personalizada (uma escolha de design deliberada por segurança). Isso significava que o prompt precisava ser totalmente abrangente—Honk não podia ler esquemas externos ou documentação por conta própria.
O time tentou duas abordagens:
- Reaproveitar guias de migração escritos para humanos: Falhou porque o contexto era vago. Honk fez suposições incorretas sobre mapeamentos de campos.
- Tabelas de mapeamento explícitas no arquivo de contexto: Funcionou. Ao fornecer mapeamentos tabulares claros para cada transformação de campo, Honk entregou performance sólida na maioria dos repositórios.
A lição é clara: quando o agente não pode coletar seu próprio contexto, seu arquivo de contexto não pode deixar ambiguidade alguma.
# Exemplo: Trecho do arquivo de contexto para migração BigQuery Runner
TABELA_MAPEAMENTO = {
"user_id": {
"coluna_antiga": "user_id",
"coluna_nova": "user_identifier",
"transformacao": "CAST(user_id AS STRING)"
},
"session_start": {
"coluna_antiga": "session_start",
"coluna_nova": "session_start_ts",
"transformacao": "TIMESTAMP_MILLIS(session_start)"
}
}
# Honk usa esta tabela para reescrever instruções SELECT
# Se um campo exigir decisão humana, Honk o mantém inalterado
# e adiciona um comentário com link para o guia de migração humano
Passo 3: A Lacuna de Testes
Pipelines Scio geralmente incluíam testes unitários, mas repositórios BigQuery Runner e dbt raramente tinham. Isso significava que o principal loop de feedback do Honk—verificar o trabalho e ajustar—não estava disponível. O time teve que depender dos times donos dos pipelines para testes manuais antes de mesclar os PRs automatizados.
Apesar disso, Honk e Fleetshift lançaram com sucesso 240 PRs de migração automatizados. A combinação da UI de visão geral do Backstage com o monitoramento do Fleetshift tornou fácil rastrear o progresso, depurar e comunicar com os times.
Para um exemplo real de arquitetura de plataforma de IA na saúde, veja nossa análise da plataforma de diagnósticos com IA escalável da Artera na AWS.

Lições Aprendidas e Limitações
O Que Funcionou Bem
- Backstage + Codesearch: Identificou rapidamente todos os repositórios afetados.
- Tabelas de mapeamento explícitas: Removeu ambiguidade para o agente.
- UI do Fleetshift: Simplificou o monitoramento e gerenciamento de PRs.
O Que Não Funcionou
- Migrações Scio: Abandonadas devido à flexibilidade do framework, tornando prompts abrangentes impraticáveis sem capacidades de auto-contexto do agente.
- Falta de testes automatizados: Honk não pôde verificar seu próprio trabalho, reduzindo a confiança nos PRs.
Limitações Críticas & Avisos
- Engenharia de contexto é cara: Escrever um arquivo de contexto à prova de balas levou mais tempo do que o esperado. Se sua paisagem de dados não é padronizada, esse custo multiplica.
- Autonomia do agente é limitada: Sem acesso a ferramentas externas (ler schemas, JIRA tickets), o agente é tão bom quanto seu prompt.
- Infraestrutura de testes é inegociável: Agentes que não podem rodar testes não podem se autocorrigir. Invista em CI/CD e testes unitários antes de escalar o uso de agentes.
- Nem todos os frameworks são iguais: Frameworks altamente flexíveis (como Scio) são mais difíceis de automatizar. Padronização é pré-requisito para o sucesso de agentes.
Próximos Passos para Aprendizado
- Explore Claude Code skills e MCP (Model Context Protocol) para dar aos agentes capacidades de auto-contexto.
- Implemente testes unitários obrigatórios em todos os repositórios de pipeline.
- Estude os próximos recursos do Honk: coleta de contexto de JIRA e documentação pelo próprio agente.
- Leia a série completa do Honk: Parte 1, Parte 2, Parte 3.

Conclusão: O Futuro dos Agentes de Código Autônomos em Escala
O experimento Honk do Spotify prova que agentes de codificação autônomos podem gerar economias massivas de tempo—240 PRs automatizados, 10 semanas de engenharia poupadas—mas apenas quando a base está certa. Padronização de frameworks, testes obrigatórios e integração profunda com portais como Backstage não são opcionais; são pré-requisitos.
O roadmap é promissor: versões futuras do Honk coletarão seu próprio contexto de JIRA e documentação, reduzindo o fardo de escrever prompts exaustivos. Conforme os agentes Claude Code melhoram, o teto do que os agentes podem alcançar só vai subir.
Para líderes de engenharia: Comece a padronizar seus pipelines de dados e práticas de teste hoje. Os agentes estão chegando, e eles serão tão eficazes quanto o solo onde você os plantar.