Por que Agentes de IA Precisam de uma Nova Arquitetura?
A maioria dos modelos multimodais hoje é otimizada para visão estática ou seguir instruções. Mas agentes de uso computacional — modelos que percebem, decidem e agem em ambientes interativos — exigem algo diferente: alta vazão, contexto longo e escalabilidade eficiente sob concorrência.
Apresentamos o Holotron-12B, um modelo de 12 bilhões de parâmetros da H Company, pós-treinado a partir do modelo aberto Nemotron-Nano-2 VL da NVIDIA. Ele foi projetado desde o início para cargas de trabalho agênticas em produção. O modelo já está disponível no Hugging Face sob a licença NVIDIA Open Model License.
O Holotron-12B faz parte do NVIDIA Inception Program, e seu desenvolvimento mostra o quanto um modelo base forte pode evoluir com os dados de treinamento e infraestrutura certos. Vamos entender o que o torna especial.
![]()
O Segredo: Arquitetura Híbrida SSM-Attention
A inovação central do Holotron-12B é sua arquitetura híbrida de State-Space Model (SSM) e atenção. Diferente dos transformers puros que sofrem com custos de memória quadráticos (o famoso KV cache), os SSMs armazenam apenas um estado constante por camada por sequência gerada — independente do comprimento da sequência.
Isso reduz drasticamente o consumo de memória. Na prática, significa:
- Contextos mais longos sem explosão de memória
- Tamanhos de lote efetivos maiores no mesmo hardware
- Melhor utilização de VRAM — menos memória desperdiçada
Resultados Reais de Throughput
A H Company comparou o Holotron-12B com seu antecessor Holo2-8B no WebVoyager Benchmark, uma carga de trabalho agêntica multimodal realista com contextos longos, múltiplas imagens de alta resolução e 100 workers concorrentes. Rodando em uma única GPU H100 com vLLM v0.14.1 (otimizado para SSM), os resultados foram impressionantes:
| Métrica | Holotron-12B | Holo2-8B |
|---|---|---|
| Throughput máximo (tokens/s) | 8.900 | 5.100 |
| Melhoria de throughput | 2x | — |
| Eficiência em alta concorrência | Continua subindo | Estagna rapidamente |
# Exemplo conceitual: pegada de memória SSM vs Attention
# Para uma sequência de comprimento L e dimensão oculta d:
# Attention: O(L^2 * d) memória
# SSM: O(1 * d) memória por camada (estado constante)
def attention_memory(L, d):
return L * L * d # Quadrático
def ssm_memory(d):
return d # Constante
L = 10000 # Contexto longo
print(f"Attention: {attention_memory(L, 4096):,} unidades")
print(f"SSM: {ssm_memory(4096):,} unidades")
Isso torna o Holotron-12B ideal para cargas de trabalho limitadas por throughput, como geração de dados, anotação e aprendizado por reforço online.

Receita de Treinamento e Performance em Benchmarks
O Holotron-12B foi treinado em duas etapas:
- Começando do NVIDIA Nemotron-Nano-12B-v2-VL-BF16 — um modelo base multimodal
- Ajuste fino supervisionado com dados proprietários de localização e navegação da H Company — foco em compreensão de tela, grounding e interações em nível de UI
O checkpoint final foi treinado em aproximadamente 14 bilhões de tokens.
Benchmarks de Agentes
| Benchmark | Nemotron Base | Holotron-12B | Holo2-8B |
|---|---|---|---|
| WebVoyager | 35,1% | 80,5% | ~70% |
| OS-World-G | — | Melhora forte | — |
| GroundUI | — | Melhora forte | — |
| WebClick | — | Melhora forte | — |
O salto de 35,1% para 80,5% no WebVoyager é notável — um testemunho da eficácia dos dados de treinamento proprietários e da arquitetura híbrida.
Limitações & Cuidados
Embora o Holotron-12B seja impressionante, ele não está isento de trade-offs:
- Modelos SSM podem ter dificuldade com certas tarefas de recall que a atenção pura lida nativamente. O design híbrido mitiga isso, mas não é uma bala de prata.
- O modelo ainda tem 12B parâmetros — não é pequeno. Requer uma GPU capaz (H100 recomendada).
- Licenciamento é NVIDIA Open Model License — não é totalmente aberto. Verifique os termos antes do uso comercial.
- Os dados de treinamento são proprietários — você não pode reproduzir o modelo exato do zero.
O que Vem a Seguir: Nemotron 3 Omni
A NVIDIA já anunciou o Nemotron 3 Omni, a próxima geração de modelos multimodais. A H Company fará pós-treinamento sobre ele, aproveitando a arquitetura híbrida SSM-Attention aprimorada e MoE (Mixture of Experts). Isso promete capacidades de raciocínio ainda maiores e precisão multimodal, levando o Holotron além da pesquisa para implantações comerciais de "uso computacional" autônomo em escala.
Para saber mais sobre como a IA agêntica está transformando fluxos de trabalho empresariais, confira nosso mergulho profundo sobre IA Agêntica e Migração para Nuvem em Indústrias Reguladas. E se você estiver interessado em como inovações arquitetônicas semelhantes se aplicam a sistemas de recomendação, veja Como a Netflix Otimizou seu Sistema de Recomendação com a JDK Vector API.
Próximos Passos para Desenvolvedores
- Teste o modelo: Baixe do Hugging Face
- Benchmark sua própria carga: Use vLLM com suporte SSM (v0.14.1+) para testar throughput
- Explore arquiteturas híbridas: Híbridos SSM-attention estão se tornando mainstream — fique de olho nas famílias Mamba, Jamba e Nemotron
- Acompanhe o Nemotron 3 Omni: Provavelmente redefinirá o que é possível para agentes de uso computacional

Conclusão
O Holotron-12B é um sinal claro de que arquiteturas híbridas SSM-attention estão prontas para produção. Ele entrega:
- 2x throughput sobre uma baseline forte (Holo2-8B)
- 80,5% de precisão no WebVoyager — próximo do estado da arte para agentes de uso computacional
- Escalabilidade eficiente sob alta concorrência — ideal para cargas de trabalho agênticas reais
A colaboração entre H Company e NVIDIA mostra que modelos base abertos + ajuste fino proprietário podem produzir resultados de classe mundial. À medida que a indústria avança em direção a agentes autônomos que podem navegar na web, controlar GUIs e executar fluxos de trabalho complexos, modelos como o Holotron-12B serão fundamentais.
A era da IA agêntica chegou — e ela roda em SSMs.