Como montar uma stack de agentes sem comprar benchmark demais

Gustavo Caetano
há 2 dias
5 min de leitura

Tem empresa comprando IA como quem ainda estivesse escolhendo carro por potência.

Olha benchmark. Olha leaderboard. Olha demo impressionante.

E assina.

O problema é que operação não roda em benchmark.

Roda em contexto compartilhado, custo por tarefa e qualidade que não some no meio da semana.

Os sinais de 23, 24 e 25 de abril de 2026 empurraram essa verdade para o centro da mesa.

De um lado, a OpenAI lançou o GPT-5.5 com discurso forte de execução agentic e trabalho completo no computador.

Do outro, o DeepSeek V4 recolocou pressão em custo e contexto longo com uma proposta mais agressiva de portabilidade.

E no meio disso, a Anthropic precisou explicar publicamente por que a qualidade do Claude Code caiu.

Se você acompanha o trabalho de Gustavo Caetano há algum tempo, já viu essa tese aparecer por outro ângulo em A nova guerra da IA será decidida por capacidade, custo e previsibilidade. O passo seguinte é mais duro: transformar esse critério em arquitetura de stack.

Quando essas três coisas acontecem quase ao mesmo tempo, o mercado para de perguntar qual modelo “pensa mais”.

E começa a perguntar qual stack trabalha melhor.

A decisão madura saiu do modelo único e entrou na arquitetura

Esse é o ponto que muita empresa ainda não percebeu.

O jogo não é mais escolher um vencedor universal.

É combinar peças diferentes para objetivos diferentes.

Uma stack de agentes é a combinação de modelos, memória, regras, integrações e fallback que transforma resposta boa em trabalho útil recorrente.

No mundo real, a decisão costuma ficar melhor quando a stack responde a quatro perguntas simples:

o sistema termina a tarefa ou só começa bem?
o custo por tarefa útil melhora ou piora quando o volume sobe?
o contexto fica consistente entre áreas ou cada time inventa a própria verdade?
existe alerta rápido para queda de qualidade?

Se uma empresa não responde essas quatro perguntas, ela não está escolhendo stack.

Está terceirizando a decisão para o hype do mercado.

Capacidade continua importante. Só deixou de ser suficiente.

É claro que capacidade ainda pesa.

Ninguém quer montar operação em cima de sistema fraco.

Mas capacidade isolada virou critério incompleto.

Um modelo que responde muito bem e conclui mal já gera retrabalho.

Um modelo que responde muito bem, conclui bem e explode a conta quando o uso cresce também falha.

E um modelo que responde bem hoje e derrapa amanhã sem aviso gera outro tipo de custo, ainda pior: perda de confiança.

É por isso que a guerra ficou menos romântica.

Ela saiu do “quem parece mais inteligente” e entrou no “quem sustenta trabalho útil com margem”.

Em outras palavras, benchmark mede fronteira. Stack mede se a operação aguenta segunda-feira.

O erro mais caro é usar a mesma camada para tudo

Muita empresa ainda cai no mesmo padrão.

Escolhe o modelo mais forte da semana e tenta usar aquilo para todo fluxo.

Parece eficiente.

Na prática, costuma ser desperdício.

Parte da operação precisa mesmo de qualidade premium.

Outra parte só precisa de contexto grande, custo racional e previsibilidade básica.

Outra parte nem deveria rodar sem fallback e observabilidade.

Quando tudo vai para a mesma camada, a empresa paga premium onde não precisava, economiza onde não podia e descobre tarde demais onde o fluxo estava cego.

Uma stack de agentes mais madura costuma ter três camadas

1. Camada premium

É onde a qualidade extra realmente muda o resultado.

Exemplos:

escrita crítica com reputação envolvida
revisão final de proposta comercial
fluxos complexos com muita ambiguidade
tarefas em que um erro custa caro

Aqui faz sentido pagar mais.

Não porque premium é bonito.

Porque premium altera o resultado econômico.

2. Camada open source ou mais racional em custo

É onde contexto longo, repetição e escala pesam mais do que brilho máximo em cada resposta.

Exemplos:

triagem
classificação
extração estruturada
leitura de contexto grande
etapas intermediárias de fluxo

Nesse ponto, custo e portabilidade começam a importar mais do que supremacia em benchmark.

É exatamente por isso que o DeepSeek V4 mexe com a conversa.

Ele força o mercado a olhar para a conta, não só para a demo.

Foi esse deslocamento que também apareceu em O mercado de IA saiu do chat e entrou no organograma: quando IA entra no processo, governança e custo deixam de ser detalhe técnico.

3. Camada de fallback e observabilidade

Essa camada quase nunca aparece no pitch do fornecedor.

Mas é ela que separa stack madura de caos elegante.

Fallback significa saber o que acontece quando a qualidade cai, quando a sessão perde contexto, quando o tempo de resposta estoura ou quando uma integração muda.

Observabilidade significa perceber isso cedo.

Sem esses dois elementos, a operação só descobre a deriva quando o cliente, o time ou a receita já sentiram.

O caso Claude Code virou aula de governança, não só de modelo

O postmortem da Anthropic tem valor editorial porque mostrou uma coisa que muita empresa prefere ignorar.

Qualidade operacional não é detalhe técnico.

É critério de compra.

Se uma mudança de comportamento passa despercebida por tempo demais, o problema não é apenas “o modelo errou”.

O problema é que a empresa não desenhou governança suficiente para uma camada que já virou infraestrutura de trabalho.

Essa talvez seja a grande mudança desta semana.

Confiabilidade deixou de ser conversa interna de time técnico.

Virou argumento executivo.

Para Gustavo Caetano, esse é o ponto em que IA deixa de ser compra de software e vira desenho de sistema.

O que eu faria na próxima reunião de stack

Se eu tivesse de revisar a pilha de agentes agora, faria cinco movimentos:

listaria quais fluxos realmente precisam de qualidade premium
separaria quais etapas aceitam custo menor com contexto maior
escolheria uma fonte única de verdade para contexto entre áreas
definiria gatilhos de fallback antes de ampliar autonomia
mediria custo por tarefa útil, não custo por licença

Esse último ponto costuma mudar toda a conversa.

Licença parece clara.

Custo por tarefa útil expõe o que estava escondido: retries, supervisão, perdas de contexto, correção manual e instabilidade.

Se a sua operação ainda não mede isso, vale revisar também o artigo de ontem e usar os dois textos como sequência: primeiro o critério de compra, depois a arquitetura que sustenta esse critério.

Benchmark bonito continua abrindo reunião. Não devia continuar fechando.

Essa é a frase que eu levaria para a segunda-feira.

Benchmark continua útil para entender fronteira.

Mas fechar compra só com benchmark é como contratar executivo olhando só currículo.

Você vê sinal.

Não vê execução.

O mercado de abril de 2026 já deixou isso explícito demais para continuar fingindo que não viu.

GPT-5.5, DeepSeek V4 e o caso Claude Code colocaram três palavras no centro da decisão:

capacidade

custo

previsibilidade

Quem montar stack levando isso a sério compra melhor.

Quem continuar comprando “o melhor modelo do momento” corre o risco de pagar caro por uma resposta que impressiona muito e governa pouco.

Fechamento

Se a sua empresa está revisando stack de agentes agora, troque a pergunta.

Não pergunte “qual modelo ganhou a semana?”.

Pergunte “qual arquitetura entrega trabalho útil com margem e confiança?”.

É essa pergunta que separa benchmark de operação.

Hipótese testável

Se o conteúdo traduzir a disputa de modelos em uma decisão prática de arquitetura, ele tende a gerar mais compartilhamento qualificado e conversa comercial do que uma peça que só celebra lançamento.

Como vamos medir

sessões no artigo nos próximos 7 dias
profundidade média de leitura
respostas geradas a partir da distribuição social do tema
reaproveitamento do framework em conversas de venda, conteúdo e produto

Ação gerada

mapear a stack atual em camadas premium, custo racional e fallback
medir custo por tarefa útil antes da próxima assinatura anual
formalizar alertas de queda de qualidade antes de ampliar autonomia