Pare de pagar pelo modelo grande: Haiku + RAG fez 11,8 contra 5,3 do Sonnet sozinho
Toda vez que abro uma discussão de arquitetura LLM aqui no Brasil, alguém defende a mesma coisa: “se a qualidade está ruim, sobe pro Sonnet”. Quase nunca alguém pergunta o que o modelo está vendo antes de responder. A culpa cai no modelo. A solução é trocar de modelo. A conta no fim do mês cai no time.
Rodei um experimento simples para conferir esse instinto, e o resultado me fez fechar duas issues que estavam abertas justamente para “upgradar pra Sonnet”. O Haiku 3 (modelo menor, mais barato) com RAG bem desenhado marcou 11,8/20 numa avaliação de qualidade. O Sonnet 4 (modelo maior, mais caro) sem contexto marcou 5,3/20. Mais de 2x de diferença, e a vitória foi do modelo que custa uma fração do outro.
Esse post conta o experimento, mostra de onde os números vêm, e termina com a parte que ninguém quer ouvir: quando essa lógica para de valer.

O experimento — uma pergunta, cinco estratégias de contexto
A pergunta foi sobre uma ferramenta fictícia de autenticação chamada “PropelAuth”:
“Conte sobre as funcionalidades de gestão de organizações do PropelAuth. Especificamente, como criar uma organização, convidar usuários e gerenciar permissões?”
A ferramenta não existe. Isso é o ponto chave do experimento. Se você perguntar sobre Firebase ou Supabase, o modelo já tem conhecimento de pretreino sobre o produto e a melhoria do contexto vira impossível de isolar. Com uma ferramenta fictícia, qualquer resposta “específica” sem contexto adequado é alucinação pura, e dá pra medir quanto.
Cinco estratégias foram testadas, em ambos os modelos:
- Sem contexto — só a pergunta
- Apenas system prompt — “se não souber, diga ‘desconhecido’”
- System + few-shot — exemplos de respostas honestas
- System + RAG — busca semântica na documentação fictícia
- Contexto completo — toda a doc PropelAuth carregada
A avaliação usou quatro eixos (framework SHRR), cada um valendo 5 pontos, totalizando 20:
- Specificity: a resposta inclui detalhe concreto e operacional?
- Hallucination resistance: o modelo evita fabricar informação?
- Reliability (factual accuracy): bate com a especificação real?
- Responsibility (honesty): o modelo comunica incerteza apropriadamente?
Os números — Sonnet 4 vs Haiku 3
O que saiu da planilha:
Claude Sonnet 4 (modelo maior):
| Estratégia | Total /20 |
|---|---|
| Sem contexto | 5,3 |
| Apenas system prompt | 8,8 |
| System + few-shot | 9,2 |
| System + RAG | 10,8 |
| Contexto completo | 11,4 |
Claude Haiku 3 (modelo menor):
| Estratégia | Total /20 |
|---|---|
| Sem contexto | 2,2 |
| Apenas system prompt | 3,7 |
| System + few-shot | 8,2 |
| System + RAG | 11,8 |
| Contexto completo | 10,1 |
Compare a linha que importa: Haiku 3 com RAG (11,8) ganhou de Sonnet 4 sem contexto (5,3) por 2,2x. E pra deixar mais doloroso: Haiku com RAG até ganhou do Sonnet com RAG (10,8) por uma margem pequena, mas ganhou.
Não é o modelo que estava errado. É o que o modelo estava vendo.
Por que o “Contexto completo” perdeu pro RAG no Haiku
Tem uma pegadinha nesses números que vale destacar, porque ela contraria o instinto. No Haiku 3, Contexto completo (10,1) ficou abaixo de System + RAG (11,8). Mais informação rendeu pior resposta.
A explicação é o famoso “lost in the middle” — quando você joga toda a documentação no prompt, a atenção do modelo se dilui, e detalhes importantes no meio do contexto começam a ser ignorados. O RAG, por escolher só 3-5 trechos relevantes, mantém a relação sinal/ruído alta. O modelo menor sofre mais com diluição de contexto, então o RAG ajuda mais ele do que o modelo grande.
Isso bate com o guia de engenharia de contexto eficaz da Anthropic, publicado em 2026, que documenta exatamente esse padrão: modelos menores são mais sensíveis a contexto ruim, e mais beneficiados por contexto bem desenhado.
A matemática de custo que ninguém faz
Vamos colocar o custo na conta. Preços da Anthropic em junho de 2026 (valores reais — confira no pricing oficial):
| Modelo | Input (US$/1M tokens) | Output (US$/1M tokens) |
|---|---|---|
| Claude Haiku 3 | 0,25 | 1,25 |
| Claude Sonnet 4 | 3,00 | 15,00 |
O Sonnet custa 12x mais no input e output. Suponha 100 mil consultas por mês, com 800 tokens de input médio e 400 de output:
- Haiku 3 + RAG: ~US$ 70/mês (R$ 378 a R$ 5,40/US$)
- Sonnet 4 sem contexto: ~US$ 840/mês (R$ 4.536)
Vejam o que está acontecendo aqui: a configuração que dá resposta melhor custa 12x menos. O time que “subiu pro Sonnet pra resolver qualidade” está pagando 12x mais por uma resposta pior do que poderia ter tido com Haiku + RAG. Eu sou um deles, três projetos atrás. Não foi orgulho que me fez consertar, foi a fatura.
Quando essa lógica para de valer
Pra não virar fanboy de RAG (já vi gente jurar que RAG resolve tudo, igual quem jurava blockchain em 2017), vale falar quando o padrão não funciona:
1. Tarefas de raciocínio multi-step complexo. Resolver problemas matemáticos complicados, debugar arquitetura distribuída, planejar uma migração com 30 dependências. Aqui o modelo maior ganha mesmo com contexto bom, porque a capacidade de raciocínio domina sobre a qualidade da informação.
2. Quando o conteúdo é o conhecimento do modelo. Pedir explicação de algoritmos clássicos, padrões de design conhecidos, conceitos de ciência da computação. O Sonnet já tem isso bem mapeado no pretreino. RAG vai só atrapalhar.
3. Quando o RAG é mal montado. RAG com chunks ruins, embeddings velhos, sem reranking — vira pior do que sem contexto. O experimento testa RAG bem montado (chunks de tamanho razoável, top-3 relevantes, prompt template enxuto). Se sua infra de RAG é capenga, troque o RAG antes de trocar o modelo.
O reflexo errado que custa caro
Tem um reflexo que se repete em todo time: latência alta → cache; bug → mais testes; resposta ruim → modelo maior. Os dois primeiros geralmente funcionam. O terceiro, geralmente não.
O experimento PropelAuth mostra com número o que muitos perceberam na fatura: a maior alavanca de qualidade não é o tamanho do modelo, é o desenho do contexto. Não custa nada testar a inversão antes de migrar pra Sonnet:
- Pegue a sua query que está dando resposta ruim
- Rode no Haiku 3 com RAG bem montado (3-5 docs relevantes)
- Compare com Sonnet sem contexto na mesma query
- Olhe o custo dos dois cenários numa janela de 30 dias
Se Haiku + RAG ganhar de Sonnet sozinho, e em muitos casos vai ganhar, o roadmap muda. Em vez de “trocar de modelo”, você melhora o pipeline de contexto. Mais barato, melhor qualidade, e o time fica obrigado a entender a própria base de conhecimento — coisa que terceirizar para Sonnet pretende evitar.
A lição, em uma linha: antes de subir o modelo, conserte o que ele vê.
ken imoto · WebRTC & Voice AI engineer · kenimoto.dev · TabNews
Este artigo foi útil?