40% dos projetos de agente de IA vão ser cancelados até 2027. A culpa quase nunca é do modelo.
Todo mundo no LinkedIn já viu o número, mas vou repetir porque ele merece: a Gartner projeta que mais de 40% dos projetos de IA agêntica serão cancelados até o fim de 2027 (Gartner). Quarenta por cento. Isso não é “acontece com os outros”: é uma probabilidade alta o suficiente pra você olhar pro projeto de agente que está rodando aí na sua empresa e fazer a conta de quem vai ficar de pé.
Por uns bons meses eu li esse tipo de notícia e tirei a conclusão errada. Achei que projeto de agente que quebra é problema de modelo. Modelo fraco, escolha errada entre Sonnet e Opus, prompt mal escrito. Quando os meus quebravam, eu trocava de modelo e mexia no prompt. Às vezes melhorava um pouco. Nunca resolvia de verdade.
A conclusão certa demorou pra chegar, e ela é meio chata: na maioria dos casos a culpa não é do modelo. É da harness, o ambiente em que o agente opera, e que quase ninguém senta pra desenhar.
Antes que pareça mais um texto genérico sobre “agentes em produção”: eu já escrevi aqui sobre um agente que rodou 24h sozinho e quase vazou um .env, e aquilo era um relato de incidentes específicos numa noite. Esse texto aqui é outra coisa. É a vista de cima: por que 40% falham, e por que a raiz comum é a mesma.
”Funciona na demo, quebra em produção”
Você já viveu isso. A demo do agente é linda. Input limpo, usuário cooperativo, o caminho feliz inteiro. Aí vai pra produção e despenca.
Os números do salto PoC → produção são brutais: estima-se que 80 a 90% dos pilotos de agente falhem ao virar produção, e que 88% dos PoCs nunca cheguem lá (Composio). A parte que muda a forma de pensar é o diagnóstico: a diferença entre o que dá certo e o que falha não está na tecnologia. Está em volta dela.
Faz sentido quando você lembra que toda demo roda em cima de input limpo, e produção nunca tem input limpo. Demo é o agente correndo na pista vazia. Produção é a mesma corrida no trânsito de São Paulo às 18h, com obras na pista e alguém parando no meio do cruzamento. O carro é o mesmo. O ambiente é que decide.
E ambiente é exatamente o que a palavra harness descreve.
O que é harness, sem enrolação
Engenharia de Prompt é “o que você pergunta pra IA.” Engenharia de Contexto é “tudo o que você manda pro modelo” — system prompt, RAG, definições de ferramenta, memória. Harness Engineering é “como o todo funciona”: o contexto mais as restrições, as ferramentas, o ciclo de vida, o loop de feedback e o monitoramento.
Se a cozinha é a analogia, o prompt é a receita, o contexto são os ingredientes, e a harness é a cozinha em si. Dá pra ter a melhor receita e o melhor ingrediente do mercado. Se a cozinha não tem pia, fogão nem exaustor, você não janta.
Os três se aninham um dentro do outro: harness contém contexto, que contém prompt. Quando alguém me diz que o projeto de agente falhou por causa do modelo, quase sempre o que aconteceu foi que mexeram só na receita enquanto a cozinha pegava fogo.

A causa raiz não é o modelo (e os dados concordam)
Olha a pilha de evidência apontando pra fora do modelo.
O MIT, no relatório “The GenAI Divide”, encontrou que 95% dos pilotos corporativos de GenAI não geram impacto mensurável no resultado financeiro (via Fortune). A causa apontada não foi qualidade de modelo: foi o “learning gap”, a incapacidade de encaixar a IA no fluxo de trabalho real. (Esse número viralizou e foi contestado por alguns analistas, então trato ele como contexto macro, não como lei da física. Mas a direção bate com tudo o mais.)
A Gartner ainda cutuca outra ferida: do mar de fornecedores que se dizem “IA agêntica”, só cerca de 130 são reais — o resto é “agent washing”, rótulo de agente colado em automação velha. Parte do 40% que vai morrer nunca foi agente de verdade pra começar.
Repare no padrão. MIT diz que a falha é organizacional. Gartner diz que parte é rótulo mentiroso e parte é falta de controle de risco e valor de negócio pouco claro. Composio diz que a diferença não é tecnologia. Nenhum deles está apontando pro modelo. Todos estão apontando pro que cerca o modelo: a definição de harness.
Por que isso pega forte no Brasil agora
Dois motivos bem práticos pra quem trabalha aqui.
Primeiro, a hora é essa. O mercado de IA agêntica deve sair de US$ 7,9 bi em 2025 pra US$ 196 bi em 2030, e o Brasil aparece como líder de adoção na América Latina (TI Inside). Tem muita consultoria e muita startup brasileira colocando agente em produção neste exato momento, no meio da curva onde o 40% mora.
Segundo, o nosso ponto de dor é específico. No PoC, custo de token é desprezível. Em produção, com milhares de execuções por dia, aquele agente baratinho vira uma conta que assusta — e aí o projeto é cancelado não porque não funciona, mas porque ninguém desenhou a parte da harness que controla custo (caching, limite de passos, parada antecipada). Some isso a governança e auditabilidade em setor regulado (financeiro, saúde, seguro), e você tem o roteiro exato de como um agente que “funcionava” vira estatística da Gartner.
E não é hype distante: em março de 2026 a Linear declarou que “issue tracking morreu”, apontando que agentes de engenharia já estão em mais de 75% dos espaços de trabalho corporativos dela e que 25% das issues já são criadas por agentes (The Register). O fluxo de trabalho está sendo redesenhado partindo do princípio de que o agente é o padrão. Entrar nessa curva sem desenhar a harness é pegar a estrada em alta velocidade sem cinto. Dá pra ir rápido, até a primeira curva.
O que eu mudei (a parte chata que funciona)
Parei de tratar projeto de agente como problema de modelo. Quando um agente meu quebra agora, a primeira pergunta deixou de ser “troco de modelo?” e passou a ser “qual pedaço do ambiente eu não desenhei?”.
Na prática isso virou três perguntas que eu faço antes de chamar qualquer coisa de pronto pra produção:
- Ciclo de vida: o que acontece quando o agente roda por horas e a janela de contexto enche? Tem reset, tem arquivo de progresso, ou ele só vai degradando até falar besteira?
- Restrições: o agente tem permissão pra fazer o que ele não deveria? Sandbox, allowlist de rede, limite de custo por execução. Demo não precisa disso. Produção morre sem isso.
- Feedback: como eu sei que ele está funcionando sem eu olhando? Se a resposta é “eu olho”, então não vai escalar, e não escalar é uma das formas de virar o 40%.
Nenhuma dessas perguntas é sobre o modelo. Todas são sobre o ambiente. E é por isso que trocar de modelo nunca resolvia: eu estava ajustando a receita enquanto o problema era a cozinha.
A boa notícia escondida no número da Gartner é o complemento dele: 40% são cancelados, o que quer dizer que 60% chegam lá. A diferença entre os dois grupos não é quem pegou o modelo mais novo. É quem desenhou o ambiente em que o agente ia viver antes de soltar ele na rua.
ken imoto · WebRTC & Voice AI engineer · kenimoto.dev · TabNews
Este artigo foi útil?