Transformando LLMs de Mentirosos em Especialistas

Name: Transformando LLMs de Mentirosos em Especialistas — Engenharia de Contexto na Prática
Price: 19.99 BRL
Availability: InStock

Engenharia de Contexto na Prática

Engenharia de Contexto na Prática | RAG · MCP · CLAUDE.md · Agentic RAG, com benchmarks de ponta a ponta

Modelos maiores apenas mentem com mais confiança. RAG eleva a qualidade da resposta em até 4,6x. Este livro prova a Engenharia de Contexto com benchmarks originais — não com achismo.

Volume 2 da Série de Práticas de IA para Engenheiros (BR) — entre claude-code-mastery (Vol 1) e harness-engineering-guide (Vol 3)

QUERO LER NO KINDLE QUERO O TRECHO GRÁTIS

8 livros já em PT-BR · 5 traduzidos JA → PT-BR · Devs em 6 países leram a coleção

R$19.99 Incluso no Kindle Unlimited Publicado em: 2026-05-08 Atualizado em: 2026-05-08

ken imoto — Autor das séries Practical Claude Code e Harness Engineering. Mais de 30 livros técnicos em JA/EN/PT/ES. · 7 dias para devolução via Amazon

📖 Leia de graça

Leia 3 capítulos completos aqui mesmo antes de comprar. Curtiu? Continue no Kindle.

01 Introdução

Introdução

Para você que escolheu este livro

Em resumo: este livro é um guia prático para extrair a maior qualidade possível das respostas de um LLM por meio do desenho do contexto.

“Perguntei algo ao ChatGPT e recebi uma resposta superconfiante. Aí eu fui checar e era tudo mentira.”

Já passou por isso?

O protagonista deste livro é o LLM. Pense nele como um novo contratado brilhante no primeiro dia. Conhecimento zero do setor, mas cheio de confiança. Entregue o material de onboarding certo e ele vira um colaborador imediato.

Quem começou a usar LLMs no trabalho provavelmente bateu nesse problema. Você ajusta o prompt, define um papel, adiciona “responda com precisão”. E a IA continua mentindo com confiança.

Este livro nasceu de um experimento que enfrentou esse problema de frente.

O que o experimento revelou

Em resumo: o que decide a qualidade da saída de um LLM é o desenho do contexto, não o tamanho do modelo.

Para investigar como a IA se comporta diante de “informação que ela não pode saber”, construí três ferramentas internas fictícias e medi a qualidade das respostas em cinco estratégias de contexto diferentes.

Os resultados foram contundentes.

Sem nenhum contexto, a IA devolveu “respostas plausíveis, mas totalmente fabricadas”
Com RAG (Retrieval-Augmented Generation) injetando documentação, a precisão factual saltou de zero para 4,8
O achado mais surpreendente: um modelo menor com bom contexto (pontuação 11,8) esmagou um modelo maior sem contexto (pontuação 5,3)

O que decide a qualidade da saída de um LLM não é o tamanho do modelo nem a sagacidade do prompt. É o desenho do contexto.

A disciplina de desenhar esse contexto sistematicamente é a Engenharia de Contexto.

Como este livro está organizado

O livro tem três partes.

Parte 1, “O que muda quando o contexto muda” (Capítulos 1-4), percorre os resultados experimentais e explica por que a Engenharia de Contexto é necessária. O Capítulo 4 inclui um exercício prático que melhora um System Prompt diretamente. A ideia é sentir o efeito com as próprias mãos antes de aprofundar a teoria.

Parte 2, “Cinco técnicas, em camadas” (Capítulos 5-9), cobre uma a uma as técnicas que compõem a Engenharia de Contexto: few-shot, RAG, MCP, memória, etc. Cada capítulo amarra os dados experimentais para você ver “se eu adicionar essa técnica, como muda a pontuação?” — assim você avalia custo-benefício enquanto lê.

Parte 3, “Engenharia de Contexto no campo” (Capítulos 10-15), apresenta padrões do mundo real: desenho de CLAUDE.md para Claude Code, implementação de Agentic RAG, adoção em empresas e mais.

Cada capítulo termina com uma 🚀 Próxima Ação: uma coisa concreta para fazer logo depois da leitura. O objetivo não é concordar e seguir adiante. É deixar você com algo para experimentar amanhã.

Sobre a “Série de Práticas de IA para Engenheiros”

Este é o volume 2 da “Série de Práticas de IA para Engenheiros”.

Volume 1: Practical Claude Code. A prática da codificação assistida por IA.
Volume 2: Engenharia de Contexto (este livro). Fazendo a IA pensar corretamente.

O que os livros compartilham: tudo é fundamentado no que o autor aprendeu fazendo o trabalho de fato. Os dados experimentais aqui são dados primários de chamadas de API reais, não citações de teoria.

Este livro é independente. Você pode ler sem ter lido o volume 1.

Para quem é este livro

Engenheiros que começaram a usar LLMs no trabalho
Equipes que implantaram RAG e não estão satisfeitas com a precisão
Desenvolvedores construindo agentes de IA
Quem se pergunta “o que vem depois de prompting?”

Os únicos pré-requisitos são Python básico e API básica. Você não precisa conhecer a fundo o funcionamento interno dos LLMs.

Como ler

Recomendo ler na ordem, mas há atalhos:

Quer só o resumo → Capítulo 1 e Capítulo 13
Quer melhorar RAG → Capítulo 6 e Capítulo 7
Quer usar Claude Code bem → Capítulo 10
Considera adoção enterprise → Capítulo 12 (a e b)

Com isso, vamos entrar no mundo da Engenharia de Contexto.

Continue este capítulo no Kindle →

02 Mesma Pergunta, Cinco Respostas Completamente Diferentes

Uma diferença de qualidade de 2,2x, em um único experimento

Em resumo: a quantidade e a qualidade do contexto determinam a qualidade da saída de um LLM.

No outono de 2025, um resultado de benchmark me deixou sem palavras. O mesmo LLM, recebendo a mesma pergunta, produziu respostas que variavam em qualidade por um fator de 2,2x, somente porque mudamos o contexto que entregamos.

Mesma pergunta, qualidade de resposta diferente, dependendo de quanto material de onboarding foi dado. É exatamente assim que novos contratados funcionam, e os LLMs funcionam igual.

A qualidade da saída foi pontuada em quatro eixos (0-5 cada, 20 no total):

Factual Accuracy: a resposta bate com a especificação real?
Hallucination Resistance: o modelo evita fabricar informação?
Specificity: a resposta inclui detalhe concreto e operacional?
Honesty: o modelo comunica incerteza e limites apropriadamente?

Pontuação maior é melhor nos quatro. Abaixo, resultados de perguntar ao Claude Sonnet 4 sobre uma ferramenta interna fictícia chamada “PropelAuth”:

Estratégia de contexto	Factual Accuracy	Hallucination Resistance	Specificity	Honesty	Total
Sem contexto	0,6	0,3	4,2	0,2	5,3
Apenas system prompt	0,0	3,5	1,7	3,7	8,8
System + few-shot	0,0	5,0	0,0	5,0	10,0
System + RAG	4,6	0,8	4,5	0,3	10,2
Contexto completo	4,8	1,0	4,8	0,8	11,4

O Claude Haiku 3 foi ainda mais marcante:

Estratégia de contexto	Factual Accuracy	Hallucination Resistance	Specificity	Honesty	Total
Sem contexto	0,0	0,7	1,2	0,3	2,2
Apenas system prompt	0,0	0,7	0,3	2,7	3,7
System + few-shot	0,0	3,5	1,2	3,5	8,2
System + RAG	4,8	1,7	4,0	1,3	11,8
Contexto completo	4,8	0,5	4,3	0,5	10,1

No Haiku, a diferença de qualidade chegou a 4,6x. Não é questão de melhorar a frase do prompt. Ao desenhar o que o LLM “vê”, a saída muda nessa magnitude.

PropelAuth: perguntando a uma ferramenta interna fictícia

Em resumo: com a mesma pergunta, contextos diferentes produziram cinco respostas completamente diferentes.

A pergunta usada no experimento, sobre uma ferramenta fictícia de autenticação chamada “PropelAuth”:

Conte sobre as funcionalidades de gestão de organizações do PropelAuth. Especificamente, como criar uma organização, convidar usuários e gerenciar permissões?

Testei a pergunta com cinco estratégias de contexto diferentes. As respostas vieram como se descrevessem cinco produtos diferentes.

Estratégia 1: Sem contexto (Total 5,3/20)

PropelAuth oferece funcionalidades de gestão de organizações como
parte do seu serviço de autenticação.

Criação de organização:
- Administradores criam uma nova organização pelo dashboard
- Configuram nome e domínio da organização
- Integração SSO disponível na configuração inicial

Convite de usuários:
- Funcionalidade de convite por e-mail
- Links de convite expiram em 24 horas
- Convites em massa suportados

Gestão de permissões:
- Role-Based Access Control (RBAC)
- Roles personalizadas podem ser criadas
- Permissões granulares

À primeira vista parece preciso. Só que PropelAuth é fictícia. O LLM “preencheu” funcionalidades que não existem, gerando uma resposta confiante, específica e convincente.

Estratégia 2: Apenas system prompt (Total 8,8/20)

Depois de adicionar “se não souber, diga ‘desconhecido’” no system prompt:

Lamento, mas não tenho informação precisa sobre as funcionalidades
de gestão de organizações específicas dessa ferramenta chamada
PropelAuth.

Sistemas de autenticação em geral incluem funcionalidades como:

- Criação de organização
- Sistemas de convite de usuários
- Gestão de permissões

Para detalhes específicos da implementação do PropelAuth, recomendo
consultar a documentação oficial.

Honesty melhorou drasticamente, mas Factual Accuracy ficou em zero, e a Specificity caiu.

Estratégia 5: Engenharia de Contexto completa (Total 11,4/20)

Depois de combinar system prompt, exemplos few-shot, recuperação via RAG, definições de ferramentas e saída estruturada:

[Confiança: Alta] Aqui estão as funcionalidades de gestão de organizações do PropelAuth.

■ Criação de organização
- PropelAuth Dashboard > Organizations > "Create New Org"
- Campos obrigatórios: nome da organização, subdomínio
- Opcional: logo customizado, configurações de tema

■ Convite de usuários
- Bulk invite: upload de CSV suportado
- Templates de e-mail de convite: personalizáveis
- Expiração: 7 dias por padrão (configurável)

■ Gestão de permissões
- Roles predefinidas: Admin, Member, Viewer
- Roles personalizadas: até 50
- Herança: nível org > nível team > nível individual

[Fonte] Documentação oficial PropelAuth v2.1.3
[Última atualização] 15 de setembro de 2024

Factual Accuracy, Specificity e Honesty estão equilibradas em alto nível. Como a resposta é fundamentada em documentação precisa injetada via RAG, a precisão factual sobe nitidamente.

Por que uma ferramenta fictícia

A razão pela qual o experimento usa ferramentas fictícias — “PropelAuth”, “StormDB”, “FlowPipe” — é direta. Elimina informação que o LLM possa “já saber” pelos dados de treinamento, então conseguimos medir o efeito da Engenharia de Contexto de forma limpa.

Perguntar sobre uma ferramenta real (Firebase, Supabase) mistura o conhecimento pré-treinado do modelo, e a melhoria pelo contexto fica difícil de isolar. Com ferramentas fictícias, conseguimos medir limpo:

1. Quantificar alucinação

Conseguimos medir quanta ficção plausível o LLM gera sobre informação que ele não pode saber. Sem contexto, o Sonnet 4 marcou 4,2/5 em Specificity. Isso significa “mentiras muito específicas, muito detalhadas”.

2. Medir melhoria de honestidade

Adicionar “se não souber, diga ‘desconhecido’” no system prompt moveu Honesty de 0,2 para 3,7 (Sonnet 4). Com ferramentas reais, essa melhoria não pode ser medida com clareza.

3. Quantificar o valor do contexto

O ganho de precisão factual com RAG pode ser medido sem ruído. No Sonnet 4, foi de 0,6 para 4,6.

O que significa a avaliação em quatro eixos

Em resumo: qualidade de LLM não pode ser medida em uma única métrica. Use quatro eixos equilibrados.

Os quatro eixos:

Factual Accuracy

Definição: a informação está factualmente correta?
Como medir: cruzar com a especificação real
Por que importa: sinal de qualidade mais básico

Hallucination Resistance

Definição: o modelo evita fabricar informação infundada?
Como medir: adequação da resposta a informação desconhecida
Por que importa: ligado diretamente à confiabilidade em produção

Specificity

Definição: a resposta é concreta e operacional, não abstrata?
Como medir: presença de instruções passo a passo, números, exemplos
Por que importa: dirige usabilidade

Honesty

Definição: o modelo comunica incerteza e limites?
Como medir: “não sei” explícito, expressões de confiança
Por que importa: previne supervalorização e mal-entendido

Esses eixos envolvem compensações entre si. Aumentar a Specificity tende a elevar a alucinação. Apoiar-se em Honesty geralmente faz a Specificity cair. O ponto da Engenharia de Contexto é manter os quatro altos simultaneamente.

Por que o mesmo LLM produz qualidade 2,2x diferente

Por que o mesmo LLM, com a mesma pergunta, produz qualidade tão diferente? Porque o LLM depende fortemente do conteúdo da janela de contexto.

1. Falta de informação aumenta o chute

Quando o contexto é escasso, o LLM cai em chutes para produzir uma resposta “plausível”. O exemplo: ele não sabe nada sobre PropelAuth, mas listou funcionalidades específicas.

2. Instruções explícitas mudam o comportamento

Um system prompt com “diga ‘desconhecido’ quando não souber” muda o padrão de comportamento do LLM. É a fonte do salto na pontuação de Honesty.

3. Informação relevante melhora a qualidade

O RAG fornece informação precisa, então o modelo não precisa chutar. É de onde vem o salto em Factual Accuracy.

4. Abordagens combinadas se compõem

A Engenharia de Contexto completa integra esses elementos. O efeito de interação ultrapassa a soma das contribuições individuais. Os quatro eixos melhoram em equilíbrio: a prova.

O que isso significa para produção

Esses resultados têm implicações diretas para usar LLMs em produção:

1. Apenas ajustar prompt tem teto

Muitos desenvolvedores focam em escrever “prompts espertos”. Sozinho isso não entrega ganhos fundamentais de qualidade. Você tem que desenhar todo o ambiente de informação.

2. Informação específica do domínio é enormemente valiosa

O LLM não tem dados de treinamento sobre seu produto ou as especificidades do seu setor. O ganho de RAG ou fine-tuning é maior do que as pessoas esperam.

3. Mesmo modelos pequenos ganham qualidade enorme com bom contexto

Um modelo leve como o Haiku 3 viu um salto de qualidade de 4,6x com Engenharia de Contexto. Antes de partir para um modelo maior, revise seu desenho de contexto.

4. Qualidade deve ser avaliada de forma multidimensional

Não confie em uma única métrica (tempo de resposta, custo). Avalie precisão factual, resistência a alucinação, especificidade e honestidade juntas.

Como o livro está estruturado e seu caminho de aprendizado

A partir desses resultados experimentais, o livro cobre Engenharia de Contexto assim:

Parte 1: enxergar o problema

Capítulo 2: três causas-raiz pelas quais a IA mente
Capítulo 3: os limites da Engenharia de Prompt e o início da Engenharia de Contexto
Capítulo 4: começando com melhorias no system prompt

Parte 2: as técnicas fundamentais

Implementação de RAG (Retrieval-Augmented Generation)
Uso efetivo de few-shot learning
Princípios de design de system prompts

Parte 3: aplicação prática

Implementação em sistemas enterprise
Avaliação de performance e monitoramento
Ciclos de melhoria contínua

Cada capítulo mistura teoria com exercícios práticos. O passo mais importante é sentir o salto de qualidade no seu próprio ambiente.

A era da Engenharia de Prompt está chegando ao fim. Daqui para frente, a disciplina é desenhar todo o ambiente de informação que o LLM vê: a Engenharia de Contexto. Quando duas pessoas usam a mesma ferramenta e obtêm resultados diferentes, este é o diferencial.

O próximo capítulo percorre três causas-raiz pelas quais os LLMs viram “mentirosos”. Entender o mecanismo deixa as soluções muito mais claras.

🚀 Próxima Ação: pergunte ao seu LLM sobre um “termo que ele não pode saber” da sua empresa

Para experimentar o que este capítulo descreveu:

Invente um nome de ferramenta interna fictícia
- Exemplos: “DataSync Pro”, “TeamFlow Hub”, “SecureLink Manager”
- Escolha nomes que soem plausíveis mas não existam
Faça perguntas específicas
- “Como configuro X?”
- “Como mudo permissões de usuário em X?”
- “Como funciona a API de X?”
Cheque a resposta
- Quão específica é a mentira?
- O modelo diz honestamente “não sei”?
- Quão plausível soa?
Registre os resultados
- Specificity: 1-5
- Honesty: 1-5
- Notas sobre o que surpreendeu você

Esse exercício dá uma sensação direta de quão hábil — e quão perigoso — é o comportamento “chutar e preencher” do LLM. O próximo capítulo desempacota as três causas-raiz por trás disso.

Continue este capítulo no Kindle →

03 Três Razões Pelas Quais sua IA Mente

O “link de convite válido por 24 horas” do PropelAuth não existe

No capítulo anterior, o Claude Sonnet 4 produziu este tipo de resposta detalhada sobre a ferramenta fictícia PropelAuth:

Convite de usuários:

Funcionalidade de convite por e-mail

Links de convite expiram em 24 horas

Convites em massa suportados

De onde veio “24 horas”? PropelAuth é fictícia. Não existe especificação real. E ainda assim o LLM gerou uma descrição de funcionalidade tão detalhada quanto a de um serviço real.

Isso não é acidental. Novos contratados têm dificuldade de dizer “não sei” porque querem parecer competentes. LLMs são iguais. Mentiras de IA são consequência inevitável de restrições técnicas e princípios de design, não um glitch. Este capítulo explica as três causas principais.

Razão ①: o mecanismo de “preenchimento plausível” para informação desconhecida

Em resumo: LLMs são construídos para “preencher a lacuna com um chute”, não para dizer “não sei”.

A natureza da alucinação

Quando um LLM gera informação que não é verdade, isso é “alucinação”. Não é simplesmente um bug. É um fenômeno enraizado no princípio operacional básico do LLM.

LLMs geram texto prevendo o próximo token. Dado o prefixo “O link de convite do PropelAuth expira em”, o modelo escolhe probabilisticamente entre valores que viu em padrões similares: “24 horas”, “7 dias”, “30 dias”.

O problema: o LLM não tem informação de que PropelAuth é fictícia. Ele combina padrões de outros serviços de auth que viu durante o treinamento (Auth0, Firebase Auth, AWS Cognito) e produz uma resposta plausível.

O perigo do preenchimento por correspondência de padrões

Olhe os dados experimentais com mais cuidado:

Modelo	Specificity sem contexto	Factual Accuracy sem contexto
Sonnet 4	4,2/5	0,6/5
Haiku 3	1,2/5	0,0/5

O Sonnet 4 produziu respostas “muito específicas” (4,2/5) sobre informação que ele não pode saber. É evidência de capacidade forte de pattern-matching e evidência de perigo.

Um exemplo concreto:

Funcionalidade real do Auth0 (ferramenta real):

Expiração de e-mail de convite: configurável (padrão 7 dias)
Convite em massa: importação por CSV suportada
Gestão de permissões: RBAC + roles personalizadas

Conteúdo gerado pelo LLM sobre PropelAuth:

Expiração do link de convite: 24 horas
Convite em massa: suportado
Gestão de permissões: RBAC + roles personalizadas

O LLM combina padrões conhecidos e ajusta os números para produzir informação “nova”. Essa habilidade é o que torna a alucinação difícil de identificar.

A fronteira invisível do conhecimento

Pior: o LLM não consegue reconhecer a fronteira do próprio conhecimento.

Um humano consegue pensar “PropelAuth? Nunca ouvi falar.” O LLM não distingue:

Coisas que ele definitivamente sabe: fatos claramente nos dados de treinamento
Coisas que ele pode chutar: conteúdo extrapolado de padrões
Coisas que ele não tem ideia: conteúdo fictício que não está nos dados de treinamento

Essa fronteira borrada é a razão de mentir com confiança.

Preenchimento como propriedade da IA generativa

O ponto importante: isso não é um “defeito”. É uma propriedade fundamental da IA generativa.

LLMs são treinados para estes objetivos:

Geração de texto fluente: produzir texto que se lê naturalmente
Manter coerência: ficar consistente com o contexto ao redor
Atender expectativas do usuário: dar respostas úteis

Dizer “não sei” vai contra esses objetivos. Então o LLM se inclina por reflexo a “responder com algo” e acaba preenchendo lacunas com chutes.

Razão ②: modelos maiores mentem com mais habilidade

Em resumo: à medida que os modelos ficam mais espertos, as mentiras ficam mais convincentes.

A relação proporcional entre tamanho e qualidade da mentira

Os experimentos revelaram algo interessante. Modelos maiores e mais capazes produzem mentiras mais polidas.

Modelo	Specificity	Factual Accuracy	Sofisticação da mentira
Sonnet 4	4,2/5	0,6/5	extremamente alta
Haiku 3	1,2/5	0,0/5	moderada

Nota: a Anthropic não publica contagem de parâmetros, mas o Sonnet 4 é substancialmente maior que o Haiku 3.

A Factual Accuracy do Sonnet 4 é levemente mais alta (0,6 vs 0,0), mas a Specificity diverge nitidamente (4,2 vs 1,2). O que isso significa?

Alta capacidade de linguagem cria poder de persuasão

Modelos maiores produzem texto mais natural e detalhado. Em geral é uma força. No contexto de alucinação, vira arma.

Exemplo do Haiku 3 (Specificity 1,2):

PropelAuth tem funcionalidades básicas de gestão de organizações.
Para detalhes, consulte a documentação oficial.

Exemplo do Sonnet 4 (Specificity 4,2):

Sobre as funcionalidades de gestão de organizações do PropelAuth.

Criação de organização:
- Administradores criam uma nova organização pelo dashboard
- Configuram nome e domínio da organização
- Integração SSO disponível na configuração inicial

Convite de usuários:
- Funcionalidade de convite por e-mail
- Links de convite expiram em 24 horas
- Convites em massa suportados

Qual é a resposta “correta”? Paradoxalmente, a resposta mais vaga e menos detalhada do Haiku 3 é mais honesta.

Uso hábil de jargão técnico

Modelos maiores usam termos técnicos com mais naturalidade. Isso torna as mentiras mais persuasivas.

Mentiras detalhadas do Sonnet 4 sobre PropelAuth:

Gestão de permissões:
- Role-Based Access Control (RBAC)
- Roles personalizadas podem ser criadas
- Configuração de permissões granulares
- Compatível com OAuth 2.0 / OIDC
- Integração SAML SSO
- JIT (Just In Time) provisioning

Esses termos (RBAC, OAuth 2.0, OIDC, SAML, JIT) são tecnologias reais de autenticação. No contexto de PropelAuth, é tudo ficção.

O uso hábil de jargão faz o leitor pensar “isso parece tecnicamente correto”. Correção técnica é confundida com correção factual.

Coerência interna cria a ilusão de confiança

Modelos maiores são melhores em manter coerência interna no texto gerado. Isso também fortalece a mentira.

Se o modelo diz “links de convite expiram em 24 horas”, então também produz consistentemente “expiração curta por motivos de segurança” e “ação necessária dentro de 24 horas” no mesmo contexto.

A coerência constrói uma explicação sistemática em torno da informação fictícia, elevando a credibilidade da mentira inteira.

O paradoxo da capacidade no desenvolvimento de IA

É um dilema fundamental no desenvolvimento moderno de IA:

Aumentar capacidade → respostas mais naturais, mais detalhadas
Respostas mais detalhadas → mentiras mais persuasivas
Mentiras mais persuasivas → maior risco de o usuário ser enganado

Apenas “deixar a IA mais esperta” não resolve. Pode piorar.

Razão ③: “responder sempre” foi projetado por uma razão

Em resumo: LLMs cresceram em um ambiente em que “não sei” recebe nota baixa.

Expectativas humanas e design do comportamento da IA

Por que LLMs têm dificuldade com “não sei”? A resposta está em expectativas humanas e métodos de treinamento da IA.

Avaliações iniciais de assistentes de IA enfatizavam critérios como:

Helpfulness: fornecer informação útil para a pergunta do usuário
Responsiveness: não recusar a pergunta; fornecer alguma resposta
Knowledge breadth: lidar com perguntas em muitos domínios

Esses critérios pontuam “não sei” baixo.

O efeito colateral do RLHF

Os LLMs modernos são treinados com RLHF (Reinforcement Learning from Human Feedback). Avaliadores humanos pontuam respostas da IA, e esse feedback molda o comportamento da IA.

Um problema emerge nesse processo:

Tendências dos avaliadores humanos:

Pontuar respostas detalhadas e específicas alto
Pontuar respostas “não sei” baixo
Há pouco tempo por avaliação, então a checagem de fatos é superficial

Treinamento resultante da IA:

Respostas detalhadas viram o comportamento “certo”
Mesmo informação incerta é respondida com algo
Specificity é priorizada sobre correção factual

Evidência na mudança de comportamento via system prompt

O experimento prova que instruções explícitas conseguem mudar isso:

Instrução	Honesty Sonnet 4	Honesty Haiku 3
Nenhuma	0,2/5	0,3/5
”Diga ‘desconhecido’ quando não souber”	3,7/5	2,7/5

A melhoria dramática (0,2→3,7) mostra que o LLM consegue se comportar adequadamente com instruções explícitas.

O outro lado: o comportamento padrão é “responder com algo”.

Descompasso com expectativas corporativas

Esse design serve assistentes de consumo, mas cria problemas sérios em casos enterprise:

Uso de consumo:

Usuário: “informação aproximada já basta, só me diga”
IA: “É provavelmente X” (com hedging razoável)
Resultado: usuário assume responsabilidade pelo uso da info

Uso enterprise:

Usuário: “Preciso de info precisa. Se incerto, diga claramente”
IA: “(com base em inferência) aqui está a informação detalhada”
Resultado: decisões de negócio baseadas em info imprecisa

Por que comportamento padrão precisa de redesenho por caso de uso

Resolver isso exige redesenhar o comportamento padrão por caso de uso:

Design conservador:

Marcar info incerta explicitamente
Distinguir chutes de fatos
Expressar confiança numericamente

Design context-aware:

Consultas casuais → respostas mais ricas, incluindo chutes
Decisões importantes → apenas info certa
Uso enterprise → sempre mostrar fonte e confiança

Factual Accuracy vs Specificity: um trade-off crítico

Em resumo: “detalhado” e “correto” frequentemente puxam em direções opostas.

A relação inversa em números

Os dados experimentais revelam um padrão interessante:

Sonnet 4 (sem contexto):

Factual Accuracy: 0,6/5 (baixa)
Specificity: 4,2/5 (alta)

Haiku 3 (sem contexto):

Factual Accuracy: 0,0/5 (mínima)
Specificity: 1,2/5 (baixa)

Sonnet 4 (apenas system prompt):

Factual Accuracy: 0,0/5 (mínima)
Specificity: 1,7/5 (cai)

Esses números apontam para uma verdade dura: ser específico e ser factualmente correto frequentemente conflitam.

O dilema “mentira detalhada” vs “ignorância honesta”

Para ver esse trade-off, compare duas respostas:

Resposta A (detalhada mas incorreta):

Para a gestão de organizações do PropelAuth, configure permissões assim:

1. Faça login no dashboard de admin
2. Navegue até "Organizations" > "Permissions"
3. Crie uma nova role:
   - Digite o nome da role (ex: "Marketing Manager")
   - Selecione o nível de permissão: READ, WRITE, DELETE
   - Especifique recursos: Users, Analytics, Billing
4. Atribua a usuários:
   - Selecione o alvo na lista de usuários
   - Aplique a role recém-criada
   - Defina expiração (máx 90 dias)

Resposta B (honesta mas vaga):

Lamento, mas não tenho passos operacionais detalhados para a
ferramenta específica chamada PropelAuth.

Posso compartilhar procedimentos gerais de gestão de permissões
para sistemas de autenticação, mas, para o layout de tela específico
e opções de configuração do PropelAuth, recomendo consultar a
documentação oficial.

Testes com usuários geralmente classificam a Resposta A mais alto. O usuário pode agir nela imediatamente.

PropelAuth é fictícia. Agir na Resposta A significa caçar telas e funcionalidades que não existem.

Por que humanos preferem “mentiras detalhadas”

Humanos esperam “se eu perguntar, virá uma resposta” e assumem “se a IA disse, deve estar certo”. “Não sei” força investigação extra, então as pessoas preferem informação que parece imediatamente usável. Viés de confirmação e aversão a carga cognitiva são as principais razões pelas quais alucinações passam batido.

Cálculo de custo no enterprise (ilustrativo)

Em ambientes enterprise, esse trade-off vira problema sério de custo:

Custo de agir em uma “mentira detalhada”:

Ação baseada em info imprecisa → descoberta do erro → retrabalho → horas a dias perdidos

Custo de partir de “ignorância honesta”:

Investigar info precisa → executar corretamente → feito em 1-3 horas

“Ignorância honesta” é o caminho mais eficiente, mas, psicologicamente, as pessoas preferem a “mentira detalhada”.

Como Engenharia de Contexto resolve esse trade-off

O experimento mostra que Engenharia de Contexto adequada resolve parcialmente o trade-off:

Engenharia de Contexto completa (Sonnet 4):

Factual Accuracy: 4,8/5 (salto)
Specificity: 4,8/5 (mantida)
Honesty: 0,8/5 (equilibrada)

O ponto-chave: o RAG fornece informação precisa, então respostas específicas não precisam mais depender de chute.

Esse é o valor central da Engenharia de Contexto: entregar fatos detalhados, não mentiras detalhadas.

Por que alucinação é “feature”, não “bug”

Em resumo: alucinação não é defeito do LLM. É o princípio operacional da IA generativa.

Como a IA generativa realmente funciona

Uma mudança importante de perspectiva: alucinação não é um “bug” dos LLMs. É uma “feature” embutida no design.

De forma concisa, um LLM opera assim:

Tokenizar texto de entrada: converter texto em vetores numéricos
Reconhecimento de padrões: identificar padrões similares nos dados de treinamento
Cálculo de probabilidade: computar a probabilidade do próximo token
Seleção probabilística: escolher um token com base nessas probabilidades
Geração de texto: encadear tokens selecionados em texto

Esse processo não contém “fact-checking” nem “reconhecimento de fronteira de conhecimento”. O LLM é, fundamentalmente, um gerador de texto sofisticado baseado em padrões.

Memória perfeita vs raciocínio criativo: o dilema

E se um LLM fosse projetado para “nunca responder quando não soubesse”?

Benefícios:

Alucinações eliminadas
Precisão factual sobe drasticamente
Confiabilidade melhora

Custos:

Perda de raciocínio criativo
Sem novos insights combinatórios
Queda forte de utilidade

Quando perguntado por “novas ideias de marketing”, respostas baseadas apenas em fatos conhecidos não produzem ideias criativas ou inovadoras.

Similaridade com cognição humana

Em certo sentido, alucinação se parece com cognição humana:

Pensamento humano:

Combinar conhecimento conhecido
Construir hipóteses e chutes
Criar novos insights via analogia
Julgar a partir de informação incompleta

Geração do LLM:

Combinar padrões aprendidos
Preenchimento probabilístico
Raciocínio por similaridade
Gerar a partir de contexto incompleto

A diferença: humanos conseguem reconhecer a própria incerteza. Naturalmente dizemos “isso é um chute” ou “não tenho certeza, mas”.

O valor real da Engenharia de Contexto

É por isso que a Engenharia de Contexto importa. Ela não muda a natureza do LLM; fornece um ambiente de informação adequado para canalizar sua capacidade na direção certa.

Abordagem antiga:

Diga ao LLM “responda corretamente”
Trate a alucinação como “feature ruim” para suprimir
Mire perfeição

Abordagem da Engenharia de Contexto:

Dê ao LLM a informação de que ele precisa
Trate a alucinação como “sinal de falta de contexto”
Projete o equilíbrio entre praticidade e precisão

Cinco sinais de que um LLM está mentindo

Habilidade prática: identificar alucinações perigosas em respostas do LLM.

1. Especificidade excessiva em números, datas e nomes próprios

Sinais de alerta:

“Expiração de 24 horas”
“Até 50 roles personalizadas”
“Documentação v2.1.3”

Como verificar:

Confira se os números têm fundamento
Cruze com a documentação real
Verifique se números de versão existem

2. Organização suspeitamente perfeita

Sinais de alerta:

Listas de funcionalidades arrumadas
Explicações detalhadas sem contradições
Níveis de completude “de livro-texto”

Realidade:

Software real tem restrições e exceções
Documentação é incompleta e inconsistente
Casos de borda e problemas conhecidos existem

3. Uso não natural de jargão técnico

Sinais de alerta:

Empilhar termos técnicos para criar aura de autoridade
Combinações inadequadas de tecnologias reais
Jargão que não é necessário para o contexto

4. Evitar atribuição explícita de fonte

Sinais de alerta:

Frases vagas como “geralmente”, “tipicamente”, “basicamente”
Sem referência a docs ou referências de API específicas
“Confirme no site oficial” usado como esquiva

5. Respostas que combinam perfeitamente com a expectativa do usuário

Sinais de alerta:

Exatamente a resposta que a pergunta sugeria
Sem menção de dificuldade ou complexidade
Sem menção de “isso não é possível” ou “isso é restrito”

Ponte para o próximo capítulo: organizando a solução

Este capítulo mostrou que a “mentira” da IA vem de três fatores inevitáveis:

Restrição técnica: preenchimento por pattern-matching
Filosofia de design: sistema de valor que prioriza “responder”
Paradoxo de capacidade: maior habilidade de linguagem produz mentiras mais persuasivas

Não há motivo para desespero. O experimento mostrou que Engenharia de Contexto adequada melhora substancialmente os três.

O próximo capítulo percorre a história de “Engenharia de Prompt” para “Engenharia de Contexto” e a ciência por trás. Ficará claro por que a resposta não é prompts mais espertos, e sim desenhar todo o ambiente de informação.

🚀 Próxima Ação: pegue três nomes próprios ou números de uma resposta de IA e fact-check

Pratique a técnica de “identificar mentira”:

Passo 1: Pergunte à IA

Faça perguntas detalhadas sobre uma tecnologia ou serviço familiar:

“O que há de novo na versão X?”
“Quais são os limites de taxa da API de X?”
“Quais são os planos de preço de X?”

Passo 2: Pegue os nomes próprios e números

Pegue três de cada da resposta:

Números específicos: preço, limites, números de versão
Nomes próprios: nomes de feature, plano, tecnologia
Datas / períodos: data de release, expiração, frequência de update

Passo 3: Fact-check

Confirme contra documentação oficial:

Os números estão corretos?
Os nomes de feature estão corretos?
A informação está atual?

Passo 4: Analise o padrão

Que tipos de informação geram mentiras com mais facilidade?
Qual a diferença entre “mentiras de alta confiança” e “mentiras de baixa confiança”?
Há diferenças entre domínios?

Template de registro

[Pergunta]

[Resposta da IA]

[Informação extraída]
Números: 1. _____ 2. _____ 3. _____
Nomes próprios: 1. _____ 2. _____ 3. _____
Datas: 1. _____ 2. _____ 3. _____

[Resultado do fact-check]
Precisa: ___
Imprecisa: ___
Desconhecida: ___

[Observações]

Esse exercício dá entendimento tátil dos padrões de “mentira plausível” do LLM. O próximo capítulo percorre a solução sistemática.

Continue este capítulo no Kindle →

Outras edições: English 日本語 Español

Visão geral

A mesma pergunta dá respostas diferentes — o problema é o contexto, não o prompt. Benchmarks originais mostram ganho de até 4,6× em qualidade. O sistema completo de Engenharia de Contexto: 5 estágios, RAG, MCP, CLAUDE.md, Agentic RAG.

O que você será capaz de fazer

Dominar uma estratégia de contexto em 5 estágios que eleva a qualidade da resposta em 2,2x ou mais
Entender por que o RAG responde por 80% do ganho — e onde fica o ponto de virada
Desenhar e operar um servidor MCP (Model Context Protocol)
Aplicar padrões de CLAUDE.md em estágios para otimizar o contexto do projeto
Implementar Agentic RAG em Python de ponta a ponta

Para quem é este livro

[Engenheiro intermediário] Procurando o passo seguinte ao prompt engineering
[Avaliador de LLM] Tentando escolher entre RAG e MCP com confiança
[Domador de alucinações] Frustrado porque mesmo modelos grandes ainda erram
[Usuário de Claude Code] Quer aprender o design de CLAUDE.md em estágios
[Construtor de agentes] Precisa implementar Agentic RAG em produção
[Movido a benchmark] Quer comparações quantitativas entre estratégias de contexto

Problemas que este livro resolve

Os prompts estão afinados, mas a qualidade da resposta ainda balança
O RAG está implementado, mas não dá para saber se está funcionando de verdade
Não consigo decidir quando usar servidor MCP em vez de RAG simples
O CLAUDE.md está no repositório, mas não está claro o que colocar dentro
Já ouvi falar de Agentic RAG, mas não sei como difere do RAG comum
Trocar de LLM continua mudando a qualidade da resposta de forma imprevisível

Onde este livro se posiciona

Benchmark-first (uma diferença de qualidade de 4,6x comprovada por experimentos originais)
Especialista em Engenharia de Contexto (eixo separado de prompts e harnesses)
Nível intermediário (assume que você já usou um LLM — não é cartilha de RAG)
Com código (96 arquivos Python prontos para produção, publicados no GitHub)

Por que este livro

Benchmarks originais provam que a estratégia de contexto move a qualidade em 4,6x
Demonstra experimentalmente que modelos maiores mentem com mais convicção, e que modelo pequeno + RAG bate modelo grande sozinho
Cobre RAG, MCP, CLAUDE.md e Agentic RAG em um único volume coerente
96 arquivos de código de qualidade de produção no GitHub, totalmente reproduzíveis
Conecta diretamente com o Claude Code via design em estágios do CLAUDE.md

Como este livro difere de outros sobre IA

Comparado com	Diferença deste livro
Livros de prompt engineering	Foca a camada abaixo do prompt — o desenho do contexto. Pega onde o prompt engineering termina.
Cartilhas de RAG	Vai além do RAG isolado e integra RAG, MCP, CLAUDE.md e Agentic RAG em um único sistema de Engenharia de Contexto.
Documentação oficial dos vendors (OpenAI, Anthropic, etc.)	Benchmarks originais mostram quanto as coisas realmente mudam — quantitativamente, não qualitativamente.

Sumário

01 Introdução Amostra grátis
- 1-1 Para você que escolheu este livro
- 1-2 O que o experimento revelou
- 1-3 Como este livro está organizado
- 1-4 Sobre a "Série de Práticas de IA para Engenheiros"
- 1-5 Para quem é este livro
- 1-6 Como ler
02 Mesma Pergunta, Cinco Respostas Completamente Diferentes Amostra grátis
- 2-1 Uma diferença de qualidade de 2,2× em um único experimento
- 2-2 PropelAuth: perguntando a uma ferramenta interna fictícia
- 2-3 Por que uma ferramenta fictícia
- 2-4 O que significa a avaliação em quatro eixos
- 2-5 Por que o mesmo LLM produz qualidade 2,2× diferente
- 2-6 O que isso significa para produção
- 2-7 Como o livro está estruturado e seu caminho de aprendizado
03 Três Razões Pelas Quais sua IA Mente Amostra grátis
- 3-1 O "link de convite válido por 24 horas" do PropelAuth não existe
- 3-2 Razão ①: o mecanismo de "preenchimento plausível" para informação desconhecida
- 3-3 Razão ②: modelos maiores mentem com mais habilidade
- 3-4 Razão ③: "responder sempre" foi projetado por uma razão
- 3-5 Factual Accuracy vs Specificity: um trade-off crítico
- 3-6 Por que alucinação é "feature", não "bug"
- 3-7 Cinco sinais de que um LLM está mentindo
04 Os Limites da Engenharia de Prompt, o Início da Engenharia de Contexto
05 Primeiro Passo — Melhorando o System Prompt
06 Few-shot Examples — Mostrando à IA 'Como se Faz'
07 Retrieved Knowledge — Injetando Conhecimento Externo com RAG [O Núcleo Deste Livro] Amostra grátis
08 Engenharia de Contexto Completa — Integrando Todos os Elementos
09 Tools & APIs — Conectando ao Mundo Externo com MCP
10 State & Memory — Memória de Longo Prazo e Continuidade da Conversa
11 Claude Code na Prática — Desenhando Contexto de Projeto com CLAUDE.md
12 Agentic RAG — Conceito e Arquitetura
13 Agentic RAG — Comparação de APIs de busca e Implementação
14 RAG Enterprise — Estudos de Caso e Design de Pipeline
15 RAG Enterprise — Avaliação, Segurança e Seleção de Vector DB
16 A Filosofia de Design 'Modelo Pequeno + Bom Contexto'
17 Posfácio
18 Apêndice A: Checklist de Engenharia de Contexto Amostra grátis
19 Apêndice B: Como Reproduzir o Experimento Amostra grátis
20 Referências Amostra grátis
21 Sobre o autor Amostra grátis

A mesma pergunta segue dando respostas completamente diferentes. A causa não é o seu prompt. É o seu contexto.

Este livro roda benchmarks originais em três ferramentas internas fictícias e mostra que a forma como você fornece contexto pode mover a qualidade da resposta em até 4,6x. Modelos maiores, no fim das contas, apenas mentem com mais convicção. Um modelo pequeno com RAG pode superar um modelo grande operando sozinho. A partir desses achados, o livro constrói o quadro completo da Engenharia de Contexto.

Cinco estratégias de contexto, RAG (a técnica que responde por 80% do ganho), design de servidor MCP, design em estágios do CLAUDE.md e implementação de Agentic RAG. O próximo passo depois do prompt engineering — fundamentado em dados experimentais e em 96 arquivos de código prontos para produção.

“Modelos maiores apenas mentem com mais confiança. Então alimente-os com a verdade através do contexto.”

Livros relacionados

Comprar no Kindle

Incluso no Kindle Unlimited

QUERO LER NO KINDLE (R$19.99)

Tópicos: Engenharia de ContextoRAGMCPLLMBenchmarks

* Esta página contém links da Amazon Associados. Compras podem gerar uma comissão para o autor.