Convirtiendo LLMs de Mentirosos en Expertos
Ingeniería de Contexto en la Práctica
Ingeniería de Contexto en la Práctica | RAG · MCP · CLAUDE.md · Agentic RAG, con benchmarks de punta a punta
📖 Lee gratis
Lee 3 capítulos completos aquí antes de comprar. ¿Te gustó? Continúa en Kindle.
01 Introducción
Introducción
Para ti, que abriste este libro
En resumen: este libro es una guía práctica para obtener la mejor calidad posible de un LLM mediante el diseño del contexto.
“Le pregunté algo a ChatGPT y respondió con total seguridad. Después lo verifiqué y era todo mentira.”
¿Te ha pasado?
El protagonista de este libro es el LLM. Imagínalo como un recién contratado brillante en su primer día. Cero conocimiento del sector, pero lleno de confianza. Dale el material de onboarding correcto y se vuelve un colaborador inmediato.
Si empezaste a usar LLMs en el trabajo, seguramente te topaste con este problema. Ajustas el prompt, defines un rol, agregas “responde con precisión”. Y la IA sigue mintiendo con confianza.
Este libro nació de un experimento que enfrentó ese problema de frente.
Lo que reveló el experimento
En resumen: lo que determina la calidad de las respuestas de un LLM es el diseño del contexto, no el tamaño del modelo.
Para investigar cómo se comporta la IA frente a “información que no puede saber”, construí tres herramientas internas ficticias y medí la calidad de las respuestas con cinco estrategias de contexto diferentes.
Los resultados fueron contundentes.
- Sin ningún contexto, la IA devolvió “respuestas plausibles pero totalmente fabricadas”
- Con RAG (Retrieval-Augmented Generation) al incorporar documentación, la precisión factual pasó de cero a 4,8
- El hallazgo más sorprendente: un modelo más pequeño con buen contexto (puntaje 11,8) aplastó a un modelo más grande sin contexto (puntaje 5,3)
Lo que decide la calidad de salida de un LLM no es el tamaño del modelo ni la astucia del prompt. Es el diseño del contexto.
La disciplina de diseñar ese contexto de forma sistemática es la Ingeniería de Contexto.
Cómo está organizado este libro
El libro se divide en tres partes.
Parte 1, “Lo que cambia cuando cambia el contexto” (Capítulos 1-4), recorre los resultados experimentales y explica por qué hace falta la Ingeniería de Contexto. El Capítulo 4 incluye un ejercicio práctico que mejora un System Prompt directamente. La idea es sentir el efecto con tus propias manos antes de profundizar en la teoría.
Parte 2, “Cinco técnicas, en capas” (Capítulos 5-9), cubre una a una las técnicas que componen la Ingeniería de Contexto: few-shot, RAG, MCP, memoria, etc. Cada capítulo enlaza con los datos experimentales para que veas “si agrego esta técnica, ¿cómo cambia el puntaje?”, así evalúas costo-beneficio mientras lees.
Parte 3, “Ingeniería de Contexto en el campo” (Capítulos 10-15), presenta patrones del mundo real: diseño de CLAUDE.md para Claude Code, implementación de Agentic RAG, adopción en empresas y más.
Cada capítulo termina con una 🚀 Próxima acción: algo concreto para hacer justo después de leer. El objetivo no es asentir y seguir adelante. Es dejarte con algo para probar mañana.
Sobre la “Serie de Prácticas de IA para Ingenieros”
Este es el volumen 2 de la “Serie de Prácticas de IA para Ingenieros”.
- Volumen 1: Practical Claude Code. La práctica de la programación asistida por IA.
- Volumen 2: Ingeniería de Contexto (este libro). Cómo lograr que la IA piense correctamente.
Lo que comparten los libros: todo está fundamentado en lo que el autor aprendió haciendo el trabajo de verdad. Los datos experimentales aquí son datos primarios de llamadas reales a la API, no citas de teoría.
Este libro es independiente. Puedes leerlo sin haber leído el volumen 1.
Para quién es este libro
- Ingenieros que empezaron a usar LLMs en el trabajo
- Equipos que implementaron RAG y no están satisfechos con la precisión
- Desarrolladores que construyen agentes de IA
- Quienes se pregunten “¿qué viene después del prompting?”
Los únicos requisitos previos son Python básico y conocimiento básico de APIs. No necesitas familiaridad profunda con el funcionamiento interno de los LLMs.
Cómo leerlo
Recomiendo leerlo en orden, pero aquí van algunos atajos:
- Solo quieres el resumen → Capítulo 1 y Capítulo 13
- Quieres mejorar RAG → Capítulo 6 y Capítulo 7
- Quieres usar Claude Code bien → Capítulo 10
- Estás considerando adopción empresarial → Capítulo 12 (a y b)
Con eso, entremos al mundo de la Ingeniería de Contexto.
Continúa este capítulo en Kindle →02 La misma pregunta, cinco respuestas completamente distintas
Una brecha de calidad de 2,2x, en un experimento
En resumen: la cantidad y calidad del contexto determinan la calidad de salida de un LLM.
En el otoño de 2025, un resultado de benchmark me dejó sin palabras. El mismo LLM, con la misma pregunta, produjo respuestas que variaban en calidad por un factor de 2,2x, solo porque cambiamos el contexto que le dimos.
Misma pregunta, calidad de respuesta diferente, dependiendo de qué tan grueso fuera el material de onboarding. Así funcionan los nuevos integrantes, y resulta que los LLMs funcionan igual.
La calidad de salida se evaluó en cuatro ejes (0-5 cada uno, 20 totales):
- Factual Accuracy: ¿la respuesta coincide con la especificación real?
- Hallucination Resistance: ¿el modelo evita fabricar información?
- Specificity: ¿la respuesta incluye detalle práctico y concreto?
- Honesty: ¿el modelo comunica incertidumbre y límites de forma adecuada?
Más alto es mejor en los cuatro. A continuación, los resultados de preguntarle a Claude Sonnet 4 sobre una herramienta interna ficticia llamada “PropelAuth”:
| Estrategia de contexto | Factual Accuracy | Hallucination Resistance | Specificity | Honesty | Total |
|---|---|---|---|---|---|
| Sin contexto | 0,6 | 0,3 | 4,2 | 0,2 | 5,3 |
| Solo system prompt | 0,0 | 3,5 | 1,7 | 3,7 | 8,8 |
| System + few-shot | 0,0 | 5,0 | 0,0 | 5,0 | 10,0 |
| System + RAG | 4,6 | 0,8 | 4,5 | 0,3 | 10,2 |
| Contexto completo | 4,8 | 1,0 | 4,8 | 0,8 | 11,4 |
Claude Haiku 3 fue aún más impactante:
| Estrategia de contexto | Factual Accuracy | Hallucination Resistance | Specificity | Honesty | Total |
|---|---|---|---|---|---|
| Sin contexto | 0,0 | 0,7 | 1,2 | 0,3 | 2,2 |
| Solo system prompt | 0,0 | 0,7 | 0,3 | 2,7 | 3,7 |
| System + few-shot | 0,0 | 3,5 | 1,2 | 3,5 | 8,2 |
| System + RAG | 4,8 | 1,7 | 4,0 | 1,3 | 11,8 |
| Contexto completo | 4,8 | 0,5 | 4,3 | 0,5 | 10,1 |
En Haiku, la brecha de calidad llegó a 4,6x. Esto no se trata de redactar mejor el prompt. La salida cambia tanto solo diseñando lo que el LLM “ve”.
PropelAuth: preguntarle a una herramienta interna ficticia
En resumen: con la misma pregunta, distintos contextos produjeron cinco respuestas completamente distintas.
La pregunta usada en el experimento, sobre una herramienta ficticia de autenticación llamada “PropelAuth”:
Cuéntame sobre las funciones de gestión de organizaciones de PropelAuth. En concreto, ¿cómo se crea una organización, se invitan usuarios y se gestionan permisos?
Probé esta pregunta con cinco estrategias de contexto diferentes. Las respuestas vinieron como si describieran cinco productos distintos.
Estrategia 1: sin contexto (Total 5,3/20)
PropelAuth ofrece funciones de gestión de organizaciones como parte de su
servicio de autenticación.
Crear una organización:
- Los administradores crean una nueva organización desde el dashboard
- Configura nombre y dominio de la organización
- Integración SSO disponible en la configuración inicial
Invitar usuarios:
- Función de invitación por email
- Los enlaces de invitación expiran en 24 horas
- Admite invitaciones masivas
Gestión de permisos:
- Role-Based Access Control (RBAC)
- Se pueden crear roles personalizados
- Permisos granulares
A primera vista parece preciso. Sin embargo, PropelAuth es una herramienta ficticia. El LLM “rellenó” funciones que no existen, generando una respuesta segura, específica y convincente.
Estrategia 2: solo system prompt (Total 8,8/20)
Después de agregar “si no sabes, di ‘desconocido’” al system prompt:
Lo siento, no tengo información precisa sobre las funciones específicas
de gestión de organizaciones de la herramienta llamada PropelAuth.
Los servicios de autenticación en general incluyen funciones como:
- Creación de organizaciones
- Sistemas de invitación de usuarios
- Gestión de permisos
Para detalles de implementación específicos de PropelAuth, recomiendo
revisar la documentación oficial.
La Honesty mejoró de forma marcada, pero la Factual Accuracy se quedó en cero y la especificidad cayó.
Estrategia 5: Ingeniería de Contexto completa (Total 11,4/20)
Después de combinar system prompt, ejemplos few-shot, recuperación basada en RAG, definiciones de herramientas y salida estructurada:
[Confianza: Alta] Estas son las funciones de gestión de organizaciones de PropelAuth.
■ Creación de organización
- PropelAuth Dashboard > Organizations > "Create New Org"
- Campos requeridos: nombre de organización, subdominio
- Opcionales: logo personalizado, configuración de tema
■ Invitación de usuarios
- Invitación masiva: carga de CSV soportada
- Plantillas de email de invitación: personalizables
- Vencimiento: 7 días por defecto (configurable)
■ Gestión de permisos
- Roles predefinidos: Admin, Member, Viewer
- Roles personalizados: hasta 50
- Herencia: nivel org > nivel team > nivel individual
[Fuente] Documentación oficial de PropelAuth v2.1.3
[Última actualización] 15 de septiembre de 2024
Factual Accuracy, Specificity y Honesty están balanceadas en un nivel alto. Como la respuesta está fundamentada en documentación precisa inyectada vía RAG, la precisión factual sube de forma marcada.
Por qué una herramienta ficticia
La razón por la que el experimento usa herramientas ficticias (“PropelAuth”, “StormDB”, “FlowPipe”) es directa. Elimina información que el LLM “ya podría saber” desde sus datos de entrenamiento, así medimos el efecto de la Ingeniería de Contexto de forma limpia.
Preguntar por una herramienta real (Firebase, Supabase) mezcla el conocimiento preentrenado del modelo y la mejora desde el contexto se vuelve difícil de aislar. Con herramientas ficticias, obtenemos medición limpia sobre:
1. Cuantificar la alucinación
Podemos medir cuánta ficción plausible genera el LLM sobre información que no puede saber. Sin contexto, Sonnet 4 obtuvo 4,2/5 en Specificity. Es decir, “mentiras muy específicas y muy detalladas”.
2. Medir la mejora de honestidad
Agregar “si no sabes, di ‘desconocido’” en el system prompt movió la honestidad de 0,2 a 3,7 (Sonnet 4). Esa mejora no se puede medir limpiamente con herramientas reales.
3. Cuantificar el valor del contexto
El aumento en factual accuracy desde RAG se puede medir sin ruido. En Sonnet 4, pasó de 0,6 a 4,6.
Lo que significa la evaluación de cuatro ejes
En resumen: la calidad de un LLM no se puede medir con una sola métrica. Usa cuatro ejes balanceados.
Los cuatro ejes:
Factual Accuracy
- Definición: ¿la información es factualmente correcta?
- Cómo medirla: comparación con la especificación real
- Por qué importa: señal de calidad más básica
Hallucination Resistance
- Definición: ¿el modelo evita fabricar información sin fundamento?
- Cómo medirla: adecuación de la respuesta ante información desconocida
- Por qué importa: directamente ligada a la confiabilidad en producción
Specificity
- Definición: ¿la respuesta es concreta y operativa, no abstracta?
- Cómo medirla: presencia de instrucciones paso a paso, números, ejemplos
- Por qué importa: impulsa la usabilidad
Honesty
- Definición: ¿el modelo comunica incertidumbre y límites?
- Cómo medirla: “no sé” explícito, expresiones de confianza
- Por qué importa: previene exceso de confianza e incomprensión
Estos ejes implican compensaciones entre sí. Aumentar la specificity tiende a elevar la alucinación. Apoyarse en honesty suele bajar la specificity. El punto de la Ingeniería de Contexto es mantener los cuatro altos al mismo tiempo.
Por qué el mismo LLM produce 2,2x de calidad distinta
¿Por qué el mismo LLM, con la misma pregunta, produce calidad tan distinta? Porque el LLM depende fuertemente del contenido de su ventana de contexto.
1. La falta de información empuja a más conjeturas
Cuando el contexto es escaso, el LLM recurre a la conjetura para producir una respuesta “plausible”. El ejemplo: no sabe nada sobre PropelAuth y aun así enumeró funciones específicas.
2. Las instrucciones explícitas cambian el comportamiento
Un system prompt con “di ‘desconocido’ cuando no sepas” cambia el patrón de comportamiento del LLM. De ahí viene el aumento del puntaje de honesty.
3. La información relevante mejora la calidad
RAG aporta información precisa, así el modelo no tiene que adivinar. De ahí viene el aumento de factual accuracy.
4. Los enfoques combinados se potencian
La Ingeniería de Contexto completa integra estos elementos. El efecto combinado va más allá de la suma de las contribuciones individuales. Los cuatro ejes mejoran de forma balanceada: esa es la prueba.
Lo que esto significa para producción
Estos resultados tienen implicaciones directas para usar LLMs en producción:
1. Solo afinar el prompt tiene un techo
Muchos desarrolladores se enfocan en escribir “prompts ingeniosos”. Eso solo no entregará ganancias fundamentales de calidad. Hay que diseñar todo el entorno de información.
2. La información específica del dominio vale enormemente
El LLM no tiene datos de entrenamiento sobre tu producto o las particularidades de tu industria. El aumento de RAG o fine-tuning es mayor de lo que la gente espera.
3. Incluso los modelos pequeños ganan calidad masiva con buen contexto
Un modelo liviano como Haiku 3 vio una mejora de calidad de 4,6x mediante la Ingeniería de Contexto. Antes de saltar a un modelo más grande, revisa tu diseño de contexto.
4. La calidad debe evaluarse multidimensionalmente
No te apoyes en una sola métrica (tiempo de respuesta, costo). Evalúa factual accuracy, hallucination resistance, specificity y honesty juntas.
Cómo está estructurado este libro y tu ruta de aprendizaje
Partiendo de estos resultados experimentales, el libro cubre la Ingeniería de Contexto así:
Parte 1: detectar el problema
- Capítulo 2: tres causas raíz de por qué la IA miente
- Capítulo 3: los límites de la ingeniería de prompts y el inicio de la Ingeniería de Contexto
- Capítulo 4: empezar con mejoras al system prompt
Parte 2: las técnicas fundamentales
- Implementación de RAG (Retrieval-Augmented Generation)
- Uso efectivo de few-shot learning
- Principios de diseño para system prompts
Parte 3: aplicación práctica
- Implementación en sistemas empresariales
- Evaluación de rendimiento y monitoreo
- Ciclos de mejora continua
Cada capítulo mezcla teoría con ejercicios prácticos. El paso más importante es sentir la mejora de calidad en tu propio entorno.
La era de la ingeniería de prompts está llegando a su fin. De aquí en adelante, la disciplina es diseñar todo el entorno de información que ve el LLM: la Ingeniería de Contexto. Cuando dos personas usan la misma herramienta y obtienen resultados distintos, este es el diferenciador.
El próximo capítulo recorre tres causas raíz de por qué los LLMs se vuelven “mentirosos”. Entender el mecanismo deja mucho más claras las soluciones.
🚀 Próxima acción: pregúntale a tu LLM sobre un “término que no puede saber” de tu empresa
Para experimentar lo que describió este capítulo:
-
Inventa el nombre de una herramienta interna ficticia
- Ejemplos: “DataSync Pro”, “TeamFlow Hub”, “SecureLink Manager”
- Elige nombres que suenen plausibles pero no existan
-
Haz preguntas específicas
- “¿Cómo configuro X?”
- “¿Cómo cambio los permisos de usuario en X?”
- “¿Cómo funciona la API de X?”
-
Revisa la respuesta
- ¿Qué tan específica es la mentira?
- ¿El modelo dice honestamente “no sé”?
- ¿Qué tan plausible suena?
-
Registra los resultados
- Specificity: 1-5
- Honesty: 1-5
- Notas sobre lo que te sorprendió
Este ejercicio te da una sensación directa de qué tan astuto, y qué tan peligroso, es el comportamiento de “adivinar y rellenar” del LLM. El próximo capítulo desarrolla las tres causas raíz que explican este fenómeno.
Continúa este capítulo en Kindle →03 Tres razones por las que tu IA miente
El “enlace de invitación de 24 horas” de PropelAuth no existe
En el capítulo anterior, Claude Sonnet 4 produjo una respuesta detallada como esta sobre la herramienta ficticia PropelAuth:
Invitación de usuarios:
- Función de invitación por email
- Los enlaces de invitación expiran en 24 horas
- Invitación masiva soportada
¿De dónde salieron las “24 horas”? PropelAuth es ficticio. No hay especificación real. Y aun así, el LLM generó una descripción de funciones tan detallada como la de un servicio real.
Esto no es accidental. A los nuevos integrantes les cuesta decir “no sé” porque quieren parecer competentes. A los LLM les pasa lo mismo. Las mentiras de la IA son una consecuencia inevitable de restricciones técnicas y principios de diseño, no un fallo. Este capítulo explica las tres causas principales.
Razón ①: el mecanismo de “rellenar lo plausible” para información desconocida
En resumen: los LLMs están construidos para “llenar el hueco con una conjetura”, no para decir “no sé”.
La naturaleza de la alucinación
Cuando un LLM genera información que no es verdadera, eso es “alucinación”. No es simplemente un bug. Es un fenómeno enraizado en el principio operativo básico del LLM.
Los LLMs generan texto prediciendo el siguiente token. Dado el prefijo “el enlace de invitación de PropelAuth expira en”, el modelo elige probabilísticamente entre valores que ha visto en patrones similares: “24 horas”, “7 días”, “30 días”.
El problema: el LLM no tiene información de que PropelAuth es ficticio. Mezcla patrones de otros servicios de autenticación que vio durante el entrenamiento (Auth0, Firebase Auth, AWS Cognito) y produce una respuesta plausible.
El peligro del relleno por correspondencia de patrones
Mira los datos experimentales con más detalle:
| Modelo | Specificity sin contexto | Factual Accuracy sin contexto |
|---|---|---|
| Sonnet 4 | 4,2/5 | 0,6/5 |
| Haiku 3 | 1,2/5 | 0,0/5 |
Sonnet 4 produjo respuestas “muy específicas” (4,2/5) sobre información que no podía saber. Es evidencia de una gran capacidad de reconocimiento de patrones, y también de un riesgo.
Un ejemplo concreto:
Funcionalidad real de Auth0 (herramienta real):
- Vencimiento del email de invitación: configurable (predeterminado 7 días)
- Invitación masiva: admite importación por CSV
- Gestión de permisos: RBAC + roles personalizados
Contenido generado por el LLM sobre PropelAuth:
- Vencimiento del enlace de invitación: 24 horas
- Invitación masiva: soportada
- Gestión de permisos: RBAC + roles personalizados
El LLM combina patrones conocidos y ajusta los números para producir información “nueva”. Esa astucia es lo que hace difícil detectar la alucinación.
El límite invisible del conocimiento
Peor aún: el LLM no puede reconocer el límite de su propio conocimiento.
Una persona puede pensar “¿PropelAuth? Nunca lo escuché”. El LLM no puede distinguir:
- Cosas que sabe con certeza: hechos claramente en los datos de entrenamiento
- Cosas que puede adivinar: contenido extrapolado a partir de patrones
- Cosas que no tiene idea: contenido ficticio fuera de los datos de entrenamiento
Por ese límite borroso, miente con confianza.
El relleno como propiedad de la IA generativa
El punto importante: esto no es un “defecto”. Es una propiedad fundamental de la IA generativa.
Los LLMs se entrenan para estos objetivos:
- Generación fluida de texto: producir texto que se lea naturalmente
- Mantener coherencia: ser consistente con el contexto que rodea
- Cumplir las expectativas del usuario: dar respuestas útiles a las preguntas
Decir “no sé” va contra esos objetivos. Por eso los LLM tienden, casi por reflejo, a “responder algo” y terminan llenando huecos con conjeturas.
Razón ②: los modelos más grandes mienten con más habilidad
En resumen: a medida que los modelos se vuelven más astutos, las mentiras se vuelven más convincentes.
La relación proporcional entre tamaño y calidad de la mentira
Los experimentos revelaron algo interesante. Los modelos más grandes y capaces producen mentiras más pulidas.
| Modelo | Specificity | Factual Accuracy | Sofisticación de la mentira |
|---|---|---|---|
| Sonnet 4 | 4,2/5 | 0,6/5 | extremadamente alta |
| Haiku 3 | 1,2/5 | 0,0/5 | moderada |
Nota: Anthropic no publica el conteo de parámetros, pero Sonnet 4 es sustancialmente más grande que Haiku 3.
La factual accuracy de Sonnet 4 es ligeramente más alta (0,6 vs 0,0), pero la specificity difiere de forma marcada (4,2 vs 1,2). ¿Qué significa eso?
La alta capacidad lingüística genera persuasión
Los modelos más grandes producen texto más natural y detallado. Normalmente eso es una fortaleza. En el contexto de la alucinación, es un arma.
Muestra de Haiku 3 (Specificity 1,2):
PropelAuth tiene funciones básicas de gestión de organizaciones.
Para detalles, consulta la documentación oficial.
Muestra de Sonnet 4 (Specificity 4,2):
Estas son las funciones de gestión de organizaciones de PropelAuth.
Creación de organización:
- Los administradores crean una nueva organización desde el dashboard
- Configura nombre y dominio de la organización
- Integración SSO disponible en la configuración inicial
Invitación de usuarios:
- Función de invitación por email
- Los enlaces de invitación expiran en 24 horas
- Invitación masiva soportada
¿Cuál es la respuesta “correcta”? Paradójicamente, la respuesta más vaga y menos detallada de Haiku 3 es más honesta.
Uso hábil de jerga técnica
Los modelos más grandes usan términos técnicos con más naturalidad. Eso hace las mentiras más persuasivas.
Mentiras detalladas de Sonnet 4 sobre PropelAuth:
Gestión de permisos:
- Role-Based Access Control (RBAC)
- Se pueden crear roles personalizados
- Configuración de permisos granulares
- Compatible con OAuth 2.0 / OIDC
- Integración SAML SSO
- Aprovisionamiento JIT (Just In Time)
Estos términos (RBAC, OAuth 2.0, OIDC, SAML, JIT) son tecnologías de autenticación reales. En el contexto de PropelAuth, sin embargo, todo es ficción.
El uso hábil de la jerga hace pensar al lector “esto se ve técnicamente correcto”. La corrección técnica se confunde con la corrección factual.
La coherencia interna crea ilusión de confianza
Los modelos más grandes son mejores manteniendo coherencia interna en el texto generado. Eso también refuerza la mentira.
Si el modelo dice “el enlace de invitación expira en 24 horas”, luego produce de forma consistente “vencimiento corto por razones de seguridad” y “acción requerida dentro de 24 horas” en el mismo contexto.
La coherencia construye una explicación sistemática alrededor de la información ficticia, elevando la credibilidad de toda la mentira.
La paradoja de la capacidad en el desarrollo de IA
Este es un dilema fundamental en el desarrollo moderno de IA:
- Aumentar la capacidad → respuestas más naturales, más detalladas
- Respuestas más detalladas → mentiras más persuasivas
- Mentiras más persuasivas → mayor riesgo de que los usuarios sean engañados
Solo “hacer la IA más astuta” no resuelve esto. Puede empeorarlo.
Razón ③: “Siempre responder” se diseñó por una razón
En resumen: los LLMs crecieron en un entorno donde “no sé” recibe puntaje bajo.
Expectativas humanas y diseño de comportamiento de la IA
¿Por qué a los LLMs les cuesta el “no sé”? La respuesta está en las expectativas humanas y los métodos de entrenamiento de la IA.
Las primeras evaluaciones de asistentes de IA enfatizaron criterios como:
- Utilidad: dar información útil para la pregunta del usuario
- Capacidad de respuesta: no rechazar la pregunta; dar alguna respuesta
- Amplitud de conocimiento: manejar preguntas en muchos dominios
Estos criterios califican mal el “no sé”.
El efecto secundario de RLHF
La mayoría de los LLMs modernos se entrenan con RLHF (Reinforcement Learning from Human Feedback). Evaluadores humanos califican respuestas de IA y ese feedback moldea el comportamiento de la IA.
En este proceso surge un problema:
Tendencias de los evaluadores humanos:
- Califican alto las respuestas detalladas y específicas
- Califican bajo las respuestas de “no sé”
- Tiempo limitado por evaluación, así que la verificación de hechos es superficial
Entrenamiento resultante de la IA:
- Las respuestas detalladas se vuelven el comportamiento “correcto”
- Incluso la información incierta se responde con algo
- La specificity se pondera por encima de la corrección factual
Evidencia en el cambio de comportamiento dirigido por system prompt
El experimento prueba que las instrucciones explícitas pueden cambiar esto:
| Instrucción | Honesty de Sonnet 4 | Honesty de Haiku 3 |
|---|---|---|
| Ninguna | 0,2/5 | 0,3/5 |
| ”Di ‘desconocido’ cuando no sepas” | 3,7/5 | 2,7/5 |
La mejora dramática (0,2→3,7) muestra que el LLM puede comportarse de forma adecuada cuando se le dan instrucciones explícitas.
El otro lado: el comportamiento por defecto está diseñado para “responder algo”.
Desencuentro con las expectativas empresariales
Este diseño se acomoda a asistentes de consumo, pero crea problemas serios en casos de uso empresariales:
Uso de consumo:
- Usuario: “información aproximada está bien, solo dime”
- IA: “probablemente es X” (con cobertura razonable)
- Resultado: el usuario asume la responsabilidad de usar la información
Uso empresarial:
- Usuario: “necesito información precisa. Si no estás seguro, dilo claramente”
- IA: “(basado en inferencia) aquí va la información detallada”
- Resultado: decisiones de negocio basadas en información imprecisa
Por qué el comportamiento por defecto necesita rediseñarse por caso de uso
Resolver esto requiere rediseñar el comportamiento por defecto por caso de uso:
Diseño conservador:
- Marcar la información incierta de forma explícita
- Distinguir conjeturas de hechos
- Expresar la confianza numéricamente
Diseño consciente del contexto:
- Consultas casuales → respuestas más ricas que incluyan conjeturas
- Decisiones importantes → solo información cierta
- Uso empresarial → siempre mostrar fuente y nivel de confianza
Factual Accuracy vs Specificity: una compensación crítica
En resumen: “detallado” y “correcto” suelen tirar en direcciones opuestas.
La relación inversa en números
Los datos experimentales revelan un patrón interesante:
Sonnet 4 (sin contexto):
- Factual Accuracy: 0,6/5 (baja)
- Specificity: 4,2/5 (alta)
Haiku 3 (sin contexto):
- Factual Accuracy: 0,0/5 (la más baja)
- Specificity: 1,2/5 (baja)
Sonnet 4 (solo system prompt):
- Factual Accuracy: 0,0/5 (la más baja)
- Specificity: 1,7/5 (cae)
Estos números apuntan a una verdad dura: ser específico y ser factualmente correcto suelen entrar en conflicto.
El dilema “mentira detallada” vs “ignorancia honesta”
Para ver esta compensación, compara dos respuestas:
Respuesta A (detallada pero incorrecta):
Para la gestión de organizaciones de PropelAuth, configura los permisos
mediante estos pasos:
1. Inicia sesión en el admin dashboard
2. Navega a "Organizations" > "Permissions"
3. Crea un nuevo rol:
- Ingresa el nombre del rol (ej.: "Marketing Manager")
- Selecciona el nivel de permiso: READ, WRITE, DELETE
- Especifica los recursos: Users, Analytics, Billing
4. Asigna a usuarios:
- Elige el destinatario en la lista de usuarios
- Aplica el rol que acabas de crear
- Configura el vencimiento (máx. 90 días)
Respuesta B (honesta pero vaga):
Lo siento, no tengo pasos operativos detallados para la herramienta
específica llamada PropelAuth.
Puedo compartir procedimientos generales de gestión de permisos
para sistemas de autenticación, pero para la disposición de pantallas
y opciones de configuración específicas de PropelAuth, recomiendo
consultar la documentación oficial.
En pruebas con usuarios, normalmente califican la Respuesta A más alto. El usuario puede actuar de inmediato.
PropelAuth es ficticio, sin embargo. Actuar con la Respuesta A implica buscar pantallas y funciones que no existen.
Por qué los humanos prefieren las “mentiras detalladas”
Los humanos esperan “si pregunto, aparecerá una respuesta” y asumen “si la IA lo dice, probablemente está bien”. El “no sé” obliga a investigación extra, así que la gente prefiere información que parezca usable de inmediato. El sesgo de confirmación y la evitación de la carga cognitiva son las razones principales por las que las alucinaciones se cuelan.
Cálculo de costos en la empresa (ilustrativo)
En entornos empresariales, esta compensación se vuelve un problema serio de costos:
Costo de actuar sobre una “mentira detallada”:
- Acción basada en información imprecisa → descubrimiento del error → retrabajo → horas o días perdidos
Costo de partir de la “ignorancia honesta”:
- Investigar información precisa → ejecutar correctamente → terminado en 1-3 horas
La “ignorancia honesta” es el camino más eficiente, pero psicológicamente la gente prefiere la “mentira detallada”.
Cómo la Ingeniería de Contexto resuelve esta compensación
El experimento muestra que la Ingeniería de Contexto bien aplicada resuelve parcialmente la compensación:
Ingeniería de Contexto completa (Sonnet 4):
- Factual Accuracy: 4,8/5 (aumento marcado)
- Specificity: 4,8/5 (mantenida)
- Honesty: 0,8/5 (balanceada)
La clave es que RAG aporta información precisa, así que las respuestas específicas ya no tienen que apoyarse en conjeturas.
Ese es el valor central de la Ingeniería de Contexto: entregar hechos detallados, no mentiras detalladas.
Por qué la alucinación es una “feature”, no un “bug”
En resumen: la alucinación no es un defecto del LLM. Es el principio operativo de la IA generativa.
Cómo funciona realmente la IA generativa
Un cambio importante de perspectiva: la alucinación no es un “bug” de los LLMs. Es una “feature” embebida en el diseño.
De forma concisa, un LLM opera así:
- Tokenizar el texto de entrada: convertir texto en vectores numéricos
- Reconocimiento de patrones: identificar patrones similares en los datos de entrenamiento
- Cálculo de probabilidad: calcular la probabilidad del siguiente token
- Selección probabilística: elegir un token según esas probabilidades
- Generación de texto: encadenar los tokens elegidos en texto
Ese proceso no contiene “verificación de hechos” ni “reconocimiento de límites de conocimiento”. El LLM es, fundamentalmente, un generador sofisticado de texto basado en patrones.
Memoria perfecta vs razonamiento creativo: el dilema
¿Y si un LLM se diseñara para “no responder nunca cuando no sabe”?
Beneficios:
- Alucinaciones eliminadas
- Factual accuracy aumentada de forma marcada
- Confiabilidad mejorada
Costos:
- Pérdida de razonamiento creativo
- Sin nuevas combinaciones de ideas
- Caída marcada de utilidad
Cuando se le pide “ideas nuevas de marketing”, respuestas fundamentadas solo en hechos conocidos no producirán ideas creativas o innovadoras.
Similitud con la cognición humana
En cierto sentido, la alucinación se parece a la cognición humana:
Pensamiento humano:
- Combinar conocimiento conocido
- Construir hipótesis y conjeturas
- Crear nuevas ideas mediante analogía
- Juzgar a partir de información incompleta
Generación del LLM:
- Combinar patrones aprendidos
- Completado probabilístico
- Razonamiento por similitud
- Generación a partir de contexto incompleto
La diferencia: los humanos pueden reconocer su propia incertidumbre. Decimos naturalmente cosas como “esto es una conjetura” o “no estoy seguro pero”.
El valor real de la Ingeniería de Contexto
Por eso importa la Ingeniería de Contexto. No cambia la naturaleza del LLM; provee un entorno de información apropiado para canalizar su capacidad en la dirección correcta.
Enfoque viejo:
- Decirle al LLM “responde correctamente”
- Tratar la alucinación como una “feature mala” a suprimir
- Apuntar a la perfección
Enfoque de Ingeniería de Contexto:
- Darle al LLM la información que necesita
- Tratar la alucinación como una “señal de falta de contexto”
- Diseñar el balance entre practicidad y precisión
Cinco señales de que un LLM está mintiendo
Una habilidad práctica: detectar alucinaciones peligrosas en respuestas de un LLM.
1. Especificidad excesiva en números, fechas y nombres propios
Señales de alerta:
- “Vencimiento de 24 horas”
- “Hasta 50 roles personalizados”
- “Documentación v2.1.3”
Cómo verificar:
- Comprueba si los números tienen fundamento
- Cruza referencias con la documentación real
- Verifica que los números de versión existan
2. Organización sospechosamente perfecta
Señales de alerta:
- Listas de funciones ordenadas
- Explicaciones detalladas sin contradicciones
- Niveles de completitud “de libro de texto”
Realidad:
- El software real tiene restricciones y excepciones
- La documentación es incompleta e inconsistente
- Existen casos límite y problemas conocidos
3. Uso poco natural de jerga técnica
Señales de alerta:
- Apilar términos técnicos para dar aura de autoridad
- Combinaciones inadecuadas de tecnologías reales
- Jerga que no es necesaria para el contexto
4. Evitación de citar fuentes explícitas
Señales de alerta:
- Frases vagas como “generalmente”, “típicamente”, “básicamente”
- Sin referencia a documentación específica o referencias de API
- “Confirma con el sitio oficial” usado como evasiva
5. Respuestas que coinciden perfectamente con las expectativas del usuario
Señales de alerta:
- Exactamente la respuesta que la pregunta sugería
- Sin mención de dificultad o complejidad
- Sin mención de “esto no es posible” o “esto está restringido”
Puente al próximo capítulo: organizar la solución
Este capítulo mostró que las “mentiras” de la IA vienen de tres factores inevitables:
- Restricción técnica: relleno por correspondencia de patrones
- Filosofía de diseño: un sistema de valores que prioriza “responder”
- La paradoja de la capacidad: una capacidad lingüística más fuerte produce mentiras más persuasivas
No hay motivo para desesperarse. El experimento mostró que la Ingeniería de Contexto bien aplicada puede mejorar sustancialmente las tres.
El próximo capítulo recorre la historia desde la “ingeniería de prompts” hasta la “Ingeniería de Contexto” y la ciencia detrás. Quedará claro por qué la respuesta no son prompts más astutos sino diseñar todo el entorno de información.
🚀 Próxima acción: elige tres nombres propios o números de una respuesta de IA y verifícalos
Practica la técnica de “detectar mentiras”:
Paso 1: pregúntale a la IA
Haz preguntas detalladas sobre una tecnología o servicio que conozcas:
- “¿Qué hay de nuevo en la versión X?”
- “¿Cuáles son los límites de tasa de la API de X?”
- “¿Cuáles son los planes de precios de X?”
Paso 2: extrae nombres propios y números
Elige tres de cada categoría en la respuesta:
- Números específicos: precios, límites, números de versión
- Nombres propios: nombres de funciones, nombres de planes, nombres de tecnología
- Fechas / períodos: fecha de release, vencimiento, frecuencia de actualización
Paso 3: verifica los hechos
Confirma contra la documentación oficial:
- ¿Los números son precisos?
- ¿Los nombres de las funciones son correctos?
- ¿La información es vigente?
Paso 4: analiza el patrón
- ¿Qué tipos de información generan mentiras con más facilidad?
- ¿Cuál es la diferencia entre “mentiras de alta confianza” y “mentiras de baja confianza”?
- ¿Hay diferencias entre dominios?
Plantilla de registro
[Pregunta]
[Respuesta de la IA]
[Información extraída]
Números: 1. _____ 2. _____ 3. _____
Nombres propios: 1. _____ 2. _____ 3. _____
Fechas: 1. _____ 2. _____ 3. _____
[Resultados de verificación]
Precisos: ___
Imprecisos: ___
Desconocidos: ___
[Observaciones]
A través de este ejercicio, obtendrás una comprensión palpable de los patrones de “mentira plausible” del LLM. El próximo capítulo recorre la solución sistemática.
Continúa este capítulo en Kindle →Resumen
¿Tu IA miente con seguridad? El problema no es el modelo — es el contexto. En tres herramientas internas ficticias, este libro mide la calidad de respuesta con cinco estrategias de contexto y demuestra que un modelo pequeño con RAG bien diseñado supera a un modelo más grande operando solo. A partir de esos datos construye el sistema completo de Ingeniería de Contexto: estrategia en 5 etapas, RAG, MCP, CLAUDE.md y Agentic RAG.
Lo que podrás hacer
- Dominar una estrategia de contexto en 5 etapas que eleva la calidad de respuesta 2,2x o más
- Entender por qué RAG aporta el 80% de la mejora — y dónde está el punto de quiebre
- Diseñar y operar un servidor MCP (Model Context Protocol)
- Aplicar patrones de CLAUDE.md en etapas para optimizar el contexto del proyecto
- Implementar Agentic RAG en Python de punta a punta
Para quién es este libro
- [Ingeniero intermedio] Buscando el paso siguiente al prompt engineering
- [Evaluador de LLM] Decidiendo entre RAG y MCP con confianza
- [Domador de alucinaciones] Frustrado porque incluso los modelos grandes siguen fallando
- [Usuario de Claude Code] Quiere aprender el diseño de CLAUDE.md en etapas
- [Constructor de agentes] Necesita implementar Agentic RAG en producción
- [Movido por benchmarks] Quiere comparaciones cuantitativas entre estrategias de contexto
Problemas que resuelve este libro
- Los prompts están afinados, pero la calidad de respuesta sigue oscilando
- El RAG está implementado, pero no se sabe si está funcionando de verdad
- No puedo decidir cuándo usar servidor MCP en vez de RAG simple
- Tengo CLAUDE.md en el repo, pero no está claro qué meterle dentro
- Escuché de Agentic RAG, pero no sé en qué se diferencia del RAG común
- Cambiar de LLM sigue moviendo la calidad de respuesta de forma impredecible
Dónde se sitúa este libro
- Benchmark-first (una diferencia de calidad de 4,6x demostrada con experimentos originales)
- Especialista en Ingeniería de Contexto (eje aparte de prompts y harnesses)
- Nivel intermedio (asume que ya usaste un LLM — no es cartilla de RAG)
- Con código (96 archivos Python listos para producción, publicados en GitHub)
Por qué este libro
- Benchmarks originales demuestran que la estrategia de contexto mueve la calidad 4,6x
- Demuestra experimentalmente que los modelos más grandes mienten con más convicción, y que modelo pequeño + RAG le gana al modelo grande solo
- Cubre RAG, MCP, CLAUDE.md y Agentic RAG en un único volumen coherente
- 96 archivos de código de calidad de producción en GitHub, totalmente reproducibles
- Conecta directo con Claude Code vía diseño en etapas del CLAUDE.md
En qué se diferencia de otros libros sobre IA
| Comparado con | Diferencia de este libro |
|---|---|
| Libros de prompt engineering | Se enfoca en la capa debajo del prompt — el diseño del contexto. Toma donde el prompt engineering termina. |
| Cartillas de RAG | Va más allá de RAG aislado e integra RAG, MCP, CLAUDE.md y Agentic RAG en un único sistema de Ingeniería de Contexto. |
| Documentación oficial de los vendors (OpenAI, Anthropic, etc.) | Benchmarks originales muestran cuánto cambian las cosas en realidad — cuantitativamente, no cualitativamente. |
Índice
- 01 Introducción Vista previa
- 02 La misma pregunta, cinco respuestas completamente distintas Vista previa
- 03 Tres razones por las que tu IA miente Vista previa
- 04 Los límites de la Ingeniería de Prompt, el comienzo de la Ingeniería de Contexto
- 05 Primer paso — Mejorando el System Prompt
- 06 Few-shot Examples — Mostrándole a la IA 'cómo se hace'
- 07 Retrieved Knowledge — Inyectando conocimiento externo con RAG [El núcleo de este libro] Vista previa
- 08 Ingeniería de Contexto Completa — Integrando todos los elementos
- 09 Tools & APIs — Conectando al mundo externo con MCP
- 10 State & Memory — Memoria de largo plazo y continuidad de conversación
- 11 Claude Code en la práctica — Diseñando contexto de proyecto con CLAUDE.md
- 12 Agentic RAG — Concepto y arquitectura
- 13 Agentic RAG — Comparación de APIs de búsqueda e implementación
- 14 RAG Empresarial — Casos de estudio y diseño de pipeline
- 15 RAG Empresarial — Evaluación, seguridad y selección de Vector DB
- 16 La filosofía de diseño 'modelo pequeño + buen contexto'
- 17 Posfacio
- 18 Apéndice A: Checklist de Ingeniería de Contexto Vista previa
- 19 Apéndice B: Cómo reproducir el experimento Vista previa
- 20 Referencias Vista previa
- 21 Sobre el autor Vista previa
La misma pregunta sigue dando respuestas completamente distintas. La causa no es tu prompt. Es tu contexto.
Este libro corre benchmarks originales en tres herramientas internas ficticias y muestra que la forma en que entregas contexto puede mover la calidad de respuesta hasta 4,6x. Los modelos más grandes, al final, solo mienten con más convicción. Un modelo pequeño con RAG puede superar a un modelo grande operando solo. A partir de esos hallazgos, el libro construye el cuadro completo de la Ingeniería de Contexto.
Cinco estrategias de contexto, RAG (la técnica que aporta el 80% de la mejora), diseño de servidor MCP, diseño en etapas del CLAUDE.md e implementación de Agentic RAG. El siguiente paso después del prompt engineering — fundamentado en datos experimentales y 96 archivos de código listos para producción.
“Los modelos más grandes solo mienten con más seguridad. Aliméntalos con la verdad a través del contexto.”
Libros relacionados
Comprar en Kindle
Disponible en Kindle Unlimited
Comprar en Kindle (USD 4.99)* Esta página contiene enlaces de Amazon Afiliados. Las compras pueden generar una comisión para el autor.