Harness Engineering
De Usar IA a Controlar IA
Tutorial de Harness Engineering | diseño de AGENTS.md · implementación de hooks · operación de agentes de IA
📖 Lee gratis
Lee 3 capítulos completos aquí antes de comprar. ¿Te gustó? Continúa en Kindle.
01 Prefacio — Por qué 'Harness' y por qué ahora

Un martes a las 3 a. m.
Las 3 a. m. de un martes. Al ingeniero on-call de un equipo lo despierta sobresaltado una alerta de PagerDuty.
Los costos de API se dispararon. Revisa el panel: más de $400 gastados en la última hora. Al investigar, encuentra que un agente de IA implementado el día anterior estuvo machacando una API inestable con reintentos. Cada error lo manda de vuelta al ciclo de “déjame intentar otra vez”, y siguió así hasta la mañana.
El agente no era el problema. El modelo estaba bien. El prompt estaba escrito con cuidado. Lo que faltaba era un harness. Le dijeron al agente “ejecuta”, pero nunca le dieron frenos ni volante.
Esta historia no es rara. Hay una frase que circula en el sector:
“The model is commodity. The harness is moat.”
Cuando un agente que funcionaba perfecto en una demo se rompe en producción, casi siempre es un problema de harness.
En febrero de 2026, OpenAI publicó una publicación en su blog: “Harness engineering: leveraging Codex in an agent-first world”.
Esto fue lo que decía: durante cinco meses, un equipo de ingeniería no escribió una sola línea de código a mano. Construyeron una aplicación en producción de más de un millón de líneas usando solo agentes Codex. Tiempo de construcción: una décima parte de hacerlo a mano.
“Humans steer. Agents execute.”
Los ingenieros no perdieron su trabajo. La definición del trabajo cambió.
Esa publicación encendió la mecha. Después vino el reporte de la “tormenta de reintentos de $47.000” de un fin de semana de febrero de 2026. Un agente de enriquecimiento de datos malinterpretó un código de error de API como “reintenta con parámetros diferentes” e hizo 2,3 millones de llamadas a la API. El lunes por la mañana, los ingenieros volvieron a una factura de $47.000. Está bien que el agente haya trabajado el fin de semana, pero no tanto cuando el entregable es cero y la factura llega igual. Unos días después, Anthropic publicó dos guías de diseño de harness. LangChain definió “Agent = Model + Harness”. Martin Fowler escribió un comentario. Un artículo académico apareció en arXiv.
2024 fue el año de la Ingeniería de Prompt. La era de pulir “qué preguntarle a la IA”.
2025 fue el año de la Ingeniería de Contexto. Andrej Karpathy dijo “The hottest new programming language is English”, y el trabajo se movió a diseñar “qué mostrarle a la IA”.
En 2026, el alcance se amplía a Harness Engineering. “¿Cómo diseñas todo el entorno en el que opera el agente?”
Pero el término se interpreta un poco distinto según quién lo escriba. OpenAI y Anthropic enfatizan cosas distintas. LangChain y Martin Fowler lo abordan desde ángulos distintos. Los artículos académicos vienen desde otra dirección.
Este libro da una visión estructurada de Harness Engineering.
- La relación entre las tres prácticas de ingeniería (Prompt / Contexto / Harness)
- Cómo los actores principales (OpenAI / Anthropic / LangChain / Martin Fowler / académicos) lo interpretan distinto
- La anatomía de los seis componentes
- Cómo se sitúa junto a ideas relacionadas (Vibe Coding / Spec Coding / Agent Frameworks)
- Estudios de caso prácticos de la comunidad de habla japonesa
- Hacia dónde va todo esto
Es a la vez un libro de organización conceptual y una guía práctica que puedes usar mañana. Mi objetivo es simple: cuando alguien pregunte “ok, pero ¿qué es un harness?”, puedas darle este libro como una respuesta clara.
Para quién es este libro
- Ingenieros que empezaron a usar agentes de IA (Claude Code, GitHub Copilot, Cursor, etc.)
- Personas que escribieron un AGENTS.md o CLAUDE.md y no están seguras de haberlo hecho bien
- Personas que conocen la Ingeniería de Prompt y escuchan “Harness Engineering” por primera vez
- Líderes técnicos y gerentes que quieren llevar agentes de IA a su equipo
El único prerrequisito es lo básico de Ingeniería de Prompt. Haber oído hablar de Few-shot y Chain-of-Thought es suficiente.
Cómo leer este libro
Puedes leerlo de tapa a tapa, o saltar a los capítulos que te interesen. Aun así, hay tres capítulos que vale la pena leer pase lo que pase:
- Capítulo 1: entender cómo se relacionan las tres prácticas de ingeniería (el mapa del territorio)
- Capítulo 8: aprender los seis componentes (el esqueleto de la práctica)
- Capítulo 11: aprender a escribir AGENTS.md (algo que puedes usar mañana)
02 Las tres evoluciones de ingeniería — Prompt → Contexto → Harness
Por qué falla el 40 %
En 2026, el 40 % de los proyectos de agentes de IA fracasa (encuesta Company of Agents).
¿Qué hay detrás de los fracasos? ¿Modelo equivocado? ¿Prompts malos?
Ninguno. “La diferencia entre el éxito y el fracaso no es el modelo.” Ese es el consenso del campo.
Una encuesta en Y Combinator DevTool Day (marzo de 2026) entrevistó a CTOs y CPOs y encontró un factor común en los proyectos fallidos: falta de harness. Nunca diseñaron el entorno en el que opera el agente.
El 75 % de las empresas corporativas de YC ya tiene agentes de programación implementados. Sin embargo, muchas chocan contra la misma pared: “funciona en la demo, colapsa en producción”.
En marzo de 2026, Linear declaró que “el seguimiento de incidencias está muerto”. El razonamiento: alimenta el contexto del issue directamente a un agente de programación y los humanos ya no necesitan gestionar tickets. Los flujos de trabajo corporativos se están rediseñando con agentes como supuesto por defecto.
Llevar agentes a producción en este punto de inflexión sin entender el harness es como manejar en la autopista sin cinturón de seguridad. Puedes ir rápido, pero saldrás disparado en la primera curva.
Línea de tiempo

Qué distingue a las tres
Ingeniería de Prompt
Sujeto: un prompt único (texto de entrada)
Optimizar “qué preguntarle a la IA y cómo”. Few-shot, Chain-of-Thought, ReAct. El arte de maximizar la precisión en un solo intercambio.
Ingeniería de Contexto
Sujeto: todo lo que le proporcionas a la IA (system prompt + RAG + definiciones de herramientas + memoria)
En palabras de Andrej Karpathy, “it is a lot more than just the prompt itself”. A medida que los enfoques de un solo prompt se volvieron insuficientes en más casos, los equipos tuvieron que diseñar toda la ventana de contexto construida dinámicamente.
Philip Schmidt (anteriormente en Hugging Face, Google DeepMind) sostiene que “la nueva habilidad para usar IA no es prompting. Es ingeniería de contexto”.
Harness Engineering
Sujeto: todo el entorno operativo (contexto + restricciones + herramientas + ciclo de vida + retroalimentación + monitoreo)
La definición de Louis Bouchard es la más concisa:
La Ingeniería de Contexto es “lo que envías al modelo”. Harness Engineering es “cómo funciona todo el sistema”.
No el prompt, no el contexto. El entorno alrededor del modelo. Si la analogía es la cocina, el prompt es la receta, el contexto son los ingredientes y el harness es la cocina misma.
Una estructura anidada
Estos tres no son conceptos en competencia. Se anidan uno dentro del otro.

El artículo de SmartScope lo expresa con claridad:
Harness ⊇ Context ⊇ Prompt
El artículo en japonés de Elephancube usa una metáfora acertada:
Cuando construyes una casa, las paredes necesitan cimientos y el techo necesita paredes. Los buenos prompts hacen que el diseño de contexto funcione, y un buen diseño de contexto permite que el harness funcione.
¿“Sustituido” o “estratificado”?
Aquí es donde divergen las interpretaciones.
El campo de la “sustitución”:
Data Science Dojo tituló un artículo “Why Harness Engineering Is Replacing Prompt Engineering”. Su argumento: los agentes de 2025-2026 operan en entornos para los que los prompts y el contexto nunca fueron diseñados.
El campo de la “estratificación”:
AnyTech (Medium) escribe: “No hay diferencia esencial entre los tres; la terminología está cambiando porque los LLM y los agentes abarcan ahora un alcance más amplio de trabajo”. Un planteo tranquilizador. No tienes que descartar todo lo que sabías cada vez que aparece una nueva palabra de moda.
La postura de este libro: el campo de la estratificación. La Ingeniería de Prompt sigue siendo importante. Solo que ya no alcanza por sí sola en un número creciente de casos. Harness Engineering engloba el prompt y el contexto, y luego agrega una capa externa de restricciones, gestión del ciclo de vida y ciclos de retroalimentación.
¿Por qué ahora?
Una pieza de WonderLab en DEV.to lo dice bien:
El momento no es casualidad. En 2025, los agentes de IA pasaron de “demos divertidas” a “herramientas reales de productividad”.
Una vez que los agentes se ejecutan de forma autónoma durante tramos largos, optimizar un solo prompt no puede mantenerlos bajo control. El diseño de contexto por sí solo también es insuficiente. Hay que diseñar todo el entorno.
Esa urgencia es lo que dio origen a Harness Engineering.
Continúa este capítulo en Kindle →03 Definiendo Harness Engineering
Lo que realmente significa “funciona en la demo, se rompe en producción”
harnessengineering.academy lo plantea así:
No despliegues agentes de IA sin un harness, igual que no ejecutarías software directamente sobre una CPU sin un sistema operativo.
Una CPU puede computar. Pero sin un sistema operativo, no puedes gestionar memoria, planificar procesos ni controlar I/O. Lo mismo con los modelos: un modelo puede generar texto. Pero sin un harness, no puedes gestionar contexto, controlar herramientas ni manejar fallas.
Nueve de cada diez agentes que “funcionan en la demo y se rompen en producción” son problema de harness. Para ser específicos:
- Demo: un entorno controlado. Las preguntas llegan en el flujo esperado. Las APIs funcionan. El contexto es corto.
- Producción: caos. Entradas inesperadas. APIs caídas. El contexto se infla. Condiciones de carrera por ejecución paralela.
Un harness es el amortiguador que absorbe el caos de producción. La demo es la sala de exhibición; la producción, la carretera abierta. Si un auto que corre perfecto en la sala de exhibición sobrevive en la carretera es otra pregunta.
De dónde viene la palabra “harness”
NxCode explica la etimología:
El término viene del equipamiento ecuestre. Un caballo es poderoso y rápido, pero sin riendas, silla de montar y freno, va a donde quiere. El modelo de IA es el caballo. El harness es todo lo que canaliza esa fuerza hacia trabajo productivo.
Una publicación de kazu_t en Note usa una analogía entre SO y código de aplicación:
Si el prompt es código de aplicación, el harness es el sistema operativo.
Aakash Gupta (Medium) lo dice aún más simple:
El modelo es el motor. El harness es el auto. El mejor motor del mundo no va a ningún lado sin volante y frenos.
Distinguirlo del “test harness”
Parallel.ai hace una advertencia importante:
No lo confundas con un test harness (un término viejo de la ingeniería de software). Un test harness es un marco que recibe entradas y verifica salidas automáticamente. Un agent harness es todo el entorno operativo de una IA.
Si buscas el término te aparecerán resultados sobre cableado eléctrico y la plataforma de CI/CD Harness.io. El harness de este libro se refiere al entorno de control para agentes de IA.
Comparando las definiciones
Aquí van las definiciones lado a lado.
OpenAI
“Humans steer. Agents execute. By deliberately imposing this constraint, we built what was needed to lift engineering speed by orders of magnitude.”
Harness = el entorno en el que los agentes escriben código de forma confiable.
Anthropic
“Multi-context-window support, environment setup in the initial context, context management, sub-agent composition.”
Harness = un sistema de control estable para agentes de larga duración.
LangChain
“Agent = Model + Harness. El modelo tiene la inteligencia; el harness hace útil esa inteligencia.”
Harness = la envoltura externa que convierte la inteligencia del modelo en trabajo útil.
Martin Fowler
“Los lenguajes fuertemente tipados convierten las verificaciones de tipo en sensores. Los límites entre módulos imponen restricciones de arquitectura. Marcos como Spring abstraen detalles en los que el agente no necesita pensar, elevando implícitamente la tasa de éxito del agente.”
Harness = el conjunto total de restricciones implícitas y explícitas integradas en la base de código.
Louis Bouchard
“Deja de decir ‘el modelo es tonto’. Di en cambio: ‘mi sistema toleró este modo de falla’.”
Harness = diseño de entorno que no tolera modos de falla.
En qué están todos de acuerdo
Las palabras difieren, pero todos coinciden en algunos puntos.
- El harness está fuera del modelo: no se trata de ajustar parámetros del modelo
- Las restricciones se aplican, no se piden: el sistema no avanza si no se cumplen
- Los ciclos de retroalimentación son obligatorios: evaluar salidas, seguir mejorando el entorno
- El rol del humano cambia: de escribir código a diseñar el entorno
La definición operativa que usa este libro
Combinando las definiciones de arriba, este libro usa:
Harness Engineering es la disciplina de diseñar todo el entorno en el que los agentes de IA operan de forma autónoma durante largos períodos. Incluye gestión de contexto, aplicación de restricciones, gestión del ciclo de vida, ciclos de retroalimentación, monitoreo y fronteras de seguridad.
Qué sale mal sin un harness
El valor de un harness se vuelve claro cuando miras qué falla sin él.
| Problema | Sin harness | Con harness |
|---|---|---|
| Consistencia de estilo de código | El agente escribe en un estilo distinto cada vez | El hook del linter unifica automáticamente |
| Creación de pruebas | Hay que pedir “por favor escribe una prueba” cada vez | Pre-commit bloquea commits sin pruebas |
| Manejo de secretos | El agente incrusta claves de API en el código | La frontera de seguridad detecta y rechaza |
| Tareas de larga duración | El contexto se infla, la calidad baja | Reinicio de contexto + archivos de progreso |
| Calidad reproducible | Depende de quién esté trabajando (humano o IA) | Garantizada por el entorno |
Un harness convierte “peticiones” en “mecanismos”. Decir “por favor escribe pruebas” 100 veces es menos confiable que construir el sistema una vez para que los commits sin pruebas no puedan ocurrir. Igual que entrenar miembros junior del equipo.
La diferencia decisiva con la Ingeniería de Prompt
La Ingeniería de Prompt optimiza “un intercambio”. Harness Engineering optimiza “100 intercambios”.
Para un solo intercambio, un buen prompt alcanza. Pero cuando un agente programa todo el día, el efecto del primer prompt se desvaneció para el intercambio número 50. El contexto se infla, las instrucciones originales se hunden en el pasado lejano, y el agente empieza a comportarse distinto a como lo hacía al inicio.
Un harness resuelve eso. Si un prompt es “el primer empujón”, un harness es “la gravedad que jala todo el tiempo”.
Desde el próximo capítulo, examinamos las interpretaciones de cada actor una por una.
Continúa este capítulo en Kindle →Resumen
Harness Engineering, integrada en las 5 interpretaciones de OpenAI, Anthropic, LangChain, Martin Fowler y la academia. La primera guía sistemática que destila los 6 componentes, los patrones de implementación de AGENTS.md/CLAUDE.md/hooks y los Self-Evolving Agents — la referencia práctica para la palabra clave de 2026.
Lo que podrás hacer
- Descomponer cualquier harness con el framework de los 6 componentes
- Elegir entre AGENTS.md, CLAUDE.md y hooks para cada tarea
- Comparar lado a lado las interpretaciones de OpenAI Codex, Anthropic, LangChain, Martin Fowler y la academia
- Implementar patrones de Self-Evolving Agent (harness que se mejora a sí mismo)
- Ubicar Vibe Coding, Spec Coding y Agent Frameworks en un mapa de tecnologías claro
Para quién es este libro
- [Dev de agentes de IA] Quiere la visión sistémica de harness, la palabra clave de 2026
- [Usuario de Claude Code] Listo para la capa por encima del CLAUDE.md
- [Tech Lead] Diseñando operación de agentes de IA para todo un equipo
- [Investigador] Comparando OpenAI, Anthropic y LangChain lado a lado
- [Curioso por Self-Evolving] Quiere construir agentes que se mejoran solos
- [Eligiendo herramienta] Mapeando Vibe Coding, Spec Coding y Agent Frameworks
Problemas que resuelve este libro
- Escucho 'Harness Engineering' todo el tiempo, pero no puedo explicar qué es
- OpenAI y Anthropic parecen definir el término de formas distintas
- La línea entre AGENTS.md y CLAUDE.md está borrosa
- No sé cuándo recurrir a hooks
- Los patrones de diseño de Self-Evolving Agent todavía no me quedan claros
- La frontera entre harness y Agent Frameworks (LangChain etc.) es confusa
Dónde se sitúa este libro
- Multivendor (5 interpretaciones comparadas en un solo libro — el primero del género)
- Foco en implementación (no solo teoría — ejemplos concretos de AGENTS.md / hooks)
- Intermedio a avanzado (asume base de Claude Code / CLAUDE.md)
- Específico de harness (un único tema, 14 capítulos de profundidad)
Por qué este libro
- Primer libro en integrar las 5 interpretaciones de OpenAI, Anthropic, LangChain, Martin Fowler y la academia
- Framework de los seis componentes para sistematizar 'qué es un harness'
- Llega hasta Self-Evolving Agents (harness auto-mejorable) y predicciones de futuro
- Patrones reales de implementación para AGENTS.md / CLAUDE.md / hooks con ejemplos concretos
- Construido sobre un artículo en Zenn que alcanzó 12.000 vistas — esta es la versión completa
En qué se diferencia de otros libros sobre IA
| Comparado con | Diferencia de este libro |
|---|---|
| Documentación de los vendors (OpenAI / Anthropic / LangChain) | No es la visión de un solo vendor. Aquí las 5 interpretaciones se integran, y el libro explica por qué divergen. |
| Libros de Prompt / Context Engineering | Aborda la capa por encima del prompt y el contexto — el tercer nivel de la pila. |
| Guías de Agent Framework (LangChain Agents etc.) | No es específico de framework. Mapea la frontera entre harness y Agent Frameworks. |
Índice
- 01 Prefacio — Por qué 'harness', y por qué ahora Vista previa
- 02 Las tres evoluciones de la ingeniería — Prompt → Contexto → Harness Vista previa
- 03 Definiendo Harness Engineering Vista previa
- 04 La visión de OpenAI — Codex y el experimento de un millón de líneas
- 05 La visión de Anthropic — Diseño de Harness para agentes de ejecución prolongada
- 06 La visión de LangChain — Agent = Model + Harness
- 07 La perspectiva de Martin Fowler — El harness implícito en tu base de código
- 08 La perspectiva académica — Artículos en arXiv y especificación formal
- 09 Los seis componentes — Anatomía de un harness Vista previa
- 10 Mapa de tecnologías cercanas — Vibe Coding / Spec Coding / Agent Frameworks
- 11 Reconciliando las interpretaciones — Qué hay en común, qué no
- 12 Diseñando AGENTS.md / CLAUDE.md en la práctica
- 13 Hooks / Ciclo de vida / Loops de retroalimentación
- 14 Self-Evolving Agents — Un harness que se mejora a sí mismo
- 15 El futuro de la Harness Engineering
- 16 Posfacio
- 17 Referencias Vista previa
- 18 Sobre el autor Vista previa
- 19 Colofón Vista previa
La expresión Harness Engineering está en todas partes — y significa cosas distintas para cada quien. OpenAI habla de escalar Codex. Anthropic habla de agentes de ejecución prolongada. LangChain lo resume en la fórmula Agent = Model + Harness. Martin Fowler señala que toda base de código ya carga un harness implícito. La academia quiere especificación formal.
Cada uno tiene razón. Pero hasta hoy ningún libro había cosido esas visiones en un único sistema.
Este libro mapea qué es un harness, cómo diseñarlo y cómo operarlo. Sintetiza las 5 interpretaciones en 6 componentes y recorre la implementación con AGENTS.md, CLAUDE.md y hooks, llegando hasta Self-Evolving Agents.
“2024 fue Prompt. 2025 fue Contexto. 2026 es Harness.”
Libros relacionados
Comprar en Kindle
Disponible en Kindle Unlimited
Comprar en Kindle (USD 7.99)* Esta página contiene enlaces de Amazon Afiliados. Las compras pueden generar una comisión para el autor.