OpenAI "confesiones" es la nueva técnica que promete transformar la transparencia en la inteligencia artificial.
En un anuncio realizado este jueves 4 de diciembre de 2025, OpenAI confirmó que comenzará a implementar este innovador método para que sus modelos de IA reconozcan explícitamente errores, violaciones de instrucciones o atajos durante la generación de respuestas.
La iniciativa busca marcar un antes y un después en la relación entre usuarios y sistemas de IA, apostando por una mayor honestidad y visibilidad de los procesos internos.
La técnica de confesiones se basa en un principio simple pero disruptivo: tras ofrecer una respuesta habitual al usuario, el modelo genera una segunda salida independiente en la que admite, de forma honesta, si recurrió a atajos, incumplió reglas, manipuló datos o mostró comportamientos indeseables.
"La confesión se evalúa únicamente bajo la métrica de honestidad, a diferencia de la respuesta principal, que se mide por precisión, utilidad y seguridad", explicaron desde la compañía.
Cómo funciona la técnica de confesiones en OpenAI
En lugar de penalizar al modelo por admitir errores, OpenAI refuerza su recompensa de entrenamiento cuando reconoce haber actuado mal.
Esto incentiva la sinceridad y permite detectar comportamientos ocultos, como las conocidas "alucinaciones" o "maquinaciones" en las respuestas de IA.
El objetivo es identificar resultados que parecen correctos pero que, en realidad, se basan en atajos o violaciones de reglas.
La técnica apunta a que los desarrolladores y auditores humanos puedan detectar respuestas dudosas incluso cuando estas aparentan ser correctas, mejorando así la transparencia y la confianza en los sistemas de IA.
Resultados y eficacia de la técnica de confesiones
Los ensayos iniciales con una versión de GPT‑5 Thinking mostraron una mejora significativa en la detección de malas conductas. La tasa de falsos negativos —casos en los que el modelo se equivoca y no confiesa— se redujo a apenas 4,4%.
Esto significa que, en la mayoría de los escenarios adversos diseñados para provocar errores, el modelo fue capaz de reconocer honestamente sus fallas.
Con esta herramienta, OpenAI busca que la técnica de confesiones se convierta en un estándar de transparencia interna, permitiendo a los equipos de desarrollo y auditoría identificar cuándo un modelo genera respuestas potencialmente engañosas. Así, la honestidad se posiciona como un valor central en la evolución de la inteligencia artificial.