Hace unas semanas, uno de los máximos ejecutivos de Anthropic, Sam Bowman, contó que había recibido un correo electrónico enviado por la propia IA en la que estaba trabajando y que, en teoría, permanecía totalmente aislada en un sandbox (una especie de caja fuerte digital).
Aunque, en teoría, carecía de acceso a internet, la IA fue capaz de enviar un correo electrónico a Bowman. El pódcast Sandiabyte explica que Claude Mythos Preview habría diseñado una cadena de acciones capaces de encontrar fallos en su entorno.
Así, detectó que el hardware seguía conectado y mediante un cable logró enviarle el mail a Bowman. Algunos medios llegaron a comparar a Mythos con la bomba atómica: como aquella, su potencial destructor depende enteramente de quién tenga el control.
Lo que hace especialmente inquietante este episodio no es solo que la IA lograra escapar del aislamiento: es lo que eso implica. Si un sistema como Mythos cayera en manos equivocadas, podría usarse para detectar y explotar vulnerabilidades en infraestructuras críticas (redes eléctricas, sistemas hospitalarios, plataformas financieras) a una velocidad imposible para cualquier hacker humano.
No haría falta un equipo de expertos ni meses de planificación: bastaría con acceso al modelo.
Unos meses antes, Anthropic había documentado el primer caso de un ciberataque ejecutado a gran escala por una IA, sin una intervención humana significativa.
Esto ponía de manifiesto que los agentes de IA, tan útiles para el trabajo, en poder de delincuentes llevan las amenazas cibernéticas a niveles nunca conocidos.
Ya no se trata de hackers individuales buscando una brecha: se trata de sistemas que pueden escanear miles de vulnerabilidades en paralelo, generar exploits a medida y ejecutarlos en minutos.
Claude Mythos Preview revela una cruda realidad: los modelos de IA han alcanzado un nivel de capacidad de programación que les permite superar a todos, excepto a los humanos más expertos, en la detección y explotación de vulnerabilidades de software, admite Anthropic.
Dicho de otro modo: la IA ya es mejor que casi cualquier persona en encontrar los puntos débiles de un sistema. Y eso cambia el panorama de la ciberseguridad global. Lo que antes requería años de experiencia especializada, hoy puede ser replicado por un modelo en cuestión de minutos.
Un poco asustados por el monstruo que habían creado, la compañía lanzó el Proyecto Glasswing, para compartir los aprendizajes de esta experiencia con otras empresas del sector en Estados Unidos. La iniciativa busca establecer protocolos comunes antes de que otros actores, ya sean estatales o criminales, lleguen a las mismas capacidades por su cuenta.
Al comenzar junio, la IA había sido puesta a disposición del gobierno de España. Algunas fuentes sostienen que ya son 15 los gobiernos que están probando Mythos. Todo suena bien, mientras el sistema esté en las manos adecuadas.
Pero el New York Times informó que en febrero usuarios no autorizados habían accedido a una versión del modelo. Un recordatorio de que la velocidad a la que se expande Mythos supera, por ahora, a la velocidad a la que se construyen los mecanismos para contenerlo.
La pregunta ya no es teórica: ¿qué pasará ahora que Mythos está siendo compartida con más personas, más gobiernos, más organizaciones? La historia de la tecnología muestra que ningún sistema permanece exclusivo para siempre. Y cuando ese sistema puede encontrar los fallos de cualquier infraestructura digital... el margen de error es cero.
*Por Flavia Méndez, fundadora y CEO de Cyber Summit