El mayor riesgo de la IA según Google DeepMind: la amenaza invisible

Agencias

⌛️ lun 06 de abr 14:36

Los agentes modernos enfrentan peligros que no surgen de sí mismos, sino del entorno digital del que extraen datos.

El debate sobre la seguridad de la inteligencia artificial (IA) cambia de perspectiva con los hallazgos recientes de Google DeepMind. Tradicionalmente, se imaginaba que la amenaza provenía de fallas internas: errores de programación, vulnerabilidades o jailbreaks que obligan al sistema a romper sus propias reglas. Sin embargo, el laboratorio británico publica un estudio que invierte el enfoque: los riesgos surgen del mundo que el agente decide leer, no de su arquitectura interna.

Los agentes autónomos de IA, utilizados en investigación, análisis, redacción y gestión de tareas, operan con una lógica sencilla: reciben un objetivo, navegan por información digital —páginas web, documentos, correos, APIs— y actúan en consecuencia. Cada elemento que consumen puede convertirse en una instrucción inadvertida. Según el estudio, los investigadores clasificaron seis categorías de “AI Agent Traps”, diseñadas para manipular agentes a partir del contenido que procesan.

La primera es la inyección de contenido: páginas web con comandos ocultos en HTML invisible, metadatos o texto del mismo color que el fondo. En experimentos, este método alteró el comportamiento de los agentes entre 15 % y 86 % de los casos, dependiendo del modelo y la tarea. La segunda categoría, el ocultamiento dinámico, muestra distintas versiones de una página según detecte un agente o un humano, manipulando la información sin que un supervisor perciba la diferencia.

La tercera categoría afecta la memoria del agente. Datos inocuos pueden inyectarse en su historial, activándose solo en consultas futuras, alcanzando tasas de éxito superiores al 80 % con menos del 0,1 % de datos contaminados. Este tipo de ataque pasa inadvertido hasta que provoca consecuencias operativas significativas.

El estudio de DeepMind advierte que la escala amplifica la vulnerabilidad. En sistemas multiagente, similares a los que grandes empresas implementan hoy, basta afectar un único agente para desencadenar cascadas de acción coordinada, replicando efectos comparables al Flash Crash de 2010 en el mercado bursátil. La homogeneidad de los modelos aumenta el riesgo: un solo documento envenenado puede comprometer múltiples agentes.

Las defensas actuales presentan limitaciones. Los filtros de contenido no distinguen instrucciones ocultas; la supervisión humana no escala ante el volumen y velocidad de los agentes; y los sistemas de detección suelen reaccionar tras el daño. Por ello, los investigadores plantean tres ejes de defensa: entrenar modelos con ejemplos adversariales, aplicar filtros en tiempo real que evalúen la información antes de incorporarla al contexto del agente y establecer estándares de ecosistema para verificar la procedencia de los datos.

Este último eje, el más desafiante, requiere coordinación entre industria, reguladores y plataformas. La web, concebida para humanos, ahora debe ser legible por máquinas, lo que exige nuevas reglas de seguridad.

En el ámbito empresarial, los agentes de IA reciben acceso a entornos digitales no controlados y pueden escribir en sistemas internos críticos. La pregunta previa al despliegue no es “¿qué puede hacer este agente por nosotros?”, sino “¿en qué lo vamos a obligar a creer?”. El riesgo central radica en que el agente acepta como verdad todo lo que lee, y un atacante ya sabe qué colocar frente a él. La investigación de Google DeepMind redefine así la seguridad de la IA: no basta proteger los modelos, es indispensable asegurar el mundo que los agentes consumen.

Tecnología: Biobots hechos con células humanas: el experimento en la IA

Equipos de la Universidad de Harvard y de Tufts ensamblaron robots con neuronas humanas vivas, logrando sistemas híbridos capaces de crear redes neuronales autónomas y funcionales en cuerpos sintéticos de nueva generación. La creación de neurobots que incorporan neuronas -- leer más

Noticias del tema