La inteligencia artificial dejó de ser un experimento de laboratorio para convertirse en una herramienta clave en entornos reales. Ese salto marca un punto de inflexión en materia de ciberseguridad: los modelos ya no solo responden texto, sino que actúan como agentes, capaces de leer documentos, usar herramientas, conectarse a APIs y ejecutar flujos de trabajo complejos. Y, como era previsible, los atacantes se adaptaron igual de rápido.
Un informe reciente de Lakera, basado en datos del cuarto trimestre de 2025, confirma esta tendencia. En apenas 30 días de observación en sistemas protegidos y entornos de prueba, se detectaron patrones claros: cada nueva capacidad agéntica amplía la superficie de ataque y habilita técnicas que no existían en los modelos tradicionales. En otras palabras, cuanto más “hace” la IA, más atractivo se vuelve atacarla.
De los prompts a la lógica interna
Uno de los hallazgos más relevantes es el cambio de foco de los atacantes. Ya no se conforman con manipular las respuestas visibles: ahora buscan extraer las instrucciones internas del sistema, donde se definen roles, políticas y accesos a herramientas. Conocer esa lógica equivale a tener el plano del agente y abre la puerta a manipulaciones más profundas.
Las técnicas más efectivas no fueron ataques burdos, sino estrategias sutiles: escenarios hipotéticos, juegos de roles o instrucciones ocultas dentro de texto estructurado que logran que el modelo revele información sensible sin disparar alertas.
Evasión y ataques “nativos” de agentes
El estudio también detectó un aumento de evasiones de seguridad mediante pedidos aparentemente inofensivos, como análisis, evaluaciones o resúmenes. El contenido dañino no se pide de forma directa, sino reinterpretado en contexto, algo que los filtros clásicos no siempre logran detectar.
Más preocupante aún es la aparición de ataques que solo tienen sentido en sistemas agénticos: intentos de acceso a datos internos, instrucciones con formato de script incrustadas en documentos o directivas maliciosas escondidas en páginas web que el agente debe procesar.
Qué cambia de cara a 2026
El mensaje es claro: la seguridad en IA ya no puede basarse solo en filtros estáticos. Las organizaciones necesitan modelos de confianza más finos, defensas adaptativas, auditorías detalladas y equipos interdisciplinarios que integren IA y ciberseguridad. Además, la regulación deberá aggiornarse para contemplar estos nuevos riesgos.
En 2026, las empresas que logren aprovechar la IA agéntica serán aquellas que entiendan que la seguridad no es un agregado final, sino una decisión de diseño desde el primer día.
