· 

Riesgos de seguridad en Copilot la iA de Microsoft

Los atacantes pueden insertar documentos maliciosos en los conjuntos de datos que emplean los sistemas de inteligencia artificial (IA) para generar respuestas, lo que puede confundir al sistema y dar lugar a la desinformación, comprometiendo así los procesos de toma de decisiones en las organizaciones.

 

Investigadores del Spark Research Lab de la Universidad de Texas (UT) en Austin han identificado este vector de ataque, al que han denominado "ConfusedPilot", dado que afecta a todos los sistemas de IA basados en recuperación de generación aumentada (RAG), incluyendo Microsoft 365 Copilot. Este ataque también impacta a otros sistemas basados en RAG que utilizan modelos como Llama, Vicuna y OpenAI, según los investigadores.

 

"Este ataque permite manipular las respuestas de la IA simplemente añadiendo contenido malicioso a cualquier documento que el sistema pueda consultar", afirmó Claude Mandy, evangelista jefe de Symmetry, en un artículo sobre el ataque presentado en la conferencia DEF CON AI Village 2024 en agosto, aunque su difusión ha sido limitada. La investigación se llevó a cabo bajo la supervisión de Mohit Tiwari, director ejecutivo de Symmetry y profesor en la UT.

 

"Dado que el 65% de las empresas de Fortune 500 están implementando o planean implementar sistemas de IA basados en RAG, el impacto potencial de estos ataques es significativo", subrayó Mandy. Además, el ataque es especialmente peligroso porque solo requiere acceso básico para manipular las respuestas de todas las implementaciones de IA basadas en RAG, puede persistir incluso después de que se elimine el contenido malicioso y elude las medidas de seguridad actuales en IA.

 

Manipulación maliciosa de RAG

La técnica RAG se utiliza para mejorar la calidad de las respuestas y evitar la costosa fase de reentrenamiento o ajuste fino de un sistema de modelo de lenguaje grande (LLM). Agrega un paso en el que el modelo recupera datos externos para ampliar su base de conocimiento, mejorando así la precisión y fiabilidad en la generación de respuestas sin necesidad de reentrenamiento.

 

Los investigadores decidieron centrarse en Microsoft 365 Copilot para su presentación y artículo, aunque no es el único sistema afectado. Según el sitio web de ConfusedPilot, "el principal culpable de este problema es el mal uso de los sistemas basados en RAG, resultante de configuraciones incorrectas de los mecanismos de control de acceso y seguridad de datos".

 

En condiciones normales, un sistema de IA basado en RAG utiliza un mecanismo de recuperación para extraer palabras clave relevantes y buscar recursos almacenados en una base de datos vectorial, utilizando ese contexto para crear un nuevo mensaje que contenga la información pertinente.

 

Cómo funciona el ataque

En un ataque ConfusedPilot, un actor malicioso podría introducir un documento aparentemente inocuo que contenga cadenas diseñadas específicamente en el entorno objetivo. "Cualquier usuario con acceso para guardar documentos o datos en un entorno indexado por el copiloto de IA podría llevar a cabo esto", explicó Mandy.

 

El flujo del ataque desde la perspectiva del usuario es el siguiente: cuando un usuario realiza una consulta, el sistema RAG recupera el documento que contiene las cadenas maliciosas. Este documento puede incluir instrucciones que introducen diversos escenarios dañinos.

 

Entre los posibles efectos se encuentran: la supresión de contenido, donde las instrucciones maliciosas hacen que la IA ignore información relevante; la generación de desinformación, en la que la IA produce respuestas basadas únicamente en información corrupta; y la atribución falsa, donde las respuestas pueden ser erróneamente asociadas a fuentes legítimas, aumentando así su credibilidad.

 

Incluso si el documento malicioso se elimina posteriormente, la información corrupta puede seguir presente en las respuestas del sistema durante un tiempo, ya que la IA puede retener las instrucciones, advierten los investigadores.

 

Victimología y mitigaciones

El ataque ConfusedPilot tiene dos tipos de víctimas: primero, el LLM dentro del sistema basado en RAG, y segundo, la persona que recibe la respuesta, que generalmente es un empleado de una gran empresa o un proveedor de servicios. Estos entornos son especialmente vulnerables al ataque, dado que permiten que múltiples usuarios o departamentos contribuyan a los conjuntos de datos utilizados por los sistemas de IA, señaló Mandy.

 

"Cualquier entorno que permita la entrada de datos de múltiples fuentes, ya sea internamente o de socios externos, corre un mayor riesgo, dado que este ataque solo requiere que los copilotos de IA indexen los datos", advirtió.

 

Los sistemas empresariales que probablemente sufran efectos negativos por el ataque incluyen sistemas de gestión del conocimiento, sistemas de soporte de decisiones asistidos por IA y servicios de IA orientados al cliente.

 

Microsoft no respondió de inmediato a la solicitud de comentarios de Dark Reading sobre el impacto del ataque en Copilot. Sin embargo, los investigadores mencionaron que la empresa ha estado trabajando en "estrategias prácticas de mitigación" para abordar el potencial de ataque en el desarrollo de su tecnología de IA. Este enfoque es clave para la defensa a largo plazo, que depende de "mejores modelos arquitectónicos" que busquen separar el plano de datos del plano de control.

 

Por el momento, las estrategias actuales de mitigación incluyen: controles de acceso a datos que limiten y revisen quién puede cargar, modificar o eliminar datos referenciados por los sistemas basados en RAG; auditorías de integridad de datos que verifiquen periódicamente la integridad de los repositorios de datos para detectar cambios no autorizados o la introducción de contenido malicioso; y segmentación de datos, que aísle los datos confidenciales de conjuntos de datos más amplios siempre que sea posible, para evitar la propagación de información corrupta en el sistema de IA.