Explorando la seguridad de los modelos de IA: análisis de protecciones y ataques de inyección de reclamaciones

Después de su difusión en muchos campos, la dependencia de los modelos de inteligencia artificial para diversos fines está aumentando, pero a medida que aumenta esta dependencia, también aparecen nuevos desafíos de seguridad. Uno de esos desafíos es el ataque de inyección de reclamos de IA, que apunta a modelos inteligentes con la intención de manipular sus resultados.

La IA afirma que los ataques envenenan la salida de las herramientas de IA que dependen de ellos, alterando y manipulando su salida para convertirla en algo malicioso. Pero, ¿cómo funciona un ataque de inyección de reclamos de IA y cómo puede protegerse? Verificar ¿Valen la pena las reclamaciones premium de IA?

Exploración de la seguridad del modelo de IA: análisis y protecciones de ataques de inyección de reclamaciones - 1pbefYWUwH9iW8T1cM4VP Q DzTechs | inteligencia artificial

¿Qué es un ataque de inyección de reclamaciones de IA?

Los ataques de inyección de afirmaciones de IA aprovechan las vulnerabilidades de los modelos generativos de IA para manipular su producción. Puede realizarlos usted mismo o inyectarlos un usuario externo mediante un ataque de inyección de reclamo indirecto. Los ataques DAN (Do Anything Now) no suponen ningún riesgo para usted, el usuario final, pero otros ataques son teóricamente capaces de envenenar la salida que recibe de la IA generativa.

Por ejemplo, alguien podría manipular un modelo de IA para pedirle que ingrese ilegalmente su nombre de usuario y contraseña, utilizando la autoridad y credibilidad de la IA para que un ataque de phishing tenga éxito. En teoría, la IA autónoma (capaz de leer y responder mensajes) también podría recibir y actuar según instrucciones externas no deseadas.

El ataque depende de la comprensión que tenga el hacker de cómo funciona el modelo de IA y cómo reacciona a las entradas. En el caso de la inyección de afirmaciones de IA, se ingresan datos elaborados con fines malintencionados para manipular los resultados del modelo. Por ejemplo, si un modelo recibe información relacionada con una taxonomía, un pirata informático podría ingresar datos engañosos para orientar el modelo hacia una taxonomía incorrecta.

El éxito de este tipo de ataque depende de una comprensión cuidadosa del diseño del modelo y del análisis de los datos utilizados en el entrenamiento. Las técnicas de protección, como la validación de datos y la complejidad del modelo, intentan reducir las posibilidades de éxito de los ataques de inyección de reclamaciones de IA. Verificar ¿Qué son los ataques hostiles contra los modelos de IA y cómo puede detenerlos?

¿Cómo funcionan los ataques de inyección de reclamos?

Los ataques de inyección de reclamos funcionan alimentando instrucciones adicionales a la IA sin el consentimiento o conocimiento del usuario. Los piratas informáticos pueden lograr esto de varias maneras, incluidos los ataques DAN y los ataques indirectos de inyección de reclamos.

Ataques DAN (Haz cualquier cosa ahora)

Exploración de la seguridad del modelo de IA: análisis y protecciones de ataques de inyección de reclamaciones - 19G0Rg0OsJHLKZrRPkknLOw DzTechs | inteligencia artificial

Los ataques DAN (Do Anything Now) son un tipo de ataque de inyección de reclamos que implica hacer jailbreak a modelos de IA generativa como ChatGPT. no dar forma Estos ataques de jailbreak Es peligroso para usted como usuario final, pero amplía el poder de la IA, permitiéndole convertirse en una herramienta de abuso.

Por ejemplo, utilice El investigador de seguridad Alejandro Vidal Se le pide a DAN que haga que el modelo GPT-4 de OpenAI genere código Python para el keylogger. Cuando se utiliza maliciosamente, un ataque jailbreak reduce significativamente las barreras basadas en habilidades asociadas con el delito cibernético y puede permitir que nuevos piratas informáticos lancen ataques más sofisticados.

Ataques de envenenamiento de datos de entrenamiento

Los ataques de envenenamiento de datos de entrenamiento para modelos de IA no pueden clasificarse como ataques de inyección de reclamos, pero guardan similitudes notables en cómo funcionan y los riesgos que representan para los usuarios. A diferencia de los ataques de inyección de reclamos, los ataques de envenenamiento de datos de entrenamiento son un tipo de ataque de aprendizaje automático adversario que ocurre cuando un pirata informático modifica los datos de entrenamiento utilizados por un modelo de IA. Ocurre el mismo resultado: producción tóxica y modificación del comportamiento.

Las aplicaciones potenciales de los ataques de envenenamiento de datos de entrenamiento son prácticamente ilimitadas. Por ejemplo, en teoría, los datos de entrenamiento de la IA utilizados para filtrar los intentos de phishing desde una plataforma de chat o correo electrónico podrían modificarse. Si el hacker le enseña al modelo de IA que ciertos tipos de intentos de phishing son aceptables, puede enviar mensajes de phishing repetidamente sin ser detectado.

Los ataques de envenenamiento de datos de entrenamiento no pueden dañarlo directamente, pero pueden hacer posibles otras amenazas. Si desea protegerse de estos ataques, recuerde que la IA no es infalible y que debe examinar todo lo que encuentre en línea. Verificar Tu guía completa para proteger tu privacidad en la era de la inteligencia artificial.

Ataques indirectos de inyección de reclamaciones

Los ataques de inyección de reclamaciones son el tipo de ataque que suponen el mayor riesgo para usted, el usuario final. Estos ataques ocurren cuando se envían instrucciones maliciosas a la IA generadas por un recurso externo, como una llamada a la interfaz de programación de aplicaciones (API), antes de que reciba la entrada requerida.

Exploración de la seguridad del modelo de IA: análisis y protecciones de ataques de inyección de reclamaciones - 1F1DO6dbE3unwy3xDFNhvGA DzTechs | inteligencia artificial

Un artículo titulado “Compromiso en el mundo real de aplicaciones integradas en LLM mediante un ataque de inyección de reclamo indirecto” mostró... arXiv [PDF] Un ataque teórico en el que se podría dirigir una IA para convencer a un usuario de que se registre en un sitio web de phishing dentro de la respuesta, utilizando texto oculto (invisible al ojo humano pero perfectamente legible para el modelo de IA) para ingresar información subrepticiamente . Otro ataque llevado a cabo por el mismo equipo de investigación documentado en GitHub Un ataque en el que Copiloto (anteriormente conocido como Bing Chat) para convencer al usuario de que es un agente de soporte en vivo que busca información de su tarjeta de crédito.

Los ataques indirectos de inyección de afirmaciones representan una amenaza porque pueden manipular las respuestas que recibe de un modelo de IA confiable, pero esa no es la única amenaza que representan. Como se mencionó anteriormente, también puede hacer que cualquier modelo de IA autónomo que esté utilizando se comporte de maneras inesperadas y potencialmente dañinas.

¿Son los ataques de inyección de reclamaciones de IA una amenaza?

Ciertamente, la IA afirma que los ataques de inyección representan una amenaza, pero no se sabe exactamente cómo se pueden explotar estas vulnerabilidades. No existen ataques de inyección de IA exitosos y muchos intentos conocidos han sido llevados a cabo por investigadores que no tenían ninguna intención real de causar daño. Sin embargo, muchos investigadores de IA consideran que los ataques de inyección de afirmaciones de IA son uno de los desafíos más difíciles en la implementación de la seguridad de la IA.

Además, la amenaza de tales ataques no ha pasado desapercibida para las autoridades. Según el periódico El Correo de WashingtonEn julio de 2023, la Comisión Federal de Comercio investigó OpenAI en busca de más información sobre incidentes conocidos de ataques de inyección de reclamaciones. Se sabe que hasta ahora ningún ataque ha tenido éxito después de las pruebas, pero es probable que eso cambie.

Los piratas informáticos buscan constantemente nuevos métodos y sólo podemos adivinar cómo utilizará un pirata informático los ataques de inyección de reclamaciones en el futuro. Puede protegerse aplicando siempre un buen escrutinio a las respuestas de su modelo de IA. En esto, los modelos de IA son increíblemente útiles, pero es importante recordar que tienes algo que la IA no tiene: el juicio humano. Recuerde, debe examinar detenidamente los resultados que recibe de herramientas como Copilot y disfrutar utilizando las herramientas de IA a medida que evolucionan y mejoran. Puedes ver ahora Lograr el autoaprendizaje de las computadoras: ¿pueden los sistemas inteligentes ganar sentido común?

Ir al Inicio