El Modelo de Lenguaje Grande (LLM) Gemini de Google es Susceptible a Amenazas de Seguridad.

XPoint
Publicado el 13/03/2024

13 de marzo de 2024

Modelos de Lenguaje Grande / Seguridad de IA Inteligencia Artificial Gemini de Google

 

El modelo de lenguaje grande (LLM) Gemini de Google es susceptible a amenazas de seguridad que podrían hacer que revele instrucciones del sistema, genere contenido perjudicial y lleve a cabo ataques de inyección indirecta.

Los hallazgos provienen de HiddenLayer, que dijo que los problemas afectan a los consumidores que utilizan Gemini Advanced con Google Workspace, así como a las empresas que utilizan la API de LLM.

La primera vulnerabilidad implica eludir las barreras de seguridad para filtrar las instrucciones del sistema (o un mensaje del sistema), que están diseñadas para establecer instrucciones en toda la conversación para ayudar al LLM a generar respuestas más útiles, pidiendo al modelo que produzca sus «instrucciones fundamentales» en un bloque de markdown.

«Un mensaje del sistema se puede utilizar para informar al LLM sobre el contexto», señala Microsoft en su documentación sobre la ingeniería de instrucciones de LLM.

«El contexto puede ser el tipo de conversación en la que participa o la función que se supone que debe realizar. Ayuda al LLM a generar respuestas más apropiadas».

Ciberseguridad Esto es posible debido a que los modelos son susceptibles a lo que se llama un ataque de sinónimos para eludir las defensas de seguridad y las restricciones de contenido.

Una segunda clase de vulnerabilidades se relaciona con el uso de técnicas de «jailbreaking astuto» para hacer que los modelos Gemini generen información errónea sobre temas como las elecciones, así como para producir información potencialmente ilegal y peligrosa (por ejemplo, arrancar un automóvil) utilizando una instrucción que le pide entrar en un estado ficticio.

HiddenLayer también identificó una tercera deficiencia que podría hacer que el LLM filtre información en la instrucción del sistema al pasar tokens poco comunes repetidos como entrada.

«La mayoría de los LLM están entrenados para responder a consultas con una clara delimitación entre la entrada del usuario y la instrucción del sistema», dijo el investigador de seguridad Kenneth Yeung en un informe del martes.

«Al crear una línea de tokens sin sentido, podemos engañar al LLM para que crea que es hora de que responda y hacer que emita un mensaje de confirmación, generalmente incluyendo la información de la instrucción».

Otra prueba implica el uso de Gemini Advanced y un documento de Google especialmente creado, con este último conectado al LLM a través de la extensión de Google Workspace.

Las instrucciones en el documento podrían diseñarse para anular las instrucciones del modelo y realizar un conjunto de acciones maliciosas que permitan a un atacante tener control total de las interacciones de la víctima con el modelo.

La divulgación se produce cuando un grupo de académicos de Google DeepMind, ETH Zurich, University of Washington, OpenAI y McGill University reveló un novedoso ataque de robo de modelos que permite extraer «información precisa y no trivial de modelos de lenguaje de producción de cajas negras como ChatGPT de OpenAI o PaLM-2 de Google».

Ciberseguridad Dicho esto, cabe destacar que estas vulnerabilidades no son novedosas y están presentes en otros LLM en toda la industria. Los hallazgos, si acaso, enfatizan la necesidad de probar modelos para ataques de instrucciones, extracción de datos de entrenamiento, manipulación de modelos, ejemplos adversarios, envenenamiento y fuga de datos.

«Para ayudar a proteger a nuestros usuarios de vulnerabilidades, realizamos constantemente ejercicios de red teaming y entrenamos nuestros modelos para defenderse contra comportamientos adversarios como la inyección de instrucciones, el jailbreaking y ataques más complejos», dijo un portavoz de Google a The Hacker News. «También hemos implementado salvaguardias para evitar respuestas dañinas o engañosas, que estamos mejorando continuamente».

La compañía también dijo que está restringiendo las respuestas a consultas relacionadas con elecciones por precaución. Se espera que la política se aplique a instrucciones sobre candidatos, partidos políticos, resultados electorales, información de votación y titulares de cargos notables.

Preguntas frecuentes

¿Qué son y cómo funcionan los Modelos de Lenguaje de Gran Tamaño?

+

Los modelos de lenguaje de gran tamaño (LLM) son modelos de aprendizaje profundo muy grandes que se preentrenan con grandes cantidades de datos.

Se basan en el aprendizaje automático: en concreto, en un tipo de red neuronal llamado modelo transformador. En términos más sencillos, un LLM es un programa informático al que se le han dado suficientes ejemplos para que sea capaz de reconocer e interpretar el lenguaje humano u otros tipos de datos complejos.

¿Qué es un CyberSOC?

+

CyberSOC es una abreviatura de Centro de Operaciones de Ciberseguridad (en inglés, Cybersecurity Operations Center). Un CyberSOC es un componente clave en la infraestructura de Ciberseguridad de una organización. Su función principal es Monitorear, Detectar, Analizar y Responder a Ciberamenazas en tiempo real. El Equipo de un CyberSOC está compuesto por profesionales con experiencia en análisis de amenazas, forense digital, inteligencia de amenazas y otros campos relacionados.

¿Qué es el Phishing Ético?

+

El Phishing Ético es una servicio que consiste en realizar actividades de Ingeniería Social con propósitos legítimos y éticos, generalmente como parte de una Campaña de Concientización, Evaluación de Seguridad, Prueba de un Pentesting o Red Team.

Para más información ingresa aquí: https://www.xpoint.cl/phishing-etico/

¿Qué es el Hacking Ético?

+

El Hacking Ético, Ethical Hacking o Pentesting es una práctica de ciberseguridad en la que profesionales, conocidos como «hackers éticos» o «expertos en seguridad», utilizan sus habilidades para identificar y corregir vulnerabilidades en sistemas, redes y aplicaciones. A diferencia de los hackers maliciosos, los hackers éticos trabajan con el permiso del propietario del sistema para mejorar su seguridad. El proceso de hacking ético generalmente incluye la evaluación de la seguridad, la identificación de posibles vulnerabilidades, la recomendación de soluciones y, a menudo, la realización de pruebas de penetración controladas para fortalecer la ciberseguridad de una organización. Este enfoque ayuda a prevenir ataques maliciosos y a proteger la integridad y privacidad de la información.

¿Qué es un Red Team en Ciberseguridad?

+

Un Red Team en ciberseguridad es un grupo de profesionales que simulan ser adversarios externos para evaluar la seguridad de un sistema o red. Utilizan tácticas similares a las de ciberdelincuentes reales, llevan a cabo pruebas de penetración, analizan riesgos y proporcionan recomendaciones para mejorar la seguridad. Su enfoque proactivo ayuda a las organizaciones a identificar y abordar vulnerabilidades, fortaleciendo así sus defensas contra amenazas potenciales.

¿Qué es la Gestión de Vulnerabilidades?

+

La gestión de vulnerabilidades es un proceso integral que se centra en identificar, evaluar y abordar las debilidades en la seguridad de un sistema o red. Este proceso sigue varios pasos clave:

  1. Identificación de Vulnerabilidades
  2. Evaluación de Riesgos
  3. Priorización
  4. Mitigación y Solución
  5. Seguimiento Continuo
  6. Comunicación y Documentación
  7. Formación y Concienciación

La gestión de vulnerabilidades es esencial para mantener la seguridad de la información en un entorno digital en constante cambio, minimizando el riesgo de explotación y fortaleciendo las defensas contra posibles amenazas.

¿Tienes dudas?, contáctanos