MITRE ATLAS es un framework que sistematiza las tácticas y técnicas empleadas por los actores maliciosos para atacar a los sistemas de Inteligencia Artificial
Tanto los organismos
públicos a cargo de velar por la ciberseguridad del tejido productivo y la
ciudadanía, como las compañías especializadas en ciberseguridad han alertado de
que la Inteligencia Artificial puede incrementar el número de ciberataques y su impacto.
Pero no debe preocuparnos, solo, el uso malicioso de sistemas de IA, sino
también la propia seguridad de los modelos de aprendizaje automático y de los
grandes modelos de lenguaje (LLM, por sus siglas en inglés).
Para contribuir al
fortalecimiento de la seguridad de los sistemas de Inteligencia Artificial, la
organización sin ánimo de lucro MITRE ha desarrollado MITRE ATLAS,
un framework que
sistematiza y define las tácticas y técnicas que pueden emplear los
actores hostiles para diseñar y ejecutar ataques contra grandes modelos de
lenguaje.
A continuación, vamos
a desgranar las claves de MITRE ATLAS y su utilidad a la hora
de comprender las tácticas, técnicas y procedimientos que los actores hostiles
pueden desplegar contra los sistemas de IA y anticiparse a ellos.
1. MITRE
ATT&CK, un framework clave para entender el modus operandi de los actores
hostiles
El marco MITRE
ATLAS tiene su origen en MITRE
ATT&CK. Este framework se ha consolidado como una herramienta
crítica empleada por profesionales de la ciberseguridad en todo el mundo.
Desde su creación en
el año 2014, MITRE ATT&CK ha sido clave para enfocar la
ciberseguridad de las empresas desde el punto de vista de los actores
maliciosos y no solo desde la perspectiva de las compañías.
A lo largo de esta
década, se han incorporando nuevas variantes al dominio tecnológico original,
centrado en las tácticas y técnicas que se pueden emplear para atacar redes
corporativas. De tal forma que MITRE ATT&CK cuenta con tres grandes
dominios tecnológicos:
- Enterprise. Que sistematiza la forma de
proceder de los ciberdelincuentes contra sistemas operativos como Windows,
macOS o Linux o contra los entornos de trabajo Cloud que emplean miles de
empresas en todo el mundo como Office o Google Workspace.
- Móvil. Con tácticas y técnicas específicas
empleadas para atacar dispositivos móviles, tanto Android como iOS.
- ICS. De cara a glosar cuáles son las TTPs
de los ataques contra sistemas de control industrial, una tecnología
crítica en múltiples sectores.
La revolución que se
está produciendo en el desarrollo de sistemas de IA y su creciente
implementación en el tejido productivo han propiciado la creación de MITRE
ATLAS. Este marco de trabajo unifica y ordena el conocimiento que se dispone, a
nivel global, sobre los ciberataques contra sistemas de IA.
De hecho, ATLAS es un
acrónimo de Adversarial Threat Landscape for Artificial-Intelligence Systems.
Es decir, «panorama de amenazas adversas para los sistemas de inteligencia
artificial». Y, al igual que MITRE ATT&CK, dispone de una matriz en la que se
ponen en relación las tácticas que emplean los actores hostiles y las técnicas
que deben utilizar para que las tácticas tengan éxito.
2. Tácticas
específicas que se emplean en los ciberataques contra sistemas de IA
En lo que respecta a
las tácticas de MITRE ATLAS, podemos comprobar que son, en esencia,
prácticamente las mismas que las de su framework padre. Si bien, no se incluyen
dos de las tácticas presentes en ATT&CK:
- Movimiento lateral.
- Comando y control.
Por contra, figuran
dos tácticas específicas para atacar sistemas de IA, centradas en menoscabar
los modelos de aprendizaje automático o Machine Learning sobre los que se
sustentan:
- Acceso al modelo de Machine Learning (ML).
- Etapa de ataque de Machine Learning.
Esto implica que la
matriz de MITRE ATLAS está conformada por 14 tácticas que van
desde las etapas de preparación de un ataque hasta la consecución de los
objetivos maliciosos y el impacto en el sistema de IA:
- Reconocimiento
- Desarrollo de recursos.
- Acceso inicial.
- Acceso al modelo de Machine Learning.
- Ejecución.
- Persistencia.
- Escalado de privilegios.
- Evasión de defensas.
- Acceso a credenciales.
- Descubrimiento.
- Recolección.
- Etapa de ataque de Machine Learning.
- Exfiltración.
- Impacto.
Detengámonos ahora,
brevemente, en qué consisten las dos tácticas que incorpora MITRE ATLAS con
respecto a ATT&CK.
2.1. Acceso al
modelo de Machine Learning
Mediante esta táctica,
los actores hostiles buscan lograr un nivel de acceso al modelo de
Machine Learning del sistema que desean atacar. De tal forma que en un
nivel máximo de acceso se logre obtener toda la información sobre cómo funciona
el modelo y sus elementos. Si bien, como señala MITRE ATLAS, los atacantes
pueden usar diversos niveles de acceso en el transcurso de las diferentes etapas
de un ataque.
Para acceder a un
modelo de Machine Learning, los actores hostiles pueden necesitar:
- Entrar en el sistema donde se alberga el
modelo. Por ejemplo, a través de una API.
- Tener acceso al entorno físico en el que
se lleva a cabo la recolección de los datos que nutren el modelo.
- Acceder de manera indirecta, interactuando
con un servicio que emplea dicho modelo en sus procesos.
¿Qué se busca al
acceder a un modelo de Machine Learning?
- Obtener información sobre el modelo.
- Desarrollar ataques contra él.
- Introducir datos en el modelo para
manipular o menoscabar su funcionamiento.
2.2. Etapa de
ataque de Machine Learning
Si la táctica anterior
es critica en las primeras fases de un ataque, esta táctica es esencial en los
últimos compases del mismo.
De hecho, los actores
hostiles emplean todo el conocimiento que disponen sobre el modelo de
aprendizaje automático y su capacidad de acceso al sistema de IA para
personalizar el ataque y poder lograr sus objetivos.
Para ello se pueden
emplear cuatro tipos de técnicas:
- Obtención de modelos que sirvan de proxy
del que se desea atacar.
De tal forma que se pueda simular el acceso al modelo de manera offline.
Para ello se pueden entrenar modelos, usar modelos pre-entrenados o
replicar modelos de las API de inferencia del sistema objetivo.
- Implementación de un backdoor en el modelo
de ML para lograr
persistir en el sistema y manipular su funcionamiento cuando se desee.
- Verificación de la eficacia del ataque empleando una API de inferencia o
mediante el acceso a una copia offline del modelo de ML. Gracias a esta
técnica se puede comprobar que el ataque ha sido bien desarrollado y es
posible realizarlo con éxito a posteriori.
- Creación de datos adversos dentro del
modelo para
manipular su comportamiento y lograr que se produzcan determinados
efectos.
3. MITRE ATLAS
dibuja un mapa de técnicas para socavar los grandes modelos de lenguaje
Precisamente, si las
tácticas son las vigas de MITRE ATLAS, las técnicas son sus
columnas. De tal forma que junto a cada táctica se glosan las diversas técnicas
que pueden emplear los actores hostiles para llevarlas a cabo con éxito.
MITRE ATLAS lista y
define 56 técnicas, una cifra
notablemente inferior a las 196 técnicas incluidas en la matriz Enterprise de
MITRE ATT&CK.
Estas 56 técnicas nos
permiten obtener una panorámica amplia y precisa sobre cómo se pueden diseñar y
ejecutar ataques contra los sistemas de IA.
De hecho, aunque la
mayoría de las tácticas de MITRE ATLAS sean comunes con el framework original,
lo cierto es que las técnicas son específicas para la Inteligencia
Artificial. Por ejemplo, en la táctica de descubrimiento podemos
encontrarnos con cuatro técnicas:
- Descubrir la ontología del modelo de
Machine Learning que se desea atacar.
- Descubrir la familia de modelos de Machine
Learning del objetivo.
- Identificar los artefactos de aprendizaje
automático que existen en el sistema que se desea atacar.
- Acceder al meta prompt o instrucciones
iniciales de un gran modelo de lenguaje (LLM). De tal forma que mediante
la ingeniería de prompts se pueda robar la propiedad intelectual de una
compañía que desarrolla el sistema de IA.
Además, varias
técnicas incluyen sub-técnicas para detallar con mayor precisión los
procedimientos que pueden seguir los actores hostiles y los medios que emplean
para lograr sus objetivos tácticos. Por ejemplo, tres de las cuatro técnicas de
la etapa de ataque de Machine Learning que detallamos antes disponen de varias
sub-técnicas.
4. ¿Cómo se pueden
prevenir las técnicas de los actores hostiles según MITRE ATLAS?
Más allá de
sistematizar y definir las tácticas y técnicas que pueden emplear los atacantes
contra los sistemas de Inteligencia Artificial, MITRE ATLAS también
incluye otros dos elementos de gran valor añadido en la prevención de
los ataques contra los sistemas de IA y sus modelos:
- Casos de estudio para comprender mejor
cómo funcionan los ataques y cuál puede ser su impacto en un sistema de
Inteligencia Artificial. MITRE ATLAS cuenta con múltiples casos de estudio
que cubren un amplio abanico de características de los ataques:
- Tipología de los ataques: envenenamiento
de modelos, replicación de modelos, etc.
- Actores que pueden llevarlos a cabo.
- Particularidades de los sistemas de IA y
sus modelos: ataques a sistemas de Machine Learning as a Service, modelos
alojados en las instalaciones de una empresa o Cloud, etc.
- Casos de uso de los sistemas de IA. Por
ejemplo, sistemas empleados en ámbitos especialmente sensibles como el de
la ciberseguridad, pero también en otros que no lo resultan tanto, como
pueden ser los chatbots de atención al cliente.
- Procedimientos que se pueden emplear
para mitigar las técnicas maliciosas y evitar incidentes de
seguridad. MITRE ATLAS incluye hasta 20 conceptos de seguridad o tipos
de tecnologías de gran utilidad para enfrentarse a las técnicas de los
actores hostiles. Estos procedimientos van desde limitar la información
sobre un sistema que se hace púbica hasta llevar a cabo un control
exhaustivo de quién puede acceder a los modelos de aprendizaje automático
y a los datos con que se nutren durante la fase de producción. Además de
otras recomendaciones clave como formar a los desarrolladores de
modelos de Machine Learning en ciberseguridad para que
implementen prácticas de codificación seguras o realizar escaneos de
vulnerabilidades continuos para detectar y remediar debilidades antes de
que sean explotadas.
5. MITRE ATLAS, una
herramienta al servicio de Threat Hunters y Red Teams
Al igual que sucede
con MITRE ATT&CK, este framework es una herramienta de enorme utilidad para
los profesionales a cargo de dos servicios
de ciberseguridad esenciales para mejorar la resiliencia
de los sistemas de IA y proteger a las empresas que los desarrollan
y/o los emplean en su día a día: Threat
Hunting y Red
Team.
5.1. Servicios de
Threat Hunting
Los Threat Hunters
investigan constantemente escenarios de compromiso que aún no ha sido
detectado. De esta manera, pueden ser proactivos en la detección de amenazas.
Además, emplean la telemetría que proporcionan las tecnologías EDR/XDR
para detectar actividad maliciosa y obtener información de
gran valor sobre las tácticas, técnicas y procedimientos de los actores
hostiles que desean menoscabar sistemas de IA.
De ahí que MITRE
ATLAS sea una guía de trabajo de gran utilidad y permita estandarizar
a nivel mundial las TTPs específicas de los ciberataques contra sistemas de IA.
Los servicios de
Threat Hunting son claves a la hora de:
- Mejorar las capacidades de detección de
amenazas.
- Identificar las tácticas y técnicas
maliciosas en las primeras etapas de los ataques.
- Anticiparse a los actores maliciosos e
impedir que logren sus objetivos.
5.2. Servicios de
Red Team
El conocimiento
generado por los servicios de Threat Hunting es esencial a la hora de diseñar y
ejecutar un escenario de Red Team específico que permita evaluar cómo
respondería una empresa que desarrolla IA o una compañía que emplea un sistema
de Inteligencia Artificial ante un ataque.
MITRE ATLAS es de
enorme ayuda a la hora de planificar el escenario pactando con la compañía el
tipo de actor malicioso que se va a simular, el vector de intrusión y los
objetivos.
Gracias a un servicio de Red Team es posible mejorar la resiliencia de una
organización frente a los ataques contra sistemas de IA propios o de terceros,
formar a los equipos defensivos para hacer frente a las técnicas maliciosas
contra sistemas de IA y optimizar las capacidades de detección y respuesta.
Habida cuenta de que
nos encontramos inmersos en la revolución de la Inteligencia Artificial y que
la investigación en torno a esta tecnología está en pleno apogeo, es posible
que el panorama de amenazas de los sistemas de IA sufra
grandes cambios en los próximos años.
MITRE ATLAS ofrece a los expertos en ciberseguridad
un marco de trabajo común para comprender las tácticas y técnicas
hostiles, así como los procedimientos para mitigarlas. De ahí que a la luz
de la experiencia de los profesionales el framework irá completándose para
incorporar todas las TTPs que se vayan diseñando e implementando.