Introducción a la Seguridad en AI

¿Qué es la Seguridad en AI ?

Contenidos ocultar

1 ¿Qué es la Seguridad en AI ?

2 ¿Qué son ataques relacionados a AI?

3 Suscríbete hoy a nuestros cursos Exploratorios

4 Síguenos en Redes Sociales

5 Introducción a la Seguridad en AI – Parte 2

6 Introducción a la Seguridad en AI

7 5 pilares para Hackers o Profesionales en Ciberseguridad desde una perspectiva técnica

7.1 Comparte esto:

Cuando hablamos de Seguridad en AI (Artificial Intelligence o Inteligencia Artificial), hablamos de herramientas, estrategias y procesos que son implementados para identificar y prevenir amenazas y ataques que puedan comprometer la confidencialidad, integridad o disponibilidad de un modelo de AI o un sistema que tiene habilitada AI. La seguridad en esta tecnología es un componente crítico dentro de su ciclo de desarrollo, para asegurar la protección de información y un rendimiento constante en la operación.

En adición a las vulnerabilidades tradicionales existentes en el área de ciberseguridad, la incorporación de sistemas de AI introduce nuevos vectores de amenaza y vulnerabilidades que requieren un nuevo planteamiento de procedimientos de seguridad. Identificar y mitigar las vulnerabilidades en estos sistemas que tienen disponibilidad de capacidades de AI es una parte integral de la seguridad de AI y requiere capacidades operacionales técnicas de respuesta a estos desafíos.

En esta introducción queremos describir amenazas comunes a sistemas con AI habilitada los cuales se encuentran documentados en MITRE ATLAS y en investigaciones activas relacionadas a seguridad y el ciclo de vida de AI.

¿Qué son ataques relacionados a AI?

La incorporación de AI a sistemas de información con otros componentes puede hacer que los sistemas sean susceptibles a ataques novedosos específicamente pensados para la AI. Las técnicas que los adversarios usan para ejecutar estos ataques, son diferentes a las técnicas comunes de ataques que ya conocemos. Es fundamental la comprensión de técnicas usadas por los adversarios con el fin de que los equipos puedan mitigar los riesgos asociados a la incorporación de AI en sus tecnologías.

Para una mejor comprensión del amplio rango de ataques efectivos que pueden usar las amenazas contra sistemas que tienen habilitada AI, es importante tener claros tres conceptos que definen la ruta de ataque de los adversarios a esta tecnología

Tiempo de Acceso a la AI
Puntos de Acceso a la AI
Conocimiento del Sistema

El tiempo de acceso a la AI se puede dividir en dos etapas: entrenamiento e inferencia.

La etapa de entrenamiento es el proceso que incluye la recolección y procesamiento de datos, el entrenamiento del modelo y la validación del desempeño del modelo. El final de la etapa de entrenamiento y el inicio de la etapa de inferencia ocurre una vez que el modelo es desplegado.
En la etapa de inferencia, los usuarios envían peticiones y el modelo responde con predicciones, clasificaciones, o contenido generativo, que es conocido como resultados (o inferencias).

Los puntos de acceso a la AI pueden ser digitales o físicos. Un punto común de acceso dentro de los sistemas que tienen capacidades de AI habilitada es el acceso por medio de la API (Aplication Programming Interface), donde un adversario puede interactuar con la el modelo, enviando peticiones y observando su respuesta.

Un punto de acceso físico es usado cuando un adversario interactúa con datos del mundo real e influencia el comportamiento del modelo modificando fisicamente los datos recolectados.

El conocimiento del sistema se refiere a la cantidad de información que el adversario conoce acerca de los componentes de Machine Learning del sistema. Este conocimiento puede variar desde white-box (caja blanca), donde los adversarios tienen acceso a la arquitectura del modelo, pesos del modelo y los datos de entrenamiento, a black-box (caja negra) donde el acceso y conocimiento es limitado a entradas y respuestas de salida durante la etapa de inferencia.

De manera general a continuación les compartimos una descripción de alto nivel de los ataques generados por adversarios y sus posibles efectos en sistemas con AI habilitada. La lista completa con mayor detalle se encuentra en la Matriz de ATLAS de MITRE.

Ataques de Envenenamiento – El atacante modifica los datos usados para entrenar el sistema de AI para obtener una salida deseada en la etapa de inferencia. Con la influencia sobre los datos de entrenamiento, un atacante puede crear puertas traseras (backdoors) en el modelo, dónde una entrada puede ser un disparador especifico que genere una salida particular.
Ataques de Evasión – El atacante obtiene una respuesta incorrecta de un modelo mediante la elaboración de entradas manipuladas. Normalmente, estas entradas están diseñadas para que no se puedan distinguir de los datos normales. Estos ataques pueden ser dirigidos, donde el atacante intenta producir una clasificación específica, o no dirigidos, donde intenta producir una clasificación incorrecta.
Extracción Funcional – Un atacante recupera un modelo funcionalmente equivalente consultando iterativamente el modelo. Esto permite a un atacante examinar una copia local del modelo (estilo white-box) antes de seguir atacando el modelo en línea.
Ataque de Inversión – El atacante recupera información sensible relacionada a los datos de entrenamiento. Esto puede incluir la reconstrucción completa de los datos, o atributos o propiedades de los datos. Esto puede ser un ataque exitoso por si mismo o puede ser usado para realizar otros tipos de ataques como la evasión del modelo.
Ataque de inyección de prompt – Un atacante manipula de manera maliciosa un prompt como entrada de un LLM (Large Language Model) lo que causa que el modelo se comporte de maneras inesperadas. Estas inyecciones son diseñadas para causar que el modelo ignore aspectos de sus instrucciones originales y siga las instrucciones de un atacante.

En la segunda parte de este post discutiremos cómo la seguridad se ajusta a los modelos de vida de tecnologías relacionadas a AI.