Google DeepMind: la sutil manipulación de imágenes adversarias influye tanto en el modelo de IA como en la percepción humana

por Infoblock

Una investigación reciente de Google DeepMind ha revelado una sorprendente intersección entre la visión humana y la artificial, particularmente en su susceptibilidad a imágenes adversas. Las imágenes adversas son imágenes digitales sutilmente alteradas para engañar a los modelos de IA, haciéndolos clasificar erróneamente el contenido de la imagen. Por ejemplo, la IA podría clasificar erróneamente un jarrón como un gato.

El estudio publicado en «Nature Communications» titulado «Las sutiles manipulaciones de imágenes adversarias influyen en la percepción humana y de las máquinas» realizó una serie de experimentos para investigar el impacto de las imágenes adversas en la percepción humana. Estos experimentos descubrieron que, si bien las perturbaciones adversas engañan significativamente a las máquinas, también pueden influir sutilmente en la percepción humana. En particular, el efecto sobre la toma de decisiones humanas fue consistente con las clasificaciones erróneas realizadas por los modelos de IA, aunque no tan pronunciadas. Este descubrimiento subraya la relación matizada entre la visión humana y artificial, mostrando que ambas pueden verse influenciadas por perturbaciones menores en una imagen, incluso si las magnitudes de las perturbaciones son pequeñas y los tiempos de visualización se extienden.

La investigación de DeepMind también exploró las propiedades de los modelos de redes neuronales artificiales (RNA) que contribuyen a esta susceptibilidad. Estudiaron dos arquitecturas de ANN: redes convolucionales y arquitecturas de autoatención. Las redes convolucionales, inspiradas en el sistema visual de los primates, aplican filtros locales estáticos en todo el campo visual, construyendo una representación jerárquica. Por el contrario, las arquitecturas de autoatención, originalmente diseñadas para el procesamiento del lenguaje natural, utilizan operaciones no locales para la comunicación global en todo el espacio de la imagen, lo que muestra un sesgo más fuerte hacia las características de forma que hacia las características de textura. Se descubrió que estos modelos estaban alineados con la percepción humana en términos de dirección del sesgo. Curiosamente, las imágenes adversas generadas por modelos de autoatención tenían más probabilidades de influir en las elecciones humanas que las generadas por modelos convolucionales, lo que indica una alineación más cercana con la percepción visual humana.

La investigación destaca el papel fundamental de las estadísticas sutiles y de orden superior de las imágenes naturales a la hora de alinear la percepción humana y la de las máquinas. Tanto los humanos como las máquinas son sensibles a estas sutiles estructuras estadísticas en las imágenes. Esta alineación sugiere una vía potencial para mejorar los modelos de ANN, haciéndolos más robustos y menos susceptibles a ataques adversarios. También señala la necesidad de seguir investigando las sensibilidades compartidas entre la visión humana y artificial, lo que podría proporcionar información valiosa sobre los mecanismos y teorías del sistema visual humano. El descubrimiento de estas sensibilidades compartidas entre humanos y máquinas tiene implicaciones significativas para la seguridad de la IA, lo que sugiere que las perturbaciones adversas podrían explotarse en entornos del mundo real para sesgar sutilmente la percepción y la toma de decisiones humanas.

En resumen, esta investigación presenta un importante paso adelante en la comprensión de la intrincada relación entre la percepción humana y la máquina, destacando las similitudes y diferencias en sus respuestas a imágenes adversas. Subraya la necesidad de realizar investigaciones continuas sobre la seguridad de la IA, particularmente para comprender y mitigar los posibles impactos de los ataques adversarios tanto en los sistemas de IA como en la percepción humana.

Fuente de la imagen: Shutterstock

TAMBIÉN PUEDE INTERESARTE