StripeHyena-7B: la arquitectura de IA de próxima generación para mejorar el rendimiento y la eficiencia

por Infoblock

Los avances recientes en IA se han visto significativamente influenciados por la arquitectura Transformer, un componente clave en modelos grandes en diversos campos como el lenguaje, la visión, el audio y la biología. Sin embargo, la complejidad del mecanismo de atención del Transformer limita su aplicación en el procesamiento de secuencias largas. Incluso los modelos sofisticados como el GPT-4 luchan con esta limitación.

Martin Signoux de Meta predice los desarrollos del modelo de IA para 2024Martin Signoux de Meta predice los desarrollos del modelo de IA para 2024

Avance con la hiena rayada

Para abordar estos desafíos, Together Research recientemente abrió el código abierto StripeHyena, un modelo de lenguaje que cuenta con una arquitectura novedosa optimizada para contextos prolongados. StripeHyena puede manejar hasta 128.000 tokens y ha demostrado mejoras con respecto a la arquitectura Transformer tanto en el rendimiento de entrenamiento como de inferencia. Es el primer modelo que iguala el rendimiento de los mejores modelos Transformer de código abierto para contextos cortos y largos.

Percy Liang de la Universidad de Stanford encabeza la iniciativa de transparencia de la IAPercy Liang de la Universidad de Stanford encabeza la iniciativa de transparencia de la IA

Arquitectura híbrida de hiena rayada

StripeHyena incorpora una arquitectura híbrida, que combina atención de consultas agrupadas de múltiples cabezales con convoluciones cerradas dentro de bloques Hyena. Este diseño difiere de los modelos Transformer tradicionales solo con decodificador. Decodifica con memoria constante en bloques Hyena mediante la representación de convoluciones como modelos de espacio de estados o filtros truncados. Esta arquitectura da como resultado una latencia más baja, una decodificación más rápida y un mayor rendimiento en comparación con Transformers.

Los 10 principales avances de investigación de Meta AI de 2023Los 10 principales avances de investigación de Meta AI de 2023

Ganancias en capacitación y eficiencia

StripeHyena supera a los Transformers tradicionales en el entrenamiento de un extremo a otro para secuencias de tokens de 32k, 64k y 128k, con mejoras de velocidad del 30%, 50% y más del 100%, respectivamente. En términos de eficiencia de la memoria, reduce el uso de la memoria en más del 50% durante la generación autorregresiva en comparación con Transformers.

Desempeño comparativo con mecanismo de atención

StripeHyena logra una reducción significativa en la brecha de calidad con atención a gran escala, ofreciendo perplejidad y rendimiento posterior similares con menos costo computacional y sin la necesidad de atención mixta.

Aplicaciones más allá del procesamiento del lenguaje

La versatilidad de StripeHyena se extiende al reconocimiento de imágenes. Los investigadores han probado su aplicabilidad para reemplazar la atención en Transformers visuales (ViT), mostrando una precisión comparable en tareas de clasificación de imágenes en el conjunto de datos ImageNet-1k.

StripeHyena representa un importante paso adelante en la arquitectura de IA, ofreciendo una alternativa más eficiente al modelo Transformer, especialmente en el manejo de secuencias largas. Su estructura híbrida y su rendimiento mejorado en entrenamiento e inferencia lo convierten en una herramienta prometedora para una amplia gama de aplicaciones en el procesamiento del lenguaje y la visión.

Fuente de la imagen: Shutterstock

Content Protection by DMCA.com

TAMBIÉN PUEDE INTERESARTE