Ponente
Descripción
Antecedentes: La inteligencia artificial ha avanzado notablemente desde la introducción de los Transformers en 2017, pero estos modelos enfrentan desafíos en eficiencia y escalabilidad. Mamba surge como una
alternativa innovadora para superar estas limitaciones. Este informe analiza las restricciones de los Transformers, el desarrollo de Mamba y su impacto en la IA, proporcionando una visión clara de su relevancia
y potencial en el procesamiento de secuencias de datos. La investigación abarca desde la presentación de Mamba el 1 de diciembre de 2023 hasta la actualidad. Objetivos: Evaluar la efectividad de Mamba como alternativa escalable y eficiente a los Transformers en el procesamiento de secuencias largas, impulsando su aplicación en inteligencia artificial a nivel nacional. Identificar las limitaciones de los Transformers en
eficiencia y escalabilidad. Comparar el rendimiento de Mamba y Transformers en procesamiento de lenguaje y aprendizaje. Analizar las variantes de Mamba y su impacto en aplicaciones prácticas. Resultados:
Análisis de la arquitectura Transformers y de sus limitaciones en el manejo de secuencias largas de datos Complejidad computacional: La arquitectura Transformer usa autoatención para calcular relaciones entre
tokens, lo que genera una complejidad computacional cuadrática. A medida que la secuencia crece, los cálculos aumentan exponencialmente, elevando el consumo de recursos y limitando la eficiencia en el procesamiento de secuencias largas debido a la carga computacional elevada durante la inferencia.